Sophie: zemberek-docs-2.1.1-8.mga7 armv7hl

zemberek-docs-2.1.1-8.mga7.armv7hl.rpm

TSpell Notlar

Haziran 2004

1. Kok seciciler ve Performans
Ne yazÄ±k ki hash secici istediÄim performansÄ± saÄlayamadÄ±, bir iki temizlik ve
numara ekleyip yaklaÅÄ±k 280.000 kÃ¶k/s de sabitledim, aslÄ±nda yapÄ±labilcek bir kaÃ§ Åey
daha var. 
- String sÄ±nÄ±fÄ±nÄ±n toCharArray() metodu oldukÃ§a yavaÅ, eÄer kÃ¶k seÃ§iciye doÄrudan bir 
karakter dizisi gÃ¶nderirsek %15-20 hÄ±zlanabilir. 
- Karsilastirma icin bir tur ozel hash degeri kullanilabilir, bu da %5-10 arasi bir getiri 
yapabilir.
Ancak basit yapÄ±lÄ± MapSecici zaten yaklasik 240.000 lik bir peformansa sahip
o yuzden eziyete deÄer mi bilinmez, en iyisi Åimdilik bu Ã§alÄ±ÅmayÄ± ikinci plana atmak.
Tabi MapSecicinin her zaman dogru adaylari getirmedigi bir gercek fakat gene de elde
edecegimiz %20-25 lik ekstar performans icin simdilik kasmaya gerek yok.; 

2.Kelimeler
(TurkceHarf <- HarfDizisi <- Kelime) Su anda kullanmakta olduÄumuz bu yapÄ±nÄ±n yerine
(char[] <- Kelime) Åeklinde bir basitleÅmeye gitmenin getirisi ve gÃ¶tÃ¼rÃ¼sÃ¼ ne olur acaba?
Getiriler: Daha basit bir yapÄ± ve kolay debug, daha kÃ¼Ã§Ã¼k bellek ihtiyacÄ±
GÃ¶tÃ¼rÃ¼ler: Daha az modÃ¼ler ve nesneye yÃ¶nelimli yapÄ± (ancak iyileÅtirilebilir)
Belirsiz : Performans, nesnelerden doÄrudan Ã§aÄrÄ± ile yapÄ±lacak iÅler iÃ§in bazÄ± boolean
 kelime haritalarÄ± kullanÄ±lmasÄ± gerekecek. Ancak bunlar nesne oluÅturma ve Ã§aÄÄ±rma bedellerinden
 kÃ¼Ã§Ã¼kse daha iyi performans gÃ¶sterebilir. denenmeli.

Soru: Kelime sÄ±nÄ±fÄ±nÄ± "Java String" sÄ±nÄ±fÄ±nÄ±n TÃ¼rkÃ§e iÃ§in Ã¶zelleÅmiÅ bir versiyonu gibi kullanabilir miyiz?

.... 

Nisan - MayÄ±s 2004
Refactoring ihtiyacÄ±:
Bir kelime enflasyonumuz var ve Ã§Ã¶zÃ¼lmesi gerekiyor.
Elimizdeki kelime, kÃ¶k, sozluk kelimesi vs ye bir bakalÄ±m:

TurkceHarf : Tek bir turkce harfi ifade ediyor, harfin kendisi, sirasi, sert, yumusakligi vs gibi bilgileri tasiyor. 
HarfDizisi : TurkceHarf dizisi tasiyan bir container. karmasik karsilastirma, buyuyebilme gibi ozellikleri tasiyor
Kok    : Istitsnalari ve kelimenin yalin halini tutan sinif. istisnalarin ve degisime ugramis hallerin olusmasinda kullaniliyor.
Kelime : Icinde bir harf dizisi(HarfDizisi turunde) ve Kok tasiyan ana Kelime sinifi
SozlukKelime : [Miadi dolmus]Benim eski sozlugu okumak icin yapmis oldugum istisnai durumlari ve kelime tipini tasiyan sinif
SozlukKelimesi : SozlukKelime'nin yerini alan ve Kok karsilastirmasi isleminde kullanilan icinde istisnalari tasiyan Kok'u
                 ve kelimenin kendisini tasiyan sinif.
KelimeTuru : [Tartismali]aslinda bir enum. "bence bu sinif yokolabilir" bir kelimenin Turunu ifade etmek icin bu tur bir
sinifa ihtiyacimiz yok, icinde sadece debug icin bir String tasiyor, onun yerine Kelime veya SozlukKelimesi siniflarindan
birinin icine sabit int'ler koymak cok daha sade ve dogru.


- FilteringStream
MetinAraclari sinifinda hep benzeri isler yapiliyor, ozellikle injecterror ve ASCIIfyTurkish 
gibi minik araclar icin bir tÃ¼r FilePipe yapmak iyi olacak
soyle ki, bu pipe input olarak String, FileName veya Stream alabilecek,
output olarak ta gene ayni turden bir cikti verecek. tabi bir suru constructor gerekli.

Bir de StreamFilter arayuzu yapip FilteringStream'in okudugu karakterleri dizi olarak veya
kelime olarak belirtilen StreamFileter'e verebilir. StreamFilter okunan veriyi isler ve 
geri verir. Sonuc olarak her seferinde dosya ac, kapa , oku yapmak yerine bir FilteringStream
nesnesi olusturup uygun StreamFilter nesnesini - veya nesnelerini - register etmek yeterli 
olabilir. 

Bir ara yapacagim. Refactoring iyidir vesselam.


- 13 Mart 2004
Karakter kodlamasÄ±.. bela mÄ± bela. iÅin doÄrusu bu konuyu eskiden beri sevmezdim, konu TÃ¼rkÃ§e
olunca gene hortladÄ± tabi anÄ±nda. 

- 10 Mart 2004
Ä°statistikler.. YaptÄ±ÄÄ±mÄ±z iÅlemler sÄ±rasÄ±nda Ã§eÅitli istatistikleri de tutabiliriz, biraz
dÃ¼ÅÃ¼nelim, en basitinden en tuhafÄ±na kadar. Verilen bir metin iÃ§in:
YapÄ±sal olarak:

 - Harf sayÄ±sÄ±
 - Hece sayÄ±sÄ±
 - Kelime sayÄ±sÄ±
 - CÃ¼mle sayÄ±sÄ±
 - Hepsinin oranlarÄ± (En Ã§ok kullanÄ±lan harf, hece, kelime vs.)
 - Ortalama kelime uzunluÄu
 - Ortalama CÃ¼mle uzunluÄu
 - En uzun kelime
 - En uzun cÃ¼mle
 
 Imla denetimi ve Gramer yÃ¶nÃ¼nden :
 
 - isim, SÄ±fat, Fiil vs sayÄ±sÄ±  ve oranlarÄ±
 - En sÄ±k kullandÄ±ÄÄ± kelime, ek, hece
 - Kelime kÃ¶kenlerine gÃ¶re sayÄ±lar ve oranlarÄ± (ArapÃ§a, FransoÄ±ca vs.)
 - Denetim doÄruluk oranÄ±
 - Kelimelerin anlamsal tÃ¼rlerinin oranÄ± (Bilimsel, genel, hukuki vs)
 - Olumsuz cÃ¼mle oranÄ± ?
 - Soru cÃ¼mlesi sayÄ±sÄ± ?
 
 Gizli istatistikler
 - Genel TÃ¼rkÃ§e metinlerden sapma miktarÄ± (genel Ek sÄ±ralamasÄ±ndan sapma oranÄ± - cache-miss, 
   KÃ¶k adayÄ± vuru oranÄ± vs. Bu istatistik bizim bÃ¼yÃ¼k miktarda veriyi taramamÄ±zdan sonra 
   toplanabilir.) 
  
  TÃ¼m bu istatistikler herhangi bir metin iÃ§in bir rapor Åeklinde sunulabilse iyi olurdu sanÄ±rÄ±m.
 
SÃ¶zlÃ¼k iÅini ben aldÄ±m. Elimizdeki kÄ±smen dÃ¶nÃ¼ÅtÃ¼rÃ¼lmÃ¼Å sÃ¶zlÃ¼ÄÃ¼ bizim istediÄimiz formata
getireceÄim, diÄer taraftan da basit bir xml sÃ¶zlÃ¼k hazÄ±rlayacaÄÄ±m, hayÄ±rlÄ±sÄ±.

- 6 Mart 2004
Kelime sayÄ±sÄ± ile ilgili tahminim hatalÄ± olabilir, OsmanlÄ±ca kelimeleri ekleyince sayÄ± ikiyÃ¼zbini 
bulabiliyor sanÄ±rÄ±m.
Biraz sÃ¶zlÃ¼k Ã¼zerinde dÃ¼ÅÃ¼nelim, Ahmet'in bu konudaki bilgisi Ã§ok daha geniÅ.. Kabaca sayacak olursak;
 Kelimenin biÃ§imsel Ã¶zellikleri
  - TÃ¼rÃ¼ (isim, sÄ±fat, fiil, zarf, zamir, edat)
  - Orijini (TÃ¼rkÃ§e, ArapÃ§a, FarsÃ§a, FransÄ±zca ...)
  - Sonu sert sessizle mi bitiyor?
  - DÄer Ã¶zel durumlar (bunlar iÃ§in Ahmet Ã¶zel karakterler kullanÄ±yordu)
 Anlamsal Ã¶zellikler? 
  - SanÄ±rÄ±m bu konuda Åimdilik tam bir muamma..

AslÄ±nda sÃ¶zlÃ¼k giriÅi iÃ§in basit bir php veya java arayÃ¼zÃ¼ yapÄ±lÄ±p bilgiler bir Musql veritabanÄ±na
girilirse daha iyi olacakmÄ±Å gibi gÃ¶rÃ¼nÃ¼yor. binary ve xml sÃ¶zlÃ¼kler bu veritabanÄ± sorgulanarak
oluÅturulabilir.


- 5 Mart 2004

Ä°MLA DENETÄ°MÄ°
imla denetimi algoritmasÄ± kabaca Åu adÄ±mlardan oluÅuyor

1. SÃ¶zlÃ¼ÄÃ¼n okunmasÄ± : Sadece en baÅta yapÄ±lÄ±yor
   - SÃ¶zlÃ¼k geniÅleyebilir yapÄ±da, muhtemelen XML formatÄ±nda olacak, ayrÄ±ca bu sÃ¶zlÃ¼ÄÃ¼ binary
     formata dÃ¶nÃ¼ÅtÃ¼ren bir kÃ¼tÃ¼phane fonksiyonuna da ihtiyacÄ±mÄ±z olacak, ancak taban daima okunaklÄ±
     ve esnek olan XML sÃ¶zlÃ¼k olmalÄ±. Bu konuda yapÄ±lmÄ±Å Ã§alÄ±Åmalar taban alÄ±nabilir. 
   - TÃ¼rkÃ§ede yÃ¼zbin civarÄ±nda muhtemel kelime var, ortalama olarak xml versiyonunun 4-5 MB, binary 
     versiyonunun da 1 MB civarÄ±nda olmasÄ± muhtemel. TaÅÄ±nabilirliÄi arttÄ±rmak iÃ§in sÄ±kÄ±ÅtÄ±rma yolu
     da denenebilir.

2. Denetim yapÄ±lacak kelime iÃ§in Ã¶n inceleme - iÅlem yapÄ±lmasÄ±
   - Ãok mu kÄ±sa? 'o' hariÃ§.
   - Ãok mu uzun? <40 En uzun kelimemiz : ÃekoslovakyalÄ±laÅtÄ±rabileceklerimizden ?
   - GeÃ§ersiz harf taÅÄ±yor mu? <-- Azericede Q ve x var, o yÃ¼zden diyalektler iÃ§in farklÄ± olabilir. 
   - Noktalama iÅsretlerinden arÄ±ndÄ±rÄ±lmalÄ±dÄ±r
   - Tamamen kÃ¼Ã§Ã¼k harfe dÃ¶nÃ¼ÅtÃ¼rÃ¼lmelidir.

3. KÃ¶k adaylarÄ±nÄ±n belirlenmesi. Bu, hassas bir konu. 
   - KitabÄ±m kelimesinin kÃ¶kÃ¼ 'kitap' tÄ±r ancak iÃ§inde kitap kelimesini barÄ±ndÄ±rmaz. 
     DolayÄ±sÄ±yla kÃ¶k analizinde sert sessiz ile biten kelimelerin yumuÅak hallerinin de
     gÃ¶z Ã¶nÃ¼ne alÄ±nmasÄ± gerekiyor, bu durumda yumuÅama ÅartÄ± olan sert sessizden sonra 
     sesli harf gelme kuralÄ± da dikkate alÄ±nabilir.
   - Performans: ÃoÄu kelime iÃ§in tek bir kÃ¶k adayÄ± bulunacaktÄ±r, ancak bazÄ± kelimelerin
     Ã§ok miktarda adayÄ± olabilir.  Ã¶rneÄin "ElmaslarÄ±nÄ±n" kelimesinin ÃÃ§ adet aday kÃ¶k'Ã¼ vardÄ±r
     "El","Elma" ve "Elmas". kÃ¶k arama iÅleminin optimum olmasÄ± kelime baÅÄ±na yapÄ±lan iÅ miktarÄ±nÄ± 
     da azaltacaktÄ±r.
   - Bu noktada, sÄ±rf kÃ¶k adaylarÄ±nÄ±n hÄ±zla belirlenebilmesi iÃ§in bellekteki sÃ¶zlÃ¼ÄÃ¼n yanÄ±nda
     daha hafif bir kÃ¶k aday veri yapÄ±sÄ±nÄ±n da bulundurulmasÄ± anlamlÄ± olabilir. Bu, belli bir
     bellek yÃ¼kÃ¼ de getirecektir, performans getirisi incelenmeli.

4. KÃ¶k yapÄ±larÄ±: 
   - TÃ¼rkÃ§e'de kÃ¶k kelimeler, kelimenin tÃ¼rÃ¼ne gÃ¶re farklÄ± ekleri alabilir ve ekler birbirine
     baÄlanÄ±rken belli kurallar vardÄ±r, bir eke sadce belli bazÄ± ekler birleÅtirilebilir.
     Ahmet eski programda bu iÅ iÃ§in bir ek matrisi hazÄ±rlamÄ±ÅtÄ±, bu matrisi kullanmak gene 
     anlamlÄ± olabilir.
   
5. Adaylar Ã¼zerinde kelime Ã¼zerinden gidilerek muhtemel ekler sentezlenir
   - Ahmet'in Ã¶rneÄi Ã¼zernden girdersek, "ElmaslarÄ±nÄ±n" kelimesi iÃ§in Ã¶nce "El" kelimesi bulunur
     (Bu noktada enteresan bir soru, Ahmet Ã¶rneÄinde El iÃ§in Ã¶nce Ã§oÄul ekinin deneneceÄini ve Eller ile 
     uyuÅmayacaÄÄ±ndan olmayacaÄÄ±nÄ± yazmÄ±Å.  ancak ler - lar ekini denemenin bile anlamÄ± yok, Ã§Ã¼nkÃ¼ El'den
     sonra gelen harf zaten 'm', isim  kÃ¶kÃ¼ne 'm' ile baÅlayan ek gelemeyeceÄinden El, daha iÅin baÅÄ±nda
     elenebilirdi. Belki de bu tÃ¼r numaralarÄ± Åimdilik programa dahil etmemekte fayda var.)
   - Sentez sonucunda elde edilen kelime giriÅ kelimesine eÅit olduÄu zaman kelime denetlemesi 
     baÅarÄ± ile tamamlanÄ±r, eÄer aday kÃ¶k kalmamÄ±Åsa denetleme baÅarÄ±sÄ±z demektir.  
   - Burada Perormans incelemesi yapÄ±labilir, ayrÄ±ca adaptif algoritmalar kullanarak kÃ¶k cinslerine
     gÃ¶re , hatta her kÃ¶k iÃ§in gelmesi en muhtemel 2-3 ek'in indexi de sÃ¶zlÃ¼kle beraber tutulabilir,
     bu puanlandÄ±rmanÄ±n doÄru olabilmesi iÃ§in ilginÃ§ Åey denenebilir
       - Programa milyonlarca kelime verilerek istatistiki bilgiler deÄerlendirilir
       - Metnin yapÄ±sÄ±na gÃ¶re farklÄ± ek seÃ§im puanlandÄ±rÄ±lmalarÄ± yapabilir (jenerik, hukuki, bilimsel vs.)
     Performans Ã§alÄ±ÅmasÄ±nÄ±n bir diÄer ayaÄÄ± da karÅÄ±laÅtÄ±rma iÅlemlerindeki mini numaralar olabilir,
     hash deÄerlerinin karÅÄ±laÅtÄ±rÄ±lmasÄ± vs gibi. 
     

6. Ä°stisnai durumlar

KELÄ°ME TAVSÄ°YESÄ°        
Bozuk kelimeler iÃ§in uygun tavsiyelerde bulunmak oldukÃ§a farklÄ± bir yol izlemeyi gerektirebilir.
Bu durumda da yakÄ±nlÄ±k analizi, kÃ¶k tÃ¼rÃ¼, hatta kÄ±smi bir anlamsal analiz Ã§ok daha iyi tavsiyelerde
bulunulmasÄ±nÄ± saÄlayabilir.
ÃrneÄin "ElmazlarÄ±nÄ±n" kelimesi iÃ§in "ElmalarÄ±nÄ±n" ,"ElmaslarÄ±nÄ±n", "OlmazlarÄ±nÄ±n" tavsiyelerini 
verebilmek oldukÃ§a zorlu bir iÅmiÅ gibi gÃ¶rÃ¼nÃ¼yor.