မြန်မာစာတွေ ရှာဖို့အတွက် Search Theory လေး စဉ်းစားကြည့်ရအောင်.. ကျွန်တော်လက်ရှိကတော့ ဇော်ဂျီနဲ့ပဲ စဉ်းစားထားတယ်.. ဘာလို့လည်းဆိုတော့ လက်ရှိ website တွေအားလုံးက ဇော်ဂျီကို အသုံးပြုနေလို့ပါ…
ဇော်ဂျီမှာ ပြသနာရှိတယ်… အဲဒါကတော့ က ိ ု နဲ့ က ု ိ မတူတာပဲ.. သူ့မှာ rendering မပါဘူး.. ဒါကြောင့် ပြသနာဖြစ်နေတာ ( Unicode 5.1 မှာတော့ ဒီပြဿနာတွေ မရှိဘူး…. ) ဒါကြောင့် ဇော်ဂျီမှာ က ိ ု နဲ့ က ု ိ ရှာရင် ရတဲ့ result မတူဘူး… လက်ရှိ google မှာ ရှာရင်တောင် result မတူတာကိုတွေ့ရမယ်ဗျ…. ဒါက ပြဿနာတစ်ရပ်ပေါ့..
နောက်တစ်ခုက ကို နဲ့ ကိုး ဟာ အဓိပ္ပာယ်မတူသလို search result ထဲမှာ ရောမနေသင့်ဘူးထင်တယ်… ကို ကိုရှာရင် ကိုး | ကို့ | ကိုယ် | ကိုက် စတာတွေပါ ပါလာတယ်။ ဒါဟာမဖြစ်သင့်ဘူးထင်တယ်… ကို ရှာရင် ကို နဲ့ ဆိုင်တာပဲထွက်သင့်တယ်… ကိုး | ကိုး | ကိုယ် | ကိုက်တွေ မပါသင့်ဘူး….
နောက်ပြီး spell checking အဆင့်လည်း လိုတယ်… အကျီးအကျယ် | အကြီးအကြယ် | အကျီးအကြယ် | အကြီးအကျယ် မှာ ဘယ်ဟာမှန်သလဲ…. user မှားနေရင် စာလုံးပေါင်းမှားနေကြာင်းဖော်ပြပေးရမယ်…
ပထမအဆင့်က Normalization နဲ့ ဖြေရှင်းမယ်… ဒုတိယအဆင့်က syllable breaking နဲ့ ရှင်းမယ်.. အဲဒီ နှစ်ဆင့်က စဉ်းစားလို့ရပြီ..
နောက်ဆုံး spell checing က စဉ်းစားဆဲပဲ… word breaking အရင်လုပ်ရမယ်.. ပြီးရင် word dictionary နဲ့ တိုက်စစ်ရမယ်…. ကိုစိုးမင်းရေးထားတာကိုတွေ့တယ်.. PHP နဲ့ ကိုယ်တိုင်မရေးရသေးဘူး….
အဲဒီ ၃ ဆင့်ပြီးရင်တော့ ပထမဆုံး search လုပ်ဖို့ query ကို ရပြီ။ ပြီးရင် crawling အဆင့်ပေါ့. crawling မှာ ဝင်း | ဇော်ဂျီ | မြန်မာ ၃ စတာတွေကို detection သိရမယ်။ ဇော်ဂျီနဲ့ ရှာပေမယ့် အဲဒီစာလုံးတွေကိုပါ ရှာပေးနိုင်ရမယ်။
ဥပမာ ဝင်း ကို ဇော်ဂျီပြောင်းပြီး သိမ်းထားမယ်။ မြန်မာ ၃ ကိုလည်း ဇော်ဂျီ ပြောင်းပြီး သိမ်းထားမယ်။ ရှာတော့ ဇော်ဂျီနဲ့ပဲ။ ပြတော့လည်း ဇော်ဂျီနဲ့ပဲ။ ဝင်း ၊ မြန်မာ ၃ အတွက် သိတဲ့ system တစ်ခုကို ရှာကြည့်အုံးမယ်..
အဲ… စဉ်းစားမိတာ တစ်ခုရှိတယ်…
ကိုကိုရေ ဆိုပြီး google မှာ ရှာလိုက်ရင် content ထဲမှာ ကို()ကို()ရေ() ဖြစ်နေတယ်ဆိုရင်ကော။ () က 0widthspace ကို ပြောတာပါ။ google အနေနဲ့ ရှာတွေ့နိုင်မလား…. ???? အဲဒီအချက်ကို သိချင်နေတာ… :D လက်တွေ့ blog လေးတစ်ခုလုပ်ပြီး ရှာကြည့်အုံးမယ်..
စာကြွင်း ။ ။ ကိုစိုးမင်း blog မှာ python မတတ်ပေမယ့် သူ့ theory လေးတွေ တော်တော်ကောင်းတယ်ဗျ။
Leave a Reply