မြန်မာစာတွေ ရှာဖို့အတွက် Search Theory လေး စဉ်းစားကြည့်ရအောင်.. ကျွန်တော်လက်ရှိကတော့ ဇော်ဂျီနဲ့ပဲ စဉ်းစားထားတယ်.. ဘာလို့လည်းဆိုတော့ လက်ရှိ website တွေအားလုံးက ဇော်ဂျီကို အသုံးပြုနေလို့ပါ…

ဇော်ဂျီမှာ ပြသနာရှိတယ်… အဲဒါကတော့ က ိ ု နဲ့ က ု ိ မတူတာပဲ.. သူ့မှာ rendering မပါဘူး.. ဒါကြောင့် ပြသနာဖြစ်နေတာ ( Unicode 5.1 မှာတော့ ဒီပြဿနာတွေ မရှိဘူး…. ) ဒါကြောင့် ဇော်ဂျီမှာ က ိ ု နဲ့ က ု ိ ရှာရင် ရတဲ့ result မတူဘူး… လက်ရှိ google မှာ ရှာရင်တောင် result မတူတာကိုတွေ့ရမယ်ဗျ…. ဒါက ပြဿနာတစ်ရပ်ပေါ့..

နောက်တစ်ခုက ကို နဲ့ ကိုး ဟာ အဓိပ္ပာယ်မတူသလို search result ထဲမှာ ရောမနေသင့်ဘူးထင်တယ်… ကို ကိုရှာရင် ကိုး | ကို့ | ကိုယ် | ကိုက် စတာတွေပါ ပါလာတယ်။ ဒါဟာမဖြစ်သင့်ဘူးထင်တယ်… ကို ရှာရင် ကို နဲ့ ဆိုင်တာပဲထွက်သင့်တယ်… ကိုး | ကိုး | ကိုယ် | ကိုက်တွေ မပါသင့်ဘူး….

နောက်ပြီး spell checking အဆင့်လည်း လိုတယ်… အကျီးအကျယ် | အကြီးအကြယ် | အကျီးအကြယ် | အကြီးအကျယ် မှာ ဘယ်ဟာမှန်သလဲ…. user မှားနေရင် စာလုံးပေါင်းမှားနေကြာင်းဖော်ပြပေးရမယ်…

ပထမအဆင့်က Normalization နဲ့ ဖြေရှင်းမယ်… ဒုတိယအဆင့်က syllable breaking နဲ့ ရှင်းမယ်.. အဲဒီ နှစ်ဆင့်က စဉ်းစားလို့ရပြီ..

နောက်ဆုံး spell checing က စဉ်းစားဆဲပဲ… word breaking အရင်လုပ်ရမယ်.. ပြီးရင် word dictionary နဲ့ တိုက်စစ်ရမယ်…. ကိုစိုးမင်းရေးထားတာကိုတွေ့တယ်.. PHP နဲ့ ကိုယ်တိုင်မရေးရသေးဘူး….

အဲဒီ ၃ ဆင့်ပြီးရင်တော့ ပထမဆုံး search လုပ်ဖို့ query ကို ရပြီ။ ပြီးရင် crawling အဆင့်ပေါ့. crawling မှာ ဝင်း | ဇော်ဂျီ | မြန်မာ ၃ စတာတွေကို detection သိရမယ်။ ဇော်ဂျီနဲ့ ရှာပေမယ့် အဲဒီစာလုံးတွေကိုပါ ရှာပေးနိုင်ရမယ်။

ဥပမာ ဝင်း ကို ဇော်ဂျီပြောင်းပြီး သိမ်းထားမယ်။ မြန်မာ ၃ ကိုလည်း ဇော်ဂျီ ပြောင်းပြီး သိမ်းထားမယ်။ ရှာတော့ ဇော်ဂျီနဲ့ပဲ။ ပြတော့လည်း ဇော်ဂျီနဲ့ပဲ။ ဝင်း ၊ မြန်မာ ၃ အတွက် သိတဲ့ system တစ်ခုကို ရှာကြည့်အုံးမယ်..

အဲ… စဉ်းစားမိတာ တစ်ခုရှိတယ်…

ကိုကိုရေ ဆိုပြီး google မှာ ရှာလိုက်ရင် content ထဲမှာ ကို()ကို()ရေ() ဖြစ်နေတယ်ဆိုရင်ကော။ () က 0widthspace ကို ပြောတာပါ။ google အနေနဲ့ ရှာတွေ့နိုင်မလား…. ???? အဲဒီအချက်ကို သိချင်နေတာ… :D လက်တွေ့ blog လေးတစ်ခုလုပ်ပြီး ရှာကြည့်အုံးမယ်..

စာကြွင်း ။ ။ ကိုစိုးမင်း blog မှာ python မတတ်ပေမယ့် သူ့ theory လေးတွေ တော်တော်ကောင်းတယ်ဗျ။

2 responses to “Myanmar Search”

  1. လုပ်ဗျို့.. အားပေးတယ်….. အဲ့ဒါမှ ကျွန်တော်တို့တွေလည်း သုံးလို့ရမှာ… :)

  2. ဝုတ်တယ်..ဟီး

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.