မြန်မာစာ Syllable Break က တော်တော်များများ လုပ်ထားပြီးသားပါ။ မြန်မာစာ syllable break မှာ လက်ရှိ ကိုရဲကျော်သူ syllable က အတော်လေးကို ကောင်းတယ်။ သူ့ရဲ့ syllable ကို အခြေခံပြီး ထပ်ပြင် ထပ်ဖြည့်ရတာတွေတော့ ရှိပေမယ့် အဆင်ပြေတယ်လို့ ဆိုနိုင်တယ်။ NLP စပြီဆိုရင် Syllable Break ကို မဖြစ်မနေ လုပ်မှ ရတယ်။ Syllable Break လုပ်မှ word break အဆင်ပြေမယ်။ word break အဆင်ပြေမှ POS Tagging နဲ့ အခြား NLP ဆိုင်တာတွေ ရှေ့ဆက်လို့ ရမယ်။
မြန်မာစာမှာ အဓိက rules နဲ့ ဖြေရှင်းလိုက်လို့ရတယ်။ သို့ပေမယ့် အခြား တိုင်းရင်းသား ဘာသာစကားတွေ အတွက် syllable break က ဘယ်သူ လုပ်ပေးမလဲ ? ကိုစိုင်းမော်ခမ်း (ဒုတိယ သမ္မတ မဟုတ်ပါ) ရှမ်းစာတွေ အတွက် corpus လုပ်နေတာ တွေ့တာနဲ့ syllable corpus တောင်းပြီးတော့ ML နဲ့ train ကြည့်လိုက်တယ်။ စာကြောင်းရေ ၃၀၀ ကျော် နဲ့ စာလုံးပေါင်း ၁၆၆၅ လုံးပဲပါပါတယ်။ Machne Learning ဖြစ်သည့် အတွက်ကြောင့် ဖြစ်နိုင်ခြေရှိသည့် စာလုံးတွေ ပါရင် ရပါပြီ။ ရှိသမျှ စာလုံးတွေ အကုန်လုံး ပါနေဖို့ မလိုပါဘူး။
စမ်းမယ်ဆိုရင်တော့ http://shan.comquas.com မှာ စမ်းနိုင်ပါတယ်။
လက်ရှိ စမ်းကြည့်တာကတော့ အဆင်ပြေတယ်။ ရှမ်းစာ အတွက်ပဲ ထည့်ထားသည့် အတွက်ကြောင့် အခြား မြန်မာ english စတာတွေ တစ်ခုမှ ရမှာ မဟုတ်ပါဘူး။ မှားနေရင်တော့ ကိုစိုင်းမော်ခမ်း ကို တိုက်ရိုက် message ပို့ပြီး ပြောနိုင်ပါတယ်။ ကျွန်တော်ကတော့ သူ့ဆီက ရသည့် corpus နဲ့ပဲ train ထားတာ ဖြစ်သည့် အတွက်ကြောင့် လိုအပ်တာတွေ ရှိရင်တော့ data ကို update လုပ်မှပဲ ရပါလိမ့်မယ်။
Leave a Reply