Shan Syllable Break

မြန်မာစာ Syllable Break က တော်တော်များများ လုပ်ထားပြီးသားပါ။ မြန်မာစာ syllable break မှာ လက်ရှိ ကိုရဲကျော်သူ syllable က အတော်လေးကို ကောင်းတယ်။ သူ့ရဲ့ syllable ကို အခြေခံပြီး ထပ်ပြင် ထပ်ဖြည့်ရတာတွေတော့ ရှိပေမယ့် အဆင်ပြေတယ်လို့ ဆိုနိုင်တယ်။ NLP စပြီဆိုရင် Syllable Break ကို မဖြစ်မနေ လုပ်မှ ရတယ်။ Syllable Break လုပ်မှ word break အဆင်ပြေမယ်။ word break အဆင်ပြေမှ POS Tagging နဲ့ အခြား NLP ဆိုင်တာတွေ ရှေ့ဆက်လို့ ရမယ်။

မြန်မာစာမှာ အဓိက rules နဲ့ ဖြေရှင်းလိုက်လို့ရတယ်။ သို့ပေမယ့် အခြား တိုင်းရင်းသား ဘာသာစကားတွေ အတွက် syllable break က ဘယ်သူ လုပ်ပေးမလဲ ? ကိုစိုင်းမော်ခမ်း (ဒုတိယ သမ္မတ မဟုတ်ပါ) ရှမ်းစာတွေ အတွက် corpus လုပ်နေတာ တွေ့တာနဲ့ syllable corpus တောင်းပြီးတော့ ML နဲ့ train ကြည့်လိုက်တယ်။ စာကြောင်းရေ ၃၀၀ ကျော် နဲ့ စာလုံးပေါင်း ၁၆၆၅ လုံးပဲပါပါတယ်။ Machne Learning ဖြစ်သည့် အတွက်ကြောင့် ဖြစ်နိုင်ခြေရှိသည့် စာလုံးတွေ ပါရင် ရပါပြီ။ ရှိသမျှ စာလုံးတွေ အကုန်လုံး ပါနေဖို့ မလိုပါဘူး။

shan syllable break

စမ်းမယ်ဆိုရင်တော့ http://shan.comquas.com မှာ စမ်းနိုင်ပါတယ်။

လက်ရှိ စမ်းကြည့်တာကတော့ အဆင်ပြေတယ်။ ရှမ်းစာ အတွက်ပဲ ထည့်ထားသည့် အတွက်ကြောင့် အခြား မြန်မာ english စတာတွေ တစ်ခုမှ ရမှာ မဟုတ်ပါဘူး။ မှားနေရင်တော့ ကိုစိုင်းမော်ခမ်း ကို တိုက်ရိုက် message ပို့ပြီး ပြောနိုင်ပါတယ်။ ကျွန်တော်ကတော့ သူ့ဆီက ရသည့် corpus နဲ့ပဲ train ထားတာ ဖြစ်သည့် အတွက်ကြောင့် လိုအပ်တာတွေ ရှိရင်တော့ data ကို update လုပ်မှပဲ ရပါလိမ့်မယ်။


Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.