Shan Syllable Break

မြန်မာစာ Syllable Break က တော်တော်များများ လုပ်ထားပြီးသားပါ။ မြန်မာစာ syllable break မှာ လက်ရှိ ကိုရဲကျော်သူ syllable က အတော်လေးကို ကောင်းတယ်။ သူ့ရဲ့ syllable ကို အခြေခံပြီး ထပ်ပြင် ထပ်ဖြည့်ရတာတွေတော့ ရှိပေမယ့် အဆင်ပြေတယ်လို့ ဆိုနိုင်တယ်။ NLP စပြီဆိုရင် Syllable Break ကို မဖြစ်မနေ လုပ်မှ ရတယ်။ Syllable Break လုပ်မှ word break အဆင်ပြေမယ်။ word break အဆင်ပြေမှ POS Tagging နဲ့ အခြား NLP ဆိုင်တာတွေ ရှေ့ဆက်လို့ ရမယ်။

မြန်မာစာမှာ အဓိက rules နဲ့ ဖြေရှင်းလိုက်လို့ရတယ်။ သို့ပေမယ့် အခြား တိုင်းရင်းသား ဘာသာစကားတွေ အတွက် syllable break က ဘယ်သူ လုပ်ပေးမလဲ ? ကိုစိုင်းမော်ခမ်း (ဒုတိယ သမ္မတ မဟုတ်ပါ) ရှမ်းစာတွေ အတွက် corpus လုပ်နေတာ တွေ့တာနဲ့ syllable corpus တောင်းပြီးတော့ ML နဲ့ train ကြည့်လိုက်တယ်။ စာကြောင်းရေ ၃၀၀ ကျော် နဲ့ စာလုံးပေါင်း ၁၆၆၅ လုံးပဲပါပါတယ်။ Machne Learning ဖြစ်သည့် အတွက်ကြောင့် ဖြစ်နိုင်ခြေရှိသည့် စာလုံးတွေ ပါရင် ရပါပြီ။ ရှိသမျှ စာလုံးတွေ အကုန်လုံး ပါနေဖို့ မလိုပါဘူး။

shan syllable break

စမ်းမယ်ဆိုရင်တော့ http://shan.comquas.com မှာ စမ်းနိုင်ပါတယ်။

လက်ရှိ စမ်းကြည့်တာကတော့ အဆင်ပြေတယ်။ ရှမ်းစာ အတွက်ပဲ ထည့်ထားသည့် အတွက်ကြောင့် အခြား မြန်မာ english စတာတွေ တစ်ခုမှ ရမှာ မဟုတ်ပါဘူး။ မှားနေရင်တော့ ကိုစိုင်းမော်ခမ်း ကို တိုက်ရိုက် message ပို့ပြီး ပြောနိုင်ပါတယ်။ ကျွန်တော်ကတော့ သူ့ဆီက ရသည့် corpus နဲ့ပဲ train ထားတာ ဖြစ်သည့် အတွက်ကြောင့် လိုအပ်တာတွေ ရှိရင်တော့ data ကို update လုပ်မှပဲ ရပါလိမ့်မယ်။

Leave a Comment

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.