Bagan ASR

ASR ဆိုတာကတော့ Automatic Speech Recognition (Speech to Text) ပါ။ Bagan ကနေ ပြီးတော့ Myanmar ASR ကို လုပ်နေတာ အတော်လေးကို ကြာနေပါပြီ။ ၁ နှစ်ကျော်လောက်တော့ ရှိပြီ ထင်တယ်။ အခုတော့ ၂၀% ပြီးပြီ ဖြစ်သည့် အတွက်ကြောင့် demo စမ်းလို့ ရပါတယ်။ Demo ကို https://research.baganintel.ai/asr မှာ စမ်းနိုင်ပါတယ်။ လက်ရှိ စမ်းသလောက်တော့ စာလုံးတော်တော်များများ မသိသေးဘူး။ Mobile နဲ့ က ပိုအဆင်ပြေတယ်။ Laptop နဲ့က mic က noise တွေ များနေတာ ကြောင့် အဆင်မပြေဘူး။ နောက်ပြီး အနားမှာ ပြန်ကာ […]

Shan Syllable Break

မြန်မာစာ Syllable Break က တော်တော်များများ လုပ်ထားပြီးသားပါ။ မြန်မာစာ syllable break မှာ လက်ရှိ ကိုရဲကျော်သူ syllable က အတော်လေးကို ကောင်းတယ်။ သူ့ရဲ့ syllable ကို အခြေခံပြီး ထပ်ပြင် ထပ်ဖြည့်ရတာတွေတော့ ရှိပေမယ့် အဆင်ပြေတယ်လို့ ဆိုနိုင်တယ်။ NLP စပြီဆိုရင် Syllable Break ကို မဖြစ်မနေ လုပ်မှ ရတယ်။ Syllable Break လုပ်မှ word break အဆင်ပြေမယ်။ word break အဆင်ပြေမှ POS Tagging နဲ့ အခြား NLP ဆိုင်တာတွေ ရှေ့ဆက်လို့ ရမယ်။ မြန်မာစာမှာ အဓိက rules နဲ့ ဖြေရှင်းလိုက်လို့ရတယ်။ […]

JWT

JWT ကို သိတာကတော့ ကြာလှပါပြီ။ သို့ပေမယ့် သေသေချာချာ မသိဘူး။ Laravel မှာပါသည့် library ကိုပဲ သုံးလိုက်တာပဲ။ အခုမှ JWT ဆိုတာ ဘာလဲ ဆိုတာကို သေချာ ပြန်ဖတ်ကြည့်မိတယ်။ ကျွန်တော်တို့တွေ api authentication တွေကို သုံးသည့် Method တွေကတော့ HTTP Basic Authentication API Key or Token OAuth စတာတွေ အသုံးပြုကြပါတယ်။ JSON Web Token (JWT) ဟာ နောက်ပိုင်း လူ အသုံးများလာပြီး လက်ရှိ API အသုံးပြုထားသည့် project တိုင်းနီးပါး JWT ကို သုံးထားတယ်။ သို့ပေမယ့် အများစု က […]

Machine Learning and Zawgyi

ဇော်ဂျီဟာ AI က မသိဘူး။ ဇော်ဂျီ နဲ့ ရေးထားရင် AI တွေက နားမလည်ဘူး စတာတွေကို လူတွေ ပြောနေကြတာကို တွေ့မိတယ်။ အဓိက ပြောနေသည် သူတွေ အကုန်လုံးက AI ဆိုတာ ဘာလဲ မသိသည့် သူတွေ ပဲ။ AI ဆိုရင် Terminator ကားထဲကလို စက်ရုပ်တွေ လို့ပဲ ထင်နေသည့် သူတွေက အများသားပဲ။ နောက်ပြီး တချို့ပညာရှင်တွေက AI သုံးလာမှာ ကို ကြောက်ကြတယ်ဆိုတာက Terminator ထဲကလို ဖြစ်လာမှာ ကြောက်တာထက် ပေါက်ကရ data ဝင်သွားရင် ပေါက်ကရတွေ ဖြစ်ကုန်မှာ။ အကောင်းဆုံး ဥပမာ အနေနဲ့ Microsoft ရဲ့ AI twitter […]

Change to Unicode Again

အရင်တုန်းက Unicode ကနေ ဇော်ဂျီကို ပြောင်းခဲ့ဖူးတယ်။ အခု ဇော်ဂျီကနေ unicode ပြန်ပြောင်းဖို့ ဖြစ်ပြန်တယ်။ အရင်ကထက် အခု တစ်ခေါက်က ပိုအဆင်ပြေတယ် ပြောရမယ်။ Rabbit ရှိနေတော့ ပြဿနာ သိပ်မရှိတော့ဘူး။ အရင်က ရေးထားသည့် node js က အတော်အဆင်ပြေသွားတယ်။ mysql ကို mysqldump နဲ့ ထုတ်လိုက်တယ်။ ပြီးတော့ sql ကို node js နဲ့ ပြောင်းလိုက်တာ အဆင်ပြေသွားတယ်။ Code ကို https://github.com/saturngod/ZG2Uni_NodeJS မှာ ရယူနိုင်ပါတယ်။ Unicode သုံးသည့် အခါမှာ mac မှာ အဓိက ပြဿနာက english နဲ့ keymagic ပြောင်းတာ နှေးနေတာပဲ။ […]

Microsoft Excel Myanmar Unicode Font Issue in Mac

Mac မှာ Unicode font သုံးရင် Microsoft Excel မှာ Unicode မရပါဘူး။ အဓိက ပြဿနာက AAT rendering လိုနေပါတယ်။ AAT ထည့်သွင်းမရေးထားသည့် Font တွေက Mac Excel မှာ အလုပ်မလုပ်ဘူး။ ဒါကြောင့် Unicode သုံးမယ်ဆိုရင် AAT ပါသည့် Myanmar MN သို့မဟုတ် masterpiece ကို သုံးမှ ရပါလိမ့်မယ်။

Zawgyi Decode Profile

အခြားသူတွေက ဇော်ဂျီ decode iOS profile ရှိလား မေးနေကျလို့ တင်ပေးလိုက်ပါတယ်။ ပုံမှန်အားဖြင့် အခုက စပြီး unicode ကို သုံးစေချင်တယ်။ unicode လည်း သုံးမယ် အရင်က ဇော်ဂျီလည်း ဖတ်လို့ ရစေချင်ရင်တော့ Zawgyi Decode ကို သုံးလို့ရပါတယ်။ Android မှာ ပါသည့် Noto Sans Zaw Decode ကို ထည့်ထားပါတယ်။ https://jmp.sh/v/6Peo50qATUrCGF0PyfZi

BIT Myanmar NLP Demo (POS Tagging, Spell Check)

လွန်ခဲ့သည့် ၁ နှစ်ကျော်လောက်က BIT က မြန်မာစာအတွက် NLP လုပ်ချင်လို့ ဆိုပြီး ကျွန်တော့်ဆီ ဆက်သွယ်ခဲ့တယ်။ NLP ကို Machine Learning ပုံစံ နဲ့သွားချင်တယ်။ NLP နဲ့ Machine Learning ကို စိတ်ဝင်စားလို့ Part Time Reseacher အနေနဲ့ ဝင်လုပ်ခဲ့တယ်။ တော်တော်များများလည်း လေ့လာဖြစ်ခဲ့သလို Machine Learning အကြောင်းတွေလည်း သိခဲ့ရတယ်။ သမာရိုးကျ NLP ထက် Machine Learning နဲ့ အပိုင်းက ပိုအဆင်ပြေတယ်။ အဓိက ပြဿနာက Corpus တွေ မရှိတာပဲ။ BIT Team က data တွေ အတွက် အတော်လေးကို အချိန်ပေးခဲ့ရတယ်။ […]