Machine Learning and Zawgyi

ဇော်ဂျီဟာ AI က မသိဘူး။ ဇော်ဂျီ နဲ့ ရေးထားရင် AI တွေက နားမလည်ဘူး စတာတွေကို လူတွေ ပြောနေကြတာကို တွေ့မိတယ်။ အဓိက ပြောနေသည် သူတွေ အကုန်လုံးက AI ဆိုတာ ဘာလဲ မသိသည့် သူတွေ ပဲ။ AI ဆိုရင် Terminator ကားထဲကလို စက်ရုပ်တွေ လို့ပဲ ထင်နေသည့် သူတွေက အများသားပဲ။ နောက်ပြီး တချို့ပညာရှင်တွေက AI သုံးလာမှာ ကို ကြောက်ကြတယ်ဆိုတာက Terminator ထဲကလို ဖြစ်လာမှာ ကြောက်တာထက် ပေါက်ကရ data ဝင်သွားရင် ပေါက်ကရတွေ ဖြစ်ကုန်မှာ။ အကောင်းဆုံး ဥပမာ အနေနဲ့ Microsoft ရဲ့ AI twitter bot ဖြစ်သည့် Tay က အကောင်းဆုံး ဥပမာပဲ။ Tay က တစ်ရက်တည်း နဲ့ ဟစ်တလာက ဂျူးတွေကို သတ်ပစ်တာကို ထောက်ခံသည့် သူတွေ ဖြစ်သွားတယ်။

Twitter taught Microsoft’s AI chatbot to be a racist asshole in less than a day

AI မှာက အဓိက က data ပဲ။ Data က အရေးကြီးတယ်။ ကျွန်တော်တို့ လူတွေလိုမျိုး ကိုယ့်ပတ်ဝန်းကျင် က အရေးပါတယ်။ ပတ်ဝန်းကျင်ပေါ်မှာ လိုက်ပြီး လူတွေက ပြောင်းလဲ တတ်သလို AI က လည်း Data ပေါ်မှာ အပြည့်အဝ မှီခို နေရပါတယ်။

AI အကြောင်းထက် လူတွေပြောနေသည့် ဇော်ဂျီ နဲ့ပတ်သက်သည့် Machine Learning ကို ပြောချင်တယ်။ AI က အကြမ်းအားဖြင့် လူတွေလို ပြုမူဆောင်ရွက်နိုင်ရင် AI လို့ ဆိုနိုင်တယ်။ Game တွေမှာ အစောကတည်းက ပါပြီး သွားတွေပါ။ သို့ပေမယ့် If condition ပေါင်းများစွာ ရေးထားတာလည်း ဖြစ်နိုင်တယ်။ Siri လိုမျိုး AI မှာတောင် Intent ဆွဲထုတ်ပြီး if နဲ့ ဆက်ပြီး ရေးရမှာပဲ။ If conditoin ပေါင်းများစွာ နဲ့ AI ဖြစ်ပါတယ်ဆိုသည့် concept လေးကို ဖန်တီးနိုင်တယ်။

အခု နောက်ပိုင်းမှာ machine learning , deep learning တွေကို အသုံးပြုလာပြီ။ AI က ပိုပြီးတော့ ကောင်းလာတယ်။ တိကျလာတယ်။ Data ပဲလိုတော့တယ်ဆိုသည့် ခေတ်ဖြစ်နေပြီ။ ဘာသာပြန်ဖို့ system လုပ်ချင်ရင် Google , Facebook လိုမျိုး company တွေက English စာတကြောင်း ဘာသာပြန်တစ်ကြောင်း နဲ့ အဲလိုမျိုး စာကြောင်း ၁ သန်းလောက် ရရင် အလိုလို ဘာသာပြန်စနစ် တစ်ခု ဖြစ်အောင် ဖန်တီးလို့ ရသည့် ခေတ်ပါ။ ဒါပေမယ့် စာကြောင်းရေ ၁ သန်း က ဘာသာပြန်တာ မှန် ဖို့လိုတယ်။ စာကြောင်းရေ နည်းနေသည့် အခါ စာကြောင်းတွေကို ပေါကရ ဝင်ပြန်ထားသည့် အခါမှာ အခု Google Translate လိုမျိုးတွေ ဖြစ်ကုန်တယ်။ Data မှန်ပြီး Data များများ ရဖို့သာ လိုတယ်။

Data များများ ရဖို့ ဆိုသည့် အခါမှာ မြန်မာစာ အတွက်က ဇော်ဂျီ လား Unicode လား စစ်စ်ထုတ်နေရတယ်။ စစ်ထုတ်ပြီး convert ပြန်လုပ်နေသည့် အဆင့်လို ထင်တယ်။ အကုန်လုံးကသာ unicode ကို သုံးရင် မလိုအပ်သည့် တဆင့် ဖြုတ်လိုက်လို့ရပြီ။

အခု အချိန်မှာ Data ကောက်ပြီး Train နေသည့် သူတွေ အကုန်လုံးက ဇော်ဂျီ ပဲ လာလာ Unicode ပဲ လာလာ Data ရအောင် အကုန်ယူမှာပဲ။ ဇော်ဂျီလာ unicode လားကို အလွယ်တကူ သိနိုင်တယ်။ Google ကတောင် Myanmar Tool ဆိုပြီး ထုတ်ပေးထားတယ်။ စာတွေကို Machine Learning နဲ့ train ပြီးတော့ Zawgyi လား Unicode လား ခွဲထုတ်ထားတယ်။ တကယ်လို့ ဇော်ဂျီ သာ ဖြစ်ရင် Unicode ပြောင်းလိုက်ရုံပဲ။

အခု ဇော်ဂျီ နဲ့ ရိုက်နေသည့် စာတွေ အကုန်လုံးကို facebook ကော google ကောက စာဟာ ဇော်ဂျီ နဲ့ ရိုက်ထားတာလား unicode နဲ့ရိုက်ထားတာလား အလွယ်တကူ ခွဲနိုင်တယ်။ ကျွန်တော်တို့တွေတောင် regular expression နဲ့ ခွဲထုတ် နိုင်သေးတာပဲ။ Facebook , Google တို့ အတွက်ကတော့ အလွယ်လေးပါ။ ပြီးရင် ဇော်ဂျီ ဆို Unicode ပြောင်းပြီး သူဘာပြောနေလဲ ဆိုတာကို ဆွဲထုတ်လိုက်ဖို့ က မခက်ပါဘူး။

ဒါကြောင့် ဇော်ဂျီ နဲ့ ရေးထားရင် AI က မသိဘူး။ ဇော်ဂျီ နဲ့ AI တွေ Machine Learning တွေ လုပ်မရဘူး ဆိုတာကတော့ မဟုတ်ဘူး။ Data တွေ Train သည့် အခါမှာလည်း ဇော်ဂျီ တွေ အကုန် unicode ပြောင်းပြီး Train ထားတာပဲ။ Data တွေက ဇော်ဂျီ ဖြစ်ဖြစ် unicode ဖြစ်ဖြစ် အကုန်လုံးကို Unicode ပြောင်းပြီး Train လို့ရတယ်။ ဇော်ဂျီ လား unicode လား အရေးမကြီးဘူး။ ဇော်ဂျီကနေ unicode က ML အနေနဲ့ normalize လုပ်တယ်။ data clean လုပ်တယ် ဆိုသည့် အဆင့်မှာပဲ ရှိပါတယ်။ Unicode data တွေလည်း clean လုပ်ရတာပဲ။ စာလုံးပေါင်းမှားနေတာ လ + ံ + ု + း နဲ့ လ + ု + ံ + း ရိုက်ထားတာတွေ ပြန်ညှိရတာ မ + ယ + ် + ့ နဲ့ မ + ယ + ့ + ် တွေကို ပြန်ပြီး ညှိရသည့် normalization တွေ လုပ်ရတာပဲ။ နည်းတာနဲ့ များတာပဲ ကွာတယ်။

နောက်ကွယ် core engine ကတော့ unicode နဲ့ အလုပ်လုပ်ပြီး သူက ဇော်ဂျီ ဆိုရင် unicode ပြောင်း ထွက်လာသည့် result ကို ဇော်ဂျီ ပြောင်းပြဆိုပြီး ကျွန်တော်တို့တွေ လုပ်ထားသည့် project တွေ လည်း ရှိပါတယ်။

ဒါကြောင့် ဇော်ဂျီ နဲ့ ရေး ရေး Unicode နဲ့ ရေးရေး Facebook က သိတယ်။ Google က သိတယ်။

Machine Learning and Zawgyi

Leave a ReplyCancel reply