ဇော်ဂျီဟာ AI က မသိဘူး။ ဇော်ဂျီ နဲ့ ရေးထားရင် AI တွေက နားမလည်ဘူး စတာတွေကို လူတွေ ပြောနေကြတာကို တွေ့မိတယ်။ အဓိက ပြောနေသည် သူတွေ အကုန်လုံးက AI ဆိုတာ ဘာလဲ မသိသည့် သူတွေ ပဲ။ AI ဆိုရင် Terminator ကားထဲကလို စက်ရုပ်တွေ လို့ပဲ ထင်နေသည့် သူတွေက အများသားပဲ။ နောက်ပြီး တချို့ပညာရှင်တွေက AI သုံးလာမှာ ကို ကြောက်ကြတယ်ဆိုတာက Terminator ထဲကလို ဖြစ်လာမှာ ကြောက်တာထက် ပေါက်ကရ data ဝင်သွားရင် ပေါက်ကရတွေ ဖြစ်ကုန်မှာ။ အကောင်းဆုံး ဥပမာ အနေနဲ့ Microsoft ရဲ့ AI twitter bot ဖြစ်သည့် Tay က အကောင်းဆုံး ဥပမာပဲ။ Tay က တစ်ရက်တည်း နဲ့ ဟစ်တလာက ဂျူးတွေကို သတ်ပစ်တာကို ထောက်ခံသည့် သူတွေ ဖြစ်သွားတယ်။
Twitter taught Microsoft’s AI chatbot to be a racist asshole in less than a day
AI မှာက အဓိက က data ပဲ။ Data က အရေးကြီးတယ်။ ကျွန်တော်တို့ လူတွေလိုမျိုး ကိုယ့်ပတ်ဝန်းကျင် က အရေးပါတယ်။ ပတ်ဝန်းကျင်ပေါ်မှာ လိုက်ပြီး လူတွေက ပြောင်းလဲ တတ်သလို AI က လည်း Data ပေါ်မှာ အပြည့်အဝ မှီခို နေရပါတယ်။
AI အကြောင်းထက် လူတွေပြောနေသည့် ဇော်ဂျီ နဲ့ပတ်သက်သည့် Machine Learning ကို ပြောချင်တယ်။ AI က အကြမ်းအားဖြင့် လူတွေလို ပြုမူဆောင်ရွက်နိုင်ရင် AI လို့ ဆိုနိုင်တယ်။ Game တွေမှာ အစောကတည်းက ပါပြီး သွားတွေပါ။ သို့ပေမယ့် If condition ပေါင်းများစွာ ရေးထားတာလည်း ဖြစ်နိုင်တယ်။ Siri လိုမျိုး AI မှာတောင် Intent ဆွဲထုတ်ပြီး if နဲ့ ဆက်ပြီး ရေးရမှာပဲ။ If conditoin ပေါင်းများစွာ နဲ့ AI ဖြစ်ပါတယ်ဆိုသည့် concept လေးကို ဖန်တီးနိုင်တယ်။
အခု နောက်ပိုင်းမှာ machine learning , deep learning တွေကို အသုံးပြုလာပြီ။ AI က ပိုပြီးတော့ ကောင်းလာတယ်။ တိကျလာတယ်။ Data ပဲလိုတော့တယ်ဆိုသည့် ခေတ်ဖြစ်နေပြီ။ ဘာသာပြန်ဖို့ system လုပ်ချင်ရင် Google , Facebook လိုမျိုး company တွေက English စာတကြောင်း ဘာသာပြန်တစ်ကြောင်း နဲ့ အဲလိုမျိုး စာကြောင်း ၁ သန်းလောက် ရရင် အလိုလို ဘာသာပြန်စနစ် တစ်ခု ဖြစ်အောင် ဖန်တီးလို့ ရသည့် ခေတ်ပါ။ ဒါပေမယ့် စာကြောင်းရေ ၁ သန်း က ဘာသာပြန်တာ မှန် ဖို့လိုတယ်။ စာကြောင်းရေ နည်းနေသည့် အခါ စာကြောင်းတွေကို ပေါကရ ဝင်ပြန်ထားသည့် အခါမှာ အခု Google Translate လိုမျိုးတွေ ဖြစ်ကုန်တယ်။ Data မှန်ပြီး Data များများ ရဖို့သာ လိုတယ်။
Data များများ ရဖို့ ဆိုသည့် အခါမှာ မြန်မာစာ အတွက်က ဇော်ဂျီ လား Unicode လား စစ်စ်ထုတ်နေရတယ်။ စစ်ထုတ်ပြီး convert ပြန်လုပ်နေသည့် အဆင့်လို ထင်တယ်။ အကုန်လုံးကသာ unicode ကို သုံးရင် မလိုအပ်သည့် တဆင့် ဖြုတ်လိုက်လို့ရပြီ။
အခု အချိန်မှာ Data ကောက်ပြီး Train နေသည့် သူတွေ အကုန်လုံးက ဇော်ဂျီ ပဲ လာလာ Unicode ပဲ လာလာ Data ရအောင် အကုန်ယူမှာပဲ။ ဇော်ဂျီလာ unicode လားကို အလွယ်တကူ သိနိုင်တယ်။ Google ကတောင် Myanmar Tool ဆိုပြီး ထုတ်ပေးထားတယ်။ စာတွေကို Machine Learning နဲ့ train ပြီးတော့ Zawgyi လား Unicode လား ခွဲထုတ်ထားတယ်။ တကယ်လို့ ဇော်ဂျီ သာ ဖြစ်ရင် Unicode ပြောင်းလိုက်ရုံပဲ။
အခု ဇော်ဂျီ နဲ့ ရိုက်နေသည့် စာတွေ အကုန်လုံးကို facebook ကော google ကောက စာဟာ ဇော်ဂျီ နဲ့ ရိုက်ထားတာလား unicode နဲ့ရိုက်ထားတာလား အလွယ်တကူ ခွဲနိုင်တယ်။ ကျွန်တော်တို့တွေတောင် regular expression နဲ့ ခွဲထုတ် နိုင်သေးတာပဲ။ Facebook , Google တို့ အတွက်ကတော့ အလွယ်လေးပါ။ ပြီးရင် ဇော်ဂျီ ဆို Unicode ပြောင်းပြီး သူဘာပြောနေလဲ ဆိုတာကို ဆွဲထုတ်လိုက်ဖို့ က မခက်ပါဘူး။
ဒါကြောင့် ဇော်ဂျီ နဲ့ ရေးထားရင် AI က မသိဘူး။ ဇော်ဂျီ နဲ့ AI တွေ Machine Learning တွေ လုပ်မရဘူး ဆိုတာကတော့ မဟုတ်ဘူး။ Data တွေ Train သည့် အခါမှာလည်း ဇော်ဂျီ တွေ အကုန် unicode ပြောင်းပြီး Train ထားတာပဲ။ Data တွေက ဇော်ဂျီ ဖြစ်ဖြစ် unicode ဖြစ်ဖြစ် အကုန်လုံးကို Unicode ပြောင်းပြီး Train လို့ရတယ်။ ဇော်ဂျီ လား unicode လား အရေးမကြီးဘူး။ ဇော်ဂျီကနေ unicode က ML အနေနဲ့ normalize လုပ်တယ်။ data clean လုပ်တယ် ဆိုသည့် အဆင့်မှာပဲ ရှိပါတယ်။ Unicode data တွေလည်း clean လုပ်ရတာပဲ။ စာလုံးပေါင်းမှားနေတာ လ + ံ + ု + း နဲ့ လ + ု + ံ + း ရိုက်ထားတာတွေ ပြန်ညှိရတာ မ + ယ + ် + ့ နဲ့ မ + ယ + ့ + ် တွေကို ပြန်ပြီး ညှိရသည့် normalization တွေ လုပ်ရတာပဲ။ နည်းတာနဲ့ များတာပဲ ကွာတယ်။
နောက်ကွယ် core engine ကတော့ unicode နဲ့ အလုပ်လုပ်ပြီး သူက ဇော်ဂျီ ဆိုရင် unicode ပြောင်း ထွက်လာသည့် result ကို ဇော်ဂျီ ပြောင်းပြဆိုပြီး ကျွန်တော်တို့တွေ လုပ်ထားသည့် project တွေ လည်း ရှိပါတယ်။
ဒါကြောင့် ဇော်ဂျီ နဲ့ ရေး ရေး Unicode နဲ့ ရေးရေး Facebook က သိတယ်။ Google က သိတယ်။
Leave a Reply