Google translate မှာ ပေါက်ကရတွေ ဘာသာပြန်တာတွေ နဲ့ပါတ်သက်ပြီး ဟာသအနေနဲ့ မျှဝေနေတာတွေ တွေ့တာရယ်၊ တစ်ချို့ကလဲ မင်းတို့ ယူနီကုဒ်က ငပိန်းတွေ ဘာတွေပြန်နေလဲမသိဘူး။ ဘာသာစကားဖျက်ဆီးတာတို့ ပြောကြတာတွေ့တော့ အရင်ကဖတ်ခဲ့တာတွေကို သတိရလို့ ရေးလိုက်ပါတယ်။
Google Translate က ကိုယ်တွေတင် ဖြစ်တာမဟုတ် သူများဘာသာစကားတွေလည်းဖြစ်တယ်။ စကားပြော ခက်ခဲ လေ့လာရခက်တဲ့ တရုတ် ဂျာမာန်တွေဆို အရင်ကဆို ဘာသာပြန်တာ တော်တော်ဆိုးကြောင်း ရေးထားတာတွေ အွန်လိုင်းမှာ အများကြီးပါ။ နောက်ပိုင်း တော်တော်လေး အဆင်ပြေလာကြောင်း အတိအကျမဟုတ်တောင် ဆိုလိုရင်းကို နားလည်လာကြောင်း တစ်စိုက်မတ်မတ်သုံးဆွဲတဲ့ သူတွေကပါ ပြောလာကြတယ်။
ဘာသာပြန်တယ်ဆိုတာလည်း စက်ဘယ်လောက်ပဲ ကောင်းကောင်း လူပြန်တာကို မမှီပါဘူး။ လူကပြန်တယ်ဆိုရာမှာလဲ ပြန်တဲ့သူပေါ်မှာ မူတည်နေပါတယ်။ အနက်အဓိပ္ပာယ် မသိသေးတာရယ်၊ နားမလည်သေးတာရယ်၊ မွေးစား အသုံးအနှုန်းတွေ၊ ဘာသာစကားတစ်ခု အကူးအပြောင်းမှာ ဘာသာပြန်တဲ့သူရဲ့ ဝေါဟာရ ဘယ်လောက်ကြွယ်ခြင်း မကြွယ်ခြင်းပေါ် မူတည်ပြီး ဆိုလိုရင်းကို မထိမြောက်တာတွေ ရှိတတ်ပါတယ်။ အဲ့ဒါတွေကြောင့်မို့ ဘာသာပြန်ကျွမ်းကျင်တဲ့လူကို မှီနေရင်လည်း မတွင်ကျယ် ခရီးမရောက်ဖြစ်နေဦးမှာပဲ။ အဲ့ဒါကြောင့် စက်ကို ပြန်ပြီး အားကိုးဖို့တွေဖြစ်လာတာပါ။
စက်ကို အားကိုးဖို့ဆိုတာလဲ စက်ကိုသင်ပေးမှ ရမှာပါ။ ကျွန်တော်တို့တွေ စာသင်သလိုပဲပေါ့။ စက်ကိုသင်ရာမှာလဲ စံတွေ စည်းကမ်းတွေ နာမ်တွေ ကြိယာဝိသေသနတွေ ခွဲခြမ်းမှုတွေ အဲ့ဒါ့တွေ သင်ပေးရပါတယ်။ အဲ့ဒိလို သင်ရမှာလဲ နည်းလမ်းပေါင်းစုံသုံးရပါတယ်။
Google translate စထုတ်ခါစက SMT (statistical machine translation) လို့ ခေါ်တဲ့ မတူညီတဲ့ ဘာသာနှစ်မျိုးကို RBMT (rule-based machine translation) နဲ့ EBMT (example-based machine translation) ယှဥ်ပြီး အသုံးချထားတဲ့ နည်းပညာတွေကို သုံးထားတာလို့ အလွယ်တကူ နားလည်အောင်ပြောလို့ရတယ်။ RBMT ကတော့ နာမ် တွေ ကြိယာတွေ နာမဝိသေသနတွေ ဟာတွေကို အဆင့်ဆင့် ခွဲခြမ်းစိတ်ဖြာ ဘာသာစကားနဲ့ ပါတ်သက်တဲ့ လိုက်နာရမယ့် စည်းကမ်းတွေကို သုံးပြီး မတူညီတဲ့ဘာသာစကားတစ်ခုကို ဘာသာပြန်လည်ထုတ်ပေးတဲ့ စံနမူနာ ဖြစ်ပါတယ်။ EBMT ကတော့ မတူညီတဲ့ဘာသာစကားက စကားစုတွေ နဲ့ စာသားတွေကို နှိုင်းယှဥ်တွဲ ပြီး ပြန်ထားတဲ့ စက်ကပြန်တဲ့ စံနမူနာဖြစ်ပါတယ်။ အဲ့ဒိဟာတွေကိုသုံးပြီး ဘာသာပြန်မှုတွေလုပ်ပါတယ်။ အနီးကပ်ဆုံး ဥပမာကတော့ English စာမှာ “I love you” ပေမယ့် ကျွန်တော်တို့ မှာက “I you love” ပုံစံသုံးတယ်။ တစ်ခုခြင်းစီရဲ့ အဓိပ္ပါယ်တွေ မတူပေမယ့် ပေါင်းရင်တစ်မျိုးဖြစ်သွားရော။ ဒါတောင် Google translate မှာ output က မင်းကိုချစ်တယ်ပဲပြတယ်။ နောက်ဖြစ်နိုင်ခြေတွေက ငါမင်းကိုချစ်တယ်၊ ကျွန်တော်ခင်ဗျားကိုချစ်တယ်။ “I have red umbrella” မှာ “အနီရောင်ထီး” လို့ ကျွန်တော်တို့ မသုံးပဲ “ထီးအနီ”လို့ သုံးကြတယ် …အစရှိသဖြင့်ပေါ့။ အဲ့ဒိအတွက် လေ့ကျင့်ပေးရပါတယ်။ လေ့ကျင့်ရာမှာလည်း အစီအစဥ်မကျတဲ့ ဟာတွေကို အစီအစဉ်ဖြစ်အောင်ပြန်စီ၊ စံတွေနည်းလမ်းကျတဲ့ ဟာတွေသုံးပြီး လေ့ကျင့်ပြီးရင် ထွက်လာတဲ့အဖြေကိုကြည့် လိုအပ်ရင် လူကပြန်ပြင်ပေးလုပ်ရပါတယ်။
သတိထားမိတာက English ဘာသာရဲ့ လွှမ်းမိုးမှုထက် အသုံးများလာတာကြောင့်မို့လား မသိ ကျွန်တော်တို့ ရေးတဲ့ ပုံစံပါ နည်းနည်းပြောင်းလာတယ်။ “You should not talk like this if you’re Burmese” “မြန်မာမှန်ရင် အဲ့ဒိလို မပြောသင့်ပါ” လို့ ရေးထားထက် “မပြောသင့်ပါ မြန်မာမှန်ရင်ပေါ့” လို့ ဆိုတာမျိုးတွေတွေ့လာရတယ်။ ဒါကလူတွေကြောင့် ဖြစ်တာကို machine ကသိဖို့ လိုအပ်ပါတယ်။ ဒီလိုမျိုးကိစ္စတွေကို နောက်ပိုင်း Google ကသူ့ကိုယ်ပိုင်ဖြစ်တဲ့ GNMT (Google Neural Machine Translation) ကို စသုံးပါတယ်။ artificial neural network လို့ခေါ်တဲ့ လူတွေရဲ့ ဦးဏှောက်က တွေးပုံတွေးနည်းကို အခြေခံတဲ့ နည်းတွေကို သုံးပြီး EBMT ကို ပိုကောင်းအောင် လုပ်ထားတယ်လို့ ဆိုပါတယ်။ Google Quick Draw ဆော့ဖူးရင် ကားပုံဆွဲပါ ကြောင်ပုံဆွဲပါလို့ပြေတာကို ပုံတူဆွဲစရာမလိုပဲ ကောက်ကြောင်းကိုပဲ စက်က အတိအကျ ဘာလဲဆိုတာပြောတတ်အောင် လုပ်ထားပါတယ်။ စက်တွေက ဉာဏ်ပိုပိုကောင်းလာတယ် ဆိုတဲ့ ပုံစံမျိုးပဲ။ ဒါကြောင့် Google အတွက် လေ့လာစရာ အချက်အလက်တွေ များလာလေလေ ဘာသာပြန်တာတွေက အတိအကျ မဟုတ်တောင် နားလည်လွယ်လာလေလေ ဖြစ်လာမှာပါပဲ။
တစ်ခုပဲ ကျွန်တော်တို့ နိုင်ငံအတွက်တော့ Facebook က အင်တာနက်ဖြစ်နေတော့ ရေးသမျှဒေတာတွေကို Google Translate မှာ quality ကောင်းဖို့ Google အနေနဲ့ ဘယ်လို ယူသလဲ။ Google, Facebook, Microsoft, Twitter အစရှိတဲ့ Tech giant တွေ လုပ်ထားတဲ့ Data Transfer Project ဘယ်လောက်အခြေအနေရှိနေတယ်ဆိုတာ ကိုယ်တွေက အဲဒိတွေမှာ မလုပ်တော့ ဘယ်လိုလုပ်သိနိုင်မလဲ။
အခုရေးထားတဲ့အထဲမှာ ပါဝင်နေတဲ့ SMT, RBMT, EBMT, GNMT တို့အကြောင်းကို ကျွန်တော် နားလည်တဲ့ပုံစံနဲ့ ရေးထားလို့ တတ်ကျွမ်းသူများမှ မှားတာမြင်ရင် ဝင်ရောက်ဖြည့်စွက် ရှင်းလင်းပြနိုင်ပါတယ်။