ทำไม Google Translate จึงแปลคำว่า “พันตำรวจโท” เป็น Thaksin Shinawatra
กลายเป็นที่ฮือฮากันทีเดียวสำหรับผู้ใช้อินเตอร์เน็ตของไทย โดยเฉพาะในวงการสังคมออนไลน์อย่าง Facebook และ Twitter ที่มีการส่งต่อข้อมูลการแปลของ Google Translate ในประโยคว่า
“พันตำรวจโทที่(…คำที่มีความหมายเชิงลบต่างๆ…)ที่สุด”
ซึ่ง Google Translate ก็จะแปลเป็นว่า
“Thaksin Shinawatra is the worst … (คำแปลภาษาอังกฤษของคำที่มีความหมายเชิงลบนั้น)
เรื่องนี้หากเรามองในแง่ดีว่าไม่น่าจะมีใครที่จะสามารถไปจ้างให้ Google แปลคำผิด (ในเชิงความหมายทางตรง) ได้หนาดนี้ คำอธิบายหนึ่งสำหรับเรื่องนี้คือระบบการแปลของ Google Translate
หากใครที่ได้ติดตาม website นี้ก็จะพบว่า ใน post เรื่อง สถิติ 101 – The Joy of Stats ที่ผมเคยเขียนแนะนำสารคดีที่เกี่ยวกับบทบาทของสถิติในชีวิตประจำวันของเรา ก้จะพบว่าจริงๆ แล้ว Google ใช้วิธีสร้าง เครื่องจักรการแปลโดยสถิติ ที่เรียกว่า “statistical machine translation” ซึ่งผมคิดว่าน่าจะคล้ายๆ ระบบของ Neural Network มาเรียนรู้ระบบความสำพันธ์ของแต่ะภาษา โดยจะให้ระะบบประสาทจำลองนี้ได้อ่านเนื้อหาข้อมูลที่มีการแปลมาแล้วจาก website และเอกสาร online ทั่วโลก เช่น UN และเรียนรู้คำที่มักจะมาพร้อมกัน เมื่อได้อ่านมากๆ ก็จะสามารถจับคำหรือประโยคที่น่าจะมีความหมายใกล้เคียงกันได้ ดังนั้นทีมงานที่เขียนระบบนี้ก้ไม่จำเป็นที่จะต้องรู้เรื่องหลักภาษาที่จะต้องแปลเลย ทั้งหมดมาจาก สถิติ ล้วนๆ เพราะฉะนั้นหลายๆ ครั้งเวลาที่เราใช้บริการ Google Translate ก็มักจะเจอกับคำแปลที่คลาดเคลื่อนบ้าง
ดังนี้สาเหตุหนึ่งอาจเป็นเพราะว่าเอกสารและข่าวจำนวนมากที่กล่าวถึง พันตำรวจโท… ก็มักจะหมายถึง Thanksin Shinawatra ไปโดยปริยาย อย่างไรก็ตามทาง Google ก็ได้เปลี่ยนคำแปลเป็น Police Lieutenant ไปเรียบร้อยแล้ว
นิทานเรื่องนี้สอนให้รู้ว่า…
ที่ใดมีสถิติ ที่นั่นย่อมมีความคลาดเคลื่อน
ดังนั้นจงในงานวิจัยของผมจึงมีการศึกษาเชิงคุณภาพ หลังจากได้ผลการวิเคราะห์ทางสถิติแล้วเสมอ