นักวิจัยชาวญี่ปุ่นบางคนเห็นว่าระบบ AI ที่ได้รับการฝึกภาษาต่างประเทศ ไม่สามารถเข้าใจความซับซ้อนของภาษาและวัฒนธรรมของญี่ปุ่นได้
Some Japanese researchers feel that AI systems trained on foreign languages cannot grasp the intricacies of Japanese language and culture.
![](http://34.126.175.50/wp-content/uploads/2023/09/IMG_0566.jpeg)
เหตุใดญี่ปุ่นจึงสร้าง ChatGPT เวอร์ชันของตนเอง
ญี่ปุ่นกำลังสร้าง ChatGPT เวอร์ชันของตัวเอง ซึ่งเป็นแชทบอทปัญญาประดิษฐ์ (AI) ที่ผลิตโดยบริษัท OpenAI ของสหรัฐฯ ซึ่งกลายเป็นที่ฮือฮาไปทั่วโลกหลังจากเปิดตัวเมื่อไม่ถึงปีที่แล้ว
รัฐบาลญี่ปุ่นและบริษัทเทคโนโลยีขนาดใหญ่ เช่น NEC, Fujitsu และ SoftBank กำลังทุ่มเงินหลายร้อยล้านดอลลาร์เพื่อสร้างระบบ AI ที่ใช้เทคโนโลยีพื้นฐานเดียวกันที่เรียกว่าโมเดลภาษาขนาดใหญ่ (LLM) แต่ใช้ภาษาญี่ปุ่น แทนที่จะแปลเป็นภาษาอังกฤษ
“LLM สาธารณะในปัจจุบัน เช่น GPT มีความเชี่ยวชาญในภาษาอังกฤษ แต่มักจะขาดภาษาญี่ปุ่นเนื่องจากความแตกต่างในระบบตัวอักษร ข้อมูลที่จำกัด และปัจจัยอื่นๆ” Keisuke Sakaguchi นักวิจัยจากมหาวิทยาลัย Tohoku ในญี่ปุ่นที่เชี่ยวชาญด้านภาษาธรรมชาติกล่าว กำลังประมวลผล.
อคติจากภาษาอังกฤษ
โดยทั่วไป LLM จะใช้ข้อมูลจำนวนมหาศาลจากแหล่งข้อมูลสาธารณะเพื่อเรียนรู้รูปแบบของคำพูดและร้อยแก้วที่เป็นธรรมชาติ พวกเขาได้รับการฝึกฝนให้ทำนายคำถัดไปโดยอาศัยคำก่อนหน้าในข้อความ ข้อความส่วนใหญ่ที่ GPT-3 รุ่นก่อนหน้าของ ChatGPT ได้รับการฝึกนั้นเป็นภาษาอังกฤษ
ความสามารถอันน่าขนลุกของ ChatGPT ในการสนทนาแบบมนุษย์ทำให้นักวิจัยทั้งยินดีและกังวล บางคนมองว่าเป็นเครื่องมือที่ช่วยประหยัดแรงงานได้ คนอื่นๆ กังวลว่าอาจนำไปใช้สร้างเอกสารหรือข้อมูลทางวิทยาศาสตร์ได้
ในญี่ปุ่น มีความกังวลว่าระบบ AI ที่ได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูลในภาษาอื่นไม่สามารถเข้าใจความซับซ้อนของภาษาและวัฒนธรรมของญี่ปุ่นได้ โครงสร้างของประโยคในภาษาญี่ปุ่นแตกต่างจากภาษาอังกฤษอย่างสิ้นเชิง ChatGPT จึงต้องแปลคำถามภาษาญี่ปุ่นเป็นภาษาอังกฤษ ค้นหาคำตอบแล้วแปลคำตอบกลับเป็นภาษาญี่ปุ่น
ในขณะที่ภาษาอังกฤษมีตัวอักษรเพียง 26 ตัว ภาษาญี่ปุ่นที่เขียนประกอบด้วยตัวอักษรพื้นฐาน 48 ตัว 2 ชุด และตัวอักษรจีนหรือคันจิที่ใช้เป็นประจำอีก 2,136 ตัว คันจิส่วนใหญ่มีการออกเสียงตั้งแต่สองเสียงขึ้นไป และยังมีคันจิที่ไม่ค่อยได้ใช้อีกประมาณ 50,000 ตัว เมื่อพิจารณาถึงความซับซ้อนดังกล่าว จึงไม่น่าแปลกใจที่ ChatGPT จะสามารถสะดุดกับภาษาได้
ในภาษาญี่ปุ่น ChatGPT “บางครั้งสร้างตัวละครที่หายากมากซึ่งคนส่วนใหญ่ไม่เคยเห็นมาก่อน และส่งผลให้เกิดคำแปลกๆ ที่ไม่รู้จัก” Sakaguchi กล่าว
บรรทัดฐานทางวัฒนธรรม
เพื่อให้ LLM มีประโยชน์และแม้กระทั่งในเชิงพาณิชย์ จะต้องสะท้อนถึงหลักปฏิบัติทางวัฒนธรรมและภาษาอย่างถูกต้อง หาก ChatGPT ได้รับแจ้งให้เขียนอีเมลสมัครงานเป็นภาษาญี่ปุ่น ก็อาจละเว้นสำนวนสุภาพมาตรฐาน และดูเหมือนเป็นคำแปลจากภาษาอังกฤษที่ชัดเจน
เพื่อวัดว่า LLM มีความละเอียดอ่อนต่อวัฒนธรรมญี่ปุ่นอย่างไร กลุ่มนักวิจัยจึงเปิดตัว Rakuda ซึ่งเป็นการจัดอันดับว่า LLM สามารถตอบคำถามปลายเปิดในหัวข้อภาษาญี่ปุ่นได้ดีเพียงใด Sam Passaglia ผู้ร่วมก่อตั้ง Rakuda และเพื่อนร่วมงานของเขาขอให้ ChatGPT เปรียบเทียบความลื่นไหลและความเหมาะสมทางวัฒนธรรมของคำตอบต่อข้อความแจ้งมาตรฐาน การใช้เครื่องมือเพื่อจัดอันดับผลลัพธ์นั้นอิงจากการพิมพ์ล่วงหน้าที่เผยแพร่ในเดือนมิถุนายน ซึ่งแสดงให้เห็นว่า GPT-4 เห็นด้วยกับผู้ตรวจสอบที่เป็นมนุษย์ 87% ของทั้งหมด1 LLM โอเพ่นซอร์สของญี่ปุ่นที่ดีที่สุดอยู่ในอันดับที่สี่ของ Rakuda ในขณะที่อันดับที่หนึ่งอาจไม่น่าแปลกใจเลยที่ GPT-4 จะเป็นผู้ตัดสินการแข่งขันด้วย
“แน่นอนว่า LLM ของญี่ปุ่นกำลังดีขึ้นมาก แต่ก็ยังตามหลัง GPT-4 อยู่มาก” Passaglia นักฟิสิกส์จากมหาวิทยาลัยโตเกียวผู้ศึกษาแบบจำลองภาษาญี่ปุ่นกล่าว แต่เขาไม่มีเหตุผลในหลักการว่า LLM ของญี่ปุ่นจะไม่สามารถเทียบเท่าหรือเหนือกว่า GPT-4 ได้ในอนาคต “นี่ไม่ใช่สิ่งที่ผ่านไม่ได้ในทางเทคนิค แต่เป็นเพียงคำถามเกี่ยวกับทรัพยากร”
ความพยายามครั้งใหญ่ประการหนึ่งในการสร้าง LLM ของญี่ปุ่นคือการใช้ซูเปอร์คอมพิวเตอร์ของญี่ปุ่น Fugaku ซึ่งเป็นหนึ่งในคอมพิวเตอร์ที่เร็วที่สุดในโลก โดยฝึกฝนโดยใช้ภาษาญี่ปุ่นเป็นหลัก ได้รับการสนับสนุนจากสถาบันเทคโนโลยีแห่งโตเกียว, มหาวิทยาลัยโทโฮกุ, ฟูจิตสึ และกลุ่มศูนย์วิจัย RIKEN ที่ได้รับทุนสนับสนุนจากรัฐบาล คาดว่า LLM ที่ได้จะเปิดตัวในปีหน้า โดยจะร่วมกับ LLM โอเพ่นซอร์สอื่นๆ ในการทำให้โค้ดพร้อมใช้งานสำหรับผู้ใช้ทุกคน ซึ่งแตกต่างจาก GPT-4 และรุ่นที่เป็นกรรมสิทธิ์อื่นๆ ตามที่ Sakaguchi ผู้มีส่วนร่วมในโครงการนี้ ทีมงานหวังว่าจะให้พารามิเตอร์อย่างน้อย 3 หมื่นล้านตัว ซึ่งเป็นค่าที่มีอิทธิพลต่อผลลัพธ์และสามารถทำหน้าที่เป็นเกณฑ์มาตรฐานสำหรับขนาดของมันได้
อย่างไรก็ตาม Fugaku LLM อาจจะถูกสืบทอดโดยบริษัทที่ใหญ่กว่านี้อีก กระทรวงศึกษาธิการ วัฒนธรรม กีฬา วิทยาศาสตร์ และเทคโนโลยีของญี่ปุ่นกำลังให้ทุนสนับสนุนการสร้างโปรแกรม AI ของญี่ปุ่นที่ปรับให้ตรงตามความต้องการทางวิทยาศาสตร์ ซึ่งจะสร้างสมมติฐานทางวิทยาศาสตร์โดยการเรียนรู้จากงานวิจัยที่ตีพิมพ์ ซึ่งจะช่วยเร่งการระบุเป้าหมายสำหรับการสอบถาม โมเดลนี้สามารถเริ่มต้นที่ 100 พันล้านพารามิเตอร์ ซึ่งจะมีขนาดเกินครึ่งหนึ่งของ GPT-3 และจะขยายออกไปเมื่อเวลาผ่านไป
“เราหวังว่าจะเร่งวงจรการวิจัยทางวิทยาศาสตร์อย่างรวดเร็วและขยายพื้นที่การค้นหา” Makoto Taiji รองผู้อำนวยการศูนย์ RIKEN Center for Biosystems Dynamics Research กล่าวถึงโครงการนี้ LLM อาจใช้งบประมาณในการพัฒนาอย่างน้อย 3 หมื่นล้านเยน (204 ล้านดอลลาร์สหรัฐ) และคาดว่าจะเผยแพร่สู่สาธารณะในปี 2574
การขยายขีดความสามารถ
บริษัทญี่ปุ่นต่างๆ วางแผนที่จะขายเทคโนโลยี LLM ของตนเองอยู่แล้ว ผู้ผลิตซูเปอร์คอมพิวเตอร์ NEC เริ่มใช้ generative AI โดยใช้ภาษาญี่ปุ่นในเดือนพฤษภาคม และอ้างว่าช่วยลดเวลาในการสร้างรายงานภายในลง 50% และซอร์สโค้ดซอฟต์แวร์ภายในลง 80% ในเดือนกรกฎาคม บริษัทเริ่มนำเสนอบริการ AI เชิงสร้างสรรค์ที่ปรับแต่งได้ให้แก่ลูกค้า
มาซาฟูมิ โอยามาดะ นักวิจัยหลักอาวุโสของ NEC Data Science Laboratories กล่าวว่าสามารถใช้งานได้ “ในอุตสาหกรรมที่หลากหลาย เช่น การเงิน การขนส่งและลอจิสติกส์ การจัดจำหน่ายและการผลิต” เขาเสริมว่านักวิจัยสามารถนำมันไปใช้ในการเขียนโค้ด ช่วยเขียนและแก้ไขเอกสาร และสำรวจเอกสารที่ตีพิมพ์ที่มีอยู่ เหนืองานอื่น ๆ
ในขณะเดียวกัน SoftBank บริษัทโทรคมนาคมของญี่ปุ่นก็กำลังลงทุนประมาณ 2 หมื่นล้านเยนในการสร้างสรรค์ AI ที่ได้รับการฝึกฝนเกี่ยวกับข้อความภาษาญี่ปุ่น และวางแผนที่จะเปิดตัว LLM ของตัวเองในปีหน้า Softbank ซึ่งมีลูกค้า 40 ล้านรายและเป็นหุ้นส่วนกับนักลงทุน OpenAI Microsoft กล่าวว่ามีเป้าหมายที่จะช่วยให้บริษัทต่างๆ ปรับเปลี่ยนธุรกิจของตนให้เป็นดิจิทัลและเพิ่มผลผลิต SoftBank คาดหวังว่า LLM จะถูกนำไปใช้โดยมหาวิทยาลัย สถาบันวิจัย และองค์กรอื่นๆ
ในขณะเดียวกัน นักวิจัยชาวญี่ปุ่นหวังว่าแชทบอท AI ที่แม่นยำ มีประสิทธิภาพ และผลิตในญี่ปุ่นจะช่วยเร่งวิทยาศาสตร์และลดช่องว่างระหว่างญี่ปุ่นและส่วนอื่นๆ ของโลกได้
“หาก ChatGPT เวอร์ชันภาษาญี่ปุ่นสามารถทำให้แม่นยำได้ ก็คาดว่าจะให้ผลลัพธ์ที่ดีขึ้นสำหรับผู้ที่ต้องการเรียนภาษาญี่ปุ่นหรือทำการวิจัยเกี่ยวกับญี่ปุ่น” โชทาโร คิโนชิตะ นักวิจัยด้านเทคโนโลยีการแพทย์จาก Keio University School of Medicine กล่าว โตเกียว. “ผลที่ตามมาอาจมีผลกระทบเชิงบวกต่อการวิจัยร่วมระหว่างประเทศ”