This AI learnt language by seeing the world through a baby’s eyes

โครงข่ายประสาทเทียมที่สอนตัวเองให้จดจำวัตถุ โดยใช้ข้อมูลที่บันทึกจากชีวิตประจำวันของทารกหนึ่งคน สามารถให้ข้อมูลเชิงลึกใหม่ๆ เกี่ยวกับวิธีการเรียนรู้ของมนุษย์

A neural network that taught itself to recognize objects using the filmed experiences of a single infant could offer new insights into how humans learn.

โมเดล AI เรียนรู้ภาษา จากข้อมูลบันทึกการใช้ชีวิตประจำวันของทารก

โมเดล AI เรียนรู้ที่จะจดจำคำศัพท์ต่างๆ เช่น “เปล” และ “ลูกบอล” โดยศึกษาการบันทึกภาพจากกล้องที่ติดบนหมวก เก็บข้อมูลชีวิตประจำวันของทารกหนึ่งคนที่เข้าร่วมงานวิจัย

ผลการวิจัยชี้ให้เห็นว่า AI สามารถช่วยให้เราเข้าใจว่า มนุษย์เรียนรู้อย่างไร Wai Keen Vong ผู้ร่วมเขียนผลงานการวิจัยด้าน AI จากมหาวิทยาลัยนิวยอร์กกล่าว ก่อนหน้านี้สิ่งนี้ยังไม่ชัดเจน เนื่องจากโมเดลการเรียนรู้ภาษาอื่นๆ เช่น ChatGPT เรียนรู้จากชุดข้อมูลหลายพันล้านชุด ซึ่งเทียบไม่ได้กับประสบการณ์ในแค่ละวันที่เกิดขึ้นจริงของเด็กทารก Vong กล่าว “คนเราไม่ได้เรียนรู้จากอินเทอร์เน็ต ตั้งแต่แรกเกิด”

ผู้เขียนหวังว่า ผลการวิจัยซึ่งรายงาน ในวารสาร Science เมื่อวันที่ 1 กุมภาพันธ์ จะเป็นประเด็นถกเถียงที่มีมายาวนานเกี่ยวกับวิธีการเรียนรู้ภาษาของเด็กๆ AI เรียนรู้โดยการสร้างการเชื่อมโยงระหว่างภาพและคำศัพท์ที่เห็นร่วมกันเท่านั้น มันไม่ได้ถูกโปรแกรมด้วยความรู้ก่อนหน้าเกี่ยวกับภาษาอื่นใด นั่นท้าทายทฤษฎีความรู้ความเข้าใจและวิทยาศาสตร์บางประการที่ว่า ทารกจำเป็นต้องมีความรู้โดยธรรมชาติเกี่ยวกับวิธีการทำงานของภาษา เพื่อใส่ความหมายให้กับคำพูด Vong กล่าว

Heather Bortfeld นักวิทยาศาสตร์ด้าน cognitive science จากมหาวิทยาลัยแคลิฟอร์เนีย เมอร์เซด กล่าวว่า การศึกษานี้เป็น “แนวทางที่น่าสนใจ” ในการทำความเข้าใจการเรียนรู้ภาษาของทารกในช่วงตั้งต้น early language acquisition

Baby’s-eye view

Vong และเพื่อนร่วมงานใช้เวลาบันทึก 61 ชั่วโมงจากกล้องที่ติดตั้งบนหมวกที่เด็กทารกที่เข้าร่วมการวิจัย เพศชายชื่อแซม สวมใส่ เพื่อรวบรวมข้อมูลจากมุมมองของเด็กทารก แซม ซึ่งอาศัยอยู่ใกล้เมืองแอดิเลดในออสเตรเลีย สวมกล้องประมาณหนึ่งชั่วโมงสองครั้งต่อสัปดาห์ (ประมาณ 1% ของชั่วโมงตื่นของเขา) ตั้งแต่อายุหกเดือนถึงประมาณสองปี

นักวิจัยได้ฝึกโครงข่ายประสาทเทียมของพวกเขา ซึ่งเป็น AI ที่ได้รับแรงบันดาลใจจากโครงสร้างของสมอง บนเฟรมจากวิดีโอและคำพูดที่พูดกับแซมซึ่งคัดลอกมาจากการบันทึก โมเดลนี้เปิดรับคำศัพท์ 250,000 คำและรูปภาพที่เกี่ยวข้อง ซึ่งถ่ายระหว่างกิจกรรมต่างๆ เช่น การเล่น การอ่าน และการรับประทานอาหาร โมเดลนี้ใช้เทคนิคที่เรียกว่าการเรียนรู้แบบเปรียบเทียบเพื่อเรียนรู้ว่ารูปภาพและข้อความใดมีแนวโน้มที่จะเข้ากันและสิ่งใดไม่เข้ากัน เพื่อสร้างข้อมูลที่สามารถใช้เพื่อคาดเดาว่าคำบางคำ เช่น ‘ลูกบอล’ และ ‘ชาม’ อ้างอิงถึงภาพใด

ในการทดสอบ AI นักวิจัยได้สั่งให้โมเดล AI จับคู่คำกับรูปภาพที่เข้าข่าย 1 ใน 4 รูป ซึ่งเป็นแบบทดสอบที่ใช้ในการประเมินความสามารถทางภาษาของเด็กด้วย สามารถจำแนกวัตถุได้สำเร็จ 62% ดีกว่าที่คาดไว้ที่ 25% และเทียบได้กับโมเดล AI ที่คล้ายกัน ซึ่งใช้ดาต้าเซ็ตในการฝึกฝนจับคู่รูปภาพและข้อความ มากถึง 400 ล้านคู่

สำหรับคำบางคำ เช่น “apple” และ “dog” โมเดลสามารถระบุตัวอย่างที่ไม่เคยเห็นมาก่อนได้อย่างถูกต้อง ซึ่งเป็นสิ่งที่มนุษย์มักพบว่าค่อนข้างง่าย โดยเฉลี่ยแล้วทำได้สำเร็จถึง 35% AI สามารถระบุวัตถุที่ไม่อยู่ในบริบทได้ดีกว่าเมื่อเกิดขึ้นบ่อยครั้งในข้อมูลการฝึกอบรม นอกจากนี้ยังเป็นการดีที่สุดในการระบุวัตถุที่มีลักษณะแตกต่างกันเล็กน้อย Vong กล่าว คำที่สามารถอ้างถึงสิ่งของต่างๆ มากมาย เช่น ‘ของเล่น’ นั้นเรียนรู้ได้ยากกว่า

Lessons about learning

การพึ่งพาข้อมูลจากเด็กเพียงคนเดียวอาจทำให้เกิดคำถามเกี่ยวกับความสามารถในการสรุปผลการวิจัยได้ เนื่องจากประสบการณ์และสภาพแวดล้อมของเด็กแตกต่างกันอย่างมาก Bortfeld กล่าว แต่แบบฝึกหัดดังกล่าวเผยให้เห็นว่าในช่วงแรกๆ ของทารกสามารถเรียนรู้ได้หลายอย่างผ่านการเชื่อมโยงระหว่างแหล่งประสาทสัมผัสต่างๆ เท่านั้น เธอกล่าวเสริม การค้นพบนี้ยังท้าทายนักวิทยาศาสตร์ เช่น นักภาษาศาสตร์ชาวอเมริกัน โนม ชอมสกี ซึ่งอ้างว่าภาษาซับซ้อนเกินไปและการป้อนข้อมูลมีน้อยเกินไป เพื่อให้การเรียนรู้ภาษาเกิดขึ้นผ่านกระบวนการเรียนรู้ทั่วไป “ข้อมูลเหล่านี้เป็นหนึ่งในข้อมูลที่แสดงให้เห็นชัดเจนที่สุด ไม่ต้องอาศัยกลไกพิเศษใดๆ” Bortfeld กล่าว

การเรียนรู้ภาษาในโลกแห่งความเป็นจริงมีความสมบูรณ์และหลากหลายมากกว่าประสบการณ์ของ AI นักวิจัยกล่าว

เนื่องจาก AI ถูกจำกัดไว้เพียงการฝึกภาพนิ่งและข้อความ จึงไม่สามารถสัมผัสถึงปฏิสัมพันธ์ที่มีอยู่จริงในชีวิตประจำวันของทารก ตัวอย่างเช่น AI พยายามที่จะเรียนรู้คำว่า ‘มือ’ ซึ่งทารกมักจะเรียนรู้ตั้งแต่เนิ่นๆ Vong กล่าว “เด็กทารกมีมือตั้งแต่เกิด พวกเขาจึงมีประสบการณ์มากมายในการใช้มือของพวกเขา นั่นเป็นองค์ประกอบที่ขาดหายไปของโมเดลของเราอย่างแน่นอน”

Anirudh Goyal นักวิทยาศาสตร์ด้าน machine learning จากมหาวิทยาลัยมอนทรีออล ประเทศแคนาดา กล่าวว่า “ศักยภาพในการปรับปรุงเพิ่มเติม เพื่อทำให้โมเดลสอดคล้องกับความซับซ้อนของการเรียนรู้ของมนุษย์นั้นมีมากมายมหาศาล ซึ่งถือเป็นแนวทางที่น่าตื่นเต้นสำหรับความก้าวหน้าในด้าน cognitive sciences”

doi: https://doi.org/10.1038/d41586-024-00288-1

view original*