AI Learning From AI is The Beginning of the End for AI Models

Generative AI นั้นต้องการข้อมูลมากมายมหาศาลจากคอนเทนท์ต่างๆ และมากกว่า AI-generated material อีกด้วย

The generative AI machine is so ravenous for content, it may consume more AI-generated material.

Image created by Decrypt using AI

AI Learning From AI จุดเริ่มต้นของจุดจบสำหรับโมเดล AI

ปัญญาประดิษฐ์เป็นตัวเปลี่ยนเกมในหลายด้าน ตั้งแต่การดูแลสุขภาพ การค้าปลีก ไปจนถึงความบันเทิงและศิลปะ อย่างไรก็ตาม การวิจัยใหม่ชี้ให้เห็นว่าเราอาจมาถึงจุดเปลี่ยน: AI ที่เรียนรู้จากเนื้อหาที่สร้างโดย AI (AI learning from AI-generated content)

แต่ AI ouroboros รูปแบบงูที่กินหางของตัวเอง อาจมีจุดจบไม่สวยนัก กลุ่มวิจัยจากมหาวิทยาลัยต่างๆ ในสหราชอาณาจักรได้ออกคำเตือนเกี่ยวกับสิ่งที่พวกเขาเรียกว่า “model collapse” ซึ่งเป็นกระบวนการเสื่อมถอยที่สามารถแยก AI ออกจากความเป็นจริงโดยสิ้นเชิง

ในงานวิจัยเรื่อง “The Curse of Recursion: Training on Generated Data makes Models forget” นักวิจัยจากมหาวิทยาลัย Cambridge และ Oxford, University of Toronto และ Imperial College ในลอนดอน อธิบายว่า model collapse การล่มสลายของโมเดลเกิดขึ้นเมื่อ “ข้อมูลที่สร้างขึ้น ก่อมลพิษกับเทรนนิ่งเซ็ตของชุดโมเดลรุ่นต่อไป” งานวิจัยพบว่า
“เมื่อได้รับการเทรนนิ่งจากดาต้าเซ็ต ที่มีข้อมูลปนเปื้อน มันจึงเข้าใจความเป็นจริงผิดไป”

กล่าวอีกนัยหนึ่ง เนื้อหาที่แพร่หลายซึ่งสร้างโดย AI ที่เผยแพร่ทางออนไลน์อาจถูกดูดกลับเข้าสู่ระบบ AI ซึ่งนำไปสู่การบิดเบือน (distortions) และความไม่ถูกต้อง (inaccuracies)

ปัญหานี้พบในเครื่องมือและ Generative AI ที่ได้รับการเทรนนิ่งมากมาย รวมถึงโมเดลภาษาขนาดใหญ่ (LLM), ตัวเข้ารหัสอัตโนมัติแบบแปรผัน (Variational Autoencoders) และโมเดลผสมแบบเกาส์เซียน (Gaussian Mixture Models) เมื่อเวลาผ่านไป โมเดลเริ่ม “ลืมการกระจายข้อมูลพื้นฐานที่แท้จริง” ซึ่งนำไปสู่การแสดงความเป็นจริงที่ไม่ถูกต้อง เนื่องจากข้อมูลต้นฉบับจะบิดเบี้ยวมากจนไม่เหมือนกับข้อมูลในโลกแห่งความเป็นจริง

มีหลายกรณีที่ machine learning models ได้รับการเทรนนิ่งจากข้อมูลที่สร้างขึ้นโดย AI ตัวอย่างเช่น โมเดลการเรียนรู้ภาษา (LLM) กำลังเทรนนิ่งจากเอาต์พุตจาก GPT-4 ในทำนองเดียวกัน DeviantArt ซึ่งเป็นแพลตฟอร์มออนไลน์สำหรับศิลปิน อนุญาตให้เผยแพร่งานศิลปะที่สร้างโดย AI และใช้เป็นดาต้าเซ็ต ข้อมูลการเทรนนิ่งสำหรับโมเดล AI รุ่นใหม่

เช่นเดียวกับการพยายามคัดลอกหรือโคลนนิ่งบางสิ่ง การปฏิบัติเหล่านี้อาจนำไปสู่การล่มสลายของโมเดลมากขึ้น

เมื่อคำนึงถึงผลกระทบร้ายแรงของการล่มสลายของโมเดล การเข้าถึงการกระจายข้อมูลดั้งเดิมจึงมีความสำคัญอย่างยิ่ง โมเดล AI ต้องการข้อมูลจริงที่มนุษย์สร้างขึ้นเพื่อทำความเข้าใจและจำลองความจริงในโลกของเราอย่างถูกต้อง

Image created by Decrypt using AI

วิธีป้องกันการยุบตัวของโมเดล

มีสองสาเหตุหลักสำหรับการล่มสลายของโมเดลตามรายงานการวิจัย ข้อผิดพลาดหลักคือ “ข้อผิดพลาดในการประมาณค่าทางสถิติ” (statistical approximation error) ซึ่งเชื่อมโยงกับตัวอย่างข้อมูลจำนวนจำกัด ส่วนที่สองคือ “ข้อผิดพลาดในการประมาณการทำงาน” (functional approximation error) ซึ่งเกิดจากมาร์จิ้นของข้อผิดพลาดที่ใช้ในระหว่างการเทรนนิ่ง AI ที่ไม่ได้รับการกำหนดค่าอย่างเหมาะสม ข้อผิดพลาดเหล่านี้อาจสะสมมาหลายชั่วอายุคน ทำให้เกิดผลต่อเนื่องของความไม่ถูกต้องที่เลวร้ายลง

บทความงานวิจัยนี้กล่าวถึง“first-mover advantage” สำหรับการเทรนนิ่งโมเดล AI หากเรารักษาการเข้าถึงแหล่งข้อมูลดั้งเดิมที่มนุษย์สร้างขึ้นได้ เราอาจป้องกันการเปลี่ยนแปลงการกระจายที่เป็นอันตราย และทำให้โมเดลล่มสลายได้

Distinguishing AI-generated content ในวงกว้างเป็นความท้าทายที่น่ากลัว ซึ่งอาจต้องมีการประสานงานกันทั่วทั้งชุมชน (community-wide coordination)

ท้ายที่สุดแล้ว ความสำคัญของความสมบูรณ์ของข้อมูล (data integrity) และอิทธิพลของข้อมูลที่สร้างขึ้นโดยมนุษย์ที่มีต่อ AI นั้นมีความสำคัญพอๆ กับ AI-generated content ปริมาณมหาศาลที่ได้รับ ดาต้าเซ็ตของเนื้อหาที่สร้างโดย AI อาจกลายเป็นดาบสองคมสำหรับอุตสาหกรรม มันคือ “ขยะเข้า ขยะออก” แนวคิด AI เรียนรู้จาก AI จะนำไปสู่เครื่องจักรที่ฉลาดมาก ฟังดูแฟนตาซีดี แต่อาจจะผิด

เป็นอย่างไรบ้าง? กับไอเดียแฟนตาซีว่า รุ่นลูกหลานของเรา AI จะเรียนรู้จากกันและกันมากกว่าจากเรา ที่กลายเป็น “ภาพลวงตา” หรือ “delusional” มากลับสู่ความจริง เราต้องเริ่มต้นจาก การจัดการปัญหาภาพลวงตา (delusional) ของ ChatGPT ให้ได้ก่อนเลย

view original *