AI is going to eat itself: Experiment shows people training bots are using bots

เราพูดคุยกับนักวิจัยที่อยู่เบื้องหลังการศึกษา การใช้ crowdsource services ในการเทรนนิ่งโมเดล AI พนักงานที่ได้จาก crowdsource services การกระจายงานไปยังกลุ่มคนงาน โดยว่าจ้างผ่านบริการคราวด์ซอร์สอย่าง Amazon Mechanical Turk พบว่ามีการลักไก่ใช้โมเดลภาษาขนาดใหญ่ เพื่อช่วยทำงานให้เสร็จเร็วๆ ได้จำนวนมากๆ ซึ่งอาจส่งผลเสียต่อโมเดล AI ในอนาคต

We speak to brains behind study into murky world of model teaching

Workers hired via crowdsource services like Amazon Mechanical Turk are using large language models to complete their tasks – which could have negative knock-on effects on AI models in the future.

พนักงาน crowdsourced workers ที่ถูกจ้างให้เทรนนิ่ง Bots ลักไก่ใช้ Bots มาทำงาน

เราพูดคุยกับนักวิจัยที่อยู่เบื้องหลังการศึกษา การใช้ crowdsource services ในการเทรนนิ่งโมเดล AI พนักงานที่ได้จาก crowdsource services การกระจายงานไปยังกลุ่มคนงาน โดยว่าจ้างผ่านบริการคราวด์ซอร์สอย่าง Amazon Mechanical Turk พบว่ามีการลักไก่ใช้โมเดลภาษาขนาดใหญ่ เพื่อช่วยทำงานให้เสร็จเร็วๆ ได้จำนวนมากๆ ซึ่งอาจส่งผลเสียต่อโมเดล AI ในอนาคต

ชุดข้อมูลขนาดใหญ่มีความสำคัญต่อ AI นักพัฒนาแอพพลิเคชั่น AI ต้องการดาต้าเซ็ตที่ไม่มีข้อมูลขยะ และมีคุณภาพสูง เพื่อสร้างระบบแมชชีนเลิร์นนิงที่แม่นยำและเชื่อถือได้

อย่างไรก็ตาม การรวบรวมข้อมูลที่มีคุณภาพสูงสุด ไม่มีข้อมูลขยะ อาจเป็นงานที่หนักหนาและน่าเบื่อ บริษัทต่างๆ มักจะหันไปใช้บริการจากแพลตฟอร์ม third party เช่น Amazon Mechanical Turk เพื่อใช้ crowdsourced workers จ้างคนจำนวนมากๆ ค่าแรงถูก มาช่วยทำงานซ้ำๆ เช่น งานแปะเลเบิลวัตถุ (labeling objects), อธิบายสถานการณ์ (describing situations), ถอดความข้อความ (transcribing passages), และ ใส่คำอธิบายประกอบข้อความ (annotating text)

งานที่ได้คือ ดาต้าเซ็ตที่คลีนข้อมูลแล้ว เอาข้อมูลขยะออก และเทรนนิ่งโมเดล AI เป็นภาระงานที่หนัก ปริมาณมาก และต้องทำซ้ำๆ

โมเดล AI ถูกสร้างขึ้นจากแรงงานมนุษย์: ผู้คนที่ต้องทำงานหนัก เพื่อให้ได้ดาต้าเซ็ต จากข้อมูลจำนวนมาก ใช้นำไปใช้เทรนนิ่งโมเดล AI ซึ่งเสียค่าใช้จ่ายสูง ตัวอย่างเช่น OpenAI ต้องลงทุนหลายพันล้านดอลลาร์

แต่การทดลองที่ดำเนินการโดยนักวิจัยที่ École polytechnique fédérale de Lausanne (EPFL) ในสวิตเซอร์แลนด์ ได้ข้อสรุปว่า crowdsourced workers เหล่านี้กำลังใช้ระบบ AI เช่น แชทบอท ChatGPT ของ OpenAI ลักไก่ทำงานแทนแรงงานมนุษย์

เป็นที่รู้กันว่า ไม่แนะนำให้เทรนนิ่งโมเดลด้วยเอาต์พุตของตัวเอง เราอาจเห็นโมเดล AI ได้รับการเทรนนิ่งจากดาต้าเซ็ตข้อมูลที่ไม่ได้สร้างโดยมนุษย์ แต่เป็นดาต้าเซ็ตที่สร้างโดยโมเดล AI อื่นๆ ซึ่งบางทีอาจเป็นโมเดลเดียวกันด้วยซ้ำ ซึ่งอาจนำไปสู่คุณภาพผลลัพธ์ที่เลวร้าย มีอคติมากขึ้น และผลกระทบที่ไม่พึงประสงค์อื่นๆ

The experiment: crowdsourced workers

นักวิจัยได้ว่าจ้าง crowdsourced workers ผ่านแพลตฟอร์ม Amazon Mechanical Turk จำนวน 44 คน เพื่อสรุปบทคัดย่อของเอกสารการวิจัยทางการแพทย์ 16 ฉบับ และประเมินว่า 33 ถึง 46 เปอร์เซ็นต์ ของผลงานที่คนงานส่งมานั้น ถูกลักไก่สร้างขึ้นโดยใช้ LLMs คนงานมักได้รับค่าจ้างต่ำ การใช้ AI-generated โดยอัตโนมัติ ช่วยให้พวกเขาทำงานได้เร็วขึ้น ทำงานได้มากขึ้น และได้ค่าจ้างเพิ่มขึ้น

ทีมวิจัยชาวสวิส ได้เทรนนิ่งตัวแยกประเภท classifier เพื่อประเมินว่า งานที่ได้รับนั้น เกิดจากฝีมือมนุษย์ หรือ AI-generated ทีมนักวิจัยยังใช้เครื่องมือของแพลตฟอร์ม ที่มีระบบบันทึกการกดแป้นพิมพ์ของคนงาน เพื่อตรวจสอบว่าพนักงานทำงานโดยคัดลอก และวางข้อความลงบนแพลตฟอร์ม หรือพิมพ์ข้อความลงไปเองทีละตัว แต่ก็มีโอกาสเสมอ ที่ใครบางคนใช้แชทบอท แล้วพิมพ์ผลลัพธ์ด้วยตนเอง – แต่นั่นน่าจะเป็นส่วนน้อย

“เราได้พัฒนา วิธีการเฉพาะเจาะจง (specific methodology) ซึ่งทำงานได้ดีมาก ในการตรวจจับ AI-generated ในสถานการณ์ของเรา” Manoel Ribeiro ผู้ร่วมศึกษาวิจัย และนักศึกษาปริญญาเอกของ EPFL กล่าว

“ในขณะที่วิธีการแบบดั้งเดิมพยายามตรวจหาข้อความ AI-generated ‘ในบริบทใดๆ’ แนวทางของเรามุ่งเน้นไปที่การตรวจหาข้อความ AI-generated ในสถานการณ์เฉพาะของเรา”

ตัวแยกประเภท classifier ยังไม่สมบูรณ์แบบ ในการระบุว่า มีคนใช้ AI-generated หรือสร้างผลงานของตนเองหรือไม่ นักวิชาการรวมผลลัพธ์ของตัวแยกประเภทเข้ากับข้อมูลการกดแป้นพิมพ์เพื่อให้แน่ใจมากขึ้น เมื่อมีคนคัดลอกและวางจากบอทหรือสร้างเนื้อหาของตนเอง

“เราสามารถตรวจสอบผลลัพธ์ของเราได้โดยใช้ข้อมูลการกดแป้นพิมพ์ที่เรารวบรวมจากแพลตฟอร์ม MTurk” Ribeiro กล่าวกับเรา “ตัวอย่างเช่น เราพบว่าข้อความทั้งหมด ที่ไม่ได้คัดลอกมา จะถูกจัดประเภทโดยเราว่าเป็น ‘ของจริง’ ซึ่งแสดงให้เห็นว่ามีข้อมูลที่คัดลอกเพียงเล็กน้อย”

มีอีกเหตุผลที่การทดลองนี้ ไม่ได้เป็นตัวแทนที่ยุติธรรม ต่อคนงานที่ลักไก่ใช้ AI เพื่อทำให้งานคราวด์ซอร์สเป็นแบบอัตโนมัติ เพราะว่างานการสรุปข้อความนั้น เหมาะสมกับโมเดล LLMs มาก เมื่อเทียบกับงานประเภทอื่นๆ ดังนั้น คนงานจึงถูกจูงใจมากขึ้น ให้ใช้เครื่องมือ เช่น ChatGPT

ดาต้าเซ็ต ชุดข้อมูล 46 คำตอบ จากพนักงาน 44 คนยัง มีขนาดเล็ก คนงานได้รับค่าจ้าง 1 ดอลลาร์สำหรับการสรุปข้อความแต่ละครั้ง ซึ่งจูงใจให้ใช้ AI-generated

งานวิจัย ชี้ว่าโมเดลภาษาขนาดใหญ่ (LLMs) จะแย่ลงหากได้รับการเทรนนิ่งโดยดาต้าเซ็ต ที่มีคอนเทนท์ที่ปลอม (fake content) สร้างโดย AI ที่รวบรวมจากการว่าจ้างแพลตฟอร์มคราวด์ซอร์ส

OpenAI เก็บวิธีเทรนนิ่งโมเดลล่าสุดไว้เป็นความลับ พวกเขาอาจไม่ต้องพึ่งพา crowdsourced workers จึงไม่ต้องประสบปัญหาดังกล่าว หากเป็นเช่นนั้น ที่พบว่า โมเดลอื่นๆ จำนวนมากอาจต้องพึ่งพาแรงงานมนุษย์ ซึ่งอาจใช้บอทเพื่อสร้างข้อมูลเทรนนิ่ง ซึ่งเป็นสาเหตุของปัญหา

แพลตฟอร์ม Mechanical Turk ดำเนินธุรกิจในฐานะผู้ให้บริการ “โซลูชันการทำเลเบิลข้อมูลในวัตถุเพื่อขับเคลื่อนโมเดลแมชชีนเลิร์นนิง”

“ข้อมูลที่ได้จากมนุษย์คือมาตรฐานทองคำ เพราะเป็นมนุษย์ที่เราให้ความสำคัญ ไม่ใช่โมเดลภาษาขนาดใหญ่” Riberio กล่าว “ผมจะไม่กินยาที่ได้รับการทดสอบในแบบจำลองทางชีวภาพของแมลงหวี่เท่านั้น” เขากล่าวเป็นตัวอย่าง

การตอบสนองที่เกิดจากโมเดล AI ในปัจจุบันมักจะค่อนข้างธรรมดาหรือเล็กน้อย และไม่จับความซับซ้อนและความหลากหลายของความคิดสร้างสรรค์ของมนุษย์

“บางครั้ง การที่เราต้องเทรนนิ่งด้วยข้อมูลที่รวบรวมจาก crowdsourced workers เป็นสาเหตุของปัญหา” Robert West ผู้ร่วมศึกษาวิจัย และผู้ช่วยศาสตราจารย์ในโรงเรียนวิทยาการคอมพิวเตอร์และการสื่อสารของ EPFL กล่าวกับเรา

ในขณะที่ AI ปรับปรุงอย่างต่อเนื่อง มีแนวโน้มว่างานที่มาจาก crowdsourced workers จะเปลี่ยนไป Riberio คาดการณ์ว่าโมเดลภาษาขนาดใหญ่สามารถแทนที่คนงานบางคนในงานเฉพาะได้ “อย่างไรก็ตาม ในทางที่ขัดแย้งกัน ข้อมูลของมนุษย์อาจมีค่ามากกว่าที่เคย และอาจเป็นไปได้ว่าแพลตฟอร์มเหล่านี้จะสามารถใช้วิธีต่างๆ เพื่อป้องกันการใช้โมเดลภาษาขนาดใหญ่ และทำให้แน่ใจว่าข้อมูลดังกล่าวยังคงเป็นแหล่งข้อมูลของมนุษย์”

ใครจะไปรู้ บางทีมนุษย์อาจลงเอยด้วยการร่วมมือกับ large language models เพื่อสร้างผลลัพธ์ ก็เป็นไปได้ เขากล่าวเสริม

view original *