OpenAI strikes deal with AP to pay for using its news in training AI

บริษัทเทคโนโลยีเคยใช้บทความข่าว เป็นชุดข้อมูลเพื่อฝึก AI โดยไม่ได้รับอนุญาต ตอนนี้ OpenAI จะเริ่มจ่ายเงินแล้วบางส่วน

Tech companies have used news articles to train AI without permission. Now, OpenAI will begin paying for some of it.

OpenAI ตกลงกับ AP เพื่อจ่ายเงินสำหรับชุดข้อมูลเพื่อใช้ในการฝึกอบรม AI

ซานฟรานซิสโก — OpenAI ผู้ผลิต ChatGPT จะจ่ายเงินเพื่อใช้ข่าว Associated Press เพื่อฝึกอัลกอริทึมปัญญาประดิษฐ์ ซึ่งเป็นข้อตกลงหลักประการแรกท่ามกลางการถกเถียง ที่มากขึ้นว่าบริษัทเทคโนโลยีควรจ่ายเงินให้กับผู้สร้างเนื้อหาที่พวกเขาคัดลอกมาจากเว็บ เพื่อใช้เป็นชุดข้อมูลสร้างเครื่องมือ AI หรือไม่

OpenAI จะเข้าถึงคลังข้อความของ AP ย้อนหลังไปถึงปี 1985 องค์กรข่าวกล่าวในแถลงการณ์ นอกจากค่าลิขสิทธิ์แล้ว AP ยังสามารถเข้าถึงเทคโนโลยีของ OpenAI เพื่อใช้ในการทดลองเพื่อตัดสินใจว่าจะปรับปรุงการสื่อสารมวลชนได้อย่างไร

องค์กรข่าวใช้ระบบอัตโนมัติเพื่อจัดทำรายงานกีฬาท้องถิ่น และรายงานรายได้ทางการเงินเป็นเวลาหลายปี AP ไม่ใช้เทคโนโลยี “generative” อย่างเช่น ChatGPT เพื่อเขียนรายงานข่าว

OpenAI, Google และบริษัท AI อื่นๆ ได้ใช้ประโยคหลายพันล้านประโยคที่ดึงออกมาจากอินเทอร์เน็ตแบบเปิดเพื่อสร้าง “โมเดลภาษาขนาดใหญ่” ที่ขับเคลื่อนแชทบอทของพวกเขา ข่าว บทความวิกิพีเดีย ความคิดเห็นบนโซเชียลมีเดีย และบล็อกโพสต์ ล้วนอยู่ในโมเดลโดยไม่ได้รับอนุญาตจากเจ้าของ โดยที่บริษัทเทคโนโลยีมักโต้แย้งว่าพวกเขามีอิสระที่จะใช้ข้อมูลสาธารณะ

การวิเคราะห์ของ Washington Post เกี่ยวกับฐานข้อมูลของเว็บไซต์ที่ใช้ในการฝึกโมเดล AI รุ่นเก่าของ OpenAI แสดงให้เห็นว่าเว็บไซต์ข่าวหลักของ AP เป็นเว็บไซต์ที่มีการอ้างอิงมากที่สุดอันดับที่ 68 ในฐานข้อมูล

กลุ่มนักเขียน นักดนตรี องค์กรข่าว และบริษัทสื่อสังคมออนไลน์ที่เติบโตขึ้น ได้โต้แย้ง และคัดค้านว่า การใช้เนื้อหาของพวกเขาเพื่อฝึกฝน AI เป็นการเปลี่ยนแปลงวิธีการทำงานครั้งใหญ่ ในการใช้อินเทอร์เน็ต โดยเฉพาะอย่างยิ่งเมื่อเครื่องมือ AI บางอย่างได้รับการฝึกฝนจากมนุษย์ – เนื้อหาที่ทำขึ้นถูกนำมาใช้ เพื่อแทนที่แรงงานมนุษย์แล้ว กระแสการฟ้องร้องเกิดขึ้นทั่วทั้งอุตสาหกรรมในช่วงสองสัปดาห์ที่ผ่านมา โดยกล่าวหาว่ามีการใช้ข้อมูลที่ไม่เหมาะสม รวมถึงการฟ้องร้องดำเนินคดีแบบกลุ่มกับ OpenAI และ Google และการฟ้องร้อง OpenAI จากนักแสดงตลก Sarah Silverman และนักเขียนนิยายชื่อดังสองคน

ในวันพฤหัสบดี The Washington Post รายงานว่า Federal Trade Commission ได้เปิดการสอบสวนว่า OpenAI ใช้ข้อมูลของผู้บริโภคในการฝึกอบรมโมเดลของตนอย่างไร

“ชุดข้อมูลประกอบด้วยเนื้อหาจำนวนมากที่มีลิขสิทธิ์ เจ้าของลิขสิทธิ์ไม่ยินยอมให้ใช้สิ่งเหล่านี้” Andres Sawicki ศาสตราจารย์ด้านกฎหมายแห่งมหาวิทยาลัยไมอามี ผู้ศึกษาเรื่องทรัพย์สินทางปัญญากล่าว เป็นไปได้ที่จะจินตนาการว่าบริษัทเทคโนโลยีและผู้สร้างเนื้อหาทำข้อตกลงเพิ่มเติมเช่น AP หนึ่งเพื่อสร้าง “ฐานข้อมูลที่สะอาด (clean database)” เขากล่าว

Sawicki กล่าวว่า “ปัญหาคือขนาดของชุดข้อมูลที่จำเป็นในการฝึกโมเดลนั้นใหญ่มาก จนฉันคิดว่าเป็นเรื่องยากมากที่จะได้รับข้อตกลงจากเจ้าของมากพอที่จะทำให้มันใช้งานได้ทางเทคโนโลยี” Sawicki กล่าว

Chatbots เช่น ChatGPT ได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูล และไม่สามารถอัปเดตอย่างต่อเนื่องได้หากไม่ได้รับการฝึกอบรมใหม่ตั้งแต่ต้น ซึ่งหมายความว่ามีประโยชน์น้อยกว่าในการให้ข่าวสารล่าสุดและข้อมูลใหม่ บริษัทด้านเทคโนโลยีได้พยายามแก้ปัญหาดังกล่าวโดยอนุญาตให้แชทบอทค้นหาเว็บด้วยตนเองหรือถามคำถามจากฐานข้อมูลที่อัปเดตแยกต่างหาก ข้อตกลง AP ให้ OpenAI เข้าถึงไฟล์เก็บถาวรเท่านั้น แต่ไฟล์เก็บถาวรจะได้รับการอัปเดตด้วยข่าวล่าสุดเป็นประจำ

บริษัทเทคโนโลยีได้จ่ายเงินโดยตรงสำหรับเนื้อหาข่าวในอดีตเพื่อการใช้งานอื่นๆ Google และ Facebook ต่างก็จ่ายเงินให้เว็บไซต์ข่าวเพื่อเข้าถึงเนื้อหาโดยตรงเพื่อแสดงบนแพลตฟอร์มของตนในบางประเทศ ในออสเตรเลีย รัฐบาลได้ออกกฎหมายกำหนดให้ต้องปฏิบัติ และกฎหมายที่คล้ายกันนี้กำลังจะมีผลบังคับใช้ในแคนาดา

view original *