บริษัทเทคโนโลยีเคยใช้บทความข่าว เป็นชุดข้อมูลเพื่อฝึก AI โดยไม่ได้รับอนุญาต ตอนนี้ OpenAI จะเริ่มจ่ายเงินแล้วบางส่วน
Tech companies have used news articles to train AI without permission. Now, OpenAI will begin paying for some of it.
![](http://34.126.175.50/wp-content/uploads/2023/07/IMG_9948.jpeg)
OpenAI ตกลงกับ AP เพื่อจ่ายเงินสำหรับชุดข้อมูลเพื่อใช้ในการฝึกอบรม AI
ซานฟรานซิสโก — OpenAI ผู้ผลิต ChatGPT จะจ่ายเงินเพื่อใช้ข่าว Associated Press เพื่อฝึกอัลกอริทึมปัญญาประดิษฐ์ ซึ่งเป็นข้อตกลงหลักประการแรกท่ามกลางการถกเถียง ที่มากขึ้นว่าบริษัทเทคโนโลยีควรจ่ายเงินให้กับผู้สร้างเนื้อหาที่พวกเขาคัดลอกมาจากเว็บ เพื่อใช้เป็นชุดข้อมูลสร้างเครื่องมือ AI หรือไม่
OpenAI จะเข้าถึงคลังข้อความของ AP ย้อนหลังไปถึงปี 1985 องค์กรข่าวกล่าวในแถลงการณ์ นอกจากค่าลิขสิทธิ์แล้ว AP ยังสามารถเข้าถึงเทคโนโลยีของ OpenAI เพื่อใช้ในการทดลองเพื่อตัดสินใจว่าจะปรับปรุงการสื่อสารมวลชนได้อย่างไร
องค์กรข่าวใช้ระบบอัตโนมัติเพื่อจัดทำรายงานกีฬาท้องถิ่น และรายงานรายได้ทางการเงินเป็นเวลาหลายปี AP ไม่ใช้เทคโนโลยี “generative” อย่างเช่น ChatGPT เพื่อเขียนรายงานข่าว
OpenAI, Google และบริษัท AI อื่นๆ ได้ใช้ประโยคหลายพันล้านประโยคที่ดึงออกมาจากอินเทอร์เน็ตแบบเปิดเพื่อสร้าง “โมเดลภาษาขนาดใหญ่” ที่ขับเคลื่อนแชทบอทของพวกเขา ข่าว บทความวิกิพีเดีย ความคิดเห็นบนโซเชียลมีเดีย และบล็อกโพสต์ ล้วนอยู่ในโมเดลโดยไม่ได้รับอนุญาตจากเจ้าของ โดยที่บริษัทเทคโนโลยีมักโต้แย้งว่าพวกเขามีอิสระที่จะใช้ข้อมูลสาธารณะ
การวิเคราะห์ของ Washington Post เกี่ยวกับฐานข้อมูลของเว็บไซต์ที่ใช้ในการฝึกโมเดล AI รุ่นเก่าของ OpenAI แสดงให้เห็นว่าเว็บไซต์ข่าวหลักของ AP เป็นเว็บไซต์ที่มีการอ้างอิงมากที่สุดอันดับที่ 68 ในฐานข้อมูล
กลุ่มนักเขียน นักดนตรี องค์กรข่าว และบริษัทสื่อสังคมออนไลน์ที่เติบโตขึ้น ได้โต้แย้ง และคัดค้านว่า การใช้เนื้อหาของพวกเขาเพื่อฝึกฝน AI เป็นการเปลี่ยนแปลงวิธีการทำงานครั้งใหญ่ ในการใช้อินเทอร์เน็ต โดยเฉพาะอย่างยิ่งเมื่อเครื่องมือ AI บางอย่างได้รับการฝึกฝนจากมนุษย์ – เนื้อหาที่ทำขึ้นถูกนำมาใช้ เพื่อแทนที่แรงงานมนุษย์แล้ว กระแสการฟ้องร้องเกิดขึ้นทั่วทั้งอุตสาหกรรมในช่วงสองสัปดาห์ที่ผ่านมา โดยกล่าวหาว่ามีการใช้ข้อมูลที่ไม่เหมาะสม รวมถึงการฟ้องร้องดำเนินคดีแบบกลุ่มกับ OpenAI และ Google และการฟ้องร้อง OpenAI จากนักแสดงตลก Sarah Silverman และนักเขียนนิยายชื่อดังสองคน
ในวันพฤหัสบดี The Washington Post รายงานว่า Federal Trade Commission ได้เปิดการสอบสวนว่า OpenAI ใช้ข้อมูลของผู้บริโภคในการฝึกอบรมโมเดลของตนอย่างไร
“ชุดข้อมูลประกอบด้วยเนื้อหาจำนวนมากที่มีลิขสิทธิ์ เจ้าของลิขสิทธิ์ไม่ยินยอมให้ใช้สิ่งเหล่านี้” Andres Sawicki ศาสตราจารย์ด้านกฎหมายแห่งมหาวิทยาลัยไมอามี ผู้ศึกษาเรื่องทรัพย์สินทางปัญญากล่าว เป็นไปได้ที่จะจินตนาการว่าบริษัทเทคโนโลยีและผู้สร้างเนื้อหาทำข้อตกลงเพิ่มเติมเช่น AP หนึ่งเพื่อสร้าง “ฐานข้อมูลที่สะอาด (clean database)” เขากล่าว
Sawicki กล่าวว่า “ปัญหาคือขนาดของชุดข้อมูลที่จำเป็นในการฝึกโมเดลนั้นใหญ่มาก จนฉันคิดว่าเป็นเรื่องยากมากที่จะได้รับข้อตกลงจากเจ้าของมากพอที่จะทำให้มันใช้งานได้ทางเทคโนโลยี” Sawicki กล่าว
Chatbots เช่น ChatGPT ได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูล และไม่สามารถอัปเดตอย่างต่อเนื่องได้หากไม่ได้รับการฝึกอบรมใหม่ตั้งแต่ต้น ซึ่งหมายความว่ามีประโยชน์น้อยกว่าในการให้ข่าวสารล่าสุดและข้อมูลใหม่ บริษัทด้านเทคโนโลยีได้พยายามแก้ปัญหาดังกล่าวโดยอนุญาตให้แชทบอทค้นหาเว็บด้วยตนเองหรือถามคำถามจากฐานข้อมูลที่อัปเดตแยกต่างหาก ข้อตกลง AP ให้ OpenAI เข้าถึงไฟล์เก็บถาวรเท่านั้น แต่ไฟล์เก็บถาวรจะได้รับการอัปเดตด้วยข่าวล่าสุดเป็นประจำ
![](http://34.126.175.50/wp-content/uploads/2023/07/IMG_9949.jpeg)
บริษัทเทคโนโลยีได้จ่ายเงินโดยตรงสำหรับเนื้อหาข่าวในอดีตเพื่อการใช้งานอื่นๆ Google และ Facebook ต่างก็จ่ายเงินให้เว็บไซต์ข่าวเพื่อเข้าถึงเนื้อหาโดยตรงเพื่อแสดงบนแพลตฟอร์มของตนในบางประเทศ ในออสเตรเลีย รัฐบาลได้ออกกฎหมายกำหนดให้ต้องปฏิบัติ และกฎหมายที่คล้ายกันนี้กำลังจะมีผลบังคับใช้ในแคนาดา