New York Times, CNN and Australia’s ABC block OpenAI’s GPTBot web crawler from accessing content

Chicago Tribune และหนังสือพิมพ์ออสเตรเลีย Canberra Times และ Newcastle Herald จะไม่อนุญาตโปรแกรมรวบรวมข้อมูลเว็บจากผู้ผลิต Chat GPT นำข้อมูลไปใช้

Chicago Tribune and Australian newspapers the Canberra Times and Newcastle Herald also appear to have disallowed web crawler from maker of Chat GPT

New York Times, CNN และ ABC ของออสเตรเลีย บล็อกโปรแกรมรวบรวมข้อมูลเว็บ GPTBot ของ OpenAI ไม่ให้เข้าถึงเนื้อหา

สำนักข่าวต่างๆ รวมถึง New York Times, CNN, Reuters และ Australian Broadcasting Corporation (ABC) ได้บล็อกเครื่องมือจาก OpenAI จำกัดไม่ให้เข้าถึงเนื้อหาของตนอีกต่อไป

OpenAI อยู่เบื้องหลังหนึ่งในแชทบอทปัญญาประดิษฐ์ที่รู้จักกันดีที่สุด ChatGPT โปรแกรมรวบรวมข้อมูลเว็บหรือที่รู้จักกันในชื่อ GPTBot อาจสแกนหน้าเว็บเพื่อช่วยปรับปรุงโมเดล AI

The Verge เป็นคนแรกที่รายงานว่า New York Times ได้บล็อก GPTBot บนเว็บไซต์ของตน ในเวลาต่อมา เดอะการ์เดียนพบว่าเว็บไซต์ข่าวสำคัญอื่นๆ เช่น CNN, Reuters, Chicago Tribune, ABC และ Australian Community Media (ACM) เช่น Canberra Times และ Newcastle Herald ดูเหมือนจะไม่อนุญาตโปรแกรมรวบรวมข้อมูลเว็บเช่นกัน

สิ่งที่เรียกว่าโมเดลภาษาขนาดใหญ่ เช่น ChatGPT ต้องใช้ข้อมูลจำนวนมหาศาลเพื่อฝึกฝนระบบและช่วยให้ตอบคำถามจากผู้ใช้ในลักษณะที่คล้ายกับรูปแบบภาษาของมนุษย์ได้ แต่บริษัทที่อยู่เบื้องหลังพวกเขามักจะเข้มงวดเกี่ยวกับการมีเนื้อหาที่มีลิขสิทธิ์ในชุดข้อมูลของตน

การบล็อก GPTBot สามารถดูได้ในไฟล์ robots.txt ของผู้จัดพิมพ์ ซึ่งจำกัดว่า โปรแกรมรวบรวมข้อมูลจากเครื่องมือค้นหาและหน่วยงานอื่น ๆ ว่าพวกเขาได้รับอนุญาตให้เข้าถึงข้อมูลเนื้อหาหน้าใดได้บ้าง

“การอนุญาตให้ GPTBot เข้าถึงเว็บไซต์ของคุณสามารถช่วยให้โมเดล AI มีความแม่นยำมากขึ้น และปรับปรุงความสามารถทั่วไปและความปลอดภัย” OpenAI กล่าวในบล็อกโพสต์ที่มีคำแนะนำเกี่ยวกับวิธีไม่อนุญาตให้รวบรวมข้อมูล

ทุกรายที่ตรวจสอบได้เพิ่มบล็อกในเดือนสิงหาคม บางส่วนยังไม่อนุญาตให้ใช้ CCBot ซึ่งเป็นโปรแกรมรวบรวมข้อมูลเว็บสำหรับที่เก็บข้อมูลเว็บแบบเปิดที่เรียกว่า Common Crawl ซึ่งใช้สำหรับโครงการ AI เช่นกัน

CNN ยืนยันกับ Guardian Australia ว่าเมื่อเร็ว ๆ นี้บล็อก GPTBot ในชื่อของตน แต่ไม่ได้แสดงความคิดเห็นว่าแบรนด์วางแผนที่จะดำเนินการเพิ่มเติมเกี่ยวกับการใช้เนื้อหาในระบบ AI หรือไม่

โฆษกของรอยเตอร์กล่าวว่าจะมีการทบทวนข้อกำหนดและเงื่อนไขของ robots.txt และเว็บไซต์เป็นประจำ “เนื่องจากทรัพย์สินทางปัญญาเป็นส่วนสำคัญของธุรกิจของเรา เราจึงจำเป็นต้องปกป้องลิขสิทธิ์เนื้อหาของเรา” เธอกล่าว

ข้อกำหนดในการให้บริการของ New York Times ได้รับการอัปเดตเมื่อเร็ว ๆ นี้เพื่อให้ข้อห้าม “การคัดลอกเนื้อหาของเราสำหรับการฝึกอบรมและการพัฒนา AI … ชัดเจนยิ่งขึ้น”

ตั้งแต่วันที่ 3 สิงหาคม กฎของเว็บไซต์ห้ามอย่างชัดเจนว่า ไม่ให้ใช้เนื้อหาของผู้จัดพิมพ์เพื่อ “การพัฒนาโปรแกรมซอฟต์แวร์ใดๆ รวมถึงแต่ไม่จำกัดเพียง การฝึกอบรมระบบการเรียนรู้ของเครื่องหรือปัญญาประดิษฐ์ (AI)” โดยไม่ได้รับความยินยอม

สำนักข่าวทั่วโลกต้องเผชิญกับการตัดสินใจว่าจะใช้ AI เป็นส่วนหนึ่งของการรวบรวมข่าวหรือไม่ และวิธีจัดการกับเนื้อหาที่อาจถูกดูดเข้าสู่กลุ่มการฝึกอบรมโดยบริษัทที่พัฒนาระบบ AI

ในช่วงต้นเดือนสิงหาคม ร้านค้าต่างๆ รวมถึง Agence France-Presse และ Getty Images ได้ลงนามในจดหมายเปิดผนึกเรียกร้องให้มีการควบคุม AI รวมถึงความโปร่งใสเกี่ยวกับ “องค์ประกอบของชุดการฝึกอบรมทั้งหมดที่ใช้ในการสร้างแบบจำลอง AI” และการยินยอมให้ใช้เนื้อหาที่มีลิขสิทธิ์

Google เสนอว่าระบบ AI ควรจะสามารถกวาดข้อมูลไปใช้ได้ เว้นแต่ จะเจ้าของข้อมูลจะแจ้งไว้อย่างชัดเจน ว่าไม่อนุญาตให้นำไปใช้

ในการยื่นต่อรัฐบาลออสเตรเลียเพื่อทบทวนกรอบการกำกับดูแลเกี่ยวกับ AI บริษัทโต้แย้งเรื่อง “ระบบลิขสิทธิ์ที่ช่วยให้สามารถใช้เนื้อหาที่มีลิขสิทธิ์ได้อย่างเหมาะสมและยุติธรรม เพื่อให้สามารถฝึกอบรมโมเดล AI ในออสเตรเลียเกี่ยวกับข้อมูลที่กว้างขวางและหลากหลาย ในขณะที่ สนับสนุนการเลือกไม่ใช้งานที่ใช้งานได้”

การวิจัยจาก OriginalityAI ซึ่งเป็นบริษัทที่ตรวจสอบการมีอยู่ของเนื้อหา AI เปิดเผยในสัปดาห์นี้พบว่าเว็บไซต์หลัก ๆ เช่น Amazon และ Shutterstock ได้บล็อก GPTBot เช่นกัน ไฟล์ robot.txt ของ Guardian ไม่อนุญาต GPTBot ใช้ข้อมูล ขณะที่ ABC, Australian Community Media, Chicago Tribune, OpenAI และ Common Crawl ไม่ยืนยันแต่อย่างใด

view original *