YouTube videos used to train AI models? Why creators should be concerned

นับตั้งแต่มีรายงานออกมาว่าบริษัทเทคโนโลยีขนาดใหญ่กำลังใช้คอนเทนท์ YouTube เพื่อฝึกโมเดล AI ส่งผลกระทบต่อสังคมผู้สร้างคอนเทนท์อย่างกว้างขวาง

Ever since reports surfaced suggesting that large tech companies are using YouTube content to train their AI models, the creator ecosystem has been on edge.

วิดีโอ YouTube ถูกใช้เพื่อฝึกโมเดล AI ทำไมผู้สร้างคอนเทนท์จึงควรต้องกังวล

ในเดือนมิถุนายน มุสตาฟา สุไลมาน ซีอีโอของแผนก AI ใหม่ของไมโครซอฟต์ ได้ให้ข้อมูลที่น่าตกตะลึง โดยเขาบอกกับแอนดรูว์ รอสส์แห่ง CNBC ว่าทุกสิ่งที่เผยแพร่บนอินเทอร์เน็ตจะกลายเป็น “ฟรีแวร์” และสามารถคัดลอกและนำไปใช้ในการฝึกโมเดล AI ได้ ในช่วงไม่กี่สัปดาห์ที่ผ่านมา มีการตรวจสอบและรายงานอย่างละเอียดถี่ถ้วนเกี่ยวกับวิธีที่บริษัทด้าน generative AI ดึงวิดีโอและคำบรรยายจาก YouTube และใช้ผลงานสร้างสรรค์ของผู้สร้างคอนเทนท์อิสระเหล่านี้ในการฝึกโมเดล AI ของตน

ในเดือนกรกฎาคม 404 Media ซึ่งเป็นสิ่งพิมพ์ออนไลน์ได้เปิดเผยว่า Runway บริษัทวิดีโอด้าน generative AI ได้ฝึกโมเดลของตนด้วยวิดีโอหลายพันวิดีโอโดยไม่ได้รับความยินยอม ในช่วงไม่กี่เดือนที่ผ่านมา ปัญหาการใช้คอนเทนท์ YouTube เพื่อฝึกโมเดล generative AI ได้กลายเป็นประเด็นที่ถกเถียงกันอย่างดุเดือดในชุมชนผู้สร้าง ซึ่งเป็นปัญหาที่ซับซ้อนและได้ขยายไปสู่ประเด็นสำคัญ เช่น ความยินยอม การชดเชย และสิทธิของผู้สร้าง ในบทความนี้ เราจะตรวจสอบปัญหานี้ สิ่งที่บริษัทเทคโนโลยียักษ์ใหญ่พูด และการฝึกโมเดล AI ในคอนเทนท์บน YouTube ส่งผลกระทบต่อผู้สร้างคอนเทนท์อย่างไร

เหตุใดจึงเป็นประเด็นที่ถกเถียงกันอย่างดุเดือดในหมู่ผู้สร้างสรรค์ผลงาน?

อาณาจักรของ generative AI กำลังพัฒนาอย่างรวดเร็ว และเพื่อสร้างโมเดลที่มีประสิทธิภาพมากขึ้นซึ่งมีประสิทธิภาพและประสิทธิผล บริษัทต่างๆ จำเป็นต้องเข้าถึงข้อมูลจำนวนมหาศาล ความกังวลที่เกิดขึ้นในชุมชนผู้สร้างสรรค์ผลงานก็คือ วิดีโอของพวกเขาถูกนำไปใช้ในการฝึกโมเดล AI ขนาดใหญ่เหล่านี้โดยไม่ได้รับอนุญาตอย่างชัดเจน

รายงานการสืบสวนหลายฉบับในช่วงไม่นานมานี้ชี้ให้เห็นว่าบริษัท AI ได้ใช้ประโยชน์จากคอนเทนท์จำนวนมากจาก YouTube ซึ่งรวมถึงเสียง ภาพ และคำบรรยาย เพื่อพัฒนาโมเดลเฉพาะของตนเอง แม้ว่าบริษัทเทคโนโลยียักษ์ใหญ่จะยังไม่ยอมรับเรื่องนี้อย่างเปิดเผย แต่การกระทำเช่นนี้ก็ทำให้เกิดคำถามที่ร้ายแรงหลายประการในด้านจริยธรรม กฎหมาย และการเงิน ผู้สร้างคอนเทนท์หลายคนรู้สึกไม่สบายใจ และในบางกรณีก็รู้สึกว่าถูกเอาเปรียบ ในเดือนนี้ YouTuber ชื่อ David Millette ได้ยื่นฟ้อง Nvidia ผู้ผลิตชิป โดยกล่าวหาว่าบริษัทได้สร้างโมเดลวิดีโอโดยคัดลอกคอนเทนท์จาก YouTube โดยไม่ได้รับอนุญาตจากผู้สร้างคอนเทนท์แต่อย่างใด

ในทำนองเดียวกัน การสืบสวนโดย Proof News ซึ่งเป็นพอร์ทัลรายงานและวิเคราะห์ที่ขับเคลื่อนด้วยข้อมูล ในเดือนกรกฎาคม เปิดเผยว่าคำบรรยายจากวิดีโอ YouTube จำนวน 1,73,536 รายการจากช่องกว่า 48,000 ช่อง ถูกใช้โดยบริษัทเทคโนโลยียักษ์ใหญ่ เช่น Nvidia, Apple, Anthropic และ Salesforce เพื่อฝึกอบรมโมเดลของตน ตามรายงาน คำบรรยายเหล่านี้ประกอบด้วยคำบรรยายวิดีโอจากแพลตฟอร์มการเรียนรู้ทางออนไลน์ เช่น Harvard, MIT และ Khan Academy พอร์ทัลได้สร้างเครื่องมือสำหรับผู้สร้างคอนเทนท์เพื่อดูว่าผลงานของตนรวมอยู่ในชุดข้อมูลการฝึกอบรม AI ของ YouTube หรือไม่ ตามรายงาน วิดีโอของผู้สร้างคอนเทนท์ชื่อดัง เช่น Marques Brownlee, MrBeast, PewDiePie เป็นต้น ยังถูกใช้เพื่อฝึกอบรมโมเดล AI อีกด้วย

ปัญหาหลักคืออะไร?

สำหรับ YouTuber หลายๆ คน ความกังวลหลักคือคอนเทนท์ของพวกเขาถูกนำไปใช้เพื่อฝึกโมเดล AI โดยไม่ได้รับอนุญาตอย่างชัดเจน กล่าวอย่างง่ายๆ ก็คือ เมื่อผู้สร้างอัปโหลดวิดีโอลงใน YouTube นั่นหมายความว่าพวกเขายอมรับเงื่อนไขการให้บริการ ซึ่งถือเป็นการให้สิทธิ์แก่ YouTube ในการใช้คอนเทนท์อย่างกว้างขวาง ตามเงื่อนไขการให้บริการ YouTube สามารถทำซ้ำ แจกจ่าย หรือแม้แต่สร้างผลงานดัดแปลงจากคอนเทนท์ได้ อย่างไรก็ตาม ไม่มีการกล่าวถึงว่าคอนเทนท์นั้นสามารถใช้ฝึกโมเดล AI ได้ด้วย จำเป็นต้องทราบว่ากรณีการใช้งานนี้ยังไม่มีอยู่เมื่อมีการร่างเงื่อนไขดังกล่าวขึ้นในตอนแรก

“เมื่อคุณอัพโหลดคอนเทนท์บน YouTube คุณให้สิทธิ์แก่ YouTube ในการใช้คอนเทนท์นั้น (รวมถึงการทำซ้ำ แจกจ่าย เตรียมงานดัดแปลง แสดง และแสดง) ทั่วโลก ไม่ผูกขาด ปลอดค่าลิขสิทธิ์ ถ่ายโอนได้ และอนุญาตให้ผู้อื่นใช้คอนเทนท์นั้นได้ YouTube สามารถใช้คอนเทนท์นั้นได้เฉพาะเพื่อเชื่อมโยงกับบริการและธุรกิจที่เกี่ยวเนื่องของ YouTube รวมถึงเพื่อจุดประสงค์ในการส่งเสริมและแจกจ่ายคอนเทนท์บางส่วนหรือทั้งหมดของบริการ” ซึ่งเป็นข้อความบางส่วนจากข้อกำหนดในการให้บริการตามที่เห็นบน YouTube ในปัจจุบัน

แม้ว่าเงื่อนไขต่างๆ ดูเหมือนจะชัดเจน แต่ก็ยังคลุมเครือ ความไม่ชัดเจนนี้เป็นสิ่งที่สร้างความกังวลให้กับผู้สร้างคอนเทนท์หลายคน จากรายงานข่าวและโพสต์บนโซเชียลมีเดีย ผู้สร้างคอนเทนท์หลายคนรู้สึกว่าหากคอนเทนท์ของพวกเขามีค่าเพียงพอที่จะนำไปใช้ในการฝึกโมเดล AI ที่มีค่าใช้จ่ายหลายพันล้าน พวกเขาก็ควรได้รับค่าตอบแทนตามนั้น ในช่วงเวลาที่บริษัทต่างๆ กำลังลงนามในข้อตกลงครั้งใหญ่เพื่อใช้ข้อมูลในการฝึกโมเดล AI ผู้สร้างคอนเทนท์รายย่อยดูเหมือนจะถูกละเลย เนื่องจากพวกเขาไม่ได้รับการยอมรับหรือรางวัลใดๆ สำหรับคอนเทนท์ของพวกเขา

ผู้นำด้านเทคโนโลยีกล่าวว่าอย่างไร

เมื่อถูกถามว่าคอนเทนท์บน YouTube ถูกใช้ในการฝึก Sora หรือไม่ และจะขัดต่อนโยบายหรือไม่ Neil Mohan ซีอีโอของแพลตฟอร์มตอบกลับโดยกล่าวว่าสัญญาของผู้สร้างคอนเทนท์บางรายกับแพลตฟอร์มหมายความว่าคอนเทนท์ของพวกเขาอาจถูกนำไปใช้

“เมื่อผู้สร้างอัปโหลดผลงานหนักๆ ของพวกเขาบนแพลตฟอร์มของเรา พวกเขามีความคาดหวังบางอย่าง หนึ่งในความคาดหวังเหล่านั้นคือพวกเขาจะต้องปฏิบัติตามเงื่อนไขการให้บริการ เงื่อนไขการให้บริการของเราอนุญาตให้ยกเลิกคอนเทนท์บน YouTube คอนเทนท์บน YouTube บางส่วน เช่น ชื่อวิดีโอ ชื่อช่อง หรือชื่อผู้สร้าง เนื่องจากนั่นเป็นวิธีที่คุณเปิดใช้งานเว็บแบบเปิด… แต่ไม่อนุญาตให้ดาวน์โหลดสิ่งต่างๆ เช่น คำบรรยายหรือวิดีโอ และนั่นถือเป็นการละเมิดเงื่อนไขการให้บริการของเราอย่างชัดเจน” โมฮันบอกกับเอมีลี่ ชางในการสัมภาษณ์เมื่อเดือนพฤษภาคม

ในทำนองเดียวกัน สุไลมานกล่าวในบทสัมภาษณ์กับ CNBC ว่า “ฉันคิดว่าคอนเทนท์บนเว็บเปิดนั้นมีสัญญาทางสังคมของคอนเทนท์นั้นมาตั้งแต่ยุค 90 ว่าเป็นการใช้งานโดยชอบธรรม ใครๆ ก็สามารถคัดลอก สร้างซ้ำ หรือผลิตซ้ำคอนเทนท์นั้นได้ตามใจชอบ” ในทางกลับกัน เมื่อมิรา มูราติ CTO ของ OpenAI ถูกถามถึงเรื่องนี้ในเดือนมีนาคมในบทสัมภาษณ์กับ WSJ เธอตอบด้วยท่าทีสับสน เมื่อยังคงยืนกราน เธอสรุปว่า “ฉันจะไม่ลงรายละเอียดเกี่ยวกับข้อมูลที่ใช้ แต่เป็นข้อมูลที่เปิดเผยต่อสาธารณะหรือได้รับอนุญาต”

จุดยืนทางกฎหมายคืออะไร?

เมื่อเป็นเรื่องของการฝึกโมเดล AI ดูเหมือนว่าขอบเขตทางกฎหมายจะคลุมเครือ บริษัทอย่าง Google อาจโต้แย้งด้วยซ้ำว่าใบอนุญาตที่กว้างขวางของพวกเขาอาจอนุญาตให้พวกเขาใช้คอนเทนท์ YouTube เพื่อการฝึก AI ได้ อย่างไรก็ตาม เรื่องนี้ยังไม่ชัดเจนและยังเป็นประเด็นที่ถกเถียงกันทางกฎหมายได้ ในขณะนี้ มีการฟ้องร้องมากมายที่ต่อต้านการใช้คอนเทนท์ที่มีลิขสิทธิ์เพื่อฝึก AI โดยไม่ได้รับอนุญาตอย่างชัดเจนจากผู้สร้าง

นอกเหนือจากปัญหาทางกฎหมายแล้ว ยังมีข้อกังวลด้านจริยธรรมอีกด้วย ผู้สร้างผลงานมักให้ความสำคัญกับผลงานของตน และส่วนใหญ่ไม่สบายใจกับแนวคิดที่ว่าคอนเทนท์ของตนถูกนำไปใช้ในลักษณะที่ไม่เคยคาดคิดมาก่อน แนวคิดที่ว่า AI สร้างคอนเทนท์ใหม่จากผลงานต้นฉบับโดยไม่ได้รับความยินยอมนั้น ดูเหมือนเป็นการละเมิดความคิดสร้างสรรค์และงานฝีมือของผู้สร้างผลงานหลายคน

ความก้าวหน้าอย่างรวดเร็วของ AI ในปัจจุบันทำให้ต้องมีชุดข้อมูลขนาดใหญ่มากขึ้นเพื่อขับเคลื่อนโมเดล AI ซึ่งจะทำให้ผู้สร้างผลงานต้องตกอยู่ในสถานการณ์ที่ยุ่งยาก หากแพลตฟอร์มแชร์วิดีโออย่าง YouTube ใช้คอนเทนท์สำหรับการฝึกอบรม AI โดยไม่ได้รับความยินยอม ผู้สร้างผลงานแต่ละคนอาจสูญเสียการควบคุมผลงานของตนเอง ซึ่งนี่เป็นตัวบ่งชี้ถึงปัญหาที่ใหญ่กว่า นั่นคือ อำนาจที่ไม่สมดุล โดยเฉพาะอย่างยิ่งระหว่างบริษัทขนาดใหญ่และบุคคล บริษัทเทคโนโลยีขนาดใหญ่สามารถรับมือกับความซับซ้อนทางกฎหมายได้อย่างง่ายดาย ในทางตรงกันข้าม ผู้สร้างผลงานอิสระจะมีทรัพยากรน้อยกว่าในการปกป้องสิทธิ์ของตนเอง

เมื่อปัญหาทวีความรุนแรงขึ้น ผู้สร้างคอนเทนท์บน YouTube จะต้องคอยติดตามข้อมูลและแสดงความกังวลของตนเอง พวกเขาควรผลักดันให้แพลตฟอร์มต่างๆ เปิดเผยข้อมูลอย่างโปร่งใสมากขึ้นเกี่ยวกับวิธีที่คอนเทนท์ของพวกเขาถูกนำไปใช้ โดยเฉพาะอย่างยิ่งในส่วนของการฝึกอบรมโมเดล AI ปัจจุบัน Grok ของ Elon Musk เปิดโอกาสให้ผู้ใช้เลือก opt-out แชทบ็อต ที่จะนำข้อมูลไปใช้ในการฝึกอบรม AI ได้ วิธีนี้ถือเป็นวิธีที่ดีในการเพิ่มความโปร่งใส และผู้สร้างคอนเทนท์บน YouTube ควรได้รับตัวเลือกในการเลือก opt-out เช่นกัน

view original *