Google admits AI viral video was edited to look better

วิดีโอสาธิตที่แสดงความสามารถของโมเดลปัญญาประดิษฐ์ (AI) ของ Google ถูกดัดแปลงให้ดูดีเกินจริง

A video showcasing the capabilities of Google’s artificial intelligence (AI) model which seemed too good to be true might just be that.

Google ยอมรับว่าวิดีโอสาธิต Gemini AI ที่เป็นไวรัล ได้รับการแก้ไขให้ดูดีขึ้น

วิดีโอสาธิตที่แสดงความสามารถของโมเดลปัญญาประดิษฐ์ (AI) ของ Google ถูกดัดแปลงให้ดูดีเกินจริง

วิดีโอสาธิต Gemini AI ซึ่งมียอดดู 1.6 ล้านครั้งบน YouTube แสดงให้เห็นการโต้ตอบไปมาอย่างน่าทึ่งโดยที่ AI ตอบสนองต่อคำพูดและวิดีโอแบบเรียลไทม์
ในคำอธิบายของวิดีโอ Google กล่าวว่าทุกอย่างไม่เป็นไปตามที่เห็น แต่ได้ปรับแต่งขึ้นเพื่อการสาธิตการทำงานในอนาคต

และยอมรับว่า Gemini AI ยังไม่สามารถโต้ตอบตามคำสั่งเสียงตามที่ปรากฏในวิดีโอสาธิต

ในบล็อกโพสต์ที่เผยแพร่พร้อมกับการสาธิต Google ได้เปิดเผยว่าวิดีโอดังกล่าวถูกสร้างขึ้นมาอย่างไร

ต่อมา ตามที่รายงานครั้งแรกโดย Bloomberg Opinion Google ยืนยันกับ BBC ว่าอันที่จริง ถูกสร้างขึ้นโดยสั่ง AI โดย “ใช้เฟรมภาพนิ่งจากวิดีโอและแจ้งผ่านข้อความ”
“วิดีโอสาธิต Our Hands on with Gemini แสดงให้เห็นถึงคำแนะนำและผลลัพธ์ที่แท้จริงจาก Gemini” โฆษกของ Google กล่าว
“เราทำขึ้นเพื่อแสดงความสามารถอันหลากหลายของ Gemini และเพื่อสร้างแรงบันดาลใจให้กับนักพัฒนา”

วิดีโอสาธิต

ในวิดีโอ มีคนถามคำถามชุดหนึ่งกับ AI ของ Google ในขณะที่แสดงวัตถุบนหน้าจอ

ตัวอย่างเช่น มีอยู่ช่วงหนึ่งผู้ประท้วงถือเป็ดยางแล้วถาม Gemini ว่ามันจะลอยได้หรือไม่
ในตอนแรกไม่แน่ใจว่าทำจากวัสดุอะไร แต่หลังจากที่บุคคลนั้นบีบมัน และสังเกตว่าสิ่งนี้ทำให้เกิดเสียงแหลม AI จะระบุวัตถุได้อย่างถูกต้อง

อย่างไรก็ตาม สิ่งที่ปรากฏในวิดีโอเมื่อเห็นแวบแรกนั้นแตกต่างอย่างมากจากสิ่งที่เกิดขึ้นจริงเพื่อสร้าง prompt เตือน
จริงๆ แล้ว AI ได้แสดงภาพนิ่งของเป็ด และถามว่ามันทำจากวัสดุอะไร จากนั้นจะมีการป้อนข้อความอธิบายว่าเป็ดจะส่งเสียงแหลมเมื่อถูกบีบ ส่งผลให้สามารถระบุตัวตนได้ถูกต้อง
ในช่วงเวลาที่น่าประทับใจอีกช่วงเวลาหนึ่ง บุคคลนั้นทำกิจวัตรถ้วยและลูกบอล ซึ่งเป็นเคล็ดลับมหัศจรรย์ที่มีลูกบอลซ่อนอยู่ใต้ถ้วยที่ขยับได้หนึ่งในสามใบ และ AI ก็สามารถระบุได้ว่าลูกบอลจะย้ายไปที่ใด
แต่ขอย้ำอีกครั้งว่า เนื่องจาก AI ไม่ตอบสนองต่อวิดีโอ จริงๆ แล้วสิ่งนี้ทำได้โดยการแสดงชุดภาพนิ่ง
ในบล็อกโพสต์ Google อธิบายว่าอันที่จริงได้บอก AI ว่าลูกบอลอยู่ใต้ถ้วยสามใบ และแสดงภาพที่แสดงถึงถ้วยที่ถูกสลับ

Google ชี้แจงว่าการสาธิตนี้สร้างขึ้นโดยการจับภาพจากวิดีโอเพื่อ “ทดสอบความสามารถของ Gemini ในความท้าทายที่หลากหลาย”
ในขณะที่ซีเควนซ์สั้นลงและใช้ภาพนิ่ง เสียงพากย์จากวิดีโอจะถูกนำมาโดยตรงจากข้อความที่เขียนลงใน Gemini
แต่มีองค์ประกอบอื่นของวิดีโอที่ขยายความจริงออกไปอีก
จนถึงจุดหนึ่ง ผู้ใช้วางแผนที่โลกและถาม AI: “จากสิ่งที่คุณเห็น ให้คิดไอเดียเกมขึ้นมา… และใช้อิโมจิ”
AI ตอบสนองโดยเห็นได้ชัดว่าประดิษฐ์เกมที่เรียกว่า “เดาชื่อประเทศ” โดยให้เบาะแส (เช่น จิงโจ้และโคอาล่า) และตอบสนองต่อการเดาที่ถูกต้องของผู้ใช้ที่กำลังชี้ไปที่ประเทศ (ในกรณีนี้คือออสเตรเลีย)

แต่ในความเป็นจริง ตามบล็อกของ Google AI ไม่ได้คิดค้นเกมนี้เลย
แต่ AI กลับได้รับ text prompt ดังนี้: “มาเล่นเกมกันเถอะ คิดถึงประเทศแล้วบอกเบาะแสให้หน่อย เบาะแสต้องเจาะจงพอที่จะมีประเทศเดียวที่ถูกต้องเท่านั้น ฉันจะลองชี้ไปที่ประเทศบนแผนที่ ,” prompt จะอ่าน
จากนั้นผู้ใช้ก็ได้ให้ตัวอย่างคำตอบที่ถูกและผิดแก่ AI
หลังจากจุดนี้ Gemini ก็สามารถสร้างเบาะแส และระบุว่าผู้ใช้ชี้ไปยังประเทศที่ถูกต้องหรือไม่จากภาพนิ่งของแผนที่
มันน่าประทับใจ แต่ก็ไม่เหมือนกับการอ้างว่า AI เป็นผู้คิดค้นเกม

โมเดล Gemini AI ของ Google นั้นน่าประทับใจไม่ว่าจะใช้ภาพนิ่งและ text prompt ก็ตาม แต่ข้อเท็จจริงเหล่านี้หมายความว่าความสามารถของมันนั้นคล้ายคลึงกับ GPT-4 ของ OpenAI มาก
และเป็นที่น่าสังเกตว่าวิดีโอดังกล่าวได้รับการเผยแพร่เพียงสองสัปดาห์หลังจากช่วงเวลาแห่งความโกลาหลที่ไม่เคยเกิดขึ้นมาก่อนในอุตสาหกรรม AI หลังจากที่ Sam Altman ถูกไล่ออกและเข้ารับตำแหน่งใหม่ในตำแหน่ง CEO ของ OpenAI

ยังไม่ชัดเจนว่า โมเดลใดมีความก้าวหน้ามากกว่ากัน แต่ Google อาจจะกำลังตามหลัง OpenAI จากที่ Mr. Altman บอกกับ Financial Times ว่าบริษัทกำลังทำงานกับ AI เวอร์ชันถัดไป

view original *