โมเดล Gemini AI ใหม่ของ Google ได้รับการตอบรับอย่างดี หลังจากเปิดตัวครั้งใหญ่เมื่อวานนี้ แต่ผู้ใช้อาจมีความมั่นใจน้อยลงในเทคโนโลยีหรือความสมบูรณ์ของบริษัท หลังจากพบว่าการสาธิต Gemini ที่น่าประทับใจของ Gemini กลายเป็นวิดีโอสาธิตปลอม
Google’s new Gemini AI model is getting a mixed reception after its big debut yesterday, but users may have less confidence in the company’s tech or integrity after finding out that the most impressive demo of Gemini was pretty much faked.
การสาธิตโมเดล Gemini AI ที่น่าทึ่งของ Google นั้น กลายเป็นของปลอม
โมเดล Gemini AI ใหม่ของ Google ได้รับการตอบรับอย่างดี หลังจากเปิดตัวครั้งใหญ่เมื่อวานนี้ แต่ผู้ใช้อาจมีความมั่นใจน้อยลงในเทคโนโลยีหรือความสมบูรณ์ของบริษัท หลังจากพบว่าการสาธิต Gemini ที่น่าประทับใจของ Gemini กลายเป็นวิดีโอสาธิตปลอม
วิดีโอชื่อ “Hands-on with Gemini: Interacting with multimodal AI” มีผู้เข้าชมนับล้านครั้งในวันสุดท้าย และไม่ยากที่จะทราบว่าเหตุใด การสาธิตที่น่าประทับใจ “เน้นย้ำถึงปฏิสัมพันธ์ที่เราชื่นชอบกับ Gemini ” แสดงให้เห็นว่าแบบจำลองต่อเนื่องหลายรูปแบบ (เช่น เข้าใจและผสมผสานภาษาและความเข้าใจด้วยภาพ) สามารถยืดหยุ่นและตอบสนองต่ออินพุตที่หลากหลายได้อย่างไร
เริ่มต้นด้วยการเล่าถึงภาพร่างเป็ดที่กำลังพัฒนาจากนกหวีดไปจนถึงภาพวาดที่เสร็จสมบูรณ์ ซึ่งบอกว่าเป็นสีที่ไม่สมจริง จากนั้นก็สร้างความประหลาดใจ (“What the quack!”) เมื่อเห็นเป็ดสีน้ำเงินของเล่น จากนั้นจะตอบคำถามด้วยเสียงต่างๆ เกี่ยวกับของเล่นนั้น จากนั้นการสาธิตจะไปยังการเคลื่อนไหวอื่นๆ เช่น การติดตามลูกบอลในเกมเปลี่ยนถ้วย การจดจำท่าทางหุ่นเงา การเรียงลำดับภาพร่างของดาวเคราะห์ และอื่นๆ
ทุกอย่างตอบสนองได้ดีมาก แม้ว่าวิดีโอจะเตือนว่า “latency has been reduced and Gemini outputs have been shortened” ดังนั้นพวกเขาจึงข้ามความลังเลที่นี่และคำตอบที่ยาวเกินไปที่นั่น เข้าใจแล้ว โดยรวมแล้ว ถือเป็นการแสดงพลังที่น่าเหลือเชื่อในขอบเขตของความเข้าใจหลายรูปแบบ จนผมคิดว่า Google ก้าวข้ามคู่แข่งได้อย่างน่าทึ่ง เมื่อฉันได้ดูการสาธิตโมเดล Gemini AI
ปัญหาเดียวคือวิดีโอไม่ใช่ของจริง “เราสร้างเดโมโดยการจับภาพเพื่อทดสอบความสามารถของ Gemini ในความท้าทายที่หลากหลาย จากนั้นเราก็แจ้งให้ Gemini ใช้เฟรมภาพนิ่งจากฟุตเทจ และแจ้งผ่านข้อความ” (Parmy Olson ที่ Bloomberg เป็นคนแรกที่รายงานความผิดสังเกต)
แม้ว่ามันอาจจะทำสิ่งที่ Google แสดงในวิดีโอ แต่ก็ไม่ได้ทำและอาจทำไม่ได้จริงและเป็นไปตามที่พวกเขาบอกเป็นนัย ในความเป็นจริง มันเป็นชุด text prompts ที่ได้รับการปรับแต่งอย่างระมัดระวังพร้อมภาพนิ่ง โดยเลือกไว้อย่างชัดเจนและย่อให้สั้นลงเพื่อบิดเบือนความจริงว่าการโต้ตอบนั้นเป็นอย่างไร คุณสามารถดู text prompts และการตอบกลับจริงบางส่วนได้ในโพสต์บล็อกที่เกี่ยวข้อง ซึ่งพูดตามตรงว่ามีลิงก์อยู่ในคำอธิบายวิดีโอ แม้ว่าจะอยู่ใต้เครื่องหมาย ” . . มากกว่า.”
ในแง่หนึ่ง ดูเหมือนว่า Gemini จะสร้างการตอบสนองที่แสดงในวิดีโอจริงๆ และใครบ้างที่ต้องการดูคำสั่งดูแลทำความสะอาดบางอย่าง เช่น การบอกให้โมเดลล้างแคช แต่ผู้ชมจะเข้าใจผิดเกี่ยวกับความเร็ว ความแม่นยำ และรูปแบบพื้นฐานของการโต้ตอบกับโมเดล
ตัวอย่างเช่น เมื่อเวลา 2:45 ในวิดีโอ มีการแสดงมืออย่างเงียบๆ โดยทำท่าทางต่างๆ กัน Gemini ตอบอย่างรวดเร็วว่า “ฉันรู้ว่าคุณกำลังทำอะไรอยู่! คุณกำลังเล่น Rock, Paper, Scissors!”
แต่สิ่งแรกในเอกสารเกี่ยวกับความสามารถคือวิธีที่โมเดลไม่ได้ให้เหตุผลจากการเห็นท่าทางของแต่ละบุคคล จะต้องแสดงท่าทางทั้งสามพร้อมกันและถามว่า “คุณคิดว่าฉันกำลังทำอะไรอยู่? คำแนะนำ: มันเป็นเกม” มันตอบว่า “คุณกำลังเล่น Rock, Paper, Scissors! ”
แม้จะมีความคล้ายคลึงกัน แต่สิ่งเหล่านี้กลับไม่รู้สึกเหมือนมีปฏิสัมพันธ์กัน พวกเขารู้สึกเหมือนมีปฏิสัมพันธ์ที่แตกต่างกันโดยพื้นฐาน อย่างหนึ่งเป็นการประเมินที่ใช้งานง่ายและไม่ต้องใช้คำพูดซึ่งรวบรวมแนวคิดที่เป็นนามธรรมได้ทันที อีกอย่างหนึ่งเป็นการโต้ตอบที่ได้รับการออกแบบทางวิศวกรรมและบอกเป็นนัยอย่างมากซึ่งแสดงให้เห็นถึงข้อจำกัดมากเท่ากับความสามารถ Gemini ทำอย่างหลัง ไม่ใช่อย่างแรก “ปฏิสัมพันธ์” ที่แสดงในวิดีโอไม่เกิดขึ้น
ต่อมา มีการวางโน้ตสามอันที่มีเส้นขยุกขยิกของดวงอาทิตย์ ดาวเสาร์ และโลกไว้บนพื้นผิว “นี่เป็นคำสั่งที่ถูกต้องหรือไม่” Gemini กล่าวว่า “ไม่ใช่ ลำดับที่ถูกต้องคือ ดวงอาทิตย์ โลก ดาวเสาร์” ถูกต้อง! แต่ในพรอมต์ที่เกิดขึ้นจริง (เป็นลายลักษณ์อักษรอีกครั้ง) คำถามก็คือ “นี่เป็นลำดับที่ถูกต้องหรือไม่? พิจารณาระยะห่างจากดวงอาทิตย์และอธิบายเหตุผลของคุณ”
Gemini ทำถูกหรือเปล่า? หรือมันผิดพลาดและต้องการความช่วยเหลือเล็กน้อยเพื่อสร้างคำตอบที่พวกเขาสามารถใส่ไว้ในวิดีโอได้ มันรู้จักดาวเคราะห์ด้วยซ้ำหรือต้องการความช่วยเหลือที่นั่นด้วย?
ในวิดีโอ ลูกบอลกระดาษถูกสลับไปมาใต้ถ้วย ซึ่งโมเดลจะตรวจจับและติดตามได้ทันทีและดูเหมือนสัญชาตญาณ ในโพสต์ ไม่เพียงแต่ต้องอธิบายกิจกรรมเท่านั้น แต่ยังต้องฝึกฝนโมเดลด้วย (หากรวดเร็วและใช้ภาษาธรรมชาติ) เพื่อดำเนินการ และอื่นๆ
ตัวอย่างเหล่านี้อาจดูไม่สำคัญสำหรับคุณหรือไม่ก็ได้ ท้ายที่สุดแล้ว การจดจำท่าทางมือเป็นเกมที่รวดเร็วนั้นน่าประทับใจจริงๆ สำหรับโมเดลต่อเนื่องหลายรูปแบบ! ดังนั้นการตัดสินว่าภาพที่เสร็จเพียงครึ่งเดียวนั้นเป็นเป็ดหรือไม่! แม้ว่าตอนนี้ เนื่องจากโพสต์ในบล็อกขาดคำอธิบายเกี่ยวกับลำดับเป็ด ฉันจึงเริ่มสงสัยความจริงของการโต้ตอบนั้นเช่นกัน
ทีนี้ หากวิดีโอพูดตั้งแต่ต้นว่า “นี่คือการนำเสนออย่างมีสไตล์ของการโต้ตอบที่นักวิจัยของเราทดสอบ” คงไม่มีใครสนใจ เราคาดหวังว่าวิดีโอประเภทนี้จะเป็นข้อเท็จจริงเพียงครึ่งเดียว ครึ่งหนึ่งเป็นแรงบันดาลใจ
แต่วิดีโอนี้มีชื่อว่า “Hands-on with Gemini” และเมื่อพวกเขาบอกว่ามันแสดงให้เห็น “ปฏิสัมพันธ์ที่เราชื่นชอบ” ก็บอกเป็นนัยว่าปฏิสัมพันธ์ที่เราเห็นนั้นเป็นปฏิสัมพันธ์เหล่านั้น พวกเขาไม่. บางครั้งพวกเขาก็มีส่วนร่วมมากกว่า บางครั้งมันก็แตกต่างไปจากเดิมอย่างสิ้นเชิง บางครั้งดูเหมือนว่ามันไม่ได้เกิดขึ้นเลยจริงๆ เราไม่ได้บอกด้วยซ้ำว่าเป็นรุ่นอะไร — Gemini Pro ที่ใครๆ ก็ใช้ได้ตอนนี้ หรือ (มีแนวโน้มมากกว่า) รุ่น Ultra ที่จะเปิดตัวในปีหน้า
เราควรสันนิษฐานไหมว่า Google สร้างวิดีโอสาธิตที่น่าทึ่ง เพื่อแสดงให้เห็นเป้าหมายในอนาคตที่พวกเขาตั้งใจจะทำเท่านั้น บางทีเราควรถือว่าความสามารถทั้งหมดในการสาธิต Google AI นั้นเกินความจริง ฉันเขียนในพาดหัวว่าวิดีโอนี้ “เป็นของปลอม” ตอนแรกฉันไม่แน่ใจว่าภาษาที่รุนแรงนี้ เกินเลยไปหรือไม่ แต่ถึงแม้จะรวมส่วนจริงบางส่วนไว้ด้วย แต่วิดีโอก็ไม่ได้สะท้อนถึงความเป็นจริง สรุปได้ว่ามันเป็นวิดีโอสาธิตปลอม
Google กล่าวว่าวิดีโอ “แสดงผลจริงจาก Gemini ” ซึ่งเป็นเรื่องจริง และ “เราได้แก้ไขการสาธิตเล็กน้อย (เราแจ้งล่วงหน้าและโปร่งใสเกี่ยวกับเรื่องนี้)” ซึ่งไม่ใช่ นี่ไม่ใช่การสาธิต – ไม่ใช่จริงๆ – และวิดีโอแสดงการโต้ตอบที่แตกต่างจากที่สร้างขึ้นเพื่อแจ้งให้ทราบ
อัปเดต: ในโพสต์บนโซเชียลมีเดียหลังจากเผยแพร่บทความนี้ Oriol Vinyals รองประธานฝ่ายวิจัยของ Google DeepMind แสดงให้เห็นเพิ่มเติมอีกเล็กน้อยว่า “Gemini ถูกใช้เพื่อสร้าง” วิดีโออย่างไร “วิดีโอนี้แสดงให้เห็นว่าประสบการณ์ผู้ใช้หลายรูปแบบที่สร้างด้วย Gemini จะเป็นอย่างไร เราสร้างมันขึ้นมาเพื่อสร้างแรงบันดาลใจให้กับนักพัฒนา” (เน้นที่ของฉัน) สิ่งที่น่าสนใจคือแสดงลำดับล่วงหน้าที่ช่วยให้ Gemini ตอบคำถามเกี่ยวกับดาวเคราะห์โดยไม่ต้องมีดวงอาทิตย์เป็นนัย (แม้ว่าจะบอก Gemini ว่าเป็นผู้เชี่ยวชาญเกี่ยวกับดาวเคราะห์และเพื่อพิจารณาลำดับของวัตถุในภาพ)
บางทีฉันอาจจะกินอีกาในสัปดาห์หน้า AI Studio พร้อม Gemini Pro พร้อมให้ทดลองด้วย และ Gemini อาจพัฒนาเป็นแพลตฟอร์ม AI ที่ทรงพลังซึ่งเป็นคู่แข่งกับ OpenAI และแพลตฟอร์มอื่น ๆ อย่างแท้จริง แต่สิ่งที่ Google ทำที่นี่คือการวางยาพิษ ใครจะเชื่อถือบริษัทนี้ได้อย่างไร ในเมื่อพวกเขาอ้างว่าโมเดลของตนทำอะไรบางอย่างที่เหนือกว่า ทั้งๆ ที่ความจริงในตอนนี้ พวกเขาตามหลังคู่แข่งขันอยู่ Google อาจจะเพิ่งทำร้ายตัวเอง จากการสร้างวิดีโอสาธิตปลอมๆ นี้