Google introduces Lumiere, a multimodal AI video model: Is this the future of filmmaking?

Google เพิ่งปล่อย Lumiere โมเดล AI text-to-video โมเดล AI สร้างข้อความเป็นวิดีโอ แล้วกำลังนำโมเดลที่มีอยู่ไปทดสอบใช้งานจริง

Google recently dropped its AI text-to-video model, Lumiere. The results are putting existing models to the test.

Google เปิดตัว Lumiere โมเดล multimodal AI video: นี่คืออนาคตของการสร้างภาพยนตร์หรือไม่

Google เพิ่งประกาศ AI video model ล่าสุด ที่สามารถสร้างการเคลื่อนไหวที่สมจริง หลากหลาย และสอดคล้องกัน รู้จักกันในชื่อ Lumiere นวัตกรรมล่าสุดจาก Google เป็นโมเดล text-to-video และ image-to-video model พูดง่ายๆ ก็คือ คุณป้อนข้อความหรือรูปภาพ และ AI neural networks จะแปลงเป็นวิดีโอ จากผลรายงานล่าสุด Lumiere นั้นเหนือกว่าฟังก์ชันการแปลงข้อความเป็นวิดีโอธรรมดามาก

เครื่องมือนี้ช่วยให้ผู้ใช้ทำให้รูปภาพนิ่งที่มีอยู่ให้เป็นภาพเคลื่อนไหว และสร้างวิดีโอจากอินพุตที่เป็นรูปภาพหรือภาพวาด นอกจากนี้ ยังช่วยสร้างวิดีโอในการวาดภาพ และสร้างแอนิเมชั่นเฉพาะในส่วนต่างๆ ภายในรูปภาพ

Lumiere สร้างวิดีโอได้อย่างไร

งานวิจัยของ Google ที่ชื่อว่า “Lumiere: A Space-Time Diffusion Model for Video Generation” โดยรายละเอียดทางเทคนิคเบื้องหลัง Lumiere เป็นโมเดล text-to-video diffusion model ที่ออกแบบมาเพื่อสังเคราะห์วิดีโอที่แสดงการเคลื่อนไหวที่สมจริง หลากหลาย และสอดคล้องกัน – ความท้าทายที่สำคัญในการสังเคราะห์วิดีโอ ด้วยเหตุนี้ เราจึงแนะนำสถาปัตยกรรม Space-Time U-Net ที่สร้างระยะเวลาชั่วคราวทั้งหมดของวิดีโอในคราวเดียวผ่านการผ่านครั้งเดียวในโมเดล

นวัตกรรมหลักที่นี่คือโมเดล SpaceTime Diffusion ที่สร้างระยะเวลาชั่วคราวทั้งหมดของวิดีโอในคราวเดียว ในทางตรงกันข้าม โมเดลวิดีโอ AI ที่มีอยู่จะสังเคราะห์คีย์เฟรมระยะไกลทีละเฟรม Google มีเป้าหมายที่จะนำเสนอความสอดคล้องชั่วคราวทั่วโลกด้วย Lumiere เพื่อให้มั่นใจว่าการแสดงจะสอดคล้องกัน ข้ามเฟรมที่แตกต่างกัน

ในรายงานการวิจัย ความสามารถของ Lumiere ได้รับการสาธิตผ่านตัวอย่างต่างๆ ผลลัพธ์จากผลลัพธ์จากข้อความเป็นวิดีโอแสดงให้เห็นถึงความสม่ำเสมอและความแม่นยำที่มีแนวโน้มในการถ่ายทอดฉากต่างๆ ขณะเดียวกัน การแปลงภาพเป็นวิดีโอก็ดูเหมือนเช่นกัน เพื่อแสดงภาพเคลื่อนไหวที่น่าประทับใจ นอกจากนี้ การสร้างสไตล์ของโมเดลโดยใช้รูปภาพอ้างอิงยังให้ผลลัพธ์ที่ดึงดูดสายตาและสอดคล้องกันอีกด้วย

ตามที่นักวิจัยระบุว่ากรอบการสร้างข้อความเป็นวิดีโอได้รับการแนะนำโดยใช้การแพร่กระจายข้อความเป็นรูปภาพที่ผ่านการฝึกอบรมมาแล้ว เนื่องจากวิธีการที่มีอยู่กำลังดิ้นรนกับการเคลื่อนไหวที่สอดคล้องกันทั่วโลก ทีมงานจึงแก้ไขปัญหานี้ด้วยการปรับใช้ Space-Time U-Net architecture ที่สร้างคลิปวิดีโอแบบฟูลเฟรมโดยตรงโดยผสมผสานโมดูลเชิงพื้นที่และเชิงเวลา ผลลัพธ์ที่ได้คือ วิธีการของพวกเขาแสดงให้เห็นผลลัพธ์ที่เหนือกว่าในการแปลงรูปภาพเป็นวิดีโอ การวาดภาพในวิดีโอ และการสร้างสไตล์

ทีมงานสรุปยอมรับข้อจำกัดนี้และสนับสนุนการวิจัยในอนาคตในทิศทางนี้ แม้ว่าโมเดลของพวกเขาจะขึ้นอยู่กับโมเดล T2I ของพื้นที่พิกเซล แต่หลักการออกแบบสามารถสร้างแรงบันดาลใจให้เกิดความก้าวหน้าใน latent video diffusion models

ทำไมถึงมีความสำคัญ?

ในรายงานนี้ ทีมงานได้เปรียบเทียบประสิทธิภาพของโมเดล AI กับโมเดลล้ำสมัยอื่น ๆ ในอุตสาหกรรมที่ขึ้นชื่อในด้านประสิทธิภาพที่เหนือกว่าในการสร้างข้อความเป็นวิดีโอและรูปภาพเป็นวิดีโอ ตาม จากผลลัพธ์ ดูเหมือนว่า Lumiere จะมีประสิทธิภาพเหนือกว่าทั้งในด้านคุณภาพวิดีโอและการจัดแนวข้อความ

แม้ว่าโมเดลนี้อาจสร้างความฮือฮาด้วยความสามารถอันน่าทึ่ง แต่กรณีการใช้งานที่เป็นไปได้นั้นสามารถช่วยให้บุคคลทั่วไปสามารถสร้างภาพยนตร์สไตล์ฮอลลีวูดได้อย่างง่ายดาย ชุมชน AI ได้สำรวจว่าโมเดลเหล่านี้สามารถสร้างรูปภาพและวิดีโอและการพัฒนาได้อย่างไร ของโมเดลโลกสำหรับการจำลองขั้นสูง ดูเหมือนว่า Lumiere จะปูทางไปสู่ความก้าวหน้าและการวิจัยที่มากขึ้น นับเป็นก้าวกระโดดที่สำคัญในการสังเคราะห์วิดีโอที่ขับเคลื่อนด้วย AI ซึ่งมอบความเป็นไปได้ในการสร้างสรรค์มากมาย ผลลัพธ์ที่สม่ำเสมอและสมจริงที่แสดงในตัวอย่างบ่งบอกถึงศักยภาพในการเปลี่ยนแปลง ความก้าวหน้าในด้านเนื้อหาที่สร้างโดย AI

โดยสรุป ทีมงานระบุว่าเป้าหมายหลักในงานนี้คือการช่วยให้ผู้ใช้มือใหม่สามารถสร้างเนื้อหาภาพได้อย่างสร้างสรรค์และยืดหยุ่น พวกเขายอมรับว่ามีความเสี่ยงที่จะถูกนำไปใช้ในทางที่ผิดในการสร้างเนื้อหาปลอมหรือเป็นอันตรายด้วยเทคโนโลยีใหม่นี้

เราเชื่อว่าการพัฒนาและใช้เครื่องมือในการตรวจหาอคติและกรณีการใช้งานที่เป็นอันตรายเป็นสิ่งสำคัญอย่างยิ่ง เพื่อให้แน่ใจว่ามีการใช้งานที่ปลอดภัยและเป็นธรรม” ณ ตอนนี้ยังไม่มีวิธีเข้าถึงหรือดาวน์โหลด Lumiere อย่างไรก็ตามผู้เชี่ยวชาญรู้สึกว่า Lumiere จะเพิ่มขีดความสามารถต่อเนื่องหลายรูปแบบของ Google Bard ในอนาคต จนถึงขณะนี้ยังไม่มีการยืนยันอย่างเป็นทางการว่าโมเดล AI จะ จะถูกรวมเข้ากับ Bard

view original *