Nvidia’s text-to-video tech could take your GIF game to the next level

ข้อจำกัดเพียงอย่างเดียวของ GIF คือจินตนาการของคุณ

The only limit to your GIFs is your imagination

เทคโนโลยี text-to-video ของ Nvidia สามารถยกระดับเกม GIF ของคุณไปอีกขั้น

ตอนนี้ ChatGPT และ Midjourney ค่อนข้างเป็นกระแสหลัก การแข่งขัน AI ครั้งใหญ่ครั้งต่อไปคือโปรแกรมสร้าง text-to-video และ Nvidia เพิ่งแสดงการสาธิตที่น่าประทับใจของเทคโนโลยีที่จะยกระดับ GIF ของคุณไปสู่ระดับใหม่ในไม่ช้า

เอกสารการวิจัยใหม่และไมโครไซต์ จากห้องปฏิบัติการ AI ของโตรอนโตของ Nvidia ที่เรียกว่า “High-Resolution Video Synthesis with Latent Diffusion Models” ทำให้เราได้ลองใช้เครื่องมือสร้างวิดีโอที่น่าทึ่งซึ่งกำลังจะเข้าร่วมกับ AI art generators ที่ดีที่สุดที่เติบโตขึ้นเรื่อยๆ

Latent Diffusion Models (or LDMs) คือ AI ประเภทหนึ่งที่สามารถสร้างวิดีโอได้โดยไม่ต้องใช้พลังประมวลผลมหาศาล Nvidia กล่าวว่าเทคโนโลยีของตนทำสิ่งนี้โดยสร้างจากการทำงานของตัวสร้างข้อความเป็นรูปภาพ ในกรณีนี้คือ Stable Diffusion และเพิ่ม “มิติชั่วคราวให้กับ LDMs”

กล่าวอีกนัยหนึ่ง Generative AI ของมันสามารถทำให้ภาพนิ่งเคลื่อนไหวได้อย่างสมจริงและเพิ่มขนาดให้เพิ่มขึ้นโดยใช้เทคนิคความละเอียดสูง ซึ่งหมายความว่าสามารถสร้างวิดีโอขนาดสั้น 4.7 วินาทีที่ความละเอียด 1280×2048 หรือวิดีโอที่ยาวกว่าที่ความละเอียดต่ำกว่า 512×1024 สำหรับการสร้างภาพวิดีโอ

แว่บแรกที่ได้เห็นการสาธิต (เช่น ด้านบน และด้านล่าง) คือสิ่งนี้จะช่วยเพิ่มเกม GIF ของเราได้มากเพียงใด โอเค มีหลายสาขาที่ใหญ่กว่า เช่น การทำให้เป็นประชาธิปไตยของการสร้างวิดีโอและโอกาสของการดัดแปลงภาพยนตร์อัตโนมัติ แต่ในขั้นตอนนี้ text-to-GIF ดูเหมือนจะเป็นกรณีการใช้งานที่น่าตื่นเต้นที่สุด

คำสั่ง prompt ง่ายๆ เช่น ‘สตอร์มทรูปเปอร์กำลังดูดฝุ่นบนชายหาด’ และ ‘ตุ๊กตาหมีกำลังเล่นกีตาร์ไฟฟ้า ความคมชัดสูง 4K’ ให้ผลลัพธ์ที่ค่อนข้างใช้ได้ แม้ว่าจะมีสิ่งประดิษฐ์ตามธรรมชาติและการแปรเปลี่ยนกับผลงานสร้างสรรค์บางอย่างก็ตาม

ทำให้เทคโนโลยีแปลง text-to-video เช่น เดโมใหม่ของ Nvidia เหมาะสมที่สุดสำหรับภาพขนาดย่อและ GIF แต่ด้วยการปรับปรุงอย่างรวดเร็วที่เห็นได้จากการสร้าง AI ของ Nvidia สำหรับฉากที่ยาวขึ้น เราอาจไม่ต้องรอคลิป text-to-video ที่ยาวขึ้นในไลบรารีสต็อกและที่อื่น ๆ

Nvidia ไม่ใช่บริษัทแรกที่โชว์เครื่องมือสร้าง text-to-video ด้วย AI เมื่อเร็ว ๆ นี้เราได้เห็น Google Phenaki เปิดตัวโดยเผยให้เห็นถึงศักยภาพของคลิป 20 วินาทีตามคำแนะนำที่ยาวขึ้น การสาธิตยังแสดงคลิปที่มีความยาวเกินสองนาทีอีกด้วย

Runway เริ่มต้นซึ่งช่วยสร้างตัวสร้างข้อความเป็นรูปภาพ Stable Diffusion ยังเปิดโมเดลวิดีโอ AI Gen-2

เดือนที่แล้ว. นอกเหนือจาก รับคำสั่ง prompt เช่น ‘ดวงอาทิตย์ยามบ่ายแก่ ๆ ที่แอบมองผ่านหน้าต่างห้องใต้หลังคาในนิวยอร์กซิตี้’ (ผลลัพธ์ที่ได้อยู่ด้านบน) แอปนี้ให้คุณให้ภาพนิ่งเพื่อใช้เป็นพื้นฐานสำหรับวิดีโอที่สร้างขึ้น และให้คุณขอสไตล์ที่ต้องการได้ นำไปใช้กับวิดีโอด้วย

หลังยังเป็นธีมของการสาธิตล่าสุดสำหรับ Adobe Firefly ซึ่งแสดงให้เห็นว่า AI จะทำให้การตัดต่อวิดีโอง่ายขึ้นเพียงใด ในโปรแกรมเช่น Adobe Premiere Rush คุณจะสามารถพิมพ์ช่วงเวลาของวันหรือฤดูกาลที่คุณต้องการดูในวิดีโอของคุณได้ในไม่ช้า และ AI ของ Adobe จะจัดการส่วนที่เหลือเอง

การสาธิตล่าสุดจาก Nvidia, Google และ Runway แสดงให้เห็นว่าการสร้าง text-to-video เต็มรูปแบบนั้นอยู่ในสถานะคลุมเครือเล็กน้อย ซึ่งมักจะสร้างผลลัพธ์ที่แปลกประหลาด ชวนฝัน หรือบิดเบี้ยว แต่สำหรับตอนนี้ นั่นจะส่งผลดีกับเกม GIF ของเรา และการปรับปรุงอย่างรวดเร็วที่จะทำให้เทคโนโลยีนี้เหมาะสำหรับวิดีโอขนาดยาวก็ใกล้เข้ามาแล้ว

view original *