NVIDIA presents latest advancements in visual AI

นักวิจัยของ NVIDIA กำลังนำเสนอโมเดลและเทคนิค AI ที่สร้างภาพใหม่ในการประชุม Computer Vision and Pattern Recognition (CVPR) ในสัปดาห์นี้ที่ซีแอตเทิล ความก้าวหน้าครอบคลุมพื้นที่ต่างๆ เช่น การสร้างภาพแบบกำหนดเอง การแก้ไขฉาก 3 มิติ การทำความเข้าใจภาษาของภาพ และการรับรู้ของยานพาหนะอัตโนมัติ

NVIDIA researchers are presenting new visual generative AI models and techniques at the Computer Vision and Pattern Recognition (CVPR) conference this week in Seattle. The advancements span areas like custom image generation, 3D scene editing, visual language understanding, and autonomous vehicle perception.

NVIDIA นำเสนอความก้าวหน้าล่าสุดในด้าน Visual AI

นักวิจัยของ NVIDIA กำลังนำเสนอโมเดลและเทคนิค AI ที่สร้างภาพใหม่ในการประชุม Computer Vision and Pattern Recognition (CVPR) ในสัปดาห์นี้ที่ซีแอตเทิล ความก้าวหน้าครอบคลุมพื้นที่ต่างๆ เช่น การสร้างภาพแบบกำหนดเอง การแก้ไขฉาก 3 มิติ การทำความเข้าใจภาษาของภาพ และการรับรู้ของยานพาหนะอัตโนมัติ

“ปัญญาประดิษฐ์ โดยเฉพาะอย่างยิ่ง generative AI แสดงให้เห็นถึงความก้าวหน้าทางเทคโนโลยีที่สำคัญ” Jan Kautz รองประธานฝ่ายวิจัยการเรียนรู้และการรับรู้ของ NVIDIA กล่าว

“ที่ CVPR ทาง NVIDIA Research กำลังแบ่งปันวิธีที่เราผลักดันขอบเขตของสิ่งที่เป็นไปได้ ตั้งแต่โมเดลการสร้างภาพอันทรงพลังที่สามารถเพิ่มพลังให้กับผู้สร้างมืออาชีพ ไปจนถึงซอฟต์แวร์การขับขี่อัตโนมัติที่สามารถช่วยเปิดใช้งานรถยนต์ที่ขับเคลื่อนด้วยตนเองรุ่นต่อไป”

ในบรรดาโครงการวิจัยของ NVIDIA กว่า 50 โครงการที่ถูกนำเสนอ มีงานวิจัยสองชิ้นได้รับเลือกให้เข้ารอบสุดท้ายสำหรับรางวัลกระดาษที่ดีที่สุดของ CVPR โดยชิ้นหนึ่งสำรวจไดนามิกการฝึกอบรมของแบบจำลองการแพร่กระจาย และอีกชิ้นเกี่ยวกับแผนที่ความละเอียดสูงสำหรับรถยนต์ที่ขับเคลื่อนด้วยตนเอง

นอกจากนี้ NVIDIA ยังชนะการแข่งขัน End-to-End Driving at Scale ของ CVPR Autonomous Grand Challenge ซึ่งทำได้ดีกว่ารายการ 450 ทั่วโลก ความสำเร็จครั้งสำคัญนี้แสดงให้เห็นถึงผลงานบุกเบิกของ NVIDIA ในการใช้ AI เจนเนอเรชั่นสำหรับโมเดลรถยนต์ไร้คนขับที่ครอบคลุม และยังได้รับรางวัลนวัตกรรมจาก CVPR อีกด้วย

หนึ่งในโครงการวิจัยหลักคือ JeDi ซึ่งเป็นเทคนิคใหม่ที่ช่วยให้ผู้สร้างสามารถปรับแต่งโมเดลการแพร่กระจายได้อย่างรวดเร็ว ซึ่งเป็นแนวทางชั้นนำสำหรับการสร้างข้อความเป็นรูปภาพ เพื่อพรรณนาถึงวัตถุหรือตัวอักษรเฉพาะโดยใช้ภาพอ้างอิงเพียงไม่กี่ภาพ แทนที่จะแสดงเวลา กระบวนการปรับแต่งชุดข้อมูลที่กำหนดเองอย่างละเอียด

ความก้าวหน้าอีกอย่างหนึ่งคือ FoundationPose ซึ่งเป็นโมเดลพื้นฐานใหม่ที่สามารถเข้าใจและติดตามท่าทาง 3 มิติของวัตถุในวิดีโอได้ทันทีโดยไม่ต้องฝึกแบบต่อวัตถุ สร้างสถิติประสิทธิภาพใหม่และสามารถปลดล็อกแอปพลิเคชัน AR และหุ่นยนต์ใหม่ได้

นักวิจัยของ NVIDIA ยังได้แนะนำ NeRFDeformer ซึ่งเป็นวิธีการแก้ไขฉาก 3 มิติที่บันทึกโดย Neural Radiance Field (NeRF) โดยใช้สแน็ปช็อต 2 มิติเดียว แทนที่จะต้องสร้างการเปลี่ยนแปลงใหม่ด้วยตนเองหรือสร้าง NeRF ใหม่ทั้งหมด สิ่งนี้สามารถปรับปรุงการแก้ไขฉาก 3 มิติสำหรับ graphics, robotics, และ digital twin applications.

ในด้านภาษาภาพ NVIDIA ร่วมมือกับ MIT เพื่อพัฒนา VILA ซึ่งเป็นโมเดลภาษาการมองเห็นตระกูลใหม่ที่ให้ประสิทธิภาพที่ล้ำสมัยในการทำความเข้าใจภาพ วิดีโอ และข้อความ ด้วยความสามารถในการให้เหตุผลที่เพิ่มขึ้น VILA ยังสามารถเข้าใจมีมทางอินเทอร์เน็ตได้ด้วยการผสมผสานความเข้าใจทางภาพและภาษาเข้าด้วยกัน

การวิจัยด้าน Visual AI ของ NVIDIA ครอบคลุมอุตสาหกรรมต่างๆ มากมาย รวมถึงงานวิจัยหลายสิบฉบับที่สำรวจแนวทางใหม่ๆ สำหรับการรับรู้ การทำแผนที่ และการวางแผนยานพาหนะอัตโนมัติ Sanja Fidler รองประธานทีมวิจัย AI ของ NVIDIA กำลังนำเสนอเกี่ยวกับศักยภาพของโมเดลภาษาการมองเห็นสำหรับรถยนต์ที่ขับเคลื่อนด้วยตนเอง

การวิจัย CVPR ที่ครอบคลุมของ NVIDIA เป็นตัวอย่างว่า AI เชิงสร้างสรรค์สามารถเสริมพลังให้กับผู้สร้าง เร่งระบบอัตโนมัติในการผลิตและการดูแลสุขภาพได้อย่างไร ในขณะที่ขับเคลื่อนความเป็นอิสระและหุ่นยนต์ไปข้างหน้า

view original *