Google’s new AI tool uses image prompts instead of text

CNN – เครื่องมือปัญญาประดิษฐ์ใหม่ล่าสุดของ Google ชื่อว่า “Whisk” ช่วยให้ผู้ใช้อัปโหลดภาพเพื่อรับภาพที่สร้างโดย AI-generated image ซึ่งเป็นการผสมผสานกันของภาพต่างๆ โดยที่ผู้ใช้ไม่จำเป็นต้องใส่ข้อความเพื่ออธิบายสิ่งที่ต้องการ

CNN – Google’s newest artificial intelligence tool, “Whisk,” lets people upload photos to get back a combined, AI-generated image – even without users inputting any text to explain what they want

เครื่องมือ AI ใหม่ของ Google ใช้ image prompts แทน text prompts

CNN – เครื่องมือปัญญาประดิษฐ์ใหม่ล่าสุดของ Google ชื่อว่า “Whisk” ช่วยให้ผู้ใช้อัปโหลดภาพเพื่อรับภาพที่สร้างโดย AI-generated image ซึ่งเป็นการผสมผสานกันของภาพต่างๆ โดยที่ผู้ใช้ไม่จำเป็นต้องใส่ข้อความเพื่ออธิบายสิ่งที่ต้องการ

ผู้ใช้สามารถใส่ภาพที่แสดงถึงหัวข้อ ฉาก และสไตล์ ก่อนที่ Whisk จะผสมผสานทุกอย่างให้เป็นภาพเดียว

Google ระบุในบล็อกโพสต์ว่า Whisk เป็น “creative tool” สำหรับการสร้างแรงบันดาลใจอย่างรวดเร็ว ไม่ใช่ “traditional image editor” เครื่องมือแก้ไขภาพแบบดั้งเดิม กล่าวโดยสรุป Whisk ถูกออกแบบให้เป็นฟีเจอร์ AI ที่สนุกสนานมากกว่าจะเป็นเครื่องมือสำหรับงานมืออาชีพที่ต้องการความสมบูรณ์แบบ

บริษัทเทคโนโลยียักษ์ใหญ่อย่าง Google และ OpenAI กำลังแข่งขันกันพัฒนาผลิตภัณฑ์สำหรับผู้บริโภคที่แสดงให้เห็นถึงการใช้งานเทคโนโลยีใหม่ที่น่าตื่นตาตื่นใจนี้ แม้จะมีคำเตือนจากผู้ไม่เห็นด้วยถึงอันตรายที่อาจเกิดขึ้นกับมนุษยชาติหากไม่มีการควบคุมการพัฒนา AI

ตั้งแต่ OpenAI เปิดตัวเครื่องมือสร้างภาพจากข้อความ Dall-E ในปี 2021 แนวคิดของผลงานศิลปะที่สร้างโดย AI ก็กลายเป็นกระแสในโซเชียลมีเดียและเป็นจุดสนใจของผลิตภัณฑ์สำหรับผู้บริโภค Whisk ของ Google เป็นเครื่องมือสร้างภาพจากภาพที่พัฒนาต่อยอดจากแนวคิดของเครื่องมือสร้างภาพจากข้อความที่ได้รับความนิยม

ผู้ที่ใช้ Whisk สามารถ “remix” ภาพสุดท้ายได้ด้วยการแก้ไขภาพต้นฉบับหรือปรับหมวดหมู่ต่างๆ เพื่อสร้างภาพใหม่ เช่น ตุ๊กตา ของเล่น หรือสติกเกอร์ โดยผู้ใช้อาจเพิ่มข้อความเพื่อกำหนดรายละเอียดบางอย่างได้ แต่ไม่จำเป็นสำหรับการสร้างภาพ

“Whisk ถูกออกแบบมาเพื่อให้ผู้ใช้สามารถรีมิกซ์หัวข้อ ฉาก และสไตล์ในรูปแบบใหม่ๆ อย่างสร้างสรรค์ โดยเน้นการสำรวจภาพอย่างรวดเร็วแทนที่จะเป็นการแก้ไขภาพที่สมบูรณ์แบบ” Thomas Iljic ผู้อำนวยการฝ่ายการจัดการผลิตภัณฑ์ของ Google Labs กล่าวในแถลงการณ์

Whisk พัฒนาขึ้นจาก Gen AI ที่พัฒนาโดย DeepMind ซึ่งเป็นแล็บ AI ที่ Google เข้าซื้อกิจการในปี 2014

Whisk ทำงานโดยใช้ Gemini ซึ่งเป็นข้อเสนอหลักด้าน AI ของ Google ที่เปิดตัวในเดือนธันวาคม 2023 และจับคู่กับ Imagen 3 ซึ่งเป็นเครื่องมือสร้างภาพจากข้อความรุ่นล่าสุดของ DeepMind ที่เปิดตัวในเดือนเดียวกัน

เมื่อผู้ใช้อัปโหลดภาพ Gemini จะสร้างคำบรรยายซึ่งถูกส่งต่อไปยัง Imagen 3 กระบวนการนี้จับแก่นของหัวข้อ แทนที่จะสร้างสำเนาแบบเดียวกัน ซึ่งทำให้สามารถรีมิกซ์ภาพสุดท้ายได้ แต่ผลลัพธ์อาจแตกต่างจากต้นฉบับ

ตัวอย่างเช่น ภาพที่สร้างอาจมีความสูง ทรงผม หรือสีผิวแตกต่างจากภาพที่ใช้เป็นตัวกระตุ้น Google ระบุในบล็อกโพสต์

เมื่อ Google เปิดตัวเครื่องมือสร้างภาพจากข้อความของ Gemini ครั้งแรกในเดือนกุมภาพันธ์ บริษัทต้องเผชิญกับเสียงวิจารณ์ในช่วงแรก เนื่องจากเครื่องมือดังกล่าวสร้างภาพที่ไม่ถูกต้องทางประวัติศาสตร์

Whisk เปิดให้ใช้งานครั้งแรกในรูปแบบเว็บไซต์ผ่าน Google Labs สำหรับผู้ใช้งานในสหรัฐอเมริกา และยังอยู่ในช่วงเริ่มต้นของการพัฒนา

OpenAI เพิ่งเปิดตัวเครื่องมือสร้างวิดีโอจากข้อความชื่อว่า Sora ซึ่งสะท้อนให้เห็นถึงการแข่งขันในตลาดผลิตภัณฑ์สำหรับผู้บริโภค

Dan Ives กรรมการผู้จัดการและนักวิเคราะห์หุ้นอาวุโสของ Wedbush Securities กล่าวกับ CNN ว่า Whisk เป็นอีกหนึ่ง “ช่วงเวลาแสดงศักยภาพ” ของ Google ในการแข่งขันด้าน AI และเทคโนโลยี

“DeepMind เป็นทรัพย์สินสำคัญของ Google” Ives กล่าว พร้อมระบุว่าผลิตภัณฑ์ AI เป็นหนึ่งในขุมทรัพย์ของ Google สำหรับปี 2025 ซึ่งรวมถึงระบบปฏิบัติการ Android ใหม่ที่พัฒนาร่วมกับ Samsung และ Qualcomm

View original *