What is FLUX.1, a new open-source AI image generator to take on Midjourney?

FLUX.1 ถูกสร้างขึ้นโดยอดีตวิศวกรจากบริษัท Stability AI ซึ่งภาพที่ได้มีความสมจริงอย่างน่าทึ่ง ได้จุดกระแสฮือฮาอย่างมาก

Built by former Stability AI engineers, the photo-realism of pictures created using FLUX.1 has sparked a lot of buzz online.

FLUX.1 AI image generator แบบโอเพนซอร์สตัวใหม่ที่จะเข้ามาแข่งขันกับ Midjourney

ภาพถ่ายที่สร้างด้วย FLUX.1 AI image generator ล่าสุดที่กำลังได้รับความนิยมอย่างมากบนโซเชียลมีเดีย ประกอบไปด้วยภาพระยะใกล้ของผู้ชายและผู้หญิงที่กำลังพูดคุยผ่านไมโครโฟน ซึ่งคาดว่าจะอยู่บนเวทีในงานประชุมหรืออีเวนต์ประเภทใดประเภทหนึ่ง โดยภาพสร้างโดย FLUX.1 ที่ปรากฎบนกระทู้ Reddit เป็นครั้งแรกนั้น ทำให้เกิดกระแสฮือฮาอย่างมากบนโลกออนไลน์

ภาพเที่สร้างขึ้นโดยใช้โมเดล AI แปลงข้อความเป็นรูปภาพที่เปิดตัวใหม่ที่เรียกว่า FLUX.1 ซึ่งได้รับการพัฒนาโดย Black Forest Labs ซึ่งเป็นบริษัทที่ตั้งอยู่ในเยอรมนี

แม้ว่าภาพประเภทนี้จะมีให้เห็นมากมาย แต่ภาพที่สร้างขึ้นโดยใช้ FLUX.1 แสดงให้เห็นว่าปัจจุบันโมเดล AI ดังกล่าวสามารถสร้างภาพบุคคลได้อย่างแนบเนียน แทบหาจุดผิดปกติไม่ได้ ยกเว้นข้อความบนป้ายชื่อ เป็นข้อบ่งชี้ว่าเทคโนโลยีนี้ไม่เพียงแต่มีความซับซ้อนมากขึ้นเท่านั้น แต่ยังเข้าถึงได้ง่ายขึ้นด้วย เนื่องจาก FLUX.1 เป็นโมเดล AI แบบโอเพนซอร์ส

อย่างไรก็ตาม ต้องสังเกตว่ารูปภาพที่สร้างโดย AI โดยใช้ FLUX.1 ซึ่งแพร่หลายไปทั่ว ได้รับการปรับปรุงเพิ่มเติมด้วยเทคนิค Low-Rank Adaptation (LoRA) ซึ่งมีจุดประสงค์เพื่อปรับแต่งและเพิ่มประสิทธิภาพเอาต์พุตของโมเดลภาษาขนาดใหญ่

FLUX.1 คืออะไร และใครเป็นผู้สร้าง?

FLUX.1 เปิดตัวเมื่อวันที่ 1 สิงหาคม และมีให้บริการสำหรับผู้ใช้ในสามเวอร์ชันที่แตกต่างกัน เวอร์ชัน “Pro” ของโมเดล AI เป็นเวอร์ชันไฮเอนด์ที่ออกแบบมาเพื่อการใช้งานเชิงพาณิชย์ ในขณะเดียวกัน เวอร์ชัน “Dev” ที่มี open weights และสร้างมาสำหรับการใช้งานที่ไม่ใช่เชิงพาณิชย์ ในขณะที่เวอร์ชันที่ทำงานได้เร็วกว่าของ FLUX.1 ที่มี open weights เรียกว่า “Schnell” ซึ่งแปลว่ารวดเร็วในภาษาเยอรมัน

สถาปัตยกรรมของโมเดล AI มีรายงานว่าใช้เทคนิค transformer และ diffusion techniques ร่วมกัน โดยมีจำนวนพารามิเตอร์ 12 พันล้านตัว สำหรับบริบท ชุดโมเดล Stability Diffusion 3 มีขนาดพารามิเตอร์ตั้งแต่ 800 ล้านถึง 8 พันล้านตัว Black Forest Labs กล่าวในโพสต์บล็อกว่า FLUX.1 ได้รับการปรับให้เหมาะสมยิ่งขึ้นโดยใช้วิธีการฝึกอบรม เช่น flow matching อย่างไรก็ตาม บริษัทไม่ได้ระบุแหล่งที่มาของข้อมูลที่ใช้ในการฝึกอบรมโมเดล AI

FLUX.1 ถูกสร้างขึ้นโดย Black Forest Labs ซึ่งเป็นบริษัทสตาร์ทอัพด้าน AI ที่ก่อตั้งโดยกลุ่มนักวิจัยและวิศวกรด้าน AI ซึ่งบางคนเคยดำรงตำแหน่งสำคัญที่ Stability AI มาก่อน โดย Robin Rombach, Andreas Blattmann และ Dominik Lorenz มีรายงานว่า พวกเขาทำงานกับบริษัท Stability AI จนถึงตอนเปิดตัวโมเดล Stability Diffusion 3 (SD3)

เมื่อไม่นานนี้ Black Forest Labs สามารถระดมทุนได้กว่า 31 ล้านเหรียญสหรัฐ ใน seed funding round โดยมีนักลงทุนจากซิลิคอนวัลเลย์ เช่น Andreessen Horowitz รวมถึง General Catalyst และ MätchVC เข้าร่วมลงทุน นอกจากนี้ ยังมี Matthias Bethge นักวิจัยด้าน AI และ Michael Ovitz อดีตประธานบริษัท Disney เข้ามาเป็นที่ปรึกษาของ Black Forest Labs

FLUX.1 มีความสามารถอะไรบ้าง?

FLUX.1 สามารถสร้างมือและขาของมนุษย์ได้เหมือนจริง ซึ่งการแสดงผลแขนขาของมนุษย์เป็นปัญหาสำหรับภาพที่สร้างโดยใช้โมเดล AI เนื่องจากชุดข้อมูลการฝึกอบรมมีข้อบกพร่อง

บริษัทกล่าวว่า “โมเดล FLUX.1 ทั้งหมดรองรับอัตราส่วนภาพและความละเอียดที่หลากหลายในระดับ 0.1 และ 2.0 ล้านพิกเซล” ในอนาคต Black Forest Labs กล่าวว่ากำลังพัฒนาเครื่องสร้างข้อความเป็นวิดีโอที่แข่งขันกับ Sora ของ OpenAI, Gen-3 Alpha ของ Runway และ Kling ของ Kuaishou

“โมเดลวิดีโอของเราจะปลดล็อกการสร้างและการแก้ไขที่แม่นยำด้วยความคมชัดสูงและความเร็วที่ไม่เคยมีมาก่อน” โพสต์ดังกล่าวระบุ

FLUX.1 [dev] และ FLUX.1 [schnell] เปิดให้ใช้งานได้บนแพลตฟอร์มสำหรับนักพัฒนา AI เช่น Hugging Face สำหรับการใช้งานโดยตรง สามารถเข้าถึงโมเดลเหล่านี้ได้ผ่านแพลตฟอร์มโฮสต์บนคลาวด์ AI อย่าง Replicate และ Fal เว็บไซต์รูปภาพสต็อก Freepik ยังได้รวม FLUX.1 ไว้เป็นส่วนหนึ่งของ AI toolbox อีกด้วย

view original *