Stable Diffusion Gets an Upgrade—Here’s How Its AI Model Stacks Up Against MidJourney

Stable Diffusion XL v0.9 ออกแล้ว และผลลัพธ์ก็น่าประทับใจ

Stable Diffusion XL v0.9 is out. And the results are impressive.

Stable Diffusion ได้รับการอัปเกรด—นี่คือวิธีที่โมเดล AI ต่อยอด MidJourney

สตาร์ทอัพ Stability AI เพิ่งเปิดตัว Stable Diffusion เวอร์ชันล่าสุด—และโมเดลนี้ก็ไม่ทำให้ผิดหวัง

Stable Diffusion XL (SDXL) v0.9 มอบภาพที่เหมือนจริงเป็นพิเศษ ซึ่งเหนือกว่าการทำซ้ำครั้งก่อนในแง่ของความซับซ้อนและคุณภาพของภาพ

เหนือสิ่งอื่นใด หมายความว่าโมเดลใหม่ของ Stability AI จะไม่สร้าง “มือสปาเก็ตตี้” ที่ยุ่งยากบ่อยนัก นอกจากนี้ คุณไม่ต้องแนะนำคำเป็นสิบๆ คำเพื่อให้ได้ภาพที่น่าทึ่ง เพราะตัวแบบได้รับการฝึกฝนให้ทำงานหนักที่สุดสำหรับคุณ การสื่อสารกับตัวแบบจะเป็นธรรมชาติมากขึ้น

บริษัทประกาศเปิดตัวบน Twitter เมื่อวานนี้ โดยสังเกตว่าเวอร์ชันใหม่นี้ “ให้การใช้งานแบบก้าวกระโดดสำหรับการสร้างภาพ AI”

ตัวสร้างภาพที่ได้รับการขนานนามว่า SDXL v0.9 ตอบสนอง text-based prompts ได้ดีเยี่ยม แสดงรายละเอียดองค์ประกอบที่เหนือกว่า SDXL รุ่นเบต้าก่อนหน้าที่เปิดตัวในเดือนเมษายน การเปรียบเทียบอย่างพิถีพิถันของภาพที่สร้างขึ้นจากทั้งสองรุ่นเน้นให้เห็นพัฒนาการที่โดดเด่นของรุ่นล่าสุด

ตัวอย่างเช่น prompt “A wolf in Yosemite National Park, chilly nature documentary film photography” “หมาป่าในอุทยานแห่งชาติโยเซมิตี การถ่ายภาพภาพยนตร์สารคดีธรรมชาติที่หนาวเย็น” ทำให้ได้ภาพที่สมจริงยิ่งขึ้นด้วยโมเดล AI ใหม่ ซึ่งเหนือกว่าเวอร์ชันก่อนหน้า ไม่ต้องพรรณนาถึงรายละเอียดที่เหมือนจริง การปรับปรุงที่สำคัญดังกล่าวเป็นผลมาจากจำนวนพารามิเตอร์ที่เพิ่มขึ้นใน SDXL v0.9 ซึ่งให้การเรียนรู้เชิงลึกที่มากขึ้นเมื่อเทียบกับรุ่นก่อน

Stability AI ซึ่งเป็นที่รู้จักจากการนำ Stable Diffusion ซึ่งเป็นตัวสร้างภาพแบบโอเพนซอร์สมาก่อนในเดือนสิงหาคม 2022 ได้กระตุ้นการแข่งขันกับ Dall-E และ MidJourney ของ OpenAI Stable Diffusion เป็น open sourced AI image generator ที่ได้รับความนิยมมากที่สุดในโลกในขณะนี้

บริษัทได้รับการยอมรับจาก TIME เมื่อวานนี้ว่าเป็นหนึ่งในบริษัทที่ทรงอิทธิพลที่สุดของปี 2023 บริษัท AI อื่นๆ ที่ปรากฏอยู่ในรายชื่อ ได้แก่ OpenAI (ChatGPT), Hugging Face (แพลตฟอร์ม AI แบบโอเพ่นซอร์สสำหรับการทำงานร่วมกัน), Runway AI (generative video), Nvidia และ Google Deepmind ในพื้นที่ crypto Polygon และ Chainalysis (blockchain forensics) ก็อยู่ในรายการเช่นกัน

สร้างภาพสวยด้วยการทำงานน้อยลง

ในการเปลี่ยนแปลงที่น่าสังเกต SDXL v0.9 ทิ้ง prompts ที่ซับซ้อน ทำให้ได้ผลลัพธ์ที่ดีขึ้นจากอินพุตที่เรียบง่ายและมีโครงสร้างน้อยลง สิ่งนี้แสดงให้เห็นอย่างชัดเจนเมื่อ Decrypt ส่งคำสั่ง prompt “two hands pointing at each other bright art,” “งานศิลปะที่มีมือทั้งสองข้างชี้เข้าหากันด้วยแสงที่สว่างไสว” ซึ่งให้ผลลัพธ์ที่สมจริงอย่างน่าประทับใจด้วย SDXL v0.9 และลายเส้นที่สร้างแรงบันดาลใจน้อยลงด้วยเวอร์ชันมาตรฐานของ Stable Diffusion 1.5 และ 2.1

การใช้งานง่ายแบบใหม่นี้ อาจเป็นภัยคุกคามร้ายแรงต่อ MidJourney ซึ่งสิ่งที่ดึงดูดใจหลักคือความเป็นมิตรกับผู้ใช้ ยิ่งไปกว่านั้น ความสวยงามของภาพยนตร์และการเรนเดอร์วัตถุที่แม่นยำโดย SDXL v0.9 สามารถใช้เป็นจุดขายที่แข็งแกร่งสำหรับ Stability AI ซึ่งชวนให้นึกถึงสไตล์การมองเห็นของ MidJourney

ฟีเจอร์ล่าสุดของ Stability AI จะเข้าถึงได้ผ่าน Clipdrop ซึ่งเป็นเครื่องมือสร้างและแก้ไขภาพ AI ที่พัฒนาโดย Init ML ซึ่งเป็นการซื้อกิจการล่าสุดของ Stability ลูกค้า API ของ บริษัท มีกำหนดจะเข้าถึงเร็ว ๆ นี้ อย่างไรก็ตาม โมเดลยังไม่พร้อมสำหรับการฝึกหรือปรับแต่ง และไม่ได้รันในเครื่อง เมื่อเผยแพร่สู่สาธารณะแล้ว จะต้องใช้ระบบที่มี RAM อย่างน้อย 16GB และ GPU ที่มี VRAM 8GB

ในขณะเดียวกัน Stability AI ยังคงพัฒนาโมเดลควบคู่ไปกับโครงการอื่นๆ อีกสองโครงการ: โมเดลภาษาขนาดใหญ่ (LLM) ชื่อ StableLM และ DeepFloyd IF ที่น่าประทับใจ ซึ่งเป็นเครื่องมือสร้างข้อความเป็นรูปภาพขั้นสูงที่สามารถฝังข้อความที่อ่านเข้าใจได้ลงในรูปภาพ ซึ่งยังไม่สามารถทำได้ สำเร็จได้ด้วยโมเดลที่มีอยู่

จากข้อมูลของ Stability AI กลางเดือนกรกฎาคมคือวันที่คาดการณ์ไว้สำหรับการเปิดตัวโมเดลที่เปลี่ยนแปลงเกมนี้สู่สาธารณะในรูปแบบซอฟต์แวร์โอเพ่นซอร์ส ซึ่งนับเป็นอีกก้าวสำคัญของบริษัท

view original *