xAI breaks records with ‘Colossus’ AI training system

Elon Musk เปิดเผยว่าทีมงาน xAI ประสบความสำเร็จในการนำคลัสเตอร์การฝึกอบรม Colossus 100k H100 มาใช้จริงได้สำเร็จ หลังจากกระบวนการ 122 วัน Musk ไม่พอใจกับความสามารถที่มีอยู่แล้ว โดยกล่าวว่า “ในอีกสองสามเดือนข้างหน้า คลัสเตอร์นี้จะมีขนาดใหญ่ขึ้นเป็นสองเท่า ทำให้มีคลัสเตอร์การฝึกอบรม 200k (คลัสเตอร์การฝึกอบรม H200 จำนวน 50,000 คลัสเตอร์)”

Elon Musk’s xAI has unveiled its record-breaking AI training system, dubbed ‘Colossus’. Musk revealed that the xAI team had successfully brought the Colossus 100k H100 training cluster online after a 122-day process. Not content with its existing capabilities, Musk stated, “over the next couple of months, it will double in size, bringing it to 200k (50k H200s).”

xAI ของ Elon Musk เปิดตัวระบบฝึกอบรม AI ที่มีขนาดใหญ่ทำลายสถิติ ซึ่งมีชื่อว่า ‘Colossus’

Elon Musk เปิดเผยว่าทีมงาน xAI ประสบความสำเร็จในการนำคลัสเตอร์การฝึกอบรม Colossus 100k H100 มาใช้จริงได้สำเร็จ หลังจากกระบวนการ 122 วัน Musk ไม่พอใจกับความสามารถที่มีอยู่แล้ว โดยกล่าวว่า “ในอีกสองสามเดือนข้างหน้า คลัสเตอร์นี้จะมีขนาดใหญ่ขึ้นเป็นสองเท่า ทำให้มีคลัสเตอร์การฝึกอบรม 200k (คลัสเตอร์การฝึกอบรม H200 จำนวน 50,000 คลัสเตอร์)”

ขนาดของ Colossus นั้น ใหญ่โตอย่างไม่เคยมีมาก่อน โดยแซงหน้าคลัสเตอร์อื่น ๆ ทั้งหมดจนถึงปัจจุบัน สำหรับ Google ใช้ GPU 90,000 ตัว ในขณะที่ OpenAI ใช้ GPU 80,000 ตัว ซึ่งทั้งสองตัวนั้นถูกแซงหน้าโดยการสร้าง xAI แม้กระทั่งก่อนที่ขนาดของ Colossus จะเพิ่มขึ้นเป็นสองเท่าในอีกไม่กี่เดือนข้างหน้า

Colossus ได้รับการพัฒนาโดยร่วมมือกับ Nvidia และใช้ประโยชน์จากเทคโนโลยี GPU ขั้นสูงที่สุดในตลาด ระบบนี้ใช้ชิป H100 ของ Nvidia ในตอนแรก และมีแผนที่จะรวมรุ่น H200 ใหม่กว่าในส่วนขยาย พลังการประมวลผลอันมากมายนี้ทำให้ Colossus กลายเป็นระบบฝึกอบรม AI ที่น่าเกรงขามที่สุดในปัจจุบัน

แม้ว่า H200 จะถูกแทนที่ด้วยชิป Blackwell ของ Nvidia ที่เปิดตัวในเดือนมีนาคม 2024 แต่ยังคงเป็นส่วนประกอบที่เป็นที่ต้องการอย่างมากในอุตสาหกรรม AI ชิปนี้มีคุณสมบัติที่น่าประทับใจ เช่น หน่วยความจำ HBM3E ขนาด 141 GB และแบนด์วิดท์ 4.8 TB/วินาที อย่างไรก็ตาม ชิป Blackwell ยกระดับมาตรฐานขึ้นไปอีก โดยมีความจุระดับสูงสุดสูงกว่า H200 ถึง 36.2% และแบนด์วิดท์รวมเพิ่มขึ้น 66.7%

การตอบสนองของ Nvidia ต่อการเปิดตัว Colossus เต็มไปด้วยความกระตือรือร้นและการสนับสนุน บริษัทแสดงความยินดีกับ Musk และทีมงาน xAI สำหรับความสำเร็จของพวกเขา และเน้นย้ำว่า Colossus จะไม่เพียงแต่เป็นระบบที่ทรงพลังที่สุดในประเภทเดียวกันเท่านั้น แต่ยังจะมอบ ผลกำไรในด้านประสิทธิภาพการใช้พลังงานที่มหาศาลอีกด้วย

พลังการประมวลผลของ Colossus อาจเร่งให้เกิดการพัฒนาในแอปพลิเคชัน AI ต่างๆ ได้ ไม่ว่าจะเป็นการประมวลผลภาษาธรรมชาติหรืออัลกอริทึมการแก้ปัญหาที่ซับซ้อน อย่างไรก็ตาม การเปิดตัว Colossus ยังจุดประกายให้เกิดการถกเถียงกันอีกครั้งเกี่ยวกับการรวมพลังของ AI ไว้ในกลุ่มยักษ์ใหญ่ด้านเทคโนโลยีและสตาร์ทอัปที่มีเงินทุนหนา

ในขณะที่บริษัทอย่าง xAI ขยายขอบเขตของสิ่งที่เป็นไปได้ในการฝึกอบรม AI ความกังวลเกี่ยวกับการเข้าถึงเทคโนโลยีขั้นสูงดังกล่าวสำหรับองค์กรขนาดเล็กและนักวิจัยอาจกลายเป็นประเด็นสำคัญ

ในขณะที่การแข่งขันด้าน AI ยังคงเข้มข้นขึ้น ทุกสายตาจะจับจ้องไปที่ xAI และคู่แข่งเพื่อดูว่าพวกเขาใช้ประโยชน์จากระบบที่มีประสิทธิภาพเพิ่มขึ้นเหล่านี้ได้อย่างไร ด้วย Colossus มัสก์และทีมงานของเขาได้ท้าทายคู่แข่งให้พยายามเท่าเทียมหรือเกินกว่าความพยายามของพวกเขา

view original *