NVIDIA (NASDAQ:NVDA) ประกาศว่าคลัสเตอร์ซูเปอร์คอมพิวเตอร์ Colossus ของ xAI ประกอบด้วย NVIDIA Hopper Tensor Core GPU 100,000 ตัวในเมมฟิส รัฐเทนเนสซี ประสบความสําเร็จในขนาดมหาศาลนี้โดยใช้แพลตฟอร์มเครือข่าย NVIDIA Spectrum-X™ Ethernet ซึ่งออกแบบมาเพื่อมอบประสิทธิภาพที่เหนือกว่าให้กับโรงงาน AI ไฮเปอร์สเกลที่มีผู้เช่าหลายรายโดยใช้อีเธอร์เน็ตตามมาตรฐาน สําหรับเครือข่าย Remote Direct Memory Access (RDMA)
Colossus ซูเปอร์คอมพิวเตอร์ AI ที่ใหญ่ที่สุดในโลกกําลังถูกใช้เพื่อฝึกโมเดลภาษาขนาดใหญ่ตระกูล Grok ของ xAI โดยมีแชทบอทที่นําเสนอเป็นคุณสมบัติสําหรับสมาชิก X Premium xAI กําลังอยู่ในขั้นตอนการเพิ่มขนาดของ Colossus เป็นสองเท่าเป็น GPU NVIDIA Hopper รวม 200,000 ตัว
สิ่งอํานวยความสะดวกที่รองรับและซูเปอร์คอมพิวเตอร์ที่ล้ําสมัยสร้างขึ้นโดย xAI และ NVIDIA ในเวลาเพียง 122 วัน แทนที่จะเป็นกรอบเวลาทั่วไปสําหรับระบบขนาดนี้ที่อาจใช้เวลาหลายเดือนถึงหลายปี ใช้เวลา 19 วันนับจากเวลาที่ชั้นวางแรกกลิ้งลงบนพื้นจนกระทั่งเริ่มการฝึกอบรม
ในขณะที่ฝึกโมเดล Grok ขนาดใหญ่มาก Colossus บรรลุประสิทธิภาพของเครือข่ายอย่างที่ไม่เคยมีมาก่อน ในทั้งสามชั้นของเครือข่ายแฟบริคระบบประสบกับการลดระดับเวลาแฝงของแอปพลิเคชันหรือการสูญหายของแพ็กเก็ตเนื่องจากการชนกันของโฟลว์ รักษาปริมาณข้อมูล 95% ที่เปิดใช้งานโดยการควบคุมความแออัดของ Spectrum-X
ประสิทธิภาพระดับนี้ไม่สามารถทําได้ในขนาดด้วยอีเธอร์เน็ตมาตรฐาน ซึ่งสร้างการชนกันของโฟลว์หลายพันครั้งในขณะที่ส่งปริมาณข้อมูลเพียง 60%
"AI กําลังกลายเป็นภารกิจที่สําคัญและต้องการประสิทธิภาพความปลอดภัยความสามารถในการปรับขนาดและความคุ้มค่าที่เพิ่มขึ้น" Gilad Shainer รองประธานอาวุโสฝ่ายเครือข่ายของ NVIDIA กล่าว "แพลตฟอร์มเครือข่ายอีเทอร์เน็ต NVIDIA Spectrum-X ได้รับการออกแบบมาเพื่อให้นักประดิษฐ์ เช่น xAI มีการประมวลผล การวิเคราะห์ และการดําเนินการเวิร์กโหลด AI ที่เร็วขึ้น และจะช่วยเร่งการพัฒนา การปรับใช้ และเวลาในการออกสู่ตลาดของโซลูชัน AI"
"Colossus เป็นระบบการฝึกอบรมที่ทรงพลังที่สุดในโลก" Elon Musk กล่าวใน X "ทํางานได้ดีโดยทีมงาน xAI, NVIDIA และพันธมิตร/ซัพพลายเออร์จํานวนมากของเรา"
"xAI ได้สร้างซูเปอร์คอมพิวเตอร์ที่ใหญ่ที่สุดและทรงพลังที่สุดในโลก" โฆษกของ xAI กล่าว "Hopper GPU และ Spectrum-X ของ NVIDIA ช่วยให้เราสามารถผลักดันขอบเขตของการฝึกอบรมโมเดล AI ในระดับมหาศาล สร้างโรงงาน AI ที่เร่งความเร็วและปรับให้เหมาะสมตามมาตรฐานอีเทอร์เน็ต"
หัวใจสําคัญของแพลตฟอร์ม Spectrum-X คือ สวิตช์อีเทอร์เน็ต Spectrum SN5600 ซึ่งรองรับความเร็วพอร์ตสูงถึง 800Gb/s และใช้สวิตช์ ASIC Spectrum-4 xAI เลือกจับคู่สวิตช์ Spectrum-X SN5600 กับ NVIDIA BlueField-3® SuperNIC เพื่อประสิทธิภาพที่ไม่เคยมีมาก่อน
เครือข่ายอีเทอร์เน็ต Spectrum-X สําหรับ AI นําเสนอคุณสมบัติขั้นสูงที่ให้แบนด์วิดท์ที่มีประสิทธิภาพสูงและปรับขนาดได้ด้วยเวลาแฝงต่ําและเวลาแฝงที่สั้น ซึ่งก่อนหน้านี้เป็นเอกสิทธิ์ของ InfiniBand คุณสมบัติเหล่านี้รวมถึงการกําหนดเส้นทางแบบปรับได้ด้วยเทคโนโลยี NVIDIA Direct Data Placement การควบคุมความแออัด ตลอดจนการมองเห็น AI Fabric ที่ได้รับการปรับปรุงและการแยกประสิทธิภาพ ซึ่งเป็นข้อกําหนดหลักทั้งหมดสําหรับระบบคลาวด์ AI กําเนิดที่มีผู้เช่าหลายรายและสภาพแวดล้อมขององค์กรขนาดใหญ่
บทความนี้ถูกแปลโดยใช้ความช่วยเหลือจากปัญญาประดิษฐ์(AI) สำหรับข้อมูลเพิ่มเติม โปรดอ่านข้อกำหนดการใช้งาน