Поточні центри даних AI стикаються з двома основними вузькими вузькими масштабами в масштабах, а традиційні шкали - вгору і масштаб - моделі виводяться, щоб задовольнити Giga - Шкала AI вимог:
Масштаб - обмеження: Досягнуто шляхом оновлення окремих систем або стелажів (наприклад, збільшення кількості GPU або підвищення продуктивності пристрою -), але обмежується потужними стелями з інфраструктури, як охолодження води. Існуючі центри обробки даних мають фізичні пороги для введення потужності та розсіювання тепла, що запобігає нескінченному збільшенню щільності обчислення на стійку або центрі обробки даних.
Масштаб - обмеження: Розширюється додаванням стелажів та серверів для масштабів кластерів, але обмежений фізичним простором в одному місці, накладаючи жорсткі шапки на потужність обладнання.
Щоб подолати цю дилему, NVIDIA пропонує новий вимір "Шкала - по всій", оптимізація мережевої комунікації між географічно розповсюдженими центрами обробки даних, щоб зробити розподілені кластери AI, співпрацюючи як один. Засновник NVIDIA та генеральний директор Дженсен Хуанг описує цей хрест - регіональний AI Super Factory як ключову інфраструктуру для промислової революції AI, з спектром - xgs як основною технологією.

Основні технології спектру - xgs
Spectrum - XGS - це не абсолютно нова апаратна платформа, а еволюція існуючої спектру NVidia - x Ethernet Ecosystem. З моменту запуску 2024 року Spectrum - x доставив 1,6x більш високу генеративну продуктивність мережі AI, ніж традиційний Ethernet через Spectrum - 4 Architecture's SN5600 Switches та Bluefield - 3 DPUS, ставши основним вибором AI для центрів даних AI за допомогою NVIDIA GPUS. Прорив у спектрі-XGS лежить у трьох алгоритмічних інноваціях та апаратних синергіях, що стосуються затримки зв'язку, перевантаженості та проблеми синхронізації в міжрегіональних кластерах GPU.
1. КОРМАЛЬНІ АЛгоритми: Динамічна адаптація до довгих характеристик мережі відстані -
Spectrum - Ядро XGS - це набір "відстань - алгоритми оптимізації мережі", які аналізують ключові параметри зв'язку - {- Центр зв'язку в реальному - часу (дистанції, моделі трафіку, конгресивні рівні, виконання Metrics)
Відстань - Адаптивний контроль заторів:На відміну від традиційної обробки Ethernet для всіх з'єднань, спектр - xgs алгоритми автоматично регулюють пороги заторів на основі фактичних відстаней між центрами обробки даних (в даний час підтримуючи розгортання до сотень кілометрів), уникаючи втрат пакетів у тривалому-}}}}}}}}}}}}}}}}}}}}}}}}}} дистанційно -промісів.
Точне управління затримкою:Через Per - Пакет Fine - зерниста адаптивна маршрутизація, це виключає затриманість від затримки від повторних приводів пакетів у традиційних мережах. Треба є критичною небезпекою в кластерах AI: Якщо один GPU відстає від затримки, всі графічні процесори, що співпрацюють, повинні чекати, безпосередньо впливаючи на загальну продуктивність.
End - до - Кінцева телеметрія: Real - Збір часу Time Full - Дані про продуктивність посилань від GPUS до перемикачів та перехрестя - Дані - Центральні посилання забезпечують мілісекунд - відгуки про зворотний зв'язок для алгоритмічних налаштувань.
2. Апаратна синергія: використання спектру - x Ecosystem High - Фонд пропускної здатності
Спектр - xgs досягає оптимальної продуктивності в поєднанні з конкретним обладнанням Nvidia:
Спектр - x Перемикачі: Як основна мережа, що забезпечує високу щільність порту та низьку - затримку.
Connectx-8 Supernic: 800 ГБ/с AI - Спеціалізований мережевий адаптер для високого - Передача даних швидкості між графічними графіками та комутаторами.
Обладнання архітектури Blackwell: Наприклад, GPUS та GB10 SuperChips, глибоко інтегрований із спектром - xgs, щоб зменшити кінець - до - кінцевої затримки. NVIDIA validated through NCCL (collective communications library) benchmarks: Spectrum-XGS boosts communication performance between cross-data-center GPUs by 1.9x while controlling end-to-end latency at about 200 milliseconds-a level Це відчуває реагування та відставання - безкоштовно для взаємодії користувачів, відповідаючи реальним - Вимоги до часу для висновку AI.
Повна - Оптимізація стека для навчання та ефективності виводу за допомогою спектру - xgs
Spectrum - XGS - це не ізольована технологія, а ключове доповнення до повної - Stack AI екосистеми. У цьому випуску Nvidia також виявило програмне забезпечення - підвищення продуктивності рівня, які синергізують із спектром - xgs для апаратного забезпечення - алгоритм - співпраця програмного забезпечення:
Оновлення програмного забезпечення Dynamo: Оптимізована для архітектури Блеквелла (наприклад, систем B200) для підвищення продуктивності моделі AI до 4x, що значно зменшує споживання обчислення для великого висновку моделі.
Спекулятивна технологія декодування: Використовує невелику проект моделі для прогнозування наступного маркера виводу основної моделі AI заздалегідь, зменшуючи обчислення основної моделі та підвищення продуктивності висновку на додаткові 35%. Особливо це підходить для сценаріїв розмовних висновків у великих мовних моделях (LLMS).
Директор відділу прискорених обчислень NVIDIA Дейв Сальватор заявив, що основною метою цих оптимізацій є масштаб амбітних агентських програм AI. Незалежно від того, чи тренування трильйон - параметр великих моделей або підтримка послуг виводу AI для мільйонів одночасних користувачів, комбінація спектру - xgs та екосистема програмного забезпечення забезпечує передбачувану продуктивність.
Ранні програми та вплив промисловості спектру - xgs
Перші користувачі: Pioneers CoreWeave Cross - Домен AI Super FactoryCoreWeave Provider Provider Provider GPU є одним із перших усиновників спектру - xgs. Засновник компанії CO - та CTO Peter Salanki зазначив, що ця технологія дозволить своїм клієнтам отримати доступ до Giga - масштабу AI, прискорюючи прориви в різних галузях. Наприклад, підтримуючи Ultra - великі - Шкала проектів AI, як ініціатива Stargate від Oracle, SoftBank та OpenAI.
Тенденції галузі: Ethernet Заміна Infiniband як мейнстрім мережі AIХоча Infiniband займав близько 80% ринку мережі AI Backend у 2023 році, галузь швидко переходить до Ethernet. Вибір Nvidia розробити спектр - xgs на Ethernet вирівнюється з цією тенденцією:
Переваги сумісності та витрат:Ethernet є універсальним стандартом для глобальних центрів обробки даних, більш знайомим інженерам мережі та дешевшим для розгортання, ніж Infiniband.
Прогнози на ринку:Дані групи Dell'oro показують, що ринок комутаторів даних Ethernet досягне майже 80 мільярдів доларів протягом наступних п'яти років.
Власне зростання NVIDIA: 650 Групові звіти вказують на NVIDIA як "найшвидший - зростаючий постачальник" на ринку перемикачів центрів даних 2024 року, коли його дохід в мережі досягає 5 мільярдів доларів у Q 2 2024 (закінчення 27 квітня), на 56% року - над -.
Запуск спектру - xgs розширює повну - стратегічну стратегію стека в інфраструктурі AI, в той час як іскрить нову конкурентну динаміку:
Повна -: Від gpus (blackwell), interconnects (nvlink/nvlink switch), мережі (спектр - x/spectrum - xgs, Quantum - x infiniband) до програмного забезпечення (cuda, tensorrt - llm Закритий цикл, що охоплює "Обчислення - Підключення - Програмне забезпечення" для інфраструктури AI. Spectrum-XGS synergizes with NVLink for three-level scaling: intra-rack (NVLink), intra-data-center (Spectrum-X), and cross-data-center (Спектр - xgs).
Відповіді конкурентів: Попередня технологія Sue Broadcom поділяє подібні цілі з спектром - xgs, спрямований на оптимізацію продуктивності Ethernet, щоб закрити розрив з Infiniband. Крім того, такі постачальники, як Arista, Cisco та Marvell, прискорюють AI - виділені комутатори Ethernet, а конкуренція зосереджується на продуктивності - вартістю - сумісності екосистеми.
Основне значення спектру - xgs полягає у натисканні масштабування центру даних AI від "одиночного - обмеження сайту" до "Cross - Регіональна співпраця." По мірі того, як влада та земля стають важкими межами для одиночних центрів обробки даних, Cross - місто та Cross - Країна AI Super Faitors стане основною формою, що підтримує наступна - програми AI Generation AI (наприклад, загальний штучний інтелект, великі - масштабні класники агента).
Оскільки старший віце -президент відділу мережі NVIDIA Гіллад Шейнер попередньо переглянув на конференції Hot Chips: "Cross - Дані - Центр -волоконно -оптичні фізичні мережі давно існують, але алгоритми програмного забезпечення, такі як спектр - xgs, є ключовими для розблокування істинної продуктивності.