Архитектура Vera+Rubin и HBM4: что меняется для ИИ
Vera Rubin Superchip — ответ NVIDIA на рост ИИ-кластеров. Центральный Vera на Arm-ядрах сопряжён с парой Rubin по NVLINK-C2C (до 1,8 ТБ/с), а стеки HBM4 физически «подведены» к GPU для повышения пропускной и снижения латентности. Один Rubin (2 чиплета) заявляет до 50 петациклов/с в FP4 при 288 ГБ HBM4 на кристалл. Планы: серийный выпуск в 2026 г., а в масштабе стойки — NVL144 с приростом производительности до ~3,3× относительно GB300 NVL72. Дальше — Rubin Ultra NVL576 (вторая половина 2027 г.) с четырьмя ускорителями, ~1 ТБ HBM4e на GPU, целевыми ~15 EF (FP4) и ~5 EF (FP8), суммарно 365 ТБ высокоскоростной памяти и сетевым «полотном» NVLINK порядка 1,5 ПБ/с. Разбираем практику: зачем FP4/FP8 в инференсе и обучении, где критично масштабирование NVLINK, как сказывается перенос памяти к вычислениям, чего потребуют стойки по питанию и охлаждению, и в каких задачах (генерация, ранжирование, мультимодальность, RLHF-циклы) такие конфигурации дадут максимальный выигрыш. Итог: это не просто «больше терафлопс», а перестройка топологии ЦОД — к объединению памяти, плотным межсоединениям и модульности вычислений. #VeraPlusRubin #HBM4e #NVL144платформа #NVLINKсеть #FP4режим #FP8режим #архитектураИИ #вычислительныекластеры #памятьирядом #новоепоколение
Vera Rubin Superchip — ответ NVIDIA на рост ИИ-кластеров. Центральный Vera на Arm-ядрах сопряжён с парой Rubin по NVLINK-C2C (до 1,8 ТБ/с), а стеки HBM4 физически «подведены» к GPU для повышения пропускной и снижения латентности. Один Rubin (2 чиплета) заявляет до 50 петациклов/с в FP4 при 288 ГБ HBM4 на кристалл. Планы: серийный выпуск в 2026 г., а в масштабе стойки — NVL144 с приростом производительности до ~3,3× относительно GB300 NVL72. Дальше — Rubin Ultra NVL576 (вторая половина 2027 г.) с четырьмя ускорителями, ~1 ТБ HBM4e на GPU, целевыми ~15 EF (FP4) и ~5 EF (FP8), суммарно 365 ТБ высокоскоростной памяти и сетевым «полотном» NVLINK порядка 1,5 ПБ/с. Разбираем практику: зачем FP4/FP8 в инференсе и обучении, где критично масштабирование NVLINK, как сказывается перенос памяти к вычислениям, чего потребуют стойки по питанию и охлаждению, и в каких задачах (генерация, ранжирование, мультимодальность, RLHF-циклы) такие конфигурации дадут максимальный выигрыш. Итог: это не просто «больше терафлопс», а перестройка топологии ЦОД — к объединению памяти, плотным межсоединениям и модульности вычислений. #VeraPlusRubin #HBM4e #NVL144платформа #NVLINKсеть #FP4режим #FP8режим #архитектураИИ #вычислительныекластеры #памятьирядом #новоепоколение
