Nvidia DGX

Из Википедии, бесплатной энциклопедии

Суперкомпьютер NVIDIA DGX.

NVIDIA DGX — это серия серверов и рабочих станций, разработанная и производимая корпорацией NVIDIA Corporation, которые специализируются на использовании ускорителей GPGPU-вычислений для ускорения приложений глубокого обучения систем искусственного интеллекта.

Модельный ряд

[править | править код]

Поколение Pascal — Volta

[править | править код]

Первая модель HPC-сервера Nvidia DGX-1 была анонсированная 6 апреля 2016 года[1]. И имела 8 профессиональных карт расширения NVIDIA Tesla P100 / V100 c графическими процессорами класса Server/Datacenter на базе с микроархитектур Pascal или Volta[2] с общей набортной памятью HBM2 объёмом 128 ГБ, подключенных через высокоскоростную шину NVLink[3].

Серия продуктов предназначена для преодоления разрыва между графическими процессорами и ускорителями искусственного интеллекта, поскольку устройство имеет особые как аппаратные так и программные функции, которые позволяют ему ускорять процессы глубокого обучения (частью методов машинного обучения искусственного интеллекта)[4].

Первоначальный DGX-1 на базе микроархитектуры Pascal обеспечивал 170 терафлопс обработки данных половинной точности[5], а модернизация на базе Volta увеличила эту производительность до 1000 терафлопс[6].

Представленный в мае 2017 года Nvidia DGX-1 второго поколения содержит 2 ЦПУ Intel Xeon E5 и 8 GPU Nvidia Tesla V100 на базе микроархитектуры Volta (5120 тензорных ядер), связанных через быструю шину NVLink[7]. Он имеет специализированную архитектуру памяти[англ.], которая является особенно подходящей для построения сетей глубокого обучения[8][9].

Технические характеристики

В конце марта 2018 года была продемонстрировано новое поколение HPC-серверов Nvidia DGX-2[10][11] с более высокой производительностью до 2 петафлопс и с использованием новых технологий, такими как NVSwitch[англ.][12].

Nvidia DGX Station — это рабочие станции с профессиональными картами расширения NVIDIA Tesla P100 / V100 на базе микроархитектур Pascal или Volta.

Поколение Ampere

[править | править код]

Nvidia DGX A100 Server

[править | править код]

В мае 2020 года был анонсирован Nvidia DGX A100 Server[13] — это новое поколение HPC-серверов с профессиональными GPGPU-ускорителями NVIDIA A100 на базе микроархитектуры Ampere[14].

Технические характеристики

DGX A100 Server содержит:

Nvidia DGX Station A100

[править | править код]

Nvidia DGX Station A100 — это рабочие станции с профессиональными картами расширения NVIDIA A100 на базе микроархитектуры Ampere.

Поколение Hopper

[править | править код]

Nvidia DGX H100 Server

[править | править код]

В марте 2022 года был анонсирован Nvidia DGX H100 Server[15] — это очередное поколение HPC-серверов с профессиональными GPGPU-ускорителями NVIDIA H100 на базе микроархитектуры Hopper[16].

Технические характеристики

DGX H100 Server содержит:

Nvidia DGX GH200 AI Supercomputer

[править | править код]

В конце мая 2023 года Nvidia анонсировала, что в конце 2023 года корпоративным заказчикам станет доступна новая HPC-платформа DGX GH200 AI Supercomputer, в которой используются 256 суперчипов GH200 Grace Hopper (72-ядерный ARM-процессор + GPGPU-ускоритель H100), объединённых при помощи технологии NVLink Switch System позволяющей всем ускорителям NVIDIA H100 в составе системы функционировать в качестве единого целого. Производительность этой платформы обещана на уровне 1 Эфлопс (~ 9 Пфлопс FP64), а суммарный объём памяти достигает 144 Тбайт — и это почти в 500 раз больше, чем в одной системе предыдущего поколения Nvidia DGX A100[18][19].

Суперкомпьютеры

[править | править код]

Nvidia DGX SuperPod

[править | править код]

В октябре 2020 года Nvidia анонсировала для корпоративных предприятий решение NVIDIA DGX SuperPOD — суперкомпьютер который имеет размер кластера от 20 до 140 серверов NVIDIA DGX A100 Server[20][21] или NVIDIA DGX H100 Server[22].

В конце мая 2023 года Nvidia анонсировала построение NVIDIA DGX Helios — суперкомпьютера который с помощью высокоскоростной коммутируемой сети Quantum-2 InfiniBand объединит сразу четыре системы DGX GH200 AI Supercomputer и будет содержать 1024 суперчипа GH200 Grace Hopper (73728 ARM-ядер + 1024 GPGPU-ускорителя H100)[18].

Ускорители

[править | править код]

Сравнение ускорителей, используемых в DGX:[23][24][25]



Ускоритель
H100​
A100 80GB​
A100 40GB​
V100 32GB​
V100 16GB​
P100
Архитектура Socket FP32
CUDA
Cores
FP64 Cores
(excl. Tensor)
Mixed
INT32/FP32
Cores
INT32
Cores
Максимальная
частота
Частота
памяти
Разрядность
шины памяти
ПСП[англ.] VRAM Single
Precision
(FP32)
Double
Precision
(FP64)
INT8
(non-Tensor)
INT8
Dense Tensor
INT32 FP16 FP16
Dense Tensor
bfloat16
Dense Tensor
TensorFloat-32
(TF32)
Dense Tensor
FP64
Dense Tensor
Interconnect
(NVLink)
GPU L1 Cache Size L2 Cache Size TDP Площадь
кристалла
GPU
Количество
транзисторов
Техпроцесс
Hopper SXM5 16896 4608 16896 N/A 1780 MHz 4,8 Gbit/s HBM3 5120-bit 3072 GB/sec 80GB 60 TFLOPs 30 TFLOPs N/A 4000 TOPs N/A N/A 2000 TFLOPs 2000 TFLOPs 1000 TFLOPs 60 TFLOPs 900 GB/sec GH100 25344KB(192KBx132) 51200 KB 700W 814 мм2 80 млрд TSMC 4 нм N4
Ampere SXM4 6912 3456 6912 N/A 1410 MHz 3,2 Gbit/s HBM2 5120-bit 2039 GB/sec 80GB 19.5 TFLOPs 9.7 TFLOPs N/A 624 TOPs 19.5 TOPs 78 TFLOPs 312 TFLOPs 312 TFLOPs 156 TFLOPs 19.5 TFLOPs 600 GB/sec GA100 20736KB(192KBx108) 40960 KB 400W 826 мм2 54,2 млрд TSMC 7 нм N7
Ampere SXM4 6912 3456 6912 N/A 1410 MHz 2,4 Gbit/s HBM2 5120-bit 1555 GB/sec 40GB 19.5 TFLOPs 9.7 TFLOPs N/A 624 TOPs 19.5 TOPs 78 TFLOPs 312 TFLOPs 312 TFLOPs 156 TFLOPs 19.5 TFLOPs 600 GB/sec GA100 20736KB(192KBx108) 40960 KB 400W 826 мм2 54,2 млрд TSMC 7 нм N7
Volta SXM3 5120 2560 N/A 5120 1530 MHz 1,75 Gbit/s HBM2 4096-bit 900 GB/sec 32GB 15.7 TFLOPs 7.8 TFLOPs 62 TOPs N/A 15.7 TOPs 31.4 TFLOPs 125 TFLOPs N/A N/A N/A 300 GB/sec GV100 10240KB(128KBx80) 6144 KB 350W 815 мм2 21,1 млрд TSMC 12 нм FFN
Volta SXM2 5120 2560 N/A 5120 1530 MHz 1,75 Gbit/s HBM2 4096-bit 900 GB/sec 16GB 15.7 TFLOPs 7.8 TFLOPs 62 TOPs N/A 15.7 TOPs 31.4 TFLOPs 125 TFLOPs N/A N/A N/A 300 GB/sec GV100 10240KB(128KBx80) 6144 KB 300W 815 мм2 21,1 млрд TSMC 12 нм FFN
Pascal SXM/SXM2 N/A 1792 3584 N/A 1480 MHz 1,4 Gbit/s HBM2 4096-bit 720 GB/sec 16GB 10.6 TFLOPs 5.3 TFLOPs N/A N/A N/A 21.2 TFLOPs N/A N/A N/A N/A 160 GB/sec GP100 1344KB(24KBx56) 4096 KB 300W 610 мм2 15,3 млрд TSMC 16 нм FinFET+

Примечания

[править | править код]
  1. NVIDIA Unveils the DGX-1 HPC Server: 8 Teslas, 3U, Q2 2016 (англ.). AnandTech. (6 апреля 2016). Дата обращения: 21 сентября 2023. Архивировано 16 июля 2023 года.
  2. The NVIDIA DGX-1 Deep Learning System (англ.). Официальный сайт NVIDIA Corporation. Дата обращения: 21 сентября 2023. Архивировано 1 июня 2023 года.
  3. Inside Pascal: NVIDIA’s Newest Computing Platform (англ.). Официальный сайт NVIDIA Corporation. — «Eight GPU hybrid cube mesh architecture with NVLink». Дата обращения: 21 сентября 2023. Архивировано 7 мая 2017 года.
  4. NVIDIA's insane DGX-1 is a computer tailor-made for deep learning (англ.). Engadget. (19 июля 2019). Дата обращения: 21 сентября 2023. Архивировано 19 сентября 2023 года.
  5. DGX-1 deep learning system. — «NVIDIA DGX-1 Delivers 75X Faster Training...Note: Caffe benchmark with AlexNet, training 1.28M images with 90 epochs». Дата обращения: 22 сентября 2023. Архивировано 19 сентября 2023 года.
  6. NVIDIA DGX-1 (рус.). DGX-systems.ru. Дата обращения: 21 сентября 2023. Архивировано 4 июля 2022 года.
  7. Эра NVIDIA Volta началась с ускорителя Tesla V100. Servernews. (11 мая 2017). Дата обращения: 17 ноября 2017. Архивировано 1 декабря 2017 года.
  8. GTC Europe 2017: библиотека NVIDIA TensoRT 3 ускоряет работу нейросетей в 18 раз по сравнению с универсальным решением. Servernews. (12 октября 2017). Дата обращения: 17 ноября 2017. Архивировано 17 ноября 2017 года.
  9. Новый российский суперкомпьютер предназначен для обучения нейросетей. Servernews. (1 сентября 2017). Дата обращения: 17 ноября 2017. Архивировано 17 ноября 2017 года.
  10. NVIDIA’S DGX-2 SYSTEM PACKS AN AI PERFORMANCE PUNCH (англ.). The Next Platform. (28 марта 2018). Дата обращения: 21 сентября 2023. Архивировано 30 марта 2023 года.
  11. NVIDIA DGX-2 (рус.). DGX-systems.ru. Дата обращения: 21 сентября 2023. Архивировано 4 июля 2022 года.
  12. Тайны коммутатора NVIDIA NVSwitch (рус.). ServerNews. (10 апреля 2018). Дата обращения: 21 сентября 2023. Архивировано 28 мая 2023 года.
  13. NVIDIA представила ускорители A100 с архитектурой Ampere и систему DGX A100 на их основе (рус.). ServerNews. (14 мая 2020). Дата обращения: 21 сентября 2023. Архивировано 5 июля 2023 года.
  14. NVIDIA DGX A100. Официальный сайт NVIDIA Corporation. Дата обращения: 18 сентября 2023. Архивировано 21 марта 2023 года.
  15. NVIDIA анонсировала 4-нм ускорители Hopper H100 и самый быстрый в мире ИИ-суперкомпьютер EOS на базе DGX H100 (рус.). ServerNews. (22 марта 2022). Дата обращения: 21 сентября 2023. Архивировано 20 сентября 2023 года.
  16. NVIDIA DGX H100. Официальный сайт NVIDIA Corporation. Дата обращения: 18 сентября 2023. Архивировано 24 августа 2023 года.
  17. NVIDIA выбрала процессоры Intel Xeon Sapphire Rapids для своих топовых систем DGX H100 (рус.). ServerNews. (8 июня 2022). Дата обращения: 21 сентября 2023. Архивировано 1 июня 2023 года.
  18. 1 2 NVIDIA представила 1-Эфлопс ИИ-суперкомпьютер DGX GH200: 256 суперчипов Grace Hopper и 144 Тбайт памяти. ServerNews. (29 мая 2023). Дата обращения: 18 сентября 2023. Архивировано 30 августа 2023 года.
  19. DGX GH200: cуперкомпьютер Nvidia для искусственного интеллекта. «Открытые системы». (5 июня 2023). Дата обращения: 18 сентября 2023. Архивировано 5 июня 2023 года.
  20. NVIDIA представляет готовые модули NVIDIA DGX SuperPOD от сертифицированных партнеров. Overclockers.ru (6 октября 2020). Дата обращения: 21 сентября 2023. Архивировано 27 июля 2021 года.
  21. NVIDIA DGX SUPERPOD ДЛЯ ПРЕДПРИЯТИЙ (рус.). Forsite-company.ru. Дата обращения: 21 сентября 2023. Архивировано 29 марта 2023 года.
  22. NVIDIA DGX SuperPOD. Официальный сайт NVIDIA Corporation. Дата обращения: 21 сентября 2023. Архивировано 13 июля 2023 года.
  23. Smith, Ryan (2022-03-22). "NVIDIA Hopper GPU Architecture and H100 Accelerator Announced: Working Smarter and Harder". AnandTech. Архивировано 23 сентября 2023. Дата обращения: 23 сентября 2023.
  24. Smith, Ryan (2020-05-14). "NVIDIA Ampere Unleashed: NVIDIA Announces New GPU Architecture, A100 GPU, and Accelerator". AnandTech. Архивировано 24 июля 2023. Дата обращения: 23 сентября 2023.
  25. NVIDIA Tesla V100 tested: near unbelievable GPU power. TweakTown (17 сентября 2017). Дата обращения: 23 сентября 2023. Архивировано 6 апреля 2023 года.
  • Системы NVIDIA DGX (англ.). Официальный сайт NVIDIA Corporation. Дата обращения: 21 сентября 2023.