Nvidia DGX

NVIDIA DGX — это серия серверов и рабочих станций, разработанная и производимая корпорацией NVIDIA Corporation, которые специализируются на использовании ускорителей GPGPU-вычислений для ускорения приложений глубокого обучения систем искусственного интеллекта.

Модельный ряд

Поколение Pascal — Volta

Nvidia DGX-1

Первая модель HPC-сервера Nvidia DGX-1 была анонсированная 6 апреля 2016 года^[1]. И имела 8 профессиональных карт расширения NVIDIA Tesla P100 / V100 c графическими процессорами класса Server/Datacenter на базе с микроархитектур Pascal или Volta^[2] с общей набортной памятью HBM2 объёмом 128 ГБ, подключенных через высокоскоростную шину NVLink^[3].

Серия продуктов предназначена для преодоления разрыва между графическими процессорами и ускорителями искусственного интеллекта, поскольку устройство имеет особые как аппаратные так и программные функции, которые позволяют ему ускорять процессы глубокого обучения (частью методов машинного обучения искусственного интеллекта)^[4].

Первоначальный DGX-1 на базе микроархитектуры Pascal обеспечивал 170 терафлопс обработки данных половинной точности^[5], а модернизация на базе Volta увеличила эту производительность до 1000 терафлопс^[6].

Представленный в мае 2017 года Nvidia DGX-1 второго поколения содержит 2 ЦПУ Intel Xeon E5 и 8 GPU Nvidia Tesla V100 на базе микроархитектуры Volta (5120 тензорных ядер), связанных через быструю шину NVLink^[7]. Он имеет специализированную архитектуру памяти^[англ.], которая является особенно подходящей для построения сетей глубокого обучения^[8]^[9].

Технические характеристики

2 × ЦПУ Intel Xeon E5;
512 ГБ OЗУ DDR4-2133;
8 × GPU NVIDIA Tesla P100 / V100 с общим объемом HBM2 памяти 128 ГБ;
2 × сетевые карты 10 ГБ Ethernet;
4 × твердотельных накопителя по 1,92 ТБ;
3200 Вт комбинированной мощности источника питания;
Стоечный корпус 3U.

Nvidia DGX-2

В конце марта 2018 года была продемонстрировано новое поколение HPC-серверов Nvidia DGX-2^[10]^[11] с более высокой производительностью до 2 петафлопс и с использованием новых технологий, такими как NVSwitch^[англ.]^[12].

Nvidia DGX Station

Nvidia DGX Station — это рабочие станции с профессиональными картами расширения NVIDIA Tesla P100 / V100 на базе микроархитектур Pascal или Volta.

Поколение Ampere

Nvidia DGX A100 Server

В мае 2020 года был анонсирован Nvidia DGX A100 Server^[13] — это новое поколение HPC-серверов с профессиональными GPGPU-ускорителями NVIDIA A100 на базе микроархитектуры Ampere^[14].

Технические характеристики

DGX A100 Server содержит:

2 x ЦПУ 64-ядерные AMD EPYC;
2 Тбайт OЗУ;
8 × GPU A100 с общим объемом HBM2e памяти 320 или 640 Гб;
до 10 × 200 Гбит/с InfiniBand/Ethernet-коммутатор ConnectX-7;
6 NVIDIA NVSwitch^[англ.] пропускная способность 4,8 ТБ/с, что вдвое выше, чем в предыдущем поколении;
Высокоскоростное хранилище 30 Тбайт NVMe SSD Gen4.

Nvidia DGX Station A100

Nvidia DGX Station A100 — это рабочие станции с профессиональными картами расширения NVIDIA A100 на базе микроархитектуры Ampere.

Поколение Hopper

Nvidia DGX H100 Server

В марте 2022 года был анонсирован Nvidia DGX H100 Server^[15] — это очередное поколение HPC-серверов с профессиональными GPGPU-ускорителями NVIDIA H100 на базе микроархитектуры Hopper^[16].

Технические характеристики

DGX H100 Server содержит:

2 x ЦПУ Intel Xeon Sapphire Rapids^[англ.]^[17];
2 Тбайт OЗУ;
8 × GPU H100 с общим объемом HBM3 памяти 640 Гб;
2 × DPU^[англ.] BlueField^[англ.]-3;
8 × 400 Гбит/с InfiniBand/Ethernet-коммутатор ConnectX-7;
Высокоскоростное хранилище 30 Тбайт NVMe SSD.

Nvidia DGX GH200 AI Supercomputer

В конце мая 2023 года Nvidia анонсировала, что в конце 2023 года корпоративным заказчикам станет доступна новая HPC-платформа DGX GH200 AI Supercomputer, в которой используются 256 суперчипов GH200 Grace Hopper (72-ядерный ARM-процессор + GPGPU-ускоритель H100), объединённых при помощи технологии NVLink Switch System позволяющей всем ускорителям NVIDIA H100 в составе системы функционировать в качестве единого целого. Производительность этой платформы обещана на уровне 1 Эфлопс (~ 9 Пфлопс FP64), а суммарный объём памяти достигает 144 Тбайт — и это почти в 500 раз больше, чем в одной системе предыдущего поколения Nvidia DGX A100^[18]^[19].

Суперкомпьютеры

Nvidia DGX SuperPod

В октябре 2020 года Nvidia анонсировала для корпоративных предприятий решение NVIDIA DGX SuperPOD — суперкомпьютер который имеет размер кластера от 20 до 140 серверов NVIDIA DGX A100 Server^[20]^[21] или NVIDIA DGX H100 Server^[22].

Nvidia DGX Helios

В конце мая 2023 года Nvidia анонсировала построение NVIDIA DGX Helios — суперкомпьютера который с помощью высокоскоростной коммутируемой сети Quantum-2 InfiniBand объединит сразу четыре системы DGX GH200 AI Supercomputer и будет содержать 1024 суперчипа GH200 Grace Hopper (73728 ARM-ядер + 1024 GPGPU-ускорителя H100)^[18].

Ускорители

Сравнение ускорителей, используемых в DGX:^[23]^[24]^[25]

Ускоритель
H100
A100 80GB
A100 40GB
V100 32GB
V100 16GB
P100

Архитектура	Socket	FP32 CUDA Cores	FP64 Cores (excl. Tensor)	Mixed INT32/FP32 Cores	INT32 Cores	Максимальная частота	Частота памяти	Разрядность шины памяти	ПСП^[англ.]	VRAM	Single Precision (FP32)	Double Precision (FP64)	INT8 (non-Tensor)	INT8 Dense Tensor	INT32	FP16	FP16 Dense Tensor	bfloat16 Dense Tensor	TensorFloat-32 (TF32) Dense Tensor	FP64 Dense Tensor	Interconnect (NVLink)	GPU	L1 Cache Size	L2 Cache Size	TDP	Площадь кристалла GPU	Количество транзисторов	Техпроцесс
Hopper	SXM5	16896	4608	16896	N/A	1780 MHz	4,8 Gbit/s HBM3	5120-bit	3072 GB/sec	80GB	60 TFLOPs	30 TFLOPs	N/A	4000 TOPs	N/A	N/A	2000 TFLOPs	2000 TFLOPs	1000 TFLOPs	60 TFLOPs	900 GB/sec	GH100	25344KB(192KBx132)	51200 KB	700W	814 мм2	80 млрд	TSMC 4 нм N4
Ampere	SXM4	6912	3456	6912	N/A	1410 MHz	3,2 Gbit/s HBM2	5120-bit	2039 GB/sec	80GB	19.5 TFLOPs	9.7 TFLOPs	N/A	624 TOPs	19.5 TOPs	78 TFLOPs	312 TFLOPs	312 TFLOPs	156 TFLOPs	19.5 TFLOPs	600 GB/sec	GA100	20736KB(192KBx108)	40960 KB	400W	826 мм2	54,2 млрд	TSMC 7 нм N7
Ampere	SXM4	6912	3456	6912	N/A	1410 MHz	2,4 Gbit/s HBM2	5120-bit	1555 GB/sec	40GB	19.5 TFLOPs	9.7 TFLOPs	N/A	624 TOPs	19.5 TOPs	78 TFLOPs	312 TFLOPs	312 TFLOPs	156 TFLOPs	19.5 TFLOPs	600 GB/sec	GA100	20736KB(192KBx108)	40960 KB	400W	826 мм2	54,2 млрд	TSMC 7 нм N7
Volta	SXM3	5120	2560	N/A	5120	1530 MHz	1,75 Gbit/s HBM2	4096-bit	900 GB/sec	32GB	15.7 TFLOPs	7.8 TFLOPs	62 TOPs	N/A	15.7 TOPs	31.4 TFLOPs	125 TFLOPs	N/A	N/A	N/A	300 GB/sec	GV100	10240KB(128KBx80)	6144 KB	350W	815 мм2	21,1 млрд	TSMC 12 нм FFN
Volta	SXM2	5120	2560	N/A	5120	1530 MHz	1,75 Gbit/s HBM2	4096-bit	900 GB/sec	16GB	15.7 TFLOPs	7.8 TFLOPs	62 TOPs	N/A	15.7 TOPs	31.4 TFLOPs	125 TFLOPs	N/A	N/A	N/A	300 GB/sec	GV100	10240KB(128KBx80)	6144 KB	300W	815 мм2	21,1 млрд	TSMC 12 нм FFN
Pascal	SXM/SXM2	N/A	1792	3584	N/A	1480 MHz	1,4 Gbit/s HBM2	4096-bit	720 GB/sec	16GB	10.6 TFLOPs	5.3 TFLOPs	N/A	N/A	N/A	21.2 TFLOPs	N/A	N/A	N/A	N/A	160 GB/sec	GP100	1344KB(24KBx56)	4096 KB	300W	610 мм2	15,3 млрд	TSMC 16 нм FinFET+

Примечания

↑ NVIDIA Unveils the DGX-1 HPC Server: 8 Teslas, 3U, Q2 2016 (англ.). AnandTech. (6 апреля 2016). Дата обращения: 21 сентября 2023. Архивировано 16 июля 2023 года.
↑ The NVIDIA DGX-1 Deep Learning System (англ.). Официальный сайт NVIDIA Corporation. Дата обращения: 21 сентября 2023. Архивировано 1 июня 2023 года.
↑ Inside Pascal: NVIDIA’s Newest Computing Platform (англ.). Официальный сайт NVIDIA Corporation. — «Eight GPU hybrid cube mesh architecture with NVLink». Дата обращения: 21 сентября 2023. Архивировано 7 мая 2017 года.
↑ NVIDIA's insane DGX-1 is a computer tailor-made for deep learning (англ.). Engadget. (19 июля 2019). Дата обращения: 21 сентября 2023. Архивировано 19 сентября 2023 года.
↑ DGX-1 deep learning system (неопр.). — «NVIDIA DGX-1 Delivers 75X Faster Training...Note: Caffe benchmark with AlexNet, training 1.28M images with 90 epochs». Дата обращения: 22 сентября 2023. Архивировано 19 сентября 2023 года.
↑ NVIDIA DGX-1 (рус.). DGX-systems.ru. Дата обращения: 21 сентября 2023. Архивировано 4 июля 2022 года.
↑ Эра NVIDIA Volta началась с ускорителя Tesla V100 (неопр.). Servernews. (11 мая 2017). Дата обращения: 17 ноября 2017. Архивировано 1 декабря 2017 года.
↑ GTC Europe 2017: библиотека NVIDIA TensoRT 3 ускоряет работу нейросетей в 18 раз по сравнению с универсальным решением (неопр.). Servernews. (12 октября 2017). Дата обращения: 17 ноября 2017. Архивировано 17 ноября 2017 года.
↑ Новый российский суперкомпьютер предназначен для обучения нейросетей (неопр.). Servernews. (1 сентября 2017). Дата обращения: 17 ноября 2017. Архивировано 17 ноября 2017 года.
↑ NVIDIA’S DGX-2 SYSTEM PACKS AN AI PERFORMANCE PUNCH (англ.). The Next Platform. (28 марта 2018). Дата обращения: 21 сентября 2023. Архивировано 30 марта 2023 года.
↑ NVIDIA DGX-2 (рус.). DGX-systems.ru. Дата обращения: 21 сентября 2023. Архивировано 4 июля 2022 года.
↑ Тайны коммутатора NVIDIA NVSwitch (рус.). ServerNews. (10 апреля 2018). Дата обращения: 21 сентября 2023. Архивировано 28 мая 2023 года.
↑ NVIDIA представила ускорители A100 с архитектурой Ampere и систему DGX A100 на их основе (рус.). ServerNews. (14 мая 2020). Дата обращения: 21 сентября 2023. Архивировано 5 июля 2023 года.
↑ NVIDIA DGX A100 (неопр.). Официальный сайт NVIDIA Corporation. Дата обращения: 18 сентября 2023. Архивировано 21 марта 2023 года.
↑ NVIDIA анонсировала 4-нм ускорители Hopper H100 и самый быстрый в мире ИИ-суперкомпьютер EOS на базе DGX H100 (рус.). ServerNews. (22 марта 2022). Дата обращения: 21 сентября 2023. Архивировано 20 сентября 2023 года.
↑ NVIDIA DGX H100 (неопр.). Официальный сайт NVIDIA Corporation. Дата обращения: 18 сентября 2023. Архивировано 24 августа 2023 года.
↑ NVIDIA выбрала процессоры Intel Xeon Sapphire Rapids для своих топовых систем DGX H100 (рус.). ServerNews. (8 июня 2022). Дата обращения: 21 сентября 2023. Архивировано 1 июня 2023 года.
↑ ¹ ² NVIDIA представила 1-Эфлопс ИИ-суперкомпьютер DGX GH200: 256 суперчипов Grace Hopper и 144 Тбайт памяти (неопр.). ServerNews. (29 мая 2023). Дата обращения: 18 сентября 2023. Архивировано 30 августа 2023 года.
↑ DGX GH200: cуперкомпьютер Nvidia для искусственного интеллекта (неопр.). «Открытые системы». (5 июня 2023). Дата обращения: 18 сентября 2023. Архивировано 5 июня 2023 года.
↑ NVIDIA представляет готовые модули NVIDIA DGX SuperPOD от сертифицированных партнеров (неопр.). Overclockers.ru (6 октября 2020). Дата обращения: 21 сентября 2023. Архивировано 27 июля 2021 года.
↑ NVIDIA DGX SUPERPOD ДЛЯ ПРЕДПРИЯТИЙ (рус.). Forsite-company.ru. Дата обращения: 21 сентября 2023. Архивировано 29 марта 2023 года.
↑ NVIDIA DGX SuperPOD (неопр.). Официальный сайт NVIDIA Corporation. Дата обращения: 21 сентября 2023. Архивировано 13 июля 2023 года.
↑ Smith, Ryan (2022-03-22). "NVIDIA Hopper GPU Architecture and H100 Accelerator Announced: Working Smarter and Harder". AnandTech. Архивировано 23 сентября 2023. Дата обращения: 23 сентября 2023.
↑ Smith, Ryan (2020-05-14). "NVIDIA Ampere Unleashed: NVIDIA Announces New GPU Architecture, A100 GPU, and Accelerator". AnandTech. Архивировано 24 июля 2023. Дата обращения: 23 сентября 2023.
↑ NVIDIA Tesla V100 tested: near unbelievable GPU power (неопр.). TweakTown (17 сентября 2017). Дата обращения: 23 сентября 2023. Архивировано 6 апреля 2023 года.

Ссылки

Системы NVIDIA DGX (англ.). Официальный сайт NVIDIA Corporation. Дата обращения: 21 сентября 2023.

[1] NVIDIA Unveils the DGX-1 HPC Server: 8 Teslas, 3U, Q2 2016 (англ.). AnandTech. (6 апреля 2016). Дата обращения: 21 сентября 2023. Архивировано 16 июля 2023 года.

[2] The NVIDIA DGX-1 Deep Learning System (англ.). Официальный сайт NVIDIA Corporation. Дата обращения: 21 сентября 2023. Архивировано 1 июня 2023 года.

[3] Inside Pascal: NVIDIA’s Newest Computing Platform (англ.). Официальный сайт NVIDIA Corporation. — «Eight GPU hybrid cube mesh architecture with NVLink». Дата обращения: 21 сентября 2023. Архивировано 7 мая 2017 года.

[4] NVIDIA's insane DGX-1 is a computer tailor-made for deep learning (англ.). Engadget. (19 июля 2019). Дата обращения: 21 сентября 2023. Архивировано 19 сентября 2023 года.

[5] DGX-1 deep learning system (неопр.). — «NVIDIA DGX-1 Delivers 75X Faster Training...Note: Caffe benchmark with AlexNet, training 1.28M images with 90 epochs». Дата обращения: 22 сентября 2023. Архивировано 19 сентября 2023 года.

[6] NVIDIA DGX-1 (рус.). DGX-systems.ru. Дата обращения: 21 сентября 2023. Архивировано 4 июля 2022 года.

[7] Эра NVIDIA Volta началась с ускорителя Tesla V100 (неопр.). Servernews. (11 мая 2017). Дата обращения: 17 ноября 2017. Архивировано 1 декабря 2017 года.

[8] GTC Europe 2017: библиотека NVIDIA TensoRT 3 ускоряет работу нейросетей в 18 раз по сравнению с универсальным решением (неопр.). Servernews. (12 октября 2017). Дата обращения: 17 ноября 2017. Архивировано 17 ноября 2017 года.

[9] Новый российский суперкомпьютер предназначен для обучения нейросетей (неопр.). Servernews. (1 сентября 2017). Дата обращения: 17 ноября 2017. Архивировано 17 ноября 2017 года.

[10] NVIDIA’S DGX-2 SYSTEM PACKS AN AI PERFORMANCE PUNCH (англ.). The Next Platform. (28 марта 2018). Дата обращения: 21 сентября 2023. Архивировано 30 марта 2023 года.

[11] NVIDIA DGX-2 (рус.). DGX-systems.ru. Дата обращения: 21 сентября 2023. Архивировано 4 июля 2022 года.

[12] Тайны коммутатора NVIDIA NVSwitch (рус.). ServerNews. (10 апреля 2018). Дата обращения: 21 сентября 2023. Архивировано 28 мая 2023 года.

[13] NVIDIA представила ускорители A100 с архитектурой Ampere и систему DGX A100 на их основе (рус.). ServerNews. (14 мая 2020). Дата обращения: 21 сентября 2023. Архивировано 5 июля 2023 года.

[14] NVIDIA DGX A100 (неопр.). Официальный сайт NVIDIA Corporation. Дата обращения: 18 сентября 2023. Архивировано 21 марта 2023 года.

[15] NVIDIA анонсировала 4-нм ускорители Hopper H100 и самый быстрый в мире ИИ-суперкомпьютер EOS на базе DGX H100 (рус.). ServerNews. (22 марта 2022). Дата обращения: 21 сентября 2023. Архивировано 20 сентября 2023 года.

[16] NVIDIA DGX H100 (неопр.). Официальный сайт NVIDIA Corporation. Дата обращения: 18 сентября 2023. Архивировано 24 августа 2023 года.

[17] NVIDIA выбрала процессоры Intel Xeon Sapphire Rapids для своих топовых систем DGX H100 (рус.). ServerNews. (8 июня 2022). Дата обращения: 21 сентября 2023. Архивировано 1 июня 2023 года.

[snews22-18] ¹ ² NVIDIA представила 1-Эфлопс ИИ-суперкомпьютер DGX GH200: 256 суперчипов Grace Hopper и 144 Тбайт памяти (неопр.). ServerNews. (29 мая 2023). Дата обращения: 18 сентября 2023. Архивировано 30 августа 2023 года.

[19] DGX GH200: cуперкомпьютер Nvidia для искусственного интеллекта (неопр.). «Открытые системы». (5 июня 2023). Дата обращения: 18 сентября 2023. Архивировано 5 июня 2023 года.

[20] NVIDIA представляет готовые модули NVIDIA DGX SuperPOD от сертифицированных партнеров (неопр.). Overclockers.ru (6 октября 2020). Дата обращения: 21 сентября 2023. Архивировано 27 июля 2021 года.

[21] NVIDIA DGX SUPERPOD ДЛЯ ПРЕДПРИЯТИЙ (рус.). Forsite-company.ru. Дата обращения: 21 сентября 2023. Архивировано 29 марта 2023 года.

[22] NVIDIA DGX SuperPOD (неопр.). Официальный сайт NVIDIA Corporation. Дата обращения: 21 сентября 2023. Архивировано 13 июля 2023 года.

[23] Smith, Ryan (2022-03-22). "NVIDIA Hopper GPU Architecture and H100 Accelerator Announced: Working Smarter and Harder". AnandTech. Архивировано 23 сентября 2023. Дата обращения: 23 сентября 2023.

[24] Smith, Ryan (2020-05-14). "NVIDIA Ampere Unleashed: NVIDIA Announces New GPU Architecture, A100 GPU, and Accelerator". AnandTech. Архивировано 24 июля 2023. Дата обращения: 23 сентября 2023.

[25] NVIDIA Tesla V100 tested: near unbelievable GPU power (неопр.). TweakTown (17 сентября 2017). Дата обращения: 23 сентября 2023. Архивировано 6 апреля 2023 года.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]