Еще в 1990-х NVIDIA начала продавать графические адаптеры для настольных ПК. После неудачного старта с NV1, NVIDIA вскоре зарекомендовала себя как лидер по производительности с выпуском чипа TwiN-Texel (TNT) и оригинальной GeForce 256, а также как технологический лидер.
Теперь это все древняя история, но факты не изменились: NVIDIA — крупнейший в мире производитель дискретных графических процессоров. Люди обычно говорят просто «графические процессоры», но с годами это название стало немного ироничным. Team Green, конечно, по-прежнему продает много графических чипов, но большая часть ее доходов поступает от перепрофилирования этих «GPU» в качестве ускорителей массовых параллельных вычислений. На самом деле можно обоснованно утверждать, что чипы предназначены для рынка вычислений и «перепрофилированы» для графического бизнеса.
Of course, neither statement is exactly accurate, but either way, it’s true that compute workloads and graphics workloads want different things from a processor. It’s likely for this reason that it seems NVIDIA is moving away from its firm «one architecture at a time» stance toward operating at least two different designs in parallel. That’s happened in the past; look at Kepler and Maxwell , or Pascal and Volta. This time it seems more official, though; NVIDIA’s new chip seems to be a more direct replacement for Ampere in the datacenter.
Действительно, сегодня в рамках тотальной атаки на GTC NVIDIA представила свой «большой» графический процессор нового поколения Hopper H100. Те, кто следит за слухами о GPU, правильно предположат, что H100 основан на архитектуре Hopper, и если вы увлекаетесь ИИ, вам лучше сесть, потому что это очень и очень большое дело.
Новый процессор NVIDIA H100 изготовлен по технологии TSMC 4N, а его монолитная конструкция содержит около 80 миллиардов транзисторов. Чтобы представить это число в масштабе, GA100 составляет «всего» 54 миллиарда, а графический процессор GA102 в GeForce RTX 3090 — ничтожные 28,3 миллиарда. Несмотря на то, что это такой массивный процессор, и несмотря на то, что он изготовлен на абсолютно передовой технологии микропроцессорного процесса, TDP для SXM (мезонинной) версии чипа составляет семьсот ватт. Ага, 700.
Эти головокружительные цифры приводят к столь же шокирующим сравнениям производительности. Компания утверждает, что чип H100 затмевает процессор A100 предыдущего поколения в три раза в вычислениях с двойной точностью, тензорных вычислениях с одинарной точностью и вычислениях с половинной точностью, при этом он в шесть раз быстрее в 8-битных вычислениях с плавающей запятой. .
Переход на память HBM3 повышает скорость передачи данных на вывод с 2,43 Гбит/с до 4,8 Гбит/с, но в остальном конфигурация памяти не изменилась: пять активных стеков HBM3 (с одним фиктивным), что дает общую емкость 80 ГБ на GPU и общую пропускную способность 3 ТБ. /сек. Соединение NVLink графического процессора также переходит на 4-е поколение, что обеспечивает пропускную способность 900 ГБ/с между графическим процессором и его хост-системой. Для продуктов, которые не используют NVLink , H100 также реализует PCIe 5.0.
Что касается самого графического процессора, полная реализация GH100 имеет следующие характеристики…
- 8 GPC, 72 TPC (9 TPC/GPC), 2 SM/TPC, 144 SM на полный GPU
- 128 ядер FP32 CUDA на SM, 18432 ядра FP32 CUDA на полный GPU
- 4 тензорных ядра четвертого поколения на SM, 576 на полный GPU
- 6 стеков HBM3 или HBM2e, 12 512-битных контроллеров памяти
- 60 МБ кэш-памяти второго уровня
- NVLink четвертого поколения и PCIe Gen 5
А графический процессор H100 с форм-фактором платы SXM5 может похвастаться следующими…
- 8 GPC, 66 TPC, 2 SM/TPC, 132 SM на GPU
- 128 ядер FP32 CUDA на SM, 16896 ядер FP32 CUDA на GPU
- 4 тензорных ядра четвертого поколения на SM, 528 на GPU
- 80 ГБ HBM3, 5 стеков HBM3, 10 512-битных контроллеров памяти
- 50 МБ кэш-памяти второго уровня
- NVLink четвертого поколения и PCIe Gen 5
NVIDIA также сообщила, что Hopper включает в себя новые инструкции, известные под общим названием «DPX». Эти инструкции предназначены для ускорения динамического программирования, и NVIDIA говорит, что код, использующий их, может ускориться до 40 раз, но это сравнение немного туманно; NVIDIA сравнивает четыре чипа H100 не с A100 последнего поколения, а с парой 32-ядерных процессоров Ice Lake Xeon.
Компания также заявляет, что ее вычислительные ядра включают в себя «Transformer Engine», который можно использовать для ускорения нейронных сетей типа Transformer «до 6 раз» по сравнению с Ampere. Сам «Transformer Engine» кажется рыночным языком для настроенных тензорных блоков, которые в сочетании с интеллектуальным программным обеспечением могут выполнять операции вплоть до 8-битной точности, когда более высокая точность не требуется.
По словам NVIDIA, именно эта возможность позволяет H100 достигать наибольшего прироста производительности по сравнению с A100 на базе Ampere. Для обучения модели ИИ H100, по-видимому, может увеличить пропускную способность в 9 раз. Для логического вывода ИИ выигрыш еще больше; NVIDIA утверждает, что пропускная способность каждого графического процессора с H100 в тридцать раз выше, чем у A100 с задержкой ответа в 1 секунду.
Возвращаясь на мгновение к NVLink и PCIe, последнее ответвление межсоединения NVIDIA называется NVLink-C2C. C2C означает «чип-к-чипу» и указывает, что эта версия NVLink предназначена для использования как с соединениями GPU-to-host, как в предыдущих версиях NVLink, так и между кристаллами в «расширенной упаковке».
По сути, это еще одно межсоединение, которое можно использовать между чиплетами, аналогичное (но намного более быстрое, чем) AMD Infinity Fabric. Он используется в Grace Superchip и Grace Hopper Superchip, также анонсированных сегодня, и NVIDIA заявляет, что он «открыт для полузаказной интеграции на уровне кремния с технологией NVIDIA». Между прочим , NVIDIA также поддерживает UCIe ( Universal Chiplet Interconnect Express ).
В своих релизных материалах NVIDIA неоднократно заявляла, что H100 «можно развернуть в центре обработки данных любого типа». Это связано с тем, что компания предлагает H100 в различных форм-факторах, начиная от специализированной карты расширения PCIe и заканчивая предварительно сконфигурированными чертежами суперкомпьютера с 256 графическими процессорами H100.
Самой базовой формой H100 будет мезонинная версия в форм-факторе SXM, но в качестве дополнительной карты она будет поставляться как H100 CNX «Конвергентный ускоритель». По сути, карта включает в себя графический процессор H100, а также один из двухпортовых адаптеров NVIDIA ConnectX-7 Infiniband. Графический процессор подключается к сетевой карте с помощью PCIe 5, а сетевая карта подключается к хосту с помощью PCIe Gen 4. Идея состоит в том, что для ускорителей в узле важнее иметь возможность взаимодействовать друг с другом с наименьшей задержкой и максимальной пропускной способностью. возможно.
Естественно, к этому запуску прилагается новая система DGX, получившая название DGX H100. Это четвертое поколение суперкомпьютерного модуля NVIDIA очень похоже на DGX A100 предыдущего поколения ; в основном, он заменяет восемь графических процессоров A100 на восемь ускорителей SXM H100, что дает ему полные 32 петафлопса 8-битных вычислений. Таким образом, DGX SuperPOD объединяет 32 системы DGX, что дает в общей сложности 1 экзафлоп мощности вывода ИИ.
NVIDIA заявляет, что новейший DGX SuperPOD позволит ее клиентам, использующим суперкомпьютеры, «масштабироваться настолько, насколько это необходимо, с шагом в 32 узла». Действительно, это, похоже, является основой для проекта суперкомпьютера Eos, который объединяет около 18 SuperPOD, включая 576 систем DGX H100, соединяющих вместе 4608 графических процессоров H100.
Ничего из этого, конечно же, не поступит в продажу. Несмотря на заявления NVIDIA о том, что ей нужен H100 «в любом масштабе», большинство продуктов в этом анонсе на самом деле нацелены непосредственно на правительства и крупные исследовательские организации (обычно субсидируемые правительствами), которым требуется абсолютный максимум вычислительной мощности для обработки чисел. Таким образом, NVIDIA не предоставила никаких данных о ценах. Все эти продукты находятся на территории «если вам нужно спросить, вы не можете себе это позволить».
The House That GeForce Built сообщил, что H100 уже находится в производстве, а также назвал дату выпуска этих продуктов. Если вам нужно новейшее и лучшее аппаратное обеспечение для ускорения ИИ, начните пинговать своего поставщика в третьем квартале этого года.