NVIDIA запускает Hopper H100, крупнейший в мире ускоритель ИИ и вычислений с 30-кратной производительностью A100

воронка умирает нвидиа
Еще в 1990-х NVIDIA начала продавать графические адаптеры для настольных ПК. После неудачного старта с NV1, NVIDIA вскоре зарекомендовала себя как лидер по производительности с выпуском чипа TwiN-Texel (TNT) и оригинальной GeForce 256, а также как технологический лидер.
Теперь это все древняя история, но факты не изменились: NVIDIA — крупнейший в мире производитель дискретных графических процессоров. Люди обычно говорят просто «графические процессоры», но с годами это название стало немного ироничным. Team Green, конечно, по-прежнему продает много графических чипов, но большая часть ее доходов поступает от перепрофилирования этих «GPU» в качестве ускорителей массовых параллельных вычислений. На самом деле можно обоснованно утверждать, что чипы предназначены для рынка вычислений и «перепрофилированы» для графического бизнеса.

Of course, neither statement is exactly accurate, but either way, it’s true that compute workloads and graphics workloads want different things from a processor. It’s likely for this reason that it seems NVIDIA is moving away from its firm «one architecture at a time» stance toward operating at least two different designs in parallel. That’s happened in the past; look at Kepler and Maxwell , or Pascal and Volta. This time it seems more official, though; NVIDIA’s new chip seems to be a more direct replacement for Ampere in the datacenter.

бункер sxm nvidia

Действительно, сегодня в рамках тотальной атаки на GTC NVIDIA представила свой «большой» графический процессор нового поколения Hopper H100. Те, кто следит за слухами о GPU, правильно предположат, что H100 основан на архитектуре Hopper, и если вы увлекаетесь ИИ, вам лучше сесть, потому что это очень и очень большое дело.
Слайд NVIDIA Hopper GH100

Новый процессор NVIDIA H100 изготовлен по технологии TSMC 4N, а его монолитная конструкция содержит около 80 миллиардов транзисторов. Чтобы представить это число в масштабе, GA100 составляет «всего» 54 миллиарда, а графический процессор GA102 в GeForce RTX 3090 — ничтожные 28,3 миллиарда. Несмотря на то, что это такой массивный процессор, и несмотря на то, что он изготовлен на абсолютно передовой технологии микропроцессорного процесса, TDP для SXM (мезонинной) версии чипа составляет семьсот ватт. Ага, 700.
Слайд с техническими характеристиками NVIDIA Hopper GH100

Эти головокружительные цифры приводят к столь же шокирующим сравнениям производительности. Компания утверждает, что чип H100 затмевает процессор A100 предыдущего поколения в три раза в вычислениях с двойной точностью, тензорных вычислениях с одинарной точностью и вычислениях с половинной точностью, при этом он в шесть раз быстрее в 8-битных вычислениях с плавающей запятой. .

Переход на память HBM3 повышает скорость передачи данных на вывод с 2,43 Гбит/с до 4,8 Гбит/с, но в остальном конфигурация памяти не изменилась: пять активных стеков HBM3 (с одним фиктивным), что дает общую емкость 80 ГБ на GPU и общую пропускную способность 3 ТБ. /сек. Соединение NVLink графического процессора также переходит на 4-е поколение, что обеспечивает пропускную способность 900 ГБ/с между графическим процессором и его хост-системой. Для продуктов, которые не используют NVLink , H100 также реализует PCIe 5.0.

Что касается самого графического процессора, полная реализация GH100 имеет следующие характеристики…

  • 8 GPC, 72 TPC (9 TPC/GPC), 2 SM/TPC, 144 SM на полный GPU
  • 128 ядер FP32 CUDA на SM, 18432 ядра FP32 CUDA на полный GPU
  • 4 тензорных ядра четвертого поколения на SM, 576 на полный GPU
  • 6 стеков HBM3 или HBM2e, 12 512-битных контроллеров памяти
  • 60 МБ кэш-памяти второго уровня
  • NVLink четвертого поколения и PCIe Gen 5

А графический процессор H100 с форм-фактором платы SXM5 может похвастаться следующими…

  • 8 GPC, 66 TPC, 2 SM/TPC, 132 SM на GPU
  • 128 ядер FP32 CUDA на SM, 16896 ядер FP32 CUDA на GPU
  • 4 тензорных ядра четвертого поколения на SM, 528 на GPU
  • 80 ГБ HBM3, 5 стеков HBM3, 10 512-битных контроллеров памяти
  • 50 МБ кэш-памяти второго уровня
  • NVLink четвертого поколения и PCIe Gen 5

NVIDIA также сообщила, что Hopper включает в себя новые инструкции, известные под общим названием «DPX». Эти инструкции предназначены для ускорения динамического программирования, и NVIDIA говорит, что код, использующий их, может ускориться до 40 раз, но это сравнение немного туманно; NVIDIA сравнивает четыре чипа H100 не с A100 последнего поколения, а с парой 32-ядерных процессоров Ice Lake Xeon.
Слайд производительности NVIDIA Hopper GH100

Компания также заявляет, что ее вычислительные ядра включают в себя «Transformer Engine», который можно использовать для ускорения нейронных сетей типа Transformer «до 6 раз» по сравнению с Ampere. Сам «Transformer Engine» кажется рыночным языком для настроенных тензорных блоков, которые в сочетании с интеллектуальным программным обеспечением могут выполнять операции вплоть до 8-битной точности, когда более высокая точность не требуется.

По словам NVIDIA, именно эта возможность позволяет H100 достигать наибольшего прироста производительности по сравнению с A100 на базе Ampere. Для обучения модели ИИ H100, по-видимому, может увеличить пропускную способность в 9 раз. Для логического вывода ИИ выигрыш еще больше; NVIDIA утверждает, что пропускная способность каждого графического процессора с H100 в тридцать раз выше, чем у A100 с задержкой ответа в 1 секунду.
Слайд NVIDIA Hopper NVLink

Возвращаясь на мгновение к NVLink и PCIe, последнее ответвление межсоединения NVIDIA называется NVLink-C2C. C2C означает «чип-к-чипу» и указывает, что эта версия NVLink предназначена для использования как с соединениями GPU-to-host, как в предыдущих версиях NVLink, так и между кристаллами в «расширенной упаковке».

По сути, это еще одно межсоединение, которое можно использовать между чиплетами, аналогичное (но намного более быстрое, чем) AMD Infinity Fabric. Он используется в Grace Superchip и Grace Hopper Superchip, также анонсированных сегодня, и NVIDIA заявляет, что он «открыт для полузаказной интеграции на уровне кремния с технологией NVIDIA». Между прочим , NVIDIA также поддерживает UCIe ( Universal Chiplet Interconnect Express ).

В своих релизных материалах NVIDIA неоднократно заявляла, что H100 «можно развернуть в центре обработки данных любого типа». Это связано с тем, что компания предлагает H100 в различных форм-факторах, начиная от специализированной карты расширения PCIe и заканчивая предварительно сконфигурированными чертежами суперкомпьютера с 256 графическими процессорами H100.
Хоппер cnx nvidia

Самой базовой формой H100 будет мезонинная версия в форм-факторе SXM, но в качестве дополнительной карты она будет поставляться как H100 CNX «Конвергентный ускоритель». По сути, карта включает в себя графический процессор H100, а также один из двухпортовых адаптеров NVIDIA ConnectX-7 Infiniband. Графический процессор подключается к сетевой карте с помощью PCIe 5, а сетевая карта подключается к хосту с помощью PCIe Gen 4. Идея состоит в том, что для ускорителей в узле важнее иметь возможность взаимодействовать друг с другом с наименьшей задержкой и максимальной пропускной способностью. возможно.
Слайд NVIDIA Hopper DGX H100

Естественно, к этому запуску прилагается новая система DGX, получившая название DGX H100. Это четвертое поколение суперкомпьютерного модуля NVIDIA очень похоже на DGX A100 предыдущего поколения ; в основном, он заменяет восемь графических процессоров A100 на восемь ускорителей SXM H100, что дает ему полные 32 петафлопса 8-битных вычислений. Таким образом, DGX SuperPOD объединяет 32 системы DGX, что дает в общей сложности 1 экзафлоп мощности вывода ИИ.
NVIDIA заявляет, что новейший DGX SuperPOD позволит ее клиентам, использующим суперкомпьютеры, «масштабироваться настолько, насколько это необходимо, с шагом в 32 узла». Действительно, это, похоже, является основой для проекта суперкомпьютера Eos, который объединяет около 18 SuperPOD, включая 576 систем DGX H100, соединяющих вместе 4608 графических процессоров H100.
Слайд суперкомпьютера NVIDIA Hopper EOS

Ничего из этого, конечно же, не поступит в продажу. Несмотря на заявления NVIDIA о том, что ей нужен H100 «в любом масштабе», большинство продуктов в этом анонсе на самом деле нацелены непосредственно на правительства и крупные исследовательские организации (обычно субсидируемые правительствами), которым требуется абсолютный максимум вычислительной мощности для обработки чисел. Таким образом, NVIDIA не предоставила никаких данных о ценах. Все эти продукты находятся на территории «если вам нужно спросить, вы не можете себе это позволить».

The House That GeForce Built сообщил, что H100 уже находится в производстве, а также назвал дату выпуска этих продуктов. Если вам нужно новейшее и лучшее аппаратное обеспечение для ускорения ИИ, начните пинговать своего поставщика в третьем квартале этого года.

Источник (англ.)

Поставить оценку
Кофебрейкер | Интернет-журнал