NVIDIA GeForce RTX: что вам нужно знать о Turing

NVIDIA GeForce RTX: что вам нужно знать о Turing Гаджеты и интернет
NVIDIA GeForce RTX: что вам нужно знать о Turing

Несколько недель назад на мероприятии, непосредственно предшествовавшем запуску Gamescom в Кельне, Германия, генеральный директор NVIDIA Дженсен Хуанг официально представил первую линейку видеокарт компании серии GeForce RTX 2000 , основанную на новой  микроархитектуре Turing GPU. Дженсен обсудил ряд новых функций и возможностей карт, в том числе трассировку лучей с аппаратным ускорением в реальном времени, новую технологию сглаживания с поддержкой глубокого обучения, получившую название DLSS, а также рассказал о некоторых конкретных скоростях и каналах, касающихся самих грядущих карт GeForce RTX .


Многие другие более глубокие технические детали, касающиеся микроархитектуры графического процессора Turing, были скрыты и раскрыты только небольшой группе участников мероприятия. Однако сегодня мы можем раскрыть некоторые из этих технических деталей и функций, и мы изложим их для вас на следующих страницах. Прежде чем мы углубимся в подробности, нам также повезло, что Том «TAP» Петерсен из NVIDIA участвовал в недавнем подкасте, чтобы обсудить Turing и серию GeForce RTX в целом. Во время нашей беседы выяснилось несколько интересных фактов. Если вы так склонны, мы настоятельно рекомендуем проверить это тоже…

Первоначальная линейка видеокарт серии GeForce RTX 2000 состоит из GeForce RTX 2070, RTX 2080 и RTX 2080 Ti. Также будут выпущены версии Founder для каждой карты с более высокими тактовыми частотами. Все карты основаны на микроархитектуре NVIDIA Turing и предлагают схожие функции, но все они также работают на разных вариантах графического процессора Turing. Высокопроизводительная GeForce RTX 2080 Ti построена на графическом процессоре TU102, RTX 2080 — на TU104, а RTX 2070 — на TU106.

блок-схема графического процессора nvidia turing
На приведенной выше блок-схеме представлена ​​полная конфигурация TU102. TU102 состоит примерно из 18,6 млрд транзисторов и при полной загрузке включает 72 потоковых мультипроцессора (SM), 4608 ядер CUDA, 576 тензорных ядер, 72 ядра RT (трассировка лучей), 36 блоков геометрии (TPC), 288 блоков текстур, 96 ROP, 384-битный (12-канальный) интерфейс памяти и два канала NVLink. Обратите внимание, однако, что флагманская GeForce RTX 2080 Ti не поддерживает полную поддержку TU102.

спецификации Тьюринга
Сравнение характеристик карты NVIDIA GeForce RTX

Новая графическая карта NVIDIA Quadro RTX 6000 pro оснащена полностью поддерживающим TU102, но GeForce RTX 2080 Ti имеет два TPC, четыре SM, 256 ядер CUDA, четыре ядра RT, восемь ROP, 16 текстурных блоков и один канал памяти отключен ( в частности, 4352 ядра CUDA, 552 ядра Tensor и 68 ядер RT в RTX 2080 Ti). Точное количество ядер, памяти и конфигурации тактовой частоты для всех карт серии GeForce RTX 2000 на базе Turing, Quadro RTX 6000 и их аналогов на базе Pascal представлены в таблице выше. Определенно нажмите на это изображение и потратьте некоторое время на просмотр спецификаций, потому что есть масса данных, которые нужно переварить, включая некоторые новые термины, которые вы, возможно, раньше не слышали.

Как вы заметили, GeForce RTX 2080 и RTX 2070 имеют тот же набор функций, что и их старший брат, но их количество ядер и конфигурация памяти еще меньше (а их блок-схемы просто выглядят немного меньше). Количество транзисторов для TU102 и TU104 также пропорционально уменьшено. Однако стоит отметить, насколько на самом деле GPU Turing больше по сравнению с Pascal . Несмотря на то, что они производятся по более плотному и продвинутому 12-нм техпроцессу Fin-Fet, все графические процессоры на основе Turing не только имеют гораздо большее количество транзисторов, чем их предшественники, но и являются гораздо более крупными чипами.

Значительно большие размеры кристаллов графических процессоров GeForce RTX на основе Turing, несмотря на то, что они производятся по более продвинутому процессу, в основном связаны с дополнительными технологиями, которые NVIDIA заложила в чипы. С серией GeForce RTX NVIDIA хотела, чтобы карты хорошо работали с традиционными методами затенения и растеризации, используемыми во всех сегодняшних (и вчерашних) играх, но также хотела заложить основу для искусственного интеллекта , глубокого обучения и трассировки лучей . за включенными играми и приложениями, как он надеется, будущее, поэтому в смесь добавлены ядра RT и Tensor. Все эти дополнительные ядра равны дополнительному количеству транзисторов и большему размеру кристалла, просто и понятно.

С дополнительным CUDA ядра — которые также более эффективны и имеют некоторые новые возможности — значительно большую пропускную способность памяти и повышенную производительность текстурирования, карты GeForce RTX на основе Turing также должны обеспечивать более высокую производительность с существующими играми, а также поддерживать новые технологии, обеспечиваемые RT и Tensor. ядер и соответствующей программной среды NVIDIA.

Кэш Тьюринга
Тем не менее, помимо новых процессоров в Turing, NVIDIA разработала значительные оптимизации для улучшения использования, производительности и эффективности шейдеров и других блоков в графическом процессоре. Например, математический конвейер в Turing был переработан и оптимизирован и теперь может одновременно выдавать целочисленные инструкции и инструкции с плавающей запятой. NVIDIA утверждает, что при некоторых рабочих нагрузках одна только эта настройка может повысить производительность примерно на 36%.

особенности графического процессора
Графические процессоры NVIDIA на основе Turing также имеют удвоенный объем кэш-памяти L2 по сравнению с их предшественниками, а кэш-память L1 оснащена более широкой шиной, что в конечном итоге удваивает пропускную способность. Также увеличился общий объем кэш-памяти L1 и общей памяти, а конфигурация была изменена, чтобы стать более симметричной. Изменения в Turing могут привести к ускорению затенения до 50% в ядрах CUDA, но в распоряжении графических процессоров также есть ядра Tensor и Ray Tracing.

тензорные ядра Тьюринга
Конечно, разработчикам придется явно использовать эти новые ядра, но они добавляют некоторые важные возможности, если их задействуют. Ядра Tensor, которые идеально подходят для рабочих нагрузок глубокого обучения, таких как распознавание изображений и логические выводы, обеспечивают вычислительную производительность до 110 терафлопс с рабочими нагрузками FP16 или 228 или 445 TOPS с рабочими нагрузками INT8 или INT4 соответственно, по крайней мере, в TU102. цифры явно ниже у меньших TU104 и TU106. Ядра RT могут предложить до «10 Giga Rays/sec» в TU102, что само по себе является несколько туманным показателем производительности на данный момент, но учтите: GeForce GTX 1080 Ti предлагает до 11,3 TFLOPS вычислений. производительность, может обрабатывать около 1,1 гигалучей в секунду или примерно 10 терафлопс на гигалуч. Короче говоря, GeForce GTX 2080 Ti примерно в 10 раз быстрее, чем GeForce GTX 1080 Ti с такой же рабочей нагрузкой по трассировке лучей.
тензорные ядра Тьюринга Мы также должны упомянуть, что все механизмы обработки внутри Turing — шейдеры, ядра RT, ядра Tensor — могут использоваться одновременно, но модуль диспетчеризации может одновременно обслуживать только два модуля. Поскольку тензорные ядра обычно предназначены для специализированных рабочих нагрузок и используются на другом этапе процесса рендеринга, невозможность одновременного использования всех трех ядер не должна быть проблемой для разработчиков.

Тьюринг gddr6
Чтобы обеспечить быстрый доступ Тьюринга к большому количеству данных, NVIDIA также встроила в графические процессоры новейший контроллер памяти GDDR6 . Пропускная способность на контакт с памятью GDDR6, используемой на первых картах серии GeForce RTX 2000, достигает эффективного значения 14 Гбит/с (7 ГГц). Чтобы достичь такой скорости передачи данных, NVIDIA пришлось оптимизировать архитектуру схемы ввода-вывода и уделить особое внимание каналу между графическим процессором и отдельными кристаллами памяти, чтобы обеспечить максимально чистую передачу сигналов (с чем GDDR6 также помогает). Помимо высокоскоростной GDDR6, Turing также использует более совершенную технологию сжатия памяти по сравнению с Pascal. Таким образом, карты серии GeForce RTX не только предлагают большую пропускную способность, но и используют эту пропускную способность более эффективно.

256-битная ширина шины памяти GeForce RTX 2070 и 2080 в сочетании с высокой эффективной скоростью передачи данных 14 Гбит/с обеспечивает пиковую доступную пропускную способность 448 ГБ/с, что намного выше, чем 256 ГБ/с (+75%). 320 ГБ/с (+39%) по сравнению с предыдущим поколением NVIDIA GeForce GTX 1070 и GTX 1080. Более широкая 352-битная шина на флагманской GeForce GTX 2080 Ti обеспечивает пиковую пропускную способность памяти 616 ГБ/с, что на 27% больше, чем у предыдущего поколения. 484 ГБ/с у GeForce GTX 1080 Ti.

Давайте подробнее рассмотрим новые карты NVIDIA Founder’s Edition GeForce RTX, далее…

Источник (англ.)

Поставить оценку
Кофебрейкер | Интернет-журнал