Архитектура Intel, день 21: Alder Lake, Arc, Sapphire Rapids и многое другое

Презентация подробного обзора Дня архитектуры Intel 2021
Ранее на этой неделе Intel провела свой ежегодный День архитектуры, и можно с уверенностью сказать, что представители прессы и аналитики с замиранием сердца ждали подробного описания кремниевых архитектур нового поколения и продуктов компании, которые обычно представляются на этом мероприятии. . В этом году корпорация Intel подробно рассказала о том, что она приготовила для потребителей ПК, предприятий и центров обработки данных. От Alder Lake до Intel Arc , Sapphire Rapids , Ponte Vecchio и многих других — Intel довольно подробно бросила перчатку на нескольких фронтах. Как обычно, нужно было многое переварить, так что пристегнитесь, и мы рассмотрим основные выводы.

Под капотом Alder Lake — гибридного конкурента Intel для настольных ПК и мобильных устройств

высокий уровень Intel Alder Lake

Intel фактически вернулась к своему глубокому анализу Alder Lake, сначала охватив архитектуру ядра, а не экземпляры продукта, но мы посчитали, что может быть более логичным сначала взглянуть на производные чипов высокого уровня, а затем заглянуть под капот, чтобы взглянуть на ядра, кэши и сантехника. Прежде всего, Alder Lake представляет собой единую масштабируемую архитектуру ЦП «система-на-чипе» (SoC), предназначенную для работы с клиентскими платформами ПК, от ультрамобильных решений мощностью 9 Вт до высокопроизводительных настольных решений мощностью 125 Вт+ и всего, что между.

типы процессоров ольхового озера

Alder Lake построен на технологическом узле Intel 7, ранее известном как 10nm Enhanced SuperFin . Как мы сообщали ранее, это гибридный подход к проектированию big.Little , включающий в себя как ядро ​​эффективности, так и более крупные элементы ядра производительности, а также новую инновацию под названием Thread Director, о которой мы вскоре поговорим.

строительные блоки ольхового озера
Множество строительных блоков производных платформы Alder Lake
Также на борту имеется множество новейших вариантов подключения памяти и ввода-вывода, включая поддержку памяти DDR5 , PCI Express Gen 5, Thunderbolt 4 и подключение WiFi-6E. Как вы можете видеть здесь, Intel будет встраивать Alder Lake в различные реализации платформы, объединяя строительные блоки, такие как ядра производительности (P-Core), ядра эффективности (E-Core), TBT (Thunderbolt), IPU (модуль обработки изображений для камеры) и т. д., а также графические исполнительные блоки (EU), в зависимости от конкретных требований платформы. Обратите внимание, что графические ЕС в Alder Lake на самом деле относятся к Xe-LP (даже на настольных компьютерах), а не к новым дискретным графическим ядрам Arc для настольных ПК от Intel. Также обратите внимание, что Alder Lake для настольных ПК будет иметь только до 32 EU на борту, по сравнению с 96 на мобильных платформах.

максимальная конфигурация ольхового озера

В целом, Alder Lake будет масштабироваться до версий с 16 ядрами и 24 потоками, при этом P-Core поддерживает HyperThreading , а каждое E-Core поддерживает один поток. В настоящее время Intel демонстрирует максимальную конфигурацию 8+8. Итак, если вы посчитаете, это 8 P-ядер, поддерживающих 16 потоков, и 8 E-ядер, поддерживающих еще 8 потоков, всего 24. Также на борту находится до 30 МБ кэш-памяти последнего уровня (L3), а также память контроллер, поддерживающий скорости до DDR5-4800 МГц, LP5-5200, DDR4-3200 и LP4x-4266, а также все с поддержкой разгона.

Ольховое озеро PCI Express Config

Что касается последовательного подключения, настольные версии Alder Lake будут предлагать 16 линий PCIe Gen 5 и 4 линии PCIe Gen 4 сразу от корневого комплекса ЦП и еще 28 линий PCIe 4 и PCIe 3 от PCH (концентратор контроллера платформы). Следует отметить, что ссылка X16 Gen 5 будет прекрасно поддерживать новый блестящий графический процессор следующего поколения, а эта ссылка X4 PCI4 Gen 4 будет поддерживать быстрый твердотельный накопитель PCIe Gen 4 , оба висят прямо на процессоре.

ткань ольхового озера

И, наконец, соединение всех этих ядер, кэшей и операций ввода-вывода вместе представляет собой не менее трех высокоскоростных коммутационных фабрик для операций ввода-вывода, памяти и вычислений. Каждая фабрика оптимизирована по задержке, пропускной способности или ширине и скорости шины, в зависимости от требований функционального блока. Например, Compute Fabric блока ЦП поддерживает полосу пропускания до 1000 ГБ/с с динамической оптимизацией задержки, а Memory Fabric обладает гибкостью для различной ширины шины и тактовых частот различных технологий памяти DDR DRAM, которые ему необходимо поддерживать. И так, изложив высокоуровневый материал, давайте перейдем к некоторым интимным деталям ядер эффективности и производительности Alder Lake.

Олдер Лейк Директор по эффективному ядру, ядру производительности и потоку

Ольховое озеро эффективное ядро ​​высокого уровня

Intel утверждает, что новая архитектура Efficient-core от Alder Lake, ранее известная под кодовым названием Gracemont, является самой эффективной микроархитектурой X86, которую когда-либо поставляла компания. Он также оптимизирован для кремниевой области, так что примерно четыре ядра Efficient могут поместиться в кристалле только одного ядра ЦП Skylake предыдущего поколения , обеспечивая при этом повышенную производительность, энергоэффективность или и то, и другое. Efficient-core также предназначен для работы при более низких напряжениях и мощностях, но с возможностью масштабирования до более высоких тактовых частот для более тяжелых рабочих нагрузок, когда это необходимо.

Кэш Alder Lake i и эффективность предсказания переходов
Более мощная кэш-память Intel E-Core объемом 64 КБ имеет решающее значение для обеспечения низкой задержки и производительности с низким энергопотреблением.
Как мы отмечали ранее, архитектура Intel Efficient-core не поддерживает HyperThreading (одновременная многопоточность), хотя в эволюции архитектуры ядра Gracemont есть ряд усовершенствований, которые позволяют значительно увеличить производительность и снизить энергопотребление по сравнению с процессорами Intel предыдущего поколения. архитектуры. Вот некоторые из основных улучшений Efficient-core, которые повышают его пропускную способность IPC (количество инструкций за такт):

  • Увеличенный кэш ветвлений и кэш инструкций 64 КБ для улучшения прогнозирования ветвлений и пропускной способности без необходимости перемещаться за пределы микросхемы в основную память.
  • Новые и улучшенные декодеры неправильного порядка , которые позволяют выполнять до шести инструкций за цикл .
  • Более широкий сервер обработки данных для лучшего обнаружения и выполнения параллелизма данных.
  • Надежный поток управления безопасностью и защита виртуализации
  • AVX ISA и новые инструкции для целочисленной пропускной способности ИИ с инструкциями Intel DL-Boost Vector Neural Network.

эффективная основная инструкция за цикл

Этот больший кэш инструкций в два раза больше, чем в архитектуре Intel Skylake, и он действительно может помочь уменьшить задержку и улучшить пропускную способность, поскольку инструкции передаются ядру. Intel сравнивает свою архитектуру Gracemont Efficient-core со Skylake и относительно того, компания утверждает, что Efficient-core обеспечивает повышение производительности на 40% при том же диапазоне мощности или может обеспечить такую ​​же производительность при снижении мощности на 40%.

Производительность ольхового озера по сравнению со скайлейком

При масштабировании кластер из 4 эффективных ядер будет обеспечивать на 80 % более высокую производительность, чем два ядра Skylake (4 потока с HT), или обеспечивать такую ​​же производительность при снижении энергопотребления на 80 %. Прибавьте к этому экономию кремниевой недвижимости, о которой мы говорили ранее, когда эти 4 эффективных ядра помещаются в одну и ту же площадь кремния только одного ядра Skylake, и у Intel есть то, что звучит как общеизвестный беспроигрышный вариант, с основным единственным Повышение производительности потоков и значительная экономия площади кремния на каждую реализацию ядра. Тем не менее, давайте посмотрим на более крупную железную архитектуру Intel Performance-core немного ближе, чтобы увидеть, что у нее есть.

Intel Golden Cove — производительное ядро

основные функции высокого уровня производительности

Новая архитектура Intel Performance-core, известная под кодовым названием Golden Cove , разработана для низкой задержки, однопоточной пропускной способности и лучшей поддержки более крупных, сложных и разнообразных приложений. Он имеет более крупный и надежный интерфейс для выборки и декодирования инструкций, а также «более широкий, глубокий и интеллектуальный» механизм обработки неупорядоченных операций с улучшенной точностью прогнозирования переходов, а также уменьшенными задержками кэша L1 и кэша L2. оптимизация пропускной способности.

передняя часть ядра производительности
исполнительный механизм ядра производительности

В общем, Intel делает следующие заявления о своей архитектуре Performance-core по сравнению с Cypress Cove предыдущего поколения на частоте ISO (например, тактовой частоте)…

  • Повышение средней производительности на 19 % в широком диапазоне рабочих нагрузок общего назначения по сравнению с текущими процессорами Intel Core 11-го поколения.
  • Better memory parallelism and improved execution parallelism with lower latency and support for bigger application footprints.
  • Support for Intel Advanced Matrix Extensions (AMX) for data center products based on Alder Lake architecture that includes hardware-assisted processing for faster matrix multiply operations in AI acceleration.
производительность ольхового озера повышение производительности ядра
Alder Lake Performance-core Geomean Performance Gains In General Purpose Workloads

Как вы можете видеть на графике выше, Intel иллюстрирует средний геометрический прирост производительности ядра Alder Lake Performance по сравнению с его текущим кодом архитектуры ядра 11-го поколения под названием Cypress Cove. Показатели тестов здесь (если вы просмотрите примечания с мелким шрифтом) представляют собой набор тестов, включая SPEC CPU 2017, SYSmark 25, Crossmark, PCMark 10, WebXPRT3 и Geekbench 5.4.1. Как вы можете видеть, в среднем рост составляет около 19%, в то время как некоторые результаты составляют 1,6X (60%), хотя пара фактически приземляется прямо около линии производительности 1X.

Кроме того, важно отметить, что аппаратный движок AMX с производительным ядром Alder Lake предназначен для центров обработки данных ( Sapphire Rapids ). Xeon) только на данный момент и не будет использоваться в потребительских или корпоративных клиентских процессорах Alder Lake. Тем не менее, Intel Advanced Matrix Extensions и Tiled Matrix Multiplication Accelerator в Xeon-версиях Alder Lake, как утверждается, предлагают 8-кратное увеличение пропускной способности точности int8, что станет ключевым отличием в приложениях для логического вывода ИИ.

Для стольких потоков и типов ядер Intel разработала Thread Director

Преимущества директора потока Intel

Презентация Intel Thread Director стала ключевым открытием, которое дало нам немного ах-ха в связи с нашими недавними выводами о том, почему Windows 11, кажется, демонстрирует небольшой прирост производительности для Intel Lakefield со сверхнизким энергопотреблением . гибридная архитектура процессора. Нам сказали, что у Lakefield есть аналогичный аппаратный ресурс управления потоками на борту, но также ясно, что Intel и Microsoft уже некоторое время тесно сотрудничают над оптимизацией микроархитектуры гибридного процессора. Несмотря на это, Intel Thread Director в Alder Lake — это аппаратный анализатор и планировщик потоков, который, как объясняет Intel, «обеспечивает обратную связь во время выполнения» с ОС для принятия оптимальных решений по планированию при любой рабочей нагрузке. Он также динамически адаптируется к тепловым условиям, нагрузке и требованиям к мощности на лету без какого-либо вмешательства пользователя. На самом деле Thread Director будет работать вместе с Windows 11 и должен быть прозрачным для пользователя. Короче говоря, у вас не будет переключателя для него. Он просто всегда включен, делает свое дело, все время.

Вот довольно полезное демонстрационное видео от Intel, которое показывает вам, как Thread Director, регулировщик дорожного движения, справляется с рабочими нагрузками…

Один неясный аспект Thread Director — хотя мы очень старались обуздать Intel — заключается в том, что для полностью оптимизированной поддержки этой технологии, похоже, требуется Windows 11. Хотя Windows 10 имеет представление о гибридных архитектурах big.Little на уровне потоков, о чем свидетельствует использование Редмондом ПК со Snapdragon и т.п., опрошенные нами представители Intel уклонились от ответа на вопрос, будет ли Alder Lake работать на Windows 11 так же, как и раньше . на Windows 10. Мы предполагаем, что Windows 11 потребуется для полной производительности Alder Lake, по крайней мере, на ранних этапах. Можно только догадываться, насколько велика дельта производительности в настоящее время, и сообществу открытого исходного кода в отношении Linux, очевидно, потребуется также принять новые аппаратные ресурсы Intel для Thread Director.

Intel Sneak Peeks представила дискретную графику Arc для геймеров, и она выглядит хорошо

основной блок xe
Архитектура дискретной графики Intel Xe-HPG (High Performance Gaming) была представлена ​​нам на прошлой неделе. Он предназначен для масштабирования от ноутбуков до высокопроизводительных настольных компьютеров для игр и создания контента. Компания сообщила, что ее семейство графических процессоров Alchemist, которые выйдут на рынок в первом квартале 2022 года, будут продаваться под брендом графических карт Intel Arc и использовать масштабируемую микроархитектуру Intel Xe-HPG.

Дорожная карта графики Intel

Фактически, дорожная карта Intel состоит из основных продуктов для графических процессоров Alchemist и последующих продуктов на основе графических процессоров Battlemage, Celestial и Druid. Обратите внимание на простую прогрессию ABC с мотивом, ориентированным на игровых персонажей. Слава Intel, простота — это хорошо, и это относится и к некоторым классическим типам игровых персонажей. Компания продемонстрировала свои графические продукты Arc на основе Alchemist в живом игровом процессе на нескольких игровых движках высшего уровня, таких как Unreal Engine 5, Crysis Remastered, Metro Exodus и Forza Horizon 4. Эти демонстрации также продемонстрировали передовые технологии рендеринга DirectX 12 Ultimate, такие как Mesh. Шейдеры, шейдинг с переменной скоростью, трассировка лучей в реальном времени и что-то под названием XeSS или Intel Xe Super Sampling, о котором мы скоро вернемся. Тем не менее, основные выводы из презентации Intel Arc заключались в следующем:

  • Up to 8 render slices per GPU instantiation , with 4 cores per slice and 16 vector engines per core. If we do the math, that’s 512 vector engines in a fully populated Alchemist GPU – aka Alchemist/DG2-512.
  • Alchemist has 1 ray tracing unit per core and 4 per slice, so that’s 32 RT engines on a full fat Alchemist GPU. If we map that to NVIDIA’s GeForce RTX 30 series, that’s somewhere in between an RTX 3070 at 46 RT cores and RTX 3060 at 28 RT cores, though we’d caution that all RT cores are likely not created equal of course. These RT units support both Microsoft DXR and Vulkan Ray Tracing.
  • Intel is claiming a 1.5X clock speed and performance-per-watt uplift versus its XE-LP architecture found in Tiger Lake .
  • Alchemist is built on TSMC’s N6 process node, which is a marginal improvement over N7 in terms of transistor density, but certainly competitive with AMD’s and NVIDIA’s current TSMC manufacturing fab process alignments.
полностью заселенный алхимик 512
A Fully Populated Alchemist GPU — Count Them — DG2-512

В дополнение к этим раскрытиям Intel Graphics корпорация Intel также подчеркнула, что ее команда по графическим решениям полностью переработала свой драйвер, чтобы обеспечить унифицированный подход как к интегрированным, так и к дискретным продуктам. Команда специально заявила об улучшении пропускной способности в среднем на 15% в играх с привязкой к процессору и уменьшении времени загрузки игр на 25%. Тем не менее, любовь к программному обеспечению, по-видимому, на этом не остановилась, поскольку Intel также поделилась довольно подробной информацией о своем подходе к апскейлингу сверхвысокого разрешения, который на самом деле больше похож на NVIDIA DLSS , основанный на искусственном интеллекте и машинном обучении .

Знакомство с XeSS — открытым исходным кодом Intel AI-Power Super Resolution Mojo

высокий уровень

Архитектура графического процессора Intel Arc поддерживает какую-то приятно звучащую технологию улучшения видео с ускорением ИИ, способную высококачественно масштабировать видеоконтент 480p до разрешения 4K, но компания не стала вникать в это и вместо этого сосредоточила свое внимание на XeSS. «Е» здесь на самом деле является надстрочным шрифтом, хотя компания склонна колебаться со строчными буквами или надстрочными буквами по отношению к Xe Graphics. Несмотря на это, XeSS является своего рода лучшим из обоих миров восстановления производительности в игре, поскольку эта технология имеет открытый исходный код, а также может работать на устаревших процессорах Intel и некоторых конкурирующих графических процессорах. Однако XeSS использует обработку нейронной сети ИИ на соседних пикселях для восстановления и масштабирования более чистых краев изображения и деталей текстуры из входных кадров игрового движка с более низким разрешением.

алхимик ядра xmx

Intel утверждает, что эта технология может обеспечить двукратный прирост производительности благодаря встроенному аппаратному ускорению Alchemist XMX AI, которое разработано для ее поддержки, но также может работать на устаревших и конкурирующих графических процессорах, используя набор инструкций DP4a, который можно найти в Intel. Технология DLBoost для ускорения ИИ, а также NVIDIA CUDA . Мы считаем, что архитектура графического процессора AMD RDNA2 также может поддерживать инструкции DP4a, поэтому похоже, что по крайней мере аппаратное обеспечение Radeon текущего поколения может работать с этой технологией.

высокая производительность

Как бы то ни было, нам не терпится увидеть, как XeSS воспримут в сообществе разработчиков, и Intel отмечает, что ее XMX AI Accelerator SDK будет доступен разработчикам игр в этом месяце, а поддержка DP4a появится позже в этом году. Хорошее внедрение XeSS разработчиками игр будет иметь решающее значение для развертывания Intel Arc. Так что это точно будет что посмотреть.

Теперь давайте углубимся в основные раскрытия информации дня архитектуры Intel для больших железных центров обработки данных, облачных вычислений и рынков высокопроизводительных вычислений. Прямо по этому пути…

Источник (англ.)

Поставить оценку
Кофебрейкер | Интернет-журнал