Одним из основных нововведений в микроархитектуре процессоров Haswell считается новое графическое ядро c поддержкой DirectX 11.1, OpenCL 1.2 и OpenGL 4.0. Графическое ядро в микроархитектуре Haswell масштабируемое. Варианты графических ядер имели кодовые названия GT3, GT2 и GT1. Ядро GT1 имело минимальную производительность, а GT3 — максимальную. В графическом ядре GT3 появился второй вычислительный блок, за счет чего удвоилось количество блоков растеризации, пиксельных конвейеров, вычислительных ядер и сэмплеров. Ядро GT3 было вдвое производительнее ядра GT2.
Ядро GT3 содержит 40 исполнительных блоков, 160 вычислительных ядер и четыре текстурных блока (в графическом ядре Intel HD Graphics 4000 процессоров Ivy Bridge содержалось всего 16 исполнительных устройств, 64 вычислительных ядра и два текстурных блока). Поэтому, несмотря на приблизительно одинаковые тактовые частоты их работы, графическое ядро Intel GT3 значительно превосходило своего предшественника по уровню производительности. Кроме того, ядро GT3 (в варианте GT3e) имело еще более высокую производительность благодаря интеграции памяти EDRAM в упаковку процессора GT3e.
Ядро GT2 содержало 20 исполнительных блоков, 80 вычислительных ядер и два текстурных модуля, а ядро GT1 — только 10 исполнительных блоков, 40 вычислительных ядер и один текстурный модуль. Сами исполнительные блоки имеют по четыре вычислительных ядра наподобие тех, что используются в архитектуре AMD VLIW4.
При работе с памятью применили технологию Instant Access, которая позволяет вычислительным ядрам процессора и графическому ядру напрямую обращаться к оперативной памяти. В предыдущих версиях графического ядра вычислительные ядра процессора и графическое ядро тоже работали с общей оперативной памятью, но при этом память делилась на две области с динамически изменяемыми размерами. Одна из них отводилась для графического ядра, а другая — для вычислительных ядер процессора. Однако получить одновременный доступ к одному и тому же участку памяти графическое ядро и вычислительные ядра процессора не могли. И в случае, если графическому процессору требовались те же данные, что использовались вычислительным ядром процессора, ему приходилось копировать этот участок памяти. Это приводило к росту задержек, а кроме того, возникала проблема отслеживания когерентности данных.
Технология InstantAccess позволяет драйверу графического ядра ставить указатель на положение определенного участка в области памяти графического ядра, к которой вычислительному ядру процессора необходимо напрямую получить доступ. При этом вычислительное ядро процессора будет работать с этой областью памяти напрямую, без создания копии, а после выполнения необходимых действий область памяти будет возвращена в распоряжение графического ядра.
Семейство графических ядер GT1, GT2 и GT3 обладало и улучшенными возможностями по кодированию-декодированию видеоданных. Поддерживалось аппаратное декодирование форматов H.264/MPEG-4 AVC, VC-1, MPEG-2, MPEG-2 HD, Motion JPEG, DivX с разрешением вплоть до 4096х2304 пикселов. Графическое ядро было способно одновременно декодировать несколько видеопотоков 1080p и воспроизводить видео 2160p без подтормаживания и пропуска кадров.
Появился и специальный блок улучшения качества видео, который называется Video Quality Engine и отвечает за шумоподавление, цветокоррекцию, деинтерлейсинг, адаптивное изменение контраста и т.д. Также новые графические ядра будут поддерживать функции стабилизации изображения, преобразования частоты кадров и расширенной гаммы.
Кроме того, графические ядра в процессоре Haswell уже обеспечивали подключение до трех мониторов одновременно. Поддерживают порты Display Port 1.2 с разрешениями до 3840х2160 и частотой 60 Гц, HDMI c разрешением до 4096х2304 и частотой 24 Гц (при максимальном разрешении), а также порт DVI.
Графическое ядро GT4, GT4e (Iris Pro Graphics 580) появилось в процессорах Broadwell и Skylake. Графическое ядро GT4e содержало уже: 72 исполнительных устройства, 128 Мбайт eDRAM, производительность до 1152 ГФлопс на частоте 1 ГГц. Вычислительная производительность Iris Pro Graphics 580 составляет более 1,1 Тфлопс (триллиона операций с плавающей точкой в секунду) в зависимости от тактовой частоты. Графический процессор Iris Pro Graphics 580 имеет обновлённый мультимедийный движок, который поддерживает аппаратное декодирование и кодирование Ultra HD-видео с использованием кодеков HEVC и VP9. Современные графические ядра, применяемые в процессорах Broadwell и Skylake и относящиеся к классам Iris и Iris Pro предлагают вполне достаточную для массовых игровых систем производительность. Конечно, здесь имеется в первую очередь способность интеловской интегрированной графики нормально работать в казуальных и несложных в графическом плане сетевых играх. За последние пять лет производительность интегрированной графики выросла в 30 раз.
Новые интеловские графические ядра уже были способны предложить весьма впечатляющую теоретическую производительность. GPU, реализованный в Skylake, как и его предшественники, тоже сохранил традиционный модульный дизайн. Таким образом, мы вновь имеем дело с целым семейством решений разного класса: на базе имеющихся строительных блоков нового поколения Intel может собирать кардинально различающиеся по уровню производительности GPU. Подобная масштабируемость сама по себе новинкой не является, но в Skylake возросла не только максимальная производительность, но и число доступных вариантов графического ядра. Графическое ядро Skylake может быть построено на базе одного или нескольких модулей, каждый из которых обычно включает в себя по три секции. Секции объединяют по восемь исполнительных устройств, на которые ложится основная часть обработки графических данных, а также содержат базовые блоки для работы с памятью и текстурные семплеры. Помимо исполнительных устройств, сгруппированных в модули, графическое ядро содержит и внемодульную часть, отвечающую за фиксированные геометрические преобразования и отдельные мультимедийные функции.
Варианты ядра GT4 могут быть дополнительно усилены eDRAM-буфером объёмом до 128 Мбайт и более. В Skylake этот дополнительный буфер не только изменил алгоритм работы, став «кешем на стороне памяти», но и приобрёл некоторую гибкость конфигурации.
Наращивая мощность графического ядра, Intel проявила большую заботу и о том, чтобы для его нужд хватало пропускной способности памяти. В Skylake обновился контроллер памяти, и теперь он был способен работать с DDR4 SDRAM, частота и пропускная способность которой была заметно выше, чем у DDR3 SDRAM. С другой стороны, в GPU появилось новая технология Lossless Render Target Compression (направленное на рендеринг сжатие без потерь). Её суть заключается в том, что все данные, пересылаемые между GPU и системной памятью, которая одновременно является и видеопамятью, предварительно сжимаются, разгружая таким образом полосу пропускания. Применённый алгоритм использует компрессию без потерь, при этом степень сжатия данных может достигать двукратного размера. Несмотря на то, что всякая компрессия требует задействования дополнительных вычислительных ресурсов, инженеры Intel утверждают, что внедрение технологии Lossless Render Target Compression увеличивает быстродействие интегрированного GPU в реальных играх на величину от 3 до 11 процентов.
В графике процессоров Skylake были сделаны и существенные изменения в части поддерживаемых графических API. В GPU этих новых процессоров уже была совместимость с DirectX 12, OpenGL 4.4 и OpenCL 2.0, а позднее, по мере совершенствования графического драйвера, к этому списку добавились и следующие версии OpenCL 2.x и OpenGL 5.x, а также поддержка низкоуровневого фреймворка Vulkan. Кроме того, новых GPU была реализована и полноценная когерентность памяти с процессором, что сделало Skylake самым настоящим APU – его графическое и вычислительные ядра могут одновременно работать над одной и той же задачей, используя общие данные.