Алгоритм - Учебный центр

Версия сайта для слабовидящих
Заполните форму ниже! Мы вам перезвоним!

Нажав на кнопку "Отправить", Я даю своё согласие на автоматизированную обработку указанной информации, распространяющейся на осуществление всех действий с ней, включая сбор, передачу по сетям связи общего назначения, накопление, хранение, обновление, изменение, использование, обезличивание, блокирование, уничтожение и обработку посредством внесения в электронную базу данных, систематизации, включения в списки и отчетные формы.


Графический процессор (ликбез).

Графический процессор (ликбез).

Графический процессор (англ. graphics processing unit, GPU) — отдельное устройство персонального компьютера или игровой приставки, выполняющее графический рендеринг.

В начале 2000-х годов графические процессоры стали массово применяться и в других устройствах: планшетные компьютеры, встраиваемые системы, цифровые телевизоры. Современные графические процессоры очень эффективно обрабатывают и отображают компьютерную графику. Благодаря специализированной конвейерной архитектуре они намного эффективнее в обработке графической информации, чем типичный центральный процессор. Графический процессор в современных видеоадаптерах применяется в качестве ускорителя трёхмерной графики.

GPU.

Графический процессор может применяться как в составе дискретной видеокарты, так и в интегрированных решениях (встроенных в северный мост либо в гибридный процессор).

Отличительными особенностями по сравнению с ЦП являются:

- архитектура, максимально нацеленная на увеличение скорости расчёта текстур и сложных графических объектов;

- ограниченный набор команд.

Высокая вычислительная мощность GPU объясняется особенностями архитектуры. Современные CPU содержат несколько ядер, тогда как графический процессор изначально создавался как многопоточная структура с множеством ядер. Разница в архитектуре обусловливает и разницу в принципах работы. Если архитектура CPU предполагает последовательную обработку информации, то GPU исторически предназначался для обработки компьютерной графики, поэтому рассчитан на массивно параллельные вычисления.

Каждая из этих двух архитектур имеет свои достоинства. CPU лучше работает с последовательными задачами. При большом объёме обрабатываемой информации очевидное преимущество имеет GPU. Условие только одно — в задаче должен наблюдаться параллелизм.

Графические процессоры уже достигли той точки развития, когда многие практические вычислительные задачи могут с легкостью решаться с их помощью, причем быстрее, чем на многоядерных системах. Будущие вычислительные архитектуры станут гибридными системами с графическими процессорами, состоящими из параллельных ядер и работающими в связке с многоядерными ЦП (профессор Джек Донгарра, 2011 г.).

Современные модели графических процессоров (в составе видеоадаптера) могут полноценно применяться для общих вычислений (см.GPGPU). Примерами таковых могли служить чипы HD 7990 (от AMD) или GTX 690 (от nVidia).

GPGPU.

GPGPU (англ. General-purpose computing for graphics processing units, неспециализированные вычисления на графических процессорах) — использование графического процессора видеокарты для параллельных вычислений. Современные графические адаптеры могут иметь до нескольких тысяч процессоров, что позволяет решать некоторые задачи на графических картах на порядок быстрее, чем на центральных процессорах. Приложения, использующие данную технологию пишутся с помощью таких технологий как OpenCL или CUDA.

Внешний графический процессор (eGPU).

Внешний графический процессор — это графический процессор, расположенный за пределами корпуса компьютера. Внешние графические процессоры иногда используются совместно с портативными компьютерами. Ноутбуки могут иметь большой объём оперативной памяти (RAM) и достаточно мощный центральный процессор (CPU), но часто им не хватает мощного графического процессора, вместо которого используется менее мощный, но более энергоэффективный встроенный графический чип. Встроенные графические чипы обычно недостаточно мощны для воспроизведения новейших игр или для других графически интенсивных задач, таких как редактирование видео.

Поэтому желательно иметь возможность подключать графический процессор к некоторой внешней шине ноутбука. PCI Express — единственная шина, обычно используемая для этой цели. Порт может представлять собой, к примеру, порт ExpressCard или mPCIe (PCIe × 1, до 5 или 2,5 Гбит / с соответственно) или порт Thunderbolt 1, 2 или 3 (PCIe × 4, до 10, 20 или 40 Гбит/с соответственно). Эти порты доступны только для некоторых ноутбуков. Внешние GPU не пользовались большой официальной поддержкой поставщиков. Однако это не остановило энтузиастов от внедрения настроек eGPU.

Типичные примеры графических ускорителей.

В 2018 году NVIDIA презентовала новую серию графических ускорителей, ориентированных на геймеров — GeForce RTX. Самая продвинутая карта линейки — RTX 2080 Ti — совершает до 78 трлн RTX-OPS (разработанная в NVIDIA оценка производительности, обозначающая операции с трассировкой лучей в секунду). Первые продукты серии RTX 20хх появились на прилавках в сентябре 2018 года.

Графические процессоры серии GeForce RTX поддерживают все технологии платформы Turing, включая RT-ядра для расчетов трассировки лучей и тензорные ядра для использования нейронных сетей. Среди ключевых характеристик, упомянутых на презентации:

  • RTX 2070: 1410 МГц, 8 ГБ 256-битной оперативной памяти типа GDDR6 пропускной способностью 448 ГБ/с, 2304 CUDA-ядра. Обеспечивает 60 трлн RTX-OPS и 6 гигалучей (Gigarays) в секунду.

  • RTX 2080: 1515 МГц с аналогичной памятью, а также 2944 CUDA-ядра. Производит 60 трлн RTX-OPS и уже 8 гигалучей/с.

  • RTX 2080 Ti: 1515 МГц, 11 ГБ 352-битной оперативной памяти типа GDDR6, работающей на скорости 616 ГБ/с, 4352 CUDA-ядра. Предоставляет до 78 трлн RTX-OPS и 11 гигалучей/с.

Чип Turing GPU содержит 18,6 миллиардов транзисторов. Он первым в линейке компании получил поддержку памяти GDDR6 с 256- и 384-разрядной шиной. Самая топовая карта Quadro RTX 8000 получила сразу 48 ГБ памяти нового поколения. В линейке видеокарт на архитектуре Turing есть три модели — Quadro RTX 5000, 6000 и 8000. Все они поддерживают технологию NVLink, благодаря чему несколько видеокарт можно объединять в один массив для наращивания производительности. Таким образом можно достичь пропускной способности в 100 ГБ/с. Новые видеокарты на базе Turing появились в конце 2018 года (топовая карта Quadro RTX 8000 стоит $10 тысяч или почти 700 тысяч рублей).

NVIDIA Volta – это новая движущая сила искусственного интеллекта. Основанная на пяти прогрессивных технологиях, архитектура Volta поспособствует прорыву во всех отраслях. Такие серьезные достижения для человека, как искоренение рака и революция в сфере перевозок за счет появления беспилотных транспортных средств, уже в пределах досягаемости. У графического процессора Volta - 640 Tensor-ядер, что обеспечивает производительность задач глубокого обучения более 100 Терфлопс в секунду. Это превышает производительность архитектуры предыдущего поколения Pascal более чем в 5 раз. 21 миллиард транзисторов делают Volta самой мощной архитектурой GPU в мире. Она объединяет, чтобы обеспечить производительность одного GPU на уровне суперкомпьютера. Volta использует второе поколение высокоскоростной технологии внутреннего соединения NVIDIA NVLink™. Она ускоряет обмен данных в 2 раза по сравнению с интерфейсом NVLink первого поколения. Это обеспечивает расширенные возможности распараллеливания данных для достижения максимальной производительности приложений (ускоритель Nvidia Tesla V100 оснащается двунаправленным интерфейсом NVLink второго поколения с пропускной способностью 300 ГБ/с, также будет выпущена версия с интерфейсом PCI Express).

Графический ускоритель NVIDIA Tesla V100 GPU построен на основе революционной архитектуры GPU NVIDIA Volta. Это приводит к значительному приросту производительности в операциях одинарной (FP32) и двойной (FP64) точности.

Основой для ускорителя Tesla V100 служит графический процессор Nvidia GV100. Данный GPU изготавливается согласно 12-нанометровым технологическим нормам FinFET на мощностях TSMC и насчитывает свыше 21 млрд транзисторов. Площадь кристалла составляет 815 кв. мм. 21 миллиард транзисторов делают Volta самой мощной архитектурой GPU в мире. Она объединяет ядра CUDA и Tensor, чтобы обеспечить производительность одного GPU на уровне суперкомпьютера (CUDA – это архитектура параллельных вычислений от NVIDIA, позволяющая существенно увеличить вычислительную производительность благодаря использованию GPU).

Графический ускоритель Tesla V100 создан, чтобы обеспечить слияние HPC и искусственного интеллекта. Это решение для HPC-систем, которое отлично проявит себя как в вычислениях для проведения симуляций, так и обработке данных для извечения из них полезной информации. Благодаря объединению в одной архитектуре ядер CUDA и Tensor, сервер, оснащенный графическими ускорителями Tesla V100, может заменить сотни традиционных CPU-серверов, выполняя традиционные задачи HPC и искусственного интеллекта. Теперь каждый ученый может позволить себе суперкомпьютер, который поможет в решении самых сложных проблем (HPC - высокопроизводительные вычисления, ядра Tensor - тензорные ядра — процессоры, которые ускоряют обучение глубоких сетей и инференс, обеспечивая до 500 трлн тензорных операций в секунду).

Новый GPU физически включает: 84 потоковых мультипроцессора (Streaming Multiprocessor - SM), при этом ускоритель Tesla V100 оперирует 80 такими блоками. Каждый SM насчитывает: 64 ядра CUDA (соотношение блоков FP64 и FP32 — 2:1), а также по восемь ядер Tensor, разработанных специально для задач машинного обучения.

Всего же чип включает в себя 5376 ядер CUDA, из которых у Tesla V100 активно 5120 единиц, и 640 ядер Tensor. Как отмечают представители Nvidia, благодаря использованию специализированных ядер Tensor «процессор V100 обеспечивает производительность 120 Тфлопс в глубоком обучении, что эквивалентно производительности 100 CPU».

Потоковые мультипроцессоры Volta на 50 процентов более энергоэффективны, чем мультипроцессоры предыдущего поколения NVIDIA Pascal TM.

Pascal GPU имеющий на борту 150 млрд. транзисторов, построен на базе ультрасовременной 16 нм технологии FinFET, является самым большим в мире чипом, созданным по данной технологии. Он спроектирован чтобы обеспечить высочайшую производительность и энергоэффективность для задач с практически неограниченными вычислительными требованиями. Pascal - это первая архитектура, оснащенная высокоскоростным двунаправленным интерфейсом NVIDIA NVLink™. Технология позволяет масштабировать приложения на несколько GPU, обеспечивая 5-ти кратное ускорение, по сравнению с лучшими решениями на сегодняшний день.

Благодаря решениям NVIDIA для виртуализации и графическим процессорам с архитектурой NVIDIA Pascal, IT-специалисты могут виртуализировать любые приложения, с легкостью распределять ресурсы GPU для выполнения любых задач и обеспечивать максимальную плотность пользователей в VDI-инфраструктуре.

Но каково же главное новшество архитектуры NVIDIA Volta?

1. Интеграция ядер Tensor.

Предназначенные специально для задач глубокого обучения, ядра Tensor обеспечивают революционную производительность, демонстрируя увеличение пиковых показателей Терафлопс для тренировки алгоритмов в 12 раз, а для инференса - в 6 раз. Эта ключевая возможность позволяет Volta обеспечивать 3-х кратное ускорение производительности в задачах тренировки и инференса по сравнению с архитектурой предыдущего поколения. Каждое из 640 ядер Tensor в Tesla V100 может обрабатывать матрицу 4x4, имея собственные пути передачи данных, что ведет к серьезному повышению производительности вычислений с плавающей точкой и высокой энергоэффективности.

2. Графическая память HBM2 DRAM с производительностью до 900 ГБ/с, разработанная совместно с Samsung, увеличивает полосу пропускания на 50% по сравнению с предыдущим поколением. Ядро Volta GV100 взаимодействует с буферной памятью HBM2 по 4096-битной шине. Архитектура Pascal разместила процессор и память в одном чипе, обеспечивая непревзойденную эффективность вычислений.

3. Тактовая частота ядра Volta GV100 составляет 1455 МГц. Энергопотребление ускорителя Tesla V100 не превышает 300 Вт, что практически сравнимо с показателями ускорителя предыдущей архитектуры Tesla P100).

 

 

 

 

 

 

 


Лицензия