Алгоритм - Учебный центр
Заполните форму ниже! Мы вам перезвоним!

Нажав на кнопку "Отправить", Я даю своё согласие на автоматизированную обработку указанной информации, распространяющейся на осуществление всех действий с ней, включая сбор, передачу по сетям связи общего назначения, накопление, хранение, обновление, изменение, использование, обезличивание, блокирование, уничтожение и обработку посредством внесения в электронную базу данных, систематизации, включения в списки и отчетные формы.


Ядра Tensor.

Ядра Tensor.

Компания Nvidia внедрила в свой вычислительный процессор Volta новый тип ядер — тензорные ядра (Tensor Core). Эти ядра — самая важная особенность архитектуры Volta, которая и поможет получить многократный рост производительности в задачах обучения и инференса больших нейросетей, чтобы рост производительности соответствовал потребностям рынка. Возможностей Pascal исследователям уже не хватало. Они уже используют нейросети из тысяч слоев и миллионов нейронов, что требует гораздо большей скорости вычислений.

Операции матричного перемножения (BLAS GEMM) лежат в основе обучения и инференса (процесс, обратный обучению — выводы на основе уже «умной» нейросети) нейронных сетей, они используются для умножения больших матриц входных данных и весов в связанных слоях сети. Тензорные ядра специализируются на выполнении этих перемножений и способны значительно увеличить производительность таких вычислений с плавающей запятой при сохранении сравнительно небольшой сложности в транзисторах и площади, занимаемой этими ядрами на GPU. Заодно значительно вырастает энергоэффективность.

Графический ускоритель NVIDIA Tesla V100 GPU построен на основе революционной архитектуры GPU NVIDIA Volta. Потоковые мультипроцессоры Volta на 50 процентов более энергоэффективны, чем мультипроцессоры предыдущего поколения NVIDIA PascalTM. Это приводит к значительному приросту производительности в операциях одинарной (FP32) и двойной (FP64) точности.

Pascal GPU имеющий на борту 150 млрд. транзисторов, был построен на базе 16 нм технологии FinFET, являлся самым большим в мире чипом, созданным по данной технологии. Он был спроектирован чтобы обеспечить высочайшую производительность и энергоэффективность для задач с практически неограниченными вычислительными требованиями. Pascal - это первая архитектура, оснащенная высокоскоростным двунаправленным интерфейсом NVIDIA NVLink™. Технология позволяет масштабировать приложения на несколько GPU, обеспечивая 5-ти кратное ускорение, по сравнению с лучшими решениями на то время. Благодаря решениям NVIDIA для виртуализации и графическим процессорам с архитектурой NVIDIA Pascal, IT-специалисты могут виртуализировать любые приложения, с легкостью распределять ресурсы GPU для выполнения любых задач и обеспечивать максимальную плотность пользователей в VDI-инфраструктуре. Архитектура Pascal разместила процессор и память в одном чипе, обеспечивая этим непревзойденную эффективность вычислений. Главное новшество новой архитектуры - это интеграция ядер Tensor. Предназначенные специально для задач глубокого обучения, ядра Tensor обеспечивают революционную производительность, демонстрируя увеличение пиковых показателей Терафлопс (для тренировки алгоритмов в 12 раз, а для инференса - в 6 раз). Эта ключевая возможность позволяет Volta обеспечивать 3-х кратное ускорение производительности в задачах тренировки и инференса по сравнению с архитектурой предыдущего поколения.

Каждое из 640 ядер Tensor в Tesla V100 может обрабатывать матрицу 4x4, имея собственные пути передачи данных, что ведет к серьезному повышению производительности вычислений с плавающей точкой и высокой энергоэффективности. Графическая память HBM2 DRAM с производительностью до 900 ГБ/с, разработанная совместно с Samsung, увеличивает полосу пропускания на 50% по сравнению с предыдущим поколением. Ядро Volta GV100 взаимодействует с буферной памятью HBM2 по 4096-битной шине (еще архитектура Pascal разместила процессор и память в одном чипе, обеспечивая непревзойденную эффективность вычислений). Тактовая частота ядра Volta GV100 составляет 1455 МГц. Энергопотребление ускорителя Tesla V100 не превышает 300 Вт, что практически сравнимо с показателями ускорителя предыдущей архитектуры Tesla P100).

GPU Volta имеет 640 ядер Tensor, каждое из которых выполняет 64 операции FMA со смешанной точностью за такт. Это обеспечивает производительность в 125 Терафлопс в задачах тренировки алгоритмов и инференса. Это означает, что разработчики могут запускать тренировку алгоритмов глубокого обучения, используя вычисления смешанной точности (FP16 и FP32). Это приводит к 3-х кратному ускорению производительности по сравнению с архитектурой предыдущего поколения и сходимости ожидаемых уровней точности нейросети. Подобный 3-х кратный прирост производительности является ключевым достижением технологии ядер Tensor. Теперь вычисления для задач глубокого обучения занимают всего несколько часов. В задачах инференса Tesla V100 обеспечивает более чем 3-х кратный прирост производительности по сравнению с решениями предыдущего поколения.

Тензорные ядра можно использовать не только в задачах глубокого обучения, но и в любых других, где используются аналогичные операции над матрицами, например, их можно будет использовать и в графических задачах. Нужно только будет раскрыть эти возможности в графических API, хотя даже если они не будут включены в будущие их версии, то у Nvidia всегда есть возможность предложить разработчикам эти функции теми же способами, которые применяются для других специфических технологий компании.

Возможно, использование возможностей этих ядер в игровых чипах будет слишком дорого, и будет слишком редким. Но любом случае, решение за Nvidia, поэтому нужно быть готовыми и к тому, что в игровых Volta этих ядер может и не оказаться. Совсем разделять вычислительные и графические решения нет смысла — они как чисто с технологической точки зрения до сих пор весьма близки, так как выполняют во многом схожие задачи. Знаковой функцией, по крайней мере, для рынка ProViz (рынок профессиональной визуализации), является так называемый гибридный рендеринг, сочетающий в себе методы трассировки лучей и традиционное растрирование. Результатом должна стать возможность добиваться в реальном времени качества графики, близкого к полноценной трассировке лучей.

 


Лицензия