Тесла (микроархитектура) - Tesla (microarchitecture)

Nvidia Tesla
Графический процессор Nvidia Tesla
Дата выходаНоябрь 2006 г.
Процесс изготовления90 нм, 80 нм, 65 нм, 55 нм и 40 нм
История
ПредшественникКюри
ПреемникФерми

Тесла это кодовое имя для графического процессора микроархитектура разработан Nvidia, и выпущен в 2006 году в качестве преемника их предыдущих микроархитектур. Он был назван в честь первого инженера-электрика. Никола Тесла. В качестве первой микроархитектуры Nvidia для реализации унифицированных шейдеров она использовалась с GeForce 8 серии, GeForce 9 серии, GeForce 100 серии, GeForce 200 серии, и GeForce 300 серии графических процессоров, совместно производимых на 90 нм, 80 нм, 65 нм, 55 нм и 40 нм. Это тоже было в GeForce 405 и в Quadro FX, Quadro x000, серии Quadro NVS и Nvidia Tesla вычислительные модули.

Tesla заменила старый фиксированный трубопровод микроархитектуры, представленные на момент внедрения GeForce 7 серии. Он напрямую конкурировал с первой унифицированной шейдерной микроархитектурой AMD под названием TeraScale, развитие работы ATI над Xbox 360 который использовал похожий дизайн. За Теслой последовал Ферми.

Обзор

Tesla - первая микроархитектура Nvidia, реализующая унифицированная шейдерная модель. Драйвер поддерживает Direct3D 10 Шейдерная модель 4.0 / OpenGL 2.1 (более поздние версии драйверов поддерживают OpenGL 3.3). Дизайн представляет собой серьезный сдвиг для NVIDIA в функциональности и возможностях графического процессора, наиболее очевидным изменением является переход от отдельных функциональных блоков (пиксельные шейдеры, вершинные шейдеры) в предыдущих графических процессорах к однородному набору универсальных плавающая точка процессоры (называемые «потоковыми процессорами»), которые могут выполнять более универсальный набор задач.

Графический процессор NVIDIA G80
Снимок графического процессора GT200 внутри карт NVIDIA GeForce GTX 280, основанных на микроархитектуре Tesla

Унифицированная шейдерная архитектура GeForce 8 состоит из ряда потоковые процессоры (СП). в отличие от векторная обработка подход, принятый со старыми шейдерными модулями, каждый SP скаляр и поэтому может работать только с одним компонентом за раз. Это делает их менее сложными в сборке, но при этом остается довольно гибкими и универсальными. Скалярные шейдерные блоки также имеют то преимущество, что в ряде случаев они более эффективны по сравнению с предыдущим поколением. вектор шейдерные блоки, которые полагаются на идеальное сочетание инструкций и упорядочение для достижения максимальной пропускной способности. Более низкая максимальная пропускная способность этих скалярных процессоров компенсируется эффективностью и работой их на высокой тактовой частоте (что стало возможным благодаря их простоте). GeForce 8 запускает различные части своего ядра с разными тактовыми частотами (тактовыми доменами), аналогично работе предыдущего Графические процессоры серии GeForce 7. Например, потоковые процессоры GeForce 8800 GTX работают с тактовой частотой 1,35 ГГц, а остальная часть чипа работает с частотой 575 МГц.[1]

GeForce 8 работает значительно лучше Фильтрация текстур чем его предшественники, которые использовали различные оптимизации и визуальные приемы для ускорения рендеринга без ухудшения качества фильтрации. Линия GeForce 8 корректно отображает не зависящую от угла Анизотропная фильтрация алгоритм вместе с полным трилинейная фильтрация текстур. G80, хотя и не его меньшие собратья, обладает гораздо большей арифметической способностью фильтрации текстур, чем серия GeForce 7. Это обеспечивает высококачественную фильтрацию с гораздо меньшим падением производительности, чем раньше.[1]

NVIDIA также представила новое ребро полигона сглаживание методы, включая возможности графического процессора ROP выполнять оба Мультисэмпловое сглаживание (MSAA) и HDR-освещение одновременно, исправляя различные ограничения предыдущих поколений. GeForce 8 может выполнять MSAA с форматами текстур FP16 и FP32. GeForce 8 поддерживает 128-битную HDR рендеринг, увеличение по сравнению с 64-битной поддержкой предыдущих карт. Новая технология сглаживания чипа, называемая AA выборки покрытия (CSAA), использует информацию о Z, цвете и покрытии для определения окончательного цвета пикселя. Этот метод оптимизации цвета позволяет 16X CSAA выглядеть четким и резким.[2]

Спектакль

Заявленные теоретические одинарная точность вычислительная мощность для карт на базе Tesla указана в ФЛОПЫ может быть трудно достичь в реальных рабочих нагрузках.[3]

В G80 / G90 / GT200 каждый потоковый мультипроцессор (SM) содержит 8 шейдерных процессоров (SP, или унифицированный шейдер, или CUDA Core) и 2 специальных функциональных блока (SFU). Каждый SP может выполнять до двух операций с одинарной точностью за такт: 1 умножение и 1 сложение с использованием одного СУМАСШЕДШИЙ инструкция. Каждый SFU может выполнять до четырех операций за такт: четыре инструкции MUL (умножение). Таким образом, один SM в целом может выполнять 8 MAD (16 операций) и 8 MUL (8 операций) за такт или 24 операции за такт, что (условно говоря) в 3 раза больше количества SP. Таким образом, для расчета теоретической производительности MAD + MUL с двойной выдачей в операциях с плавающей запятой в секунду [ФЛОПЫsp + sfu, GFLOPS ] видеокарты с подсчетом SP [п] и частота шейдеров [ж, ГГц] формула: ФЛОПЫsp + sfu = 3 × n × f.[4][5]

Однако использование производительности с двумя задачами, например MAD + MUL, проблематично:

  • Двойная выдача MUL недоступна в графическом режиме на G80 / G90,[6] хотя в GT200 он был значительно улучшен.[7]
  • Не все комбинации инструкций, такие как MAD + MUL, могут выполняться параллельно на SP и SFU, потому что SFU довольно специализирован, поскольку он может обрабатывать только определенное подмножество инструкций: 32-битное умножение с плавающей запятой, трансцендентные функции, интерполяция для параметра смешивание, обратный, обратный квадратный корень, синус, косинус и т. д.[8]
  • SFU может быть занят в течение многих циклов при выполнении этих инструкций, и в этом случае он недоступен для инструкций MUL с двойной выдачей.[4]

По этим причинам для оценки производительности реальных рабочих нагрузок может быть более полезным игнорировать SFU и принимать только 1 MAD (2 операции) на SP за цикл. В этом случае формула для расчета теоретической производительности операций с плавающей запятой в секунду выглядит следующим образом: ФЛОПЫзр = 2 × n × f.

Теоретическая двойная точность вычислительная мощность графического процессора Tesla составляет 1/8 производительности одинарной точности на GT200; на G8x и G9x нет поддержки двойной точности.[9]

Распаковка / сжатие видео

NVDEC

NVENC

NVENC был представлен только в более поздних чипах.

Чипсы

Тесла 1.0

• 8800 GTX

• 8800 Ultra

Тесла 2.0

  • GT200
  • GT215
  • GT216
  • GT218

Рекомендации

  1. ^ а б Уоссон, Скотт. Графический процессор NVIDIA GeForce 8800 В архиве 15 июля 2007 г. Wayback Machine, Tech Report, 8 ноября 2007 г.
  2. ^ Sommefeldt, Rys.NVIDIA G80: анализ качества изображения, Beyond3D, 12 декабря 2006 г.
  3. ^ «Beyond3D - графический процессор NVIDIA GT200 и анализ архитектуры».
  4. ^ а б Ананд Лал Шимпи и Дерек Уилсон. «Дерек становится техническим специалистом: возвращение технологии ткацких станков 15 века - графический процессор NVIDIA на 1,4 миллиарда транзисторов: GT200 представлен как GeForce GTX 280 и 260».
  5. ^ Ананд Лал Шимпи и Дерек Уилсон. «G80: обзор высотой в милю - NVIDIA GeForce 8800 (G80): графические процессоры, переработанные для DirectX 10».
  6. ^ Sommefeldt, Rys. NVIDIA G80: Архитектура и анализ графического процессора - Страница 11, Beyond3D, 8 ноября 2006 г.
  7. ^ «Краткий технический обзор архитектуры графического процессора NVIDIA GeForce GTX 200» (PDF). Май 2008. с. 15. Получено 5 декабря 2015. Отдельные ядра потоковой обработки графических процессоров GeForce GTX 200 теперь могут почти на полной скорости выполнять двойные операции умножения-сложения (MAD) и MUL (3 флопа / SP).
  8. ^ Кантер, Дэвид (8 сентября 2008 г.). «NVIDIA GT200: внутри параллельного процессора». Технология реального мира. п. 9.
  9. ^ Смит, Райан (17 марта 2015 г.). «Обзор NVIDIA GeForce GTX Titan X». АнандТех. п. 2.

внешняя ссылка