/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fd636e622ffa25120c63df9da4b9424c6.jpg)
Огляд архітектури та особливостей відеокарт NVIDIA RTX 5000 Blackwell
В попередній раз ми згадувалиRTX 3000 Ampere та RTX 4000 Ada. Сьогодні настав час подивитися на нові RTX 5000 Blackwell. Розглянемо особливості відеокарт нового покоління (GDDR7, DLSS), їх SM блоки та нові технології в Тензорних ядрах. Та й скажемо кілька слів про RTX 5070.
Зміст
- 1 Особливості NVIDIA RTX 5000 Blackwell
-
2 Архітектура NVIDIA RTX 5000 Blackwell
- 2.1 Чіп GB202 та SM блоки
- 2.2 Що не так з RTX 5070?
- 2.3 Підсистема пам’яті GDDR7
- 2.4 Тензорні ядра Blackwell 5-го покоління
- 2.5 RT Ядра Blackwell 4-го покоління
- 2.6 Процесор керування AI (AI Management Processor, AMP)
-
3 Deep Learning Super Sampling 4
- 3.1 DLSS 4 Multi Frame Generation
- 3.2 Моделі Transformer в DLSS 4
- 3.3 DLSS Super Resolution (SR)
- 3.4 DLSS Ray Reconstraction (RR)
- 3.5 Deep Learning Anti-Aliasing (DLAA)
Особливості NVIDIA RTX 5000 Blackwell
До основних технологічних та архітектурних нововведень у відеокартах NVIDIA RTX Blackwell можна віднести:
- Нові функції для SM-блоків: RT Core і Tensor Core, покращують і прискорюють можливості нейронної візуалізації. Вони забезпечують подвоєння пропускної здатності для цілочисленної математики за такт порівняно з графічними процесорами RTX 4000 Ada.
- Нові ядра RT 4-го покоління. Значні вдосконалення архітектури ядра RT було внесено в Blackwell, що дає змогу використовувати нові технології трасування променів і нейронної візуалізації.
- Нові Тензорні Ядра 5-го покоління – включають нові можливості FP4, які можуть подвоїти пропускну здатність штучного інтелекту, вдвічі зменшивши вимоги до пам’яті. Також включена підтримка нового FP8 Transformer Engine другого покоління, який використовується для центрів обробки даних.
- NVIDIA DLSS 4. Архітектура Blackwell підтримує АІ генерацію кількох кадрів, яка підвищує частоту кадрів до 2 разів у порівнянні з попередньою версією DLSS 3/3.5, зберігаючи або навіть перевищуючи оригінальну якість зображення та забезпечуючи низькі затримки у систем.
- Процесор керування штучним інтелектом (AMP) – дає змогу вбудовувати АІ моделі в процес класичного рендерингу та паралельно використовувати GPU для графічних навантажень.
- Пам’ять GDDR7 — це новий стандарт пам’яті GDDR із наднизькою напругою, який використовує технологію сигналізації PAM3 (Pulse Amplitude Modulation), включаючи більш швидкісні підсистеми пам’яті та покращення енергоефективності.
- Технологія Mega Geometry – нова технологія RTX, спрямована на різке збільшення геометричних деталей, можливих у програмах із трасуванням променів.
Архітектура NVIDIA RTX 5000 Blackwell
Чіп GB202 та SM блоки
Чіп GB202 – це новий флагманський графічний процесор у відеокартах сьогоднішнього покоління для споживчого ринку. Поки є лише у складі нової графічної карти GeForce RTX 5090. Графічний процесор GB203 використовується у відеокартах GeForce RTX 5080 та GeForce RTX 5070 Ti, а GB205 — у GeForce RTX 5070. Ці графічні процесори базуються на одній базовій архітектурі та налаштовані для різних сегментів ринку.
Про GB205 скажу кілька слів окремо нижче.
Повноцінний графічний процесор GB202 включає 12 кластерів обробки графіки (GPC), 96 кластерів обробки текстур (TPC), 192 потокових мультипроцесори (SM) і 512-розрядний інтерфейс пам’яті з шістнадцятьма 32-розрядними контролерами пам’яті.
GPC є пріоритетним високорівневим апаратним блоком у всіх графічних процесорах сімейства GB20x Blackwell, при цьому всі ключові графічні процесори знаходяться в GPC. Кожен GPC включає спеціальний Raster Engine, два розділи Raster Operations (ROP), причому кожен розділ містить вісім окремих блоків ROP і вісім TPC. Останній своєю чергою включає один PolyMorph Engine і два SM блоки.
У RTX 5090 хоча й стоїть GB202, проте він дещо «порізаний». А саме, вимкнений 1 GPC.
GB202 (повний) | GB202 (RTX 5090) | |
GPC | 12 | 11 |
TPC | 96 | 85 |
SM блоки | 192 | 170 |
CUDA ядра | 24576 | 21760 |
RT ядра | 192 | 170 |
Тензорні ядра | 768 | 680 |
L2 кеш | 128 МБ | 96 МБ |
Кожен SM блок складається зі 128 ядер CUDA, одного RT ядра четвертого покоління, чотирьох тензорних ядер п’ятого покоління, чотирьох блоків текстур, реєстрового файлу розміром 256 КБ і 128 КБ L1/спільної пам’яті.
Зауважте, що кількість можливих цілочисельних операцій INT32 у Blackwell подвоєна порівняно з Ada завдяки їх повній уніфікації з ядрами FP32, як показано на Зображенні №2 нижче. Однак уніфіковані ядра можуть працювати лише як ядра FP32 або INT32 у будь-якому заданому тактовому циклі.
Ще раз нагадаю, що відносно RTX 4000 Ada я робив окрему статтю. Детальніше ви можете прочитати в попередньому матеріалі. Навіть зараз очевидно, що нове покоління буде краще підходити під нові нейронні шейдери та роботи з AI.
Що не так з RTX 5070?
І першим, про що ви могли подумати — Ні, RTX 5070 не рівня RTX 4090. Те, що ця фраза була сказана й показана на презентації є повною нісенітницею. Вона просто занадто слабка для цього. Звісно, якщо увімкнути DLSS 4 з генератором кадрів, то fps зрівняється за показниками оверлею. Першою грою з його підтримкою стала Cyberpunk 2077. Однак, затримки натискання клавіш та артефакти зображення скасовувати не можна.
Зображення №4 та №5. Слайд з презентації та класний жарт. Автор: NVIDIA, IndianGaming.
Наведу таблицю базових характеристик RTX 3070/4070/5070.
RTX 3070 | RTX 4070 | RTX 5070 | |
Чіп GPU | GA104 | AD104 | GB205 |
GPC | 6 | 5 | 5 |
TPC | 23 | 23 | 24 |
SM блоки | 46 | 46 | 48 |
CUDA ядра | 5888 | 5888 | 6144 |
Тензорні ядра | 184 | 184 | 192 |
RT ядра | 46 | 46 | 48 |
Частота GPU | 1725 | 2475 | 2512 |
Шина | 256-bit | 256-bit | 192-bit |
Кількість відеопам’яті | 8 GB GDDR6 | 8 GB GDDR6X | 12 GB GDDR7 |
Тут ми можемо побачити дещо дивне — назва графічного чіпа сильно виділяється. Це GB205. Ось ця остання пʼятірка все руйнує, бо зазвичай, просто не було такої назви у чіпів. Були або xx204, або xx206. Тому я думаю, що RTX 5070 напочатку називалася RTX 5060 або RTX 5060 Ti.
Для тих кому цікаво, у 5070 Ti стоїть той самий чіп, що у RTX 5080 — GB203. І виходить, що немає проміжного GB204, який і повинен був стояти у RTX 5070.
Підсистема пам’яті GDDR7
Відеокарти Blackwell постачаються з новою відеопам’яттю стандарту GDDR7. Вони живляться наднизькою напругою, який використовує технологію сигналізації PAM3 та забезпечує суттєвий прогрес у високошвидкісній конструкції пам’яті. Співпраця NVIDIA з технологічною асоціацією JEDEC, допомогла у створенні PAM3 (Амплітудна Модуляція Імпульсу з трьома рівнями). Саме вона є основоположною технологією високочастотної сигналізації для GDDR7 DRAM.
Перехід від PAM4 (4 рівні передають 2 біти за цикл) у GDDR6X до PAM3 (3 рівні передають 1,5 біта за цикл) у GDDR7, у поєднанні з інноваційною схемою pin-кодування, дозволяє GDDR7 досягти значно покращеного співвідношення сигнал/шум (SNR). Ця еволюція також подвоює кількість незалежних каналів з мінімальними витратами на щільність вводу-виводу.
І ні, це не квантовий компʼютер чи квантова памʼять.
Завдяки збільшеній щільності каналів, покращеному SNR PAM3, розширеним схемам вирівнювання, оновленій архітектурі тактування та вдосконаленому навчанню вводу/виводу GDDR7 забезпечує значно вищу пропускну здатність. GeForce RTX 5090 постачається з пам’яттю GDDR7 28 Гбіт/с і забезпечує пікову пропускну здатність пам’яті 1,792 ТБ/с, тоді як GeForce RTX 5080 постачається з пам’яттю GDDR7 30 Гбіт/с, що забезпечує пікову пропускну здатність пам’яті 960 ГБ/с.
Тензорні ядра Blackwell 5-го покоління
Тензорні ядра Blackwell підтримують операції з FP4, FP6, FP8, INT8, FP16, BF16, TF32. Однак, саме з підтримкою FP4 пов’язана необхідність запускати нові генеративні моделі штучного інтелекту. Ці моделі збільшують вимоги до обчислювальних ресурсів і пам’яті, і через це буває важко запускати такі моделі навіть на новітньому апаратному забезпеченні.
FP4 забезпечує метод нижчого квантування, подібний до стиснення файлів, який зменшує розмір моделі. Порівняно з FP16 (використовується більшістю моделей за замовчуванням), FP4 вимагає менше половини пам’яті, а графічні процесори Blackwell забезпечують у 2 рази більшу продуктивність порівняно з попереднім поколінням. FP4 практично не втрачає якості завдяки розширеним методам квантування, які пропонує NVIDIA TensorRT Model Optimizer.
Простими словами, FP4 дозволяє ефективніше використовувати локальні «нейронки», яким знадобиться менше пам’яті. Крім того, зросте швидкість генерації ціною незначних втрат якості кінцевого результату.
RT Ядра Blackwell 4-го покоління
У графічних процесорах RTX 2000 Turing, RTX 3000 Ampere та RTX 4000 Ada існують спеціальні апаратні блоки для прискорення обходу структури даних Ієрархії Обмежувальних Томів (Bounding Volume Hierarchy, BVH) і виконання обчислень як перетину променів із трикутником (Ray-triangle intersection), так і перетину обмежувальних прямокутників (Ray-bounding box intersection). Підрахунок перетину променів — це складна операція, яка виконується з високою частотою під час візуалізації сцени з трасуванням променів. Ядро RT четвертого покоління забезпечує подвійну пропускну здатність, ніж в Ada.
Ядра RT, які є як у графічних процесорах Ada, так і в Blackwell, включають спеціальний блок, відомий як Opacity Micromap Engine. Механізм Opacity Micromap Engine оцінює Маску Непрозорості (Opacity Mask), яка є звичайним трикутним мешем/сіткою, визначеною за допомогою барицентричної системи координат. Вона використовується для звітування про перетини променів і трикутників.
Інші два блоки (Triangle Cluster Intersection Engine та Triangle Cluster Compression Engine) необхідні для використання нової технології – Mega Geometry. Це нова технологія RTX, спрямована на різке збільшення геометричної деталізації, яка можлива в програмах із трасуванням променів. Зокрема, Mega Geometry дає змогу таким ігровим двигунам, як Unreal Engine 5, які використовують сучасні системи рівня деталізації (Level-of-Detail, LOD), як-от Nanite, відстежувати свою геометрію з повною точністю. Більше не потрібно повертатися до проксі із низькою роздільною здатністю для ефектів трасування променів, що забезпечує нові рівні якості для тіней, відображень і непрямого освітлення.
Різні варіанти примітивів кривих зазвичай використовуються для зображення волосся, хутра, трави та інших «пасмоподібних» об’єктів. Для трасування променів ці примітиви, як правило, реалізуються в програмному забезпеченні за допомогою спеціальних шейдерів перетину. Проте перетин променевої кривої потребує інтенсивних обчислень, що обмежує використання кривих у рендерингу з трасуванням променів у реальному часі та збільшує час візуалізації для офлайн-рендерів.
Blackwell’s RT Core представляє апаратну підтримку перетину променів для нового примітиву під назвою Лінійні розгорнуті сфери (Linear Swept Spheres, LSS). LSS подібна до мозаїчної кривої, але побудована шляхом розгортання сфер у просторі лінійними сегментами. Радіуси сфер можуть відрізнятися між початковою та кінцевою точками кожного сегмента, що дозволяє гнучко апроксимувати різні типи ниток. Звичайні випадки використання, як-от візуалізація волосся на людях, LSS приблизно у 2 рази швидші, а для зберігання геометрії потрібно приблизно в 5 разів менше VRAM.
Зображення №8. Лінійні розгорнуті сфери (Linear Swept Spheres, LSS). Автор: Nvidia.
Процесор керування AI (AI Management Processor, AMP)
Процесор керування AI (AMP) — це повністю програмований планувальник контексту на графічному процесорі, призначений для розвантаження контекстів від CPU до GPU. AMP покращує планування контекстів GPU у Windows, щоб ефективніше керувати різними робочими навантаженнями, що виконуються на GPU. Контекст GPU інкапсулює всю інформацію про стан, необхідну GPU для виконання одного чи кількох завдань.
Кілька контекстів можна використовувати для забезпечення того, що кілька програм можуть одночасно використовувати GPU без конфліктів. Прикладом може бути координація та планування робочих навантажень асинхронної моделі штучного інтелекту, як-от NVIDIA Avatar Cloud Engine (ACE) із моделями мовлення, перекладу, бачення, анімації та поведінки, а також G-Assist, які працюють одночасно з іншими графічними робочими навантаженнями на GPU.
AMP реалізований за допомогою спеціального процесора RISC-V, розташованого на передній частині GPU, і забезпечує швидше планування контекстів графічного процесора з меншою затримкою, ніж попередні методи, керовані CPU.
Архітектура планування Blackwell AMP відповідає архітектурній моделі Microsoft, яка описує настроюване ядро планування на GPU за допомогою Aпаратно-Прискореного Графічного Планування Windows (Hardware-Accelerated GPU Scheduling, HAGS). Він представлений ще в Windows 10 (Оновлення від Травня 2020 р.!). HAGS дозволяє графічному процесору ефективніше керувати власною пам’яттю, зменшуючи затримку та потенційно покращуючи продуктивність в іграх та інших додатках, які інтенсивно працюють із графікою.
Роль AMP полягає в тому, щоб взяти на себе відповідальність за планування завдань GPU, зменшуючи залежність від CPU, який часто є вузьким місцем для продуктивності гри. Насправді дозволивши GPU керувати власною чергою завдань, можна зменшити затримку через менший зворотний зв’язок між графічним і центральним процесором. Це забезпечує більш плавну частоту кадрів в іграх і кращу багатозадачність у Windows, оскільки CPU менш навантажений.
Deep Learning Super Sampling 4
І тут потрібно зробити поправку. Зараз NVIDIA використовує під назвою DLSS кілька технологій. А саме:
- DLSS (Deep Learning Super Sampling) – масштабування зображення з меншої роздільності в потрібну користувачеві;
- MFG (Multi Frame Generation) – той самий генератор додаткових кадрів між реальними;
- RR (Ray Reconstruction) – покращення роботи трасування променів;
- SR (Super Resolution) – також масштабування зображення;
- DLAA (Deep Learning Anti-Aliasing) – технологія згладжування зображення.
Тому доречніше замінити слово Sampling (Семплінг/Відбір) в DLSS на Services (Сервіси). Так буде значно зрозуміліше, як на мене.
Зображення №10. Підтримка нових технологій у різних RTX серіях. Автор: Nvidia.А для тих, кому далі ліньки читати, NVIDIA підготувала спеціальне відео:
DLSS 4 Multi Frame Generation
Технологія генерації кадрів була вперше представлена в архітектурі Ada у 2022 році. Один кадр був згенерований між кожною парою традиційно відтворених кадрів за допомогою поля оптичного потоку разом з векторами руху гри та мережею AI. Архітектура Blackwell дає змогу DLSS Multi Frame Generation підвищувати FPS, генеруючи до трьох додаткових кадрів на кожен традиційно візуалізований кадр.
Нова модель для генерації кадрів на 40% швидша, використовує на 30% менше відеопам’яті та потребує лише одного запуску для відтвореного кадру, щоб створити кілька кадрів. Генерацію поля оптичного потоку було прискорено завдяки заміні апаратного оптичного потоку дуже ефективною моделлю AI.
Моделі Transformer в DLSS 4
DLSS переходить на абсолютно нову архітектуру нейронної мережі, і це приносить багато переваг. Здатність штучного інтелекту класифікувати зображення стала революційною завдяки технології, що називається Згортковою Нейронною Мережею (Convolutional Neural Network, CNN). CNN працюють шляхом локальної генерації пікселів і аналізу даних у формі дерева від нижчого рівня до вищого.
DLSS 4 покращує якість зображення та плавність рендерингу, впроваджуючи потужніші моделі штучного інтелекту на основі Transformer для DLSS Super Resolution, DLSS Ray Reconstruction і Deep Learning Anti-Aliasing (DLAA), навчені суперкомп’ютерами NVIDIA для кращого розуміння та відтворення складних сцен.
Нейронні мережі, які використовують архітектуру Transformer, чудово справляються із завданнями, пов’язаними з послідовними та структурованими даними. Ідея моделей Transformer полягає в тому, що увагу до того, як витрачаються обчислення та як вони аналізуються, мають керувати самі дані, тому нейронна мережа повинна навчитися спрямовувати свою увагу, щоб дивитися на частини даних, які є найцікавішими чи корисними для прийняття рішень.
Transformer також ефективніше масштабується, дозволяючи моделям, які використовуються для DLSS 4, отримувати вдвічі більше параметрів, а також використовувати більше процесорної потужності тензорних ядер для реконструкції зображень із ще кращою якістю для всіх власників RTX.
Результатом цього стає покращена стабільність від одного кадру до іншого, покращена деталізація освітлення та більше деталей у русі. Зміна архітектури нейронної мережі з CNN на Transformer призвела до значного підвищення якості зображення в багатьох сценаріях.
DLSS Super Resolution (SR)
SR підвищує продуктивність, використовуючи штучний інтелект для виведення кадрів вищої роздільної здатності з нижчої. DLSS відбирає кілька зображень з нижчою роздільною здатністю та використовує дані руху та зворотний зв’язок із попередніх кадрів для створення високоякісних зображень. Кінцевий продукт моделі Transformer є стабільнішим у часі з меншою кількістю ореолів, більшою деталізацією зображення в русі та покращеним згладжуванням порівняно з попередніми версіями DLSS.
Зображення №12. Приклад роботи Super Resolution. Автор: Nvidia.DLSS Ray Reconstraction (RR)
RR покращує якість зображення за допомогою штучного інтелекту для створення додаткових пікселів для інтенсивних сцен із трасуванням променів. DLSS замінює налаштовані вручну «шумопоглиначі» мережею штучного інтелекту, навченою суперкомп’ютером NVIDIA, яка генерує пікселі вищої якості між вибірковими променями. У інтенсивному контенті з трасуванням променів модель Transformer для RR отримує ще більше підвищення якості, особливо для сцен зі складним освітленням. Фактично, усі звичайні артефакти типових «шумопоглиначів» значно зменшені.
Зображення №13. Приклад роботи Ray Reconstruction. Автор: Nvidia.Deep Learning Anti-Aliasing (DLAA)
DLAA забезпечує вищу якість зображення за допомогою технології згладжування на основі штучного інтелекту. DLAA використовує ту саму технологію Super Resolution, розроблену для DLSS, створюючи більш реалістичне високоякісне зображення з оригінальною роздільною здатністю.
Як бачимо, попри те, що технологічно зміни між Ada Lovelace та GeForce RTX 5000 Blackwell не є кардинальними, проте весь акцент поставлено на суттєві архітектурні зміни з наголосом на технології штучного інтелекту.
Стаття підготовлена на основі на основі офіційних матеріалів: NVIDIA.
Не забудьте почитати редакційні огляди від ITC.ua про найкращих представників покоління Blackwell:
Огляд відеокарти MSI GeForce RTX 5090 32G SUPRIM SOC: холодний імператор 4К геймінгу
Огляд відеокарти MSI GeForce RTX 5080 16G SUPRIM OC: «крижаний холод» для 4К геймінгу