Nvidia Turing GPU – l'architecture derrière les cartes graphiques RTX 2080 Ti et RTX 2080

Il a fallu un certain temps pour que l'architecture GPU Nvidia Turing de la prochaine génération soit dévoilée, mais nous disposons désormais de tous les détails des puces qui configurent la course des impulsions et alimentent les nouvelles cartes graphiques de la série GeForce RTX.

Nous avions initialement pensé que Nvidia traduirait l’architecture de la Volta en une forme plus conviviale, mais Nvidia a évolué, produisant un nouvel ensemble de GPU discrets pour nos cartes graphiques de jeux sous le nom de Turing. Mais cela ne signifie pas pour autant qu’il s’agit d’un départ complet du design de Volta, comme l’a expliqué Tom Petersen de Nvidia lors du dévoilement de la série RTX 20.

«L’architecture de Volta est en grande partie à Turing», nous a-t-il dit. «Volta est Pascal Plus, Pascal était Maxwell Plus, donc nous ne jetons pas le shader et recommençons, nous sommes toujours en train de peaufiner. Il est donc plus juste de dire que Turing est Volta Plus… un tas de trucs.

Et il y a beaucoup de nouvelles choses qui entrent dans les GPU de Turing, et pas seulement la technologie de traçage des rayons en temps réel qui a fait la une de tous les messages depuis sa première démonstration.

Statistiques vitales

Nvidia Turing date de sortie
Les premières cartes Turing ont été annoncées à SIGGRAPH en août 2018 sous le nom de Quadro RTX, avec les cartes GeForce RTX dévoilées à Gamescom peu après. Mais les cartes grand public ont été lancées en premier, avec la RTX 2080 et la RTX 2080 Ti en vente en septembre.

Nvidia Turing spécifications
Il y a trois GPU distincts dans la première vague de puces Turing. Le GPU TU102, doté de toutes les fonctionnalités, dispose de 72 SM avec 4 608 cœurs CUDA. Il contient également 576 noyaux de tenseurs centrés sur l’AI et des noyaux RT de traçage à 72 rayons. Les GPU TU104 et TU106 se logent en dessous, avec respectivement 3 072 et 2 304 cœurs CUDA. Vous bénéficiez également de la prise en charge de la mémoire GDDR6.

Nvidia Turing architecture
Les GPU Turing ont été conçus avec un accent particulier sur le rendu basé sur le calcul, car ils associent le matériel de rendu rasterisé traditionnel à l’IA et au silicium centré sur le traçage des rayons. Les différents SM de Turing ont également été repensés pour offrir une amélioration de 50% des performances par rapport à la conception Pascal SM.

Prix ​​Nvidia Turing
Si vous voulez le summum du matériel Turing, alors le Quadro RTX 8000 est celui qu'il vous faut, même s'il vous coûtera 10 000 $. Cela fait en sorte que les 1 199 $ de la carte d’édition du fondateur de la GeForce RTX 2080 Ti semblent être une bonne affaire. Le moins cher des GPU Turing annoncés, le RTX 2070, coûte 499 $ pour la carte de référence.

Nvidia Turing performance
Nous avons maintenant une idée complète de la performance des GPU Turing en rendu traditionnel avec les benchmarks RTX 2080 et RTX 2080 Ti présentés dans nos revues des deux cartes. Mais le traçage des rayons en temps réel et le potentiel de l'IA ne sont pas encore visibles.

Nvidia Turing date de sortie

La première fois que vous pourrez mettre la main sur les cartes graphiques basées sur Turing de Nvidia, ce sera lorsque les RTX 2080 Ti et RTX 2080 seront lancées le 20 septembre 2018, bien que la disponibilité générale pour la carte supérieure ait été retardée jusqu’à une semaine plus tard. Les cartes Quadro RTX de niveau professionnel, avec les GPU Turing TU102 et TU104, deviendront disponibles plus tard au quatrième trimestre de 2018.

Le vrai Turing

L’architecture de Turing de Nvidia porte le nom du célèbre mathématicien et informaticien britannique Alan Turing. Turing est connu dans le monde entier pour ses réalisations en brisant le code crypté de la machine allemande Enigma pendant la Seconde Guerre mondiale, en développant une machine pivot qui a conduit à l’informatique actuelle et le test de Turing pour déterminer si une machine est intelligente.

Alan Turing

La nouvelle architecture du GPU a été annoncée pour la première fois à SIGGRAPH, où les cartes Quadro RTX ont fait leurs débuts, mais Jen-Hsun Huang a présenté les premières cartes graphiques GeForce RTX sur scène lors d’un événement pré-show. .

Une troisième carte graphique Turing a également été annoncée, la RTX 2070, bien que sa sortie soit prévue pour les deux GPU phares, avec une fenêtre de lancement d’octobre 2018 maintenant confirmée. Nous nous attendons à ce que ce soit vers la fin du mois, probablement le 20 octobre, si Nvidia respecte les récentes traditions d’annonce et de publication des dates.

Il est intéressant de noter que Nvidia a lancé ses GPU Turing grand public avec ses propres cartes Founded’s Edition overclockées, mais compte sur ses partenaires de cartes graphiques pour publier les versions synchronisées le même jour. C'est la première fois dans une mémoire récente que Nvidia a lancé avec ses partenaires une nouvelle génération de cartes graphiques.

Nvidia Turing spécifications

La fiche technique de Turing permet une lecture fascinante. Ce sont des moniteurs GPU, avec même la puce TU106 de troisième niveau mesurant quelque 445 mm2. C’est juste un tout petit peu plus petit que la puce GP102 haut de gamme qui alimentait les cartes GTX 1080 Ti et Titan de la génération précédente. Le TU102 à l’autre extrémité de l’échelle de Turing mesure 754 mm2 et contient près de 19 milliards de transistors de 12 nm.

Le TU102 dispose de 72 multiprocesseurs (SM) en continu avec 64 cœurs FP32 et 64 cœurs INT32, soit un total de 4 608 cœurs CUDA répartis sur six clusters de traitement général (GPC) distincts.

Quadro RTX 8000 RTX 2080 Ti RTX 2080 RTX 2070 GTX 1080 Ti
GPU TU102 TU102 TU104 TU106 GP102
GPC 6 6 6 6 6
SM 72 68 46 36 28
CUDA Cores 4608 4352 2944 2304 3584
Noyaux de tenseurs 576 544 368 288 N / A
RT Cores 72 68 46 36 N / A
Mémoire 48 Go GDDR6 11 Go de GDDR6 8 Go GDDR6 8 Go GDDR6 11 Go de GDDR5X
Bus de mémoire 352 bits 352 bits 256 bits 256 bits 352 bits
Vitesse de la mémoire 14 Gbps 14 Gbps 14 Gbps 14 Gbps 11 Gbps
ROPs 96 88 64 64 88
Unités de texture 288 272 184 144 224
TDP 260W 260W 225W 185W 250W
Transistors 18,6 milliards 18,6 milliards 13,6 milliards 10,8 milliards 12 milliards
Lithographie 12nm FFN 12nm FFN 12nm FFN 12nm FFN 16nm
Taille de la matrice 754mm2 754mm2 545mm2 445mm2 471mm2

Chaque SM possède également un seul RT Core et huit Tensor Cores. Il s’agit des blocs de silicium dédiés au calcul du traçage des rayons en temps réel et des charges de travail spécifiques à l’IA. Cela signifie que la puce TU102 complète contient 72 cœurs RT et 576 cœurs de tension.

Nous continuons à faire référence à la «puce TU102 complète» car le RTX 2080 Ti n’est pas livré avec le GPU complet. Il manque 4 SM du décompte final de 68 SM du RTX 2080 Ti et, par conséquent, la carte GeForce RTX supérieure compte 256 noyaux CUDA de moins que les cartes Quadro RTX 6000 et RTX 8000 qui utilisent le TU102.

Turing TU102 PCB

Turing TU104 PCB

La situation est similaire avec le GPU TU104 utilisé à la fois dans le Quadro RTX 5000 et le GeForce RTX 2080. La puce intégrale compte 48 SM et 3 072 cœurs CUDA, mais il existe deux SM dédiés au GPU du RTX 2080. .

Turing TU102 Die

Turing TU104 DiE

Le TU106, cependant, n'apparaît que dans le RTX 2070, et il affiche le GPU complet sans rien manquer. Il abrite 36 SM avec 2 304 noyaux CUDA, 288 noyaux de tenseurs et 36 noyaux RT.

Alors que le design SM est identique pour les trois GPU Turing annoncés jusqu'à présent, la composition réelle des différentes puces est très différente. À l’origine, nous nous attendions à ce que le RTX 2080 et le RTX 2070 partagent le même GPU, mais seulement avec quelques coupures pour créer l’option de troisième niveau. Mais les puces TU104 et TU106 sont assez différentes dans leur conception, tout comme les TU102 et TU104.

GPU Nvidia Turing TU106

En fait, le TU106 est plus similaire au TU102, seulement divisé en deux. Les GPU TU102 et TU106 ont 12 SM dans chaque GPC, tandis que le TU104 en a seulement huit. Cela signifie que les puces RTX 2080 Ti et RTX 2080 sont équipées de six GPC, mais avec moins de SM dans la plus petite puce.

Mais les trois GPU Turing conservent la prise en charge de la nouvelle mémoire GDDR6, avec 11 Go de GDDR6 à 14 Gbit / s et un bus mémoire de 352 bits dans le RTX 2080 Ti et 8 Go de GDDR6 et 256 bits de mémoire. Cartes 2080 et RTX 2070.

Nvidia Turing architecture

Nvidia Turing architecture

Les nouvelles GPU Nvidia Turing présentent des différences architecturales majeures qui les distinguent de la génération précédente de cartes graphiques grand public Pascal. Ils s'apparentent plus à la génération de GPU de Volta, mais avec des différences importantes par rapport à celles-ci.

Outre les capacités de traçage de rayons en temps réel des nouvelles puces, de nombreuses techniques de rendu accélèrent les performances de jeu, ainsi que de nouvelles méthodes permettant d’utiliser la puissance AI des Nvidia Tensor Cores dans les jeux PC. Tous les potentiels de ces capacités ne seront pas réalisés immédiatement, ce qui pourrait donner à cette génération de GPU le genre d’approche de vins fins normalement attribuée aux cartes graphiques d’AMD.

L'une des principales différences architecturales réside dans les modifications apportées au multiprocesseur (SM) de diffusion en continu du GPU Turing. Le nouveau chemin de données indépendant des nombres entiers peut ne pas sembler extrêmement intéressant, mais cela signifie que, au lieu de faire consécutivement des instructions à virgule flottante et à nombre entier, cela signifie qu'ils peuvent fonctionner simultanément.

Exécution simultanée de Nvidia

Votre carte graphique passe le plus clair de son temps à faire des calculs en virgule flottante, mais Nvidia a constaté qu'en moyenne, lorsque vous jouez, votre GPU traitera environ 36 instructions entières pour 100 instructions en virgule flottante. Avec Pascal, cela signifiait que chaque fois que les cœurs entiers étaient utilisés, les cœurs de FP étaient inactifs, ce qui entraînait des pertes de performances.

Que diable font ces morceaux supplémentaires de silicium AI dans ma carte de jeu?

Avec Turing, les deux peuvent être actifs en même temps, ce qui signifie qu’il ne devrait jamais y avoir de temps pendant lequel les cœurs INT32 et FP32 tournent leur pouce en attendant que l’autre termine ce qu’ils font. C’est ce qui explique en grande partie l’augmentation de 50% des performances du SM Turing par rapport à Pascal.

Bien que Nvidia ait également amélioré l’architecture de la mémoire, unifiant la conception de la mémoire partagée, elle permet au GPU d’allouer de manière dynamique le cache L1 en le doublant lorsque la capacité est disponible. La capacité de L2 sur Turing a également été doublée.

Dans chacun des SM Turing, vous obtenez huit noyaux de tension. Ce sont les noyaux centrés sur l'IA conçus pour l'inférence et la mastication à travers des algorithmes d'apprentissage en profondeur à un rythme jamais vu en dehors de l'espace professionnel. Vous pouvez demander à juste titre: «Que font ces morceaux supplémentaires de silicium AI dans ma carte de jeu?» Avec l’introduction de la technologie NGX (Neural Graphics Acceleration) de Nvidia, l’apprentissage en profondeur peut améliorer les jeux.

Turing Tensor Core

À l'heure actuelle, le seul avantage tangible est le DLSS (Deep Learning Super Sampling), une fonctionnalité de post-traitement basée sur l'IA qui améliore l'apparence de l'anti-alias temporel (TAA) tout en améliorant les performances. Gagner, gagner, non? Dans sa forme la plus simple, DLSS utilise les données d’image téléchargées dans les pilotes Nvidia, les transmet aux Tensor Cores de votre GPU Turing et permet aux petits systèmes intelligents de votre carte graphique de remplir les blancs d’un jeu compatible avec beaucoup moins d’échantillons que TAA. Besoins. Essentiellement, il n’a plus besoin de rendre chaque pixel car il sait simplement ce que devrait être ce pixel, car il a appris à quoi les jeux devraient ressembler quand ils sont mis à l’échelle.

Nvidia obtient ces données en alimentant son supercalculateur Saturn V avec des millions d’images provenant de ce jeu spécifique, et d’autres similaires, à des résolutions très élevées, afin qu’il puisse apprendre à quoi doit ressembler une image haute résolution. Les images qu’elle utilise sont toutes des super-échantillonnages 64x, puis une fois que Saturn V a appris à recréer une image correspondant aux images super haute résolution, elle est prête à rouler.

Nvidia DLSS

Ensuite, au niveau local, votre GPU Turing sera capable de créer des images fluides et sans à-coup dans le jeu à la volée en utilisant les Tensor Cores pour déduire les détails sans avoir besoin du nombre d’échantillons que le TAA fait. temps. Il peut également réparer les images parfois floues ou cassantes que vous pouvez obtenir avec TAA, tout en rendant les jeux compatibles plus rapides que lorsqu'ils utilisent TAA.

À l'avenir, ces cœurs Tensor pourront utiliser leurs connaissances pour accélérer la véritable IA dans les jeux.

Il y a au total 25 jeux en développement actuellement qui supporteront DLSS. Malheureusement, nous ne savons pas quand ce support apparaîtra.

À l'avenir, cependant, ces cœurs Tensor pourront utiliser leur intelligence pour accélérer l'authenticité de l'IA dans les jeux, via l'API WinML de Microsoft, et fournir des images super lentes pour les rediffusions et les mises en surbrillance et d'autres fonctionnalités intéressantes basées sur l'IA nous n'avons même pas encore pensé. J'aime l’IA, je pense que les robots sont sympas et je suis impatient d’en avoir un sur mon PC. Jusqu'à ce qu'il se lève inévitablement et m'asservit, obvs.

Nvidia Turing RT Cores

C’est tout ce qui aidera le rendu traditionnel des jeux, mais l’architecture de Turing introduit également la prochaine génération de rendu graphique, le traçage des rayons en temps réel.

Intel, AMD et Nvidia ont tous fait des démonstrations de traçage des rayons sur leur matériel pendant des années, Intel ayant même montré que des jeux complets tournaient sur leur technologie. Mais Nvidia est le premier à faire la démonstration de jeux qui seront sortis avec des fonctions de lancer de rayons à l'intérieur, fonctionnant réellement en temps réel. Les nouveaux RT Cores ne vont pas vous donner des jeux entièrement retracés, mais Nvidia utilise la nouvelle API Microsoft DirectX Raytracing pour accélérer une technique de rendu hybride. Cela permet aux moteurs de jeu d'utiliser l'efficacité de la pixellisation et la précision du traçage des rayons pour équilibrer la fidélité et la performance.

Les premiers jeux auxquels nous avons joué en utilisant la nouvelle technique sont Shadow of the Tomb Raider et Battlefield 5, qui l’utilisent tous deux de différentes manières. Lara utilise la technologie pour tracer ses ombres et son éclairage en temps réel, tandis que DICE les utilise pour retracer les réflexions précises sur l’ensemble de son univers.

Turing permet de faire en temps réel des fermes de rendu entières sur un seul GPU. Pour ce faire, il utilise un silicium dédié ainsi qu’un pipeline de rendu redessiné, permettant de réaliser simultanément le tramage et le tramage.

Algorithme Nvidia BVH

Mais ce silicium dédié est l’un des plus grands changements apportés à l’architecture GPU de Turing et il s’agit de cœurs à fonctions fixes conçus pour accélérer la technique spécifique qui est devenue la norme de l’industrie pour le traçage des rayons – la hiérarchie des volumes limites (BVH).

“Il n’ya pas si longtemps, il existait de nombreuses technologies concurrentes pour le lancer de rayons”, a récemment déclaré Tom Petersen, de Nvidia. «Au cours des dernières années, BVH est clairement devenu un excellent moyen de réaliser cette sorte de projection et d’intersection de la géométrie.

“Donc, une fois que vous connaissez l’algorithme, il s’agit de savoir comment vous allez tracer cet algorithme sur le matériel et que ce problème est assez compliqué. Je dirais que Turing est ce que c'est principalement parce que nous savons que la technologie est à la bonne intersection et que nous obtenons d'excellents résultats.

Battlefield 5 tracing dans les yeux

BVH est le processus par lequel le matériel peut suivre le parcours de rayons de lumière individuels générés dans une scène, ainsi que le point exact auquel chaque rayon intersecte des objets. L'algorithme vérifie les cases toujours plus petites d'un objet cible pour déterminer son mouvement dans une scène, en testant et en testant jusqu'à ce que le rayon frappe finalement un objet. Ensuite, il doit continuer à vérifier si l’objet a été frappé. Actuellement, tout cela est fait avec le silicium standard à l’intérieur de chaque SM, le liant en calculant les milliards de rayons nécessaires pour créer un effet de rayon crédible. Les noyaux RT, cependant, déchargent ce travail du SM, le laissant à son travail traditionnel et accélérant massivement tout le processus.

Il y a deux unités spécifiques à l'intérieur du Core Core: l'une effectue tous les calculs de la boîte englobante et la seconde effectue les tests d'intersection en triangle, c'est-à-dire que sur un objet, le rayon en question le frappe.

L’exemple est que la GTX 1080 Ti peut suivre avec précision environ 1 milliard de rayons de lumière par seconde, tandis que le RTX 2080 à prix équivalent peut traiter 8 milliards de rayons. Le raccourci de Nvidia pour ceci est noté comme Giga Rayons par seconde et le RTX 2080 Ti peut gérer plus de 10 milliards de rayons, soit 10 Giga-Rayons par seconde.

Nvidia Turing VRS

Outre le nouveau matériel contenu dans les GPU Turing, Nvidia a également créé un ensemble de nouvelles techniques de rendu permettant d’améliorer la fidélité visuelle d’un monde de jeu et / ou d’améliorer les performances d’un moteur de jeu. Le premier est l'introduction de Mesh Shading dans le pipeline graphique, une fonctionnalité qui réduit le goulot d'étranglement du processeur pour le traitement des différents objets d'une scène et permet à un monde de jeu d'avoir beaucoup plus d'objets sans performance. du processeur pour chacun d'eux.

Cette méthode réduira énormément la pression exercée sur le système pour rendre une scène VR haute résolution.

Le VRS (Variable Rate Shading) est un outil potentiellement incroyablement puissant qui réduit la quantité d’ombrage nécessaire dans une scène de jeu en permettant au GPU Turing de segmenter l’écran en régions de 16 pixels par 16 pixels et de leur donner un effet différent. taux d'ombrage. VRS offre aux développeurs sept taux d'ombrage différents, à partir desquels tous les pixels sont ombrés, tandis que le processeur graphique ne doit masquer que 16 pixels sur 256 dans une région.

VRS est ensuite divisé en trois cas d'utilisation différents: l'ombrage adaptatif du contenu, l'ombrage adaptatif du mouvement et le rendu fové. Le dernier est spécifiquement destiné à réduire le poids du rendu VR en ne permettant que le rendu de la mise au point des yeux du spectateur en détail, la périphérie étant rendue plus détaillée. Avec le suivi des yeux dans la RV, cette méthode réduira énormément la pression exercée sur le système pour rendre une scène VR haute résolution.

Nvidia Turing Content Adaptative Shading

Le filtrage adaptatif de contenu est une étape de post-traitement ajoutée à la fin de l'image actuelle, qui permet au GPU de comprendre la quantité de détails dans les différentes régions de cette image et d'ajuster le taux d'ombrage en conséquence pour les images suivantes. Si une région ne contient pas beaucoup de détails, comme un mur plat, par exemple, le taux d’ombrage peut être réduit, mais s’il est élevé, il peut être rendu dans son intégralité.

Motion Shaft adaptatif peut être utilisé avec Content Adaptive Shading, et travaille sur l'idée qu'il est inutile, en termes d'ombrage, de rendre les régions qui se déplacent rapidement de manière détaillée car l'œil ne peut pas se concentrer sur elles. Un jeu de conduite est un bon exemple, où le passage du passé sur le terrain n’est pas obligatoirement rendu dans son intégralité car il est à peine noté par l’œil, alors que le centre de l’écran, le centre de la vue, doit être entièrement rendu.

Il existe d'autres nouvelles fonctionnalités dans Turing, telles que la simulation acoustique et le rendu multi-vues pour VR, et l'ombrage de l'espace de texture pour améliorer le temps de rendu en réutilisant les calculs de rendu précédemment terminés pour une texture spécifique.

En résumé, l’architecture du GPU de Turing contient beaucoup de nouveautés qui pourraient améliorer les performances des GPU de l’année prochaine.

Prix ​​Nvidia Turing

Prix ​​Nvidia Turing

Donc oui, si vous voulez le summum absolu des performances de Turing, alors vous voulez vous procurer une carte Quadro RTX 8000, avec le GPU TU102 plein et 48 Go de mémoire GDDR6. Bien sûr, vous recherchez un prix public d’environ 10 000 $ pour cela, et le même GPU avec 24 Go de mémoire, le Quadro RTX 6000, coûte plus de 6 000 $.

Ce qui fait que Nvidia demande 1 199 $ (1 099 £) pour l’édition du Fondateur, la GeForce RTX 2080 Ti semble plutôt raisonnable. Eh bien, presque. Il se peut qu’il y ait éventuellement des versions cadencées de la RTX 2080 Ti pour le prix de détail suggéré de 999 $, mais cela ne se produira pas tant que l’offre n’aura pas augmenté et que la demande diminuera après le lancement.

Le RTX 2080 est un peu plus abordable, à 799 $ (749 £) pour l’édition de Founder’s et à un PDSF de base de 699 $ pour les cartes à horloge de référence.

Nvidia Turing performance

Nvidia Turing performance

Nous avons maintenant comparé les premiers GPU Turing aux jeux traditionnels et les performances varient entre des performances sans précédent – pour le RTX 2080 Ti Titan-esque – et quelque chose de plus familier. Oui, le RTX 2080 Ti peut être spectaculaire, mais le RTX 2080 ne gère que quelques images par seconde en plus de la GTX 1080 Ti. Qui est une carte plus ancienne et moins chère.

Rayon des étoiles Star Wars sur RTX 2080

Mais c’est la performance des pistes qui sera très intéressante à l’avenir. Le lancer de rayons est une charge de travail extrêmement exigeante pour toute carte graphique de la génération actuelle. Cette technique de rendu trace les chemins de lumière interagissant avec les objets virtuels pour capturer beaucoup plus de détails et de réalisme dans la scène terminée. Le lancer de rayons capture beaucoup mieux les ombres, les réflexions, la réfraction et l'éclairage global que les techniques de rendu actuelles, qui nécessitent souvent des solutions pour obtenir les mêmes résultats avec moins de demande de calcul.

Un seul Nvidia RTX 2080 ou 2080 Ti peut exécuter la démo de réflexions Unreal Engine 4 en temps réel, ce qui est incroyable. Cela fait 70 000 dollars pour la technologie Volta – les puces Turing RTX distillent toutes ces performances en un seul GPU.

Ce n’est pas l’enchilada complète, cependant, la démo est un peu plus complète que la version complète, mais elle est tout de même étonnante si elle est un peu plus bruyante. Il ya probablement moins de rayons et dépend plus fortement du débruitage basé sur DLSS.

UL présentera une nouvelle démo 3DMark Ray Tracing avant la fin de l’année, et nous en avons eu une première démonstration sur notre plate-forme de test. Bien que ce ne soit pas censé être représentatif des performances finales, le RTX 2080 Ti tournait à environ 45 images par seconde en 1080p. Voyez-vous, dit Ray Tracing était intensif…

Acheter maintenantTuile Nvidia
Tags

Leave a Reply

Your e-mail address will not be published. Required fields are marked *

Close
Close