Langages de programmation de haut niveau
Calcul généraliste sur carte graphique - Du rendu au calcul massivement parallèle

TE5990 v2 Article de référence

Langages de programmation de haut niveau
Calcul généraliste sur carte graphique - Du rendu au calcul massivement parallèle

Auteur(s) : Dominique HOUZET

Relu et validé le 27 sept. 2023 | Read in English

Cet article est réservé aux abonnés

Pour explorer cet article plus en profondeur Consulter l'extrait gratuit

Déjà abonné ?Se connecter

Sommaire
Médias

Présentation

1 - Du CPU au GPGPU

1.1 - Évolution du CPU vers le parallélisme
1.2 - Évolution des cartes graphiques

2 - Architecture actuelle NVIDIA et ATI/AMD pour le calcul généraliste

2.1 - Multiprocesseurs

Figure 1 - Diagramme du GM200 (NVIDIA) Figure 2 - Diagramme du Fiji (AMD)
2.2 - Modèles des mémoires
2.3 - Modèles d’exécution

3 - Langages de programmation de haut niveau

3.1 - OpenCL
3.2 - CUDA/PTX

4 - Programmation avec CUDA

4.1 - Extensions du langage
4.2 - Noyaux
4.3 - Grille, blocs et threads
4.4 - Gestion de la mémoire globale
4.5 - Gestion de la mémoire partagée
4.6 - Mémoire constante 1D
4.7 - Mémoire de textures
4.8 - Mémoire système
4.9 - Bon usage de la mémoire
4.10 - Contrôle de l’exécution et communication des threads
4.11 - Programmation C++
4.12 - Exemple détaillé : simulation de particules

Tableau 1 Tableau 2 Tableau 3 Tableau 4
4.13 - Problèmes de performances
4.14 - Progammation par librairies
4.15 - GPU embarqué

5 - Évolutions

5.1 - Matériels
5.2 - Abstractions logicielles

6 - Conclusion

7 - Glossaire

8 - Sigles, notations et symboles

Bibliographie & annexes

Présentation

RÉSUMÉ

Cet article s'intéresse à l'architecture et à la programmation des cartes graphiques dans le but de réaliser des calculs. L'évolution des processeurs vers le parallélisme est décrite, puis celle des cartes graphiques vers la programmation généraliste et le calcul massivement parallèle. Les principales architectures des cartes graphiques et les outils logiciels disponibles pour les programmer sont exposées. Une description plus détaillée des cartes NVIDIA, du langage de programmation CUDA et des librairies associées est effectuée, suivie d'un exemple de programmation et d'optimisation. Pour finir, un aperçu des résultats obtenus et des évolutions techniques possibles est donné.

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

Auteur(s)

Dominique HOUZET : Professeur des Universités - Grenoble-INP, Grenoble, France

INTRODUCTION

L’évolution des cartes graphiques ces dernières années se caractérise par un parallélisme massif et par la généricité de programmation.

Augmenter le parallélisme a permis une augmentation du débit du rendu à la fois par la multiplication de la fréquence d’images générées et par l’accroissement en taille de ces dernières. La généricité a facilité l’émergence de nouveaux effets de rendu en temps réel grâce à l’apparition de composants programmables comme les unités de pixellisation et de géométrie programmables (programmable pixel shaders units).

Ces deux facteurs réunis ont rendu les cartes graphiques actuelles très attractives pour réaliser des calculs intensifs dépassant le cadre du rendu visuel. La puissance de crête d’une des nouvelles cartes dépasse celle de certains supercalculateurs pour un prix de quelques centaines d’euros ! C’est l’émergence d’une nouvelle technique appelée programmation généraliste de cartes graphiques (GPGPU, General-Purpose computation on Graphics Processing Units).

Le GPGPU est soutenu par les constructeurs des cartes graphiques comme NVIDIA et ATI/AMD qui y voient un nouveau marché pour leurs produits. Ils ont introduit des langages de haut niveau et des environnements de développement facilitant l’accès aux non-spécialistes. Aujourd’hui, le calcul massivement parallèle GPGPU se développe aussi bien dans les supercalculateurs, les ordinateurs de bureau que dans l’embarqué. L’évolution des processeurs des ordinateurs s’oriente aussi vers le parallélisme. Les techniques du GPGPU d’aujourd’hui deviennent progressivement les bases de la programmation des PC de demain. Cela est déjà possible avec le langage OpenCL (Open Computing Language) qui se veut portable entre CPU (Computer Processor Unit) et GPU (Graphic Processor Unit).

Cet article donne les clefs pour comprendre comment utiliser les processeurs graphiques pour augmenter la puissance utile de calcul des ordinateurs en abordant en particulier la problématique du parallélisme. Le parallélisme impose des contraintes fortes à la programmation et aux algorithmes pour pouvoir bénéficier pleinement des architectures matérielles des GPU. Une première partie est consacrée à l’évolution des processeurs graphiques qui permettent de faire du GPGPU. Dans une deuxième partie, une description des architectures actuelles permet au lecteur de saisir les qualités et limitations des processeurs graphiques pour le calcul parallèle. La troisième partie décrit les principaux langages de programmation orientés pour le calcul des processeurs graphiques. Un exemple concret dans la quatrième partie permettra au lecteur d’apercevoir les enjeux de ces techniques et va l’aider à comprendre quel type de calcul est possible d’y être porté avec un bon retour sur investissement. La dernière partie décrit les évolutions à venir qui permettront une convergence plus forte entre CPU et GPU, ainsi que les évolutions de la couche logicielle en vue d’une standardisation de la programmation pour assurer la portabilité des développements.

Cet article est réservé aux abonnés.
Il vous reste 94 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ? Se connecter

MOTS-CLÉS

CPU GPU rendu graphique calcul parallèle HPC

VERSIONS

Il existe d'autres versions de cet article :

Version archivée 1 de févr. 2010 par Guillermo B. ANDRADE

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v2-te5990

CET ARTICLE SE TROUVE ÉGALEMENT DANS :

Accueil > Ressources documentaires > Électronique - Photonique > Électronique > Architecture et tests des circuits numériques > Calcul généraliste sur carte graphique - Du rendu au calcul massivement parallèle > Langages de programmation de haut niveau

Accueil > Ressources documentaires > Technologies de l'information > Le traitement du signal et ses applications > Réalité virtuelle > Calcul généraliste sur carte graphique - Du rendu au calcul massivement parallèle > Langages de programmation de haut niveau

Lecture en cours
Présentation

Page
suivante

Programmation avec CUDA

Article inclus dans l'offre

"Technologies logicielles Architectures des systèmes"

(237 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

3. Langages de programmation de haut niveau

3.1 OpenCL

OpenCL (Open Computing Language) est à l’origine le résultat d’un effort de simplification du développement multicœur par les équipes d’Apple. Apple a par la suite promu son adoption en donnant la gestion de la spécification d’OpenCL au consortium Khronos Group qui gère entre autres la spécification d’OpenGL. OpenGL est une interface de programmation du rendu graphique devenue un standard aujourd’hui. Dans le consortium Khronos Group, on trouve des industriels comme NVIDIA, AMD, Intel, Sony et Apple. Le but de Khronos Group est de produire des spécifications rendues publiques et utilisables gratuitement sur un grand nombre de plates-formes (ARM, Intel, AMD, NVIDIA).

Modèle

OpenCL permet d’abstraire la ressource de calcul, qu’elle provienne des multiples cœurs disponibles dans les CPU ou de la carte graphique.

Dans la spécification, le modèle de mémoires et de calcul est très proche de celui de CUDA. Ainsi, on retrouve les notions de grilles de calcul et de blocs partageant des données via des mémoires partagées.
Compilateur et optimisation

Un des aspects les plus intéressants d’OpenCL est l’adoption du compilateur LLVM connu pour ses qualités d’optimisation. L’utilisation de LLVM dans ce contexte permet une meilleure parallélisation automatique des codes. En effet, les architectures étant différentes en termes de nombre d’unités SIMD ou MIMD, l’utilisation d’un système de parallélisation automatique permet d’abstraire l’architecture en laissant au compilateur la production du code le plus optimal pour l’architecture finale à partir d’un code original plus portable.

HAUT DE PAGE

3.2 CUDA/PTX

HAUT DE PAGE

3.2.1 Histoire

NVIDIA a introduit CUDA (Compute Unified Device Architecture) fin 2006. Le but de NVIDIA était de conquérir une partie du marché du calcul haute performance en facilitant la programmation de ses cartes graphiques par des non-spécialistes de l’image de synthèse, et ceci au moment où les cartes graphiques affichent des performances de supercalculateurs. CUDA est à la fois...

Cet article est réservé aux abonnés.
Il vous reste 93 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ? Se connecter

Lecture en cours
Langages de programmation de haut niveau

Page
précédenteArchitecture actuelle NVIDIA et ATI/AMD pour le calcul généraliste

Page
suivante

Programmation avec CUDA

Article inclus dans l'offre

"Technologies logicielles Architectures des systèmes"

(237 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

BIBLIOGRAPHIE

(1) - TUCKER (L.W.), ROBERTSON (G.G.) - Architecture and applications of the connection machine. - IEEE Comput., vol. 21, p. 26-38 (1988).
(2) - TREW (A.), WILSON (G.) (eds.) (1991) - Past, Present, Parallel : A Survey of Available Parallel Computing Systems. - New York : Springer-Verlag (ISBN 0-387-19664-1)
(3) - GUIDON (Y.) - Soufflerie numérique. Simulation de l’écoulement de gaz dans une soufflerie. - Pascalissime, no 64, p. 16-42 (1996).
(4) - ALEXANDRESCU (A.) - Modern C++ design : generic programming and design patterns applied. - Addison-Wesley, (2001).
(5) - NYLAND (L.), HARRIS (M.), PRINS (J.) - Fast N-body simulation with CUDA. - Addison-Wesley Educational Pub.,ISBN 978-0321515261, Chapitre 31, GPU Gems 3 (2007).

DANS NOS BASES DOCUMENTAIRES

Microprocesseurs – Approche générale

1 Sites Internet

(portails, pages personnelles, forums, listes de discussion)

HARRIS Mark General-Purpose Computation on Graphics Hardware http://gpgpu.org/ (page consultée le 20 septembre 2015). Le plus important site sur le sujet avec des actualités, forums et tutoriels.

NVIDIA Corporation CUDA Zone – The resource for CUDA developers http://www.nvidia.com/object/cuda_home_new.html (page consultée le 20 septembre 2015). Le site met à disposition une excellente documentation et des outils logiciels pour le développement d’applications utilisant CUDA et les cartes graphiques NVIDIA, ce site maintient une importante liste de références de résultats d’utilisation de cartes graphiques pour le calcul.

Advanced Micro Devices, Inc. AMD Developer Central – ATI Stream Software Development Kit (SDK) https://developer.amd.com/ (page consultée le 20 septembre 2015). Le site contient les informations et les outils nécessaires pour le développement d’applications utilisant Brook+ et les cartes graphiques ATI/AMD.

Khronos Group https://www.khronos.org/opencl/ (page consultée le 20 septembre 2015). Site web de la spécification d’OpenCL.

ArrayFire http://arrayfire.com/ (page consultée le 20 septembre 2015). Site web de la librairie ArrayFire

https://openparallel.com/multicore-world-2020/multicore-world-2019/multicore-world-2018/multicore-world-2017/multicore-world-2016/multicore-world-2015/multicore-world-...

Cet article est réservé aux abonnés.
Il vous reste 95 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ? Se connecter

Article inclus dans l'offre

"Technologies logicielles Architectures des systèmes"

(237 articles)