2.1 - Schéma de principe

Figure 3 - Structure d’un neurone
2.2 - Apprentissage et inférence

3.1 - Caractéristiques
3.2 - Utilisation des réseaux de neurones profonds
3.3 - Bibliothèques logicielles pour les DNN

Figure 8 - Exemple de graphe TensorFlow
3.4 - Ressources matérielles pour les DNN

5 - OPÉRATIONS SPÉCIFIQUES

5.1 - Convolutions

Tableau 2
5.2 - Pooling

Figure 14 - Principe du Pooling
5.3 - Couches complètement connectées

6 - EXTENSION DU JEU D’INSTRUCTIONS INTEL64

7 - OPÉRATEURS SPÉCIALISÉS : TENSEURS ET CŒURS TENSEURS

7.1 - Cœurs tenseurs des GPU NVidia
7.2 - Tenseurs des FPGA Intel

8 - PROCESSEURS NEURONAUX

8.1 - Processeurs neuronaux d’ARM
8.2 - TPU de Google

Figure 23 - TPU de Google (version 2) Figure 24 - TPU Google (version 3)
8.3 - Intel Nirvana NNP-T

Figure 25 - Intel Nirvana NNP-T
8.4 - Xilinx Versal AI core (VC 1902)*

Figure 27 - Xilinx VC1902

9 - CALCUL, MÉMORISATION ET COMMUNICATION

10 - REMARQUES POUR CONCLURE

Bibliographie & annexes

Article de référence | Réf : H1098 v1

Extension du jeu d’instructions Intel64
Supports matériels pour les réseaux de neurones profonds

Auteur(s) : Daniel ETIEMBLE

Date de publication : 10 août 2021 | Read in English

Pour explorer cet article
Télécharger l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

Présentation

RÉSUMÉ

Les applications de l’intelligence artificielle, utilisant notamment les réseaux de neurones profonds, ont conduit au développement de supports matériels pour accélérer leur exécution. Après un bref rappel des principes de ces réseaux, notamment les réseaux de neurones convolutionnels, les différents opérateurs nécessitant une accélération sont présentés. Les spécificités permettant l’utilisation d’une précision numérique réduite sont présentées, avec les formats de données correspondant. Les différentes techniques d’accélération sont présentées : ajout d’instructions, développement de composants matériels (opérateurs spécialisés à intégrer dans des systèmes sur puce, processeurs neuronaux) avec des exemples de circuits disponibles chez ARM, Intel, Google, NVidia, Xilinx.

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

Auteur(s)

Daniel ETIEMBLE : Professeur émérite LRI, Université Paris Saclay

INTRODUCTION

Avec l’importance croissante des applications de l’intelligence artificielle, les réseaux de neurones profonds sont de plus en plus utilisés. Ils ont vu le développement de supports matériels et logiciels significatifs. Les grands opérateurs (Google, Microsoft, etc.) et les fournisseurs de circuits (ARM, Intel, NVidia, Xilinx) ainsi que de très nombreuses petites sociétés ou startups proposent des solutions matérielles pour accélérer l’exécution des applications utilisant des réseaux de neurones profonds. L’objectif de l’article est d’expliciter les caractéristiques de ces solutions matérielles en relation avec les grandes caractéristiques des réseaux de neurones.

Sans prétendre à une présentation théorique ou exhaustive, les principes de base des réseaux de neurones (RN) sont rappelés : structure d’un RN, structure d’un neurone, fonction d’activation ainsi que les deux phases d’utilisation d’un RN (Apprentissage et Inférence). Les réseaux de neurones sont utilisés à plusieurs niveaux : centre de données, serveurs au bord du réseau (edge devices), smartphones et composants de l’Internet des Objets (IoT) avec des contraintes de performance et de consommation énergétique différentes, conduisant à différents supports matériels.

Alors que les flottants 32 bits sont le format numérique de base pour les réseaux de neurones, les contraintes de performance et de consommation ont conduit à l’utilisation de formats entiers 8 bits et 16 bits et de formats flottants réduits (F16, BF16, TF32) qui sont présentés. Les opérateurs spécifiques des réseaux de neurones convolutionnels sont présentés : convolution, pooling, couches complètement connectées (denses).

Des exemples de supports matériels sont présentés : les instructions IA du jeu d’instructions Intel pour le calcul en entier, les cœurs tenseurs de NVidia, les processeurs neuronaux d’ARM (Ethos), d’Intel (Nirvana NPP-T), de Google (TPU) et le système sur puce Xilinx VC 1902.

Cet article est réservé aux abonnés.
Il vous reste 92% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

MOTS-CLÉS

réseaux de neurones profonds opérateurs matriciels précision numérique processeurs neuronaux accélérateurs pour systèmes sur puce

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-h1098

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(236 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Présentation

Page
suivante

Opérateurs spécialisés : tenseurs et cœurs tenseurs

6. Extension du jeu d’instructions Intel64

Le jeu d’instructions Intel64, avec son format de taille variable, permet d’ajouter sans trop de problèmes de nouvelles instructions. Sous la terminologie « Deep learning Boost », un certain nombre d’instructions destinées à accélérer les codes pour l’IA, notamment pour les convolutions, a été défini.

Le calcul d’un point d’une convolution a été présenté au § 5.1 . Il est du style S1 = F1.E1+F2.E2+F3.E3+…+Fi.Ei+…, c’est-à-dire d’une suite de multiplications-accumulations. Pour le calcul avec des données flottantes, cela signifie une succession d’instructions FMA qui existent dans tous les jeux d’instructions courants. Pour le jeu d’instructions Intel64, ces instructions existent à la fois en version scalaire et dans toutes les versions SIMD.

Le problème existe pour les calculs entiers, notamment avec les formats INT8 ou INT16 qui sont utilisés parce qu’ils permettent de réduire la surface de puce et la puissance dissipée. Mais la multiplication de 2 entiers N bits fournit un résultat sur 2N bits et l’accumulation de résultats 2N bits peut nécessiter 4N bits. Sous la bannière « Vector Neural Network Instructions », AVX-512 a vu s’ajouter des nouvelles instructions permettant de réaliser directement des produits INT8 avec accumulation sur 32 bits, selon le schéma de la figure 16, qui présente les versions INT8 (partie gauche) et INT16 (version droite). Chacune de ces instructions nécessitait trois instructions avant leur implémentation. Ces nouvelles instructions ont pour but d’accélérer les calculs en réduisant la consommation avec des formats entiers (comme discuté dans la section 4 ...

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(236 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Extension du jeu d’instructions Intel64

Page
précédenteOpérations spécifiques

Page
suivante

Opérateurs spécialisés : tenseurs et cœurs tenseurs

BIBLIOGRAPHIE

(1) - NIELSEN (M.) - Neural Network and Deep Learning, - http://neuralnetworksanddeeplearning.com/
(2) - TensorFlow - - https://www.tensorflow.org/
(3) - Caffe - - https://www.tensorflow.org/
(4) - PyTorch - - https://pytorch.org/
(5) - COURBARIAUX (M.), HUBARA (I.), SOUDRY (D.), EL-YANIV (R.), BENGIO (Y.) - Binarized Neural Networks: Training Neural Networks with Weights and Activations Constrained to +1 or −1, - https://arxiv.org/abs/1602.02830
(6) - CHOI (J.), VENKATARAMANI (S.), SRINIVASAN (V.), GOPALAKRISHNAN (K.), WANG (Z.), CHUANG (P.) - Accurate And Efficient 2-Bit Quantized Neural Networks, - Proceedings of the 2nd SysML Conference, Palo Alto, CA, USA (2019), https://mlsys.org/Conferences/2019/doc/2019/168.pdf
...

DANS NOS BASES DOCUMENTAIRES

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(236 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Extension du jeu d’instructions Intel64 Supports matériels pour les réseaux de neurones profonds

RÉSUMÉ

Auteur(s)

INTRODUCTION

Cet article est réservé aux abonnés.Il vous reste 92% à découvrir.

L'expertise technique et scientifique de référence

MOTS-CLÉS

DOI (Digital Object Identifier)

6. Extension du jeu d’instructions Intel64

Cet article est réservé aux abonnés.Il vous reste 94% à découvrir.

L'expertise technique et scientifique de référence

BIBLIOGRAPHIE

DANS NOS BASES DOCUMENTAIRES

Cet article est réservé aux abonnés.Il vous reste 94% à découvrir.

L'expertise technique et scientifique de référence

Extension du jeu d’instructions Intel64
Supports matériels pour les réseaux de neurones profonds

Cet article est réservé aux abonnés.
Il vous reste 92% à découvrir.

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.