Présentation
EnglishRÉSUMÉ
Les processeurs ne travaillant que sur des chiffres binaires, un codage est nécessaire pour représenter les différents types de nombres. Les formats entiers et flottants traités par les processeurs généralistes sont présentés avec les opérations arithmétiques de base et la manière dont elles sont implantées dans les jeux d’instructions des processeurs. Des formats plus spécifiques (virgule fixe, décimal, flottants réduits, nombres Posit) sont aussi présentés et discutés.
Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.
Lire l’articleAuteur(s)
-
Daniel ETIEMBLE : Ingénieur de l’INSA de Lyon - Professeur émérite à l’université Paris Saclay
INTRODUCTION
Comme les processeurs et plus généralement les systèmes électroniques digitaux opèrent uniquement sur des chiffres binaires appelées bits, le traitement des nombres nécessite un codage.
Les différentes représentations impliquent plusieurs aspects :
-
la présentation des formats ;
-
les opérations arithmétiques de base (addition, soustraction, multiplication, division) avec les problèmes éventuels de dépassement de capacité ;
-
les instructions des jeux d’instructions pour les différentes opérations, avec les variantes selon les jeux d’instructions.
Les formats entiers sur n bits représentent des nombres entiers non signés ou signés. Si les nombres positifs ont toujours la même représentation, différentes représentations des nombres négatifs ont été définies : signe et valeur absolue, complément à 1, complément à 2, cette dernière étant la seule utilisée depuis des dizaines d’années. Pour les opérations sur les entiers, le nombre de bits en sortie est différent du nombre de bits en entrée. Une addition n bits + n bits fournit un résultat sur n+1 bits et une multiplication n bits * n bits fournit un résultat sur 2n bits. Le traitement des retenues (addition) ou des n bits de poids fort (multiplication) pose des problèmes à la fois pour les instructions scalaires et pour les instructions SIMD des différents jeux d’instructions.
Les formats flottants simple précision (32 bits) et double précision (64 bits) ont été normalisés depuis le milieu des années 1980 (IEEE 754). Ils sont présentés ainsi que des formats réduits 16 bits et 8 bits plus récents, utilisés dans les réseaux de neurones profonds. Les formats flottants par bloc et les flottants décimaux sont aussi présentés. Le format Posit, proposé par J.L. Gustafson comme alternative à l’utilisation des formats flottants IEEE 754, est présenté et discuté.
Alors que les formats entiers et flottants existant depuis des dizaines d’années sont utilisés dans les processeurs généralistes, des modèles de calcul comme ceux des réseaux de neurones et les problèmes de consommation énergétique ont conduit à l’apparition de formats réduits qui peuvent être ajoutés à certains jeux d’instructions d’usage général ou implantés dans des processeurs spécialisés, des IP, des FPGA, etc.
MOTS-CLÉS
format entier format flottant format virgule fixe opérations arithmétiques BCD flottants 16 et 8 bits nombres Posit
DOI (Digital Object Identifier)
Cet article fait partie de l’offre
Technologies logicielles Architectures des systèmes
(240 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Présentation
4. Division d’entiers signés
Elles réalisent la division d’un entier 2n bits par un entier n bits pour fournir quotient et reste (entiers de n bits).
On retrouve les différentes approches pour les jeux d’instructions :
-
l’instruction IDIV (IA-32 et Intel 64) divise des nombres de 2n bits (16, 32, 64) par des nombres de n bits (8, 16, 32) et fournit le résultat de la division et le reste sur n bits dans deux registres différents ;
-
l’extension M de RISC-V dispose d’instructions de division signée (DIV) et de reste signée (REM) avec dividende, diviseur, résultat et reste sur 32 bits.
4.1 Entiers en signe et valeur absolue
Avec l’exemple de la figure 1, un nombre N se représente de la manière suivante : .
Il y a 126 nombres négatifs (B7 = 1), 126 nombres positifs (B7 = 0) et deux zéros (+ 0 et – 0). Les opérations d’addition et de soustraction sont plus compliquées car il faut prendre en compte les signes pour savoir si une addition est réellement une addition ou une soustraction. Le problème est le même pour les soustractions. Cette représentation n’est plus utilisée, sauf pour la représentation des mantisses des nombres flottants.
HAUT DE PAGE4.2 Entiers en complément à 1
Les nombres positifs sont représentés de la même manière que dans les deux représentations précédentes. Par contre, l’opposé d’un nombre positif est son complément bit...
Cet article fait partie de l’offre
Technologies logicielles Architectures des systèmes
(240 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Division d’entiers signés
BIBLIOGRAPHIE
-
(1) - HARRIS (D.), OBERMAN (S.), HOROWITZ (M.) - SRT Division: Architectures, Models, and Implementations (PDF) (Technical report). Stanford University, - 9 September 1998.
-
(2) - - IEEE Standard for Floating-Point Arithmetic, https://irem.univ-reunion.fr/IMG/pdf/ieee-754-2008.pdf
-
(3) - * - Intel® Advanced Vector Extensions 512 – FP16 Instruction Set for Intel® Xeon® Processor Based Products.
-
(4) - - BFloat16 processing for Neural Networks on Armv8-A, https://comunity.arm.com/arm-community-blogs/b/ai-and-ml-blog/posts/bfloat16-processing-for-neural-networks-on-armv8_2d00_ahttps://www.ti.com/lit/an/spra948/spra948.pdf
-
(5) - ROUHANI (R.) et al - Pushing the Limits of Narrow Precision Inferencing at Cloud Scale with Microsoft Floating Point, - 34th conference on Neural Information Processing Systems (NeuroIPS 2020à, Vancouver, Canada. https://www.microsoft.com/en-us/research/publication/pushing-the-limits-of-narrow-precision-inferencing-at-cloud-scale-with-microsoft-floating-point
-
...
DANS NOS BASES DOCUMENTAIRES
Cet article fait partie de l’offre
Technologies logicielles Architectures des systèmes
(240 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive