Présentation
En anglaisRÉSUMÉ
Cet article décrit les caractéristiques principales des processeurs superscalaires multi-pipelines, appelés aussi superscalaires «dans l'ordre». Un processeur superscalaire utilise le parallélisme existant entre les instructions d'un code séquentiel pour lancer l'exécution de plusieurs instructions indépendantes à chaque cycle d'horloge. Les problèmes avec les superscalaires pour les bancs de registres, les accès cache, les prédicteurs de branchement et l'acquisition des instructions sont mentionnés. Des exemples sont détaillés, du Pentium d'Intel à certains coeurs Power d'IBM. Enfin, les performances des superscalaires «dans l'ordre» et des versions «non ordonnées» sont comparées pour des processeurs MIPS, IBM et ARM en termes de vitesse, puissance dissipée et surface.
Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.
Lire l’articleABSTRACT
This paper describes the main features of “multi-pipeline” also called “in-order” superscalar processors. A superscalar processor uses instruction level parallelism in a sequential code to launch the execution of multiple independent instructions at each clock cycle. The additional problems for superscalar processors are detailed including register banks, cache accesses, branch predictors and instruction fetching. Examples of in-order superscalar processors are presented from Intel Pentium to some IBM Power cores. Performance of in-order and out-of-order superscalar MIPS, IBM and ARM processors is compared for speed, power dissipation, and chip area.
Auteur(s)
-
Daniel ETIEMBLE : Ingénieur INSA Lyon - Professeur émérite à l'université Paris Sud
-
François ANCEAU : Ingénieur INPG Grenoble Professeur retraité – Chercheur au LIP6 (Université Pierre-et-Marie-Curie)
INTRODUCTION
Cet article examine les caractéristiques principales des processeurs superscalaires multi-pipelines, souvent appelés superscalaires dans l'ordre. Un processeur superscalaire utilise le parallélisme d'instructions existant dans un programme séquentiel pour démarrer à chaque cycle d'horloge l'exécution de plusieurs instructions. C'est le matériel qui détermine les instructions indépendantes qui peuvent démarrer simultanément dans différents pipelines parce que les opérateurs nécessaires sont disponibles et les opérandes sont prêts. L'utilisation de plusieurs pipelines d'exécution existe déjà dans les processeurs scalaires ne pouvant démarrer qu'une seule instruction par cycle à cause des différences de temps d'exécution entre la majorité des instructions sur des données entières et celles des instructions flottantes. Le problème du contrôle des dépendances de données est donc déjà traité dans les processeurs scalaires et ce traitement est rappelé. Avec des processeurs superscalaires, les problèmes matériels sont accentués sur de nombreux points : banc de registres, accès cache, prédiction de branchement, acquisition des instructions. Dans le modèle multi-pipeline, le matériel rassemble les instructions par groupe de 2 ou 4 instructions, et toutes les instructions d'un groupe doivent avoir été lancées avant que les instructions d'un groupe suivant ne le soient. Des exemples des techniques utilisées sont donnés avec les Pentium et Atom d'Intel, les 21064 et 21164 de Digital, le Cortex A8 d'ARM et le cœur Power 6 d'IBM. Des techniques utilisées pour dépasser les limitations d'un strict démarrage groupe par groupe sont détaillées.
D'un point de vue performance brute, les superscalaires « dans l'ordre » sont moins performants que les superscalaires à « flot de données restreint » souvent appelés superscalaires « non ordonnés » qui recherchent les instructions exécutables dans une fenêtre beaucoup plus grande qu'un groupe de 2 ou 4 instructions. Il est possible de comparer, pour un même constructeur et une même technologie CMOS, les deux approches du point de vue temps de calcul, surface de puce et puissance dissipée. La comparaison est présentée pour deux processeurs MIPS, deux cœurs IBM et des cœurs ARM. À fréquence d'horloge équivalente, la version « non ordonnée » est toujours plus performante, mais la version « dans l'ordre » consomme moins, utilise moins de surface de puce et a généralement la meilleure performance par watt ou par GHz. Les superscalaires « dans l'ordre » sont donc une bonne solution pour les applications embarquées nécessitant plus que les performances des processeurs scalaires, mais avec une surface moindre et une consommation énergétique moindre par rapport à la solution la plus performante.
KEYWORDS
superscalar | multi-pipeline | instruction launching | instruction level parallelism
DOI (Digital Object Identifier)
Cet article fait partie de l’offre
Technologies logicielles Architectures des systèmes
(239 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Présentation
1. D'une à plusieurs instructions par cycle
Dans l'article [H 1 004] « Processeurs : exécution pipeline des instructions », nous avons considéré les processeurs généralement appelés « scalaires ». Pour ces processeurs, l'exécution pipeline des instructions vise à obtenir, dans le cas idéal, un débit d'exécution d'une instruction par cycle d'horloge, car une seule instruction peut démarrer à chaque cycle d'horloge.
Augmenter le débit d'exécution des instructions implique d'exploiter le parallélisme d'instructions qui existe dans les programmes séquentiels, c'est-à-dire d'extraire d'une suite d'instructions séquentielles celles qui peuvent s'exécuter en parallèle. La figure 1 présente les différentes manières d'exploiter le parallélisme d'instructions.
– Dans le cas scalaire, la partie centrale de la figure 1 présente une suite d'instructions (I1 à I8). Un processeur scalaire acquiert ces instructions une par une ;
– Avec les processeurs superscalaires, la partie gauche de la figure 1 présente l'approche dynamique, c'est-à-dire contrôlée par le matériel, de l'exécution de plusieurs instructions par cycle d'horloge :
-
superscalaire « multi-pipeline » : dans la partie en bas à gauche, le matériel accède à plusieurs instructions par cycle, les décode, et groupe cycle par cycle les instructions dont l'exécution peut démarrer à chaque cycle, la taille d'un groupe étant une caractéristique de l'architecture. Cette approche est généralement appelée superscalaire à exécution « dans l'ordre »,
-
superscalaire à « flot de données restreint » : dans la partie en haut à gauche, plusieurs instructions sont acquises à chaque cycle d'horloge, placées dans une fenêtre d'exécution et seront exécutées dans les unités fonctionnelles selon le...
Cet article fait partie de l’offre
Technologies logicielles Architectures des systèmes
(239 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
D'une à plusieurs instructions par cycle
BIBLIOGRAPHIE
-
(1) - YEH (T.-Y.), PATT (Y.N.) - A Comprehensive instruction fetch mechanism for a processor supporting speculative execution. - Proceedings of the 25th Annual ACM/IEEE International Symposium on Computer Microarchitecture, p. 129-139, déc. 1992.
-
(2) - McLELLAN (E.) - The Alpha AXP architecture and 21064 processor. - IEEE Micro, p. 36-47, juin 1993.
-
(3) - HP - Alpha 21064 and Alpha 21064A Microprocessors, Hardware Reference Manual. - Juin 1996 http://h18000.www1.hp.com/cpq- alphaserver/technology/literature/ 21064hrm.pdf (page consultée le 18/05/2015).
-
(4) - EDMONDSON (J.H.), RUBINFELD (P.), PRESTON (R.P.) - Superscalar instruction execution in the 21164 alpha microprocessor. - IEEE Micro, p. 33-43, avr. 1995.
-
(5) - Alpha 21164 hardware reference manual. - (1996) http://download.majix.org/dec/21164_ hrm.pdf (page consultée le 18/05/2015).
-
...
DANS NOS BASES DOCUMENTAIRES
ANNEXES
Cet article fait partie de l’offre
Technologies logicielles Architectures des systèmes
(239 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive