2.1 - Temps d’accès des DRAM

Figure 3 - Cluster de multicœurs
2.2 - Débits des DRAM

Figure 5 - DRAM HBM Tableau 1

3 - RAPPROCHER CALCUL ET MÉMOIRE : LES PROBLÉMATIQUES

3.1 - Applications « memory bound »
3.2 - Quelle technologie pour le calcul ?
3.3 - Coordination calcul-mémoire
3.4 - Cinq exemples
- Quiz d'entraînement

4.1 - Cas des processeurs manycores
4.2 - Accélérateur Boqueria Untether AI

Figure 12 - Approche chiplet
4.3 - Circuit WSE-2 de Celebras
- Quiz d'entraînement

5 - CALCUL EN MÉMOIRE DRAM

5.1 - Fonctionnement d’un point mémoire DRAM

Figure 17 - Point mémoire DRAM
5.2 - Connecter plusieurs points mémoire DRAM
5.3 - Commentaires sur le calcul en mémoire DRAM

6 - CALCUL EN TECHNOLOGIE DRAM PRÈS DE BANCS MÉMOIRE DRAM

6.1 - Processeur en technologie DRAM avec la mémoire DRAM (UpMEM)

Figure 23 - La puce PIM
6.2 - Empilement 3D de puces DRAM et de puces DRAM + Calcul (Aquabolt XL)
6.3 - Comparaison PIM UPMEM-Aquabolt XL
- Quiz d'entraînement

7 - REMARQUES POUR CONCLURE

Bibliographie & annexes

Quiz & test

Article de référence | Réf : H1205 v1

Remarques pour conclure
Calcul en mémoire ou près de la mémoire

Auteur(s) : Daniel ETIEMBLE

Date de publication : 10 janv. 2024 | Read in English

Pour explorer cet article
Télécharger l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

Présentation

RÉSUMÉ

Les ensembles de données gigantesques de beaucoup d’applications modernes et des techniques matérielles comme l’empilement 3D de puces dans les DRAM HBT ont donné une nouvelle actualité au calcul en mémoire ou calcul près de la mémoire. L’article présente les problématiques correspondantes : localisation du calcul, quantité de calcul, coordination entre CPU et l’accélérateur en ou près de la mémoire. Cinq exemples significatifs récents sont présentés et discutés : le circuit Untether AI Bocqueria, le circuit Cebras WCS-2, le projet Ambit, la puce PIM d’UPMEM et le circuit Aquabolt-XL de Samsung.

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

Auteur(s)

Daniel ETIEMBLE : Ingénieur de l’INSA de Lyon - Professeur émérite à l’université Paris Saclay

INTRODUCTION

Depuis plusieurs décennies, l’écart entre les performances de processeurs et des mémoires DRAM, connu sous le nom de « mur mémoire », n’a cessé de croître. Différentes techniques sont utilisées pour limiter la croissance de cet écart :

hiérarchies de caches, pour rapprocher instructions et données du processeur ;
multithreading matériel pour limiter les attentes mémoires ;
augmentation des débits des DRAM avec des générations successives : DDR, GDDR, HBM.

Rapprocher les calculs des données mémoire est une technique étudiée depuis les années 1960. Des réalisations comme les Vector IRAM ont été proposées dans les années 1990. Calcul en mémoire ou près de la mémoire devient d’actualité en fonction de deux phénomènes :

Beaucoup d’applications modernes utilisent des ensembles de données gigantesques. Minimiser les transferts entre CPU et mémoire principale DRAM devient une obligation.
Les techniques matérielles de réalisation de circuits, comme l’empilement 3D de puces dans des DRAM HBM (High Bandwith Memory) permettent de faciliter le calcul près de mémoires DRAM.

Calculer près ou en mémoire pose un certain nombre de questions :

Où effectuer le calcul ?
Quelle est la quantité de calculs nécessaire ?
Comment organiser la coordination entre le CPU maître et l’accélérateur matériel en ou près de la mémoire ?

Ces questions sont détaillées.

Cinq exemples récents de réalisation sont discutés :

L’architecture Untether AI Boqueria est un accélarateur pour inférence dans les réseaux de neurones. Il est constitué d’une grille 2D de 729 blocs SRAM, chaque bloc comprenant 512 SRAM de 640 octets et 512 processeurs élémentaires. Les calculs sont proches des SRAM.
Le circuit Celebras WS2 est un circuit constitué d’un wafer de 850 000 cœurs (2,6 . 10¹² transistors) pour l’apprentissage profond. Les cœurs, interconnectés en grille 2D au niveau du wafer, ont un ratio 50 : 50 de logique (calcul) et de mémoire SRAM.
Le projet Ambit modifie la structure interne d’une DRAM pour réaliser un certain nombre d’opérations de base : copie, Not, And, Or, etc.
La société UPMEM a conçu et testé des puces PIM comprenant un processeur réalisé en technologie DRAM avec un jeu d’instructions complet pour le calcul entier, sans flottants ni instructions SIMD à côté de bancs mémoire DRAM. On a des calculs près des bancs mémoire DRAM.
Le circuit Aquabolt-XL de Samsung empile des puces DRAM avec la technologie TSV et insère dans l’empilement des puces avec des unités de calcul entre les bancs mémoire. L’unité de calcul a un nombre réduit d’instructions de type RISC 32 bits contrôlant notamment des instructions SIMD d’additions et multiplications sur des flottant 16 bits.

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(236 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Présentation

Page
suivante

Introduction

7. Remarques pour conclure

Les technologies DRAM 3D avec l’empilement de puces via des technologies comme TSV font que le calcul près de la mémoire, après des années de propositions diverses sans grand succès, arrive à maturité et peut devenir une solution économiquement rentable. C’est ce qu’indique par exemple le circuit Aquabolt-XL des Samsung. On peut considérer que le calcul près de la mémoire est un peu dans la situation des GPU au début des années 2000 pour les applications de calcul scientifique. Le rôle leader de Nvidia pour la conception des GPU, et l’apport de CUDA comme interface de programmation ont permis une utilisation relativement simple et efficace des GPU comme accélérateurs matériels. Alors que la technologie des mémoires 3D est devenue mature, c’est la création d’une interface de programmation (API) facilement utilisable qui permettra une utilisation efficace d’accélérateurs près des mémoires DRAM. Pas plus qu’un GPU auprès d’un CPU, un accélérateur auprès d’une DRAM « classique » ne modifie l’architecture générale du système.

L’exemple des circuits Bocqueria d’Untheter et Celebras CS-2, utilisant des SRAM près de processeurs élémentaires spécialisés dans une approche manycore, montre que l’on peut obtenir de très bonnes performances sur certaines classes d’application. Il s’agit d’architectures spécialisées, mais apprentissage et inférence dans de très gros réseaux de neurones profonds correspondent à un problème suffisamment général pour justifier une architecture spécialisée.

L’utilisation de mémoires non volatiles comme PCM, ReRAM et MRAM pour des architectures près de la mémoire fait l’objet de nombreuses recherches, mais les débouchés de ces recherches dépendent du futur de ces technologies en termes d’endurance, fiabilité, coût et densité.

HAUT DE PAGE

Cet article est réservé aux abonnés.
Il vous reste 92% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

TEST DE VALIDATION ET CERTIFICATION CerT.I. :

Cet article vous permet de préparer une certification CerT.I.

Le test de validation des connaissances pour obtenir cette certification de Techniques de l’Ingénieur est disponible dans le module CerT.I.

Obtenez CerT.I., la certification
de Techniques de l’Ingénieur ! Acheter le module

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(236 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Remarques pour conclure

Page
précédenteCalcul en technologie DRAM près de bancs mémoire DRAM

BIBLIOGRAPHIE

(1) - SING (G.) et al - Near-Memory Computing: Past, Present, and Future - arXiv, 2019 https://arxiv.org/pdf/1908.02640.pdf
(2) - PATERSON (D.) et al - A case for Intelligent RAM, - IEEE Micro, vol. 17, n°2, pp 34-44, March 1997.
(3) - KOZIRAKIS (C.E.) et al - Scalable Processors in the Billion-Transistor Era : IRAM, - Computer, Vol. 30, N° 9, pp 75-78, Sept. 1997.
(4) - CALPIN (J.M.) - Memory Bandwidth and System Balance in HPC System, - https://sites.utexas.edu/jdm4372/tag/memory-bandwidth/
(5) - FARBER (R.) - How High-Bandwidth Memory Will Break Performance Bottlenecks, The Next platform, - October 21, https://www.nextplatform.com/2021/10/21/how-high-bandwidth-memory-will-break- performance-bottlenecks/
(6) - GHOSE (S.), BOROUMAND (A.), KIM (J.S.), GÓMEZ-LUNA...

DANS NOS BASES DOCUMENTAIRES

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(236 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

QUIZ ET TEST DE VALIDATION PRÉSENTS DANS CET ARTICLE

1/ Quiz d'entraînement

Entraînez vous autant que vous le voulez avec les quiz d'entraînement.

Accédez au Quiz 1
Accédez au Quiz 2
Accédez au Quiz 3

2/ Test de validation

Lorsque vous êtes prêt, vous passez le test de validation. Vous avez deux passages possibles dans un laps de temps de 30 jours.

Entre les deux essais, vous pouvez consulter l’article et réutiliser les quiz d'entraînement pour progresser. L’attestation vous est délivrée pour un score minimum de 70 %.

TEST DE VALIDATION

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(236 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Remarques pour conclure Calcul en mémoire ou près de la mémoire

RÉSUMÉ

Auteur(s)

INTRODUCTION

Cet article est réservé aux abonnés.Il vous reste 94% à découvrir.

L'expertise technique et scientifique de référence

MOTS-CLÉS

DOI (Digital Object Identifier)

CET ARTICLE SE TROUVE ÉGALEMENT DANS :

7. Remarques pour conclure

Cet article est réservé aux abonnés.Il vous reste 92% à découvrir.

L'expertise technique et scientifique de référence

TEST DE VALIDATION ET CERTIFICATION CerT.I. :

BIBLIOGRAPHIE

DANS NOS BASES DOCUMENTAIRES

Cet article est réservé aux abonnés.Il vous reste 94% à découvrir.

L'expertise technique et scientifique de référence

QUIZ ET TEST DE VALIDATION PRÉSENTS DANS CET ARTICLE

1/ Quiz d'entraînement

2/ Test de validation

L'expertise technique et scientifique de référence

Remarques pour conclure
Calcul en mémoire ou près de la mémoire

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Cet article est réservé aux abonnés.
Il vous reste 92% à découvrir.

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.