Stockage et gestion des mégadonnées

1.1 - Modèle des 3V étendu aux 5V
1.2 - Mégadonnées et informatique décisionnelle

2 - DE L’USAGE DES MÉGADONNÉES

2.1 - Domaine de la recherche scientifique
2.2 - Domaine de la santé
2.3 - Domaine socio-économique et politique
2.4 - Domaine du transport et de l’énergie

3 - STOCKAGE ET GESTION DES MÉGADONNÉES

3.1 - Limites des bases de données relationnelles et Cloud Computing
3.2 - Intérêt de MapReduce et de Hadoop
3.3 - Bases de données NoSQL
3.4 - Principaux modèles de bases de données NoSQL
3.5 - Alternatives au NoSQL : bases de données NewSQL

4 - ANALYSE DES MÉGADONNÉES

4.1 - Intérêt de l’apprentissage automatique
4.2 - Analyse de mégadonnées stockées
4.3 - Analyse de flots de données
4.4 - Analyse de données
4.5 - Analyse de textes
4.6 - Analyse du Web

5 - CONCLUSION

Bibliographie & annexes

Présentation

RÉSUMÉ

L’objet de cet article est de cerner ce terme Big Data ou mégadonnées. Dans un premier temps, les mégadonnées sont caractérisées au travers du modèle des 3V étendu au 5V. La problématique des mégadonnées est distinguée de celle de l’informatique décisionnelle. Les enjeux économiques et sociétaux associés aux mégadonnées sont abordés en présentant différents exemples d’usage relevant de différents domaines d’activité. Sont ensuite introduites différentes grandes méthodes et techniques associées au stockage et à l’exploitation/analyse de ces mégadonnées.

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

Auteur(s)

Bernard ESPINASSE : Professeur des Universités, - Aix-Marseille Université, - École Polytechnique Universitaire de Marseille, - LSIS UMR CNRS 7296, Marseille, France.
Patrice BELLOT : Professeur des Universités, - Aix-Marseille Université, - École Polytechnique Universitaire de Marseille, - LSIS UMR CNRS 7296, Marseille, France.

INTRODUCTION

Depuis une vingtaine d’années, les données générées n’ont fait que s’accroître. Actuellement nous produisons annuellement une masse de données très importante estimée à près de 3 trillions (3.10¹⁸) d’octets de données. On estime ainsi qu’en 2016 90 % des données dans le monde ont été créées au cours des deux années précédentes . Selon le rapport IDC (International Data Corporation), la masse totale des données crée et copiée de par le monde pour 2011 était de 1,8 zettaoctets, soit de 10²¹ octets, et s’accroît d’un facteur 9 tous les 5 ans . Cet accroissement des données touche tous les secteurs, tant scientifiques qu’économiques, ainsi que le développement des applications Web et les réseaux sociaux .

Dans ce contexte, est apparu le terme Big Data. L’origine de ce terme anglo-saxon, littéralement « grosses données », est controversée, et sa traduction française officielle recommandée est mégadonnées, même si parfois on parle de données massives.

Ces mégadonnées sont maintenant au centre des préoccupations des acteurs de tous les domaines d’activité. Ainsi le taux de croissance annuel moyen mondial du marché de la technologie et des services autour du Big Data sur la période 2011-2016 est estimé à plus de 30 %. D’après une étude IDC de 2013, ce marché devrait ainsi atteindre 23,8 milliards de dollars en 2016. Sur le plan européen, l’activité autour des mégadonnées devrait représenter autour de 8 % du PIB européen en 2020 (AFDEL février 2013). D’après le cabinet Markess International, le marché français des solutions et services en analytique, big data et gestion des données aurait atteint 1,9 milliard d’euros en 2015. Son taux de croissance annuel moyen d’ici 2018 est attendu à plus de 12 % (d’après Le monde informatique du 15 mars 2016).

L’objet de cet article est de cerner ce terme Big Data ou mégadonnées, de préciser les enjeux économiques et sociétaux associés, d’introduire différentes grandes méthodes et techniques qui s’y rattachent. On s’intéresse dans cet article à deux grandes problématiques associées aux mégadonnées, d’une part leur stockage, les techniques traditionnelles de stockage de type bases de données relationnelles ne permettant pas de stocker de telles quantités de données, et d’autre part leur exploitation, l’analyse de ces mégadonnées dans des temps raisonnables. En effet, les mégadonnées s’accompagnent principalement du développement d’applications à visée analytique, qui traitent de données pour en tirer du sens. Ces analyses sont généralement appelées Big Analytics, ou Analytique ou encore broyage de données, reposant généralement sur des méthodes de calcul distribué.

La section 1 présente une caractérisation du terme de Big Data ou Mégadonnées, en distinguant son paradigme de celui de l’informatique décisionnelle. Et quelques exemples d’usage des mégadonnées dans différents secteurs d’activité sont présentés à la section 2. La section 3 concerne la problématique du stockage de ces mégadonnées, tandis que la section 4 traite de la problématique de l’analyse des mégadonnées ou « analytique ».

Cet article est réservé aux abonnés.
Il vous reste 95% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

MOTS-CLÉS

big data Stockage mégadonnées analytique

VERSIONS

Il existe d'autres versions de cet article :

Version courante de févr. 2024 par Patrice BELLOT, Bernard ESPINASSE

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-h6040

CET ARTICLE SE TROUVE ÉGALEMENT DANS :

Accueil > Ressources documentaires > Archives > [Archives] Documents numériques - Gestion de contenu > Introduction au Big Data - Opportunités, stockage et analyse des mégadonnées > Stockage et gestion des mégadonnées

Accueil > Ressources documentaires > Archives > [Archives] Technologies logicielles et architecture des systèmes > Introduction au Big Data - Opportunités, stockage et analyse des mégadonnées > Stockage et gestion des mégadonnées

Cet article fait partie de l’offre

Industrie du futur

(103 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Présentation

Page
suivante

Analyse des mégadonnées

3. Stockage et gestion des mégadonnées

Cette section traite de la problématique du stockage de très grands volumes de données. Dans un premier temps nous pointons les limites des bases de données relationnelles pour le stockage et la gestion des mégadonnées, et évoquons l’apport du Cloud Computing (informatique dans les nuages). Puis nous soulignons tout l’intérêt pour le stockage et la gestion des données du modèle de programmation parallèle « MapReduce » et du cadriciel libre « Hadoop » le mettant en œuvre. Ensuite nous introduisons les différents modèles de bases de données dites NoSQL, constituant différentes solutions de stockage des mégadonnées. Pour finir nous évoquons quelques autres alternatives, notamment les bases de données NewSQL.

3.1 Limites des bases de données relationnelles et Cloud Computing

En matière de stockage de données, les bases de données relationnelles restent la référence. Ces outils largement utilisés garantissent le maintien des propriétés ACID (Atomicité, Cohérence, Isolation et Durabilité). Pour gérer de gros volumes de données, notamment dans un contexte d’entrepôt de données, toujours fidèle au modèle relationnel, les machines bases de données, comme la Teradata^TM, s’appuient sur une distribution des données sur différents disques permettant une parallélisation de l’exécution des requêtes.

Cependant ces machines ne permettent de gérer des mégadonnées au-delà d’un certain volume. Aussi différentes nouvelles solutions ont vu le jour. Toutes ces solutions reposent sur un stockage distribué (partitionné) des données sur les clusters. Cependant, comme le théorème CAP de Brewer le démontre, aucun système distribué ne peut assurer à la fois la cohérence, la disponibilité et la possibilité d’être partitionné. La conséquence est que, dans ces nouvelles solutions de stockage, il ne sera pas possible d’assurer les propriétés ACID, et un relâchement de ces propriétés sera nécessaire.

Le nuage (cloud) est un ensemble de matériels, de raccordements réseau et de logiciels fournissant des services sophistiqués que des individus et des collectivités peuvent exploiter à volonté depuis n’importe où. Au lieu d’obtenir de la puissance de calcul par acquisition de matériel et de logiciel,...

Cet article est réservé aux abonnés.
Il vous reste 92% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Industrie du futur

(103 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Stockage et gestion des mégadonnées

Page
précédenteDe l’usage des mégadonnées

Page
suivante

Analyse des mégadonnées

BIBLIOGRAPHIE

(1) - AGRAWAL (D.), DAS (S.), EL ABBADI (A.) - Big data and cloud computing : current state and future opportunities. - In Proceedings of the 14th International Conference on Extending Database Technology (pp. 530-533). ACM (2011).
(2) - BLEI (D.) - * - Probabilistic Topic Models, Communications of the ACM (55 : 4), pp. 77-84. M (2012).
(3) - BRASSEUR (C.) - Enjeux et usages du big data. - Technologies, méthodes et mises en œuvre, Paris, Lavoisier, p. 30 (2013).
(4) - BURBY (J.), BROWN (A.) - Web Analytics Definitions – Version 4.0. - Retrieved from http://www.digitalanalyticsassociation.org/standards (2007).
(5) - CATTELL (R.) - Scalable SQL and NoSQL data stores. - ACM SIGMOD Record, 39 (4), pp. 12-27 (2011).
(6) - CHEN (H.), CHIANG (R.H.L.), STOREY...

DANS NOS BASES DOCUMENTAIRES

Analyse automatique d’opinions. États des lieux et perspectives
Coud computing et informatique en nuage.
Visualisation d’informations.
Systèmes de recommandation.
Génération automatique de résumés.

ANNEXES

1 Conférences

1 Conférences

ICDM – International conference on Data Mining

http://Icdm2016.eurecat.org

HAUT DE PAGE

Cet article est réservé aux abonnés.
Il vous reste 95% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Industrie du futur

(103 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Stockage et gestion des mégadonnées Introduction au Big Data - Opportunités, stockage et analyse des mégadonnées

RÉSUMÉ

Auteur(s)

INTRODUCTION

Cet article est réservé aux abonnés.Il vous reste 95% à découvrir.

L'expertise technique et scientifique de référence

MOTS-CLÉS

VERSIONS

DOI (Digital Object Identifier)

CET ARTICLE SE TROUVE ÉGALEMENT DANS :

3. Stockage et gestion des mégadonnées

Cet article est réservé aux abonnés.Il vous reste 92% à découvrir.

L'expertise technique et scientifique de référence

BIBLIOGRAPHIE

DANS NOS BASES DOCUMENTAIRES

ANNEXES

Cet article est réservé aux abonnés.Il vous reste 95% à découvrir.

L'expertise technique et scientifique de référence

Stockage et gestion des mégadonnées
Introduction au Big Data - Opportunités, stockage et analyse des mégadonnées

Cet article est réservé aux abonnés.
Il vous reste 95% à découvrir.

Cet article est réservé aux abonnés.
Il vous reste 92% à découvrir.

Cet article est réservé aux abonnés.
Il vous reste 95% à découvrir.