Présentation
EnglishRÉSUMÉ
L’objet de cet article est de cerner ce terme Big Data ou mégadonnées. Dans un premier temps, les mégadonnées sont caractérisées au travers du modèle des 3V étendu au 5V. La problématique des mégadonnées est distinguée de celle de l’informatique décisionnelle. Les enjeux économiques et sociétaux associés aux mégadonnées sont abordés en présentant différents exemples d’usage relevant de différents domaines d’activité. Sont ensuite introduites différentes grandes méthodes et techniques associées au stockage et à l’exploitation/analyse de ces mégadonnées.
Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.
Lire l’articleAuteur(s)
-
Bernard ESPINASSE : Professeur des Universités, - Aix-Marseille Université, - École Polytechnique Universitaire de Marseille, - LSIS UMR CNRS 7296, Marseille, France.
-
Patrice BELLOT : Professeur des Universités, - Aix-Marseille Université, - École Polytechnique Universitaire de Marseille, - LSIS UMR CNRS 7296, Marseille, France.
INTRODUCTION
Depuis une vingtaine d’années, les données générées n’ont fait que s’accroître. Actuellement nous produisons annuellement une masse de données très importante estimée à près de 3 trillions (3.1018) d’octets de données. On estime ainsi qu’en 2016 90 % des données dans le monde ont été créées au cours des deux années précédentes . Selon le rapport IDC (International Data Corporation), la masse totale des données crée et copiée de par le monde pour 2011 était de 1,8 zettaoctets, soit de 1021 octets, et s’accroît d’un facteur 9 tous les 5 ans . Cet accroissement des données touche tous les secteurs, tant scientifiques qu’économiques, ainsi que le développement des applications Web et les réseaux sociaux .
Dans ce contexte, est apparu le terme Big Data. L’origine de ce terme anglo-saxon, littéralement « grosses données », est controversée, et sa traduction française officielle recommandée est mégadonnées, même si parfois on parle de données massives.
Ces mégadonnées sont maintenant au centre des préoccupations des acteurs de tous les domaines d’activité. Ainsi le taux de croissance annuel moyen mondial du marché de la technologie et des services autour du Big Data sur la période 2011-2016 est estimé à plus de 30 %. D’après une étude IDC de 2013, ce marché devrait ainsi atteindre 23,8 milliards de dollars en 2016. Sur le plan européen, l’activité autour des mégadonnées devrait représenter autour de 8 % du PIB européen en 2020 (AFDEL février 2013). D’après le cabinet Markess International, le marché français des solutions et services en analytique, big data et gestion des données aurait atteint 1,9 milliard d’euros en 2015. Son taux de croissance annuel moyen d’ici 2018 est attendu à plus de 12 % (d’après Le monde informatique du 15 mars 2016).
L’objet de cet article est de cerner ce terme Big Data ou mégadonnées, de préciser les enjeux économiques et sociétaux associés, d’introduire différentes grandes méthodes et techniques qui s’y rattachent. On s’intéresse dans cet article à deux grandes problématiques associées aux mégadonnées, d’une part leur stockage, les techniques traditionnelles de stockage de type bases de données relationnelles ne permettant pas de stocker de telles quantités de données, et d’autre part leur exploitation, l’analyse de ces mégadonnées dans des temps raisonnables. En effet, les mégadonnées s’accompagnent principalement du développement d’applications à visée analytique, qui traitent de données pour en tirer du sens. Ces analyses sont généralement appelées Big Analytics, ou Analytique ou encore broyage de données, reposant généralement sur des méthodes de calcul distribué.
La section 1 présente une caractérisation du terme de Big Data ou Mégadonnées, en distinguant son paradigme de celui de l’informatique décisionnelle. Et quelques exemples d’usage des mégadonnées dans différents secteurs d’activité sont présentés à la section 2. La section 3 concerne la problématique du stockage de ces mégadonnées, tandis que la section 4 traite de la problématique de l’analyse des mégadonnées ou « analytique ».
MOTS-CLÉS
VERSIONS
- Version courante de févr. 2024 par Patrice BELLOT, Bernard ESPINASSE
DOI (Digital Object Identifier)
CET ARTICLE SE TROUVE ÉGALEMENT DANS :
Accueil > Ressources documentaires > Archives > [Archives] Documents numériques - Gestion de contenu > Introduction au Big Data - Opportunités, stockage et analyse des mégadonnées > Analyse des mégadonnées
Accueil > Ressources documentaires > Archives > [Archives] Industrie du futur > Introduction au Big Data - Opportunités, stockage et analyse des mégadonnées > Analyse des mégadonnées
Cet article fait partie de l’offre
Technologies logicielles Architectures des systèmes
(240 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Présentation
4. Analyse des mégadonnées
Dans cette section, nous nous intéressons à la problématique de l’analyse de très grands volumes de données. La nature de cette analyse dépend de la nature et de la structure des mégadonnées, que l’on appelle aussi « analytique », traduction du terme anglo-saxon « analytics ». Ces différentes analyses mettront en œuvre divers algorithmes relevant de la fouille de données (Data Mining), de l’apprentissage machine automatique (Machine Learning), de l’aide à la décision, voire de la visualisation.
Nous soulignons tout d’abord l’intérêt de l’apprentissage automatique pour l’analyse de ces mégadonnées. Ensuite nous distinguerons l’analyse de mégadonnées stockées par exemple dans des systèmes NoSQL, et l’analyse de mégadonnées échangées et émises en continu, par exemple des données en flots, qu’il n’est pas envisageable de stocker du fait de leur volume. Les données concernées par les mégadonnées étant très diverses, de par leur nature et/ou leur niveau de structuration, leur analyse ou analytique sera différente. Aussi nous illustrerons quelques types d’analytiques associées à des grands types de mégadonnées : mégadonnées principalement composées de données numériques, mégadonnées textuelles, mégadonnées issues du Web, liées à des réseaux, et enfin liées aux mobiles. Comme nous l’évoquons plus loin, chacun de ces types d’analytique a ses caractéristiques propres et utilise des technologies plus ou moins spécifiques, et plus ou moins matures.
4.1 Intérêt de l’apprentissage automatique
Une part sans cesse croissante des recherches scientifiques et des développements logiciels est consacrée à l’apprentissage automatique. Cela s’explique par les succès de ces approches pour des tâches aussi diverses que la classification automatique de contenus, la fouille multimédia ou la compréhension du langage humain mais aussi par leurs grandes robustesses face à des données bruitées ou incomplètes.
D’une façon générale, l’apprentissage automatique consiste à déterminer automatiquement un modèle formel, décrivant les données disponibles et permettant un certain niveau de généralisation sur des données nouvelles.
Cet article fait partie de l’offre
Technologies logicielles Architectures des systèmes
(240 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Analyse des mégadonnées
BIBLIOGRAPHIE
-
(1) - AGRAWAL (D.), DAS (S.), EL ABBADI (A.) - Big data and cloud computing : current state and future opportunities. - In Proceedings of the 14th International Conference on Extending Database Technology (pp. 530-533). ACM (2011).
-
(2) - BLEI (D.) - * - Probabilistic Topic Models, Communications of the ACM (55 : 4), pp. 77-84. M (2012).
-
(3) - BRASSEUR (C.) - Enjeux et usages du big data. - Technologies, méthodes et mises en œuvre, Paris, Lavoisier, p. 30 (2013).
-
(4) - BURBY (J.), BROWN (A.) - Web Analytics Definitions – Version 4.0. - Retrieved from http://www.digitalanalyticsassociation.org/standards (2007).
-
(5) - CATTELL (R.) - Scalable SQL and NoSQL data stores. - ACM SIGMOD Record, 39 (4), pp. 12-27 (2011).
-
(6) - CHEN (H.), CHIANG (R.H.L.), STOREY...
DANS NOS BASES DOCUMENTAIRES
-
Analyse automatique d’opinions. États des lieux et perspectives
-
Coud computing et informatique en nuage.
-
Systèmes de recommandation.
-
Génération automatique de résumés.
ANNEXES
Cet article fait partie de l’offre
Technologies logicielles Architectures des systèmes
(240 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive