Présentation
EnglishRÉSUMÉ
L’objet de cet article est de cerner le terme Big Data ou mégadonnées ainsi que les technologies et enjeux qui lui sont associées. Dans un premier temps, les mégadonnées sont caractérisées et des usages sont évoqués pour différents domaines. Ensuite, sont présentées les différentes solutions de stockage des mégadonnées, des bases de données SQL et NoSQL à l’informatique dans le nuage. La deuxième partie est consacrée à l’analyse et la fouille des mégadonnées, notamment sous le prisme des dernières avancées de l’apprentissage machine et de l’intelligence artificielle.
Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.
Lire l’articleAuteur(s)
-
Bernard ESPINASSE : Professeurs des Universités - Aix-Marseille Université, CNRS (LIS UMR 7020) - Ecole Polytechnique Universitaire de Marseille, - Marseille, France.
INTRODUCTION
L’objet de cet article est de cerner le terme Big Data, de préciser les enjeux économiques et sociétaux associés, d’introduire différentes grandes méthodes et techniques qui s’y rattachent. Même si l’origine du terme Big Data est controversée, on estime qu’il est apparu en 1997, et sa traduction française officielle recommandée est “mégadonnées”, même si parfois on parle de “données massives”. Récemment, la diffusion des approches et des applications exploitant les réseaux de neurones a tendance à remplacer ce terme dans l’imaginaire collectif par ceux de Data science, d’Intelligence Artificielle ou de Machine Learning, et même si chacun renvoie à des domaines différents, les questions d’ingénierie et de recherche qui y sont communes sont nombreuses : elles concernent le stockage, la gestion, le traitement, l’analyse et l’exploitation (usages) de très grandes quantités de données, les opportunités et les risques qui leur sont associés.
Depuis au moins une trentaine d’années, les données générées n’ont fait que s’accroître. Actuellement, nous produisons annuellement une masse de données estimée à près de 74 zettaoctets, soit un équivalent de plus de 1 Go par heure et par habitant de la planète. À l’horizon 2025, cette quantité est amenée à plus que doubler . Cet accroissement des données touche tous les secteurs, tant scientifiques que culturels, industriels ou financiers.
Le taux de croissance annuel moyen mondial du marché de la technologie et des services autour du Big Data a été estimé à plus de 30 % sur la période 2011-2016 et demeure aux alentours de 20 % depuis. D’après une étude IDC, ce marché a atteint 23,8 milliards de dollars en 2016 et 90 milliards en 2021 pour les seuls logiciels BigData et autres services dans le cloud. Toujours selon IDC, sur le plan européen, les dépenses sont estimées à 50 milliards de dollars pour 2022 pour les Big Data and business analytics (BDA) solutions.
On s’intéresse dans cet article à deux grandes problématiques associées aux mégadonnées, d’une part leur stockage et d’autre part leur analyse et exploitation selon des approches statistiques et d’apprentissage machine, tout en identifiant les limites des approches traditionnelles et historiques. Les mégadonnées s’accompagnent principalement du développement d’applications à visée analytique ou prédictive, qui traitent de données pour en tirer du sens, les classer, les rechercher ou les filtrer, ou encore pour réaliser des estimations d’états à venir ou de valeurs futures. Ces analyses sont généralement appelées « Big Analytics », ou « Analytique » et reposent sur des méthodes de calcul distribué et parallèle, souvent coûteuses en temps de calcul et en énergie et nécessitant une mise au point et une maintenance complexe (paramétrisation, évaluation, adaptation, conservation, interprétation).
Dans la section 1, nous essayons de caractériser le terme de Big Data ou mégadonnées, en distinguant son paradigme de celui de l’informatique décisionnelle. Dans la section 2, nous donnons quelques exemples d’usage des mégadonnées dans différents secteurs d’activité. La section 3 concerne la problématique du stockage de ces mégadonnées, tandis que la section 4 traite de l’analyse des mégadonnées ou « analytique ».
MOTS-CLÉS
big data informatique en nuage mégadonnées analytique Apprentissage machine stockage fouille de données NoSQL
VERSIONS
- Version archivée 1 de févr. 2017 par Bernard ESPINASSE, Patrice BELLOT
DOI (Digital Object Identifier)
CET ARTICLE SE TROUVE ÉGALEMENT DANS :
Accueil > Ressources documentaires > Innovation > Industrie du futur > Industrie du futur : outils numériques > Introduction au Big-Data — stockage, analyse et fouille des mégadonnées > Stockage et gestion des mégadonnées
Accueil > Ressources documentaires > Technologies de l'information > Technologies logicielles Architectures des systèmes > Big Data > Introduction au Big-Data — stockage, analyse et fouille des mégadonnées > Stockage et gestion des mégadonnées
Accueil > Ressources documentaires > Innovation > Smart city - Ville intelligente et durable > Les technologies numériques au service de la ville et de la personne > Introduction au Big-Data — stockage, analyse et fouille des mégadonnées > Stockage et gestion des mégadonnées
Accueil > Ressources documentaires > Technologies de l'information > Technologies logicielles Architectures des systèmes > Bases de données > Introduction au Big-Data — stockage, analyse et fouille des mégadonnées > Stockage et gestion des mégadonnées
Accueil > Ressources documentaires > Génie industriel > Industrie du futur > Industrie du futur : outils numériques > Introduction au Big-Data — stockage, analyse et fouille des mégadonnées > Stockage et gestion des mégadonnées
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Présentation
3. Stockage et gestion des mégadonnées
Dans cette section, nous nous intéressons à la problématique du stockage de très grands volumes de données dans la perspective de leur analyse. Dans un premier temps, nous pointons les limites des bases de données relationnelles et évoquons l’apport du cloud computing (informatique dans le « nuage »). Puis nous soulignons l’intérêt pour le stockage et la gestion des données du modèle de programmation parallèle MapReduce et d’un quadriciel libre, Hadoop, le mettant en œuvre. Ensuite, nous introduisons les différents modèles de bases de données dites NoSQL, constituant différentes solutions de stockage des mégadonnées. Pour finir nous évoquons quelques autres alternatives, notamment les bases de données NewSQL.
3.1 Bases de données relationnelles
En matière de stockage de données, les bases de données relationnelles [H 3 860]restent la référence pour l’analytique (OLAP) sur des données aux structures homogènes, fortement typées, éventuellement très volumineuses (volume maximal de l’ordre de 524 Po pour Microsoft SQL Server) et subissant des modifications fréquentes. Ces outils largement utilisés garantissent le maintien des propriétés ACID (Atomicité, Cohérence, Isolation et Durabilité) et passent à l’échelle par augmentation de la puissance de calcul (évolutivité verticale). Un exemple de base de données relationnelle ouverte et gratuite est MySQL, parmi les bases commerciales citons IBM DB2, Oracle et Sybase. Pour gérer de très gros volumes de données, toujours fidèle au modèle relationnel, les plateformes matérielles et logicielles s’appuient aussi, avec plus ou moins de facilité, sur une distribution (partitionnement) des données sur plusieurs serveurs, permettant une parallélisation de l’exécution des requêtes. C’est le cas de Teradata IntelliFlex (jusqu’à 2 048 nœuds physiques pour une capacité de plusieurs milliers d’utilisateurs simultanés) et Oracle RAC (Real Application Clusters) où plusieurs nœuds physiques partagent...
TEST DE VALIDATION ET CERTIFICATION CerT.I. :
Cet article vous permet de préparer une certification CerT.I.
Le test de validation des connaissances pour obtenir cette certification de Techniques de l’Ingénieur est disponible dans le module CerT.I.
de Techniques de l’Ingénieur ! Acheter le module
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Stockage et gestion des mégadonnées
BIBLIOGRAPHIE
-
(1) - TAYLOR (P.) - * - Volume of data/information created, captured, copied, and consumed worldwide from 2010 to 2020, with forecasts from 2021 to 2025. Statista, Nov 2023. https://www.statista.com/statistics/871513/worldwide-data-created/
-
(2) - HUO (R.), VESSEL (D.) - Worldwide Big Data and Analytics Software Forecast, - 2022–2026. IDC, Juillet 2022. https://www.idc.com/getdoc.jsp?containerId=US48083022
-
(3) - BLEI (D.) - Probabilistic Topic Models, - Communications of the ACM (55:4), pp. 77-84. M (2012).
-
(4) - BURBY (J.), BROWN (A.) - Web Analytics Definitions – - Version 4.0. Retrieved from http://www.digitalanalyticsassociation.org/standards (2007).
-
(5) - CATTELL (R.) - * - Scalable SQL and NoSQL data stores. ACM SIGMOD Record, 39(4), pp. 12-27 (2011).
-
(6) - CHEN (H.), CHIANG (R.H.L.),...
DANS NOS BASES DOCUMENTAIRES
ANNEXES
Mahout https://mahout.apache.org
BERTopic https://maartengr.github.io/BERTopic
Gargantext https://gargantext.org
HAUT DE PAGECet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
QUIZ ET TEST DE VALIDATION PRÉSENTS DANS CET ARTICLE
1/ Quiz d'entraînement
Entraînez vous autant que vous le voulez avec les quiz d'entraînement.
2/ Test de validation
Lorsque vous êtes prêt, vous passez le test de validation. Vous avez deux passages possibles dans un laps de temps de 30 jours.
Entre les deux essais, vous pouvez consulter l’article et réutiliser les quiz d'entraînement pour progresser. L’attestation vous est délivrée pour un score minimum de 70 %.
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive