Présentation

Article interactif

1 - CARACTÉRISATION DES MÉGADONNÉES

  • 1.1 - Modèle des 3V étendu aux 5V
  • 1.2 - Mégadonnées et informatique décisionnelle

2 - DE L’USAGE DES MÉGADONNÉES

  • 2.1 - Domaine de la recherche scientifique
  • 2.2 - Domaine de la santé
  • 2.3 - Domaine socio-économique et politique
  • 2.4 - Dans le transport et l’énergie

3 - STOCKAGE ET GESTION DES MÉGADONNÉES

4 - ANALYSE DES MÉGADONNÉES

  • 4.1 - Analytique de données
  • 4.2 - Apprentissage machine au centre de l’analyse
  • 4.3 - Analyse de mégadonnées stockées
  • 4.4 - Analyse de flots de données
  • 4.5 - Analytique de textes
  • 4.6 - Analytique du Web et services Web

5 - CONCLUSION

Article de référence | Réf : H6040 v2

De l’usage des mégadonnées
Introduction au Big-Data — stockage, analyse et fouille des mégadonnées

Auteur(s) : Patrice BELLOT, Bernard ESPINASSE

Date de publication : 10 févr. 2024

Cet article offert jusqu'au 01/12/2024
Consulter en libre accès

Vous êtes déjà abonné ?Connectez-vous !

Sommaire

Présentation

Version en anglais En anglais

RÉSUMÉ

L’objet de cet article est de cerner le terme Big Data ou mégadonnées ainsi que les technologies et enjeux qui lui sont associées. Dans un premier temps, les mégadonnées sont caractérisées et des usages sont évoqués pour différents domaines. Ensuite, sont présentées les différentes solutions de stockage des mégadonnées, des bases de données SQL et NoSQL à l’informatique dans le nuage.  La deuxième partie est consacrée à l’analyse et la fouille des mégadonnées, notamment sous le prisme des dernières avancées de l’apprentissage machine et de l’intelligence artificielle.

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

ABSTRACT

Introduction to Big Data : storage, big analytics and data mining

The purpose of this paper is to define the term big data and the technologies and issues associated with it. We begin by characterizing what big data is and describing its uses in various fields. Next, the various solutions for storing big data are presented, from SQL and NoSQL databases to cloud computing.  The second part is devoted to the analysis and mining of big data, particularly through the prism of the latest advances in machine learning and artificial intelligence.

Auteur(s)

  • Patrice BELLOT

  • Bernard ESPINASSE : Professeurs des Universités - Aix-Marseille Université, CNRS (LIS UMR 7020) - Ecole Polytechnique Universitaire de Marseille, - Marseille, France.

INTRODUCTION

L’objet de cet article est de cerner le terme Big Data, de préciser les enjeux économiques et sociétaux associés, d’introduire différentes grandes méthodes et techniques qui s’y rattachent. Même si l’origine du terme Big Data est controversée, on estime qu’il est apparu en 1997, et sa traduction française officielle recommandée est “mégadonnées”, même si parfois on parle de “données massives”. Récemment, la diffusion des approches et des applications exploitant les réseaux de neurones a tendance à remplacer ce terme dans l’imaginaire collectif par ceux de Data science, d’Intelligence Artificielle ou de Machine Learning, et même si chacun renvoie à des domaines différents, les questions d’ingénierie et de recherche qui y sont communes sont nombreuses : elles concernent le stockage, la gestion, le traitement, l’analyse et l’exploitation (usages) de très grandes quantités de données, les opportunités et les risques qui leur sont associés.

Depuis au moins une trentaine d’années, les données générées n’ont fait que s’accroître. Actuellement, nous produisons annuellement une masse de données estimée à près de 74 zettaoctets, soit un équivalent de plus de 1 Go par heure et par habitant de la planète. À l’horizon 2025, cette quantité est amenée à plus que doubler . Cet accroissement des données touche tous les secteurs, tant scientifiques que culturels, industriels ou financiers.

Le taux de croissance annuel moyen mondial du marché de la technologie et des services autour du Big Data a été estimé à plus de 30 % sur la période 2011-2016 et demeure aux alentours de 20 % depuis. D’après une étude IDC, ce marché a atteint 23,8 milliards de dollars en 2016 et 90 milliards en 2021 pour les seuls logiciels BigData et autres services dans le cloud. Toujours selon IDC, sur le plan européen, les dépenses sont estimées à 50 milliards de dollars pour 2022 pour les Big Data and business analytics (BDA) solutions.

On s’intéresse dans cet article à deux grandes problématiques associées aux mégadonnées, d’une part leur stockage et d’autre part leur analyse et exploitation selon des approches statistiques et d’apprentissage machine, tout en identifiant les limites des approches traditionnelles et historiques. Les mégadonnées s’accompagnent principalement du développement d’applications à visée analytique ou prédictive, qui traitent de données pour en tirer du sens, les classer, les rechercher ou les filtrer, ou encore pour réaliser des estimations d’états à venir ou de valeurs futures. Ces analyses sont généralement appelées « Big Analytics », ou « Analytique » et reposent sur des méthodes de calcul distribué et parallèle, souvent coûteuses en temps de calcul et en énergie et nécessitant une mise au point et une maintenance complexe (paramétrisation, évaluation, adaptation, conservation, interprétation).

Dans la section 1, nous essayons de caractériser le terme de Big Data ou mégadonnées, en distinguant son paradigme de celui de l’informatique décisionnelle. Dans la section 2, nous donnons quelques exemples d’usage des mégadonnées dans différents secteurs d’activité. La section 3 concerne la problématique du stockage de ces mégadonnées, tandis que la section 4 traite de l’analyse des mégadonnées ou « analytique ».

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Cet article offert jusqu'au 01/12/2024
Consulter en libre accès

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

KEYWORDS

big data   |   cloud computing   |   big data   |   analytics   |   machine learning   |   storage   |   data mining   |   NoSQL

VERSIONS

Il existe d'autres versions de cet article :

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v2-h6040

CET ARTICLE SE TROUVE ÉGALEMENT DANS :

Accueil Ressources documentaires Technologies de l'information Technologies logicielles Architectures des systèmes Big Data Introduction au Big-Data — stockage, analyse et fouille des mégadonnées De l’usage des mégadonnées

Accueil Ressources documentaires Technologies de l'information Documents numériques Gestion de contenu Gestion de contenus numériques Introduction au Big-Data — stockage, analyse et fouille des mégadonnées De l’usage des mégadonnées

Accueil Ressources documentaires Innovation Industrie du futur Industrie du futur : outils numériques Introduction au Big-Data — stockage, analyse et fouille des mégadonnées De l’usage des mégadonnées

Accueil Ressources documentaires Génie industriel Industrie du futur Industrie du futur : outils numériques Introduction au Big-Data — stockage, analyse et fouille des mégadonnées De l’usage des mégadonnées

Accueil Ressources documentaires Innovation Smart city - Ville intelligente et durable Les technologies numériques au service de la ville et de la personne Introduction au Big-Data — stockage, analyse et fouille des mégadonnées De l’usage des mégadonnées


Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(239 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Version en anglais En anglais

2. De l’usage des mégadonnées

Les mégadonnées ou Big Data sont utilisées dans tous les secteurs d’activités, tant scientifiques, techniques que socio-économiques, depuis les données récupérées de l’exploitation de moteurs d’avion permettant de mieux maintenir ou concevoir ces derniers, jusqu’aux données spécifiant nos relations sur les réseaux sociaux pouvant être utilisées par les banques pour estimer la qualité de notre crédit . Donnons, de façon non exhaustive, quelques exemples d’usage des mégadonnées dans différents grands domaines d’activité.

2.1 Domaine de la recherche scientifique

Dans le domaine scientifique et technique, les scientifiques et ingénieurs font face à des mégadonnées générées automatiquement par des capteurs ou instruments de mesure. Par exemple, dans le domaine de l’astronomie, en huit ans (2000-2008), le Sloan Digital Sky Survey, un grand programme d’observation astronomique, a enregistré 140 téraoctets d’images. Mais il ne faut que cinq jours à son successeur, le LSST (Large Synoptic Survey Telescope) pour acquérir ce volume. Le volume total de données recueillies est de 60 Po et celui des données générées s’exprime en centaines de Po. En physique, dans sa quête du boson de Higgs, le grand collisionneur de hadrons (LHC) a amassé de son côté, chaque année, près de 15 pétaoctets de données, l’équivalent de plus de 3 millions de DVD.

HAUT DE PAGE

2.2 Domaine de la santé

En recherche médicale, les technologies associées aux mégadonnées ont permis des avancées spectaculaires dans l’analyse du génome humain : alors qu’il a fallu dix ans, et plus de 2 milliards d’euros pour réaliser le premier séquençage humain complet, il est maintenant possible d’en réaliser un en une journée et pour quelques centaines d’euros. Ces connaissances sur le génome, couplées à d’autres, permettent de mieux comprendre l’évolution...

Cet article est réservé aux abonnés.
Il vous reste 93% à découvrir.

Cet article offert jusqu'au 01/12/2024
Consulter en libre accès

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

TEST DE VALIDATION ET CERTIFICATION CerT.I. :

Cet article vous permet de préparer une certification CerT.I.

Le test de validation des connaissances pour obtenir cette certification de Techniques de l’Ingénieur est disponible dans le module CerT.I.

Obtenez CerT.I., la certification
de Techniques de l’Ingénieur !
Acheter le module

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(239 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
De l’usage des mégadonnées
Sommaire
Sommaire

BIBLIOGRAPHIE

  • (1) - TAYLOR (P.) -   *  -  Volume of data/information created, captured, copied, and consumed worldwide from 2010 to 2020, with forecasts from 2021 to 2025. Statista, Nov 2023. https://www.statista.com/statistics/871513/worldwide-data-created/

  • (2) - HUO (R.), VESSEL (D.) -   Worldwide Big Data and Analytics Software Forecast,  -  2022–2026. IDC, Juillet 2022. https://www.idc.com/getdoc.jsp?containerId=US48083022

  • (3) - BLEI (D.) -   Probabilistic Topic Models,  -  Communications of the ACM (55:4), pp. 77-84. M (2012).

  • (4) - BURBY (J.), BROWN (A.) -   Web Analytics Definitions –  -  Version 4.0. Retrieved from http://www.digitalanalyticsassociation.org/standards (2007).

  • (5) - CATTELL (R.) -   *  -  Scalable SQL and NoSQL data stores. ACM SIGMOD Record, 39(4), pp. 12-27 (2011).

  • (6) - CHEN (H.), CHIANG (R.H.L.),...

Cet article est réservé aux abonnés.
Il vous reste 92% à découvrir.

Cet article offert jusqu'au 01/12/2024
Consulter en libre accès

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(239 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Sommaire

QUIZ ET TEST DE VALIDATION PRÉSENTS DANS CET ARTICLE

1/ Quiz d'entraînement

Entraînez vous autant que vous le voulez avec les quiz d'entraînement.

2/ Test de validation

Lorsque vous êtes prêt, vous passez le test de validation. Vous avez deux passages possibles dans un laps de temps de 30 jours.

Entre les deux essais, vous pouvez consulter l’article et réutiliser les quiz d'entraînement pour progresser. L’attestation vous est délivrée pour un score minimum de 70 %.


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(239 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS