2.1 - Volume des bases de données
2.2 - Rapport à la clientèle

3 - ÉVOLUTION DES TECHNOLOGIES INFORMATIQUES DE LA DÉCISION

5 - EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES

5.1 - Niveau opérationnel et décisionnel
5.2 - Niveau analyse

6 - PHASE D’ACQUISITION DE DONNÉES

6.1 - Acquisition
6.2 - Prétraitement

7 - PHASE DE FOUILLE DE DONNÉES

7.1 - Méthodes de visualisation et de description

Figure 7 - Représentations graphiques Figure 8 - Cube de données Figure 11 - Arbre de description
7.2 - Méthodes de structuration et de classification

Figure 14 - Méthodes de structuration
7.3 - Méthodes d’explication et de prédiction

Figure 16 - Méthodes polythétiques Figure 18 - Arbre de décision Figure 19 - Arbre à deux niveaux Figure 20 - Réseau multicouche

8 - PHASE DE VALIDATION ET DE MISE EN FORME

9 - DONNÉES SPÉCIFIQUES

9.1 - Text mining
9.2 - Image mining
9.3 - Multimedia mining
9.4 - Web mining

10 - GRANDES APPLICATIONS

10.1 - Gestion de relation client
10.2 - Aide à la décision dans les processus industriels
10.3 - Génomique

11 - CONCLUSION

Bibliographie & annexes

Article de référence | Réf : H3744 v1

Phase d’acquisition de données
Extraction de connaissances à partir de données (ECD)

Auteur(s) : Djamel Abdelkader ZIGHED, Ricco RAKOTOMALALA

Date de publication : 10 nov. 2002 | Read in English

Pour explorer cet article
Télécharger l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

Présentation

Auteur(s)

Djamel Abdelkader ZIGHED : Professeur à l’université Lumière (Lyon-II) Laboratoire Équipe de recherche en ingénierie des connaissances (ERIC)
Ricco RAKOTOMALALA : Maître de conférences à l’université Lumière (Lyon-II) Laboratoire ERIC

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

INTRODUCTION

Le « data mining », dans sa forme et sa compréhension actuelle, comme champ à la fois scientifique et industriel, est apparu au début des années 1990. Cette émergence n’est pas le fruit du hasard mais le résultat de la combinaison de nombreux facteurs à la fois technologiques, économiques et même sociopolitiques.

On peut voir le « data mining » comme une nécessité imposée par le besoin des entreprises de valoriser les données qu’elles accumulent dans leurs bases. En effet, le développement des capacités de stockage et les vitesses de transmission des réseaux ont conduit les utilisateurs à accumuler de plus en plus de données. Certains experts estiment que le volume des données double tous les ans. Que doit-on faire avec ces données coûteuses à collecter et à conserver ?

Les contours

Une confusion subsiste encore entre « data mining », que nous appelons en français « fouille de données » et « knowledge discovery in data bases » (KDD), que nous appelons en français « extraction de connaissances à partir de données » (ECD). Le « data mining » est l’un des maillons de la chaîne de traitement pour la découverte des connaissances à partir des données. Sous forme imagée, nous pourrions dire que l’ECD est un véhicule dont le « data mining » est le moteur.

Le « data mining » est l’art d’extraire des connaissances à partir de données. Les données peuvent être stockées dans des entrepôts (« data warehouse »), dans des bases de données distribuées ou sur Internet (« web mining »). Le « data mining » ne se limite pas au traitement des données structurées sous forme de tables numériques ; il offre des moyens pour aborder les corpus en langage naturel (« text mining »), les images (« image mining »), le son (« sound mining ») ou la vidéo et dans ce cas, on parle alors plus généralement de « multimedia mining ».

L’ECD, par le biais du « data mining », est alors vue comme une ingénierie pour extraire des connaissances à partir de données.

La démarche

L’ECD est un processus complexe qui se déroule suivant une suite d’opérations. Des étapes de prétraitement ont lieu avant le « data mining » proprement dit. Le prétraitement porte sur l’accès aux données en vue de construire des « datamarts », des corpus de données spécifiques. Le prétraitement concerne la mise en forme des données entrées selon leur type (numérique, symbolique, image, texte, son), ainsi que le nettoyage des données, le traitement des données manquantes, la sélection d’attributs ou la sélection d’instances. Cette première phase est cruciale car du choix des descripteurs et de la connaissance précise de la population va dépendre la mise au point des modèles de prédiction. L’information nécessaire à la construction d’un bon modèle de prévision peut être disponible dans les données mais un choix inapproprié de variables ou d’échantillons d’apprentissage peut faire échouer l’opération.

Les outils

Le « data mining », dans sa définition restreinte, opère sur des tables bidimensionnelles, appelées « datamarts », et fait appel à trois grandes familles de méthodes issues de la statistique, de l’analyse des données, de la reconnaissance de formes ou de l’apprentissage automatique. Ces méthodes couramment utilisées ou présentées comme faisant partie de l’arsenal du « data miner » sont :
- les méthodes de description uni-, bi- et multidimensionnelles : numériques, pour la plupart, elles sont issues de la statistique descriptive et de l’analyse des données, ainsi que des techniques de visualisation graphique dont certaines font appel à la réalité virtuelle et à des métaphores calquées sur le modèle mental humain ;
- les méthodes de structuration qui regroupent toutes les techniques d’apprentissage non supervisé et de classification automatique provenant des domaines de la reconnaissance de formes, de la statistique, de l’apprentissage automatique et du « connexionisme » (approche de modélisation basée sur l’utilisation des réseaux neuromimétiques) ;
- les méthodes explicatives dont le but est de relier un phénomène à expliquer à un phénomène explicatif : généralement mises en œuvre en vue d’extraire des modèles de classement ou de prédiction, ces méthodes descendent de la statistique, de la reconnaissance de formes, de l’apprentissage automatique et du « connexionisme », voire du domaine des bases de données dans le cas de la recherche de règles d’association.
En dehors du champ des statisticiens, nous assistons à l’émergence d’outils plutôt que de méthodes exploratoires. On peut ainsi citer les algorithmes de recherche de règles d’association dans les grandes bases de données. Les premiers algorithmes proposés dans ce domaine ont fait sourire des membres de la communauté des statisticiens et des spécialistes de l’induction en raison de la naïveté du matériel méthodologique qui était alors utilisé. Par la suite, ces problèmes ont été ramenés dans un cadre méthodologique plus général, faisant par exemple usage de parcours de treillis de Gallois ou de recherche de décomposition optimale d’une relation binaire par des relations dites maximales.

Les résultats et les applications

L’objectif de la mise en œuvre des techniques de « data mining » est d’aboutir à des connaissances opérationnelles. Ces connaissances sont exprimées sous forme de modèles plus ou moins complexes : une série de coefficients pour un modèle de prévision numérique, des règles logiques du type « si Condition alors Conclusion » ou des instances. Pour que ces modèles acquièrent le statut de connaissances, ils doivent être validés. Il s’agit alors de mettre en œuvre une série d’opérations dites de posttraitement qui visent à évaluer la validité des modèles, à les rendre intelligibles s’ils doivent être utilisés par l’humain ou à les exprimer dans un formalisme approprié pour être compréhensibles par une machine. Au-delà de la validation statistique, l’intelligibilité des modèles est souvent un critère de leur survie. En effet, un modèle compris par l’usager sera utilisé et par conséquent critiqué et perfectionné. Les utilisateurs n’aiment généralement pas employer de modèles sous forme de « boîtes noires ».

Une question importante, dans le domaine du « data mining », est de pouvoir répondre du choix de l’outil approprié en regard du problème à résoudre. Selon le type de problème, il existe de nombreuses méthodes de « data mining » concurrentes. Un consensus général semble se dégager pour reconnaître qu’aucune méthode ne surpasse les autres car elles ont toutes leurs forces et leurs faiblesses spécifiques. Il semble plus avantageux de faire coopérer des méthodes comme nous le ferions avec une équipe de spécialistes.

Les techniques de « data mining » ont été employées avec beaucoup de succès dans de grands secteurs d’application : la gestion de la relation client (GRC) – ou « customer relationship management » (CRM) –, la gestion des connaissances – « knowledge management » – ou l’indexation de documents. Aucun domaine d’application n’est a priori exclu car dès que nous sommes en présence de données empiriques, le « data mining » peut rendre de nombreux services.

Les limites

Le « data mining » est un domaine à la fois scientifique et technologique récent qui a encore de nombreux défis à relever. La communauté des chercheurs dans ce domaine s’intéresse ainsi à des problèmes tels que la recherche de bons espaces de représentation ou l’agrégation de prédicteurs.

La rédaction de cet article a été possible grâce au soutien et aux nombreuses contributions des chercheurs :
- Nadir BELKHITER, professeur à l’université de Laval (Québec, Canada) et professeur invité à l’université Lumière (Lyon-II) pendant l’année 2001-2002 ;
- Salima HASSAS, maître de conférences à l’université Claude-Bernard (Lyon-I) ;
- Fadila BENTAYEB, Omar BOUSSAID, Jérôme DARMONT, Sabine RABASÉDA, maîtres de conférences à l’université Lumière et membres du groupe Bases de données décisionnelles du laboratoire ERIC ;
- Fabrice MUHLENBACH, Jérémy CLECH, doctorants au laboratoire ERIC.

Qu’ils soient tous très chaleureusement remerciés.

Nous tenons également à exprimer nos remerciements à tous les membres du laboratoire ERIC qui ont, par leur encouragement et leur disponibilité, facilité la production de cet article.

Cet article est réservé aux abonnés.
Il vous reste 92% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-h3744

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(236 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Présentation

Page
suivante

Phase de fouille de données

6. Phase d’acquisition de données

6.1 Acquisition

Les données peuvent être localisées sur des sites différents de celui où s’effectue l’ECD. Elles peuvent être stockées selon des architectures variées : dans des bases de données relationnelles, dans des entrepôts de données, sur le Web ou dans des banques de données spécialisées (images, bibliothèques ou librairies numériques, base de données génomiques). Elles peuvent être structurées ou non selon différents types : données tabulaires ou textuelles, images, sons ou séquences vidéo. En ECD, l’analyste, qu’il soit ingénieur de la connaissance ou statisticien, doit avoir un problème relativement bien délimité. Il ne se lance pas dans l’ECD sans avoir une certaine idée des objectifs de son opération et des moyens informationnels et technologiques dont il dispose. Par exemple, il souhaite comprendre pourquoi certains de ses clients se sont tournés vers une entreprise concurrente ou il cherche à mieux connaître son activité selon différents critères. Toutes les données disponibles et accessibles au niveau de l’entrepôt ne sont certainement pas utiles dans leur intégralité pour traiter son problème particulier. Il ne viendrait à l’esprit d’aucun spécialiste en data mining de télécharger tout le contenu du Web (évalué à plusieurs milliards de pages) pour en extraire des connaissances, d’autant plus que le contenu du Web change continuellement.

La phase d’acquisition vise ainsi à cibler, même de façon grossière, l’espace des données qui va être exploré, le spécialiste du data mining agit ainsi un peu à l’image du géologue qui définit des zones de prospection, étant persuadé que certaines régions seront probablement vite abandonnées car elles ne recèlent aucun ou que peu de minerai. L’acquisition met en œuvre des requêtes ad hoc pour rapatrier les données potentiellement utiles selon le point de vue de l’expert. Le processus d’ECD n’est pas linéaire car il arrive aussi que l’on revienne, après analyse, chercher de nouvelles données. La phase d’acquisition nécessite le recours à des moteurs de recherche de données. Cette phase peut passer par les moteurs de requêtes des bases de données comme le langage SQL. L’acquisition peut aussi se faire à travers des outils de requêtes plus spécifiques aux...

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(236 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Phase d’acquisition de données

Page
précédenteExtraction de connaissances à partir de données

Page
suivante

Phase de fouille de données

BIBLIOGRAPHIE

(1) - * - Dans cette bibliographie, nous avons essentiellement inséré les ouvrages de base. Les articles de revues ou des conférences ont été explicitement écartés. On peut trouver sur Internet des bibliographies assez larges sur les différents sujets.
(2) - AURAY (J.P.), DURU (D.), ZIGHED (A.) - Analyse des données multidimensionnelles. Vol. 1 : les méthodes de description - . Lacassagne (2000).
(3) - AURAY (J.P.), DURU (D.), ZIGHED (A.) - Analyse des données multidimensionnelles. Vol. 2 : les méthodes de structuration - . Lacassagne (2000).
(4) - AURAY (J.P.), DURU (D.), ZIGHED (A.) - Analyse des données multidimensionnelles. Vol. 3 : les méthodes d’explication - . Lacassagne (2000).
(5) - DUDA (R.), HART (P.) - Pattern Classification and Scene Analysis - . John Wiley & Sons (1973).

ANNEXES

1 Site Internet

1 Site Internet

KD Nuggets

http://www.kdnuggets.com

HAUT DE PAGE

Cet article est réservé aux abonnés.
Il vous reste 93% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(236 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Phase d’acquisition de données Extraction de connaissances à partir de données (ECD)

Auteur(s)

INTRODUCTION

Cet article est réservé aux abonnés.Il vous reste 92% à découvrir.

L'expertise technique et scientifique de référence

DOI (Digital Object Identifier)

6. Phase d’acquisition de données

Cet article est réservé aux abonnés.Il vous reste 94% à découvrir.

L'expertise technique et scientifique de référence

BIBLIOGRAPHIE

ANNEXES

Cet article est réservé aux abonnés.Il vous reste 93% à découvrir.

L'expertise technique et scientifique de référence

Phase d’acquisition de données
Extraction de connaissances à partir de données (ECD)

Cet article est réservé aux abonnés.
Il vous reste 92% à découvrir.

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Cet article est réservé aux abonnés.
Il vous reste 93% à découvrir.