1 - VALORISER LES DONNÉES

2.1 - Volume des bases de données
2.2 - Rapport à la clientèle

3 - ÉVOLUTION DES TECHNOLOGIES INFORMATIQUES DE LA DÉCISION

4 - OBJET DU DATA MINING

5 - EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES

5.1 - Niveau opérationnel et décisionnel
5.2 - Niveau analyse

6 - PHASE D’ACQUISITION DE DONNÉES

6.1 - Acquisition
6.2 - Prétraitement

7 - PHASE DE FOUILLE DE DONNÉES

7.1 - Méthodes de visualisation et de description

Figure 7 - Représentations graphiques Figure 8 - Cube de données Figure 11 - Arbre de description
7.2 - Méthodes de structuration et de classification

Figure 14 - Méthodes de structuration
7.3 - Méthodes d’explication et de prédiction

Figure 16 - Méthodes polythétiques Figure 18 - Arbre de décision Figure 19 - Arbre à deux niveaux Figure 20 - Réseau multicouche

8 - PHASE DE VALIDATION ET DE MISE EN FORME

9 - DONNÉES SPÉCIFIQUES

9.1 - Text mining
9.2 - Image mining
9.3 - Multimedia mining
9.4 - Web mining

10 - GRANDES APPLICATIONS

10.1 - Gestion de relation client
10.2 - Aide à la décision dans les processus industriels
10.3 - Génomique

11 - CONCLUSION

Bibliographie & annexes

Article de référence | Réf : H3744 v1

Valoriser les données
Extraction de connaissances à partir de données (ECD)

Auteur(s) : Djamel Abdelkader ZIGHED, Ricco RAKOTOMALALA

Date de publication : 10 nov. 2002 | Read in English

Pour explorer cet article
Télécharger l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

Présentation

Auteur(s)

Djamel Abdelkader ZIGHED : Professeur à l’université Lumière (Lyon-II) Laboratoire Équipe de recherche en ingénierie des connaissances (ERIC)
Ricco RAKOTOMALALA : Maître de conférences à l’université Lumière (Lyon-II) Laboratoire ERIC

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

INTRODUCTION

Le « data mining », dans sa forme et sa compréhension actuelle, comme champ à la fois scientifique et industriel, est apparu au début des années 1990. Cette émergence n’est pas le fruit du hasard mais le résultat de la combinaison de nombreux facteurs à la fois technologiques, économiques et même sociopolitiques.

On peut voir le « data mining » comme une nécessité imposée par le besoin des entreprises de valoriser les données qu’elles accumulent dans leurs bases. En effet, le développement des capacités de stockage et les vitesses de transmission des réseaux ont conduit les utilisateurs à accumuler de plus en plus de données. Certains experts estiment que le volume des données double tous les ans. Que doit-on faire avec ces données coûteuses à collecter et à conserver ?

Les contours

Une confusion subsiste encore entre « data mining », que nous appelons en français « fouille de données » et « knowledge discovery in data bases » (KDD), que nous appelons en français « extraction de connaissances à partir de données » (ECD). Le « data mining » est l’un des maillons de la chaîne de traitement pour la découverte des connaissances à partir des données. Sous forme imagée, nous pourrions dire que l’ECD est un véhicule dont le « data mining » est le moteur.

Le « data mining » est l’art d’extraire des connaissances à partir de données. Les données peuvent être stockées dans des entrepôts (« data warehouse »), dans des bases de données distribuées ou sur Internet (« web mining »). Le « data mining » ne se limite pas au traitement des données structurées sous forme de tables numériques ; il offre des moyens pour aborder les corpus en langage naturel (« text mining »), les images (« image mining »), le son (« sound mining ») ou la vidéo et dans ce cas, on parle alors plus généralement de « multimedia mining ».

L’ECD, par le biais du « data mining », est alors vue comme une ingénierie pour extraire des connaissances à partir de données.

La démarche

L’ECD est un processus complexe qui se déroule suivant une suite d’opérations. Des étapes de prétraitement ont lieu avant le « data mining » proprement dit. Le prétraitement porte sur l’accès aux données en vue de construire des « datamarts », des corpus de données spécifiques. Le prétraitement concerne la mise en forme des données entrées selon leur type (numérique, symbolique, image, texte, son), ainsi que le nettoyage des données, le traitement des données manquantes, la sélection d’attributs ou la sélection d’instances. Cette première phase est cruciale car du choix des descripteurs et de la connaissance précise de la population va dépendre la mise au point des modèles de prédiction. L’information nécessaire à la construction d’un bon modèle de prévision peut être disponible dans les données mais un choix inapproprié de variables ou d’échantillons d’apprentissage peut faire échouer l’opération.

Les outils

Le « data mining », dans sa définition restreinte, opère sur des tables bidimensionnelles, appelées « datamarts », et fait appel à trois grandes familles de méthodes issues de la statistique, de l’analyse des données, de la reconnaissance de formes ou de l’apprentissage automatique. Ces méthodes couramment utilisées ou présentées comme faisant partie de l’arsenal du « data miner » sont :
- les méthodes de description uni-, bi- et multidimensionnelles : numériques, pour la plupart, elles sont issues de la statistique descriptive et de l’analyse des données, ainsi que des techniques de visualisation graphique dont certaines font appel à la réalité virtuelle et à des métaphores calquées sur le modèle mental humain ;
- les méthodes de structuration qui regroupent toutes les techniques d’apprentissage non supervisé et de classification automatique provenant des domaines de la reconnaissance de formes, de la statistique, de l’apprentissage automatique et du « connexionisme » (approche de modélisation basée sur l’utilisation des réseaux neuromimétiques) ;
- les méthodes explicatives dont le but est de relier un phénomène à expliquer à un phénomène explicatif : généralement mises en œuvre en vue d’extraire des modèles de classement ou de prédiction, ces méthodes descendent de la statistique, de la reconnaissance de formes, de l’apprentissage automatique et du « connexionisme », voire du domaine des bases de données dans le cas de la recherche de règles d’association.
En dehors du champ des statisticiens, nous assistons à l’émergence d’outils plutôt que de méthodes exploratoires. On peut ainsi citer les algorithmes de recherche de règles d’association dans les grandes bases de données. Les premiers algorithmes proposés dans ce domaine ont fait sourire des membres de la communauté des statisticiens et des spécialistes de l’induction en raison de la naïveté du matériel méthodologique qui était alors utilisé. Par la suite, ces problèmes ont été ramenés dans un cadre méthodologique plus général, faisant par exemple usage de parcours de treillis de Gallois ou de recherche de décomposition optimale d’une relation binaire par des relations dites maximales.

Les résultats et les applications

L’objectif de la mise en œuvre des techniques de « data mining » est d’aboutir à des connaissances opérationnelles. Ces connaissances sont exprimées sous forme de modèles plus ou moins complexes : une série de coefficients pour un modèle de prévision numérique, des règles logiques du type « si Condition alors Conclusion » ou des instances. Pour que ces modèles acquièrent le statut de connaissances, ils doivent être validés. Il s’agit alors de mettre en œuvre une série d’opérations dites de posttraitement qui visent à évaluer la validité des modèles, à les rendre intelligibles s’ils doivent être utilisés par l’humain ou à les exprimer dans un formalisme approprié pour être compréhensibles par une machine. Au-delà de la validation statistique, l’intelligibilité des modèles est souvent un critère de leur survie. En effet, un modèle compris par l’usager sera utilisé et par conséquent critiqué et perfectionné. Les utilisateurs n’aiment généralement pas employer de modèles sous forme de « boîtes noires ».

Une question importante, dans le domaine du « data mining », est de pouvoir répondre du choix de l’outil approprié en regard du problème à résoudre. Selon le type de problème, il existe de nombreuses méthodes de « data mining » concurrentes. Un consensus général semble se dégager pour reconnaître qu’aucune méthode ne surpasse les autres car elles ont toutes leurs forces et leurs faiblesses spécifiques. Il semble plus avantageux de faire coopérer des méthodes comme nous le ferions avec une équipe de spécialistes.

Les techniques de « data mining » ont été employées avec beaucoup de succès dans de grands secteurs d’application : la gestion de la relation client (GRC) – ou « customer relationship management » (CRM) –, la gestion des connaissances – « knowledge management » – ou l’indexation de documents. Aucun domaine d’application n’est a priori exclu car dès que nous sommes en présence de données empiriques, le « data mining » peut rendre de nombreux services.

Les limites

Le « data mining » est un domaine à la fois scientifique et technologique récent qui a encore de nombreux défis à relever. La communauté des chercheurs dans ce domaine s’intéresse ainsi à des problèmes tels que la recherche de bons espaces de représentation ou l’agrégation de prédicteurs.

La rédaction de cet article a été possible grâce au soutien et aux nombreuses contributions des chercheurs :
- Nadir BELKHITER, professeur à l’université de Laval (Québec, Canada) et professeur invité à l’université Lumière (Lyon-II) pendant l’année 2001-2002 ;
- Salima HASSAS, maître de conférences à l’université Claude-Bernard (Lyon-I) ;
- Fadila BENTAYEB, Omar BOUSSAID, Jérôme DARMONT, Sabine RABASÉDA, maîtres de conférences à l’université Lumière et membres du groupe Bases de données décisionnelles du laboratoire ERIC ;
- Fabrice MUHLENBACH, Jérémy CLECH, doctorants au laboratoire ERIC.

Qu’ils soient tous très chaleureusement remerciés.

Nous tenons également à exprimer nos remerciements à tous les membres du laboratoire ERIC qui ont, par leur encouragement et leur disponibilité, facilité la production de cet article.

Cet article est réservé aux abonnés.
Il vous reste 95% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-h3744

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(236 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Présentation

Page
suivante

Facteurs d’émergence du data mining

1. Valoriser les données

Nous allons nous intéresser à l’émergence du data mining, champ à la fois technologique et scientifique.

L’exploitation de données pour en extraire des connaissances est une préoccupation constante de l’être humain car elle est une condition essentielle de son évolution. L’homme a toujours mémorisé sur des supports différents des informations qui lui ont permis d’inférer des lois. La biologie, la physique, la chimie ou la sociologie, pour ne citer que ces disciplines, font largement usage de l’approche empirique pour découvrir des lois et/ou faire ressortir des éléments structurants dans des populations. La statistique est devenue une science dont l’objet est de donner un cadre rigoureux à la démarche empirique. C’est au sein de la statistique et du domaine des bases de données que le data mining a puisé une large partie de ses outils.

Les historiens des sciences, s’ils ne l’ont pas déjà fait, vont certainement proposer de nombreuses théories pour mieux situer le data mining dans le domaine des sciences.

Dans sa forme actuelle, le data mining est né d’un besoin : valoriser les bases de données dont la taille croît de manière exponentielle afin de mieux maîtriser la compétitivité.

Exemple

l’exploitation de l’historique des achats des clients permet d’optimiser qualitativement et quantitativement les campagnes de marketing.

HAUT DE PAGE

Cet article est réservé aux abonnés.
Il vous reste 95% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(236 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Valoriser les données

Page
précédentePrésentation

Page
suivante

Facteurs d’émergence du data mining

BIBLIOGRAPHIE

(1) - * - Dans cette bibliographie, nous avons essentiellement inséré les ouvrages de base. Les articles de revues ou des conférences ont été explicitement écartés. On peut trouver sur Internet des bibliographies assez larges sur les différents sujets.
(2) - AURAY (J.P.), DURU (D.), ZIGHED (A.) - Analyse des données multidimensionnelles. Vol. 1 : les méthodes de description - . Lacassagne (2000).
(3) - AURAY (J.P.), DURU (D.), ZIGHED (A.) - Analyse des données multidimensionnelles. Vol. 2 : les méthodes de structuration - . Lacassagne (2000).
(4) - AURAY (J.P.), DURU (D.), ZIGHED (A.) - Analyse des données multidimensionnelles. Vol. 3 : les méthodes d’explication - . Lacassagne (2000).
(5) - DUDA (R.), HART (P.) - Pattern Classification and Scene Analysis - . John Wiley & Sons (1973).

ANNEXES

1 Site Internet

1 Site Internet

KD Nuggets

http://www.kdnuggets.com

HAUT DE PAGE

Cet article est réservé aux abonnés.
Il vous reste 93% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(236 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Valoriser les données Extraction de connaissances à partir de données (ECD)

Auteur(s)

INTRODUCTION

Cet article est réservé aux abonnés.Il vous reste 95% à découvrir.

L'expertise technique et scientifique de référence

DOI (Digital Object Identifier)

1. Valoriser les données

Cet article est réservé aux abonnés.Il vous reste 95% à découvrir.

L'expertise technique et scientifique de référence

BIBLIOGRAPHIE

ANNEXES

Cet article est réservé aux abonnés.Il vous reste 93% à découvrir.

L'expertise technique et scientifique de référence

Valoriser les données
Extraction de connaissances à partir de données (ECD)

Cet article est réservé aux abonnés.
Il vous reste 95% à découvrir.

Cet article est réservé aux abonnés.
Il vous reste 95% à découvrir.

Cet article est réservé aux abonnés.
Il vous reste 93% à découvrir.