Présentation

Article

1 - PROLÉGOMÈNES

2 - ANALYSE EN COMPOSANTES PRINCIPALES (ACP)

3 - AUTRES MÉTHODES FACTORIELLES

4 - CLASSIFICATION

5 - CONCLUSION

Article de référence | Réf : AF620 v1

Classification
Analyse des données ou statistique exploratoire multidimensionnelle

Auteur(s) : Philippe BESSE, Alain BACCINI

Date de publication : 10 avr. 2011

Pour explorer cet article
Télécharger l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

Sommaire

Présentation

Version en anglais English

RÉSUMÉ

Les techniques d'analyse des données ou, plus précisément, de statistique exploratoire multidimensionnelle, sont utilisées pour l'étude descriptive de tableaux présentant un nombre de variables en lignes, individus, colonnes, variant de quelques dizaines à quelques milliers. La production de graphiques et indicateurs synthétiques permettent de résumer les structures et principales caractéristiques des ces tableaux de grand format. Les méthodes proposées viennent en complément d’outils élémentaires de statistique uni ou bidimensionnelle et sont souvent un préalable à une modélisation ou une approche inférentielle, décisionnelle ou prévisionnelle des données étudiées. Cette exploration présente un intérêt dans différents secteurs, industriel, recherche et développement, tertiaire.

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

Auteur(s)

  • Philippe BESSE : Professeur à l'INSA de Toulouse - Institut de Mathématiques de Toulouse

  • Alain BACCINI : Ancien professeur à l’Université Paul Sabatier (Toulouse 3) - Institut de Mathématiques de Toulouse

INTRODUCTION

Les techniques d’analyse des données ou, plus précisément, de statistique exploratoire multidimensionnelle ont pour objectif l’étude descriptive des grands tableaux : n lignes, ou individus, ou unités statistiques, n variant de quelques dizaines à quelques milliers, voire millions, p colonnes, ou variables statistiques, où p varie de quelques dizaines à quelques milliers. Cet objectif est atteint par la production de graphiques et indicateurs synthétiques permettant de résumer les structures et principales caractéristiques de ces grands tableaux. Les méthodes proposées sont donc des techniques descriptives pour l’étude d’un grand nombre de variables et d’individus ; elles viennent en complément d’outils élémentaire de statistique uni- ou bidimensionnelle et sont souvent un préalable à une modélisation ou une approche inférentielle, décisionnelle ou prévisionnelle des données étudiées.

Le développement des moyens technologiques de mesure sont à l’origine de flux de données toujours en croissance et dont le stockage, comme l’analyse, sont rendus possibles par l’évolution conjointe des moyens de calcul. Les objectifs comme les champs d’application de l’exploration statistique de ces masses de données sont nombreux et très variés. Voyons quelques exemples de l’intérêt que cette exploration peut prendre dans différents secteurs :

  • dans le domaine industriel (agroalimentaire, microélectronique, construction mécanique…) où le suivi des procédés et la traçabilité des produits génèrent automatiquement des flux considérables de données. Une exploration statistique est un préalable à toute recherche de modélisation pour, par exemple, la mise en place d’une maîtrise statistique des procédés (MSP) ou la détection de défaillances ;

  • en amont, en recherche et développement où les besoins sont aussi importants : criblage virtuel de molécules dans l’industrie pharmaceutique, sensiométrie dans l’industrie agroalimentaire, sans parler de l’essor considérable des biotechnologies post-génomiques avec les données transcriptomiques, protéomiques… ;

  • dans le domaine tertiaire (banque, assurance, vente par correspondance, opérateurs de téléphonie…) et les services où les énormes fichiers de clientèle sont fouillés (data mining) à des fins marketing avec l’objectif de personnaliser la gestion de la relation client.

Cet article est réservé aux abonnés.
Il vous reste 95% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-af620


Cet article fait partie de l’offre

Mathématiques

(167 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Présentation
Version en anglais English

4. Classification

4.1 Objectifs

Comme dans le cas du positionnement multidimensionnel (MDS), les données, qui concernent n individus supposés affectés, pour simplifier, du même poids, peuvent se présenter sous différentes formes :

  • un tableau de distances ou mesures de dissemblance, n x n, entre les individus pris deux à deux ;

  • les observations de p variables quantitatives sur ces n individus associées à un choix de métrique ;

  • les observations, toujours sur ces n individus, de variables qualitatives ou d’un mélange de variables quantitatives et qualitatives.

D’une façon ou d’une autre, il s’agit, dans chaque cas, de se ramener au tableau des distances deux à deux entre les individus (c’est-à-dire au premier cas). Le choix d’une matrice de produit scalaire permet de prendre en compte simplement un ensemble de variables quantitatives tandis que le troisième cas nécessite plus de traitements. La manière la plus simple de procéder consiste à se ramener au cas quantitatif en calculant les scores fournis par les composantes principales de l’AFC multiple calculée sur le tableau disjonctif complet.

L’objectif d’une méthode de classification déborde le cadre strictement exploratoire. C’est la recherche d’une typologie, c’est-à-dire d’une partition, ou répartition des individus en classes, ou catégories. Ceci est fait en optimisant un critère visant à regrouper les individus dans des classes, chacune le plus homogène possible et, entre elles, les plus distinctes possible. Cet objectif est à distinguer des procédures de discrimination, ou apprentissage supervisé, ou encore de classement (en anglais classification) pour lesquelles une typologie est a priori connue pour un échantillon d’apprentissage. Nous sommes dans une situation d’apprentissage non supervisé ou, en anglais, de clustering.

Nota :

Faire attention aux faux amis français/anglais : discrimination/classification (supervisée) et classification/clustering (non supervisée).

HAUT DE PAGE

4.2 Méthodes

Un calcul élémentaire de combinatoire montre que le nombre de partitions possibles d’un ensemble de n éléments croît exponentiellement...

Cet article est réservé aux abonnés.
Il vous reste 95% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Mathématiques

(167 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Classification
Sommaire
Sommaire

BIBLIOGRAPHIE

  • (1) - BENZECRI (J.P.) -   L’analyse des données. L’analyse des correspondances  -  Dunod, Paris (1973).

  • (2) - BESSE (P.C.), CAUSSINUS (H.), FERRE (L.), FINE (J.) -   Principal component analysis and optimization of graphical displays  -  Statistics, 19, p 301-312 (1988).

  • (3) - BOUROCHE (J.M.), SAPORTA (G.) -   L’analyse des données  -  Que sais-je, P.U.F., Paris (1980).

  • (4) - CAILLIEZ (F.), PAGES (J.M.) -   Introduction à l’analyse des données  -  SMASH, Paris (1976).

  • (5) - CAUSSINUS (H.) -   *  -  . – Models and uses of principal component analysis, in Multidimensional Data Analysis, (Ed. de Leeuw, J. et al.), DSWO Press, p 149-170 (1986).

  • (6) - CELEUX (G.), DIDAY (E.), GOVAERT (G.), LECHEVALLIER (Y.) -   Classification automatique des données  -  Dunod, Paris (1989).

  • ...

1 Sites Internet

D’autres ressources (polycopiés, travaux pratiques, fonctions écrites en R) sont accessibles sur le site :

https://www.math.univ-toulouse.fr/

R Development Core Team R : A Language and Environment for Statistical Computing, R Foundation for Statistical Computing

http://www.R-project.org

HAUT DE PAGE

2 Pour en savoir plus

Les références générales et introductives les plus utiles pour ce thème sont : Bouroche & Saporta (1980), Jobson (1992), Lebart, Morineau & Piron (2006), Mardia, Kent & Bibby (1979), Saporta (2006). Des compléments et développements plus récents sont à rechercher dans : Droesbeke, Fichet & Tassi (1992), Govaert (2003).

HAUT DE PAGE

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Mathématiques

(167 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS