Présentation

Article interactif

1 - DIFFÉRENTS TYPES D’APPRENTISSAGE

2 - CLUSTERING (OU PARTITIONNEMENT)

3 - RÉDUCTION DE DIMENSIONNALITÉ

4 - ESTIMATION DE DENSITÉ

5 - MODÈLES GÉNÉRATIFS

6 - CONCLUSION

7 - GLOSSAIRE

8 - SIGLES, NOTATIONS ET SYMBOLES

Article de référence | Réf : H5012 v1

Clustering (ou partitionnement)
Apprentissage statistique non supervisé

Auteur(s) : Bruno SAUVALLE

Relu et validé le 18 janv. 2021

Pour explorer cet article
Télécharger l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

Sommaire

Présentation

Version en anglais En anglais

RÉSUMÉ

Cet article présente la notion d’apprentissage statistique non supervisé, puis les techniques actuellement disponibles pour procéder à de l’apprentissage statistique à partir de données non labellisées : partitionnement, réduction de dimensionnalité, estimation de densité et enfin utilisation de modèles génératifs. Il s’attache à couvrir aussi bien les algorithmes classiques les plus anciens (analyse en composantes principales, k-moyennes) que les techniques les plus récentes faisant appel à l’apprentissage profond (représentations de mots, modèles autorégressifs, auto-encodeurs, réseaux génératifs adverses).

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

ABSTRACT

Unsupervised statistical machine learning

This article introduces the notion of unsupervised statistical machine learning, then describes the techniques currently available to perform statistical learning from unlabeled data: partitioning (or clustering), dimensionality reduction, density estimation and finally  generative models. It covers the oldest classical algorithms (principal component analysis, k-means) as well as the most recent techniques using deep learning (word representations, autoregressive models, auto-encoders, generative adversarial networks).

Auteur(s)

  • Bruno SAUVALLE : Ingénieur en chef des Mines - Centre de Robotique, MINES ParisTech, Paris, France

INTRODUCTION

L’objet de cet article est de présenter les méthodes et les techniques d’apprentissage statistique non supervisé, c’est-à-dire utilisant des données non labellisées au préalable.

La notion d’apprentissage statistique non supervisé, peut paraître difficile à appréhender quand on la compare avec celle d’apprentissage statistique supervisé, qui consiste simplement à apprendre une fonction f:y = f(x) à partir d’un très grand nombre d’exemples de couples (xi ,yi ) où xi est la donnée d’entrée et yi est le résultat en sortie, ou label.

Il est cependant difficile et coûteux d’obtenir une base de données labellisées dans la mesure où une intervention humaine est généralement nécessaire pour obtenir les labels yi correspondant aux données xi disponibles. La constitution de la base de données ImageNet, qui contient actuellement plus de 14 millions d’images et est à l’origine des succès spectaculaires observés ces dernières années en matière d’analyse d’image, a ainsi nécessité de nombreuses années et l’intervention de plusieurs dizaines de milliers d’« annotateurs » chargés de visualiser des images téléchargées sur Internet et d’identifier les objets ou les animaux présents sur ces images.

La baisse continue des coûts de captation, de communication, de stockage et de traitement des données conduit cependant naturellement à la disponibilité de bases de données beaucoup plus importantes dont une analyse exhaustive par l’homme est manifestement impossible.

Dans un tel contexte, l’apprentissage non supervisé se développe actuellement autour de deux axes.

Une première façon d’exploiter un ensemble de données de façon statistique sans intervention humaine est de chercher à apprendre la distribution de ces données. À titre d’exemple, les modèles de langage sont des programmes s’appuyant souvent sur des réseaux de neurones et cherchant, pour un langage donné, à assigner une probabilité, ou valeur de vraisemblance, à chaque phrase ou groupe de phrases que l’on leur propose, ce qui permet entre autres d’optimiser les logiciels de reconnaissance vocale ou de traduction en évitant de proposer des phrases qui seraient considérées comme trop peu probables dans le langage et le contexte considérés, par exemple si elles sont grammaticalement incorrectes. Les données utilisées pour construire ces modèles de langage sont des corpus de textes librement disponibles sur Internet et ne nécessitant donc pas d’effort particulier d’annotation.

Une deuxième façon d’exploiter un vaste ensemble de données est de chercher à les utiliser pour construire une représentation de ce type de données, optimisée pour une ou plusieurs classes d’utilisations. Si l’on cherche simplement à visualiser des données se présentant sous forme de vecteurs comprenant un grand nombre de coordonnées, une réduction de dimensionnalité à deux ou trois dimensions semble à l’évidence nécessaire. Si l’on envisage d’utiliser des données pour faire de la classification mais que l’on ne dispose que de peu d’exemples labellisés, un regroupement préalable de ces données en un nombre limité de groupes ou clusters semble, là encore, une approche utile. En matière de traitement du langage, des technologies ont été développées ces dernières années permettant de représenter chaque mot de notre vocabulaire par un vecteur de moyenne dimension, par exemple en dimension 300, de telle sorte que des mots représentés par des vecteurs proches les uns des autres aient des significations qui soient elles aussi proches. La représentation vectorielle de ces mots serait en quelque sorte leur contenu sémantique, leur « sens », ce qui permet le développement d’applications inimaginables auparavant en matière d’analyse de contenu. Là encore, ces représentations sont élaborées à partir de corpus de textes non annotés et librement disponibles.

Aussi décrirons-nous dans cet article non seulement les principales techniques d’apprentissage non supervisé (le partitionnement ou clustering, la réduction de dimensionnalité et l’estimation de densité) ainsi que la façon dont ces techniques ont évolué avec le développement de l’apprentissage profond, mais surtout de quelles façons ces méthodes peuvent être utiles, utilisées seules ou en s’insérant dans un ensemble de traitements plus complexes.

Cet article est réservé aux abonnés.
Il vous reste 93% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

KEYWORDS

clustering   |   dimensionality reduction   |   generative model

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-h5012


Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(239 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Présentation
Version en anglais En anglais

2. Clustering (ou partitionnement)

2.1 Applications du clustering

L’objet du clustering est de regrouper une série d’enregistrements, que ceux-ci soient des vecteurs, des images, ou des objets plus complexes, en groupes, ou clusters. Généralement, l’objectif fixé pour ce type d’algorithme est de faire en sorte que les objets qui ont été affectés dans un même cluster soient similaires entre eux. Il s’agit donc simplement de répartir les objets en groupes les plus homogènes possible. Il convient cependant d’être conscient du fait que cette définition est fragile, voire insuffisante :

  • le clustering implique de choisir d’une façon ou d’une autre un critère de similarité entre objets. Lorsque l’on considère des vecteurs réels, en faible dimension, ce choix sera relativement facile, par exemple la distance euclidienne. Si, par contre, on doit effectuer du clustering sur des objets de grande dimension (des images, des sons) ou sur des données qui ne sont pas naturellement représentées par des nombres réels (des mots ou des phrases par exemple), le choix de ce critère de similarité devient beaucoup plus complexe et peut nécessiter de rechercher au préalable une représentation plus simple de ces objets ;

  • le clustering peut aussi avoir pour objet d’identifier les zones de forte densité d’une distribution de données, et si ces zones sont étendues, un même cluster pourra contenir des objets très éloignés les uns des autres, quelle que soit la définition prise du critère de similarité.

De façon plus générale, un consensus s’est formé dans le domaine du machine learning sur le fait qu’il serait vain de rechercher une définition et un algorithme unique en matière de clustering, dans la mesure où ce type d’algorithme se heurte à un théorème d’impossibilité, le théorème de Kleinberg , qui stipule qu’il n’existe aucun algorithme de clustering satisfaisant trois conditions qui paraissent pourtant assez naturelles. Considérons un ensemble S de points xi et représentons...

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

TEST DE VALIDATION ET CERTIFICATION CerT.I. :

Cet article vous permet de préparer une certification CerT.I.

Le test de validation des connaissances pour obtenir cette certification de Techniques de l’Ingénieur est disponible dans le module CerT.I.

Obtenez CerT.I., la certification
de Techniques de l’Ingénieur !
Acheter le module

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(239 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Clustering (ou partitionnement)
Sommaire
Sommaire

BIBLIOGRAPHIE

  • (1) - KARRAS (T.), LAINE (S.), AILA (T.) -   A Style-Based Generator Architecture for Generative Adversarial Networks  -  (2018).

  • (2) - KLEINBERG (J.) -   An Impossibility Theorem for Clustering,  -  in NIPS (2002).

  • (3) - ESTER (M.), KRIEGEL (H.P.), SANDER (J.), XU (X.) -   A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise,  -  in KDD-96 Proceedings, p. 226-231 (1996).

  • (4) - TENENBAUM (J.B.), de SILVA (V.), LANGFORD (J.C.) -   A Global Geometric Framework for Nonlinear Dimensionality Reduction,  -  SCIENCE, vol. 290, p. 2319 (2000).

  • (5) - ROWEIS (S.T.), SAUL (L.K.). -   Nonlinear Dimensionality Reduction by Locally Linear Embedding,  -  SCIENCE, vol. 290, p. 2323-2326 (2000).

  • (6) - HINTON (G.E.), SALAKHUTDINOV (R.R.) -   Reducing...

1 Outils logiciels

Pour les calculs ne faisant pas appel au deep learning et portant sur des volumes de données ne nécessitant pas un recours au calcul distribué, les deux outils logiciels de référence sont scikit-learn et R

La bibliothèque Spark Mlib comprend une adaptation de principaux algorithmes de machine learning (hors deep learning) à un environnement distribué et permettant donc le traitement de volumes de données très importants.

Pour ce qui concerne le deep learning, on citera les outils pytorch et tensorflow/ Keras. De très nombreux exemples de modèles pré-entraînés ainsi que les codes sources associés sont disponibles en libre accès sur la plateforme github.

HAUT DE PAGE

2 Événements

Conférences annuelles :

International Conference on Learning Representations ( https://iclr.cc/)

Conference on Neural Information Processing Systems ( https://nips.cc/)

Conference on Computer Vision and Pattern Recognition

International Conference on Machine Learning ( https://icml.cc/)

HAUT DE PAGE

Cet article est réservé aux abonnés.
Il vous reste 93% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(239 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Sommaire

QUIZ ET TEST DE VALIDATION PRÉSENTS DANS CET ARTICLE

1/ Quiz d'entraînement

Entraînez vous autant que vous le voulez avec les quiz d'entraînement.

2/ Test de validation

Lorsque vous êtes prêt, vous passez le test de validation. Vous avez deux passages possibles dans un laps de temps de 30 jours.

Entre les deux essais, vous pouvez consulter l’article et réutiliser les quiz d'entraînement pour progresser. L’attestation vous est délivrée pour un score minimum de 70 %.


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(239 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS