Présentation
EnglishRÉSUMÉ
Cet article présente la notion d’apprentissage statistique non supervisé, puis les techniques actuellement disponibles pour procéder à de l’apprentissage statistique à partir de données non labellisées : partitionnement, réduction de dimensionnalité, estimation de densité et enfin utilisation de modèles génératifs. Il s’attache à couvrir aussi bien les algorithmes classiques les plus anciens (analyse en composantes principales, k-moyennes) que les techniques les plus récentes faisant appel à l’apprentissage profond (représentations de mots, modèles autorégressifs, auto-encodeurs, réseaux génératifs adverses).
Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.
Lire l’articleAuteur(s)
-
Bruno SAUVALLE : Ingénieur en chef des Mines - Centre de Robotique, MINES ParisTech, Paris, France
INTRODUCTION
L’objet de cet article est de présenter les méthodes et les techniques d’apprentissage statistique non supervisé, c’est-à-dire utilisant des données non labellisées au préalable.
La notion d’apprentissage statistique non supervisé, peut paraître difficile à appréhender quand on la compare avec celle d’apprentissage statistique supervisé, qui consiste simplement à apprendre une fonction f:y = f(x) à partir d’un très grand nombre d’exemples de couples (xi ,yi ) où xi est la donnée d’entrée et yi est le résultat en sortie, ou label.
Il est cependant difficile et coûteux d’obtenir une base de données labellisées dans la mesure où une intervention humaine est généralement nécessaire pour obtenir les labels yi correspondant aux données xi disponibles. La constitution de la base de données ImageNet, qui contient actuellement plus de 14 millions d’images et est à l’origine des succès spectaculaires observés ces dernières années en matière d’analyse d’image, a ainsi nécessité de nombreuses années et l’intervention de plusieurs dizaines de milliers d’« annotateurs » chargés de visualiser des images téléchargées sur Internet et d’identifier les objets ou les animaux présents sur ces images.
La baisse continue des coûts de captation, de communication, de stockage et de traitement des données conduit cependant naturellement à la disponibilité de bases de données beaucoup plus importantes dont une analyse exhaustive par l’homme est manifestement impossible.
Dans un tel contexte, l’apprentissage non supervisé se développe actuellement autour de deux axes.
Une première façon d’exploiter un ensemble de données de façon statistique sans intervention humaine est de chercher à apprendre la distribution de ces données. À titre d’exemple, les modèles de langage sont des programmes s’appuyant souvent sur des réseaux de neurones et cherchant, pour un langage donné, à assigner une probabilité, ou valeur de vraisemblance, à chaque phrase ou groupe de phrases que l’on leur propose, ce qui permet entre autres d’optimiser les logiciels de reconnaissance vocale ou de traduction en évitant de proposer des phrases qui seraient considérées comme trop peu probables dans le langage et le contexte considérés, par exemple si elles sont grammaticalement incorrectes. Les données utilisées pour construire ces modèles de langage sont des corpus de textes librement disponibles sur Internet et ne nécessitant donc pas d’effort particulier d’annotation.
Une deuxième façon d’exploiter un vaste ensemble de données est de chercher à les utiliser pour construire une représentation de ce type de données, optimisée pour une ou plusieurs classes d’utilisations. Si l’on cherche simplement à visualiser des données se présentant sous forme de vecteurs comprenant un grand nombre de coordonnées, une réduction de dimensionnalité à deux ou trois dimensions semble à l’évidence nécessaire. Si l’on envisage d’utiliser des données pour faire de la classification mais que l’on ne dispose que de peu d’exemples labellisés, un regroupement préalable de ces données en un nombre limité de groupes ou clusters semble, là encore, une approche utile. En matière de traitement du langage, des technologies ont été développées ces dernières années permettant de représenter chaque mot de notre vocabulaire par un vecteur de moyenne dimension, par exemple en dimension 300, de telle sorte que des mots représentés par des vecteurs proches les uns des autres aient des significations qui soient elles aussi proches. La représentation vectorielle de ces mots serait en quelque sorte leur contenu sémantique, leur « sens », ce qui permet le développement d’applications inimaginables auparavant en matière d’analyse de contenu. Là encore, ces représentations sont élaborées à partir de corpus de textes non annotés et librement disponibles.
Aussi décrirons-nous dans cet article non seulement les principales techniques d’apprentissage non supervisé (le partitionnement ou clustering, la réduction de dimensionnalité et l’estimation de densité) ainsi que la façon dont ces techniques ont évolué avec le développement de l’apprentissage profond, mais surtout de quelles façons ces méthodes peuvent être utiles, utilisées seules ou en s’insérant dans un ensemble de traitements plus complexes.
DOI (Digital Object Identifier)
CET ARTICLE SE TROUVE ÉGALEMENT DANS :
Accueil > Ressources documentaires > Innovation > Innovations technologiques > Innovations en électronique et TIC > Apprentissage statistique non supervisé > Clustering (ou partitionnement)
Accueil > Ressources documentaires > Technologies de l'information > Technologies logicielles Architectures des systèmes > Intelligence artificielle > Apprentissage statistique non supervisé > Clustering (ou partitionnement)
Accueil > Ressources documentaires > Automatique - Robotique > Automatique et ingénierie système > Méthodes et outils > Apprentissage statistique non supervisé > Clustering (ou partitionnement)
Cet article fait partie de l’offre
Technologies logicielles Architectures des systèmes
(240 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Présentation
2. Clustering (ou partitionnement)
2.1 Applications du clustering
L’objet du clustering est de regrouper une série d’enregistrements, que ceux-ci soient des vecteurs, des images, ou des objets plus complexes, en groupes, ou clusters. Généralement, l’objectif fixé pour ce type d’algorithme est de faire en sorte que les objets qui ont été affectés dans un même cluster soient similaires entre eux. Il s’agit donc simplement de répartir les objets en groupes les plus homogènes possible. Il convient cependant d’être conscient du fait que cette définition est fragile, voire insuffisante :
-
le clustering implique de choisir d’une façon ou d’une autre un critère de similarité entre objets. Lorsque l’on considère des vecteurs réels, en faible dimension, ce choix sera relativement facile, par exemple la distance euclidienne. Si, par contre, on doit effectuer du clustering sur des objets de grande dimension (des images, des sons) ou sur des données qui ne sont pas naturellement représentées par des nombres réels (des mots ou des phrases par exemple), le choix de ce critère de similarité devient beaucoup plus complexe et peut nécessiter de rechercher au préalable une représentation plus simple de ces objets ;
-
le clustering peut aussi avoir pour objet d’identifier les zones de forte densité d’une distribution de données, et si ces zones sont étendues, un même cluster pourra contenir des objets très éloignés les uns des autres, quelle que soit la définition prise du critère de similarité.
De façon plus générale, un consensus s’est formé dans le domaine du machine learning sur le fait qu’il serait vain de rechercher une définition et un algorithme unique en matière de clustering, dans la mesure où ce type d’algorithme se heurte à un théorème d’impossibilité, le théorème de Kleinberg , qui stipule qu’il n’existe aucun algorithme de clustering satisfaisant trois conditions qui paraissent pourtant assez naturelles. Considérons un ensemble S de points xi et représentons...
TEST DE VALIDATION ET CERTIFICATION CerT.I. :
Cet article vous permet de préparer une certification CerT.I.
Le test de validation des connaissances pour obtenir cette certification de Techniques de l’Ingénieur est disponible dans le module CerT.I.
de Techniques de l’Ingénieur ! Acheter le module
Cet article fait partie de l’offre
Technologies logicielles Architectures des systèmes
(240 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Clustering (ou partitionnement)
BIBLIOGRAPHIE
-
(1) - KARRAS (T.), LAINE (S.), AILA (T.) - A Style-Based Generator Architecture for Generative Adversarial Networks - (2018).
-
(2) - KLEINBERG (J.) - An Impossibility Theorem for Clustering, - in NIPS (2002).
-
(3) - ESTER (M.), KRIEGEL (H.P.), SANDER (J.), XU (X.) - A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise, - in KDD-96 Proceedings, p. 226-231 (1996).
-
(4) - TENENBAUM (J.B.), de SILVA (V.), LANGFORD (J.C.) - A Global Geometric Framework for Nonlinear Dimensionality Reduction, - SCIENCE, vol. 290, p. 2319 (2000).
-
(5) - ROWEIS (S.T.), SAUL (L.K.). - Nonlinear Dimensionality Reduction by Locally Linear Embedding, - SCIENCE, vol. 290, p. 2323-2326 (2000).
-
(6) - HINTON (G.E.), SALAKHUTDINOV (R.R.) - Reducing...
DANS NOS BASES DOCUMENTAIRES
ANNEXES
Pour les calculs ne faisant pas appel au deep learning et portant sur des volumes de données ne nécessitant pas un recours au calcul distribué, les deux outils logiciels de référence sont scikit-learn et R
La bibliothèque Spark Mlib comprend une adaptation de principaux algorithmes de machine learning (hors deep learning) à un environnement distribué et permettant donc le traitement de volumes de données très importants.
Pour ce qui concerne le deep learning, on citera les outils pytorch et tensorflow/ Keras. De très nombreux exemples de modèles pré-entraînés ainsi que les codes sources associés sont disponibles en libre accès sur la plateforme github.
HAUT DE PAGE
Conférences annuelles :
International Conference on Learning Representations ( https://iclr.cc/)
Conference on Neural Information Processing Systems ( https://nips.cc/)
Conference on Computer Vision and Pattern Recognition
International Conference on Machine Learning ( https://icml.cc/)
HAUT DE PAGECet article fait partie de l’offre
Technologies logicielles Architectures des systèmes
(240 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
QUIZ ET TEST DE VALIDATION PRÉSENTS DANS CET ARTICLE
1/ Quiz d'entraînement
Entraînez vous autant que vous le voulez avec les quiz d'entraînement.
2/ Test de validation
Lorsque vous êtes prêt, vous passez le test de validation. Vous avez deux passages possibles dans un laps de temps de 30 jours.
Entre les deux essais, vous pouvez consulter l’article et réutiliser les quiz d'entraînement pour progresser. L’attestation vous est délivrée pour un score minimum de 70 %.
Cet article fait partie de l’offre
Technologies logicielles Architectures des systèmes
(240 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive