Présentation

Article

1 - MOTIVATIONS DE L’UTILISATION DES CLASSIFICATIONS CONCEPTUELLES

  • 1.1 - Extraction d’information dans les textes
  • 1.2 - Classification conceptuelle et extraction d’information
  • 1.3 - Découverte de règles d’association entre concepts

2 - DU CORPUS À LA CLASSIFICATION CONCEPTUELLE

3 - UTILISATION DU WEB COMME CORPUS POUR DES TÂCHES DE CLASSIFICATION CONCEPTUELLE

  • 3.1 - Acquisition d’un corpus à partir du Web
  • 3.2 - Le Web, un corpus à part entière

4 - CONCLUSION

Article de référence | Réf : H7420 v1

Du corpus à la classification conceptuelle
Utilisation des ressources du Web pour la classification conceptuelle

Auteur(s) : Mathieu ROCHE

Date de publication : 10 mai 2007

Pour explorer cet article
Télécharger l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

Sommaire

Présentation

Version en anglais En anglais

RÉSUMÉ

La masse des informations textuelles disponibles, notamment sur le Web, nécessite un traitement automatique pour une analyse pertinente de ces données. La veille, technologique ou économique, consiste à rechercher, traiter et diffuser des renseignements utiles à l’entreprise. Toutes les méthodes de veille appliquées aux données textuelles utilisent des systèmes de traitement automatique des langues, dit TAL, et de fouille de textes. Pour rendre ces outils plus efficaces, l’utilisation de connaissances du domaine telles que des classifications conceptuelles se révèle essentielle.

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

ABSTRACT

The mass of available textual information, notably on the Web, requires automatic processing for the accurate analysis of such data. The technological or economic watch consists in searching, processing and diffusing useful information for companies. All watch methods applied to textual data use automatic language processing (ALP) and text mining. The use of knowledge from this domain such as conceptual classification is essential in order to optimize these tools.

Auteur(s)

  • Mathieu ROCHE : Maître de conférences à l’université de Montpellier-2Laboratoire d’informatique, de robotique et de microélectronique de Montpellier (LIRMM)

INTRODUCTION

La masse des informations textuelles disponibles, notamment sur le Web, nécessite un traitement automatique pour une analyse pertinente de ces données. Cela s’avère particulièrement utile pour découvrir les informations stratégiques afin d’anticiper et de prendre des décisions sur les environnements socio-économiques. On utilise alors le terme de veille technologique pour l’étude de l’évolution des données techniques et scientifiques (articles scientifiques, brevets technologiques, etc.). Un domaine de veille en développement croissant concerne la veille économique (ou intelligence économique). Elle consiste à rechercher, traiter et diffuser des renseignements utiles à l’entreprise. La veille économique comprend notamment la veille à la concurrence et au marché. L’ensemble de ces méthodes de veille appliquées aux données textuelles utilise des systèmes de TAL (traitement automatique des langues) et de fouille de textes décrits ici. Pour rendre ces outils plus efficaces, l’utilisation de connaissances du domaine telles que des classifications conceptuelles se révèle essentielle. Nous verrons en particulier de quelle manière les ressources du Web peuvent aider à la construction automatique ou semi-automatique de classifications conceptuelles.

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-h7420


Cet article fait partie de l’offre

Documents numériques Gestion de contenu

(76 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Version en anglais En anglais

2. Du corpus à la classification conceptuelle

2.1 Chaîne globale de fouille de textes

Une chaîne globale de fouille de textes débute par l’acquisition d’un corpus et s’étend jusqu’aux tâches recherchées par l’utilisateur (§ 1). La figure 1 illustre un exemple de chaîne globale détaillée ci-après.

  • Étape  : la première étape du processus de fouille de textes consiste à acquérir un corpus qui est utile pour la classification conceptuelle. Cette phase est plus spécifiquement décrite dans le paragraphe 3.

  • Étape  : il est ensuite nécessaire de normaliser le corpus. Cela nécessite la mise en œuvre d’un processus de nettoyage (par exemple, supprimer les balises HTML), d’homogénéisation des caractères (par exemple, transformer les caractères au format SGML tel que « é » en caractères ISO8859-1 tel que « é »), etc.

  • Étape  : l’extraction de la terminologie à partir des corpus normalisés représente une phase difficile dans le processus global de fouille de textes. Plusieurs traitements sont souvent nécessaires pour mener une telle tâche. Par exemple, un premier traitement permet d’apposer...

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Documents numériques Gestion de contenu

(76 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Du corpus à la classification conceptuelle
Sommaire
Sommaire

BIBLIOGRAPHIE

  • (1) - WATRIN (P.) -   Extraction d’information et lexique-grammaire de spécialité.  -  Actes du 23e Colloque international « Grammaires et lexiques comparés » (2004).

  • (2) - KODRATOFF (Y.) -   Induction extensionnelle : définition et application d’acquisition de concepts à partir de textes.  -  Revue RNTI E2, numéro spécial EGC’04, 247-252 (2004).

  • (3) - FAURE (D.) -   Conception de méthode d’apprentissage symbolique et automatique pour l’acquisition de cadres de sous-catégorisation de verbes et de connaissances sémantiques à partir de textes : le système ASIUM.  -  Thèse de doctorat, université Paris-Sud (2000).

  • (4) - NÉDELLEC (C.), NAZARENKO (A.) -   Application de l’apprentissage à la recherche et à l’extraction d’information – Un exemple, le projet Caderige : identification d’interactions géniques.  -  Actes de la Journée thématique Exploration de données issues d’Internet (2001).

  • (5) - AZÉ (J.), ROCHE (M.) -   Une...

Cet article est réservé aux abonnés.
Il vous reste 95% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Documents numériques Gestion de contenu

(76 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS