Présentation
En anglaisRÉSUMÉ
Le Web est devenu une source d’information incontournable grâce à la quantité et à la diversité des contenus textuels porteurs d’opinions générés par les internautes. Ces contenus sont multiples : blogs, commentaires, forums, réseaux sociaux, etc. Devant cette abondance de données, le développement d’outils pour extraire, synthétiser et comparer les opinions exprimées sur un sujet donné devient crucial. Cet article dresse un panorama des principales approches en analyse automatique d’opinions. Trois questions fondamentales sont abordées : comment reconnaître les portions de textes qui renseignent l’utilisateur sur l’opinion qu’il recherche ? Comment évaluer la polarité des opinions qui en ressortent ? Comment présenter le résultat de manière pertinente à l’utilisateur ?
Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.
Lire l’articleABSTRACT
The expression of opinion is a central aspect of user-generated contents on the Web. It enables us to convey feelings, assessments of people, situations and objects, and to engage with other opinion holders. These contents may take various forms: blogs, fora, reviews, social media, etc. To deal with the variety and volume of these data, speci?c tools have to be designed to extract, summarize and compare opinions expressed on a given subject. This article surveys the main approaches in analysis focusing on three main questions: How can systems identify subjective spans in texts? How can they calculate the positivity or negativity of such spans? How can they accurately present the extracted opinions to end users?
Auteur(s)
-
Farah BENAMARA ZITOUNE : Maître de conférences en informatique à l’Université Paul Sabatier de Toulouse, - Institut de Recherche en Informatique de Toulouse (IRIT), Toulouse, France
INTRODUCTION
Aujourd’hui, le Web est devenu une source d’information incontournable grâce à la quantité et à la diversité des contenus textuels porteurs d’opinions exprimés par les internautes. Ces contenus sont multiples : blogs, commentaires, forums, réseaux sociaux, réactions ou avis, de plus en plus centralisés par les moteurs de recherche. Devant cette abondance de données et de sources, le développement d’outils pour extraire, synthétiser et comparer les opinions exprimées sur un sujet donné devient crucial. L’intérêt de ce type d’outils est considérable, pour les sociétés qui souhaitent obtenir un retour client sur leurs produits ou leur image de marque comme pour les particuliers souhaitant se renseigner pour un achat, une sortie ou un voyage.
C’est dans ce contexte que l’analyse d’opinions (communément appelée sentiment analysis ou opinion mining en anglais) a vu le jour. Les premiers travaux en extraction automatique d’opinions remontent à la fin des années 1990 avec, en particulier, des études traitant de la détermination de la polarité des adjectifs dans les documents, c’est-à-dire la détermination du caractère positif ou négatif de l’opinion véhiculée par les adjectifs. Depuis les années 2000, un grand nombre de travaux ont été publiés sur le sujet, faisant de l’extraction d’opinions l’un des domaines les plus actifs en Traitement Automatique des Langues (TAL) [H7258] et en fouille de données, avec plus de 26 000 publications recensées sur Google Scholar. Il est important de noter qu’avant d’être un domaine de recherche en informatique, l’analyse d’opinions a été largement étudiée en linguistique , psychologie , sociologie et en économie . C’est donc un domaine multidisciplinaire nécessitant des outils et techniques diverses comme nous le verrons tout au long de cet article.
Le développement de systèmes d’analyse d’opinions n’est pas simple et nécessite de se confronter à plusieurs difficultés : comment reconnaître les parties des textes qui renseignent l’utilisateur sur l’opinion qu’il recherche ? Comment évaluer la qualité des opinions qui en ressort : sont-elles plutôt positives, plutôt négatives ? Comment présenter le résultat de manière pertinente à l’utilisateur ?
Cet article a pour objectif de répondre à ces questions en dressant un panorama des principales approches actuelles en analyse d’opinions. Après une définition de la notion d’opinion et de ses principales caractéristiques, nous présentons les méthodes d’extraction les plus populaires. Par des exemples concrets, nous verrons que ces méthodes atteignent vite leurs limites car elles ne prennent pas en compte la notion de contexte, pourtant primordiale à une analyse fine des opinions. Nous verrons alors les nouvelles méthodes qui ont été proposées dans la littérature scientifique pour incorporer cette notion. Nous terminons cet article par une discussion sur les perspectives de recherche dans le domaine.
MOTS-CLÉS
Traitement automatique des langues analyse d'opinions extraction d'information apprentissage automatique
KEYWORDS
natural language processing | opinion mining | information extraction | machine learning
DOI (Digital Object Identifier)
CET ARTICLE SE TROUVE ÉGALEMENT DANS :
Accueil > Ressources documentaires > Technologies de l'information > Documents numériques Gestion de contenu > Représentation et traitement des documents numériques > Analyse automatique d’opinions - États des lieux et perspectives > Vers une extraction plus fine des opinions
Cet article fait partie de l’offre
Technologies logicielles Architectures des systèmes
(239 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Présentation
3. Vers une extraction plus fine des opinions
Les méthodes présentées dans la section précédente s’appuient sur une analyse lexicale au niveau du mot, éventuellement couplée à une analyse syntaxique au niveau de la phrase pour repérer les opérateurs et calculer leurs effets sur les mots d’opinions. Il est évident que ce type d’analyse est loin d’être suffisant pour tenir compte de toute la complexité langagière de l’expression des opinions. Le recours à une analyse sémantique fine de ces expressions devient une nécessité, comme nous le montrons dans cette section.
3.1 Analyse de l’opinion au-delà de la phrase
Le discours est un élément essentiel à la bonne compréhension d’un texte d’opinion car il permet l’analyse des opinions au-delà de la phrase en exploitant les relations rhétoriques qui relient les phrases entres elles (comme le contraste, le conditionnel ou l’élaboration). Considérons, par exemple, le commentaire de série télévisée dans (10). Sur les quatre opinions de ce texte, les trois premières sont a priori très négatives. Néanmoins, la dernière phrase, en relation de contraste avec les trois précédentes, nous permet de déterminer la véritable polarité du document, qui est positive. Une simple moyenne des opinions aurait ici conduit à un contresens, et seule la prise en compte de la structure discursive permet de désambiguïser la polarité globale du document.
Chaque relation de discours a un effet spécifique sur l’opinion. Par exemple, les relations de contraste relient le plus souvent des phrases toutes deux subjectives et de polarités opposées. De même, la relation d’élaboration qui relie deux phrases où la seconde vient préciser ou ajouter de l’information introduite dans la première, préserve en général la polarité (annoncer Le film est excellent. Les acteurs sont mauvais n’est pas cohérent discursivement parlant). Le lecteur pourra se référer à ...
Cet article fait partie de l’offre
Technologies logicielles Architectures des systèmes
(239 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Vers une extraction plus fine des opinions
BIBLIOGRAPHIE
-
(1) - ABBASI (A.), CHEN (H.), SALEM (A.) - Sentiment analysis in multiple languages: Feature selection for opinion classification in web forums. - ACM Transactions on Information Systems, 26(3):1–34 (2008).
-
(2) - AUE (A.), GAMON (M.) - Customizing sentiment classifiers to new domains: A case study. - In Proceedings of Recent Advances in Natural Language Processing, RANLP (2005).
-
(3) - BENAMARA (F.), ASHER (N.), MATHIEU (Y.), POPESCU (V.), CHARDON (B.) - Evaluation in discourse: a corpus-based study. - Dialogue and Discourse, 7(1):1–49 (2016).
-
(4) - BENAMARA (F.), TABOADA (M.), MATHIEU (Y.) - Evaluative language beyond bags of words: Linguistic insights and computational applications. - Computational Linguistics, in press (2016).
-
(5) - BHATIA (P.), JI (Y.), EISENSTEIN (J.) - Better document-level sentiment analysis from RST discourse parsing. - In Proceedings of the Conference on Empirical Methods in Natural Language Processing, EMNLP, pages 2212–2218 (2015).
-
...
DANS NOS BASES DOCUMENTAIRES
ANNEXES
Lexiques de subjectivité
-
Lexique pour la langue anglais
-
SentiWordnet : http://sentiwordnet.isti.cnr.it/
-
WordNetAffect : http://wndomains.fbk.eu/wnaffect.html
-
Sentiment and emotion lexicon : http://saifmohammad.com/ WebPages/lexicons.html
-
-
Lexique pour la langue français
-
Blogoscopy : http://www.lina.univ-nantes.fr/? Ressources-disponibles-sous.html
-
Casoar : disponible sur demande à http://[email protected]
-
-
Lexique multilingue : https://sites.google.com/site/datascienceslab/ projects/multilingualsentiment
Les chercheurs ont mis à disposition un très grand nombre de ressources annotées en opinions afin d’aider la communauté TAL à améliorer les performances de leurs systèmes. En voici une courte liste :
-
Ressources en anglais
-
Corpus de commentaires de produits : https://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html
-
Corpus d’opinions sur des domaines divers : http://www.cs. cornell.edu/home/llee/data/
-
-
Ressources en français
-
Corpus...
-
Cet article fait partie de l’offre
Technologies logicielles Architectures des systèmes
(239 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive