Interview

Détecter des erreurs scientifiques grâce à l’intelligence artificielle

Posté le 28 décembre 2020
par Nicolas LOUIS
dans Informatique et Numérique

Le projet NanoBubbles vise à comprendre pourquoi la communauté scientifique peine à détecter et à corriger les erreurs présentes dans des publications. Membre du Laboratoire d’informatique de Grenoble, Cyril Labbé va développer des algorithmes capables de décortiquer automatiquement les documents. Entretien.

Ces vingt à trente dernières années, le nombre de publications scientifiques a explosé. En cause, le développement des logiciels de traitement de texte qui facilitent la production de ces documents et l’arrivée d’Internet qui permet de les diffuser massivement. L’évaluation des chercheurs en fonction de leur nombre de publications explique également ce phénomène. Face à ce foisonnement, la communauté scientifique peine à détecter et à corriger d’elle-même toutes les erreurs publiées. Un projet de recherche baptisé NanoBubbles va se pencher sur ce problème. Financé par une bourse de l’ERC (European research council) Synergy, ce travail de recherche va tenter de comprendre pourquoi, quand et comment la science échoue à se corriger elle-même. Il se concentrera uniquement sur le domaine de la nanobiologie et regroupera une équipe française et néerlandaise multidisciplinaire. Avec les autres membres de ce projet, notamment une bibliothécaire et linguiste ainsi que des informaticiens, Cyril Labbé aura pour mission de développer des algorithmes pour décortiquer automatiquement les articles scientifiques. Entretien avec ce maître de conférences à l’Université de Grenoble-Alpes et membre du Laboratoire d’informatique de Grenoble.

Techniques de l’Ingénieur : Pour quelle raison avez-vous rejoint le projet NanoBubbles ?

Cyril Labbé, maître de conférences à l’Université de Grenoble-Alpes et membre du Laboratoire d’informatique de Grenoble. Crédit photo : Cyril Labbé

Cyril Labbé : Je suis spécialiste de la détection des erreurs et de leur propagation dans la littérature scientifique. Mon travail porte sur le traitement automatique des langues et des bases de données. J’ai créé un premier outil informatique capable de détecter de fausses publications générées automatiquement par SCIgen, un logiciel créé par des étudiants du MIT (Massachusetts Institute of Technology). Il est capable de générer une publication de 4 à 5 pages, dans un anglais très correct sauf que le texte n’a aucun sens puisque les mots choisis sont hors contexte. Certains de ces articles ont été édités par les éditeurs comme IEEE et Springer. J’ai également développé un second outil capable de parcourir les documents pour en extraire les séquences de nucléotides (molécules organiques à la base des acides nucléiques comme l’ADN et l’ARN, NDLR.) et de comprendre la description qui en est donnée. Par exemple, s’il est écrit qu’une séquence de nucléotides a une homologie avec le génome (l’ensemble des gènes d’une espèce ou d’un individu, NDLR.) humain, le logiciel va automatiquement le vérifier. Plusieurs erreurs ont ainsi pu être détectées, ce qui a permis de retirer les publications erronées.

Quel va être votre travail au sein de ce projet ?

Nous allons développer des algorithmes capables de rechercher les papiers qui avancent une idée ou son contraire. Il s’agit d’aller beaucoup plus loin qu’une simple recherche par mot-clé. Le travail va se faire en plusieurs étapes. Une première consistera à retrouver ce qu’on appelle les entités nommées. Par exemple, en biologie, il existe une grande quantité de gènes, mais de nombreux ont des homonymes. Nous devons donc être capables de les différencier. L’étape suivante consistera à comprendre les relations entre deux entités, à l’aide entre autres de l’extraction de triplets RDF (Resource Description Framework). Nous allons par exemple analyser le lien entre une nanoparticule décrite dans un texte et la barrière hémato-encéphalique (barrière physiologique séparant la circulation sanguine et le système nerveux central dont le cerveau, NDLR.)  c’est-à-dire sa capacité à pénétrer dans le cerveau. Certaines publications affirment qu’une même nanoparticule a cette aptitude et d’autres décrivent le contraire. La représentation abstraite du texte, notamment grâce aux triplets RDF, va permettre de représenter la subtilité du texte et donc d’identifier les publications en conflit.

Quels sont les autres outils développés ?

Nous allons poursuivre notre recherche dans le domaine du traitement automatique des langues, cette fois-ci en utilisant l’argument mining. Il s’agit de techniques permettant d’extraire les arguments avancés dans un texte pour supporter une affirmation. Nous utiliserons aussi des outils déjà existants et capables de classifier des citations et des références présentes dans un texte et d’analyser si elles sont positives, négatives ou neutres vis-à-vis d’un autre texte. Le but est de savoir si une publication s’oppose ou valide un concept décrit dans un autre article ou tout simplement que son contenu est relié à celui-ci. L’outil le plus connu capable d’accomplir cette tâche a été créé par la start-up américaine Scite.ai. Nous allons aussi développer nos propres algorithmes. Le « machine learning » (l’apprentissage automatique) et les réseaux de neurones ont fait d’énormes progrès ces dernières années et font partie des outils incontournables. Mais la principale limite dans leur utilisation est la disponibilité du corpus d’apprentissage. Ces outils nécessitent en effet d’être pré-entraînés. Pour l’instant, il y a clairement des barrières à franchir pour faire en sorte qu’ils fonctionnent correctement dans notre travail de recherche.

Combien de temps va durer ce travail de recherche ?

Il se terminera en 2025 ; pour l’instant, il vient à peine de débuter. Ce projet va se limiter au domaine de la nanobiologie, mais nous espérons que les résultats obtenus pourront ensuite être applicables à d’autres domaines et à tous les articles scientifiques publiés.


Pour aller plus loin