Interview

Le génome du SARS-CoV-2 analysé grâce à un logiciel étudiant

Posté le 30 juillet 2020
par Chaymaa Deb
dans Chimie et Biotech

Empêchés de faire un stage à cause de la crise sanitaire provoquée par la Covid-19, deux étudiants de Polytech Grenoble ont mis au point un logiciel capable d'analyser le génome de du coronavirus SARS-CoV-2 responsable de cette maladie. Construisant ce logiciel à l'aide de bases de données déjà existantes, Xavier Pilastre et Guillaume Langlois ont comparé l'ADN du SARS-CoV-2 à celui de quatre autres virus : le VIH, la grippe espagnole, le H1N1 et le rhume saisonnier. Ainsi, ils ont pu mettre en avant les caractéristiques génomiques singulières du coronavirus.

Profiter de la crise sanitaire pour travailler sur le virus qui en est la cause, c’est ce qu’ont fait Xavier Pilastre et Guillaume Langlois, deux étudiants en Technologie de l’Information pour la Santé (TIS) à Polytech Grenoble. Privés de stage de fin de quatrième année, ces jeunes hommes ont mis au point un logiciel capable d’analyser le génome d’un virus, et de le comparer à d’autres. Selon eux, l’avantage notoire de leur solution réside dans sa rapidité et dans sa simplicité d’exécution. Pour mener à bien leurs travaux, ils ont été encadrés par Matthieu Reichstadt, ingénieur informatique à l’INRAE de Clermont-Ferrand.

Techniques de l’Ingénieur : Pouvez-vous nous présenter le logiciel que vous avez créé ?

Crédit photo : X. Pilastre

Xavier Pilastre : Nous avons mis au point un logiciel capable d’analyser et de comparer rapidement les génomes de virus, ou de tout autre type de matériel génétique d’être vivant. Cet outil nous permet d’effectuer des analyses en nous focalisant uniquement sur les données que nous estimons intéressantes pour une recherche. Aujourd’hui, le vrai problème en bio-informatique réside dans la capacité de traitement des données. Énormément de données sont générées chaque jour. Quotidiennement, nous ne pouvons traiter que la moitié de ces données. Grâce à notre outil, nous pouvons traiter plus de données dans une temporalité plus courte.

Crédit photo : G. Langlois

Guillaume Langlois : Ce travail permet d’optimiser les analyses de génomes des virus, ce qui prend généralement beaucoup de temps. Dans le cadre d’autres travaux, les informations obtenues grâce à ce logiciel pourraient nous aider à savoir s’il est pertinent de continuer la comparaison génomique des organismes analysés ou non. Notons tout de même que ce logiciel a été réalisé dans le cadre d’un projet étudiant, et qu’il serait nécessaire de le parfaire avant de l’utiliser à des fins professionnelles.

Quel était l’état des données sur la Covid-19 au moment où vous avez commencé vos travaux ?

X.P. : Fin avril, sur la base de données américaine GenBank, gérée par le National Institutes of Health et qui fait office de référence mondiale, il y avait une cinquantaine de pages de génomes pour le SARS-CoV-2.

G.L. : Cela veut dire qu’à cette date, plus de 2 000 séquençages de génomes du virus SARS-CoV-2 avaient été réalisés dans le monde.

Concrètement, comment fonctionne votre logiciel ?

X.P. : Nous avons voulu comparer le SARS-CoV-2 à d’autres virus, qui ont également un effet pandémique ou saisonnier. Nous l’avons donc comparé au VIH, à la grippe espagnole, la grippe A H1N1 et le rhume. Ces cinq virus ont des caractéristiques à la fois très propres et très proches. Pour cela, nous nous sommes servis d’un algorithme connu, le BLAST (Basic Local Alignment Search Tool). Il est issu des bases de données américaines du NCBI (National Center for Biotechnology Information) qui font office de référence dans les bases de données contenant des génomes. À la différence d’autres solutions, notre logiciel ne nécessite pas le recours à de puissants serveurs pour fonctionner. De plus, nous n’avons besoin que d’une vingtaine de minutes pour accéder à des résultats qui nous intéressent, contre plusieurs heures avec d’autres outils.

Sur quelle(s) composante(s) des virus avez-vous travaillé ?

G.L. : Nous avons travaillé sur l’ADN, et plus particulièrement sur les CDS (Coding DNA Sequences, ou séquence codante). Les CDS sont les parties qui vont permettre la création de protéines. Nous avons donc comparé les séquences codantes de ces différents virus, par alignement et décalage. Notons que chaque virus possède plusieurs CDS, et produit plusieurs types de protéines. Ce travail nous a permis d’établir un pourcentage de similitudes entre des CDS. En clair, nous avons cherché à savoir si les séquences codantes des virus correspondent les unes avec les autres. Cela permet éventuellement de voir s’il y a des souches communes à plusieurs virus.

Qu’avez-vous découvert au sujet du coronavirus ?

X.P. : La majeure partie des virus que nous avons analysés n’a qu’une seule grande séquence codante. Le coronavirus, lui, a une douzaine de CDS. C’est quelque chose d’assez peu commun, sans pour autant savoir à quel point un tel phénomène est rare ou non. En ce sens, ce virus est relativement inédit. De plus, ce virus n’a que peu de similitudes avec les quatre auxquels nous l’avons comparé. Au maximum, nous avons trouvé 38 % de similitudes avec le virus le plus ressemblant, ce qui est très peu.

G.L. : Il est nécessaire d’appréhender ces informations avec prudence. Il ne faut pas conclure uniquement à partir de ces données que ce virus est plus dangereux ou plus meurtrier que d’autres. Cette information seule ne peut permettre d’aboutir à ce type de conclusions.

Avez-vous obtenu des informations au sujet de la capacité de mutation du coronavirus ?

G.L. : En comparant les données collectées en France et aux États-Unis, il nous est apparu que le SARS-CoV 2 semble être un virus à la mutation lente.

X.P. : Il y a des virus qui mutent très rapidement, parfois même en quelques jours. Or, nous avons constaté qu’en trois semaines, le coronavirus n’avait pas muté.

Au-delà de la connaissance des génomes, quels pourraient être les intérêts de vos travaux ?

G.L. : Cette méthode pourrait contribuer à la recherche de médicaments. En effet, si un traitement est reconnu comme étant efficace pour lutter contre une protéine commune à deux virus, il se peut qu’il puisse être utilisé pour les différentes pathologies qu’ils provoquent. Si on connaît un moyen qui fonctionne pour l’un, peut-être qu’il fonctionnera pour l’autre.

X.P. : Les informations sur l’ADN des virus peuvent également servir à la recherche de vaccins. La comparaison des CDS pourrait permettre d’identifier et de supprimer les protéines essentielles au fonctionnement d’un virus. Or, un virus inactif ou mort peut être utilisé pour faire un vaccin. Si on arrive à supprimer la capacité active en sachant où il faut aller dans le virus, grâce à des technologies comme CRISPR-Cas9, on pourrait effectivement aboutir plus rapidement à un vaccin. C’est pourquoi une analyse préalable rapide est intéressante.


Pour aller plus loin