Ces algorithmes pourraient prédire l’émergence de nouveaux variants du SARS-CoV-2

Céline Deluzarche, Journaliste
·2 min de lecture

Le code génétique d’un virus peut être comparé à un livre, où les lettres des bases azotées (A, C, G, T et U) forment des mots, puis des phrases qui s’assemblent pour former un ensemble cohérent qui va rendre le virus fonctionnel. À chaque fois qu’un virus se réplique, des erreurs aléatoires s’insèrent dans le processus de retranscription de l’ADN. La plupart du temps, ces erreurs concernent des parties « non codantes » du génome et n’ont aucune conséquence. D’autres fois, elles forment un « mot » qui ne veut rien dire et ne donne pas lieu à une protéine fonctionnelle. Mais de temps en temps, la mutation introduit une phrase qui fait sens et procure un avantage compétitif au virus. Elle est alors conservée et le nouveau code se répand.

Algorithme d'apprentissage sémantique appliqué à l'ADN

Prédire les futures évolutions du virus semble donc mission impossible, puisque les mutations sont par nature aléatoires. Des chercheurs du MIT ont pourtant tenté de relever le défi, en se basant sur des algorithmes d’apprentissage automatique développés pour le langage naturel. Brian Hie et ses collègues ont formé les algorithmes à une tâche appelée « recherche de changement sémantique contraint », en utilisant deux composantes du langage : la grammaire (syntaxe) et la sémantique (sens des mots). « Lorsqu'il mute, le virus est soumis à des contraintes : il doit préserver sa grammaire pour rester viable, mais changer de sémantique pour échapper aux anticorps », détaille Bryan Bryson, coauteur de l’article, publié en janvier dans la revue Science. Ces contraintes peuvent être représentées dans l’exemple ci-dessous.

Une mutation virale doit être grammaticalement correcte pour être viable et changer le sens de la phrase pour passer incognito auprès des anticorps. © Bryan Bryson
Une mutation virale doit être grammaticalement correcte pour être viable et changer le sens de la phrase pour passer incognito auprès des anticorps. © Bryan Bryson

La première phrase (« le garçon donne une petite tape au chien ») représente la séquence originale du virus. Dans la première mutation (deuxième phrase), la mutation induit un léger...

> Lire la suite sur Futura

À lire aussi sur Futura