Début 2018, un étudiant-chercheur en IA, de l’autre côté du campus de l’Université technique de Munich, contacte le laboratoire de biologie où Heinzinger travaille et lui présente une idée pouvant sembler farfelue : les modèles utilisés pour la vérification orthographique, la saisie semi-automatique et Alexa pourraient-ils apprendre le langage de la vie elle-même ?
Heinzinger, un expert en biologie computationnelle, a rejoint le laboratoire plus tôt dans l’année et cherche un thème de thèse doctorale. Son laboratoire s’emploie à comprendre les séquences de protéines, souvent décrites comme les pierres angulaires de la vie. Biologiste de formation, il ne connaît pas les développements rapides du traitement automatique des langues (TAL) et lance l’idée auprès de ses collègues. Ces derniers sont sceptiques.
« Je dois reconnaître que c’était un projet très risqué », se rappelle-t-il, expliquant que lorsqu’on consacre trois ou quatre ans à un doctorat et qu’on doit optimiser chaque heure de travail, il faut souvent privilégier la voie la plus prometteuse. « Nous partions de l’hypothèse que nous pouvions dépasser les avancées technologiques développées depuis 30 ans. Nous pouvions échouer horriblement et nous contenter de dire après trois ans : « Eh bien, nous avons essayé. Cela n’a pas marché ».
C’est sur ce dilemme qu’est né ProtTrans, le premier modèle d’apprentissage basé sur l’IA destiné à étudier l’univers des séquences de protéines et à utiliser le TAL pour révéler la grammaire sous-jacente des protéines. Cette application inattendue de l’apprentissage par IA à la biologie a suscité un immense enthousiasme dans ces deux disciplines et une vague d’innovations.
La personne ayant présenté cette idée à Michael est Ahmed Elnaggar : un chercheur en IA fasciné par les développements rapides du TAL et les opportunités d’apprentissage auto-contrôlé qu’ils impliquent. Son intuition lui souffle que cela marche. Il lui faut seulement le bon partenaire. Rostlab, dirigé par le professeur Burkhard Rost, un physicien théoricien et pionnier de la bio-informatique, figure sur sa liste. Son courriel de présentation envoyé à Rostlab arrive jusqu’à Heinzinger. Les deux hommes se rencontrent.
« Je dis toujours qu’il est mieux de lire sans cesse, ou d’écouter sans cesse, avant de parler », déclare Elnaggar. « Quand j’ai commencé à me documenter sur ces modèles de transformateurs et ce nouveau type de traitement, j’ai constaté que beaucoup de monde travaillait déjà sur ce sujet. J’essaye constamment de trouver une nouvelle idée, une nouvelle terre vierge que personne ne connaît.
Toutefois, à mesure que le TAL se développait, les cas d’utilisation privilégiaient tous les applications linguistiques traditionnelles au lieu de tester des méthodes inédites. Elnaggar veut sortir des sentiers battus.
« Cette idée m’est venue en marchant sur le campus », explique-t-il, se rappelant comment il comptait le nombre de « chaires », les postes de professeurs dans l’Académie allemande possédant leurs propres équipes et budgets.
Recherchant une technologie naissante capable d’adopter son idée, il examine chaque chaire, étudiant son travail et son axe de recherche. Il ébauche une présélection. Rostlab en fai partie. « Rostlab n’était pas le seul laboratoire auquel j’ai pensé, mais après avoir consulté différents laboratoires pour leur soumettre mes idées, j’ai pensé que c’était un cas d’utilisation immédiatement exploitable. »
Au fil des discussions, le concept a évolué au fil de l’exploration des données disponibles et de la méthode à suivre pour tester le modèle TAL. « Au départ, nous n’avions pas pensé aux protéines », se rappelle-t-il. « Nous avions juste l’idée que nous pourrions peut-être un jour produire un modèle capable d’extraire les caractéristiques d’une séquence génétique unique ».
Elnaggar connaissait les modèles linguistiques mais ignorait que les bioinformaticiens disposaient d’une telle richesse de données non structurées. « C’est grâce aux discussions avec Mike que nous avons opté pour cette direction ».
Le timing était parfait. « C’était une coïncidence extraordinaire qu’il tombe sur notre bureau », dit Heinzinger. « Nous étions alors dans une impasse, essayant en vain de prévoir des interactions entre les protéines. Nous recherchions d’autres méthodes pour représenter les séquences de protéines en utilisant les séquences d’une seule protéine ».
« Ahmed a frappé à la porte et nous a dit, à peu près, “Il existe ces algorithmes de traitement automatique des langues qui dépassent actuellement l’indice de référence avec de nouvelles versions lancées chaque semaine. Vous avez des données séquentielles, alors pourquoi ne pas les utiliser avec ces algorithmes ?” »
Heinzinger a décidé de se lancer dans l’aventure.
« Nous avons adopté la méthode la plus directe possible », dit-il. « Un acide aminé devient un mot et une séquence une phrase. La tâche est alors à peu près achevée ».
Les protéines et les organismes vivants sont faits de chaînes d’acides aminés. Il existe en tout 20 acides aminés, chacun représenté par 20 lettres de l’alphabet. Ces lettres, quand on les interprète séquentiellement, peuvent être comparées aux mots d’une phrase et vous indiquent la structure d’une protéine.
S’il lui restait quelques réticences, celles-ci ont vite été levées. « Les résultats ont été assez rapides et assez bons », dit-il. « Après cela, il a suffi de garder le rythme. À peu près chaque semaine, nous avons pris un point de référence et constaté une augmentation des performances au fil des semaines. C’était tout simplement magique. »
En lisant les ensembles de données de millions de protéines, le modèle linguistique bien entraîné recherchait et extrayait des caractéristiques, en identifiant des schémas et combinaisons communs, et apprenait simultanément à décrire et prévoir le « langage » des protéines.
Ce succès surprenant les a encouragés, déclare Heinzinger. Ce modèle rendait obsolète le groupe de modèles word-to-vec, une méthode plus ancienne pour convertir les mots en une représentation numérique. Le modèle linguistique n’a cessé de se perfectionner. « Jusqu’à bien sûr plafonner » se rappelle Heinzinger, « et nous avons donc dû trouver des algorithmes plus sophistiqués ».
Elnaggar a été invité à présenter leurs progrès lors d’une conférence sur l’informatique hautes performances. Il a nommé leur prototype SeqVec (Sequence-to-Vector) et a déclaré qu’il montrait des signes prometteurs pour résoudre le problème d’une gestion efficace du nombre de séquences en croissance exponentielle contenues dans les bases de données de protéines.
Après cette intervention, des représentants de Google, NVIDIA et de l’Université de Cornell proposèrent aux deux hommes d’utiliser leurs systèmes pour étendre leurs travaux. « Je conseillerais aux chercheurs de construire un prototype » dit Elnaggar, « et un réseau ».
S’inspirant des approches de TAL traditionnelles, les deux associés avaient commencé par rechercher des ensembles de données massifs, sans tenir compte de leur qualité. Ils avaient entraîné le modèle d’apprentissage sur BFD, également appelé « Big Fat Database », la plus grande base de données disponible avec 2,1 milliards de séquences de protéines. « C’est un ensemble de données imprécis et bruyant. Et nous avons aussi remarqué un impact sur le temps d’entraînement. Plus l’ensemble de données est grand, plus le temps d’entraînement est long. »
Malgré une puissance de calcul accrue, notamment en accédant au Summit d’IBM, alors le deuxième superordinateur le plus rapide du monde, le taux d’amélioration a encore chuté. Ils voulaient produire des résultats capables de rivaliser avec l’alignement de séquences multiples (MSA), une représentation haute définition d’un alignement d’au moins trois séquences de protéines.
« Nous avions de l’ambition », dit Heinzinger. « Obtenir un ou deux pour cent de plus l’emportait sur la frustration ».
Une étape décisive est ensuite arrivée, quand ils ont trouvé une collection affinée et plus propre de séquences de protéines appelée Uniref, dans une publication de l’équipe d’IA de Facebook. « Elle nous permettait de couvrir l’univers des protéines de façon plus uniforme qu’avec la BFD, qui privilégiait largement les grandes familles. »
Ils ont prouvé que les transformateurs, dont la renommée est largement due aux tâches TAL, pouvaient également fournir des « intégrations » destinées aux protéines, qui codent les séquences dans un plan mathématique, en regroupant les protéines de structure et fonction similaires plus étroitement que les protéines sans liens entre elles. Les transformateurs ont pu affiner notre carte de l’univers des protéines.
ProtTrans, une combinaison des mots « protéine » et « transformateur », offrait plus que de nouvelles connaissances biologiques précieuses. Il a également étendu le champ de l’IA en démontrant comment les transformateurs modélisent mieux les relations de séquences beaucoup plus longues que les précédents modèles d’IA les plus performants, essentiellement des réseaux de neurones récurrents.
Les transformateurs sont parfaitement adaptés pour exploiter l’architecture des superordinateurs modernes dans lesquels un seul transformateur peut s’entraîner plus rapidement en utilisant simultanément des processeurs parallèles, la puce présente sur la plupart des ordinateurs portables, des processeurs graphiques, le matériel de choix pour les modèles d’apprentissage profond, ou des TPU, les puces Tensor Processing Units sur mesure de Google.
Ils sont également exigeants en données et donc parfaits pour l’apprentissage sur d’immenses ensembles de données. Et enfin, Elnaggar souligne que des recherches récentes considèrent les transformateurs comme des réseaux de neurones graphiques, ce qui signifie qu’un transformateur est idéal pour apprendre implicitement des informations sur la structure d’une protéine à partir d’une séquence d’acides aminés.
ProtTrans continue à avoir des répercussions dans le monde de la biotechnologie. « Le travail qu’ils ont accompli sauve des vies », déclare Nicolas Lopez Carranza, d’InstaDeep.
Selon lui, Elnaggar et Heinzinger ont beaucoup influencé son équipe lors du développement de la plateforme de conception de protéines par IA, DeepChain.
« Dans l’équipe de DeepChain, nous avons vite compris la valeur de ProtTrans », dit-il, ajoutant que les capacités de prévision par apprentissage automatique de la plateforme intègrent la puissance d’analyse de séquences de protéine de ProtTrans.
« Cela nous a permis d’analyser le paysage de l’évolution des protéines avec un nouveau regard », explique M. Lopez Carranza, en citant des fonctions de DeepChain telles que Playground, qui peut aider les utilisateurs à mieux analyser les séquences de protéine sous un angle entièrement nouveau et différent, grâce à ProtTrans. Grâce à de tels outils, les chercheurs peuvent élaborer de nouvelles thérapies, ainsi que de nouveaux vaccins et remèdes potentiels.
Pour ceux qui n’ont pas accès à un superordinateur Summit ou à des milliers de processeurs graphiques, InstaDeep a contribué à fournir des bio-transformateurs open-source et des centaines de millions d’intégrations de protéines précalculées afin d’aider à démocratiser les avancées de ProtTrans. L’objectif est d’aider les chercheurs à résoudre leurs problèmes liés aux protéines dans le cadre du projet DeepChain Apps en open-source (voir page 9).
Heinzinger, encore doctorant et maintenant co-auteur de plusieurs articles avant-gardistes, revient sur le chemin parcouru.
« Si vous vous souvenez, j’ai dit que je croyais que nous aurions peu de chances de surpasser la technologie de pointe en n’utilisant qu’une seule séquence de protéine », rappelle-t-il. « Je sais maintenant que je me trompais, heureusement.
« En réalité, en y réfléchissant, le chemin parcouru ne semble plus si difficile », ajoute-t-il. « Il s’agissait surtout d’avoir cette idée d’abord et de comprendre que cela valait la peine d’essayer ».