<<
Entretien avec un conseiller : Le paradigme de la biologie computationnelle approfondi par l’IA et le HPC — Du Parametron à la bioinformatique, interview du professeur Kentaro Shimizu
15 mars 2025
Kentaro Shimizu, Professeur émérite de l’Université de Tokyo
La recherche biologique est confrontée aux défis redoutables des données massives et des calculs complexes. Prédire les séquences génétiques, les structures des protéines ou élucider leurs principes nécessite des simulations chronophages et le développement de logiciels spécialisés, mais les chercheurs capables de les gérer sont rares. Pour surmonter ces obstacles et accélérer le progrès humain, le projet VN Machine a été lancé. Aujourd’hui, nous nous entretenons avec le professeur Kentaro Shimizu, conseiller du projet.
Le professeur Kentaro Shimizu, professeur émérite de l’Université de Tokyo, est un leader dans les domaines de la biologie computationnelle et de la bioinformatique depuis des décennies, traçant un parcours unique de l’informatique à la biologie. Dans les années 1960, il a obtenu son doctorat dans le laboratoire d’Eiichi Goto, contribuant au développement de l’ordinateur parametron*1, l’un des premiers ordinateurs numériques innovants. À une époque où l’apprentissage automatique n’était pas encore répandu, le professeur Shimizu a été pionnier dans les méthodes computationnelles pour prédire les structures 3D des protéines à partir des seules séquences d’acides aminés, ainsi que dans des approches avancées pilotées par l’IA pour la génomique et la protéomique, influençant de nombreuses études ultérieures. Figure de proue des simulations de dynamique moléculaire (MD)*2, il a étudié le repliement des protéines et la liaison des ligands, avec des applications significatives dans la découverte et la conception de médicaments, ce qui lui a valu une reconnaissance étendue dans la communauté scientifique.
Le projet VNM s’appuie sur les connaissances de pionniers comme le professeur Shimizu, en fusionnant l’IA à grande échelle et le calcul haute performance (HPC) pour viser un monde où l’analyse de données à grande échelle et les simulations sont accessibles même sans expertise informatique spécialisée. Aujourd’hui, nous explorons avec lui les possibilités et l’avenir de la recherche biologique.
Kentaro Shimizu (Shimizu Kentaro)
Né en 1938. Professeur émérite de l’Université de Tokyo. Après avoir contribué au développement de l’ordinateur parametron dans le laboratoire d’Eiichi Goto, il a réorienté ses recherches vers la bioinformatique au début des années 1980. Pionnier dans la prédiction des structures 3D des protéines à l’aide de l’apprentissage automatique et par des simulations de dynamique moléculaire sur le repliement des protéines et la liaison des ligands, il a eu un impact significatif sur la découverte de médicaments et la compréhension de la biologie.
Le professeur Kentaro Shimizu, professeur émérite de l’Université de Tokyo, est un leader dans les domaines de la biologie computationnelle et de la bioinformatique depuis des décennies, traçant un parcours unique de l’informatique à la biologie. Dans les années 1960, il a obtenu son doctorat dans le laboratoire d’Eiichi Goto, contribuant au développement de l’ordinateur parametron*1, l’un des premiers ordinateurs numériques innovants. À une époque où l’apprentissage automatique n’était pas encore répandu, le professeur Shimizu a été pionnier dans les méthodes computationnelles pour prédire les structures 3D des protéines à partir des seules séquences d’acides aminés, ainsi que dans des approches avancées pilotées par l’IA pour la génomique et la protéomique, influençant de nombreuses études ultérieures. Figure de proue des simulations de dynamique moléculaire (MD)*2, il a étudié le repliement des protéines et la liaison des ligands, avec des applications significatives dans la découverte et la conception de médicaments, ce qui lui a valu une reconnaissance étendue dans la communauté scientifique.
Le projet VNM s’appuie sur les connaissances de pionniers comme le professeur Shimizu, en fusionnant l’IA à grande échelle et le calcul haute performance (HPC) pour viser un monde où l’analyse de données à grande échelle et les simulations sont accessibles même sans expertise informatique spécialisée. Aujourd’hui, nous explorons avec lui les possibilités et l’avenir de la recherche biologique.
Du paramétron à la bio-informatique
Kazuki Otsuka (ci-après, « Otsuka »)
Avant de vous lancer dans la bio-informatique, vous vous consacriez exclusivement à l’informatique pure. À l’époque, quels étaient vos centres d’intérêt ?
Professeur Kentaro Shimizu (ci-après, « Shimizu »)
C’était vraiment amusant. Je pense que c’est sans doute pareil pour vous, Otsuka : quand on écrit un programme, on est extrêmement heureux. Et plus on touche au niveau bas, plus on s’approche des couches profondes de l’ordinateur, plus c’est exaltant.
À l’époque, les ressources informatiques étaient à la disposition du grand public et j’étais passionné par la création de choses qui ne pouvaient pas se faire seul ou à quelques-uns, des choses qui fonctionnent de manière coordonnée, autrement dit le traitement distribué ou les logiciels collaboratifs. J’ai un peu poursuivi cette approche même après avoir intégré le domaine de la biologie.
Par exemple, j’ai publié un article à propos de l’exécution accélérée en environnement distribué de la simulation MD (dynamique moléculaire)*2.
À l’époque, les ressources informatiques étaient à la disposition du grand public et j’étais passionné par la création de choses qui ne pouvaient pas se faire seul ou à quelques-uns, des choses qui fonctionnent de manière coordonnée, autrement dit le traitement distribué ou les logiciels collaboratifs. J’ai un peu poursuivi cette approche même après avoir intégré le domaine de la biologie.
Par exemple, j’ai publié un article à propos de l’exécution accélérée en environnement distribué de la simulation MD (dynamique moléculaire)*2.
Otsuka
D’une certaine façon, cela revient à automatiser le traitement distribué, n’est-ce pas ? Et si on se replace dans les années 1990, c’était assez novateur, j’imagine.
Parmi vos réalisations, quel est, selon vous, le travail le plus représentatif ?
Parmi vos réalisations, quel est, selon vous, le travail le plus représentatif ?
Shimizu
Eh bien, avant que l’IA ne devienne aussi populaire qu’aujourd’hui, j’utilisais déjà l’apprentissage automatique ou des approches similaires pour faire de la prédiction. J’ai aussi travaillé sur la génération automatique d’outils de prédiction.
Par exemple, j’ai développé des logiciels pour prédire la structure ou la fonction d’une protéine à partir de sa séquence.
Par exemple, j’ai développé des logiciels pour prédire la structure ou la fonction d’une protéine à partir de sa séquence.
Traiter des données massives – Les défis pratiques du calcul en biologie
Otsuka
Je suppose que les données en biologie sont assez volumineuses.
Shimizu
Oui, justement, je travaille actuellement sur un projet où l’on passe de la séquence à la structure, et la quantité de données est immense. Même dans les bases de données les plus courantes, certaines ne peuvent pas être téléchargées par programme. Et si on essaie de procéder via l’interface Web en masse, on se fait bloquer. On n’a pas le droit d’y accéder ainsi de façon massive.
Que faire, alors ? On finit par tout rapatrier en local, mais la taille des données est énorme. C’est une vraie difficulté de savoir comment gérer ces volumes.
Que faire, alors ? On finit par tout rapatrier en local, mais la taille des données est énorme. C’est une vraie difficulté de savoir comment gérer ces volumes.
Otsuka
Quand la quantité de données est aussi grande, cela prend du temps, n’est-ce pas ?
Shimizu
Oui, effectivement. Si l’on pouvait accéder rapidement à ces données depuis le site qui les héberge, ce serait pratique, mais aujourd’hui, il est très difficile de lancer rapidement des traitements massifs sur ces données. C’est ce dont je me suis rendu compte tout à l’heure.
Otsuka
De quel ordre de grandeur parle-t-on ? Des téraoctets ?
Shimizu
Juste pour les séquences, c’est déjà plusieurs centaines de gigas, et si on inclut les structures 3D ou les données de dynamique, on passe au téraoctet.
Otsuka
Selon moi, l’idéal serait de disposer en permanence d’un supercalculateur avec un stockage quasi illimité : on y dépose ces données et on lance les calculs dès qu’on en a besoin.
Shimizu
Je suis tout à fait d’accord. Ce serait vraiment idéal si ce genre d’environnement était plus aisément disponible. Et il est important que ce soit connecté à Internet.
En effet, les données dont nous avons besoin proviennent souvent de bases publiques. Si l’on pouvait aisément les consulter localement comme si elles s’y trouvaient déjà, ce serait formidable.
En effet, les données dont nous avons besoin proviennent souvent de bases publiques. Si l’on pouvait aisément les consulter localement comme si elles s’y trouvaient déjà, ce serait formidable.
Otsuka
Avec le data hub de VNM, nous essayons de créer un accès commun sur le réseau local, afin de réduire autant que possible les téléchargements et les copies sur disque.
Par ailleurs, nous examinons la possibilité de monétiser les données publiées. Pensez-vous qu’il soit réalisable de les proposer à la vente ?
Par ailleurs, nous examinons la possibilité de monétiser les données publiées. Pensez-vous qu’il soit réalisable de les proposer à la vente ?
Shimizu
Autrefois, c’était difficile, mais si l’on cible un objectif précis, par exemple un type de recherche et développement spécifique, on peut effectivement envisager ce modèle. Il faudra sans doute s’appuyer sur des organisations de type TLO (Technology Licensing Organization).
La simplicité d’utilisation peut inciter à explorer des mécanismes souvent reportés à plus tard
Otsuka
À votre avis, combien d’idées les chercheurs laissent-ils de côté faute de moyens ou de temps, alors qu’ils aimeraient vraiment les réaliser ?
Shimizu
Pour la dynamique moléculaire (MD), même si la puissance de calcul s’est considérablement accrue, on ne peut pas tout couvrir de façon exhaustive et on dépend de l’échantillonnage. C’est là que l’IA intervient, mais celle-ci fait souvent figure de « boîte noire ».
C’est pourquoi, si nous parvenions à élucider les phénomènes de façon explicable, ce serait un vrai bond pour la science.
C’est pourquoi, si nous parvenions à élucider les phénomènes de façon explicable, ce serait un vrai bond pour la science.
Otsuka
Il ne s’agit pas seulement d’avoir la réponse, mais aussi de comprendre le mécanisme.
Shimizu
Exactement. La MD se base sur les lois physiques en simulant le système pas à pas, mais quand on veut expliquer un phénomène se produisant sur une longue durée, cela devient inabordable en l’état. On cherche donc une granularité plus élevée pour approcher le phénomène, ou on tente de trouver de nouvelles façons d’échantillonner les conformations produites par la MD.
Otsuka
Je discutais récemment avec un biologiste, qui expliquait que beaucoup de travaux restent à mener avec les méthodes actuelles, permettant de publier encore de nombreuses études. Et à côté, il y a un autre groupe de chercheurs qui souhaite comprendre plus en profondeur le mécanisme, et qui, de ce fait, doit parfois développer de nouveaux programmes.
Finalement, tout dépend de la question que chaque scientifique se pose : c’est cela qui détermine quel problème il veut résoudre.
Finalement, tout dépend de la question que chaque scientifique se pose : c’est cela qui détermine quel problème il veut résoudre.
Shimizu
C’est un point de vue très pertinent, je le reconnais.
Otsuka
On m’a avancé une estimation selon laquelle, sur 100 chercheurs, peut-être 10 sont du genre à s’intéresser à ces problèmes mécanistes plus profonds, soit une centaine au Japon, et potentiellement 10 000 dans le monde.*3
Shimizu
En tant que chercheurs, nous voudrions tous, dans l’idéal, approfondir la compréhension des mécanismes. Mais les financements exigent souvent des résultats rapides, et il est difficile de prendre le temps d’aller jusqu’au bout.
Otsuka
Il y a des contraintes économiques, et d’autres facteurs aussi.
Shimizu
Exactement. C’est pourquoi, comme vous le disiez, si un logiciel permettait de pousser un peu plus loin et de rendre les phénomènes explicables, beaucoup de chercheurs s’y essaieraient volontiers.
Otsuka
S’il existait un outil qui ne soit pas trop chronophage, on pourrait l’utiliser pendant le temps libre entre deux expériences, par exemple. Vous pensez que c’est plausible ?
Shimizu
Oui, tout à fait. C’est même capital pour faire avancer la science.
Otsuka
Je pense que nombre de chercheurs ont une idée en tête depuis longtemps, mais qu’ils n’ont jamais pu concrétiser.
Shimizu
Oui, c’est un vrai problème.
Otsuka
Nous voulons justement bâtir un environnement où ces idées peuvent aboutir.
Les idées essentielles, mais qui, précisément parce qu’elles sont fondamentales, se retrouvent souvent repoussées à plus tard.
Les idées essentielles, mais qui, précisément parce qu’elles sont fondamentales, se retrouvent souvent repoussées à plus tard.
Réduire le temps de calcul, la clé de la découverte
Otsuka
Que pensez-vous de l’HPC (calcul haute performance) ?
Shimizu
Les simulations pour les protéines ou les acides nucléiques constituent un bon exemple. Pour comprendre comment une protéine interagit avec d’autres molécules, ou comment sa structure se modifie, on doit effectuer une simulation sur une longue période ou recourir à un échantillonnage intense. L’accélérer serait fantastique.
Otsuka
Concrètement, d’où vient le goulot d’étranglement ? De la taille des matrices ou du nombre de combinaisons à explorer ?
Shimizu
L’espace des configurations moléculaires à explorer est immense. C’est la principale raison.
Otsuka
Donc le nombre de combinaisons à évaluer est colossal.
Shimizu
Oui, par exemple, quand on parle de « docking », on cherche comment la molécule A s’attache à la molécule B. Même si, expérimentalement, on voit que la molécule se fixe à tel endroit, il arrive que la simulation en se basant sur les lois physiques ne retrouve pas cette configuration.
En général, on sait que si l’on fait tourner la MD suffisamment longtemps, on peut finir par voir émerger la configuration correcte. Donc si l’on disposait d’accélérateurs plus performants, on augmenterait la précision en raffinant le modèle.
Il est vrai aussi que le modèle peut être grossier. Mais en prolongeant la simulation et en échantillonnant largement, on finit par observer le moment où « quelque chose se produit ».
En général, on sait que si l’on fait tourner la MD suffisamment longtemps, on peut finir par voir émerger la configuration correcte. Donc si l’on disposait d’accélérateurs plus performants, on augmenterait la précision en raffinant le modèle.
Il est vrai aussi que le modèle peut être grossier. Mais en prolongeant la simulation et en échantillonnant largement, on finit par observer le moment où « quelque chose se produit ».
« Spécialités cloisonnées » vs « Modèle généralisé »
Otsuka
En parlant avec des spécialistes de divers domaines, j’ai constaté que tout le monde n’aime pas forcément les équations ou le codage. Certains sont « en dehors » de l’ordinateur, d’autres « dans », et d’autres entre les deux.
Dans ces écarts se cachent potentiellement de nombreuses opportunités inexplorées.
Dans ces écarts se cachent potentiellement de nombreuses opportunités inexplorées.
Shimizu
Aujourd’hui, la situation varie selon les personnes, mais à l’époque, quand j’échangeais avec des chercheurs en biologie ou en agronomie, ils procédaient par accumulation d’expériences, en se focalisant fortement sur « cette protéine, ce gène » pour en comprendre tous les détails. Ils ne se préoccupaient pas forcément de la modélisation ou de la généralisation.
De plus, ils se demandaient si le fait de « fixer des paramètres arbitraires » n’était pas trop éloigné des données expérimentales réelles.
De plus, ils se demandaient si le fait de « fixer des paramètres arbitraires » n’était pas trop éloigné des données expérimentales réelles.
Otsuka
Comment répondez-vous à la critique de « paramètres choisis au hasard » ?
Shimizu
Les méthodes informatiques gagnent en précision et, même avec un modèle imparfait, on peut l’utiliser comme hypothèse de départ ; c’est déjà utile.
Ensuite, lorsque des données expérimentales plus détaillées apparaissent, on affine ce modèle et, s’il parvient à expliquer ces nouvelles observations, cela fait avancer la science.
Ensuite, lorsque des données expérimentales plus détaillées apparaissent, on affine ce modèle et, s’il parvient à expliquer ces nouvelles observations, cela fait avancer la science.
Otsuka
Donc, ce n’est pas parce que l’on fait des expériences que l’on construit forcément un modèle.
Cependant, si l’on dispose d’un modèle, on peut faire des prédictions.
Cependant, si l’on dispose d’un modèle, on peut faire des prédictions.
Shimizu
Voilà, on peut prédire. C’est d’ailleurs l’intérêt des simulations : expliquer un phénomène et anticiper ce qui pourrait se produire ensuite.
Chaque chercheur a, de toute façon, une motivation propre pour étudier tel phénomène d’une protéine.
Chaque chercheur a, de toute façon, une motivation propre pour étudier tel phénomène d’une protéine.
Otsuka
Dans bien des cas, on résout un problème précis, sans nécessairement viser la construction d’un modèle plus général.
Shimizu
C’est exactement cela. Et puis, lors de la généralisation, se pose le problème de la fiabilité des paramètres. Les biologistes sont très exigeants à ce sujet. J’ai déjà entendu, par exemple, quelqu’un dire : « Pourquoi l’AUC-ROC n’est-elle pas de 1 ? Si ce n’est pas 1, est-ce vraiment exploitable pour faire avancer la science ? » Alors que dans beaucoup de domaines, un score autour de 0,9 est déjà considéré comme très bon.
Approche VN Machine : construire des logiciels sur mesure par interaction
Otsuka
Aux États-Unis, la société Rescale, qui cible le marché HPC pour entreprises, vient de lever des sommes considérables. Elle propose d’exécuter un large éventail de grands logiciels sur le cloud. Pour une simulation MD déjà établie, c’est parfait, et nous n’essayons pas de concurrencer ce genre de solution. Nous visons plutôt des besoins qui ne sont pas couverts par les logiciels standard existants.
Shimizu
Ce résumé est très juste.
En ce qui concerne la dynamique des protéines, AlphaFold a parfois du mal à prédire avec précision la position relative de domaines connectés par un « linker » flexible. Or, la manière dont ces domaines se déplacent et s’agencent est au cœur de nombreuses recherches. Si un logiciel vraiment novateur voyait le jour, il serait d’une grande utilité : au niveau du mouvement des domaines, de l’interaction entre chaînes, etc.
En ce qui concerne la dynamique des protéines, AlphaFold a parfois du mal à prédire avec précision la position relative de domaines connectés par un « linker » flexible. Or, la manière dont ces domaines se déplacent et s’agencent est au cœur de nombreuses recherches. Si un logiciel vraiment novateur voyait le jour, il serait d’une grande utilité : au niveau du mouvement des domaines, de l’interaction entre chaînes, etc.
Otsuka
Je vous remercie infiniment pour cet entretien. Votre connaissance pointue de l’informatique et de la biologie est extrêmement précieuse. Je compte sur vous pour la suite !
Shimizu
C’est moi qui vous remercie. Restons en contact.
*1 Le paramétron (parametron) est un composant logique inventé en 1954 par Eiichi Goto, alors étudiant en master à la Faculté des sciences de l’Université de Tokyo. Il permettait de construire des ordinateurs en réduisant considérablement la quantité de tubes à vide ou de transistors ; à l’époque, de nombreux ordinateurs à paramétron ont ainsi vu le jour. Dans les années 1960, il a été largement supplanté par les transistors. Cependant, par la suite, le même principe de base du paramétron a été reproduit dans divers systèmes physiques. À partir des années 2010, il a de nouveau retenu l’attention pour le développement d’ordinateurs quantiques utilisant ce principe. (Source : Wikipedia)
*2 La simulation de dynamique moléculaire (MD) suit étape par étape les interactions physiques entre molécules pour prédire, par exemple, l’évolution structurelle des protéines ou des acides nucléiques.
Par comparaison, AlphaFold, système proche, excelle dans la prédiction statique des structures 3D, mais ne prend pas directement en compte la dimension temporelle. Il est donc utile pour formuler des hypothèses préliminaires en conception de médicaments, mais pour étudier le mouvement des molécules ou le couplage avec un ligand, il reste indispensable de recourir à la MD, qui s’appuie sur les lois physiques.
*3 Le nombre total de chercheurs dans le monde (tous domaines confondus) est estimé à environ 8,8 millions. Environ 36 % des publications concernent la biologie ou les sciences de la vie au sens large. L’évaluation à « 10 000 » est donc très approximative ; en réalité, rien qu’aux États-Unis, le NIH finance déjà plus de 27 000 chercheurs en recherche fondamentale, etc. Il est donc probable que le nombre de chercheurs se consacrant à l’élucidation de mécanismes fondamentaux atteigne plusieurs dizaines ou centaines de milliers dans le monde. (D’après les rapports de l’UNESCO, des organismes nationaux, du NSF, etc.)
*2 La simulation de dynamique moléculaire (MD) suit étape par étape les interactions physiques entre molécules pour prédire, par exemple, l’évolution structurelle des protéines ou des acides nucléiques.
Par comparaison, AlphaFold, système proche, excelle dans la prédiction statique des structures 3D, mais ne prend pas directement en compte la dimension temporelle. Il est donc utile pour formuler des hypothèses préliminaires en conception de médicaments, mais pour étudier le mouvement des molécules ou le couplage avec un ligand, il reste indispensable de recourir à la MD, qui s’appuie sur les lois physiques.
*3 Le nombre total de chercheurs dans le monde (tous domaines confondus) est estimé à environ 8,8 millions. Environ 36 % des publications concernent la biologie ou les sciences de la vie au sens large. L’évaluation à « 10 000 » est donc très approximative ; en réalité, rien qu’aux États-Unis, le NIH finance déjà plus de 27 000 chercheurs en recherche fondamentale, etc. Il est donc probable que le nombre de chercheurs se consacrant à l’élucidation de mécanismes fondamentaux atteigne plusieurs dizaines ou centaines de milliers dans le monde. (D’après les rapports de l’UNESCO, des organismes nationaux, du NSF, etc.)

Né en 1938. Professeur émérite de l’Université de Tokyo. Après avoir contribué au développement de l’ordinateur parametron dans le laboratoire d’Eiichi Goto, il a réorienté ses recherches vers la bioinformatique au début des années 1980. Pionnier dans la prédiction des structures 3D des protéines à l’aide de l’apprentissage automatique et par des simulations de dynamique moléculaire sur le repliement des protéines et la liaison des ligands, il a eu un impact significatif sur la découverte de médicaments et la compréhension de la biologie.