<<

Entrevista con un asesor: El paradigma de la biología computacional profundizado por IA y HPC — De Parametron a la bioinformática, entrevista con el profesor Kentaro Shimizu

15 de marzo de 2025

Kentaro Shimizu, Profesor Emérito de la Universidad de Tokio

La investigación biológica enfrenta los formidables desafíos de datos masivos y cálculos complejos. Predecir secuencias genéticas, estructuras de proteínas o desentrañar sus principios requiere simulaciones intensivas en tiempo y el desarrollo de software especializado, pero los investigadores capaces de manejarlos son escasos. Para superar estas barreras y acelerar el progreso humano, se ha iniciado el proyecto VN Machine. Hoy hablamos con el profesor Kentaro Shimizu, asesor del proyecto.

El profesor Kentaro Shimizu, Profesor Emérito de la Universidad de Tokio, ha sido un líder en biología computacional y bioinformática durante décadas, trazando un camino único desde la informática hasta la biología. En la década de 1960, obtuvo su doctorado en el laboratorio de Eiichi Goto, contribuyendo al desarrollo de la computadora parametron*1, una de las primeras computadoras digitales innovadoras. En una era previa a la popularidad del aprendizaje automático, el profesor Shimizu fue pionero en métodos computacionales para predecir estructuras 3D de proteínas solo a partir de secuencias de aminoácidos, así como enfoques avanzados impulsados por IA para genómica y proteómica, influyendo en numerosos estudios posteriores. Líder en simulaciones de dinámica molecular (MD)*2, ha estudiado el plegamiento de proteínas y la unión de ligandos, con aplicaciones significativas en el descubrimiento y diseño de fármacos, ganándose un amplio reconocimiento en la comunidad científica.

El proyecto VNM se basa en las ideas de pioneros como el profesor Shimizu, fusionando IA a gran escala y computación de alto rendimiento (HPC) para buscar un mundo donde el análisis de datos a gran escala y las simulaciones sean accesibles incluso sin experiencia especializada en computación. Hoy exploramos las posibilidades y el futuro de la investigación biológica con él.
Del Parametron a la Bioinformática
Kazuki Otsuka (en adelante, Otsuka) Antes de adentrarse en la bioinformática, tengo entendido que usted se dedicaba de manera muy pura al estudio de la computación. ¿Qué era lo que le interesaba en ese momento?
Profesor Kentaro Shimizu (en adelante, Shimizu) La verdad es que era muy divertido, sin más. Probablemente a usted también le pase, Otsuka, que cuando uno está programando se siente muy feliz, y cuanto más cerca uno está del nivel bajo —es decir, de la parte más interna de la computadora— más emocionante resulta.
En aquel entonces, los recursos de computación empezaban a estar a disposición de más personas. Me interesaba enormemente crear sistemas que funcionaran de manera colaborativa, algo que no se pudiera hacer solo o entre muy pocos, es decir, entornos de cómputo distribuido y software de cooperación. Y esa línea de trabajo la continué en el ámbito de la biología.
Por ejemplo, en el caso de la simulación MD (dinámica molecular)*2, publiqué algunos artículos sobre cómo acelerar su ejecución en entornos distribuidos.
Otsuka En cierto sentido, hablamos de automatizar el procesamiento distribuido. Pensando que esto sucedía en la década de 1990, imagino que fue bastante pionero.
Profesor Shimizu, ¿cuál considera que es su trabajo más representativo?
Shimizu Diría que, desde antes de la actual ola de popularidad de la IA, ya usábamos técnicas de aprendizaje automático para realizar predicciones. Además, me he enfocado en la generación automática de herramientas de predicción.
Por ejemplo, he desarrollado software para predecir estructuras o funciones a partir de secuencias de proteínas.
Procesar grandes volúmenes de datos: desafíos en el cómputo biológico
Otsuka En el ámbito de la biología, imagino que el tamaño de los datos es enorme.
Shimizu Sí, justo ahora estoy trabajando con datos de secuencias y estructuras, y el volumen es gigantesco. Hay bases de datos de renombre que ni siquiera se pueden descargar directamente con un simple programa. Pero, si pretendes acceder masivamente por interfaz web, también estás fuera de las normas, y no puedes hacerlo. Tampoco puedes hacer un acceso tan intensivo.
Entonces, ¿qué hacemos? Terminamos descargando todo localmente, pero se trata de datos enormes, así que gestionar esos volúmenes se convierte en un dolor de cabeza.
Otsuka Además, manejar grandes volúmenes de datos consume mucho tiempo.
Shimizu Exacto. Estaría muy bien acceder de forma rápida a los datos directamente en el sitio donde están alojados, pero cuando quieres procesar esos datos masivamente o ejecutar cálculos intensivos sobre ellos, la velocidad de acceso suele ser un cuello de botella. Lo estuve sufriendo justo hoy.
Otsuka ¿De qué orden de magnitud estamos hablando? ¿Varios terabytes quizá?
Shimizu La parte de secuencias puede rondar cientos de gigabytes, pero si añadimos datos de estructuras 3D y datos dinámicos, llegamos fácilmente a la escala de terabytes.
Otsuka Supongo que lo ideal sería contar con un supercomputador que pudiéramos usar de manera permanente, con un almacenamiento casi ilimitado, donde pudiéramos depositar todos esos datos y acceder a ellos para hacer los cálculos cuando quisiéramos.
Shimizu Estoy totalmente de acuerdo. Sería genial poder tener un entorno así de forma sencilla. Y también es importante que esté conectado a la red.
Es decir, nuestros datos de interés a menudo no están en un disco duro propio, sino que son datos públicos. Si hubiera una forma sencilla de usar esos datos públicos de manera local, sería maravilloso.
Otsuka En nuestro proyecto VNM, intentamos crear un repositorio de datos compartido (data hub), accesible dentro de la misma red local, reduciendo la necesidad de descargar o copiar físicamente datos.
Además, estamos pensando en un sistema para monetizar los datos públicos. ¿Cree que sea posible, en la práctica, vender ese acceso?
Shimizu Antes era más complicado, pero creo que sí es factible si se define un objetivo específico, por ejemplo, un cierto tipo de investigación aplicada. Probablemente sería necesario utilizar mecanismos como los TLO (Oficinas de Transferencia de Tecnología) o algo similar.
La sencillez puede ser la clave para adentrarnos en la elucidación de mecanismos que suelen posponerse
Otsuka Hay muchas ideas que la gente quiere llevar a cabo, pero que no se materializan por falta de recursos o por la complejidad de las herramientas. ¿Cuántos casos cree que hay en los que a la gente le gustaría hacer algo pero no puede?
Shimizu En el caso de la MD (dinámica molecular), aunque la potencia de cálculo ha aumentado mucho, sigue siendo imposible abarcar todos los estados de un sistema de manera exhaustiva. Dependemos del muestreo. Hoy en día se usan bastante las técnicas de IA, pero corremos el riesgo de que la solución se convierta en una caja negra.
Si pudiéramos explicar los fenómenos de forma clara, avanzaríamos mucho en la ciencia básica
.
Otsuka No se trata solo de obtener una respuesta directa, sino de comprender el mecanismo para poder usar esos resultados.
Shimizu La MD se basa en leyes físicas y avanza paso a paso. Pero cuando queremos describir fenómenos que transcurren en escalas de tiempo largas, la simulación pura es muy costosa. Necesitamos modelos con un nivel de granularidad mayor, o bien estrategias de muestreo más eficientes. Hay muchos métodos propuestos para ello.
Otsuka Hablando con otros biólogos, muchos comentan que todavía hay muchísimo por investigar con los métodos existentes, y que con eso pueden publicar trabajos. Pero aparte de esas líneas, hay gente que quiere profundizar en los mecanismos fundamentales y, para ello, desarrollan nuevos sistemas o software.
Al final depende del tipo de problema y la motivación del investigador. Tengo la impresión de que la proporción de gente que realmente quiere innovar en la base de los métodos es menor.
Shimizu Estoy de acuerdo. Sin embargo, los investigadores tenemos, en el fondo, el deseo de entender a fondo los mecanismos. Pero muchas veces hay limitaciones de tiempo y de financiación, lo que hace que no podamos embarcarnos en proyectos tan profundos.
Otsuka Sí, los factores económicos y de otra índole también influyen.
Shimizu Por eso, como usted señala, si hubiera software que, con un poco de esfuerzo adicional, ofreciera una mayor capacidad de explicación, no cabe duda de que muchos se animarían a usarlo.
Otsuka Si existiera una herramienta que no exigiera demasiado tiempo ni esfuerzo, sería posible explorar esas ideas que llevamos guardadas en un cajón.
Shimizu Exacto, creo que eso sería muy útil y tendría un impacto importante en el avance de la ciencia.
Otsuka Hay quien lleva tiempo incubando ideas, pero nunca las realiza por falta de facilidades o herramientas.
Shimizu Así es, es un problema muy común.
Otsuka Sería estupendo poder crear un mecanismo que permita llevar a cabo esas ideas que son fundamentales, pero que se van postergando.
En otras palabras, un sistema que facilite la realización de investigaciones esenciales que, precisamente por su naturaleza, se dejan para más adelante.
La reducción de los tiempos de cómputo como clave para los descubrimientos
Otsuka ¿Qué opina sobre el HPC (cómputo de alto rendimiento)?
Shimizu Las simulaciones de proteínas y ácidos nucleicos son un claro ejemplo de por qué sería tan valioso acelerar estos procesos. Para conocer cómo interacciona una proteína con otras moléculas o cómo cambia su estructura, se necesitan simulaciones largas y un muestreo exhaustivo. Cuanto más rápido podamos hacer esto, mejor.
Otsuka ¿La razón principal de la lentitud se debe a que las matrices son muy grandes, o a que el espacio de configuración es demasiado amplio?
Shimizu En general, el número de configuraciones que pueden adoptar las moléculas es enorme, y resulta muy difícil abarcar todo el espacio de manera exhaustiva.
Otsuka O sea que hay muchas combinaciones posibles que deben explorarse.
Shimizu Exacto. Por ejemplo, existe un método llamado “docking” para estudiar cómo se unen dos moléculas, A y B.
Aunque la estructura cristalina obtenida experimentalmente muestre que sí se unen en cierto sitio, a veces la simulación basada únicamente en leyes físicas no reproduce esa conformación.
En general, todo el mundo reconoce que, si pudiéramos prolongar más la MD, obtendríamos mejores resultados, porque tendríamos más probabilidades de encontrar el estado correcto.
También puede influir la precisión del modelo, pero el muestreo suficiente y el tiempo de simulación son cruciales. Si uno simula durante el tiempo suficiente, el fenómeno de interés podría aparecer, pero eso depende de disponer de potencia de cómputo y tiempo.
Especializaciones divergentes vs. modelos generalizados
Otsuka He conversado con expertos de diversos campos científicos y, ciertamente, no todos disfrutan el trabajo de modelado matemático y cómputo intensivo.
En cierto modo, podríamos hablar de personas que están “dentro” de la computadora, otras que trabajan “fuera” y otras en el punto intermedio. Dentro de esas diferencias, creo que hay muchísimas posibilidades inexploradas.
Shimizu Actualmente la situación ha cambiado bastante y depende de cada persona, pero, al principio, cuando conversaba con gente de biología o de la facultad de agronomía, notaba que muchos se especializaban profundamente en un conjunto concreto de proteínas o genes. Su interés se centraba en experimentos concretos y datos reales.
Para ellos, era difícil ver el valor de un modelo “generalizado” si este se basaba en “parámetros arbitrarios”. Decían: “Con datos experimentales tan detallados, no tiene sentido meter parámetros inventados” o algo por el estilo.
Otsuka Frente a la objeción de “usar parámetros arbitrarios”, ¿cómo lo explicaría usted?
Shimizu La bioinformática también ha mejorado mucho la precisión de sus modelos. Incluso con un modelo aproximado, si podemos explicar razonablemente el fenómeno real, la idea es valiosa como hipótesis.
Después, a medida que haya mejores datos experimentales, podremos refinar el modelo y ver si explica esos nuevos datos, lo que ayuda a validar o a ajustar la hipótesis.
Otsuka No siempre se crea un modelo cuando se hacen experimentos, ¿verdad?
Pero si uno logra construirlo, también puede hacer predicciones.
Shimizu Exacto, sirve para predecir. Es decir, se puede simular el fenómeno y dar explicaciones. Si luego verificamos los resultados con nuevos experimentos, podemos expandir nuestro conocimiento.
Al final, cada investigador tiene sus propias proteínas de interés y busca entender su mecanismo.
Otsuka Entonces, muchos investigadores se concentran en problemas muy específicos, mientras que no todos se dedican a generalizar y crear grandes modelos.
Shimizu Exacto. Además, cuando se generaliza, surge el debate acerca de la fiabilidad de los parámetros. Por ejemplo, en mi experiencia, si presento una métrica AUC-ROC de 0,9, que suele considerarse decente, algunos científicos experimentales me dicen: “¿Por qué no es 1,0? Así no sirve para una conclusión definitiva.”
El enfoque de VN Machine: crear software personalizado de manera interactiva
Otsuka En Estados Unidos, hay una startup llamada Rescale, que ha recaudado grandes sumas para ofrecer HPC en la nube para uso empresarial. Han reunido en su plataforma una enorme variedad de software de primera línea, incluyendo software de MD.
Personalmente, creo que está muy bien aprovechar herramientas ya consolidadas para las necesidades más habituales. Nosotros no buscamos competir directamente con esas soluciones, sino más bien atender las necesidades que no se satisfacen con el software existente.
Shimizu Sí, lo que comenta es muy cierto.
Por ejemplo, con las proteínas, es difícil predecir cómo se mueven los grandes dominios (grandes “bloques” de la proteína), especialmente cuando están unidos por partes muy flexibles. Incluso AlphaFold, que predice bien la estructura 3D estática, no maneja tan bien esas partes flexibles. Esta cuestión de la conformación dinámica es un área de investigación muy activa.
Si surgiera algún software disruptivo que modelara mejor los movimientos y las interacciones a escala de dominios o cadenas proteicas, sería de gran ayuda. Hay mucha demanda para comprender cómo se mueven y cómo interactúan esos dominios.
Otsuka Muchas gracias por compartir su visión. Ha sido extremadamente valioso escuchar a alguien con un profundo conocimiento tanto de la computación como de la biología. Espero seguir contando con su colaboración.
Shimizu Gracias a usted, Otsuka. Seguimos en contacto.
*1 El parametron es un dispositivo lógico inventado en 1954 por Eiichi Goto, quien entonces era estudiante de posgrado de la Facultad de Ciencias de la Universidad de Tokio. Permitía construir computadoras usando muchas menos válvulas de vacío o transistores que las tecnologías de la época. A finales de la década de 1950 y principios de la de 1960, se construyeron varias computadoras basadas en parametrones, que fueron reemplazadas más tarde por computadoras basadas en transistores. Sin embargo, en la década de 2010, el principio de los parametrones volvió a atraer la atención gracias a desarrollos en diversos sistemas físicos y su aplicación en computadoras cuánticas basadas en este principio. (Fuente: Wikipedia)

*2 La simulación MD (dinámica molecular) rastrea, paso a paso, las interacciones físicas entre átomos o moléculas para predecir la evolución temporal de sistemas como proteínas o ácidos nucleicos.
En contraste, AlphaFold se centra en predecir la estructura estática 3D a partir de una secuencia de aminoácidos, sin modelar explícitamente la dinámica temporal. Aunque AlphaFold es muy útil para generar hipótesis iniciales en el ámbito de la investigación de fármacos, el estudio detallado de la unión de ligandos o de los movimientos moleculares aún requiere simulaciones basadas en leyes físicas.

*3 Según estimaciones, hay unos 8,8 millones de investigadores en todo el mundo (en todas las disciplinas), y el campo de la biología y ciencias de la vida representa en torno al 36% de las publicaciones científicas. La cifra aproximada de “10.000 investigadores” interesados en la elucidación de mecanismos básicos es probablemente muy conservadora; considerando que solo los Institutos Nacionales de la Salud (NIH) en EE. UU. financian a más de 27.000 investigadores principales (PIs) de investigación básica, es razonable suponer que, a escala global, hay decenas o incluso cientos de miles de científicos cuyo objetivo principal es la comprensión fundamental de estos procesos. (Fuentes: UNESCO, estadísticas nacionales, NSF, etc.)
Kentaro Shimizu (Shimizu Kentaro)
Nacido en 1938. Profesor Emérito de la Universidad de Tokio. Tras contribuir al desarrollo de la computadora parametron en el laboratorio de Eiichi Goto, cambió su enfoque a la bioinformática a principios de la década de 1980. Como pionero en la predicción de estructuras 3D de proteínas utilizando aprendizaje automático y mediante simulaciones de dinámica molecular de plegamiento de proteínas y unión de ligandos, ha influido significativamente en el descubrimiento de fármacos y la comprensión de la biología.