<<
顾问访谈:人工智能与高性能计算深化计算生物学的范式——从参数管到生物信息学,清水谦多郎教授访谈
2025年3月15日
清水谦多郎,东京大学名誉教授
生物学研究面临着海量数据和复杂计算的巨大挑战。预测基因序列、蛋白质结构或揭示其原理需要耗时的模拟和专业软件开发,但能够处理这些的研究人员却寥寥无几。为了突破这些障碍并加速人类的进步,VN Machine项目启动了。今天我们采访的是该项目的顾问清水谦多郎教授。
东京大学名誉教授清水谦多郎教授数十年来一直是计算生物学和生物信息学领域的领导者,从计算机科学转向生物学,走出了一条独特的道路。1960年代,他在后藤英一的实验室获得博士学位,参与了参数管*1计算机(一种早期的创新数字计算机)的开发。在机器学习尚未成为主流的时代,清水教授开创了仅从氨基酸序列预测3D蛋白质结构的计算方法,以及基因组学和蛋白质组学的高级AI驱动方法,影响了无数后续研究。他是分子动力学(MD)模拟*2领域的领先人物,研究了蛋白质折叠和配体结合,在药物发现和设计中具有重要应用,在科学界广受认可。
VNM项目基于清水教授这样的先驱者的洞见,融合大规模人工智能和高性能计算(HPC),追求一个即使没有专业计算知识也能进行大规模数据分析和模拟的世界。今天,我们与他探讨了这种可能性和生物学研究的未来。
清水谦多郎(Shimizu Kentaro)
1938年出生。东京大学名誉教授。在后藤英一实验室为参数管计算机的开发做出贡献后,于1980年代初将研究重心转向生物信息学。作为利用机器学习进行蛋白质3D结构预测的先驱,以及通过分子动力学模拟研究蛋白质折叠和配体结合,他对药物发现和生物学理解产生了重大影响。
东京大学名誉教授清水谦多郎教授数十年来一直是计算生物学和生物信息学领域的领导者,从计算机科学转向生物学,走出了一条独特的道路。1960年代,他在后藤英一的实验室获得博士学位,参与了参数管*1计算机(一种早期的创新数字计算机)的开发。在机器学习尚未成为主流的时代,清水教授开创了仅从氨基酸序列预测3D蛋白质结构的计算方法,以及基因组学和蛋白质组学的高级AI驱动方法,影响了无数后续研究。他是分子动力学(MD)模拟*2领域的领先人物,研究了蛋白质折叠和配体结合,在药物发现和设计中具有重要应用,在科学界广受认可。
VNM项目基于清水教授这样的先驱者的洞见,融合大规模人工智能和高性能计算(HPC),追求一个即使没有专业计算知识也能进行大规模数据分析和模拟的世界。今天,我们与他探讨了这种可能性和生物学研究的未来。
从Parametron到生物信息学
大冢一辉(以下简称“大冢”)
在您开始研究生物信息学之前,我知道您曾专注于纯粹的计算机领域。当时,您主要关注哪些方面?
清水谦多郎教授(以下简称“清水”)
总之,当时我觉得编程特别有趣。我想大冢先生也有类似的体验:写程序时会让人感觉非常开心。如果那种程序是与计算机的底层紧密相关、或者涉及计算机核心深处的部分,就会更让我兴奋。
在那个时期,计算机资源已对大众相对开放,我对那些非单枪匹马就能完成、必须要协作才能运行的事物——例如分布式处理或协同运行的软件——非常感兴趣,后来进入生物领域也多少延续了这方面的工作。
举例来说,我曾做过一些在分布式环境中加速运行分子动力学(MD)*2模拟的研究,也发表过相关论文。
在那个时期,计算机资源已对大众相对开放,我对那些非单枪匹马就能完成、必须要协作才能运行的事物——例如分布式处理或协同运行的软件——非常感兴趣,后来进入生物领域也多少延续了这方面的工作。
举例来说,我曾做过一些在分布式环境中加速运行分子动力学(MD)*2模拟的研究,也发表过相关论文。
大冢
换句话说,您曾经从事自动化分布式处理方面的工作。考虑到那是上世纪90年代的事情,可以想见是相当超前的研究。
清水老师,您个人认为自己最具代表性的研究成果是哪一方面呢?
清水老师,您个人认为自己最具代表性的研究成果是哪一方面呢?
清水
可以这么说吧,在人工智能(AI)形成当下这样的热潮之前,我就一直在尝试利用机器学习等方法进行预测。进一步地,我也在思考如何让这些预测工具自动生成。
例如,我从事过从蛋白质序列来预测其结构或功能等相关软件的开发,这些就是典型的案例。
例如,我从事过从蛋白质序列来预测其结构或功能等相关软件的开发,这些就是典型的案例。
处理海量数据 —— 生物计算中的实际挑战
大冢
我想生物学数据往往体量很大。
清水
是的。我最近正好也在做一个从序列到结构的项目,数据规模非常庞大。主流数据库里也有一些无法通过程序直接下载的数据,如果想用网页接口批量获取,就会被限制或禁止,显然不能那样做。
于是只能想办法把数据放到本地,但这些数据的体量又极其庞大;因此,如何管理和使用这些海量数据就成为我们面临的一大难题。
于是只能想办法把数据放到本地,但这些数据的体量又极其庞大;因此,如何管理和使用这些海量数据就成为我们面临的一大难题。
大冢
数据大,自然会消耗大量时间,对吧?
清水
对,十分耗时。数据库网站虽有数据,但外部大批量高速访问并不容易。像这样的大规模数据,如果想快速处理或批量作业,就会发现远程访问速度跟不上——这点我刚才也深有体会。
大冢
这些数据大概有多大?是TB级别的吗?
清水
仅序列部分就已有数百GB,加上三维结构或分子动力学相关数据后,就会膨胀到TB级别。
大冢
如果有一台可以随时使用的超级计算机(超算),并配备几乎无限的存储空间,把数据常驻其中,随时调用并进行计算,应该会很理想吧?
清水
确实是这样。若有这样一种方便易用的环境,能够直接联网就更好了。
因为我们用到的数据本身是公开的,并不是从某个地方搬硬盘拷来的,如果能有一种方式让我们轻松地在本地就能访问和使用这些公开数据,那就非常理想了。
因为我们用到的数据本身是公开的,并不是从某个地方搬硬盘拷来的,如果能有一种方式让我们轻松地在本地就能访问和使用这些公开数据,那就非常理想了。
大冢
VNM的数据中心(Data Hub)想要提供一种在同一个本地网络环境下由服务器统一管理数据、减少本地下载和拷贝的机制。
我们还在思考把公开数据商业化的可能性,您觉得出售数据这种模式在现实层面可行吗?
我们还在思考把公开数据商业化的可能性,您觉得出售数据这种模式在现实层面可行吗?
清水
在过去,这种模式比较困难。但如果目标足够明确,比如专门面向某个特定研究或开发方向,倒也不是不可能。可能会需要通过TLO(技术转移机构)等机构的转介来实现。
便利性:为触及被搁置的“本质性问题”创造契机
大冢
我想很多人应该都有“真正想做的研究”,但因为各种原因,一直没有去实现。您觉得这样的情况有多普遍?
清水
拿MD(分子动力学)模拟来说,即便算力越来越强,要做到对所有状态进行全面模拟仍然不现实,因为这依赖抽样取样。如今AI也常被用来处理这部分问题,但有时会沦为“黑箱”,难以解释背后的机理。
如果能开发出既能进行预测,又能解释现象的模型,就能极大推进自然科学的发展。
如果能开发出既能进行预测,又能解释现象的模型,就能极大推进自然科学的发展。
大冢
如果只要最终结果就好,出答案当然很便利;但如果能看清其机制,对研究就更有帮助。
清水
MD基于物理定律,一步步地进行模拟,但若要解释耗时长的现象,直接用全原子模拟就无法及时得出结果。因此,需要更粗粒度的模拟手段,或在MD所生成的结构中找到更好的抽样方法,这在相关研究领域里是非常重要的课题,也有人在提出各式各样的新方法。
大冢
我之前和一些生物学家交流时,他们提到,用现有方法还能挖掘大量未被充分研究的领域,且发表论文也足以获得成果;此外,也有人致力于更深入的机理研究,这通常需要开发新的系统或工具。
换句话说,最终取决于个人想要解决的问题类型与研究者的思路。
换句话说,最终取决于个人想要解决的问题类型与研究者的思路。
清水
说得很对。
大冢
据说在一门学科里,如果有100名研究者,大概只有10人真正在意深层机理。假设一家机构有10人,那么全国可能有100人,全球可能就有1万人左右*3。
清水
其实,作为研究者,谁都希望能追求机理的真相,但现实中有时受限于科研经费等因素,不得不在有限周期内给出结果。所以往往没能投入足够时间深入到更深层次。
大冢
经费、经济实力等因素确实会产生影响。
清水
正如您所说,如果真的有这样一种软件或工具,稍微努力就能让我们看懂机理并进行解释,就很可能进一步激发研究的动力。在那种情况下,研究者会说:“这也许能说明点什么,让我们试试。”
大冢
如果花费的时间和精力能被进一步压缩,就可以在空余中尝试更多新的想法,您觉得这有可能吗?
清水
非常有可能,而且对科学进步很重要。
大冢
我想肯定有人心里一直有想做的点子,却因为各种原因而搁置。
清水
是的,这确实是个普遍难题。
大冢
如果能有一种机制,让这些长期被推后的本质性研究也能落地,那就太好了。
也就是对那些极具本质性、却往往被优先级放低的研究,提供一个可以实现在先的平台。
也就是对那些极具本质性、却往往被优先级放低的研究,提供一个可以实现在先的平台。
计算时间的缩短是发现的关键
大冢
关于HPC(高性能计算),您怎么看?
清水
我认为加快蛋白质或核酸的模拟速度就是一个最直接的例子。我们常想用模拟去探究蛋白质与其他分子如何相互作用、如何发生构象变化,但这需要较长时间的模拟与取样。如果能缩短模拟时间,就能大大提升我们的研究效率。
大冢
是什么原因导致这种模拟如此耗时?是因为矩阵规模过大,还是有什么固定瓶颈?
清水
主要是分子可能存在的状态组合太过庞大,我们需要对极大范围的状态进行相当广泛的取样。
大冢
也就是说需要在广阔的可能性空间里进行探索?
清水
是的。“分子对接(docking)”就是一个例子,我们想知道分子A和分子B会如何结合。
有时候,通过实验的晶体结构解析能确认两者确实结合在一起,但用纯粹的物理法则进行模拟,却未必能轻易搜索到那个结合构象。
一般来讲,如果能把MD运行得更久、更深入,结果的准确性就会提升;同时,如果能加快模拟速度,就可以使用更高精度的计算粒度。
当然,模型本身的粗糙度、抽象程度也是一方面。能否充分探索所有可能状态也很重要,而这又需要消耗大量时间才能“跑”到某个特定现象发生的时刻。
有时候,通过实验的晶体结构解析能确认两者确实结合在一起,但用纯粹的物理法则进行模拟,却未必能轻易搜索到那个结合构象。
一般来讲,如果能把MD运行得更久、更深入,结果的准确性就会提升;同时,如果能加快模拟速度,就可以使用更高精度的计算粒度。
当然,模型本身的粗糙度、抽象程度也是一方面。能否充分探索所有可能状态也很重要,而这又需要消耗大量时间才能“跑”到某个特定现象发生的时刻。
“专业分化”与“通用化模型”
大冢
和不同行业、不同学科的专家交流后我发现,并不是所有人都喜欢或擅长用数学公式和计算机来研究问题。
我察觉到一个现象:有些人专注于“计算机内部”,有些人更偏向“计算机外部”,也有一些居于中间。而在这些差异当中,似乎蕴含着许多尚未被探索的可能性。
我察觉到一个现象:有些人专注于“计算机内部”,有些人更偏向“计算机外部”,也有一些居于中间。而在这些差异当中,似乎蕴含着许多尚未被探索的可能性。
清水
确实如此。如今情况也在慢慢变化,人和人差异很大。不过在早期,我到农学部等地方时,经常见到这样的情况:科研人员会不断做实验,聚焦于“这条蛋白质、那个基因”之类非常细分的领域,并深入研究;对于去做模型化或普适化的研究,他们不一定有兴趣。
在他们看来,“既然有实际实验数据,为什么要用一个还不够精准(参数不完全确定)的模型?” 他们会觉得那样不够严谨。
在他们看来,“既然有实际实验数据,为什么要用一个还不够精准(参数不完全确定)的模型?” 他们会觉得那样不够严谨。
大冢
对于“参数不够精准”的质疑,您一般怎么回应呢?
清水
生物信息学这些年也在不断提高预测精度。即便只是一个临时的模型,若能在一定程度上解释实际现象,它就能作为一种假设存在,这本身就很有意义。
况且,如果之后做了更多更精细的实验,一旦有了新的数据,也能把它带回模型进行验证,若能持续修正并解释新的结果,模型就具有了更大价值。
因此,从实验数据到模型,再从模型反哺预测与验证,这种循环是非常重要的。
况且,如果之后做了更多更精细的实验,一旦有了新的数据,也能把它带回模型进行验证,若能持续修正并解释新的结果,模型就具有了更大价值。
因此,从实验数据到模型,再从模型反哺预测与验证,这种循环是非常重要的。
大冢
并不是说做了实验就一定要去建模。然而,一旦有了模型,就有了可预测性。
清水
对,能进行预测,就可以做模拟,并且可以进行解释和验证。
其实每个人研究的对象都不太一样,可能是某个特定蛋白质,但在研究深入时,就会希望理解它背后的机理。
其实每个人研究的对象都不太一样,可能是某个特定蛋白质,但在研究深入时,就会希望理解它背后的机理。
大冢
换言之,更多人解决的是个别具体问题,但想要建立更通用的模型的人只是少数。
清水
正是如此。而且在做通用化时,大家对参数和模型精度的要求也会非常苛刻。比如AUC-ROC曲线下的面积(AUC)经常用来衡量精度。某些领域里,若能达到0.9我们就觉得不错了,但有些学者却会说:“为什么不是1.0?” 如果不是1.0就不够完美,似乎无法当作科学依据来推进研究。
VN Machine的思路,交互式定制软件
大冢
美国有一家名为Rescale的公司,他们面向企业提供科研仿真和HPC云服务,号称集成了几乎所有主流仿真软件,用户在云端就能一键运行。
而对于像MD这类已非常成熟的工具,我认为直接用它们就好,无意去和它们竞争。相反,我觉得那些现有软件尚未满足的需求才是新的机会所在。
而对于像MD这类已非常成熟的工具,我认为直接用它们就好,无意去和它们竞争。相反,我觉得那些现有软件尚未满足的需求才是新的机会所在。
清水
总结一下,您说的这些我都非常认同。
就蛋白质运动而言,存在不同结构域(domain),如果它们之间通过一个柔性的连接区(linker)连接,就很难被AlphaFold这类工具很好地预测;尤其是结构域之间的灵活性,仍是很多研究关注的重点。如果能有一款突破性的工具来解决这些问题,必将带来极大价值。从结构域到分子链水平,如何理解蛋白质结构的运动及其相互作用是非常有需求的。
就蛋白质运动而言,存在不同结构域(domain),如果它们之间通过一个柔性的连接区(linker)连接,就很难被AlphaFold这类工具很好地预测;尤其是结构域之间的灵活性,仍是很多研究关注的重点。如果能有一款突破性的工具来解决这些问题,必将带来极大价值。从结构域到分子链水平,如何理解蛋白质结构的运动及其相互作用是非常有需求的。
大冢
今天非常感谢您分享了宝贵的见解。您对计算机科学和生物学的深刻理解对我们有极大的帮助。期待未来继续向您请教。
清水
我也非常期待今后能继续交流,谢谢。
*1 Parametron(参数元)是一种逻辑元件,由后藤英一于1954年在当时的东京大学理学院读研期间发明。该元件通过显著减少真空管或晶体管用量来构建计算机,在当时被用于建造了多台基于Parametron的计算机。到20世纪60年代,这些计算机逐渐被晶体管技术取代。但后来在各种物理系统中又相继实现了相同原理的参数元,尤其在2010年代后,从开发量子计算机的角度出发,基于Parametron的研究再次受到关注。(来源:维基百科)
*2 MD(分子动力学)模拟是一种逐步追踪分子物理相互作用,以预测蛋白质、核酸等分子动态的方法。
与静态3D结构预测(如AlphaFold)不同,MD方法能更直接地模拟分子在时间维度上的演化,因而常被用于药物设计中对小分子配体结合过程的研究。
*3 据推算,全球研究者总数(各领域)约为880万人,其中生物学、医疗与生命科学方向的研究者在论文产出量上约占36%。在此基础上,如果再考虑NIH(美国国立卫生研究院)支持的基础研究PI就达2.7万余人,由此推断“以机理阐释为主”的研究者数量远不止数万人,实际规模或达数十万乃至更多。
(数据参考:联合国教科文组织及各国科研统计、美国NSF等报告)
*2 MD(分子动力学)模拟是一种逐步追踪分子物理相互作用,以预测蛋白质、核酸等分子动态的方法。
与静态3D结构预测(如AlphaFold)不同,MD方法能更直接地模拟分子在时间维度上的演化,因而常被用于药物设计中对小分子配体结合过程的研究。
*3 据推算,全球研究者总数(各领域)约为880万人,其中生物学、医疗与生命科学方向的研究者在论文产出量上约占36%。在此基础上,如果再考虑NIH(美国国立卫生研究院)支持的基础研究PI就达2.7万余人,由此推断“以机理阐释为主”的研究者数量远不止数万人,实际规模或达数十万乃至更多。
(数据参考:联合国教科文组织及各国科研统计、美国NSF等报告)

1938年出生。东京大学名誉教授。在后藤英一实验室为参数管计算机的开发做出贡献后,于1980年代初将研究重心转向生物信息学。作为利用机器学习进行蛋白质3D结构预测的先驱,以及通过分子动力学模拟研究蛋白质折叠和配体结合,他对药物发现和生物学理解产生了重大影响。