<<

アドバイザーインタビュー: AI×HPCで深化する生物学計算のパラダイム─パラメトロンからバイオインフォマティクスへ 清水謙多郎教授インタビュー

2025年3月15日

清水謙多郎 東京大学名誉教授

生物学研究は、巨大なデータと複雑な計算という高い壁に直面しています。遺伝子配列やタンパク質の予測や原理の解明には、膨大な時間を要するシミュレーションや専門的なソフト開発が不可欠ですが、それらを扱える研究者は限られています。
こうした障壁を打破し、人類の進歩を加速する未来
を目指して、VN Machineプロジェクトが始動しました。本日お話しを伺うのは、アドバイザーの清水謙多郎教授です。

東京大学名誉教授の清水謙多郎教授は、計算生物学とバイオインフォマティクスの分野で長年にわたり活躍されてきたリーダーで、コンピューターサイエンスから生物学への移行というユニークな道筋を描かれてきました。
1960年代、後藤英一の研究室で博士号を取得され、パラメトロン*1コンピューター(
初期の革新的なデジタルコンピューターの一つ)の開発に携わりました。
清水教授は機械学習がまだ主流でなかった時代に、アミノ酸配列のみから3Dタンパク質構造を予測する計算手法や、ゲノム、プロテオミクスへの高度なAI駆動型手法を開発するなど、後の多くの研究に影響を与える革新的な手法を開発されてきました。分子動力学(MD)シミュレーション*2の分野でも第一人者であり、タンパク質の折り畳みやリガンド結合を研究され、薬物発見や設計に重要な応用を持ち、科学界で広く認識されています。

VNMプロジェクトは、清水教授のような先駆者の知見を基に、大規模AIとHPC(ハイパフォーマンスコンピューティング)を融合させ、コンピューティングの専門知識がなくても大規模データ解析やシミュレーションを可能にする世界を追求しています。本日は、その可能性と生物学研究の未来について、伺いました。
パラメトロンからバイオインフォマティクスへ
大塚一輝(以下、大塚) バイオインフォマティクスをやられる前はコンピューターを純粋に追求されていたと思いますが、その時はどういう関心だったんでしょうか?
清水謙多郎教授(以下、清水) 楽しかったですね、とにかく。おそらく大塚さんもそういうとこあると思うんですけど、プログラムを書いているときってすごくハッピーだし、それが低レベルというか、コンピューターの深部に関わってくるソフトであればあるほど、嬉しいですね。
当時はコンピューターリソースが一般の人にアベイラブルな状況で、何か単独や少数ではできないもの、協調して動くもの、つまり分散処理や協調するソフトウェアみたいなものを作ることにはものすごく興味があって、それは生物の分野に入っても少しやっていました。
生物、例えばMD(分子動力学)シミュレーション*2を速く分散環境で動かすということで、論文も出したこともあります。
大塚 ある意味、分散処理を自動化するようなことですね。それが90年代だったことを思うとかなり先駆的だったと想像します。
清水先生にとって一番代表的な仕事だと思われている仕事は何でしょうか?
清水 そうですね、AIが今みたいにブームになる前から、機械学習とかそういったものを使って予測するということですね。さらに予測ツールの自動生成とか。
例えば、タンパク質の配列から構造を予測したり、機能を予測したりするソフトの開発とかですね。
巨大なデータを処理する - 生物学的計算における実際的な課題
大塚 生物学データはデータサイズが大きいのではと思います。
清水 はい、今もちょうどやっていたのは、配列から構造になっているんですけれども、データがものすごいんですね。メジャーなデータベースでも、プログラムからダウンロードできないものがある。だからといってウェブインターフェースを介して大量にやるとアウトになる。アクセスをそんな風にして大量にやってはいけないので。
じゃあどうするかというと、ローカルに持ってくるんですけど、データ量がすごい大きくて、だからそういう大きなデータをどうやって扱うかということで苦労しています。
大塚 データが大きいと時間も食いますしね。
清水 食いますよね。データベースのサイトにあって、それが外から早くアクセスできればいいんだけど、ああいうデータを大量に早く回したいとか、処理を回したいとかっていうのはできにくいなっていうのをさっきも痛感していたんです。
大塚 どのくらいのサイズですかね? 何テラとかですかね?
清水 配列部分だけで数百ギガ、3D構造や動的構造データを加えるとテラに膨れあがります。
大塚 いつも常時使えるスパコンみたいものがあって、そのストレージがほとんど無尽蔵に保管できて、そこに置いておいて、必要な時にアクセスして計算するようなやり方が一番やりやすいんじゃないかって個人的には思ってるんですけど。
清水 思います。本当にそう思いますね。そういう環境がもっと簡単に手に入るといいですよね、おそらく。本当にそうですね。あとそれがネットとつながっているということが結構大事だったりする。
つまり、私たちが配置しているデータは、どこかからハードディスクを持ってくるというよりは、公開されていますよね。公開されているデータを何らかの手段で容易にローカルな感じで使えたらすごくいいなと。
大塚 VNMのデータハブは、同じローカルネットワークにあるサーバーから共通でアクセスできる、ダウンロードとハードコピーをなるべく減らせる仕組みが作れないかと考えています。
さらに公開したデータを収益化する仕組みを検討しており、販売することは現実的にできると思われますか?
清水 以前はそれが難しかったんですけれども、目的を特化して、例えば何とかの研究開発に特化したような形でっていうのはできると思います。TLOとかああいう仕組みを介す必要はあると思います。
手軽さは、後回しにされるメカニズムの解明に手を伸ばすきっかけになる
大塚 みんなもっと本当はこんなことをしたいというアイディアがあるのに、できていないということがどれだけあると思われますか。
清水 MD(分子動力学)シミュレーションは、いくら計算パワーが上がってきているとしても、全ての状態を網羅的に計算することは現実的ではなく、サンプリングに依存しています。そこで結構AIが使われているんですけれど、かなりブラックボックスになっている。
ですから現象を説明できるようなことができれば、自然科学の発展につながると思います。
大塚 答えがポンと出て、単に結果が使える、というのでなく、メカニズムがわかる形で計算できると。
清水 MDは物理法則に基づいて1ステップ1ステップやるんですけれども、時間がかかる現象を説明するには、そのままでは計算が追いつかない。もう少し大きな粒度で現象に近づいていく。あるいはMDが生成する構造をいかにサンプリングするかが重要でいろいろな手法が提案されています。
大塚 先ほど生物学者の方と話していて、既存の方法を使ってまだ調べきれていないことを調べるという仕事がまだたくさん残っているから、それをやる人が結構一定数いて、業績も作れる。そういう人たちとは別に、そもそものメカニズムを調べたりする人たちがいて、多分後者の方で新しいシステムを書いたりとか、そういう必然性がある気がしてきているんです。
つまり結局人間の発想に依存するというか、人間が解きたい問題の種類に依存するというか、そういう感じがしてきているんですよね。
清水 それすごく大事な視点だと思いますね。そうですよね。
大塚 だとしたらその人たちがどれくらい存在するのか、なのですが、大体100人いたら10人ぐらいじゃないかと言われました。一つの分野で一つの機関に10人いたら日本全体で100人いて、日本に100人いたら世界に1万人いることになります。*3
清水 研究者なので、メカニズムを調べたいという欲求はみんなあると思います。ただ、限られた期間で結果が求められる研究予算が多く、時間をかけて追究するところまでなかなかいかないこともある。
大塚 経済的な力とかいろいろな要因はありそうですよね。
清水 だからまさに大塚さんが言われているような、何かソフトがあって、もうちょっと頑張ればわかってくれるとか、説明できる、とかっていうことがあれば、ぜひやってみようということになるかもしれない
大塚 時間とそこまで手間がかからないような道具があれば、空いた時間でやるとか、そういうケースはありそうでしょうか。
清水 ありそうですね。本当にあると思います。サイエンスの進歩にとっても重要だと思います。
大塚 ずっと温めていたアイディアがあって、でもできていないものとかが、結構ある人はあるんじゃないかなと思っています。
清水 そうですね、そこは本当に大きな問題だと思います。
大塚 そういうものが実現できるようになる仕組みができたら、良いと思っています。
本質的だけど、本質的だからこそ後回しになってしまうようなものを実行できる仕組みです。
計算時間の短縮が発見の鍵
大塚 HPC(ハイパフォーマンスコンピューティング)についてはどうでしょうか。
清水 やはりタンパク質や核酸のシミュレーションは速くできるとよい例だと思います。タンパク質が他の分子とどのように相互作用するか、どのように構造変化するかをシミュレーションで確かめたいというときに、かなり長時間のシミュレーション、あるいはサンプリングをしなきゃいけないので、それを速くできたらどんなにいいかと思います
大塚 実際にそれは行列が大きすぎて遅いとか、時間がかかる理由は大体決まっているんですか。
清水 やはり分子の、取りうるパターンが非常に膨大で、そこを網羅的にかなり広範囲にサンプリングすることが難しい
大塚 探索すべき組み合わせが非常に多いということですね。
清水 そうですね。「ドッキング」というものがあるんですけど、Aという分子とBという分子でどういうふうにくっつくかというのを探るんですね。
実験で結晶構造を解析すると、確かにそこに結合しているのがわかっているのに、物理法則ベースのシミュレーションでなかなか出てこない構造があります。
一般的にはMDをもっと長時間実行すれば今よりも良い結果が得られるというのは広く認識されている。だから先ほどアクセラレーターとかで加速・高速化できたら、計算の粒度を細かくしていくと精度が上がる
モデルの粗さもあるかもしれません。でも、探索が十分できるかどうか、実行時間も大事です。時間をかけていろんなところに到達できるように回していって、あるところで何か現象が起きたというタイミングがどこかで来るというわけです。
「分化する専門」対「一般化モデル」
大塚 様々な科学分野の専門家の方と話していて、みんながみんな必ずしも数式や計算することが好きではないということが、わかってきました。
コンピューターの外の人、コンピューターの中にいる人、その間にいる人、
その違いの中に、未開の、様々な可能性がある気がしています。
清水 今はだいぶ様子が変わっていて、人によっても違ってきていますが。当初は、私が生物の方、例えば農学部とかで話を伺っていると、実験を積み重ねて、「このタンパク質とかこの遺伝子とか」というふうに、かなり専門が分化している。そこを深く探求しようとしているので、モデル化や一般化というところにどこまで興味があるかというと、みんながみんなじゃないというのは仰る通りじゃないかと。
そういう方々からすると「実験で一つ一つ実際のデータが出ているのに、適当にパラメータを決めて論じるのは、良くない」というような見方をされていました。
大塚 今の「適当にパラメータを決めて」という指摘に対してどのようにお答えになりますか?
清水 インフォマティクスの方も精度を上げてきていて、仮にでも実体の現象が説明できるようなモデルがあったときに、それを仮説として考えることができるという、それ自体に意味があると思います。
それから今後も、実験を積み重ねてより精密なデータが出てきたときに、そのモデルに当てはめて、それを説明できるということにつながっていけば大事なことじゃないかと
大塚 実験をするからといって、必ずしもその先にモデルを作るわけではないということですね。
モデルを作れるということは予測ができるということにもなりますよね。
清水 そうそう、予測ができる。それがシミュレーションする、つまり説明できて、実際にその先の現象が予測できるということになると思いますので。
やはりそれぞれ、今対象としているタンパク質の現象に対して解明しようという動機がある。
大塚 個別の問題は解くけど、一般化するモデルを作るという方向には、一部の人しかそこまでやらないということですね。
清水 まさにそうですね。それから、一般化するときにパラメーターの信頼性とか、そういったことに対して非常に厳しいということがある。例えば、私も実際にびっくりしたのは、例えばAUC-ROCカーブで下の面積で精度を表したりしますよね。普通、あれが例えば0.9くらいだったらかなり頑張ったというのは分野にもよりますけれども、「なぜ1じゃないんだ」と。それじゃサイエンスとして進めていけないんじゃないかというようなことを言われたことがあります。
VN Machineのアプローチ、カスタムソフトを対話的に作る
大塚 米国で主に企業向けのリサーチHPCクラウドで最近巨額の資金調達をしたRescaleという会社があって、トップソフトをものすごい種類取り揃えて、それをクラウドの上で動かすというサービスをしています。
MDソフトのような既に完成されたものはそれを使えばいいと思っていて、そういうものとは基本的には対抗しないというか、既存のソフトで満たしきれないニーズに新たな可能性があると思っています。
清水 今まとめてくださったことは確かにそうだと思います。
タンパク質の動きでもドメインという大きな塊があるんですけど、その間の位置関係はアルファフォールドでもなかなかうまく予測できないんですよね、とくにフレキシブルなリンカでつながっているとき。ですから、そういうドメインがどういうふうに動くかが、実際研究対象にもなっている。もし何かそのブレイクスルー的なソフトができたら、本当に役に立つと思います。ドメインレベル、チェインレベルで、タンパク質の構造がどのように動くのか、相互作用するのか。実際にそういう需要はあるとおもいます。
大塚 本日は大変貴重なお話をありがとうございました。コンピューティングと生物学双方への深い知見をお聞きすることができ、本当に参考になりました。今後ともぜひよろしくお願いいたします。
清水 こちらこそ、引き続きよろしくお願いします。
*1 パラメトロン(parametron)は1954年に当時東京大学大学院理学部の大学院生であった後藤英一が発明した論理素子。真空管やトランジスタの使用量を大幅に削減してコンピューターを構成できるとして、当時多数のパラメトロン式コンピューターが建造された。1960年代にはトランジスタにほぼ置き換えられたが、その後、同じ原理のパラメトロンが様々な物理系で実現されるようになり、2010年代以降、パラメトロンを用いた量子コンピューターの開発と言う観点からも再び注目されるようになった。(出典:Wikipedia)

*2 MD(分子動力学)シミュレーションは、分子の物理的相互作用をステップごとに追跡して、タンパク質や核酸などの動態を予測する方法。
関連するシステムとして、AlphaFoldは静的な3D構造予測を得意とするが、時間発展(ダイナミクス)までは直接考慮しない。そのため、創薬の初期仮説構築には有用だが、リガンド結合や分子運動を追うには、物理法則に基づくMDシミュレーションが必要となる。

*3 世界全体の研究者数(全分野)は約8.8 百万人と推計されており、そのうち生物学や医療・生命科学分野が占める割合は論文数ベースで約36%とされる。1万人というラフな推定は、実際の研究者規模からするとかなり控えめな見積もりで、実際にはNIHが2万7千人以上の基礎研究PIを支援している例なども考慮すると、「基礎的メカニズムの解明」を主眼とする研究者のみでも数万~数十万人を大きく超える規模に上ると推測される。
(出典:UNESCOや各国統計、NSFなどの研究者人口・論文数に関する報告を参照)
清水謙多郎(しみず・けんたろう)
1938年生まれ。東京大学名誉教授。後藤英一研究室でパラメトロンコンピューターの開発に貢献ののち、1980年代初頭にバイオインフォマティクスに主軸を移し、機械学習を用いたタンパク質3D構造予測の先駆者として、また分子動力学シミュレーションによるタンパク質折り畳みとリガンド結合の研究で、創薬や生物学の理解に大きな影響を与える。