<<

Интервью с советником: Парадигма вычислительной биологии, углубленная ИИ и HPC — от параметрона к биоинформатике, интервью с профессором Кентаро Симидзу

15 марта 2025 года

Кентаро Симидзу, почетный профессор Токийского университета

Биологические исследования сталкиваются с огромными проблемами массивных данных и сложных вычислений. Предсказание генетических последовательностей, структур белков или раскрытие их принципов требует длительных симуляций и разработки специализированного программного обеспечения, но исследователей, способных справиться с этим, мало. Чтобы преодолеть эти барьеры и ускорить прогресс человечества, был запущен проект VN Machine. Сегодня мы беседуем с профессором Кентаро Симидзу, советником проекта.

Профессор Кентаро Симидзу, почетный профессор Токийского университета, на протяжении десятилетий является лидером в области вычислительной биологии и биоинформатики, проложив уникальный путь от компьютерных наук к биологии. В 1960-х годах он получил докторскую степень в лаборатории Эйити Гото, участвуя в разработке компьютера на параметронах*1, одного из первых инновационных цифровых компьютеров. В эпоху, когда машинное обучение еще не было мейнстримом, профессор Симидзу разработал новаторские вычислительные методы для предсказания 3D-структур белков только на основе аминокислотных последовательностей, а также передовые методы, управляемые ИИ, для геномики и протеомики, оказав влияние на множество последующих исследований. Ведущий специалист в области молекулярной динамики (MD) симуляций*2, он изучал сворачивание белков и связывание лигандов, что имеет значительные применения в открытии и разработке лекарств, получив широкое признание в научном сообществе.

Проект VNM опирается на знания таких первопроходцев, как профессор Симидзу, объединяя крупномасштабный ИИ с высокопроизводительными вычислениями (HPC), чтобы создать мир, где анализ больших данных и симуляции доступны даже без специализированных знаний в области вычислений. Сегодня мы обсуждаем с ним возможности и будущее биологических исследований.
От параметронов к биоинформатике
Кадзуки Оцука (далее — Оцука) Прежде чем вы занялись биоинформатикой, вы, насколько я понимаю, глубоко исследовали вычислительную технику. Какой интерес у вас был в то время?
Профессор Кэнтаро Симизу (далее — Симизу) Это было очень весело, в любом случае. Предполагаю, что и у вас, Оцука-сан, есть похожие ощущения: когда пишешь программу, чувствуешь себя невероятно счастливым, и чем глубже она затрагивает фундаментальные аспекты компьютера, тем радостнее.
В то время вычислительные ресурсы стали доступны более широкому кругу людей, и меня очень интересовало создание чего-то такого, что одному человеку или небольшой группе не под силу, то есть распределённой или совместной обработки — своего рода кооперативного программного обеспечения. В биологической области я тоже продолжил эту тему.
Например, я занимался ускорением MD (молекулярно-динамических) симуляций*2 в распределённых средах и даже публиковал статьи на эту тему.
Оцука В некотором смысле, это автоматизация распределённой обработки. Если представить, что это было в 90-х, тогда вы заметно опережали время.
Какую свою работу вы считаете наиболее значимой?
Симизу Думаю, речь идёт о том, что я задействовал машинное обучение и подобные методы ещё до того, как начался нынешний бум вокруг ИИ, чтобы заниматься предсказаниями. Причём я стремился к автоматической генерации таких предсказательных инструментов.
Например, писал программы, которые по аминокислотной последовательности белка могут предсказать его структуру и функцию.
Обработка колоссальных данных — практические задачи вычислительной биологии
Оцука В биологии объёмы данных, вероятно, очень большие?
Симизу Да, и совсем недавно у меня была задача, связанная с переходом от последовательностей к структурам — там колоссальные объёмы данных. В некоторых крупных базах невозможно загрузить всё напрямую программно. Но если массово запрашивать данные через веб-интерфейс, легко получить отказ: такой доступ запрещён.
Тогда что делать? Скачиваем всё локально, но объём огромный, и остаётся только искать способы эффективно с этим работать.
Оцука Большие данные требуют и больших временных затрат на обработку.
Симизу Именно. Было бы здорово, если бы те базы данных позволяли быстро и массово «прокручивать» запросы извне, но такая высокопроизводительная массовая работа с их сайтами часто невозможна, и я сейчас сам это на себе ощутил.
Оцука О каких примерно объёмах идёт речь? Несколько терабайт?
Симизу Одна только часть, содержащая последовательности, может занимать сотни гигабайт. Если добавить 3D-структуры или динамические данные, выходим на терабайты.
Оцука Лично мне кажется самым удобным иметь постоянный доступ к какому-то суперкомпьютеру с практически неограниченным хранилищем — чтобы там хранить все эти данные и при необходимости запускать на них вычисления прямо на месте.
Симизу Полностью согласен, я тоже так считаю. И хорошо бы, чтобы всё это было легко доступно. Кроме того, важно, чтобы оно было подключено к сети.
Ведь наши данные обычно берутся не с физического носителя, а из общедоступных источников. Если бы существовал простой способ использовать общедоступные данные как будто они локальные, это было бы невероятно удобно.
Оцука Мы в VNM думаем о «центре данных», где одна и та же база в локальной сети доступна всем, что сокращает скачивания и передачу на внешних носителях.
Также мы рассматриваем возможность монетизации и продажи общедоступных данных. Как вы считаете, это реально?
Симизу Раньше такое было непросто организовать, но если ограничить сферу конкретными задачами — например, для некоторых отраслевых исследований и разработок — то да, это может сработать. Вероятно, потребуется какой-то механизм вроде TLO (организация по передаче технологий).
Лёгкость доступа как стимул к исследованиям механизмов, которые обычно откладывают «на потом»
Оцука Как вы думаете, много ли людей на самом деле хотят заняться чем-то новым, но пока не могут из-за отсутствия подходящих инструментов или ресурсов?
Симизу Если говорить о MD (молекулярно-динамических) симуляциях, то, хотя вычислительная мощь действительно растёт, невозможно перебрать все состояния, и важнейшую роль играет стратегия выборки. Сейчас очень много применяют ИИ, но он пока работает как «чёрный ящик».
Если бы мы могли объяснять наблюдаемые явления, это принесло бы огромную пользу всей естественнонаучной области.
Оцука Не просто получать готовые ответы, но понимать заложенные механизмы.
Симизу Да, в MD мы шаг за шагом следим за межмолекулярными взаимодействиями, исходя из физических законов. Но для объяснения медленных процессов такой пошаговый подход может быть слишком затратен. Нужно повышать уровень укрупнения модели или придумывать метод, как выбирать различные состояния, возникающие в MD. Есть немало предложенных методов.
Оцука Недавно я разговаривал с биологами, и они сказали: много всего ещё можно понять и старыми методами, то есть есть множество вопросов, которые можно решать, публиковать статьи и писать диссертации. А есть и такие люди, что углубляются в механизмы и пытаются строить новые системы или писать новое ПО. Кажется, всё зависит от того, какую задачу ставит исследователь.
Фактически, всё упирается в человеческие идеи и в то, что именно хочется изучить.
Симизу Согласен, это очень важный момент.
Оцука Сколько вообще таких исследователей, которые стремятся именно к фундаментальным объяснениям, — я слышал, что процентов 10 на сотню. Если так, то в масштабах одной страны это сотни, а в масштабе мира — уже тысячи, а может, и десятки тысяч.*3
Симизу У каждого исследователя есть стремление объяснить механизмы, но заказчики или гранты часто требуют результатов в ограниченные сроки, и на углублённое изучение механики может не хватить времени.
Оцука На это влияют и экономические факторы, и многое другое.
Симизу Вот именно. Если бы существовали инструменты, позволяющие, чуть-чуть поработав, понять и объяснить явление, многие бы охотно занялись этим.
Оцука Если бы не требовалось уйма времени и сил, некоторые могли бы заняться этим хоть в свободное время.
Симизу Да, наверняка. Это очень важно для продвижения науки.
Оцука Думаю, у многих есть идеи, которые они давно вынашивают, но пока не берутся за них.
Симизу Согласен, это действительно большая проблема.
Оцука Хотелось бы создать систему, которая позволит такие идеи осуществлять.
То, что в сущности важно, зачастую откладывают «на потом». Нужен механизм, чтобы это «потом» всё-таки наступило.
Сокращение времени расчётов как ключ к открытиям
Оцука Что скажете о высокопроизводительных вычислениях (HPC)?
Симизу Хорошим примером служат модели белков и нуклеиновых кислот. Когда мы хотим узнать, как белок взаимодействует с другими молекулами или как меняется его структура, нам нужно долгое моделирование или массивная выборка состояний, и если бы это можно было сделать быстрее, это было бы здорово.
Оцука То есть большая размерность уравнений или огромное число комбинаций — вот что замедляет расчёт?
Симизу Да, дело в том, что у молекул просто колоссальное число возможных конфигураций, и покрыть все их варианты чрезвычайно сложно.
Оцука Значит, нужно перебрать огромное пространство вариантов?
Симизу Именно. Есть метод «докинг», когда мы смотрим, как две молекулы A и B подходят друг к другу.
Порой экспериментальная рентгеноструктура ясно показывает конкретное место связывания, а физическое моделирование почему-то не выдаёт такого результата.
Считается, что если бы мы продлили MD ещё дольше, то, скорее всего, получили бы более точные результаты, а если бы была возможность ускорять этот процесс, то можно было бы ещё сильнее уточнять расчёты.
Возможно, дело и в неточности самого приближения, но роль времени симуляции очень велика. Часто нужно долго гонять MD, пока не «увидишь», как система приходит в нужное состояние.
«Раздробленная специализация» vs «обобщающие модели»
Оцука В беседах с исследователями из разных дисциплин я замечаю, что не все любят математику или моделирование. Есть люди «вне компьютера», люди «внутри компьютера» и «посередине».
Возможно, в этой разнице и кроются невостребованные пока потенциальные идеи.
Симизу Сейчас многое меняется, и всё зависит от конкретных людей. Но, например, раньше, когда я работал с учёными из сферы агрономии, там подход был более узконаправленным: сосредоточиться на конкретном белке или гене, экспериментально отслеживать результаты и погружаться всё глубже. Для них моделирование или обобщение могли казаться второстепенными.
Иногда звучала такая критика: «Если у нас есть реальные экспериментальные данные, разве не неправильно полагаться на какую-то модель с выбранными «случайными» параметрами?»
Оцука Что вы отвечали на упрёки о «случайных параметрах»?
Симизу В области информатики мы стараемся повышать точность методов, и даже если модель сначала упрощённая, она сама по себе может служить гипотезой, имеющей ценность.
Позже, когда накопятся более детальные экспериментальные данные, их можно подставить в модель, улучшить её и выйти на более глубокое понимание.
Оцука Получается, хоть люди и делают эксперименты, не все хотят формировать по их результатам модели.
Но наличие модели даёт возможность предсказывать явления, верно?
Симизу Да, модель позволяет сделать предсказание. То есть если мы что-то смоделировали и поняли, как это работает, мы можем предсказать дальнейшее развитие событий.
В итоге у каждого своя задача: кто-то хочет исследовать конкретный белок, кто-то стремится к выяснению общих закономерностей.
Оцука Похоже, что решением частных задач занимаются многие, а моделированием на более общем уровне — меньше людей.
Симизу Верно. Более того, когда речь идёт об обобщении, возникает сомнение в надёжности параметров. Например, меня однажды спросили: «Если AUC-ROC-кривая даёт 0.9, то почему не 1.0? Значит, это недостойно доверия с научной точки зрения». В нашей области 0.9 считается очень хорошим результатом, но у некоторых учёных подход строгий: «либо 1.0, либо это не наука».
Подход VN Machine: интерактивное создание кастомного ПО
Оцука В США есть компания Rescale, которая создаёт облачный сервис HPC для корпоративных клиентов, недавно привлекла огромные инвестиции. У них множество готовых пакетов для инженерных расчётов и т. д. Всё это запускается в облаке.
Имея дело с уже известными решениями — например, софт для MD — мы видим, что они покрывают классические задачи, и конкурировать лоб в лоб с ними смысла нет. Нас больше интересуют сценарии, которые пока не закрыты существующими программами.
Симизу Да, согласен, вы хорошо это резюмировали.
Например, когда речь идёт о крупной структурной единице белка («домене»), соединённой гибким «линкером» — даже Alphafold не всегда точно предсказывает эту динамику. Но для многих это крайне важно. Если бы появилось новое прорывное решение, оно было бы действительно востребованным.
Оцука Спасибо вам огромное за столь содержательный разговор. Было очень интересно услышать ваше мнение, основанное на глубоком понимании и компьютеров, и биологии. Надеюсь на дальнейшее сотрудничество!
Симизу И вам спасибо. Буду рад продолжить общение.
*1 Параметрон (parametron) — это логический элемент, изобретённый в 1954 году аспирантом физического факультета Токийского университета Эйити Гото. Он позволял строить компьютер, используя гораздо меньше электронных ламп и транзисторов, поэтому в своё время было создано немало параметронных ЭВМ. В 1960-е годы их почти полностью вытеснили транзисторные схемы. Однако впоследствии похожие принципы воспроизводились и в других физических системах, а начиная с 2010-х снова возрос интерес к параметронам в контексте квантовых вычислений. (Источник: Wikipedia)

*2 MD (молекулярно-динамическое) моделирование — это пошаговый анализ взаимодействий между молекулами, позволяющий предсказывать динамическое поведение белков, нуклеиновых кислот и пр.
AlphaFold даёт статический предикт 3D-структуры и не рассматривает прямо её эволюцию во времени. Поэтому, хотя в разработке лекарств AlphaFold на начальном этапе даёт хороший базис, вопросы лиганд-связывания и реальной динамики всё ещё требуют MD-симуляций, основанных на физических законах.

*3 По данным UNESCO, NSF и других источников, общее количество исследователей во всех областях в мире превышает 8,8 млн человек, около 36% научных статей приходится на биологию, медицину и науки о жизни. Оценка в 10 тысяч специалистов, увлечённых фундаментальными механизмами, — это очень скромная цифра. К примеру, NIH (Национальный институт здоровья США) финансирует свыше 27 тысяч учёных, занимающихся фундаментальными исследованиями, так что реальное число исследователей, сосредоточенных на «механизмах в основе явлений», может быть значительно больше — десятки и сотни тысяч.
Кентаро Симидзу (Shimizu Kentaro)
Родился в 1938 году. Почетный профессор Токийского университета. После участия в разработке компьютера на параметронах в лаборатории Эйити Гото он переключил свое внимание на биоинформатику в начале 1980-х годов. Как пионер в предсказании 3D-структур белков с использованием машинного обучения и через симуляции молекулярной динамики сворачивания белков и связывания лигандов, он оказал значительное влияние на открытие лекарств и понимание биологии.