NVIDIA помогает создавать лекарства, которые ещё не существуют, но уже работают
NewsMakerТеперь лекарство может быть предсказано без лабораторий — это звучит опасно и вдохновляюще.
Компания SandboxAQ, основанная выходцами из Google и поддерживаемая NVIDIA, представила новый открытый набор данных, который может существенно изменить процесс разработки лекарств на ранних стадиях. Речь идёт о массивной базе SAIR (Structurally Augmented IC50 Repository), включающей более 5,2 миллиона пар «молекула — белок» в виде синтетически сгенерированных трёхмерных структур с привязкой к реальным данным об эффективности взаимодействия.
Цель проекта — преодолеть одно из самых ресурсоёмких узких мест в фармакологии: выяснение, будет ли конкретное соединение действительно связываться с нужным белком и оказывать необходимое биологическое воздействие. Это один из ключевых этапов до клинических испытаний, и его стоимость может быть критической.
Традиционно этот процесс предполагает получение трёхмерной структуры белка, затем моделирование или лабораторное тестирование тысяч потенциальных лекарств. Каждое соединение требует уточнения пространственного положения и оценки биохимической активности. Это требует времени, мощностей и колоссального числа повторяющихся операций.
Новый набор от SandboxAQ предлагает выход из этого тупика. С помощью моделей со свёртыванием молекул и вычислительных ресурсов NVIDIA была создана уникальная библиотека синтетических структур, не наблюдаемых напрямую в лабораториях, но рассчитанных на основе данных из открытых источников, таких как ChEMBL и BindingDB. Для каждой пары белок—молекула с известной активностью разработчики создали до пяти различных 3D-поз, а затем отобрали наиболее достоверные.
Каждая структура была связана с конкретными значениями активности (IC50), что позволяет не просто предсказать, как молекула ляжет на белок, но и с какой эффективностью она будет действовать. Этот симбиоз геометрии и биохимии — ключ к ускорению этапа отбора кандидатов.
Такие инструменты критически важны для обучения моделей нового поколения, включая AlphaFold 3 и Boltz-2. Хотя современные ИИ и добились значительного прогресса в предсказании структуры белков, они всё ещё испытывают трудности при работе с новыми соединениями и нестандартными белками. SAIR предлагает решение: больше разнообразных данных без необходимости полагаться на закрытые базы данных фармгигантов.
Компания заявила, что SAIR будет доступен всем исследователям бесплатно. Однако доступ к самим продвинутым моделям, обученным на этой базе, планируется сделать платным. Таким образом, учёные и фармкомпании смогут проверять эффективность новых лекарств почти мгновенно и без физического синтеза, экономя миллионы и сокращая годы разработок.

Компания SandboxAQ, основанная выходцами из Google и поддерживаемая NVIDIA, представила новый открытый набор данных, который может существенно изменить процесс разработки лекарств на ранних стадиях. Речь идёт о массивной базе SAIR (Structurally Augmented IC50 Repository), включающей более 5,2 миллиона пар «молекула — белок» в виде синтетически сгенерированных трёхмерных структур с привязкой к реальным данным об эффективности взаимодействия.
Цель проекта — преодолеть одно из самых ресурсоёмких узких мест в фармакологии: выяснение, будет ли конкретное соединение действительно связываться с нужным белком и оказывать необходимое биологическое воздействие. Это один из ключевых этапов до клинических испытаний, и его стоимость может быть критической.
Традиционно этот процесс предполагает получение трёхмерной структуры белка, затем моделирование или лабораторное тестирование тысяч потенциальных лекарств. Каждое соединение требует уточнения пространственного положения и оценки биохимической активности. Это требует времени, мощностей и колоссального числа повторяющихся операций.
Новый набор от SandboxAQ предлагает выход из этого тупика. С помощью моделей со свёртыванием молекул и вычислительных ресурсов NVIDIA была создана уникальная библиотека синтетических структур, не наблюдаемых напрямую в лабораториях, но рассчитанных на основе данных из открытых источников, таких как ChEMBL и BindingDB. Для каждой пары белок—молекула с известной активностью разработчики создали до пяти различных 3D-поз, а затем отобрали наиболее достоверные.
Каждая структура была связана с конкретными значениями активности (IC50), что позволяет не просто предсказать, как молекула ляжет на белок, но и с какой эффективностью она будет действовать. Этот симбиоз геометрии и биохимии — ключ к ускорению этапа отбора кандидатов.
Такие инструменты критически важны для обучения моделей нового поколения, включая AlphaFold 3 и Boltz-2. Хотя современные ИИ и добились значительного прогресса в предсказании структуры белков, они всё ещё испытывают трудности при работе с новыми соединениями и нестандартными белками. SAIR предлагает решение: больше разнообразных данных без необходимости полагаться на закрытые базы данных фармгигантов.
Компания заявила, что SAIR будет доступен всем исследователям бесплатно. Однако доступ к самим продвинутым моделям, обученным на этой базе, планируется сделать платным. Таким образом, учёные и фармкомпании смогут проверять эффективность новых лекарств почти мгновенно и без физического синтеза, экономя миллионы и сокращая годы разработок.