ШІ-модель Evo 2 навчили проєктувати геноми
Команда дослідників Arc Institute створила модель Evo 2, яка здатна аналізувати генетичний код, прогнозувати захворювання та мутації, а також проєктувати нові геноми з аналогічною довжиною, як у простих бактерій.
Фахівці співпрацюють з Nvidia, Стенфордським університетом, Каліфорнійським університетом у Берклі та Каліфорнійським університетом у Сан-Франциско. Їхня нейромережа була навчена на основі ДНК більше 100 000 видів.
Код Evo 2 доступний у відкритому доступі на GitHub і інтегрований у фреймворк Nvidia BioNeMo.
Arc Institute спільно працював із дослідницькою лабораторією штучного інтелекту Goodfire для створення візуалізатора механістичної інтерпретованості, який виявляє основні біологічні характеристики та патерни. Модель здобуває навички розпізнавання їх у геномних послідовностях.
«Evo 2 є найбільшою на сьогоднішній день ШІ-моделлю в біології, навченою на понад 9,3 трлн нуклеотидів — основних елементів, що формують ДНК або РНК. […] Evo 2 включає інформацію про людину, рослини, а також інші одноклітинні та багатоклітинні види еукаріотів», — зазначено в оголошенні.
Нейромережа «має всебічне розуміння древа життя», що є корисним для розв’язання безлічі завдань, таких як прогнозування мутацій і розробка коду для штучного життя.
«Еволюція закодувала біологічну інформацію в ДНК та РНК, створивши патерни, які Evo 2 може виявити та використовувати», — підкреслили автори дослідження.
Для навчання ШІ використано понад 2 000 графічних процесорів Nvidia H100. Вона має можливість обробляти генетичні послідовності до 1 млн нуклеотидів одночасно, що дозволяє їй усвідомлювати зв’язки між віддаленими частинами геному.
У випробуваннях із мутаціями гена BRCA1, пов’язаного з раком молочної залози, Evo 2 з точністю понад 90% передбачила, які мутації є доброякісними, а які можуть бути патогенними.
Дослідницька група вважає, що на основі Evo 2 можна створювати більш специфічні ШІ-моделі.
Нагадаємо, у липні 2024 року китайські вчені представили робота з вирощеним у лабораторних умовах штучним мозком, здатного навчатися виконанню різних завдань.
Раніше Meta AI анонсувала «модель білкової мови» ESM-2 з 15 млрд параметрів і базу даних ESM Metagenomic Atlas, що містить понад 600 млн прогностичних структур метагеномних з’єднань.