ШІ-система від Microsoft показала ефективність у медичній діагностиці

Науковці з Microsoft продемонстрували систему ШІ, яка здатна ефективно вирішувати клінічні випадки, що є складними навіть для досвідчених медичних працівників. У новому дослідженні команда порівняла результати роботи ШІ та лікарів на завданнях з журналу NEJM.

Для перевірки ШІ в умовах, що наближені до реальних, вчені розробили платформу SDBench. Вона трансформує кейси з New England Journal of Medicine (304 випадки за період 2017–2025 років) у покрокові клінічні сценарії. Модель Information Gatekeeper видає інформацію частинами — тільки у відповідь на запити.

Агент (лікар або ШІ) вирішує, які питання ставити, які тести проводити і коли ставити діагноз. У числі кейсів є як поширені захворювання (пневмонія), так і рідкісні (неонатальна гіпоглікемія). Додатково система враховує вартість кожного тесту.

Лікарі з США та Великої Британії (в середньому з 12-річним досвідом) досягли точності 20% при середній вартості діагностики $2963. Вони витрачали майже 12 хвилин на один кейс і призначали 6–7 тестів.

GPT-4o перевершив медиків за всіма показниками, включаючи точність та витрати. Результати інших мовних моделей були різними.

Головною новинкою стала платформа MAI Diagnostic Orchestrator (MAI-DxO), розроблена у співпраці з лікарями. Вона імітує командну роботу: одні «агенти» генерують гіпотези, інші — вибирають тести або перевіряють помилки. Ця структура дозволила перевершити не лише людей, але й комерційні моделі.

MAI-DxO досягла 79,9% точності при витратах $2397, або 85,5% — за $7184. Для порівняння, модель O3 показала 78,6% точності при витратах $7850.

У майбутньому такі моделі можуть підсилити працю медиків — особливо в тих випадках, коли є брак фахівців або звернення до профільних експертів є занадто дорогим.

Проте автори підкреслюють, що кейси з NEJM — одні з найскладніших, тому не слід переносити ці висновки на всю медицину. Дослідження не охоплювало здорових пацієнтів і не оцінювало частоту помилкових діагнозів. Дані про витрати є американськими, тому їх глобальна релевантність обмежена.

Нагадаємо, у червні DeepMind представила AlphaGenome — інструмент ШІ, здатний прогнозувати, як незначні зміни в послідовності ДНК впливають на експресію генів, зокрема на синтез РНК та білків.

Источник

No votes yet.
Please wait...

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *

Цей сайт використовує Akismet для зменшення спаму. Дізнайтеся, як обробляються дані ваших коментарів.