ИИ поставил более точные диагнозы, чем два врача-человека.

Суть исследования

Учёные из Гарвардской медицинской школы и Медицинского центра Бет Исраэль Диаконисс (США) сравнили точность диагнозов, поставленных врачами‑людьми и большими языковыми моделями (LLM) OpenAI, в условиях отделения неотложной помощи. Результаты опубликованы в журнале Science.

Методология

Ключевые особенности эксперимента:

Участники: 76 пациентов отделения неотложной помощи больницы «Бет Исраэль».
Диагносты:
- два врача‑терапевта;
- две модели OpenAI: o1 и 4o.
Процесс:
- модели и врачи ставили диагнозы на основе одних и тех же данных из электронных медицинских карт — без какой‑либо предварительной обработки информации;
- диагнозы оценивали два независимых терапевта, которые не знали, кто (человек или ИИ) их поставил.
Фокус: особое внимание уделялось первичной сортировке пациентов — эта стадия критична, так как информации о пациенте минимум, а решение нужно принять быстро.

Основные результаты

Модель o1:
- в 67 % случаев поставила точный или очень близкий к точному диагноз при первичной сортировке;
- на всех этапах диагностики либо превосходила двух лечащих врачей, либо не уступала им;
- особенно сильные результаты показала на первом этапе диагностики, когда информации о пациенте меньше всего.
Врачи‑терапевты:
- первый врач: 55 % точных или близких к точным диагнозов;
- второй врач: 50 % точных или близких к точным диагнозов.
Модель 4o: в тексте явных результатов по ней не приведено.

Ключевые заявления исследователей

Арджун Манрай (руководитель лаборатории ИИ в Гарвардской медицинской школе): модель превзошла как предыдущие версии ИИ, так и базовые рекомендации для врачей.
Авторы исследования подчёркивают: данные для ИИ были идентичны тем, что доступны врачам в реальной практике.
Основной вывод команды: необходим дальнейший сбор данных и проведение перспективных испытаний ИИ в реальных условиях оказания медицинской помощи.

Важные ограничения и критика

Исследование и его освещение вызвали ряд критических замечаний:

Сравнение не по специальности. Кристен Пантагани (врач скорой помощи) указала, что в эксперименте диагнозы врачей‑терапевтов сравнивались с результатами ИИ. По её мнению, корректнее было бы сопоставлять ИИ с врачами скорой помощи — теми, кто реально работает в условиях неотложки. Её метафора: «Я не удивлюсь, если нейросеть сможет обогнать дерматолога на экзамене по нейрохирургии, [но] это не особо полезная информация».
Цель врача неотложки. Пантагани подчёркивает: главная задача врача при первичном осмотре — не угадать окончательный диагноз, а выявить угрожающие жизни состояния. Точность диагноза — вторична по сравнению с этой задачей.
Работа с данными. Исследование оценивало только способность моделей работать с текстовой информацией. Современные LLM ограничены в анализе нетекстовых данных (изображений, результатов ЭКГ и т. д.).
Подотчётность. Адам Родман (врач из Beth Israel) отметил отсутствие формальной системы подотчётности за диагнозы, поставленные с помощью ИИ.
Ожидания пациентов. Родман также подчеркнул: пациенты хотят, чтобы ключевые решения о лечении принимали люди, а не алгоритмы.

Краткий итог

Исследование демонстрирует потенциал больших языковых моделей (в частности, o1 от OpenAI) в первичной сортировке пациентов отделения неотложной помощи: ИИ показал более высокую точность, чем врачи‑терапевты, в условиях ограниченного объёма информации.

Однако результаты не означают, что ИИ готов заменить врачей в принятии решений, от которых зависит жизнь и смерть. Авторы и независимые эксперты настаивают на:

проведении дальнейших испытаний в реальных клинических условиях;
сравнении ИИ с профильными специалистами (врачами скорой помощи);
разработке системы подотчётности для ИИ‑диагностики;
учёте приоритетов клинической практики (выявление угроз жизни важнее точного диагноза).