Суть исследования
Учёные из Гарвардской медицинской школы и Медицинского центра Бет Исраэль Диаконисс (США) сравнили точность диагнозов, поставленных врачами‑людьми и большими языковыми моделями (LLM) OpenAI, в условиях отделения неотложной помощи. Результаты опубликованы в журнале Science.
Методология
Ключевые особенности эксперимента:
- Участники: 76 пациентов отделения неотложной помощи больницы «Бет Исраэль».
- Диагносты:
- два врача‑терапевта;
- две модели OpenAI: o1 и 4o.
- Процесс:
- модели и врачи ставили диагнозы на основе одних и тех же данных из электронных медицинских карт — без какой‑либо предварительной обработки информации;
- диагнозы оценивали два независимых терапевта, которые не знали, кто (человек или ИИ) их поставил.
- Фокус: особое внимание уделялось первичной сортировке пациентов — эта стадия критична, так как информации о пациенте минимум, а решение нужно принять быстро.
Основные результаты
- Модель o1:
- в 67 % случаев поставила точный или очень близкий к точному диагноз при первичной сортировке;
- на всех этапах диагностики либо превосходила двух лечащих врачей, либо не уступала им;
- особенно сильные результаты показала на первом этапе диагностики, когда информации о пациенте меньше всего.
- Врачи‑терапевты:
- первый врач: 55 % точных или близких к точным диагнозов;
- второй врач: 50 % точных или близких к точным диагнозов.
- Модель 4o: в тексте явных результатов по ней не приведено.
Ключевые заявления исследователей
- Арджун Манрай (руководитель лаборатории ИИ в Гарвардской медицинской школе): модель превзошла как предыдущие версии ИИ, так и базовые рекомендации для врачей.
- Авторы исследования подчёркивают: данные для ИИ были идентичны тем, что доступны врачам в реальной практике.
- Основной вывод команды: необходим дальнейший сбор данных и проведение перспективных испытаний ИИ в реальных условиях оказания медицинской помощи.
Важные ограничения и критика
Исследование и его освещение вызвали ряд критических замечаний:
- Сравнение не по специальности. Кристен Пантагани (врач скорой помощи) указала, что в эксперименте диагнозы врачей‑терапевтов сравнивались с результатами ИИ. По её мнению, корректнее было бы сопоставлять ИИ с врачами скорой помощи — теми, кто реально работает в условиях неотложки. Её метафора: «Я не удивлюсь, если нейросеть сможет обогнать дерматолога на экзамене по нейрохирургии, [но] это не особо полезная информация».
- Цель врача неотложки. Пантагани подчёркивает: главная задача врача при первичном осмотре — не угадать окончательный диагноз, а выявить угрожающие жизни состояния. Точность диагноза — вторична по сравнению с этой задачей.
- Работа с данными. Исследование оценивало только способность моделей работать с текстовой информацией. Современные LLM ограничены в анализе нетекстовых данных (изображений, результатов ЭКГ и т. д.).
- Подотчётность. Адам Родман (врач из Beth Israel) отметил отсутствие формальной системы подотчётности за диагнозы, поставленные с помощью ИИ.
- Ожидания пациентов. Родман также подчеркнул: пациенты хотят, чтобы ключевые решения о лечении принимали люди, а не алгоритмы.
Краткий итог
Исследование демонстрирует потенциал больших языковых моделей (в частности, o1 от OpenAI) в первичной сортировке пациентов отделения неотложной помощи: ИИ показал более высокую точность, чем врачи‑терапевты, в условиях ограниченного объёма информации.
Однако результаты не означают, что ИИ готов заменить врачей в принятии решений, от которых зависит жизнь и смерть. Авторы и независимые эксперты настаивают на:
- проведении дальнейших испытаний в реальных клинических условиях;
- сравнении ИИ с профильными специалистами (врачами скорой помощи);
- разработке системы подотчётности для ИИ‑диагностики;
- учёте приоритетов клинической практики (выявление угроз жизни важнее точного диагноза).