ИИ поставил более точные диагнозы, чем два врача-человека.

ИИ поставил более точные диагнозы

Суть исследования

Учёные из Гарвардской медицинской школы и Медицинского центра Бет Исраэль Диаконисс (США) сравнили точность диагнозов, поставленных врачами‑людьми и большими языковыми моделями (LLM) OpenAI, в условиях отделения неотложной помощи. Результаты опубликованы в журнале Science.

Методология

Ключевые особенности эксперимента:

  1. Участники: 76 пациентов отделения неотложной помощи больницы «Бет Исраэль».
  2. Диагносты:
    • два врача‑терапевта;
    • две модели OpenAI: o1 и 4o.
  3. Процесс:
    • модели и врачи ставили диагнозы на основе одних и тех же данных из электронных медицинских карт — без какой‑либо предварительной обработки информации;
    • диагнозы оценивали два независимых терапевта, которые не знали, кто (человек или ИИ) их поставил.
  4. Фокус: особое внимание уделялось первичной сортировке пациентов — эта стадия критична, так как информации о пациенте минимум, а решение нужно принять быстро.

Основные результаты

  1. Модель o1:
    • в 67 % случаев поставила точный или очень близкий к точному диагноз при первичной сортировке;
    • на всех этапах диагностики либо превосходила двух лечащих врачей, либо не уступала им;
    • особенно сильные результаты показала на первом этапе диагностики, когда информации о пациенте меньше всего.
  2. Врачи‑терапевты:
    • первый врач: 55 % точных или близких к точным диагнозов;
    • второй врач: 50 % точных или близких к точным диагнозов.
  3. Модель 4o: в тексте явных результатов по ней не приведено.

Ключевые заявления исследователей

  • Арджун Манрай (руководитель лаборатории ИИ в Гарвардской медицинской школе): модель превзошла как предыдущие версии ИИ, так и базовые рекомендации для врачей.
  • Авторы исследования подчёркивают: данные для ИИ были идентичны тем, что доступны врачам в реальной практике.
  • Основной вывод команды: необходим дальнейший сбор данных и проведение перспективных испытаний ИИ в реальных условиях оказания медицинской помощи.

Важные ограничения и критика

Исследование и его освещение вызвали ряд критических замечаний:

  1. Сравнение не по специальности. Кристен Пантагани (врач скорой помощи) указала, что в эксперименте диагнозы врачей‑терапевтов сравнивались с результатами ИИ. По её мнению, корректнее было бы сопоставлять ИИ с врачами скорой помощи — теми, кто реально работает в условиях неотложки. Её метафора: «Я не удивлюсь, если нейросеть сможет обогнать дерматолога на экзамене по нейрохирургии, [но] это не особо полезная информация».
  2. Цель врача неотложки. Пантагани подчёркивает: главная задача врача при первичном осмотре — не угадать окончательный диагноз, а выявить угрожающие жизни состояния. Точность диагноза — вторична по сравнению с этой задачей.
  3. Работа с данными. Исследование оценивало только способность моделей работать с текстовой информацией. Современные LLM ограничены в анализе нетекстовых данных (изображений, результатов ЭКГ и т. д.).
  4. Подотчётность. Адам Родман (врач из Beth Israel) отметил отсутствие формальной системы подотчётности за диагнозы, поставленные с помощью ИИ.
  5. Ожидания пациентов. Родман также подчеркнул: пациенты хотят, чтобы ключевые решения о лечении принимали люди, а не алгоритмы.

Краткий итог

Исследование демонстрирует потенциал больших языковых моделей (в частности, o1 от OpenAI) в первичной сортировке пациентов отделения неотложной помощи: ИИ показал более высокую точность, чем врачи‑терапевты, в условиях ограниченного объёма информации.

Однако результаты не означают, что ИИ готов заменить врачей в принятии решений, от которых зависит жизнь и смерть. Авторы и независимые эксперты настаивают на:

  • проведении дальнейших испытаний в реальных клинических условиях;
  • сравнении ИИ с профильными специалистами (врачами скорой помощи);
  • разработке системы подотчётности для ИИ‑диагностики;
  • учёте приоритетов клинической практики (выявление угроз жизни важнее точного диагноза).
Рейтинг
( Пока оценок нет )
Загрузка ...