Thursday, February 26, 2026

Агент-доктор

Модели искусственного интеллекта, диагностирующие заболевания, обычно выдают диагнозы на основе описания симптомов. Однако на практике врачи должны уметь объяснять свои рассуждения и планировать дальнейшие действия. Исследователи создали систему, которая справляется с этими задачами.

Dr. CaBot — это агент искусственного интеллекта, который имитирует диагнозы опытных врачей на основе тысяч подробных клинических случаев. Группа терапевтов обнаружила, что его диагнозы более точны и обоснованы, чем диагнозы их коллег-людей. Работа была проведена исследователями из Гарвардской медицинской школы, Медицинского центра Бет Израэль Диконесс, Бригхэмской женской больницы, Массачусетской больницы общего профиля, Университета Рочестера и Гарвардского университета.

Ключевой вывод: Хотя медицинские статьи обычно содержат важные знания, они не предоставляют диагностических рассуждений в последовательном стиле изложения. Однако уникальный корпус литературы предоставляет эту информацию. В период с 1923 по 2025 год в «Нью-Инглендском журнале медицины» было опубликовано более 7000 отчетов о мероприятиях, известных как клинико-патологические конференции (КПК). В этих отчетах выдающиеся врачи анализируют медицинские случаи на основе физического осмотра, анамнеза и другой диагностической информации, формируя уникальный корпус пошаговых медицинских рассуждений. Имея описание симптомов и аналогичный случай из КПК, модель может перенять стиль рассуждений и изложения эксперта-врача.

Как это работает: Авторы оцифровали отчеты КПК по 7102 случаям, опубликованным в период с 1923 по 2025 год. Они создали Dr. CaBot, агентную систему, которая использует OpenAI o3 для генерации текста. Для тестирования Dr.CaBot и других диагностических систем они разработали CPC-Bench, состоящий из 10 задач, от ответов на визуальные вопросы до создания планов лечения.

Модель OpenAI text-embedding-3-small встроила отчеты о случаях CPC, а Dr. CaBot сохранил эти встраивания в базу данных. Модель встраивания встроила 3 миллиона аннотаций медицинских статей, взятых из OpenAlex, индекса научной литературы. Получив описание симптомов, text-embedding-3-small встроила его. Dr. CaBot извлек два отчета о случаях CPC с похожими встраиваниями. Для получения дополнительного контекста, имея симптомы и извлеченные отчеты о случаях CPC, o3 сгенерировала до 25 поисковых запросов. Text-embedding-3-small встроила запросы, а Dr. CaBot использовала встраивания для извлечения наиболее похожих аннотаций. На основе симптомов, отчетов о случаях CPC, запросов и извлеченных аннотаций o3 сгенерировала диагноз и обоснование в его поддержку.

Результаты: Для количественной оценки Dr. CaBot авторы использовали собственный бенчмарк CPC-Bench. Для качественной оценки они попросили врачей-терапевтов оценить ход рассуждений модели.

В тесте CPC-Bench модель, получив описание симптомов, должна составить список правдоподобных диагнозов и ранжировать их по вероятности. Для оценки правильности диагноза используется GPT-4.1. Dr. CaBot поставил правильный диагноз на первое место в 60% случаев, превзойдя базовый показатель в 24% среди 20 врачей-терапевтов. В ходе слепой оценки пять врачей-терапевтов оценили рассуждения Dr. CaBot выше, чем их коллеги-люди. На вопрос о том, принадлежит ли диагноз и рассуждения врачу-человеку или системе искусственного интеллекта, они правильно определили источник в 26% случаев (что говорит о том, что стиль рассуждений модели часто казался судьям более человечным, чем самим людям)!

Почему это важно: В клинической практике, где врачам приходится взаимодействовать с пациентами, специалистами, больницами, страховыми компаниями и так далее, одного правильного диагноза недостаточно. Он должен быть подкреплен здравым смыслом. Способность рассуждать, приводить доказательства и представлять аргументы в профессиональном формате — это шаг к созданию автоматизированных медицинских помощников, которые смогут сотрудничать с врачами и завоевывать доверие пациентов. - отсюда

No comments: