По мнению ученых, такой подход формирует «иллюзию эффективности» и создает ложное ощущение готовности ИИ к медицинской практике. Авторы подчеркивают, что реальные клинические данные гораздо сложнее для анализа: они содержат профессиональный жаргон, неполные записи и значительные различия между медицинскими учреждениями. В результате алгоритмы, демонстрирующие высокие показатели на синтетических тестах, часто оказываются менее точными в реальной работе врача.
Более того, большинство оценок основаны на автоматических метриках точности – BLEU, ROUGE, BERTScore и других, – которые были разработаны для задач машинного перевода и обработки текстов, но плохо подходят для медицинского контекста. Совпадение между автоматическими и человеческими оценками минимально: модели, показавшие высокую точность по формальным метрикам, на практике нередко дают неверные или неполные ответы.
Еще одна проблема заключается в том, что даже использование данных из реальных медицинских карт не гарантирует точной оценки работы моделей. Многие тесты, такие как MedNLI, создаются на основе настоящих записей врачей, но при их подготовке данные часто упрощаются и теряют важные детали. В итогн алгоритм может показывать высокий результат не потому, что действительно «понимает» клинический текст, а потому что угадывает ответы, подстраиваясь под особенности набора.
Кроме того, наиболее распространенный формат испытаний – экзамены с множественным выбором – не отражает практику врачей, где решения приходится принимать при неполных и противоречивых данных. В реальных условиях языковые модели показывают существенно более низкие результаты, что подтверждают исследования. Например, ученые из Германии, Великобритании и США в 2024 году проверили точность постановки диагнозов ИИ на данных 2,4 тысячи пациентов с четырьмя распространенными заболеваниями брюшной полости и выяснили, что точность моделей составляла лишь 13-68%, тогда как врачи определяли те же патологии в 84-86% случаев. Алгоритмы пока не способны воспроизводить процесс клинического мышления и принятия решений, свойственный специалистам.
Исследователи предлагают перейти к новым стандартам оценки медицинского ИИ – с участием клиницистов, анализом реальных сценариев взаимодействия врача и языковых моделей, а также проверкой того, как алгоритмы влияют на качество диагностики, скорость работы и когнитивную нагрузку персонала. Они подчеркивают, что ИИ-системы в ближайшие годы будут использоваться не как самостоятельные инструменты, а как вспомогательные технологии для рутинных задач специалистов. Поэтому качество их оценки должно учитывать не только точность ответов, но и реальные эффекты для медицинской практики.
По мнению авторов, только комплексная, прозрачная и учитывающая клинический контекст система проверки позволит объективно определить, насколько ИИ способен повысить эффективность здравоохранения и снизить риски для пациентов.
Ранее исследователи из Вашингтонского и Мичиганского университетов совместно с коллегами из Китая предложили включать в работу алгоритмов не только данные пациентов, но и цифровые следы взаимодействия врачей с электронными медкартами. Такой подход позволит моделям учитывать реальные особенности клинического мышления. Интеграция этих данных в систему раннего предупреждения об ухудшении состояния позволила снизить внутрибольничную смертность на 35,6%. Так, учет реального контекста, на котором настаивают авторы статьи об «иллюзии эффективности», становится ключевым направлением развития медицинского ИИ.
По мнению ученых, такой подход формирует «иллюзию эффективности» и создает ложное ощущение готовности ИИ к медицинской практике. Авторы подчеркивают, что реальные клинические данные гораздо сложнее для анализа: они содержат профессиональный жаргон, неполные записи и значительные различия между медицинскими учреждениями. В результате алгоритмы, демонстрирующие высокие показатели на синтетических тестах, часто оказываются менее точными в реальной работе врача.
Более того, большинство оценок основаны на автоматических метриках точности – BLEU, ROUGE, BERTScore и других, – которые были разработаны для задач машинного перевода и обработки текстов, но плохо подходят для медицинского контекста. Совпадение между автоматическими и человеческими оценками минимально: модели, показавшие высокую точность по формальным метрикам, на практике нередко дают неверные или неполные ответы.
Еще одна проблема заключается в том, что даже использование данных из реальных медицинских карт не гарантирует точной оценки работы моделей. Многие тесты, такие как MedNLI, создаются на основе настоящих записей врачей, но при их подготовке данные часто упрощаются и теряют важные детали. В итогн алгоритм может показывать высокий результат не потому, что действительно «понимает» клинический текст, а потому что угадывает ответы, подстраиваясь под особенности набора.
Кроме того, наиболее распространенный формат испытаний – экзамены с множественным выбором – не отражает практику врачей, где решения приходится принимать при неполных и противоречивых данных. В реальных условиях языковые модели показывают существенно более низкие результаты, что подтверждают исследования. Например, ученые из Германии, Великобритании и США в 2024 году проверили точность постановки диагнозов ИИ на данных 2,4 тысячи пациентов с четырьмя распространенными заболеваниями брюшной полости и выяснили, что точность моделей составляла лишь 13-68%, тогда как врачи определяли те же патологии в 84-86% случаев. Алгоритмы пока не способны воспроизводить процесс клинического мышления и принятия решений, свойственный специалистам.
Исследователи предлагают перейти к новым стандартам оценки медицинского ИИ – с участием клиницистов, анализом реальных сценариев взаимодействия врача и языковых моделей, а также проверкой того, как алгоритмы влияют на качество диагностики, скорость работы и когнитивную нагрузку персонала. Они подчеркивают, что ИИ-системы в ближайшие годы будут использоваться не как самостоятельные инструменты, а как вспомогательные технологии для рутинных задач специалистов. Поэтому качество их оценки должно учитывать не только точность ответов, но и реальные эффекты для медицинской практики.
По мнению авторов, только комплексная, прозрачная и учитывающая клинический контекст система проверки позволит объективно определить, насколько ИИ способен повысить эффективность здравоохранения и снизить риски для пациентов.
Ранее исследователи из Вашингтонского и Мичиганского университетов совместно с коллегами из Китая предложили включать в работу алгоритмов не только данные пациентов, но и цифровые следы взаимодействия врачей с электронными медкартами. Такой подход позволит моделям учитывать реальные особенности клинического мышления. Интеграция этих данных в систему раннего предупреждения об ухудшении состояния позволила снизить внутрибольничную смертность на 35,6%. Так, учет реального контекста, на котором настаивают авторы статьи об «иллюзии эффективности», становится ключевым направлением развития медицинского ИИ.