Сама синергия не подтверждается: связка «врач + ИИ» улучшает результаты самостоятельной работы специалиста, но не дает усиленного эффекта и не превосходит того участника, который изначально работает точнее – человека или нейросеть.
Для анализа ученые изучили 52 эмпирических исследования, в которых рассматривались результаты совместной работы клиницистов и медицинских ИИ-систем. В совокупности эти работы включали 1 098 специалистов и почти 35 тысяч диагностических задач, что позволило оценить влияние разных подходов к взаимодействию человека и алгоритма на итоговую точность.
Значимые различия наблюдались между группами по уровню подготовки. Так, молодые специалисты и ординаторы получали от ИИ значительно больше пользы: они чаще пересматривали первоначальное решение и активнее использовали подсказки модели. У врачей с большим стажем эффект был минимальным – опытные клиницисты редко меняли свое мнение, даже когда нейросеть давала более точный результат. Авторы также отмечают, что в четырех сценариях совместная работа приводила к снижению точности – это происходило, когда выводы врача и ИИ расходились или когда подсказка интерпретировалась неправильно.
Опубликованные ранее исследования из Великобритании подтверждают эту разницу. Однако эффективность взаимодействия определяется не только точностью ИИ, но и тем, как подаются подсказки. В одном эксперименте новички заметно улучшали решения, получая лишь конечный ориентир, тогда как опытные врачи почти не корректировали свои выводы. В другом – визуальные подсказки значительно помогали экспертам, но менее подготовленные участники использовали такой формат не так уверенно. Отмечалось, что объяснения полезны только тогда, когда соответствуют уровню подготовки и привычкам специалиста, иначе они не усиливают взаимодействие, а усложняют его.
Авторы из Artificial Intelligence подчеркивают, что надежность тандема «врач + ИИ» следует рассматривать как отдельный показатель. Совместная работа чаще дает умеренное улучшение, но не достигает уровня усиленного взаимодействия, на который рассчитывают сторонники гибридных систем. Существенную роль играет разница в исходной точности: чем сильнее нейросеть изначально превосходит врача, тем заметнее эффект для специалиста, но тем хуже согласованная работа в паре.
По мнению исследователей, внедрение ИИ в клиническую практику требует более взвешенного подхода. Важны не только качество модели, но и сценарий применения, тип задач, подготовка специалистов и управление рисками конфликта оценок. Авторы считают, что ожидания от усиленной совместной работы пока завышены, а значимое повышение эффективности возможно только при адаптации рабочих процессов, оптимальном выборе режима взаимодействия и более глубоком понимании ограничений таких систем.
Проблему согласованности решений человека и нейросети показывают и другие исследователи. Команда Mayo Clinic и Zyter|TruCare предложила механизм оценки надежности медицинского ИИ, который объединяет уровень уверенности модели, совпадение с врачебным заключением и качество объяснения в единый индекс. Тестирование на 6 689 клинических случаях показало, что такая схема существенно снижает число отклоненных врачами рекомендаций – с 87,6% до 33,3%. Авторы считают, что прозрачность выводов и калибровка уверенности критичны для того, чтобы ИИ давал предсказуемый эффект и действительно помогал специалистам, а не создавал дополнительные риски.
Сама синергия не подтверждается: связка «врач + ИИ» улучшает результаты самостоятельной работы специалиста, но не дает усиленного эффекта и не превосходит того участника, который изначально работает точнее – человека или нейросеть.
Для анализа ученые изучили 52 эмпирических исследования, в которых рассматривались результаты совместной работы клиницистов и медицинских ИИ-систем. В совокупности эти работы включали 1 098 специалистов и почти 35 тысяч диагностических задач, что позволило оценить влияние разных подходов к взаимодействию человека и алгоритма на итоговую точность.
Значимые различия наблюдались между группами по уровню подготовки. Так, молодые специалисты и ординаторы получали от ИИ значительно больше пользы: они чаще пересматривали первоначальное решение и активнее использовали подсказки модели. У врачей с большим стажем эффект был минимальным – опытные клиницисты редко меняли свое мнение, даже когда нейросеть давала более точный результат. Авторы также отмечают, что в четырех сценариях совместная работа приводила к снижению точности – это происходило, когда выводы врача и ИИ расходились или когда подсказка интерпретировалась неправильно.
Опубликованные ранее исследования из Великобритании подтверждают эту разницу. Однако эффективность взаимодействия определяется не только точностью ИИ, но и тем, как подаются подсказки. В одном эксперименте новички заметно улучшали решения, получая лишь конечный ориентир, тогда как опытные врачи почти не корректировали свои выводы. В другом – визуальные подсказки значительно помогали экспертам, но менее подготовленные участники использовали такой формат не так уверенно. Отмечалось, что объяснения полезны только тогда, когда соответствуют уровню подготовки и привычкам специалиста, иначе они не усиливают взаимодействие, а усложняют его.
Авторы из Artificial Intelligence подчеркивают, что надежность тандема «врач + ИИ» следует рассматривать как отдельный показатель. Совместная работа чаще дает умеренное улучшение, но не достигает уровня усиленного взаимодействия, на который рассчитывают сторонники гибридных систем. Существенную роль играет разница в исходной точности: чем сильнее нейросеть изначально превосходит врача, тем заметнее эффект для специалиста, но тем хуже согласованная работа в паре.
По мнению исследователей, внедрение ИИ в клиническую практику требует более взвешенного подхода. Важны не только качество модели, но и сценарий применения, тип задач, подготовка специалистов и управление рисками конфликта оценок. Авторы считают, что ожидания от усиленной совместной работы пока завышены, а значимое повышение эффективности возможно только при адаптации рабочих процессов, оптимальном выборе режима взаимодействия и более глубоком понимании ограничений таких систем.
Проблему согласованности решений человека и нейросети показывают и другие исследователи. Команда Mayo Clinic и Zyter|TruCare предложила механизм оценки надежности медицинского ИИ, который объединяет уровень уверенности модели, совпадение с врачебным заключением и качество объяснения в единый индекс. Тестирование на 6 689 клинических случаях показало, что такая схема существенно снижает число отклоненных врачами рекомендаций – с 87,6% до 33,3%. Авторы считают, что прозрачность выводов и калибровка уверенности критичны для того, чтобы ИИ давал предсказуемый эффект и действительно помогал специалистам, а не создавал дополнительные риски.
