Авторы создали единый тестовый набор, моделирующий снижение качества по пяти типам нарушений – от небольшого цифрового шума или легкого размытия до сильных искажений, например когда снимок повернут или на нем отсутствует часть изображения. Алгоритмы протестировали на четырех видах данных: МРТ головного мозга, рентгенограммах грудной клетки, ОКТ сетчатки и цветных снимках глазного дна. На изображениях без нарушений точность ведущих ИИ-моделей составляла от 60% до 65%. После добавления слабых дефектов показатели снижались на 3-10%, а при более серьезных нарушениях качество работы падало значительно сильнее: модели начинали путать норму с патологией и давать нестабильные ответы на всех типах снимков.
Особенно заметные провалы отмечались на рентгенограммах и ОКТ-снимках с выраженным цифровым шумом: в таких условиях точность могла падать почти на 30%. При этом алгоритмы крайне редко указывали, что изображение непригодно для анализа: верифицировать плохое качество удавалось лишь в 11,5-19,4% случаев. Большинство моделей продолжали выдавать диагностический ответ, даже когда снимок объективно не позволял сделать клинически значимое заключение.
Проверка на реальных низкокачественных снимках глазного дна подтвердила эти результаты. Даже небольшие дефекты заметно увеличивали число ошибок, а сочетание нескольких искажений приводило к резкому росту ложных диагнозов. Особенно плохо работали модели, не обученные на специализированных медицинских данных: в отдельных случаях точность снижалась на 40%, а специфичность падала на 77,5%, то есть системы почти полностью теряли способность отличать нормальные снимки от патологических.
Исследователи протестировали и разные форматы запросов – структурированные ответы, свободные инструкции и формат, требующий указать ход анализа, то есть пошаговые рассуждения. Более свободные формулировки иногда помогали алгоритмам замечать ухудшение качества изображения, но не приводили к росту точности диагностики. В отдельных случаях такие запросы, напротив, вызывали больше отказов от ответа или приводили к ошибочным выводам.
В то же время исследовательские группы продолжают продвигать универсальные модели медицинского ИИ. Один из примеров – система SAT, обученная на 22 тысячах КТ и МРТ. Это показывает стремление отрасли к более многофункциональным и гибким решениям. Однако без устойчивости к снижению качества изображений даже такие модели могут работать нестабильно в реальной практике.
Авторы подчеркивают, что такие ограничения делают использование универсальных нейромоделей в медицине рискованным: качество изображений в реальной практике редко бывает стабильным. Они рекомендуют внедрять автоматическую оценку качества перед анализом, расширять обучающие наборы снимками с разными уровнями нарушений и считать устойчивость к визуальным сбоям обязательным требованием при разработке диагностических систем.
С их точки зрения, дальнейший прогресс возможен за счет специализированных моделей, адаптированных под конкретные типы изображений, развития инструментов интерпретации решений и формирования крупных клинических датасетов. Эти элементы необходимы, чтобы ИИ-инструменты могли работать надежно и безопасно в условиях реальной медицинской практики.
Тема остается особенно актуальной на фоне роста интереса к компьютерному зрению в медицине, в том числе в России. Так, в июле 2025 года Департамент здравоохранения Москвы выделил дополнительно 58,7 млн рублей на поддержку 15 компаний, участвующих в эксперименте по применению ИИ для анализа медицинских изображений. Проект реализуется уже несколько лет, а масштабы его финансирования увеличиваются: по подсчетам Vademecum, в первой половине 2024 года грантовые выплаты составляли около 150 млн рублей, тогда как за январь-май 2025 года объем поддержки вырос примерно до 220 млн рублей.
Авторы создали единый тестовый набор, моделирующий снижение качества по пяти типам нарушений – от небольшого цифрового шума или легкого размытия до сильных искажений, например когда снимок повернут или на нем отсутствует часть изображения. Алгоритмы протестировали на четырех видах данных: МРТ головного мозга, рентгенограммах грудной клетки, ОКТ сетчатки и цветных снимках глазного дна. На изображениях без нарушений точность ведущих ИИ-моделей составляла от 60% до 65%. После добавления слабых дефектов показатели снижались на 3-10%, а при более серьезных нарушениях качество работы падало значительно сильнее: модели начинали путать норму с патологией и давать нестабильные ответы на всех типах снимков.
Особенно заметные провалы отмечались на рентгенограммах и ОКТ-снимках с выраженным цифровым шумом: в таких условиях точность могла падать почти на 30%. При этом алгоритмы крайне редко указывали, что изображение непригодно для анализа: верифицировать плохое качество удавалось лишь в 11,5-19,4% случаев. Большинство моделей продолжали выдавать диагностический ответ, даже когда снимок объективно не позволял сделать клинически значимое заключение.
Проверка на реальных низкокачественных снимках глазного дна подтвердила эти результаты. Даже небольшие дефекты заметно увеличивали число ошибок, а сочетание нескольких искажений приводило к резкому росту ложных диагнозов. Особенно плохо работали модели, не обученные на специализированных медицинских данных: в отдельных случаях точность снижалась на 40%, а специфичность падала на 77,5%, то есть системы почти полностью теряли способность отличать нормальные снимки от патологических.
Исследователи протестировали и разные форматы запросов – структурированные ответы, свободные инструкции и формат, требующий указать ход анализа, то есть пошаговые рассуждения. Более свободные формулировки иногда помогали алгоритмам замечать ухудшение качества изображения, но не приводили к росту точности диагностики. В отдельных случаях такие запросы, напротив, вызывали больше отказов от ответа или приводили к ошибочным выводам.
В то же время исследовательские группы продолжают продвигать универсальные модели медицинского ИИ. Один из примеров – система SAT, обученная на 22 тысячах КТ и МРТ. Это показывает стремление отрасли к более многофункциональным и гибким решениям. Однако без устойчивости к снижению качества изображений даже такие модели могут работать нестабильно в реальной практике.
Авторы подчеркивают, что такие ограничения делают использование универсальных нейромоделей в медицине рискованным: качество изображений в реальной практике редко бывает стабильным. Они рекомендуют внедрять автоматическую оценку качества перед анализом, расширять обучающие наборы снимками с разными уровнями нарушений и считать устойчивость к визуальным сбоям обязательным требованием при разработке диагностических систем.
С их точки зрения, дальнейший прогресс возможен за счет специализированных моделей, адаптированных под конкретные типы изображений, развития инструментов интерпретации решений и формирования крупных клинических датасетов. Эти элементы необходимы, чтобы ИИ-инструменты могли работать надежно и безопасно в условиях реальной медицинской практики.
Тема остается особенно актуальной на фоне роста интереса к компьютерному зрению в медицине, в том числе в России. Так, в июле 2025 года Департамент здравоохранения Москвы выделил дополнительно 58,7 млн рублей на поддержку 15 компаний, участвующих в эксперименте по применению ИИ для анализа медицинских изображений. Проект реализуется уже несколько лет, а масштабы его финансирования увеличиваются: по подсчетам Vademecum, в первой половине 2024 года грантовые выплаты составляли около 150 млн рублей, тогда как за январь-май 2025 года объем поддержки вырос примерно до 220 млн рублей.



