Исследование сравнивает показатели нескольких десятков моделей – как коммерческих, так и открытых. Оценивались два ключевых параметра: доля корректных ответов и частота галлюцинаций, то есть уверенных, но неверных выводов в ситуациях, где система должна была признать недостаток данных или отказаться от ответа. Для медицины это критично, поскольку даже единичные недостоверные рекомендации могут влиять на диагностику, интерпретацию данных и маршрутизацию пациентов.
Отдельный блок данных показывает, насколько сильно различаются модели разных разработчиков. Так, по точности лидирует Gemini 3 Preview от Google – 54%, далее идут Claude Opus 4.5 от Anthropic – 43% и Grok 4 от xAI – 40%. Более свежие версии больших языковых моделей показывают умеренные результаты: GPT-5.1 от OpenAI – 35%, Claude 4.5 Sonnet от Anthropic – 31%.
По уровню галлюцинаций наиболее последовательной оказалась Claude 4.5 Haiku от Anthropic – 26%, но многие модели ошибаются значительно чаще. Среди них – Grok 4 от xAI (64%), Kimi K2 0905 от Moonshot (69%), Llama Nemotron Super 49B от Nvidia/Meta* (76%), DeepSeek R1 от DeepSeek (83%), EXAONE 4.032B от LG AI Research (86%). Некоторые версии Gemini от Google и открытые модели gpt-oss показывают еще более высокий уровень ошибок – свыше 88-93% Такие различия значат, что даже крупные языковые модели ведущих компаний могут вести себя непредсказуемо в сложных или неоднозначных задачах.
Результаты демонстрируют существенный разрыв между точностью и безопасностью ответов. Модели могут показывать приемлемую долю корректных результатов, но при этом регулярно выдавать уверенные, но ошибочные ответы. Аналитики отмечают, что такие расхождения повышают риск некорректных интерпретаций и требуют учета при выборе и внедрении ИИ-систем.
Подобные риски подтверждаются и академическими исследованиями. Работа международной группы ученых, опубликованная в Digital Medicine, показала, что мультимодальные нейромодели резко теряют точность при ухудшении качества медицинских изображений. Легкое размытие или цифровой шум снижали корректность на 3-10%, а серьезные искажения – на десятки процентов. На отдельных типах данных точность падала до 30-40%, а способность отличать норму от патологии ухудшалась почти на 80%. При этом модели практически никогда не предупреждали о плохом качестве снимка и продолжали выдавать уверенные, но ошибочные заключения.
Другое международное исследование выявило, что большие языковые модели остаются нестабильными в задачах персонализированных рекомендаций по долголетию. Семь систем протестировали на 1 000 клинических сценариев с использованием 25 виртуальных профилей пациентов. Качество рекомендаций заметно различалось: GPT-4o от OpenAI достигала около 90% соответствия медицинским критериям, тогда как модели Meta, Alibaba и DeepSeek часто не превышали 60%. Авторы отмечали, что ИИ нередко дает неполные или чрезмерно осторожные ответы, что ограничивает его применение без экспертного контроля.
Ранее, в 2024 году, Associated Press сообщала о серьезных сбоях в медицинских транскрибациях на основе модели Whisper от OpenAI. По данным расследования, ошибки и «галлюцинации» обнаруживались в большинстве записей – в отдельных оценках до восьми из десяти расшифровок. Алгоритм путал диагнозы, подменял назначения и даже «добавлял» несуществующие препараты, а оригинальные аудиофайлы автоматически удалялись, не позволяя врачам проверить корректность транскрипций.
Эксперты из Artificial Analysis подчеркивают, что надежность остается ключевым ограничением для широкого применения ИИ. Рост вычислительных возможностей и появление новых моделей не приводят к пропорциональному улучшению качества ответов: поведение систем, особенно в неоднозначных ситуациях, остается нестабильным. По мнению аналитиков, индустрии необходимы единые стандарты оценки и методы контроля, которые позволят объективно измерять риски и выбирать наиболее устойчивые модели.
* Meta признана экстремистской организацией и запрещена в России
Исследование сравнивает показатели нескольких десятков моделей – как коммерческих, так и открытых. Оценивались два ключевых параметра: доля корректных ответов и частота галлюцинаций, то есть уверенных, но неверных выводов в ситуациях, где система должна была признать недостаток данных или отказаться от ответа. Для медицины это критично, поскольку даже единичные недостоверные рекомендации могут влиять на диагностику, интерпретацию данных и маршрутизацию пациентов.
Отдельный блок данных показывает, насколько сильно различаются модели разных разработчиков. Так, по точности лидирует Gemini 3 Preview от Google – 54%, далее идут Claude Opus 4.5 от Anthropic – 43% и Grok 4 от xAI – 40%. Более свежие версии больших языковых моделей показывают умеренные результаты: GPT-5.1 от OpenAI – 35%, Claude 4.5 Sonnet от Anthropic – 31%.
По уровню галлюцинаций наиболее последовательной оказалась Claude 4.5 Haiku от Anthropic – 26%, но многие модели ошибаются значительно чаще. Среди них – Grok 4 от xAI (64%), Kimi K2 0905 от Moonshot (69%), Llama Nemotron Super 49B от Nvidia/Meta* (76%), DeepSeek R1 от DeepSeek (83%), EXAONE 4.032B от LG AI Research (86%). Некоторые версии Gemini от Google и открытые модели gpt-oss показывают еще более высокий уровень ошибок – свыше 88-93% Такие различия значат, что даже крупные языковые модели ведущих компаний могут вести себя непредсказуемо в сложных или неоднозначных задачах.
Результаты демонстрируют существенный разрыв между точностью и безопасностью ответов. Модели могут показывать приемлемую долю корректных результатов, но при этом регулярно выдавать уверенные, но ошибочные ответы. Аналитики отмечают, что такие расхождения повышают риск некорректных интерпретаций и требуют учета при выборе и внедрении ИИ-систем.
Подобные риски подтверждаются и академическими исследованиями. Работа международной группы ученых, опубликованная в Digital Medicine, показала, что мультимодальные нейромодели резко теряют точность при ухудшении качества медицинских изображений. Легкое размытие или цифровой шум снижали корректность на 3-10%, а серьезные искажения – на десятки процентов. На отдельных типах данных точность падала до 30-40%, а способность отличать норму от патологии ухудшалась почти на 80%. При этом модели практически никогда не предупреждали о плохом качестве снимка и продолжали выдавать уверенные, но ошибочные заключения.
Другое международное исследование выявило, что большие языковые модели остаются нестабильными в задачах персонализированных рекомендаций по долголетию. Семь систем протестировали на 1 000 клинических сценариев с использованием 25 виртуальных профилей пациентов. Качество рекомендаций заметно различалось: GPT-4o от OpenAI достигала около 90% соответствия медицинским критериям, тогда как модели Meta, Alibaba и DeepSeek часто не превышали 60%. Авторы отмечали, что ИИ нередко дает неполные или чрезмерно осторожные ответы, что ограничивает его применение без экспертного контроля.
Ранее, в 2024 году, Associated Press сообщала о серьезных сбоях в медицинских транскрибациях на основе модели Whisper от OpenAI. По данным расследования, ошибки и «галлюцинации» обнаруживались в большинстве записей – в отдельных оценках до восьми из десяти расшифровок. Алгоритм путал диагнозы, подменял назначения и даже «добавлял» несуществующие препараты, а оригинальные аудиофайлы автоматически удалялись, не позволяя врачам проверить корректность транскрипций.
Эксперты из Artificial Analysis подчеркивают, что надежность остается ключевым ограничением для широкого применения ИИ. Рост вычислительных возможностей и появление новых моделей не приводят к пропорциональному улучшению качества ответов: поведение систем, особенно в неоднозначных ситуациях, остается нестабильным. По мнению аналитиков, индустрии необходимы единые стандарты оценки и методы контроля, которые позволят объективно измерять риски и выбирать наиболее устойчивые модели.
* Meta признана экстремистской организацией и запрещена в России


