Результаты работы опубликованы в журнале Digital Medicine. В исследование вошли коммерческие решения GPT-4o и o3 mini от американской компании OpenAI, а также две некоммерческие модели – Llama 3.2 3B и специализированная Llama3 Med42 8B от Meta* (США). Кроме того, были протестированы китайские публичные коммерческие модели Qwen 2.5 14B от Alibaba и DeepSeek R1 Distill Llama 70B от DeepSeek. Для сопоставления добавили и биомедицинскую модель OpenBioLLM3 8B, разработанную исследовательской группой BioCypher (Германия) и ориентированную на анализ медицинских данных.
Моделям предлагалось формировать персональные рекомендации по долголетию на основе индивидуальных биомаркерных профилей. В сценариях рассматривались основные меры, применяемые в геронауке: ограничение калорийности питания, интервальное голодание, физическая активность, а также прием пищевых добавок и препаратов, связанных с метаболическим здоровьем и старением. Каждая модель должна была оценить целесообразность таких действий с учетом возраста, сопутствующих заболеваний и возможных рисков. Все системы протестировали на платформе BioChatter, которая автоматически оценила ответы по пяти критериям: корректность, полнота, польза, объяснимость и безопасность.
По общей оценке модель GPT-4o показала наилучшие результаты, продемонстрировав наивысший показатель точности и полноты ответов среди всех моделей. Средний уровень соответствия медицинским критериям по ней достигал около 90%, тогда как у Llama 3.2 3B и Llama3 Med42 8B этот показатель не превышал 60%. Китайские модели заняли промежуточные позиции, показав устойчивость к изменению формулировок запросов, но уступая по интерпретируемости и полноте ответов.
Все протестированные системы продемонстрировали высокий уровень безопасности – более 95% ответов были признаны не содержащими потенциально вредных рекомендаций. При этом именно коммерческие модели чаще формировали корректные, но чрезмерно осторожные ответы, избегая выдачи прямых советов о вмешательствах. По мнению авторов, такая сдержанность связана с особенностями обучения моделей с участием человека: этот подход снижает риск ошибочных рекомендаций, но одновременно ограничивает полноту и практическую ценность ответов.
Отдельно ученые проверили влияние технологии Retrieval-Augmented Generation, при которой модель получает дополнительный контекст из научных публикаций. Эффект оказался неоднозначным: у некоммерческих моделей качество ответов улучшалось, у коммерческих – снижалось. Кроме того, точность зависела от возраста пациента: искусственный интеллект лучше справлялся с типичными для пожилых людей заболеваниями и хуже – с редкими гормональными нарушениями у молодых.
Авторы отметили, что современные большие языковые модели, пока не могут использоваться без участия врачей для выдачи персональных рекомендаций по долголетию. Разработанная открытая платформа BioChatter предлагается как инструмент для дальнейшего тестирования и калибровки ИИ-систем в медицинских задачах.
Проблемы применения ИИ в здравоохранении подтверждают и другие исследования. Так, ученые из Университета Брауна в США установили, что большие языковые модели регулярно нарушают базовые этические принципы, лежащие в основе психотерапии. Даже при корректных профессиональных настройках такие системы допускают ошибки, способные причинить вред пользователю, например, игнорируют контекст жизни человека или навязывают универсальные советы.
* Meta признана экстремистской организацией и запрещена в России
Результаты работы опубликованы в журнале Digital Medicine. В исследование вошли коммерческие решения GPT-4o и o3 mini от американской компании OpenAI, а также две некоммерческие модели – Llama 3.2 3B и специализированная Llama3 Med42 8B от Meta* (США). Кроме того, были протестированы китайские публичные коммерческие модели Qwen 2.5 14B от Alibaba и DeepSeek R1 Distill Llama 70B от DeepSeek. Для сопоставления добавили и биомедицинскую модель OpenBioLLM3 8B, разработанную исследовательской группой BioCypher (Германия) и ориентированную на анализ медицинских данных.
Моделям предлагалось формировать персональные рекомендации по долголетию на основе индивидуальных биомаркерных профилей. В сценариях рассматривались основные меры, применяемые в геронауке: ограничение калорийности питания, интервальное голодание, физическая активность, а также прием пищевых добавок и препаратов, связанных с метаболическим здоровьем и старением. Каждая модель должна была оценить целесообразность таких действий с учетом возраста, сопутствующих заболеваний и возможных рисков. Все системы протестировали на платформе BioChatter, которая автоматически оценила ответы по пяти критериям: корректность, полнота, польза, объяснимость и безопасность.
По общей оценке модель GPT-4o показала наилучшие результаты, продемонстрировав наивысший показатель точности и полноты ответов среди всех моделей. Средний уровень соответствия медицинским критериям по ней достигал около 90%, тогда как у Llama 3.2 3B и Llama3 Med42 8B этот показатель не превышал 60%. Китайские модели заняли промежуточные позиции, показав устойчивость к изменению формулировок запросов, но уступая по интерпретируемости и полноте ответов.
Все протестированные системы продемонстрировали высокий уровень безопасности – более 95% ответов были признаны не содержащими потенциально вредных рекомендаций. При этом именно коммерческие модели чаще формировали корректные, но чрезмерно осторожные ответы, избегая выдачи прямых советов о вмешательствах. По мнению авторов, такая сдержанность связана с особенностями обучения моделей с участием человека: этот подход снижает риск ошибочных рекомендаций, но одновременно ограничивает полноту и практическую ценность ответов.
Отдельно ученые проверили влияние технологии Retrieval-Augmented Generation, при которой модель получает дополнительный контекст из научных публикаций. Эффект оказался неоднозначным: у некоммерческих моделей качество ответов улучшалось, у коммерческих – снижалось. Кроме того, точность зависела от возраста пациента: искусственный интеллект лучше справлялся с типичными для пожилых людей заболеваниями и хуже – с редкими гормональными нарушениями у молодых.
Авторы отметили, что современные большие языковые модели, пока не могут использоваться без участия врачей для выдачи персональных рекомендаций по долголетию. Разработанная открытая платформа BioChatter предлагается как инструмент для дальнейшего тестирования и калибровки ИИ-систем в медицинских задачах.
Проблемы применения ИИ в здравоохранении подтверждают и другие исследования. Так, ученые из Университета Брауна в США установили, что большие языковые модели регулярно нарушают базовые этические принципы, лежащие в основе психотерапии. Даже при корректных профессиональных настройках такие системы допускают ошибки, способные причинить вред пользователю, например, игнорируют контекст жизни человека или навязывают универсальные советы.
* Meta признана экстремистской организацией и запрещена в России



