ChatGPT и DeepSeek превзошли студентов в тестах для медэкзамена

ChatGPT-4o – продукт американской компании QpenAI, одна из самых популярных коммерческих моделей, доступная только по подписке. DeepSeek DeepThink R1 – китайская разработка, ориентированная на сложные задачи рассуждения и предоставляемая бесплатно.

Ученые использовали базу вопросов AMBOSS – популярный тренажер для подготовки к экзаменам USMLE в США. В анализ вошли задания разной тематики и сложности. Распределение вопросов в платформе AMBOSS характеризовалось смещением в сторону легкого уровня сложности: 2 554 легких вопроса (43,9%), 1 896 вопросов средней сложности (32,6%) и 1 373 сложных вопроса (23,6%). Для обеспечения сбалансированного представления каждого уровня сложности в анализе с помощью встроенного генератора случайных вопросов платформы AMBOSS было отобрано по 10 вопросов каждого уровня сложности для каждой категории, что в совокупности составило 540 вопросов для каждого экзамена.

Сбор результатов осуществлялся путем прямого копирования вопросов и вариантов ответов с веб-сайта AMBOSS и их последующей вставки в онлайн-версии моделей GPT-4o (последнее обновление: май 2024 года) и DeepSeek DeepThink R1 (последнее обновление: октябрь 2023 года) без каких-либо изменений. Каждый вопрос вводился индивидуально в чат-интерфейс большой языковой модели без дополнительных команд для обеспечения единообразия форматирования между обеими моделями. Для каждого вопроса регистрировался бинарный показатель правильности ответа модели с учетом уровня сложности вопроса.

На простых вопросах ChatGPT отвечал правильно в 95% случаев, DeepSeek – в 93%, тогда как студенты справлялись лишь в 76% случаев. На заданиях средней сложности показатели составили 89% y ChatGPT, 78% – у DeepSeck и 55% – у студентов. На самых трудных вопросах разрыв оказался максимальным: точность ChatGPT – 80%, DeepSeek – 63%, а у студентов всего 36%. Разработка OpenAI оказалась «умнее» своего китайского конкурента в части вопросов по эндокринологии, гастроэнтерологии, иммунологии, мультисистемных заболеваний и ряда других разделов, причем разрыв в результатах моделей был несущественным, когда акцент делался на клиническом мышлении.

По мнению исследователей, критический подход и проверка источников остаются ключевыми условиями при работе с ИИ-ассистентами. Только в таком сочетании новые технологии смогут повысить качество подготовки врачей и не снизить уровень их самостоятельного клинического мышления.

Пациенты тоже выражают настороженность. По данным апрельского опроса Центра общественной политики Анненберга, 79% взрослых американцев ищут информацию о здоровье в интернете и часто сталкиваются с ответами, сгенерированными ИИ, но почти половине (49%) некомфортно, когда врач опирается на такие инструменты вместо собственного опыта.

Компания OpenAI тем временем уже представила новое поколение модели – GPT-5, сделав акцент на ее медицинском потенциале. По данным компании, в тестах на платформе HealthBench, разработанной при участии 250 практикующих врачей, GPT-5 показала еще более высокую точность и качество ответов, превзойдя предыдущие версии. Модель уже применяется фармацевтическими и страховыми компаниями, а также внедряется в работу федеральных служб США.