Систему проверили на 206 отчетах по ПЭТ/КТ-обследованиям пациентов с раком простаты. Это подробные клинические документы, в которых врач фиксирует состояние пациента, описывает результаты сканирования с использованием ПСМА (белка, который накапливается в опухолевых клетках и делает их заметными на снимках) и формулирует итоговое заключение о наличии или отсутствии признаков заболевания.
Алгоритм должен был автоматически извлечь 26 ключевых показателей: есть ли рецидив, какая стадия болезни, каков уровень ПСА (анализ крови, позволяющий оценить активность опухоли) и можно ли включать пациента в исследование. Всего система обработала около 5,3 тысячи отдельных данных из этих документов.
Чтобы оценить качество работы, исследователи сравнили результаты GPT-4 без поддержки, гибридной системы и данных, которые врачи заполнили вручную. GPT-4 в одиночку часто ошибалась в сложных местах. Модель правильно определяла уровень ПСА в 96,6% случаев, но могла перепутать наличие рецидива или неверно решить, подходит ли пациент для включения в исследование. Специалисты показали более высокую точность – уровень ПСА они определяли правильно в 98,1% случаев, а ошибки при выявлении рецидива были единичными.
Система под управлением Plato-3 оказалась самой точной: она правильно определяла рецидив, стадию заболевания, принадлежность пациента к нужной группе и уровень ПСА. При этом гибридный искусственный интеллект давал понятные объяснения каждого шага. Дополнительно Plato-3 выявила два отчета, где после анонимизации оставались фрагменты личных данных, и 17 документов без отметки о согласии пациента – все нарушения подтвердились при ручной проверке. Система также обнаружила 82 ошибки в данных, которые ранее специалисты занесли вручную.
По мнению авторов, такие решения могут ускорить подготовку данных для клинических исследований, облегчить работу с большими массивами текстов и уменьшить различия в трактовке отчетов между клиниками. Разработчики планируют адаптировать систему для мультимодальных ИИ-моделей и интегрировать ее в рабочие станции, чтобы автоматически заполнять электронные формы и исследовательские протоколы.
Проблема надежности медицинского ИИ остается одной из ключевых в системе здравоохранения: многие модели дают неполные или плохо объясненные рекомендации, и врачи не всегда могут на них опираться. Из-за этого исследователи ищут разные способы сделать работу ИИ более предсказуемой и контролируемой. Один из таких подходов был протестирован исследователями из Mayo Clinic и компании Zyter|TruCare: внедрение механизма проверки уверенности и объяснимости позволило снизить долю отклоненных врачами рекомендаций ИИ с 87,6% до 33,3%.
Нейросимволический подход, который предложили швейцарские исследователи, предлагает иной способ решения этой задачи. Вместо того чтобы обучать модель оценивать свою уверенность, разработчики дополнили ее модулем строгой проверки по медицинским правилам. Этот контроль анализирует каждый вывод ИИ, устраняет неточности и обеспечивает прозрачную логику принятия решений. По мнению авторов, такие гибридные системы могут стать основой для более надежных и понятных ИИ-инструментов в медицине, где особенно важны точность, объяснимость и защита данных пациентов.
Систему проверили на 206 отчетах по ПЭТ/КТ-обследованиям пациентов с раком простаты. Это подробные клинические документы, в которых врач фиксирует состояние пациента, описывает результаты сканирования с использованием ПСМА (белка, который накапливается в опухолевых клетках и делает их заметными на снимках) и формулирует итоговое заключение о наличии или отсутствии признаков заболевания.
Алгоритм должен был автоматически извлечь 26 ключевых показателей: есть ли рецидив, какая стадия болезни, каков уровень ПСА (анализ крови, позволяющий оценить активность опухоли) и можно ли включать пациента в исследование. Всего система обработала около 5,3 тысячи отдельных данных из этих документов.
Чтобы оценить качество работы, исследователи сравнили результаты GPT-4 без поддержки, гибридной системы и данных, которые врачи заполнили вручную. GPT-4 в одиночку часто ошибалась в сложных местах. Модель правильно определяла уровень ПСА в 96,6% случаев, но могла перепутать наличие рецидива или неверно решить, подходит ли пациент для включения в исследование. Специалисты показали более высокую точность – уровень ПСА они определяли правильно в 98,1% случаев, а ошибки при выявлении рецидива были единичными.
Система под управлением Plato-3 оказалась самой точной: она правильно определяла рецидив, стадию заболевания, принадлежность пациента к нужной группе и уровень ПСА. При этом гибридный искусственный интеллект давал понятные объяснения каждого шага. Дополнительно Plato-3 выявила два отчета, где после анонимизации оставались фрагменты личных данных, и 17 документов без отметки о согласии пациента – все нарушения подтвердились при ручной проверке. Система также обнаружила 82 ошибки в данных, которые ранее специалисты занесли вручную.
По мнению авторов, такие решения могут ускорить подготовку данных для клинических исследований, облегчить работу с большими массивами текстов и уменьшить различия в трактовке отчетов между клиниками. Разработчики планируют адаптировать систему для мультимодальных ИИ-моделей и интегрировать ее в рабочие станции, чтобы автоматически заполнять электронные формы и исследовательские протоколы.
Проблема надежности медицинского ИИ остается одной из ключевых в системе здравоохранения: многие модели дают неполные или плохо объясненные рекомендации, и врачи не всегда могут на них опираться. Из-за этого исследователи ищут разные способы сделать работу ИИ более предсказуемой и контролируемой. Один из таких подходов был протестирован исследователями из Mayo Clinic и компании Zyter|TruCare: внедрение механизма проверки уверенности и объяснимости позволило снизить долю отклоненных врачами рекомендаций ИИ с 87,6% до 33,3%.
Нейросимволический подход, который предложили швейцарские исследователи, предлагает иной способ решения этой задачи. Вместо того чтобы обучать модель оценивать свою уверенность, разработчики дополнили ее модулем строгой проверки по медицинским правилам. Этот контроль анализирует каждый вывод ИИ, устраняет неточности и обеспечивает прозрачную логику принятия решений. По мнению авторов, такие гибридные системы могут стать основой для более надежных и понятных ИИ-инструментов в медицине, где особенно важны точность, объяснимость и защита данных пациентов.
