Фото: Yurchanka Siarhei/FOTODOM/Shutterstock
Ученые Института AIRI, ФИЦ ИУ РАН, ИСП РАН, МФТИ, РУДН и MBZUAI сравнили, насколько точно разные подходы автоматически определяют признаки депрессии и тревожности в текстах на русском языке. Для работы были выбраны классические алгоритмы машинного обучения, трансформеры и большие языковые модели (LLM). В перспективе они могут быть особенно полезны в медицинских приложениях.
Тексты для исследования специалисты брали из закрытых датасетов, включая как клинически подтвержденные случаи, так и данные, основанные на опросниках. Оценка эффективности проводилась по F1-score на контрольной выборке, а также с привлечением клинических психологов для анализа объяснений, сгенерированных LLM. Результаты показали: LLM значительно превосходят традиционные методы, особенно на небольших и «шумных» наборах данных, где тексты сильно различаются по длине и жанру. Но модели с психолингвистическими признаками и трансформеры, обученные на клинически валидированных данных, демонстрируют сопоставимую точность с LLM.
Исследование также выявило важные ограничения современных LLM. Объяснения для выявления депрессии, сформулированные лучшей языковой моделью, были оценены клиническими психологами лишь на 2,84 балла из 5. В среднем каждое из объяснений содержало более двух ошибок, в том числе тавтологию, ложные выводы и искажение медицинских представлений о депрессии. Теоретически такие модели уже могут выступать полезным инструментом для предварительного скрининга, но они не призваны и не могут заменить врачей.
Фото: Yurchanka Siarhei/FOTODOM/Shutterstock
Ученые Института AIRI, ФИЦ ИУ РАН, ИСП РАН, МФТИ, РУДН и MBZUAI сравнили, насколько точно разные подходы автоматически определяют признаки депрессии и тревожности в текстах на русском языке. Для работы были выбраны классические алгоритмы машинного обучения, трансформеры и большие языковые модели (LLM). В перспективе они могут быть особенно полезны в медицинских приложениях.
Тексты для исследования специалисты брали из закрытых датасетов, включая как клинически подтвержденные случаи, так и данные, основанные на опросниках. Оценка эффективности проводилась по F1-score на контрольной выборке, а также с привлечением клинических психологов для анализа объяснений, сгенерированных LLM. Результаты показали: LLM значительно превосходят традиционные методы, особенно на небольших и «шумных» наборах данных, где тексты сильно различаются по длине и жанру. Но модели с психолингвистическими признаками и трансформеры, обученные на клинически валидированных данных, демонстрируют сопоставимую точность с LLM.
Исследование также выявило важные ограничения современных LLM. Объяснения для выявления депрессии, сформулированные лучшей языковой моделью, были оценены клиническими психологами лишь на 2,84 балла из 5. В среднем каждое из объяснений содержало более двух ошибок, в том числе тавтологию, ложные выводы и искажение медицинских представлений о депрессии. Теоретически такие модели уже могут выступать полезным инструментом для предварительного скрининга, но они не призваны и не могут заменить врачей.
