Модель показала высокую надежность: почти в 95 случаях из 100 она корректно находит и скрывает персональные данные, не искажая медицинский контент. Для сравнения: на тестах система обработала тысячу строк медицинских записей за 106 секунд – примерно в 3–4 раза быстрее, чем популярные большие языковые модели, такие как Llama3 (разработка компании Meta, признанной экстремистской и запрещенной в РФ) и EEVE (южнокорейская модель).
Несмотря на то что KLUE-BERT содержит всего 110 млн параметров – в десятки раз меньше, чем у Llama3 и EEVE, именно эта модель показала лучшие результаты. При тестировании на тысяче примеров она выдала более 580 точных совпадений с контрольным набором данных, тогда как Llama3 – 366, а EEVE – 327.
Для обучения использовался массив из 611 тысяч строк выписок пациентов медцентра Asan, дополненный почти 20 тысячами синтетически созданных предложений. Такой подход повысил устойчивость алгоритма к разнородным данным и позволил системе корректно классифицировать более 200 категорий личной информации: от имен пациентов и врачей до дат, названий организаций и географических объектов.
Разработчики подчеркивают, что решение не требует облачных сервисов и может устанавливаться локально на стандартное больничное оборудование через интерфейс Gradio. Это важно для соответствия южнокорейскому закону о защите персональных данных (PIPA) и поправкам к «Трем законам о данных», регулирующим работу с обезличенной медицинской информацией. Параллельно исследователи совместно с Министерством здравоохранения и социального обеспечения страны готовят внедрение FHIR-шаблонов – международного стандарта обмена медданными, который задает единый формат для хранения и передачи информации между клиниками.
Ежедневно в медцентре Asan фиксируется около 12 тысяч амбулаторных визитов и 2,6 тысячи госпитализаций, генерирующих большие объемы ЭМК. По оценке авторов, новая система позволит обрабатывать такие данные в реальном времени, снижая затраты на подготовку массивов для исследований и упрощая сотрудничество медцентров, университетов и фарминдустрии.
Ранее исследователи из Вашингтонского университета в Сент-Луисе и Мичиганского университета совместно с коллегами из Китая предложили использовать для обучения алгоритмов не только данные пациентов, но и цифровые следы взаимодействия врачей с ЭМК – от кликов и переходов по разделам до реакции на уведомления. В крупном исследовании такой метод позволил повысить точность прогноза выписки с AUC 0,86 до 0,92 (параметр, на основании которого осуществляется клиническая оценка сервисов) и снизить внутрибольничную смертность на 35,6%. По мнению авторов, сочетание поведенческих сигналов с клиническими данными делает ИИ в медицине более контекстным и приближенным к реальной практике.
Модель показала высокую надежность: почти в 95 случаях из 100 она корректно находит и скрывает персональные данные, не искажая медицинский контент. Для сравнения: на тестах система обработала тысячу строк медицинских записей за 106 секунд – примерно в 3–4 раза быстрее, чем популярные большие языковые модели, такие как Llama3 (разработка компании Meta, признанной экстремистской и запрещенной в РФ) и EEVE (южнокорейская модель).
Несмотря на то что KLUE-BERT содержит всего 110 млн параметров – в десятки раз меньше, чем у Llama3 и EEVE, именно эта модель показала лучшие результаты. При тестировании на тысяче примеров она выдала более 580 точных совпадений с контрольным набором данных, тогда как Llama3 – 366, а EEVE – 327.
Для обучения использовался массив из 611 тысяч строк выписок пациентов медцентра Asan, дополненный почти 20 тысячами синтетически созданных предложений. Такой подход повысил устойчивость алгоритма к разнородным данным и позволил системе корректно классифицировать более 200 категорий личной информации: от имен пациентов и врачей до дат, названий организаций и географических объектов.
Разработчики подчеркивают, что решение не требует облачных сервисов и может устанавливаться локально на стандартное больничное оборудование через интерфейс Gradio. Это важно для соответствия южнокорейскому закону о защите персональных данных (PIPA) и поправкам к «Трем законам о данных», регулирующим работу с обезличенной медицинской информацией. Параллельно исследователи совместно с Министерством здравоохранения и социального обеспечения страны готовят внедрение FHIR-шаблонов – международного стандарта обмена медданными, который задает единый формат для хранения и передачи информации между клиниками.
Ежедневно в медцентре Asan фиксируется около 12 тысяч амбулаторных визитов и 2,6 тысячи госпитализаций, генерирующих большие объемы ЭМК. По оценке авторов, новая система позволит обрабатывать такие данные в реальном времени, снижая затраты на подготовку массивов для исследований и упрощая сотрудничество медцентров, университетов и фарминдустрии.
Ранее исследователи из Вашингтонского университета в Сент-Луисе и Мичиганского университета совместно с коллегами из Китая предложили использовать для обучения алгоритмов не только данные пациентов, но и цифровые следы взаимодействия врачей с ЭМК – от кликов и переходов по разделам до реакции на уведомления. В крупном исследовании такой метод позволил повысить точность прогноза выписки с AUC 0,86 до 0,92 (параметр, на основании которого осуществляется клиническая оценка сервисов) и снизить внутрибольничную смертность на 35,6%. По мнению авторов, сочетание поведенческих сигналов с клиническими данными делает ИИ в медицине более контекстным и приближенным к реальной практике.