Ученые сосредоточились на трех документах: руководстве британского регулятора ICO о технологиях повышения приватности, гайде сингапурской комиссии по защите персональных данных PDPC об использовании синтетических данных и руководстве южнокорейской комиссии по защите информации PIPC. Эти документы впервые закрепляют требования к созданию и оценке синтетических данных – от правил работы с исходными наборами до критериев проверки их устойчивости и приватности.
Согласно исследованию, технологии генерации синтетических данных уже активно применяются в медицине для разработки и тестирования ИИ-моделей, создания открытых исследовательских наборов и проверки цифровых систем без использования реальной персональной информации. Регуляторы признают их перспективным инструментом, который способен снизить риски утечек и облегчить доступ к данным для научных целей, не нарушая требования конфиденциальности.
В то же время в руководствах, которые анализировали авторы, отмечается, что у такого подхода сохраняется ряд существенных уязвимостей. Синтетические данные могут воспроизводить смещения исходных наборов, тиражировать некорректные статистические зависимости или даже сохранять вероятность идентификации пациента, если генерирующая модель обучена некачественно или переобучена. Этим рискам уделяется центральное внимание во всех трех документах: предлагается проводить оценку уязвимости к раскрытию, проверять устойчивость синтетических данных к попыткам восстановления личности и контролировать качество результата на каждом этапе.
Отдельная проблема – отсутствие согласованных международных критериев. Ни одно из рассмотренных руководств не устанавливает четких пороговых значений, определяющих, какой уровень остаточного риска можно считать приемлемым. Вместо этого регуляторы дают методологические ориентиры: анализировать структуру данных, оценивать вероятность атрибутивного и членского раскрытия, сравнивать статистические свойства синтетических и реальных данных и проверять модели на предмет сохранения чувствительных закономерностей.
Авторы подчеркивают, что использование синтетических наборов не освобождает организации от требований законодательства о защите данных. Поскольку обучение генеративных моделей всегда опирается на реальные записи, обработка персональной информации должна сопровождаться прозрачным правовым основанием, а оценка рисков – документироваться. Синтетические данные могут считаться неперсональными только при подтверждении того, что вероятность восстановления личности сведена к «очень низкой».
По мнению исследователей, дальнейшее развитие технологий синтетических данных требует появления единых стандартов и метрик оценки приватности, а также механизмов независимой экспертизы. Эти инструменты могут определить скорость и масштаб внедрения синтетических наборов в цифровую медицину, где растущая потребность в данных неизбежно сталкивается с ужесточением требований к конфиденциальности и безопасной обработке информации.
Дополнительный интерес к вопросам приватности подчеркивают и недавние разработки в области автоматического обезличивания данных. Так, исследователи медицинского центра Asan в Сеуле (Южная Корея) создали ИИ-систему де-идентификации электронных медкарт на базе модели Klue-Bert: алгоритм удаляет персональные данные с точностью около 95%, сохраняя клинически важную информацию и работая быстрее крупных языковых моделей. Решение функционирует локально и соответствует требованиям южнокорейского законодательства о защите данных.
Ученые сосредоточились на трех документах: руководстве британского регулятора ICO о технологиях повышения приватности, гайде сингапурской комиссии по защите персональных данных PDPC об использовании синтетических данных и руководстве южнокорейской комиссии по защите информации PIPC. Эти документы впервые закрепляют требования к созданию и оценке синтетических данных – от правил работы с исходными наборами до критериев проверки их устойчивости и приватности.
Согласно исследованию, технологии генерации синтетических данных уже активно применяются в медицине для разработки и тестирования ИИ-моделей, создания открытых исследовательских наборов и проверки цифровых систем без использования реальной персональной информации. Регуляторы признают их перспективным инструментом, который способен снизить риски утечек и облегчить доступ к данным для научных целей, не нарушая требования конфиденциальности.
В то же время в руководствах, которые анализировали авторы, отмечается, что у такого подхода сохраняется ряд существенных уязвимостей. Синтетические данные могут воспроизводить смещения исходных наборов, тиражировать некорректные статистические зависимости или даже сохранять вероятность идентификации пациента, если генерирующая модель обучена некачественно или переобучена. Этим рискам уделяется центральное внимание во всех трех документах: предлагается проводить оценку уязвимости к раскрытию, проверять устойчивость синтетических данных к попыткам восстановления личности и контролировать качество результата на каждом этапе.
Отдельная проблема – отсутствие согласованных международных критериев. Ни одно из рассмотренных руководств не устанавливает четких пороговых значений, определяющих, какой уровень остаточного риска можно считать приемлемым. Вместо этого регуляторы дают методологические ориентиры: анализировать структуру данных, оценивать вероятность атрибутивного и членского раскрытия, сравнивать статистические свойства синтетических и реальных данных и проверять модели на предмет сохранения чувствительных закономерностей.
Авторы подчеркивают, что использование синтетических наборов не освобождает организации от требований законодательства о защите данных. Поскольку обучение генеративных моделей всегда опирается на реальные записи, обработка персональной информации должна сопровождаться прозрачным правовым основанием, а оценка рисков – документироваться. Синтетические данные могут считаться неперсональными только при подтверждении того, что вероятность восстановления личности сведена к «очень низкой».
По мнению исследователей, дальнейшее развитие технологий синтетических данных требует появления единых стандартов и метрик оценки приватности, а также механизмов независимой экспертизы. Эти инструменты могут определить скорость и масштаб внедрения синтетических наборов в цифровую медицину, где растущая потребность в данных неизбежно сталкивается с ужесточением требований к конфиденциальности и безопасной обработке информации.
Дополнительный интерес к вопросам приватности подчеркивают и недавние разработки в области автоматического обезличивания данных. Так, исследователи медицинского центра Asan в Сеуле (Южная Корея) создали ИИ-систему де-идентификации электронных медкарт на базе модели Klue-Bert: алгоритм удаляет персональные данные с точностью около 95%, сохраняя клинически важную информацию и работая быстрее крупных языковых моделей. Решение функционирует локально и соответствует требованиям южнокорейского законодательства о защите данных.
