Nature: ИИ может раскрыть данные пациента из обучающей выборки модели

Авторы проанализировали семь крупных медицинских наборов данных, включавших медицинские изображения, электрокардиограммы и электронные медкарты. Они показали, что современные методы кибератак способны с высокой точностью определить, входили ли данные конкретного пациента в обучающую выборку, даже если совокупные показатели безопасности модели свидетельствуют о низком уровне риска. Наиболее уязвимыми оказались пациенты из недостаточно представленных групп, выделенных по заболеванию, полу, расовой принадлежности, страховому статусу или особенностям протоколов визуализации.

Исследователи отмечают, что подобные атаки могут иметь серьезные последствия в медицинской сфере. Если модель обучалась на данных пациентов с определенным заболеванием, успешное определение факта участия человека в обучающей выборке само по себе может раскрыть конфиденциальную информацию о состоянии его здоровья. Для проведения атаки злоумышленнику достаточно получить ответы модели – доступ к исходным данным или ее внутреннему устройству не требуется.

Кроме того, исследователи установили, что с увеличением размера и производительности моделей возрастает число пациентов, чьи данные становятся максимально уязвимыми для подобных атак. При этом применение методов дифференциальной приватности во время обучения существенно снижало вероятность успешного восстановления информации, хотя, по мнению авторов, имеющиеся механизмы защиты необходимо совершенствовать с учетом риска для каждого пациента, а не только отдельных записей.

По мнению исследователей, результаты указывают на необходимость пересмотра подходов к оценке безопасности медицинского ИИ. Вместо использования только усредненных показателей они предлагают проводить аудит конфиденциальности на уровне отдельных пациентов и шире применять математически проверяемые механизмы защиты данных при разработке и внедрении медицинских ИИ-систем.

В 2025 году исследователи из Университета Оттавы проанализировали первые международные рекомендации по использованию синтетических медицинских данных и пришли к выводу, что даже искусственно сгенерированные наборы нельзя считать автоматически безопасными. Регуляторы Великобритании, Сингапура и Южной Кореи потребовали оценивать остаточный риск повторной идентификации пациентов и подчеркнули, что применение таких технологий не освобождает разработчиков медицинского ИИ от соблюдения требований по защите персональных данных.