Recipe.Ru

Конфиденциальность при работе с большими данными в здравоохранении. Главное с форума «Цифровые решения»

Конфиденциальность при работе с большими данными в здравоохранении. Главное с форума «Цифровые решения»


Замруководителя направления ИИ холдинга Т1 Сергей Карпович отметил, что рынок конфиденциальных вычислений в России демонстрирует быстрый рост: если ранее обороты измерялись несколькими миллиардами рублей, то к 2030-м годам отрасль может приблизиться к 100 млрд рублей. По его словам, рост интереса к технологиям защиты данных связан с нежеланием компаний обмениваться информацией и ужесточением регулирования в сфере персональных и чувствительных данных.


«Государство в этом плане защищает граждан, защищает людей, всячески сокращая возможности по использованию данных человека. Конечно, все больше и больше компании уходят в сторону экосистемных проектов, мы хотим комплексно анализировать, что происходит вокруг человека. Без объединения данных из разных источников, без сбора большого количества разной информации, это решается очень сложно. При этом мы сталкиваемся с определенными барьерами. Самый, наверное, большой из них – это инвестиционные затраты. Ну и конечно же требуется квалифицированные специалисты», – подчеркнул Карпович.


Карпович выделил три ключевых класса технологий – инструментов конфиденциальных вычислений:


– доверенные среды исполнения (TEE) – быстрые и относительно зрелые технологии, применимые в «облаках» и медисследованиях;


– безопасные совместные вычисления (MPC) – востребованы, когда две или более организаций тренируют совместные модели без прямой передачи данных;


–гомоморфное шифрование – обеспечивает 100% приватность, однако обладает скоростью до 1 000 раз ниже, чем в обычных операциях.


«Эти технологии не противоречат друг другу. Они применяются просто для разного комплекса задач. У них есть плюсы, у них есть минусы. И наша с вами задача понять, где и в каких случаях правильнее использовать ту или иную технологию», – резюмировал эксперт.


Замминистра цифрового развития, связи и массовых коммуникаций РФ Александр Шойтов призвал начинать проекты в сфере конфиденциальных вычислений с четкого определения целей: для повышения защиты, создания нового способа обмена данными или для доказательства эффективности конкретной модели. Он указал на необходимость тестирования решений в защищенных «песочницах» (с помощью метода обеспечения безопасности, при котором программа выполняется в изолированной среде), продвижения стандартизации синтетических данных, формирования механизмов оценки эффективности обезличивания и развития нормативной базы для конфиденциальных вычислений.


Замглавы Минцифры также отметил распространенное заблуждение: многие компании до сих пор воспринимают конфиденциальные вычисления как «закрытый контур», хотя их базовый принцип – обработка данных в облаке без раскрытия содержимого.


Директор по данным и цифровым технологиям AstraZeneca Василий Король назвал медицину одной из самых зарегулированных отраслей: «IT-системы, которые участвуют в процессе формирования медицинского лекарственного средства, обязательно должны пройти GLP-сертификацию, валидацию и так далее. И это правильно, потому что это очень чувствительная сфера, мы не должны ошибаться. Также данных в медицине гораздо больше, они очень разнообразны. В Единой государственной информационной системе здравоохранения (ЕГИСЗ) с прошлого года накоплено около 2 млрд медицинских записей. Но, к сожалению, сейчас доступ к этой системе имеет только Минздрав России».


Василий Король подчеркнул, что даже внутри фармкомпаний данные доступны в жестко ограниченном и полностью анонимизированном виде, что создает препятствия при проведении исследований реальной клинической практики. «Мы не можем отправить какую-то свою модель, какие-то вычисления делать на стороне регулятора тоже не можем. Это сейчас невозможно», – заявил специалист.


Генеральный директор компании BloomTech Петр Емельянов, дополняя слова Василия Короля, отметил, что безопасные совместные вычисления применяется в России уже несколько лет, в частности, для анализа медицинских данных без передачи чувствительных сведений между участниками: «У нас есть «пилоты» в различных областях, в том числе и медицине: между лабораторией, которая частично секвенируют геномы, и медицинским центром, у которого есть анамнезы, то есть диагнозы настоящих пациентов, которые, соответственно, поставлены настоящими врачами. И никакого искусственного интеллекта. Довольно простой расчет. По большому счету, много разных статистических тестов, которые доказали определенную связь между фенотипическими и генотипическими признаками, конкретно обусловленность некоторых сердечно-сосудистых заболеваний тем или иными особенностями генома. Все сделали с помощью MPC, без передачи данных ни в одну из сторон».


Руководитель проекта департамента монетизации данных Т-Банка Диана Наумова считает, что сейчас недостаточно только общедоступных данных. «Нам нужны данные, которые узкоспециализированные, профильные. Это банковская тайна, тайна связи, медицинская тайна. И здесь самые важные данные фрагментированы. Для того, чтобы их использовать, нужно создавать дата-продукты – простые базовые статистики, скоринговые рекомендательные модели, и более мощные генеративные модели, отраслевые, малые, языковые модели, ИИ-агенты, страховые, банковские или медицинские. У нас в целом есть для этого вся технологическая база, мы можем применять конфиденциальные вычисления, используя паттерны и функции от этих данных, чтобы получать нужный нам бизнес-результат», – подчеркнула Наумова.


По мнению руководителя проектов Ассоциации больших данных Марата Халиева, следующий этап развития отрасли – переход к измеримым метрикам приватности: «В России накоплены очень большие компетенции в области работы с чувствительными данными, их защиты, конфиденциальной обработки. И кажется, что для перехода на следующий этап, а именно нахождение компромисса между обеспечением прав граждан, неприкосновенностью их частной жизни и внедрением инновационных технологий и формированием экономики данных, необходимо переходить на язык конкретных чисел, которые можно сопоставить между собой и с помощью них оценить то или иное решение с точки зрения надежности и безопасности. <…> Нам действительно нужно, с одной стороны, ускорять внедрение этих технологий, но при этом оставлять за государством возможность контролировать и осуществлять оценку безопасности таких решений».


По итогам дискуссии эксперты выделили шаги, необходимые для массового внедрения конфиденциальных вычислений в России в течение 3-5 лет Это переход к тестированию конкретного продукта для отдельно взятых отраслей, стандартизация синтетических данных и методов обезличивания, развитие нормативной базы и правовых режимов для PET, ускоренная сертификация технологий, формирование межведомственных центров компетенций и расширение экспериментов, а также популяризация конфиденциальных вычислений среди бизнеса и регуляторов.


Замруководителя направления ИИ холдинга Т1 Сергей Карпович отметил, что рынок конфиденциальных вычислений в России демонстрирует быстрый рост: если ранее обороты измерялись несколькими миллиардами рублей, то к 2030-м годам отрасль может приблизиться к 100 млрд рублей. По его словам, рост интереса к технологиям защиты данных связан с нежеланием компаний обмениваться информацией и ужесточением регулирования в сфере персональных и чувствительных данных.


«Государство в этом плане защищает граждан, защищает людей, всячески сокращая возможности по использованию данных человека. Конечно, все больше и больше компании уходят в сторону экосистемных проектов, мы хотим комплексно анализировать, что происходит вокруг человека. Без объединения данных из разных источников, без сбора большого количества разной информации, это решается очень сложно. При этом мы сталкиваемся с определенными барьерами. Самый, наверное, большой из них – это инвестиционные затраты. Ну и конечно же требуется квалифицированные специалисты», – подчеркнул Карпович.


Карпович выделил три ключевых класса технологий – инструментов конфиденциальных вычислений:


– доверенные среды исполнения (TEE) – быстрые и относительно зрелые технологии, применимые в «облаках» и медисследованиях;


– безопасные совместные вычисления (MPC) – востребованы, когда две или более организаций тренируют совместные модели без прямой передачи данных;


–гомоморфное шифрование – обеспечивает 100% приватность, однако обладает скоростью до 1 000 раз ниже, чем в обычных операциях.


«Эти технологии не противоречат друг другу. Они применяются просто для разного комплекса задач. У них есть плюсы, у них есть минусы. И наша с вами задача понять, где и в каких случаях правильнее использовать ту или иную технологию», – резюмировал эксперт.


Замминистра цифрового развития, связи и массовых коммуникаций РФ Александр Шойтов призвал начинать проекты в сфере конфиденциальных вычислений с четкого определения целей: для повышения защиты, создания нового способа обмена данными или для доказательства эффективности конкретной модели. Он указал на необходимость тестирования решений в защищенных «песочницах» (с помощью метода обеспечения безопасности, при котором программа выполняется в изолированной среде), продвижения стандартизации синтетических данных, формирования механизмов оценки эффективности обезличивания и развития нормативной базы для конфиденциальных вычислений.


Замглавы Минцифры также отметил распространенное заблуждение: многие компании до сих пор воспринимают конфиденциальные вычисления как «закрытый контур», хотя их базовый принцип – обработка данных в облаке без раскрытия содержимого.


Директор по данным и цифровым технологиям AstraZeneca Василий Король назвал медицину одной из самых зарегулированных отраслей: «IT-системы, которые участвуют в процессе формирования медицинского лекарственного средства, обязательно должны пройти GLP-сертификацию, валидацию и так далее. И это правильно, потому что это очень чувствительная сфера, мы не должны ошибаться. Также данных в медицине гораздо больше, они очень разнообразны. В Единой государственной информационной системе здравоохранения (ЕГИСЗ) с прошлого года накоплено около 2 млрд медицинских записей. Но, к сожалению, сейчас доступ к этой системе имеет только Минздрав России».


Василий Король подчеркнул, что даже внутри фармкомпаний данные доступны в жестко ограниченном и полностью анонимизированном виде, что создает препятствия при проведении исследований реальной клинической практики. «Мы не можем отправить какую-то свою модель, какие-то вычисления делать на стороне регулятора тоже не можем. Это сейчас невозможно», – заявил специалист.


Генеральный директор компании BloomTech Петр Емельянов, дополняя слова Василия Короля, отметил, что безопасные совместные вычисления применяется в России уже несколько лет, в частности, для анализа медицинских данных без передачи чувствительных сведений между участниками: «У нас есть «пилоты» в различных областях, в том числе и медицине: между лабораторией, которая частично секвенируют геномы, и медицинским центром, у которого есть анамнезы, то есть диагнозы настоящих пациентов, которые, соответственно, поставлены настоящими врачами. И никакого искусственного интеллекта. Довольно простой расчет. По большому счету, много разных статистических тестов, которые доказали определенную связь между фенотипическими и генотипическими признаками, конкретно обусловленность некоторых сердечно-сосудистых заболеваний тем или иными особенностями генома. Все сделали с помощью MPC, без передачи данных ни в одну из сторон».


Руководитель проекта департамента монетизации данных Т-Банка Диана Наумова считает, что сейчас недостаточно только общедоступных данных. «Нам нужны данные, которые узкоспециализированные, профильные. Это банковская тайна, тайна связи, медицинская тайна. И здесь самые важные данные фрагментированы. Для того, чтобы их использовать, нужно создавать дата-продукты – простые базовые статистики, скоринговые рекомендательные модели, и более мощные генеративные модели, отраслевые, малые, языковые модели, ИИ-агенты, страховые, банковские или медицинские. У нас в целом есть для этого вся технологическая база, мы можем применять конфиденциальные вычисления, используя паттерны и функции от этих данных, чтобы получать нужный нам бизнес-результат», – подчеркнула Наумова.


По мнению руководителя проектов Ассоциации больших данных Марата Халиева, следующий этап развития отрасли – переход к измеримым метрикам приватности: «В России накоплены очень большие компетенции в области работы с чувствительными данными, их защиты, конфиденциальной обработки. И кажется, что для перехода на следующий этап, а именно нахождение компромисса между обеспечением прав граждан, неприкосновенностью их частной жизни и внедрением инновационных технологий и формированием экономики данных, необходимо переходить на язык конкретных чисел, которые можно сопоставить между собой и с помощью них оценить то или иное решение с точки зрения надежности и безопасности. <…> Нам действительно нужно, с одной стороны, ускорять внедрение этих технологий, но при этом оставлять за государством возможность контролировать и осуществлять оценку безопасности таких решений».


По итогам дискуссии эксперты выделили шаги, необходимые для массового внедрения конфиденциальных вычислений в России в течение 3-5 лет Это переход к тестированию конкретного продукта для отдельно взятых отраслей, стандартизация синтетических данных и методов обезличивания, развитие нормативной базы и правовых режимов для PET, ускоренная сертификация технологий, формирование межведомственных центров компетенций и расширение экспериментов, а также популяризация конфиденциальных вычислений среди бизнеса и регуляторов.

Exit mobile version