Математики МФТИ научились измерять утечки в защищенных анклавах данных

Ученые МФТИ разработали строгий метод, позволяющий заранее ответить на вопрос, сколько именно запросов нужно, чтобы «сейф» с данными оказался взломан.
Современные системы обработки данных все чаще строятся так, чтобы никто, включая системного администратора, не мог получить доступ к отдельным записям. Анклав возвращает лишь агрегированную статистику: среднее, сумму, дисперсию, причем еще и с намеренно добавленным шумом для дополнительной защиты. Дифференциальная приватность, которая считается золотым стандартом защиты, гарантирует: ни один запрос не должен раскрывать информацию об отдельном человеке. Но если атакующий посылает тысячи запросов и комбинирует ответы с открытыми данными, это может привести к взлому.
Авторы формализовали атаку злоумышленника как задачу обращения оператора. Метод, предложенный учеными Физтеха, работает в три шага. Первый — оценка уровня шума анклава: система задает одинаковые запросы несколько раз подряд и по разбросу ответов вычисляет дисперсию помех. Второй — обучение предиктора под оцененный шум. Третий — проверка: удалось ли предиктору существенно предсказывать скрытый атрибут, или его точность статистически неотличима от случайного угадывания.
Ключевой результат исследования заключается во введении понятия «порога утечки» — q*. Это минимальное число запросов, при котором предиктор начинает работать достаточно хорошо, чтобы детектирование было статистически значимым. Если система позволяет задать вопросов меньше q*, она безопасна. Математически авторы показали: q* растет с уровнем шума монотонно — добавляя больше «тумана», анклав откладывает момент взлома. Но и обратное верно: при малом шуме q* может оказаться неожиданно маленьким, и «сейф» открывается гораздо быстрее, чем предполагают интуитивные оценки.
«Мы смотрим на задачу атаки глазами математика, работающего с некорректными уравнениями. Шум анклава — не просто помеха, это физический параметр системы, который нужно измерить и встроить в процедуру оценки. Как только мы это сделали, стало возможным точно отвечать на вопрос: достаточно ли вашего шума, или вам нужно добавить еще? До сих пор этот вопрос решался интуитивно», — рассказал один из авторов
исследования, научный сотрудник кафедры защиты информации ФРТК МФТИ Павел Галманов.
Метод также позволяет вычислить, через какой именно канал данных происходит утечка. Для каждого источника агрегатов вычисляется «вклад в предсказание»: если отключить этот канал, насколько упадет точность атаки. Каналы с высоким вкладом — кандидаты на огрубление, дополнительный шум или отключение. По сути, авторы дают оператору анклава аудиторский отчет: не просто «риск есть», а «риск — вот здесь, и вот конкретные меры».
Фундаментальное значение работы состоит в том, что она переводит вопрос безопасности анклава из категории «либо защищено, либо нет» в количественное измерение. Дифференциальная приватность дает формальные гарантии в наихудшем случае; предложенный метод спрашивает: а что происходит в реальном сценарии, с реальными параметрами шума и реальными возможностями злоумышленника?
Подход уже прошел испытание в реальных условиях: метод был внедрен в банковскую платформу скоринга рисков, агрегирующую данные от нескольких операторов.
По мнению ученых, подход открывают путь к разработке стандартов аудита приватных анклавов — аналога финансового аудита, но для систем защиты персональных данных. Следующий шаг — распространение подхода на адаптивных атакующих, которые не задают заранее определенные запросы, а строят стратегию в режиме реального времени, опираясь на уже полученные ответы.
Источник: Официальный ресурс Министерства образования и науки Российской Федерации