Ученые МИФИ разработали архитектуру нейросети, устойчивую к «отравленным» данным

21 апреля 2026г., 17:00

Специалисты НИЯУ МИФИ разработали рабочую нейросеть под названием MambaShield для серверов, банковской, медицинской и промышленной сферы, защищенную от «атак отравления».

Большинство современных ИИ-моделей обладают фундаментальной уязвимостью перед так называемыми «атаками отравления». Если злоумышленник подмешивает в обучающие данные вредоносные образцы (data poisoning), логика работы модели целенаправленно изменяется, что позволяет впоследствии провести атаку.

В случае с последовательными данными (логические сети, временные ряды датчиков, финансовые транзакции) такие атаки особенно коварны. Вред наносится не сразу, а растягивается во времени: сначала чуть-чуть, потом еще, и еще, при этом сама модель внешне продолжает функционировать корректно. Классические алгоритмы защиты либо пропускают угрозу, либо требуют огромных вычислительных ресурсов для ее предотвращения.

Предложенная учеными МИФИ архитектура MambaShield относится к селективным моделям в пространстве состояний (Selective State Space Models, sSSM). Такие модели, в отличие от классических SSM, способны адаптироваться к входным данным. Модель обучается динамически решать, какую информацию из прошлого контекста сохранить, а какую отбросить. Механизм селекции позволяет эффективно обнаруживать «отравленные» образцы в массиве обучающих данных.

MambaShield объединяет три инновационные технологии. Прогрессивная дистилляция устойчивости (PARD) передает знания нескольких моделей-«учителей» одному компактному «ученику». Иерархическое обучение с подкреплением (HRL) позволяет системе адаптироваться к меняющемуся поведению нарушителя в реальном времени. PAC-Bayesian сертификация дает математические гарантии устойчивости: даже при «отравлении» 30 % данных точность останется выше 97 %.

Эксперименты, проведенные на трех сложнейших наборах данных о кибератаках (CIC-IoT-2023, CSE-CICIDS2018, UNSW-NB15), включающих миллионы образцов вредоносного трафика, показали, что точность обнаружения «отравленных» данных в текущем режиме у новой архитектуры составляет 99,1 % (у лучших аналогов — около 97%). При атаке точность падает всего на 2-3 %, тогда как обычные модели деградируют на 18-2 0%.

«На практике это означает меньше пропущенных угроз, меньше ложных тревог и меньшие счета за облачные вычисления», — отмечают авторы.

По словам исследователей, разработка не ограничивается защитой серверов. Предлагаемая архитектура может быть использована как основа для доверенного ИИ, используемого в промышленности и беспилотном транспорте, на атомных станциях, в финансовых и медицинских организациях.

Источник: Официальный ресурс Министерства образования и науки Российской Федерации