Skip to content

Введение

В последние 10 лет нейронные сети стали стандартным решением различных задач компьютерного зрения. Победа сверточной нейронной сети AlexNet на соревновании по распознаванию изображений ImageNet Large-Scale Visual Recognition Challenge (ILSVRC) в 2012 году с качеством (accuracy) более 63% и большим преимуществом над конкурентами вызвала в научном сообществе огромный интерес к исследованию сверточных нейронных сетей.

Дальнейший прогресс в этой области привел к тому, что по состоянию на конец 2022 года качество классификации на валидационной выборке набора данных ImageNet повысилось до 91%. Также были достигнуты успехи во других задачах компьютерного зрения: детекции объектов, семантической сегментации, распознавании лиц, обработке видео и т.д. Это дало повод многим исследователям в данной области утверждать, что нейронные сети вышли на человеческий уровень решения задач компьютерного зрения, или даже превзошли человека.

Однако уже в 2013 году в статье "Intriguing properties of neural networks" было открыто существование состязательных примеров (adversarial examples). Авторы статьи показали, что добавление к обычным изображениям незначительного и незаметного для человека состязательного шума может привести к тому, что полученное состязательное изображение будет неверно классифицировано нейронной сетью с большой уверенностью в неправильном классе. Такая уязвимость нейронных сетей может стать критической для многих систем, которые основаны на распознавании изображений. С тех пор область состязательных атак стала активно развиваться. Множество различных атак было придумано для различных задач компьютерного зрения в разных моделях угроз (то есть при разных знаний злоумышленника об атакуемой модели, при атаках в цифровом и реальном мире и так далее), а также и для других задач, где используются нейронные сети: обработка естественного языка, распознавание речи, рекомендательные системы, задачи с временными рядами, задачи с графами и другие. Соответственно, для противодействия этим атакам стали предлагаться различные методы защиты моделей машинного обучения.

На конец 2022 года вышло более "A Complete List of All (arXiv) Adversarial Example Papers"(6 тысяч статей), посвященных атакам, защитам и вопросам робастности нейронных сетей, решающих задачи для разных типов данных. Текущее состояние этой области машинного обучения таково, что нейронные сети по-прежнему уязвимы для множества атак и методов защиты от них не существует. Модели, обученные традиционными способами (например, в парадигме обучения с учителем) могут показывать высокие метрики на валидационных или тестовых выборках известных наборов данных, однако при применении к этим же изображениям состязательных атак, то есть наложении небольшого шума, качество классификации этих моделей снижается до 0%. Различные методы позволяют повысить качество классификации при атаках. Однако получаемое после проведения атак качество классификации значительно меньше, чем качество классификации изображений из тестовых выборок.

Таким образом, задача создания моделей машинного обучения, которые были бы устойчивыми относительно различных атак и возмущений несостязательного характера остается нерешенной. Несмотря на это, многие модели машинного обучения внедряются в промышленную эксплуатацию, в том числе в критически важные приложения, использующиеся в авионике, автономном вождении, биометрии (в том числе в системах безопасности, банковской сфере) и других важнейших сферах. Поэтому необходимо понимание угроз, которым подвержены подобные приложения, в том числе с точки зрения уязвимости моделей машинного обучения.

Последствиями пренебрежения к вопросам безопасности могут стать следующие явления. В цифровом мире злоумышленники могут попытаться с помощью атаки обойти фильтры нежелательного контента и загрузить на сайт или в социальную сеть запрещенную информацию. Также злоумышленник может попытаться обмануть различные поисковые системы, индексирующие изображения, связав,например, продукцию какой-либо компании с каким-то неприятным для людей понятием и тем самым нанеся компании репутационные издержки.

В физическом мире (а часть атак созданы именно для этого) злоумышленник может попытаться дезориентировать систему автономного вождения, заставив его неверно классифицировать дорожный знак или не заметить существующий объект. Также некоторый преступник может попытаться пройти незамеченным мимо системы автоматического видеонаблюдения(далее будет рассмотрен пример с состязательной футболкой) или попытаться выдать себя за другую личность при биометрии и тем самым получив несанкционированный доступ к чему-то.

Данное пособие стремится дать общий обзор самых важных и сильных состязательных атак на модели компьютерного зрения, методов повышения робастности моделей относительно этих атак и различных возмущений изображений несостязательного характера. Пособие организовано следующим образом. Главы 1-5 посвящены различным видам состязательных атак на сверточные нейронные сети. В главах 6-9 описываются основные виды защит от состязательных атак. В главе 10 рассматривается вопросы робастности сверточных нейронных сетей относительно возмущений несостязательного характера. В главе 11 приводятся общие рекомендации по оценке робастности моделей машинного обучения. Глава 12, в отличие от предыдущих глав, где объектом рассмотрения были сверточные нейронные сети, посвящена аналогичным вопросам робастности относительно состязательных и несостязательных возмущений применительно к зрительным трансформерам. Наконец, в главе 13 приводятся различные гипотезы причин существования состязательных примеров для нейронных сетей.