Экзаменационные вопросы по курсу "Атаки на системы искусственного интеллекта"
Понятие атаки на модель машинного обучения. Возможные угрозы от атак на системы компьютерного зрения. Виды атак на модели компьютерного зрения. Классификация атак на модели компьютерного зрения.
L-BFGS. FGSM. Basic Iterative Method (Projected Gradient Descent). Их сравнение. Iterative FGSM with momentum.
DeepFool. Fast Adaptive Boundary. Универсальные по датасету атаки.
Атака Карлини и Вагнера.
Auto-PGD.
Атаки в режиме черного ящика. One pixel attack. Атака не распознаваемыми изображениями. ZOO.
Понятие робастности модели. Современные методы оценивания робастности модели. Виды и классификация защит от состязательных примеров.
Состязательное обучение с FGSM-сэмплами.
Состязательное обучение с PGD-сэмплами (Madry defense).
TRADES.
Улучшения состязательного обучения.
Усложнение синтеза состязательных примеров. Методы обхода таких защит.
Детектирование состязательных примеров. Методы обхода таких защит.
Сертификация робастности на основе случайного сглаживания. Состязательное обучение сглаженных классификаторов.
Определение непрерывности по Липшицу. Норма линейного оператора. Вывод константы Липшица для Fully-connected слоя. Вывод константы Липшица для Residual блоков. Ограничение подхода сертификации с константой Липшица
LLM. Основные принципы обучения LLM. RLHF. Jailbreaking. Разные виды Jailbreaking. Атаки с автоматической оптимизацией промпта. Подходы на основе эмбеддингов и на основе one-hot кодирования. Универсальная и переносимая атака на LLM
Формальное определение двух типов угроз при атаке отравлением. Формальное определение и сравнение атак отравлением Blended, BadNet, SSBA, WaNet, BPP.
Формальное определение двух типов угроз при атаке отравлением. Основные критерии защит от атак отравлением. Формальное определение защит: Activation clustering+neural cleanse, Fine-prunning, ABL, NAD, DBD.