Экзаменационные вопросы по курсу "Атаки на системы искусственного интеллекта"
- Понятие атаки на модель машинного обучения. Возможные угрозы от атак на системы компьютерного зрения. Виды атак на модели компьютерного зрения. Классификация атак на модели компьютерного зрения.
- L-BFGS. FGSM. Basic Iterative Method (Projected Gradient Descent). Их сравнение. Iterative FGSM with momentum.
- DeepFool. Fast Adaptive Boundary. Универсальные по датасету атаки.
- Атака Карлини и Вагнера.
- Auto-PGD.
- Атаки в режиме черного ящика. One pixel attack. Атака не распознаваемыми изображениями. ZOO.
- Square Attack. Boundary Attack.
- Переносимость состязательных примеров. Атака с обучением суррогата. Улучшение переносимости целевых состязательных атак.
- Понятие робастности модели. Современные методы оценивания робастности модели. Виды и классификация защит от состязательных примеров.
- Состязательное обучение с FGSM-сэмплами.
- Состязательное обучение с PGD-сэмплами (Madry defense).
- TRADES.
- Улучшения состязательного обучения.
- Усложнение синтеза состязательных примеров. Методы обхода таких защит.
- Детектирование состязательных примеров. Методы обхода таких защит.
- Сертификация робастности на основе случайного сглаживания. Состязательное обучение сглаженных классификаторов.
- Определение непрерывности по Липшицу. Норма линейного оператора. Вывод константы Липшица для Fully-connected слоя. Вывод константы Липшица для Residual блоков. Ограничение подхода сертификации с константой Липшица
- LLM. Основные принципы обучения LLM. RLHF. Jailbreaking. Разные виды Jailbreaking. Атаки с автоматической оптимизацией промпта. Подходы на основе эмбеддингов и на основе one-hot кодирования. Универсальная и переносимая атака на LLM
- Формальное определение двух типов угроз при атаке отравлением. Формальное определение и сравнение атак отравлением Blended, BadNet, SSBA, WaNet, BPP.
- Формальное определение двух типов угроз при атаке отравлением. Основные критерии защит от атак отравлением. Формальное определение защит: Activation clustering+neural cleanse, Fine-prunning, ABL, NAD, DBD.