Wednesday, May 03, 2023

Схемы атак на модели машинного обучения

В настоящей статье рассматриваются схемы атак на системы искусственного интеллекта (на модели машинного обучения). Классически, атаки на системы машинного обучения - это специальные модификации данных на одном из этапов конвейера машинного обучения, которые призваны воздействовать на модель необходимым атакующему образом. Атаки могут быть направлены на то, чтобы понизить общую точность или честность модели, или же на то, чтобы, например, обеспечить, при определенных условиях, необходимый результат классификации. Другие формы атак могут включать непосредственное воздействие на модели машинного обучения (их код) с теми же целями, что и выше. Есть еще специальный класс атак, который направлен на извлечение из модели ее логики (алгоритма) или информации о тренировочном наборе данных. В последнем случае не происходит модификации данных, но используются специальным образом подготовленные множественные запросы к модели.

Общей проблемой для атак на модели машинного обучения является тот факт, что модифицированные данные есть такие же легитимные данные, что и не подвергшиеся модификации. Соответственно нет явного способа однозначно определить такого рода атаки. Их эффект в виде неправильного функционирования модели может проявиться и без целенаправленного воздействия. По факту, атакам подвержены все дискриминантные модели.

Отсюда

No comments: