Tuesday, February 28, 2023

Всемирная история ядов

В настоящей статье рассматривается один из возможных классов атак на системы машинного обучения – атаки отравлением. Классически, атаки отравлением – это специальные модификации тренировочных данных, которые призваны воздействовать на полученную после обучения модель необходимым атакующему образом. Атаки могут быть направлены на то, чтобы понизить общую точность или честность модели, или же на то, чтобы, например, обеспечить, при определенных условиях, необходимый результат классификации. Техника осуществления такого рода атак включает алгоритмы для определения элементов тренировочных данных, в наибольшей степени ответственных за результаты обучения (за выработанные обобщения), минимизацию количества отравляемых данных, а также за обеспечение максимальной незаметности проводимых изменений. Среди атак отравления наиболее опасными являются так называемые трояны (бэкдоры), когда посредством специальным образом подготовленных тренировочных данных добиваются изменения логики работы модели для определенным образом помеченных входных данных. Помимо модификации тренировочных данных к атакам отравления относят также прямые атаки на готовые модели машинного обучения или их исполняемый код.

Атаки отравления данных на модели машинного обучения

No comments: