Tuesday, July 23, 2024

Доменные атаки LLM

Состязательные атаки на LLM в медицине. Цель - заставить систему выдавать неверные рекомендации. Авторы показали успешное проведение атак как через состязательные промпты, так и через тонкую настройку (атакующий дообучает LLM, которую будут использовать пользователи)

См. также другие публикации, посвященные LLM

No comments: