Состязательные
атаки на LLM в медицине. Цель - заставить систему выдавать неверные рекомендации.
Авторы показали успешное проведение атак как через состязательные промпты, так и через тонкую настройку (атакующий дообучает LLM, которую будут использовать пользователи)
См. также другие публикации, посвященные LLM
No comments:
Post a Comment