AbavaNet technical corner: Косвенные инъекции

Tuesday, September 16, 2025

Косвенные инъекции

Большие языковые модели (LLM), настроенные на выполнение инструкций, достигли прорывных результатов, открывая бесчисленные новые возможности для множества практических приложений. Однако в LLM отсутствуют элементарные функции безопасности, которые являются устоявшимися нормами в других областях компьютерной науки, такие как разделение инструкций и данных, что приводит к их сбоям или делает их уязвимыми для манипуляций и вмешательства третьих лиц, например, посредством косвенного введения подсказок/команд. Хуже того, до сих пор не существует даже общепринятого определения того, что именно означает такое разделение и как можно проверить его нарушение. В данной работе мы стремимся восполнить этот пробел. Мы вводим формальную меру для количественной оценки феномена разделения инструкций и данных, а также эмпирический вариант этой меры, который можно вычислить на основе выходных данных модели, полученных в режиме «черного ящика». Мы также вводим новый набор данных SEP (Should it be Executed or Processed?), позволяющий оценить эту меру, и сообщаем результаты по нескольким современным LLM с открытым и закрытым исходным кодом. Наконец, мы количественно продемонстрировали, что все оцененные LLM не достигают высокой степени разделения, согласно нашим измерениям. Исходный код и набор данных SEP доступны в открытом доступе по адресу https://github.com/egozverev/Shold-It-Be-Executed-Or-Processed. - Can LLMs Separate Instructions From Data? And What Do We Even Mean By That?

См. также другие публикации, посвященные LLM

Tuesday, September 16, 2025

Косвенные инъекции

No comments: