Sunday, April 12, 2026

Какая ваша роль?

Языковые модели остаются уязвимыми для атак с внедрением подсказок, несмотря на обширное обучение технике безопасности. Мы связываем эту неудачу с путаницей ролей: модели определяют роли по тому, как написан текст, а не по тому, откуда он взят. Мы разработали новые методы проверки ролей, чтобы понять, как модели внутренне определяют «кто говорит». Это показывает, почему внедрение подсказок работает: ненадежный текст, имитирующий роль, наследует авторитет этой роли. Мы проверяем это понимание, внедряя поддельные рассуждения в пользовательские подсказки и выходные данные инструмента, достигая средних показателей успеха 60% на StrongREJECT и 61% при извлечении данных агентом, в нескольких моделях с открытыми и закрытыми весами, с почти нулевыми базовыми показателями. Примечательно, что степень внутренней путаницы ролей сильно предсказывает успех атаки еще до начала генерации. Наши результаты выявляют фундаментальный пробел: безопасность определяется на интерфейсе, но авторитет назначается в латентном пространстве. В более широком смысле, мы представляем единую механистическую основу для внедрения мгновенных данных, демонстрируя, что различные атаки с внедрением мгновенных данных используют один и тот же базовый механизм путаницы ролей. - Prompt Injection as Role Confusion

См. также другие публикации, посвященные LLM

No comments: