Большие языковые модели (LLM) продемонстрировали свои превосходные возможности в обработке естественного языка, продвигая обширные приложения на основе LLM в качестве новых порталов для людей, чтобы получить доступ к различному контенту в Интернете. Однако приложения на основе LLM не имеют достаточных соображений безопасности для ненадежного контента, что приводит к потенциальным угрозам. В этой статье мы раскрываем отравление контента, когда злоумышленники могут адаптировать контент атаки, который кажется безобидным для людей, но заставляет приложения на основе LLM генерировать вредоносные ответы. Чтобы подчеркнуть влияние отравления контента
и вдохновить на разработку эффективной защиты, мы систематически анализируем атаку, сосредоточившись на режимах атаки в различном контенте, эксплуатируемых особенностях конструкции фреймворков приложений LLM и
генерации контента атаки. Мы проводим комплексную оценку пяти LLM, где отравление контента достигает среднего показателя успешности атаки 89,60%. Кроме того, мы оцениваем отравление контента в четырех популярных приложениях на базе LLM, достигая атаки на 72,00% контента. Наши экспериментальные результаты также показывают, что существующие средства защиты неэффективны против отравления контента. Наконец, мы обсуждаем потенциальные меры по смягчению последствий для фреймворков приложений LLM, чтобы противостоять отравлению контента. -
Imperceptible Content Poisoning in LLM-Powered Applications
новая форма атаки на LLM с использованием внешнего добавляемого контента.
P.S. См. также другие публикации, посвященные LLM
No comments:
Post a Comment