См. также другие публикации, посвященные агентам
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Friday, May 08, 2026
Проверка инструментов для ИИ-агентов
Большие языковые модели (LLM) все чаще полагаются на внешние инструменты для выполнения задач, чувствительных ко времени, и действий в реальном мире. Хотя интеграция инструментов расширяет возможности LLM, она также создает новую поверхность атаки с внедрением подсказок: атаки с отравлением инструментов (АО). Злоумышленники манипулируют описаниями инструментов, внедряя вредоносные инструкции (явные АО) или вводящие в заблуждение утверждения (неявные АО), чтобы повлиять на поведение модели и выбор инструмента. Существующие средства защиты в основном обнаруживают аномальные инструкции и остаются неэффективными против неявных АО. В этой статье мы представляем TRUSTDESC, первую структуру, предотвращающую отравление инструментов путем автоматической генерации доверенных описаний инструментов из реализаций. TRUSTDESC выводит описания, соответствующие реализации, с помощью трехэтапного конвейера. SliceMin выполняет статический анализ с учетом достижимости и удаление избыточного кода с помощью LLM для извлечения минимальных фрагментов кода, имеющих отношение к инструменту. DescGen синтезирует описания из этих фрагментов, одновременно уменьшая количество вводящих в заблуждение или враждебных артефактов кода. DynVer уточняет описания посредством динамической верификации, выполняя синтезированные задачи и проверяя поведенческие утверждения. Мы оцениваем TRUSTDESC на 52 реальных инструментах из различных экосистем инструментов. Результаты показывают, что TRUSTDESC создает точные описания инструментов, которые повышают показатели выполнения задач, одновременно уменьшая неявные ошибки TPA на уровне их первопричины, с минимальными временными и финансовыми затратами. - TRUSTDESC: Preventing Tool Poisoning in LLM Applications via Trusted Description Generation
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment