Friday, May 08, 2026

Проверка инструментов для ИИ-агентов

Большие языковые модели (LLM) все чаще полагаются на внешние инструменты для выполнения задач, чувствительных ко времени, и действий в реальном мире. Хотя интеграция инструментов расширяет возможности LLM, она также создает новую поверхность атаки с внедрением подсказок: атаки с отравлением инструментов (АО). Злоумышленники манипулируют описаниями инструментов, внедряя вредоносные инструкции (явные АО) или вводящие в заблуждение утверждения (неявные АО), чтобы повлиять на поведение модели и выбор инструмента. Существующие средства защиты в основном обнаруживают аномальные инструкции и остаются неэффективными против неявных АО. В этой статье мы представляем TRUSTDESC, первую структуру, предотвращающую отравление инструментов путем автоматической генерации доверенных описаний инструментов из реализаций. TRUSTDESC выводит описания, соответствующие реализации, с помощью трехэтапного конвейера. SliceMin выполняет статический анализ с учетом достижимости и удаление избыточного кода с помощью LLM для извлечения минимальных фрагментов кода, имеющих отношение к инструменту. DescGen синтезирует описания из этих фрагментов, одновременно уменьшая количество вводящих в заблуждение или враждебных артефактов кода. DynVer уточняет описания посредством динамической верификации, выполняя синтезированные задачи и проверяя поведенческие утверждения. Мы оцениваем TRUSTDESC на 52 реальных инструментах из различных экосистем инструментов. Результаты показывают, что TRUSTDESC создает точные описания инструментов, которые повышают показатели выполнения задач, одновременно уменьшая неявные ошибки TPA на уровне их первопричины, с минимальными временными и финансовыми затратами. - TRUSTDESC: Preventing Tool Poisoning in LLM Applications via Trusted Description Generation

См. также другие публикации, посвященные агентам

No comments: