См. также другие публикации, посвященные агентам
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Tuesday, January 20, 2026
О поведении агентов
Агенты на основе LLM продемонстрировали многообещающую адаптивность в реальных приложениях. Однако эти агенты остаются уязвимыми для широкого спектра атак, таких как отравление инструментов и вредоносные инструкции, которые нарушают поток их выполнения и могут привести к серьезным последствиям, таким как утечка данных и финансовые потери. Существующие исследования обычно пытаются смягчить такие аномалии путем предварительного определения конкретных правил и их применения во время выполнения для повышения безопасности. Тем не менее, разработка всеобъемлющих правил сложна, требует значительных ручных усилий и все еще оставляет пробелы, которые приводят к ложным отрицательным результатам. Поскольку агентные системы развиваются в сложные программные системы, мы, вдохновленные безопасностью программных систем, предлагаем TraceAegis, аналитическую структуру, основанную на происхождении данных, которая использует трассировки выполнения агентов для обнаружения потенциальных аномалий. В частности, TraceAegis строит иерархическую структуру для абстрагирования стабильных единиц выполнения, которые характеризуют нормальное поведение агентов. Затем эти единицы
суммируются в ограниченные поведенческие правила, которые определяют условия, необходимые для выполнения задачи. Проверяя трассировки выполнения на соответствие как иерархическим, так и поведенческим ограничениям, TraceAegis способен эффективно обнаруживать аномальное поведение. Для оценки эффективности TraceAegis мы представляем TraceAegis-Bench, набор данных, охватывающий два репрезентативных сценария: здравоохранение и корпоративные закупки. Каждый сценарий включает 1300 безобидных и 300 аномальных поведений, где аномалии либо нарушают порядок выполнения агента, либо нарушают семантическую согласованность его последовательности выполнения. Экспериментальные результаты показывают, что TraceAegis демонстрирует высокую производительность на TraceAegis-Bench, успешно выявляя большинство аномальных поведений. Мы
дополнительно подтверждаем практичность TraceAegis с помощью внутреннего процесса тестирования на проникновение, проведенного в технологической компании, где он
эффективно обнаруживает аномальные трассировки, сгенерированные атаками «красной команды». - TraceAegis: Securing LLM-Based Agents via Hierarchical and Behavioral Anomaly Detection
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment