Несмотря на быстрый прогресс в механизмах защиты, не существует адекватного свойства корректности, определяющего, что означает «безопасность» для агентов LLM, а также принципиального способа оценки охвата существующих средств защиты. Мы отмечаем, что агенты LLM структурно аналогичны компиляторам, где нарушения безопасности соответствуют ошибочным выполнениям, которые не сохраняют намерения пользователя. Опираясь на эту аналогию, мы выявляем два фундаментальных источника проблем — ненадежный прием данных и ненадежное выполнение инструментов — и выводим четыре свойства целостности, которые должны выполняться одновременно: целостность инструментов, целостность инструкций, целостность суждений и целостность потока данных. Мы называем их конъюнкцию целостностью намерения и выполнения. Анализ существующих средств защиты агентов от этих свойств показывает, что текущие системы обеспечивают лишь частичное и некомпозиционное покрытие, оставляя фундаментальные пробелы в обеспечении безопасности современных агентов LLM. - Securing LLM Agents Need Intent-to-Execution Integrity
См. также другие публикации, посвященные агентам
No comments:
Post a Comment