Thursday, March 05, 2026

Агенты и безопасность - совместимы ли эти понятия?

Современные архитектуры агентного ИИ принципиально несовместимы с требованиями безопасности и эпистемологическими требованиями научных рабочих процессов, имеющих высокую значимость. Проблема заключается не в недостаточном согласовании или недостаточных механизмах защиты, а в архитектуре: авторегрессивные языковые модели обрабатывают все токены единообразно, что делает детерминированное разделение команд и данных недостижимым только за счет обучения. Мы утверждаем, что детерминированное, архитектурное обеспечение, а не вероятностно изученное поведение, является необходимым условием для надежной науки с использованием ИИ. Мы представляем архитектуру защиты «Тринити», которая обеспечивает безопасность с помощью трех механизмов: управление действиями посредством конечного исчисления действий с обеспечением контроля с помощью монитора ссылок, управление потоком информации с помощью обязательных меток доступа, предотвращающих утечку информации между областями видимости, и разделение привилегий, изолирующее восприятие от выполнения. Мы показываем, что без неподделываемой информации о происхождении и детерминированного посредничества «Смертельная триада» (ненадежные входные данные, привилегированный доступ к данным, возможность внешних действий) превращает безопасность авторизации в проблему обнаружения уязвимостей: основанные на обучении средства защиты могут снизить эмпирические показатели атак, но не могут обеспечить детерминированные гарантии. Сообщество машинного обучения должно признать, что согласование недостаточно для обеспечения безопасности авторизации, и что архитектурное посредничество необходимо, прежде чем агентный ИИ сможет быть безопасно развернут в важных научных областях. - Trustworthy Agentic AI Requires Deterministic Architectural Boundaries

См. также другие публикации, посвященные агентам

No comments: