технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Friday, November 29, 2024
Автоматизация AI Red Team
Автоматизированный Red Teaming может обнаруживать редкие сбои модели и генерировать сложные примеры, которые можно использовать для обучения или оценки. Однако основная проблема в автоматизированном red teaming заключается в обеспечении того, чтобы атаки были как разнообразными, так и эффективными. Предыдущие методы обычно успешно оптимизировали либо разнообразие, либо эффективность, но редко и то, и другое. В этой статье мы предлагаем методы, которые позволяют автоматизированному red teaming генерировать большое количество разнообразных и успешных атак. Наш подход разбивает задачу на два этапа: (1) автоматизированные методы для генерации разнообразных целей атак и (2) генерация эффективных атак для этих целей. Хотя мы предоставляем несколько простых методов для генерации разнообразных целей, наш ключевой вклад заключается в обучении атакующего RL, который как следует этим целям, так и генерирует разнообразные атаки для этих целей. Во-первых, мы демонстрируем, что легко использовать большую языковую модель (LLM) для генерации разнообразных целей атакующего с подсказками и вознаграждениями для каждой цели, включая вознаграждения на основе правил (RBR) для оценки того, являются ли атаки успешными для конкретной цели. Во-вторых, мы демонстрируем, как обучение модели атакующего с помощью многошагового RL, где модель вознаграждается за создание атак, отличающихся от прошлых попыток, еще больше увеличивает разнообразие, оставаясь эффективной. Мы используем наш подход для создания как атак с подсказками, так и подсказок, вызывающих небезопасные ответы. В обоих случаях мы обнаруживаем, что наш подход способен генерировать высокоэффективные и значительно более разнообразные атаки, чем прошлые общие подходы red-teaming. - Diverse and Effective Red Teaming with Auto-generated Rewards and Multi-step Reinforcement Learning
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment