Friday, November 29, 2024

Соревнования по слому LLM

В этой статье представлен Глобальный вызов для Безопасных и надежных больших языковых моделей (LLM), новаторская инициатива, организованная AI Singapore (AISG) и CyberSG R&D Programme Office (CRPO) для содействия разработке передовых механизмов защиты от автоматизированных атак взлома. С ростом интеграции LLM в критические секторы, такие как здравоохранение, финансы и государственное управление, обеспечение устойчивости этих моделей к состязательным атакам имеет жизненно важное значение для предотвращения неправомерного использования и соблюдения этических стандартов. Этот конкурс был сосредоточен на двух отдельных направлениях, разработанных для оценки и повышения надежности фреймворков безопасности LLM. В треке 1 участникам было поручено разработать автоматизированные методы для проверки уязвимостей LLM путем выявления нежелательных ответов, эффективно проверяя пределы существующих протоколов безопасности в LLM. Участникам было предложено разработать методы, которые могли бы обойти меры безопасности контента в самых разных сценариях, от оскорбительного языка до дезинформации и незаконной деятельности. В ходе этого процесса Трек 1 был нацелен на углубление понимания уязвимостей LLM и предоставление информации для создания более устойчивых моделей. Результаты Трека 1 выявили значительные достижения в методах взлома и тестировании безопасности для LLM. Конкурирующие команды оценивались на основе устойчивости их моделей к 85 предопределенным нежелательным поведениям, охватывающим такие категории, как предубеждения, оскорбительный контент, дезинформация и продвижение незаконной деятельности. Примечательно, что наиболее эффективные команды достигли высоких успехов атак, внедряя инновационные методы, включая шаблоны индукции сценариев, которые систематически генерировали контекстно-зависимые подсказки и механизмы атаки с повторным суффиксом, которые адаптировали суффиксы для обхода фильтров моделей в нескольких степенях магистра права. Эти методы продемонстрировали не только эффективность в обходе мер безопасности, но и переносимость между различными типами моделей, подчеркивая адаптивность и сложность современных состязательных методов.

Второй трек, начало которого запланировано на 2025 год, будет посвящен разработке стратегий защиты, не зависящих от модели, направленных на противодействие продвинутым атакам с джейлбрейком. Основная цель этого направления — продвигать адаптивные фреймворки, которые могут эффективно смягчать атаки противников в различных архитектурах LLM. Global Challenge for Safe and Secure LLMs Track 1

No comments: