Второй трек, начало которого запланировано на 2025 год, будет посвящен разработке стратегий защиты, не зависящих от модели, направленных на противодействие продвинутым атакам с джейлбрейком. Основная цель этого направления — продвигать адаптивные фреймворки, которые могут эффективно смягчать атаки противников в различных архитектурах LLM. Global Challenge for Safe and Secure LLMs Track 1
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Friday, November 29, 2024
Соревнования по слому LLM
В этой статье представлен Глобальный вызов для Безопасных и надежных больших языковых моделей (LLM), новаторская инициатива, организованная AI Singapore (AISG) и CyberSG
R&D Programme Office (CRPO) для содействия разработке передовых механизмов защиты от автоматизированных атак взлома. С ростом интеграции LLM в критические секторы, такие как здравоохранение, финансы и государственное управление, обеспечение устойчивости этих моделей к состязательным атакам имеет жизненно важное значение для предотвращения неправомерного использования и соблюдения этических стандартов. Этот
конкурс был сосредоточен на двух отдельных направлениях, разработанных для оценки и повышения надежности фреймворков безопасности LLM.
В треке 1 участникам было поручено разработать автоматизированные методы для проверки уязвимостей LLM путем выявления нежелательных ответов, эффективно проверяя пределы существующих протоколов безопасности
в LLM. Участникам было предложено разработать методы, которые могли бы обойти меры безопасности контента в самых разных сценариях, от оскорбительного языка до дезинформации и незаконной
деятельности. В ходе этого процесса Трек 1 был нацелен на углубление понимания уязвимостей LLM и предоставление информации для создания более устойчивых моделей.
Результаты Трека 1 выявили значительные достижения в методах взлома и тестировании безопасности для LLM. Конкурирующие команды оценивались на основе устойчивости их моделей к 85 предопределенным нежелательным поведениям, охватывающим такие категории, как предубеждения, оскорбительный контент, дезинформация и продвижение незаконной деятельности. Примечательно, что наиболее эффективные команды достигли высоких
успехов атак, внедряя инновационные методы, включая шаблоны индукции сценариев, которые систематически генерировали контекстно-зависимые подсказки и механизмы атаки с повторным суффиксом,
которые адаптировали суффиксы для обхода фильтров моделей в нескольких степенях магистра права. Эти методы продемонстрировали не только эффективность в обходе мер безопасности, но и переносимость между различными типами моделей, подчеркивая адаптивность и сложность современных состязательных методов.
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment