См. также другие публикации, посвященные LLM
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Sunday, November 09, 2025
Нет веры ничему
Результаты бенчмаркинга всё больше определяют доверие, выбор и развертывание моделей LLM, однако эти оценки остаются уязвимыми к семантически эквивалентным состязательным возмущениям. Предыдущие
исследования устойчивости к состязательным атакам в обработке естественного языка (NLP) делали акцент на текстовых атаках, которые одинаково влияют на многие модели, оставляя открытым вопрос о том,
возможно ли выборочно ухудшить или улучшить производительность, минимально влияя на другие модели. Мы формализуем эту проблему и изучаем выборочные состязательные атаки на MMLU —
широко используемый бенчмарк, предназначенный для измерения широких общих знаний языковой модели и способности к рассуждению по различным предметам. Используя канонические атаки, интегрированные в фреймворк TextAttack, мы вводим протокол для оценки селективности, разрабатываем пользовательское ограничение для повышения селективности атак и предлагаем конвейер суррогат-LLM, который генерирует выборочные возмущения. Эмпирически мы обнаруживаем, что существуют выборочные состязательные атаки, которые могут существенно изменить относительные рейтинги, ставя под сомнение справедливость, воспроизводимость и прозрачность оценки на основе таблицы лидеров. Наши результаты
обосновывают необходимость использования отчётности с учётом возмущений и диагностики надёжности для оценки LLM и демонстрируют, что даже незначительные правки могут изменить сравнительные суждения. - Selective Adversarial Attacks on LLM Benchmarks
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment