Sunday, November 09, 2025

Нет веры ничему

Результаты бенчмаркинга всё больше определяют доверие, выбор и развертывание моделей LLM, однако эти оценки остаются уязвимыми к семантически эквивалентным состязательным возмущениям. Предыдущие исследования устойчивости к состязательным атакам в обработке естественного языка (NLP) делали акцент на текстовых атаках, которые одинаково влияют на многие модели, оставляя открытым вопрос о том, возможно ли выборочно ухудшить или улучшить производительность, минимально влияя на другие модели. Мы формализуем эту проблему и изучаем выборочные состязательные атаки на MMLU — широко используемый бенчмарк, предназначенный для измерения широких общих знаний языковой модели и способности к рассуждению по различным предметам. Используя канонические атаки, интегрированные в фреймворк TextAttack, мы вводим протокол для оценки селективности, разрабатываем пользовательское ограничение для повышения селективности атак и предлагаем конвейер суррогат-LLM, который генерирует выборочные возмущения. Эмпирически мы обнаруживаем, что существуют выборочные состязательные атаки, которые могут существенно изменить относительные рейтинги, ставя под сомнение справедливость, воспроизводимость и прозрачность оценки на основе таблицы лидеров. Наши результаты обосновывают необходимость использования отчётности с учётом возмущений и диагностики надёжности для оценки LLM и демонстрируют, что даже незначительные правки могут изменить сравнительные суждения. - Selective Adversarial Attacks on LLM Benchmarks

См. также другие публикации, посвященные LLM

No comments: