См. также другие публикации, посвященные LLM
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Friday, December 05, 2025
Состязательное тестирование LLM
Стремительное расширение исследований безопасности и надежности больших языковых моделей (LLM) привело к появлению разрозненной и зачастую содержащей ошибки экосистемы реализаций, наборов данных и методов оценки. Эта фрагментация затрудняет воспроизводимость и сопоставимость результатов различных исследований, препятствуя существенному прогрессу. Для решения этих проблем мы представляем ADVERSARIALLM, набор инструментов для проведения исследований надежности джейлбрейка LLM. Его дизайн ориентирован на воспроизводимость, корректность и расширяемость. Фреймворк реализует двенадцать алгоритмов состязательных атак, объединяет семь эталонных наборов данных, охватывающих оценку вредоносности, избыточного отказа и полезности, и предоставляет доступ к широкому спектру открытых LLM через Hugging Face. Реализация включает расширенные функции для обеспечения сопоставимости и воспроизводимости, такие как отслеживание ресурсов компьютера, детерминированные результаты и методы оценки распределения. ADVERSARIALLM также интегрирует систему оценки через сопутствующий пакет JUDGEZOO, который также может использоваться независимо. Вместе эти компоненты направлены на создание прочной основы для прозрачных, сравнимых и воспроизводимых исследований в области безопасности магистратуры по праву. Оба пакета доступны на GitHub - AdversariaLLM: A Unified and Modular Toolbox for LLM Robustness Research
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment