Saturday, August 30, 2025

Красные в городе

Этические и социальные риски остаются важной, но в то же время сложной темой во взаимодействии человека и искусственного интеллекта, особенно в обеспечении безопасного использования обработки естественного языка (NLP). Появление больших языковых моделей (LLM), таких как ChatGPT, потенциально обостряет эту проблему. Однако предыдущие работы, посвященные этике и рискам, связанным с появлением LLM, либо игнорируют практические последствия в реальных сценариях, отстают от быстрого развития NLP, не имеют консенсуса пользователей по этическим рискам или не рассматривают весь спектр этических вопросов в комплексе. В данной статье мы всесторонне оцениваем, качественно исследуем и каталогизируем этические дилеммы и риски в ChatGPT посредством сравнительного анализа с восемью репрезентативными наборами данных и анализа различных тематических исследований. Наши результаты показывают, что, хотя ChatGPT демонстрирует превосходную безопасность на тестовых наборах данных, его ограничения можно обойти с помощью наших вручную подобранных примеров, что выявляет не только ограничения текущих тестов оценки рисков, но и неисследованные риски в пяти различных сценариях, включая социальную предвзятость при генерации кода, предвзятость в ответах на кросс-языковые вопросы, токсичный язык в персонализированном диалоге, вводящую в заблуждение информацию из-за галлюцинаций и подсказки для неэтичного поведения. В заключение мы приводим выводы из работы над ChatGPT и рекомендации по разработке будущих ответственных моделей больших языков. - Bypassing Guardrails: Lessons Learned from Red Teaming ChatGPT

Генеративные модели быстро набирают популярность и интегрируются в повседневные приложения, что вызывает опасения по поводу их безопасного использования, поскольку выявляются различные уязвимости. В связи с этим область «red team» переживает стремительный рост, что подчеркивает необходимость комплексного исследования, охватывающего весь процесс разработки и затрагивающего новые темы. Наш обширный обзор, в котором рассматривается более 120 статей, представляет собой классификацию детализированных стратегий атак, основанных на внутренних возможностях языковых моделей. Кроме того, мы разработали фреймворк «поисковика» для унификации различных подходов к автоматическому тестированию (read team). Более того, наш обзор охватывает новые области, включая мультимодальные атаки и защиту, риски, связанные с агентами на основе LLM, избыточное использование безвредных запросов и баланс между безвредностью и полезностью. - Against The Achilles' Heel: A Survey on Red Teaming for Generative Models

См. также другие публикации по теме Red team

No comments: