Thursday, January 08, 2026

И о культуре

Предупреждение: Данная статья содержит материалы, имеющие культурную ценность, исключительно с целью оценки поведения при согласовании в рамках больших языковых моделей (LLM). Мы исследуем, как лингвистическая и культурная структура влияют на успешность джелбрейков в трех коммерческих БЛМ (GPT-4, Claude 3, Gemini), используя семантически эквивалентные подсказки в прямом, косвенном и метафорическом стилях на четырех языках с широкими языковыми ресурсами. Косвенные подсказки наиболее эффективно обходили фильтры, при этом структура и стиль существенно влияли на согласование. GPT-4 оказалась особенно уязвимой к косвенной структуре, Claude 3 оставалась стабильно устойчивой, а Gemini продемонстрировала высокую чувствительность к культурным и лингвистическим вариациям. Наши результаты подчеркивают необходимость стратегий согласования, устойчивых к различным стилям выражения и культурным контекстам. - Jailbreaking LLMs Through Cross-Cultural Prompts

См. также другие публикации, посвященные LLM

No comments: