См. также другие публикации, посвященные LLM
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Thursday, January 08, 2026
И о культуре
Предупреждение: Данная статья содержит материалы, имеющие культурную ценность, исключительно с целью оценки поведения при согласовании в рамках больших языковых моделей (LLM). Мы исследуем, как лингвистическая и культурная структура влияют на успешность джелбрейков в трех коммерческих БЛМ (GPT-4, Claude 3, Gemini), используя семантически эквивалентные подсказки в прямом, косвенном и метафорическом стилях на четырех языках с широкими языковыми ресурсами. Косвенные подсказки наиболее эффективно обходили фильтры, при этом структура и стиль существенно влияли на согласование. GPT-4 оказалась особенно уязвимой к косвенной структуре, Claude 3 оставалась стабильно устойчивой, а Gemini продемонстрировала высокую чувствительность к культурным и лингвистическим вариациям. Наши результаты подчеркивают необходимость стратегий согласования, устойчивых к различным стилям выражения и культурным контекстам. - Jailbreaking LLMs Through Cross-Cultural Prompts
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment