См. также другие публикации, посвященные LLM
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Thursday, February 05, 2026
Перефразируй
Использование больших языковых моделей (LLM) в системах рецензирования привлекает все больше внимания, что делает необходимым изучение их потенциальных уязвимостей. Предыдущие атаки основаны на внедрении подсказок, которые изменяют содержание рукописи и смешивают уязвимость к внедрению с устойчивостью к оценке. Мы предлагаем атаку с использованием парафразирования (PAA), метод оптимизации «черного ящика», который ищет последовательности перефразированных фрагментов, дающие более высокие оценки рецензентов, при сохранении семантической эквивалентности и лингвистической естественности. PAA использует обучение в контексте, используя предыдущие перефразирования и их оценки для генерации кандидатов. Эксперименты, проведенные на пяти конференциях по машинному обучению и обработке естественного языка с участием трех рецензентов, использующих LLM, и пяти атакующих моделей, показывают, что PAA последовательно повышает оценки рецензентов, не изменяя утверждений статьи. Оценка человеком подтверждает, что сгенерированные перефразирования сохраняют смысл и естественность. Мы также обнаружили, что статьи, подвергшиеся нападкам, демонстрируют повышенную невнятность в обзорах, что может служить потенциальным сигналом обнаружения, и что перефразирование представленных работ может частично смягчить последствия нападок. - Paraphrasing Adversarial Attack on LLM-as-a-Reviewer
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment