Saturday, October 25, 2025

Бережные водяные знаки

Недавние достижения в области больших языковых моделей (LLM) вызвали растущую обеспокоенность по поводу потенциального злоупотребления. Одним из подходов к снижению этого риска является включение методов водяных знаков в LLM, что позволяет отслеживать и атрибуцию выходных данных модели. В данном исследовании рассматривается важный аспект водяных знаков: насколько сильно водяные знаки влияют на качество результатов, генерируемых моделью. Предыдущие исследования предполагали компромисс между силой водяного знака и качеством выходных данных. Однако наше исследование показывает, что при правильной реализации можно интегрировать водяные знаки, не влияя на распределение вероятностей выходных данных. Мы называем этот тип водяных знаков несмещенными водяными знаками. Это имеет существенные последствия для использования LLM, поскольку пользователи не могут определить, включил ли поставщик услуг водяные знаки или нет. Более того, наличие водяных знаков не снижает производительность модели в последующих задачах, гарантируя сохранение общей полезности языковой модели. Наши результаты вносят вклад в продолжающуюся дискуссию об ответственной разработке ИИ, предполагая, что непредвзятые водяные знаки могут служить эффективным средством отслеживания и атрибуции результатов модели без потери качества результатов. - https://openreview.net/forum?id=uWVC5FVidc

См. также другие публикации, посвященные LLM

No comments: