Friday, November 21, 2025

Как расковырять LLM?

Благодаря постоянному развитию языковых моделей и широкой доступности различных типов интерфейсов, большие языковые модели (LLM) применяются во всё большем числе областей. Однако, из-за огромных объёмов данных и вычислительных ресурсов, необходимых для разработки моделей, защита параметров модели и обучающих данных стала актуальной и критически важной задачей. В связи с революционными парадигмами обучения и применения LLM, в последние годы появилось много новых атак на языковые модели. В данной статье мы определяем эти атаки как методы «обратной инжиниринга» (RE) на LM и стремимся предоставить углубленный анализ обратной инжиниринга языковых моделей. Мы иллюстрируем различные методы обратной инжиниринга, применяемые к различным аспектам модели, а также даём введение в существующие защитные стратегии. С одной стороны, это демонстрирует уязвимость даже моделей «чёрного ящика» к различным типам атак; с другой стороны, это предлагает более целостный взгляд на разработку новых защитных стратегий для моделей. - Towards Reverse Engineering of Language Models: A Survey

No comments: