"Большие языковые модели предварительно обучаются на неконтролируемых текстовых наборах данных, состоящих из триллионов токенов, извлеченных из Интернета. Предыдущие работы показали, что: (1) извлеченные из Интернета предварительно обучающие наборы данных могут быть практически отравлены злоумышленниками; и (2) злоумышленники могут скомпрометировать языковые модели после отравления наборов данных тонкой настройки. Наша работа впервые оценивает, могут ли языковые модели также быть скомпрометированы во время предварительной настройки, с акцентом на постоянство предварительных обучающих атак после того, как модели будут настроены как полезные и безвредные чат-боты. Мы предварительно обучаем ряд LLM с нуля, чтобы измерить влияние потенциального отравляющего противника при четырех различных целях атаки (отказ в обслуживании, манипулирование убеждениями, джейлбрейк и быстрая кража) и в широком диапазоне размеров моделей (от 600 МБ до 7 Б). Наш главный результат заключается в том, что отравление только 0,1% набора данных до обучения модели достаточно для того, чтобы три из четырех атак измеримо сохранялись после обучения. Более того, простые атаки, такие как отказ в обслуживании, сохраняются после обучения с уровнем отравления всего 0,001%." - отсюда
См. также другие публикации, посвященные LLM
No comments:
Post a Comment