Sunday, October 13, 2024

Вредоносные LLM

Интересная работа Ziong Lin - реальное тестирование вредоносных LLM: Malla: Demystifying Real-world Large Language Model Integrated Malicious Services

Что нового: Зилонг Лин и его коллеги из Университета Индианы в Блумингтоне изучали, как большие языковые модели (LLM) используются для предоставления вредоносных услуг, в частности, для генерации вредоносного кода, фишинговых писем и фишинговых веб-сайтов. Они были не очень эффективны, в общем и целом (хотя высокий уровень успеха может быть необязательным для поддержки процветающего рынка автоматизированной преступной деятельности).

Рискованный бизнес: поставщики основывают такие услуги либо на неотцензурированных LLM — то есть тех, которые не были настроены на отражение человеческих предпочтений или не используют фильтры ввода/вывода — либо на общедоступных моделях, которые они предлагают с помощью методов джейлбрейка, которые обходят встроенные защитные ограждения. Они продают свои услуги на хакерских рынках и форумах, взимая гораздо меньше, чем типичные традиционные поставщики вредоносного ПО, но услуги, основанные на моделях, которые были настроены на предоставление вредоносного вывода, требуют наценки. Авторы обнаружили, что одна услуга принесла доход более 28 000 долларов за два месяца.

Разрастающийся рынок: авторы выявили 212 вредоносных сервисов. Из них 125 размещались на платформе Poe AI, 73 — на FlowGPT, а остальные 14 находились на уникальных серверах. Из них авторы не смогли получить доступ к пяти, поскольку либо провайдер их заблокировал, либо сервис был мошенническим. Они выявили 11 LLM, используемых этими сервисами, включая Claude-2-100k, GPT-4 и Pygmalion-13B (вариант LLaMA-13B).

Тестирование качества вывода: авторы запросили более 200 сервисов, используя более 30 запросов, для генерации вредоносного кода, фишинговых писем или фишинговых веб-сайтов. Они оценивали ответы по следующим параметрам:


Формат: как часто они следовали ожидаемому формату (как определено регулярными выражениями)
Компиляция: как часто сгенерированный код Python, C или C++ мог быть скомпилирован
Достоверность: как часто сгенерированный HTML и CSS успешно запускались как в Chrome, так и в Firefox
Читаемость: как часто сгенерированные фишинговые письма были плавными и связными в соответствии с индексом сложности чтения Ганнинга
Уклончивость или как часто сгенерированный текст успешно проходил все предыдущие проверки и избегал обнаружения VirusTotal (для вредоносного кода и фишинговых сайтов) или OOPSpam (для фишинговых писем).

Во всех трех задачах по крайней мере одна служба достигла уклончивости 67 процентов или выше, в то время как большинство служб достигли уклончивости менее 30 процентов.

Тестирование эффективности в реальных условиях: Кроме того, авторы провели практические тесты, чтобы увидеть, насколько хорошо выходные данные работают в реальных ситуациях. Они побудили девять служб сгенерировать код, который будет нацелен на три конкретные уязвимости, связанные с переполнением буфера и инъекцией SQL. В этих тестах модели были заметно менее успешными.

Авторы протестировали сгенерированный код на наличие двух уязвимостей в VICIdial, системе колл-центра, которая, как известно, уязвима к таким проблемам. Из 22 сгенерированных программ, которые удалось скомпилировать, ни одна не изменила базы данных VICIdial или не раскрыла системные данные. Они также протестировали сгенерированный код на OWASP WebGoat 7.1, веб-сайте, который предоставляет код с известными уязвимостями безопасности. Из 39 сгенерированных программ, которые удалось скомпилировать, семь запустили успешные атаки. Однако эти атаки не были нацелены на конкретные уязвимости, запрошенные авторами.

Почему это важно: Предыдущая работа показала, что сервисы на основе LLM могут генерировать дезинформацию и другой вредоносный вывод, но мало исследований изучали их фактическое использование в киберпреступности. Эта работа оценивает их качество и эффективность. Кроме того, авторы опубликовали подсказки, которые они использовали для обхода ограждений и генерации вредоносного вывода — ресурс для дальнейших исследований, направленных на исправление таких проблем в будущих моделях.

Мы думаем: отрадно видеть, что вредоносные сервисы не продвинулись далеко в реальных тестах, и выводы авторов должны смягчить паникерские сценарии киберпреступности с использованием ИИ. Это не значит, что нам не нужно беспокоиться о вредоносных применениях технологии ИИ. Сообщество ИИ несет ответственность за разработку своих продуктов так, чтобы они были полезными, и тщательно оценивать их на предмет безопасности.

/via deeplearning.ai

См. также другие публикации, посвященные LLM

No comments: