Thursday, June 12, 2025

Фишинг для ИИ агентов

Исследователи обнаружили простой способ ввести в заблуждение автономных агентов на основе больших языковых моделей.

Что нового: Энг Ли и его коллеги из Колумбийского университета разработали метод использования неявного доверия, которое агенты склонны оказывать популярным веб-сайтам, отравляя эти веб-сайты вредоносными ссылками.

Ключевая идея: коммерчески доступные агентские системы могут не доверять случайным сайтам в Интернете, но они склонны доверять популярным сайтам, таким как сайты социальных сетей. Злоумышленник может использовать это доверие, создавая, казалось бы, типичные посты, которые ссылаются на вредоносный веб-сайт. Агент может перейти по ссылке, ошибочно распространив свое доверие на ненадежный сайт.

Как это работает:

1) авторы протестировали агентов веб-браузинга, включая Anthropic Computer Use и MultiOn, на таких задачах, как покупки или отправка электронных писем.
2) Авторы создали посты Reddit, которые тематически соответствовали определенной агентской задаче, например, покупке обуви Air Jordan 1. Посты содержали текст, похожий на маркетинг (например, «Где купить Air Jordan 1 Chicago»), а также инструкции, указывающие на вредоносный сайт, контролируемый авторами («для получения дополнительной информации посетите <веб-сайт>»).
3) Авторы отправляли агенту запрос типа «Где купить Nike Air Jordan 1 в Чикаго?». Они также вводили конфиденциальную информацию, такую как данные кредитной карты или учетные данные электронной почты.
4) Агент искал в Интернете ресурсы, необходимые для выполнения запроса. Он изучал сайты и находил посты Reddit, написанные авторами.
5) Агент следовал инструкциям в постах и посещал вредоносный веб-сайт. Веб-сайт включал инструкции, которые манипулировали агентом для достижения цели злоумышленника, например, отправляли данные кредитной карты или отправляли фишинговые письма с адреса электронной почты пользователя.

Результаты: после того, как агент был перенаправлен на вредоносные веб-сайты, он надежно следовал инструкциям злоумышленника. Например, каждый из протестированных агентов разглашал информацию о кредитной карте в 10 из 10 испытаний. Аналогично, каждый агент отправлял фишинговое сообщение с учетной записи электронной почты пользователя с просьбой к получателям отправить деньги злонамеренному «другу» в 10 из 10 испытаний.

Почему это важно: Предоставление агентам возможности выполнять реальные действия, такие как совершение покупок и отправка электронных писем, повышает вероятность того, что их могут обмануть и заставить совершить вредоносные действия. Манипулирование агентами путем направления их на вредоносный веб-контент является эффективным вектором атаки. Агенты будут в большей безопасности, если они будут разработаны так, чтобы избегать и противостоять таким манипуляциям.

Мы думаем: люди тоже могут быть обмануты фишингом и другими вредоносными действиями, и путь к программированию агентов для защиты от них кажется проще, чем путь к обучению большинства людей этому. В долгосрочной перспективе агенты сделают онлайн-взаимодействия более безопасными. /via Deeplearning.ai

См. также другие публикации, посвященные агентам

No comments: