См. также другие публикации, посвященные агентам
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Thursday, January 15, 2026
Агент-разведчик
Атаки вывода (доступ к данным обучения моделей) широко изучались и предлагают систематическую оценку рисков сервисов машинного обучения; однако их реализация и параметры атаки для оптимальной оценки представляют собой сложную задачу для неспециалистов. Появление продвинутых больших языковых моделей открывает многообещающую, но в значительной степени неизученную возможность разработки автономных агентов в качестве экспертов по атакам на основе логического вывода, что помогает решить эту проблему. В этой статье мы предлагаем AttackPilot, автономного агента, способного самостоятельно проводить атаки на основе логического вывода без вмешательства человека. Мы оцениваем его на 20 целевых сервисах. Оценка показывает, что наш агент, использующий GPT-4o, достигает 100% выполнения задач и почти экспертной эффективности атаки со средней стоимостью токена всего 0,627 доллара США за запуск. Агент также может работать на основе многих других репрезентативных больших языковых моделей и может адаптивно оптимизировать свою стратегию с учетом ограничений сервиса. Мы также проводим анализ трассировки, демонстрируя, что такие проектные решения, как многоагентная структура и пространства действий, специфичные для каждой задачи, эффективно снижают вероятность ошибок, таких как неверные планы, неспособность следовать инструкциям, потеря контекста задачи и галлюцинации. Мы предполагаем, что такие агенты могут позволить неспециалистам в области машинного обучения, аудиторам или регулирующим органам систематически оценивать риски услуг машинного обучения без необходимости глубоких знаний в предметной области. - AttackPilot: Autonomous Inference Attacks Against ML Services With LLM-Based Agents
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment