Агентские приложения — системы искусственного интеллекта, способные выполнять автономные действия, вызывая внешние инструменты, — в настоящее время в разработке программного обеспечения на пике популярности. Они обещают эффективность, удобство и сокращение человеческого вмешательства. Однако предоставление автономным агентам доступа к инструментам с потенциально необратимыми побочными эффектами сопряжено со значительными рисками. Эти опасности могут исходить от враждебных моделей, которые пытаются буквально оптимизировать свои цели (например, максимизировать количество скрепок ценой человеческих жизней), или от моделей, которые иным образом подвергаются давлению, направленному на хакерство с целью получения вознаграждения, используя лазейки вместо решения поставленной задачи. Кроме того, злоумышленники могут пытаться принудить модели к выполнению вредоносных действий, манипулируя их инструкциями посредством атак с мгновенным внедрением, используя неспособность существующих моделей надежно различать инструкции и данные. Некоторые критики утверждают, что эти риски передачи управления автономным агентам достаточно опасны, чтобы их использование было полностью запрещено.
Чтобы снизить риски, присущие агентским приложениям, мы предлагаем парадигму безопасности, основанную на проверке математических доказательств. В этом шаблоне проектирования от ИИ-агента требуется сгенерировать формальные доказательства, демонстрирующие безопасность запланированных действий, прежде чем ему будет разрешено их выполнить. - Guardians of the Agents. Formal verification of AI workflows
См. также другие публикации, посвященные агентам
No comments:
Post a Comment