Tuesday, June 02, 2026

Лучше не надеяться

Anthropic опубликовал разбор безопасности свои продуктов. Цитата: "Первый способ обеспечения безопасности — это контроль поведения агента с помощью участия человека. Ранее Claude Code защищал агентов от непреднамеренных действий, запрашивая у пользователей разрешение на каждом шагу. Теоретически это работает, но мы обнаружили, что такой подход несовершенен. Наши телеметрические данные показали, что пользователи одобряли примерно 93% запросов на разрешение. Чем больше подтверждений видит пользователь, тем меньше внимания он уделяет каждому из них, со временем становясь гораздо менее внимательным к контролю.

No comments: