См. также другие публикации, посвященные агентам
AbavaNet technical corner
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Thursday, June 25, 2026
О доверенных агентных системах
Wednesday, June 24, 2026
Сложное тестирование агентов
Для тестирования агентов (как и для тестирования LLM) нужны multi-turn тесты
См. также другие публикации, посвященные агентам
Tuesday, June 23, 2026
Перефразирование в состязательных атаках
С помощью LLM перефразируют состязательные запросы до тех пор, пока их не перестанут отвергать.
См. также другие публикации, посвященные LLM
Monday, June 22, 2026
Все об атаках на агенты
См. также другие публикации, посвященные агентам
Sunday, June 21, 2026
Переполнение подсказок
См. также другие публикации, посвященные LLM
Saturday, June 20, 2026
О безопасности ML
И даже такая базовая вещь, как внедрение уязвимостей с помощью инъекции подсказок все еще быстро растет. Это означает, что в сфере безопасности, вероятно, произойдёт смещение в сторону мониторинга, обнаружения вторжений и песочницы, как это было в начале 2000-х, сначала рассматривая LLM как «чёрный ящик», входы и выходы которого требуют строгого контроля. Этот сдвиг уже идёт полным ходом. Сколько продуктов для межсетевых экранов на основе ИИ уже представлено на рынке? Далее мы поймём, что нам нужно проникнуть внутрь «чёрного ящика» и разработать набор методов обеспечения безопасности, которые будут моральным эквивалентом анализа кода и архитектурного анализа. Мы пока не знаем, что это значит, но такие работы, как исследования трансформерных цепей Anthropic, открывают новые горизонты. - NO SECURITY METER FOR AI
Friday, June 19, 2026
Поет морзянка за стеной веселым дискантом
Thursday, June 18, 2026
Автоматизация косвенных инъекций
См. также другие публикации, посвященные LLM
Wednesday, June 17, 2026
Агенты данных под атакой
См. также другие публикации, посвященные агентам
Tuesday, June 16, 2026
Monday, June 15, 2026
Sunday, June 14, 2026
О дифференциальной приватности
Saturday, June 13, 2026
Защиты не вечны, атаки - не окончательны
Как бы мы ни старались, мы никогда не сможем сделать искусственный интеллект полностью неоспоримым с помощью традиционных моделей безопасности. В рецензируемом журнале IEEE Security and Privacy Апостол Василев, старший научный сотрудник Национального института стандартов и технологий (NIST), опубликовал математическое доказательство этого утверждения, используя работу, опубликованную в 1931 году известным логиком Куртом Гёделем. Его теоремы о неполноте показали, что существуют пределы того, что можно доказать в системе, построенной на конечном числе правил.
Ограничения, управляющие поведением ИИ, — это именно такая система, и одним из последствий доказательства является то, что всегда найдётся способ заставить систему ИИ игнорировать свои правила — всё остаётся только в том, чтобы её найти.
«Один из столпов ответственного ИИ — это то, чтобы технология была безопасной», — сказал Василев, автор доказательства и эксперт по состязанию в машинном обучении. «Ты хочешь, чтобы он выдержал атаки противника и выполнял только то, что хочешь тебе, а не то, что мог бы захотеть нападающий. Это доказательство показывает, что не существует конечного набора ограничителей, которые были бы универсально устойчивы к враждебным стимулам.»
Компании, разрабатывающие ИИ, часто признают, что инструменты, которые они создают, могут причинить вред физическому миру, поэтому вводят ограничения, направленные на предотвращение создания запрещённого контента, такого как дипфейки, вредоносное ПО или инструкции по созданию биологического оружия или запрещённых наркотиков. Если систему попросят генерировать такой контент, ограничители должны отметить проблему и отказаться выполнять требования.
Однако эти ограничения не являются безошибочными Злоумышленники могут обходить их, создавая подсказки так, чтобы ИИ случайно обходил собственные механизмы отказа. Успешный «джейлбрейк» ИИ лишает его ограничений, что приводит к реальным рискам, таким как кибератаки, утечки данных и высоко персонализированные фишинговые сообщения.
Первоначальное доказательство Гёделя разрушило надежды нескольких выдающихся математиков, которые в начале XX века пытались создать математическую «теорию всего» из небольшого набора базовых утверждений или аксиом. С хорошо подобранным набором начальных аксиом, рассуждали они, можно было бы доказать все идеи в любой области математики.
«Гёдель положил конец этой мечте», — сказал Василев. «Он показал, что нельзя иметь конечный набор утверждений и создать теорию, которая будет полной и последовательной без противоречий. Вы можете добавить больше утверждений, чтобы устранить противоречия, с которыми сталкиваетесь, но вы возвращаетесь к тому, с чего начали. Это повторяется.»
В случае ИИ «конечный набор утверждений» — это группа ограничителей, которые создаёт дизайнер ИИ, чтобы не дать ИИ сделать что-то нежелательное. Независимо от того, насколько хорошо они продуманы, доказательства Василева показывают, что всегда найдётся способы подтолкнуть ИИ, чтобы он нарушил эти правила. Всё дело в том, чтобы найти правильный запрос.
«Логика Гёделя здесь применена», — говорит Василев. «Ты никогда не сможешь утверждать, что ты устойчив ко всем внезапным атакам противника. Всегда будет какая-то подсказка, которая потенциально сможет обойти и разрушить любую оборонительную инфраструктуру, которую ты построил вокруг своей системы ИИ.»
К счастью для защитников, эта новая математическая теория оставляет пространство для усиления развернутых систем ИИ до такой степени, что их сложно эксплуатировать. Доказательство Василева не даёт рецепта для злоумышленников о том, как находить новые эксплойты.
«Вы заставляете злоумышленника искать то, что специалисты по безопасности называют "нулевыми эксплойтами" — это проблемы в системе, о которых знает только вы», — говорит Васильев. «Хакеры часто пользуются этими уязвимостями, когда находят их. И если они обнаруживают такую уязвимость в системе одной компании, обычно проходит немного времени, прежде чем кто-то воспользуется ею в другой системе с той же уязвимостью.»
Такие эксплойты нулевого дня для традиционного детерминированного программного обеспечения было нелегко найти и реализовать, отметил Василев. Часто им требовались ресурсы противников уровня национального государства. Проблема эпохи ИИ, по словам Василева, в том, что мы используем человеческий язык как вход в систему. Сложность и богатство языка делают проверку соответствия, построенную на конечном наборе правил, бесконечно неоднозначной. Количество способов, которыми противники могут скрывать вредные намерения на виду, практически безгранично.
Что же нам тогда делать? Василев предлагает подход, который не решит проблему полностью, но значительно усложнит успешное джейлбрейк ИИ враждебным подсказкам.
Подход состоит из трёх элементов: постоянной работы «красных команд», которые стремятся выявить новые враждебные запросы раньше, чем реальные атакующие; постоянные обновления, которые ужесточают барьеры ИИ от недавно обнаруженных враждебных подсказок; и операционной устойчивости, которая ставит приоритет на ограничение воздействия и быстрое восстановление, когда возникает эксплойт.
«Цель — достичь ситуации, когда стоимость поиска новых эксплойтов превысит ресурсы злоумышленников», — сказал он. «В математике не уйти от Гёделя, а в ИИ ты, скорее всего, не сможешь запатчить систему ИИ, как LLM, и надеяться, что всё будет нормально вечно. Нужно постоянно искать слабые места и опережать нападающих. Цель — достичь нового экономического равновесия, при котором злоумышленникам будет финансово невыгодно пытаться сломать вашу систему ИИ. Это может быть дорого, но это цена даже частичной безопасности, которая должна позволить организациям максимально использовать преимущества ИИ, минимизируя риски.» - отсюда
