Sunday, June 21, 2026

Переполнение подсказок

Модели-ограничители (Guardrail models - средства проверки безопасности) широко используются для проверки пользовательского ввода до того, как он попадет в большие языковые модели (LLM), служа в качестве основной защиты от атак с внедрением подсказок. Из-за строгих контекстных ограничений эти модели обрабатывают слишком длинные подсказки путем усечения или сегментации. Хотя предыдущие работы были сосредоточены на семантически враждебных входных данных, последствия для безопасности этих механизмов обработки длинных входных данных остаются в значительной степени неизученными. В этой статье мы выявляем критическое «слепое пятно», возникающее из-за несоответствия между ограниченными окнами проверки моделей-ограничителей и значительно большими окнами вывода контекста нижних LLM. Мы представляем новую атаку с переполнением подсказки, которая использует это несоответствие путем фрагментации вредоносных инструкций и перемешивания их с безобидным содержимым-заполнителем в слишком длинной подсказке, так что ни один отдельный проверяемый сегмент не кажется вредоносным, в то время как полный контекст остается доступным для LLM. В результате систематической оценки с использованием современных моделей защиты, включая Meta Llama Prompt Guard, IBM Granite Guardian и детекторы на основе DeBERTa, мы демонстрируем, что подсказки, надежно обнаруживаемые в условиях короткого контекста, могут обходить модели защиты после того, как они были изменены злонамеренно в результате преобразования во входные данные чрезмерной длины, но при этом остаются полностью пригодными для использования последующими LLM. Мы также предлагаем потенциальные стратегии защиты и описываем направления смягчения последствий для усиления моделей защиты. - Prompt Overflow: What the Guardrail Inspects Is Not What the Model Infers

См. также другие публикации, посвященные LLM

Saturday, June 20, 2026

О безопасности ML

Сегодняшний день — начало развития машинного обучения в сфере безопасности. Как в 1998 году все говорили о переполнении буфера, а тестирование на проникновение было настоящим безумием, так и в 2026 году все говорят о внедрении уязвимостей с помощью мгновенного запроса, а команды разработчиков, использующие ИИ, находятся на пике популярности.

И даже такая базовая вещь, как внедрение уязвимостей с помощью инъекции подсказок все еще быстро растет. Это означает, что в сфере безопасности, вероятно, произойдёт смещение в сторону мониторинга, обнаружения вторжений и песочницы, как это было в начале 2000-х, сначала рассматривая LLM как «чёрный ящик», входы и выходы которого требуют строгого контроля. Этот сдвиг уже идёт полным ходом. Сколько продуктов для межсетевых экранов на основе ИИ уже представлено на рынке? Далее мы поймём, что нам нужно проникнуть внутрь «чёрного ящика» и разработать набор методов обеспечения безопасности, которые будут моральным эквивалентом анализа кода и архитектурного анализа. Мы пока не знаем, что это значит, но такие работы, как исследования трансформаторных цепей Anthropic, открывают новые горизонты. - NO SECURITY METER FOR AI

Friday, June 19, 2026

Поет морзянка за стеной веселым дискантом

Промпт инъекция в виде азбуки Морзе попросила о переводе биткоинов. LLM поняла запрос и исполнила перевод. Но только ты об этом лучше песню расспроси!

Thursday, June 18, 2026

Автоматизация косвенных инъекций

Внедрение подсказок косвенным путем представляет собой серьезную угрозу для агентов LLM, взаимодействующих с ненадежными внешними данными, однако автоматизированные методы атак, доказавшие свою эффективность при взломе систем, остаются недостаточно изученными, в реалистичных агентных условиях. Мы представляем всестороннюю эмпирическую оценку атак с внедрением подсказок автоматическим путем против агентов LLM, адаптируя как методы «белого ящика» (GCG), так и методы «черного ящика» (TAP) к агентной среде в рамках AgentDojo. Мы провели оценку на 80 парах задач, охватывающих четыре области и несколько моделей, и обнаружили, что оптимизация методом «черного ящика» существенно превосходит градиентные методы, что мы объясняем нестабильностью оптимизации GCG при разумных вычислительных затратах. Мы также обнаружили, что эффективность TAP зависит от модели злоумышленника, поскольку как общая производительность, так и настройка безопасности влияют на успех атаки — более сильные модели обеспечивают более эффективные внедрения, в то время как злоумышленники с настроенной безопасностью могут отказаться от генерации враждебных подсказок. Универсальные атаки на задачи эффективно переносятся на неизвестные задачи и внераспространенные области но атаки, оптимизированные для небольших моделей с открытым исходным кодом, не переносятся на передовые модели, такие как GPT-5. Эти результаты подчеркивают, что автоматическое внедрение подсказок представляет собой реальную, но зависящую от модели угрозу, при этом сохраняются значительные препятствия для эксплуатации, не зависящей от модели. - Assessing Automated Prompt Injection Attacks in Agentic Environments

См. также другие публикации, посвященные LLM

Wednesday, June 17, 2026

Агенты данных под атакой

Агенты данных интегрируют рассуждения, основанные на LLM, с доступом к реляционным данным, исполняемыми аналитическими инструментами и многоэтапной оркестровкой рабочих процессов, что делает их все более важными для корпоративной аналитики. Эта интеграция вносит новые уязвимости безопасности в ресурсы данных, выполнение баз данных и рассуждения агентов, объединяя проблемы безопасности баз данных и безопасности агентов LLM общего назначения в режимы сбоев, которые ни один из этих подходов не может выявить самостоятельно. Для решения этой проблемы мы представляем систематическое исследование безопасности агентов данных. Наш вклад состоит из трех частей. Во-первых, мы разрабатываем многоуровневую структуру уязвимостей, которая выявляет восемь рисков, специфичных для агентов данных, на уровнях интерпретации, выполнения и политики. Во-вторых, мы представляем таксономию атак, организованную по целям, тактике и методам противника, охватывающую три цели, семь тактик и четырнадцать методов, и сопоставляем ее с конвейером генерации полезной нагрузки, основанным на LLM и базирующимся на реальных схемах баз данных. В-третьих, мы оцениваем эти атаки на шести системах, включая четыре агента обработки данных с открытым исходным кодом и два производственных облачных сервиса аналитики. Наши эксперименты выявляют существенные уязвимости безопасности в существующих системах и дают четыре ключевых вывода. - Data Agents Under Attack: Vulnerabilities in LLM-Driven Analytical Systems

См. также другие публикации, посвященные агентам

Sunday, June 14, 2026

О дифференциальной приватности

В данной статье представлена ​​эмпирическая модель аудита утечки конфиденциальной информации в интерактивных системах баз данных (СБД), реализующих дифференциальную конфиденциальность (ДП). Без каких-либо предположений о формальных механизмах или параметрах ДП, мы моделируем работу аудитора с доступом «черного ящика» к результатам запросов и оцениваем утечку конфиденциальной информации с помощью атак на вывод принадлежности (MIA). Наша модель предоставляет эмпирические нижние границы параметра потери конфиденциальности ϵ, основанные на успехе атаки, обеспечивая сигнал о риске нарушения конфиденциальности даже в тех случаях, когда теоретический анализ недоступен или не поддается проверке. Мы реализуем эту модель в системе, смоделированной по образцу производственной среды крупной компании социальных сетей, и показываем, как такие факторы, как распределение данных, выбор цели и специфичность запроса, влияют на наблюдаемую конфиденциальность. Наша работа предлагает ценный и практичный инструмент для проверки и аудита конфиденциальности в крупномасштабных непрозрачных СБД - Auditing Differentially Private Interactive Database Systems

Saturday, June 13, 2026

Защиты не вечны, атаки - не окончательны

Можем ли мы сделать искусственный интеллект неуязвимым для противников, которые хотят исказить технологию в вредных целях? Хотя ИИ — одна из новейших технологий, ответ на этот вопрос почти столетний назад.

Как бы мы ни старались, мы никогда не сможем сделать искусственный интеллект полностью неоспоримым с помощью традиционных моделей безопасности. В рецензируемом журнале IEEE Security and Privacy Апостол Василев, старший научный сотрудник Национального института стандартов и технологий (NIST), опубликовал математическое доказательство этого утверждения, опубликовавшее работу, опубликованную в 1931 году известным логиком Куртом Гёделем. Его теоремы о неполноте показали, что существуют пределы того, что можно доказать в системе, построенной на конечном числе правил.

Ограничения, управляющие поведением ИИ, — это именно такая система, и одним из последствий доказательства является то, что всегда найдётся способ заставить систему ИИ игнорировать свои правила — всё остаётся только в том, чтобы её найти.

«Один из столпов ответственного ИИ — это то, чтобы технология была безопасной», — сказал Василев, автор доказательства и эксперт по состязанию в машинном обучении. «Ты хочешь, чтобы он выдержал атаки противника и выполнял только то, что хочешь тебе, а не то, что мог бы захотеть нападающий. Это доказательство показывает, что не существует конечного набора ограничителей, которые были бы универсально устойчивы к враждебным стимулам.»

Компании, разрабатывающие ИИ, часто признают, что инструменты, которые они создают, могут причинить вред физическому миру, поэтому вводят ограничения, направленные на предотвращение создания запрещённого контента, такого как дипфейки, вредоносное ПО или инструкции по созданию биологического оружия или запрещённых наркотиков. Если систему попросят генерировать такой контент, ограничители должны отметить проблему и отказаться выполнять требования.

Однако эти ограничения не являются безошибочными Злоумышленники могут обходить их, создавая подсказки так, чтобы ИИ случайно обходил собственные механизмы отказа. Успешный «джейлбрейк» ИИ лишает его ограничений, что приводит к реальным рискам, таким как кибератаки, утечки данных и высоко персонализированные фишинговые сообщения.

Первоначальное доказательство Гёделя разрушило надежды нескольких выдающихся математиков, которые в начале XX века пытались создать математическую «теорию всего» из небольшого набора базовых утверждений или аксиом. С хорошо подобранным набором начальных аксиом, рассуждали они, можно было бы доказать все идеи в любой области математики.

«Гёдель положил конец этой мечте», — сказал Василев. «Он показал, что нельзя иметь конечный набор утверждений и создать теорию, которая будет полной и последовательной без противоречий. Вы можете добавить больше утверждений, чтобы устранить противоречия, с которыми сталкиваетесь, но вы возвращаетесь к тому, с чего начали. Это повторяется.»

В случае ИИ «конечный набор утверждений» — это группа ограничителей, которые создаёт дизайнер ИИ, чтобы не дать ИИ сделать что-то нежелательное. Независимо от того, насколько хорошо они продуманы, доказательства Василева показывают, что всегда найдётся способы подтолкнуть ИИ, чтобы он нарушил эти правила. Всё дело в том, чтобы найти правильный запрос.

«Логика Гёделя здесь применена», — говорит Василев. «Ты никогда не сможешь утверждать, что ты устойчив ко всем внезапным атакам противника. Всегда будет какая-то подсказка, которая потенциально сможет обойти и разрушить любую оборонительную инфраструктуру, которую ты построил вокруг своей системы ИИ.»

К счастью для защитников, эта новая математическая теория оставляет пространство для усиления развернутых систем ИИ до такой степени, что их сложно эксплуатировать. Доказательство Василева не даёт рецепта для злоумышленников о том, как находить новые эксплойты.

«Вы заставляете злоумышленника искать то, что специалисты по безопасности называют "нулевыми дновыми эксплойтами" — это проблемы в системе, о которых знает только вы», — говорит Васильев. «Хакеры часто пользуются этими уязвимостями, когда находят их. И если они обнаруживают такую уязвимость в системе одной компании, обычно проходит немного времени, прежде чем кто-то воспользуется ею в другой системе с той же уязвимостью.»

Такие эксплойты нулевого дня для традиционного детерминированного программного обеспечения было нелегко найти и реализовать, отметил Василев; Часто им требовались ресурсы противников уровня национального государства. Проблема эпохи ИИ, по словам Василева, в том, что мы используем человеческий язык как вход в систему. Сложность и богатство языка делают проверку соответствия, построенную на конечном наборе правил, бесконечно неоднозначной. Количество способов, которыми противники могут скрывать вредные намерения на виду, практически безгранично.

Что же нам тогда делать? Василев предлагает подход, который не решит проблему полностью, но значительно усложнит успешное джейлбрейк ИИ враждебным подсказкам.

Подход состоит из трёх элементов: постоянной работы «красных команд», которые стремятся выявить новые враждебные запросы раньше, чем реальные атакующие; постоянные обновления, которые ужесточают барьеры ИИ от недавно обнаруженных враждебных подсказок; и операционной устойчивости, которая ставит приоритет на ограничение воздействия и быстрое восстановление, когда возникает эксплойт, а не если.

«Цель — достичь ситуации, когда стоимость поиска новых эксплойтов превысит ресурсы злоумышленников», — сказал он. «В математике не уйти от Гёделя, а в ИИ ты, скорее всего, не сможешь запатчить систему ИИ, как LLM, и надеяться, что всё будет нормально вечно. Нужно постоянно искать слабые места и опережать нападающих. Цель — достичь нового экономического равновесия, при котором злоумышленникам будет финансово невыгодно пытаться сломать вашу систему ИИ. Это может быть дорого, но это цена даже частичной безопасности, которая должна позволить организациям максимально использовать преимущества ИИ, минимизируя риски.» - отсюда

Friday, June 12, 2026

А кто это сделал?

За аварии с беспилотными авто в России будут платить владельцы машин, а не разработчики. Согласно новой редакции закона о беспилотных автомобилях, подготовленной Минтрансом, обязанность возмещать ущерб, нанесенный транспортным средством без водителя за рулем, ляжет на его владельца. Закон может вступить в силу уже с осени 2027 г.

Wednesday, June 10, 2026

Что делать со статьями, написанными ИИ?

Большой и интересный материал от конференции NeurIPS. Кратко: не принимать и не публиковать. Для контроля используют Pangram.

В этом году в рамках секции «Позиционные доклады» конференции NeurIPS 2026 было принято решение обязать авторов в значительной степени использовать человеческий труд, а ИИ — только для корректуры или подобных второстепенных изменений основного текста. Хотя мы признаем, что продуманное использование ИИ может привести к повышению производительности исследований, применение ИИ для написания докладов создает серьезный риск для системы рецензирования. В этом году, как председатели секции «Позиционные доклады», мы придерживаемся консервативного подхода, поскольку считаем, что в случае аргументированных работ, таких как позиционные доклады, чрезмерное использование ИИ при написании представленных докладов мало полезно для всего исследовательского сообщества. Текст, сгенерированный ИИ, часто выглядит привлекательно, но может значительно отличаться от первоначального замысла авторов. В этом случае представление текста, сгенерированного ИИ, на рецензирование перекладывает затраты на проверку этой работы на рецензентов. Если же сам текст, сгенерированный ИИ, не является бессвязным или вводящим в заблуждение, это поднимает вопросы о надлежащем распределении заслуг.

Придерживаемся в журнале INJOIT такой же позиции. Статья - авторский материал. Есть (должен быть) автор. А просто при выполнении работы (производственного задания) есть исполнитель, который может, конечно, использовать любые инструменты.

Tuesday, June 09, 2026

Не до законов - 3

Генеральный директор OpenAI Сэм Альтман будет выступать против предложений о том, чтобы разработчики ИИ получали одобрение правительства США перед выпуском новых моделей в открытый доступ, говорится в заявлении компании, опубликованном в среду, в рамках более широких усилий по формированию регулирования этой технологии.

Альтман попросит Конгресс увеличить финансирование тестирования искусственного интеллекта в Министерстве торговли США. Министерство уже сотрудничает с такими компаниями, как OpenAI и Anthropic, для тестирования их моделей. В заявлении компании говорится, что OpenAI хочет, чтобы правительство США расширило эту инициативу и привлекло ученых, обладающих опытом в области кибербезопасности, биологического оружия и национальной безопасности, среди прочих тем.

Визит Альтмана в Вашингтон совпадает с критическим периодом для компании и отрасли. Как ранее сообщало агентство Reuters, компания OpenAI готовится конфиденциально подать заявку на первичное публичное размещение акций (IPO). Конкурент Anthropic, производитель Claude, в понедельник конфиденциально подал заявку на IPO в США. Требования федерального правительства могут негативно сказаться на прибыли отрасли, если они замедлят внедрение новых моделей или побудят компании изменить характеристики своей продукции для решения проблем безопасности. - OpenAI's Altman to urge US lawmakers not to require AI model approvals

Умом ИИ не понять, в ИИ нужно только верить ...

Monday, June 08, 2026

Водит как подросток

Компания Waymo, демонстрирующая впечатляющие статистические данные, показывающие, что её беспилотные автомобили намного безопаснее, чем автомобили с водителями-людьми, развернула тысячи компьютеризированных роботакси по всей стране, которые не могут управлять автомобилем в нетрезвом виде, отвлекаться на телефоны или проявлять агрессию на дороге.

Однако анализ CNN данных местных и федеральных органов власти, а также видеороликов в социальных сетях показывает, что та же самая особенность, которая делает роботакси Waymo менее склонными к опасным столкновениям — отсутствие водителя-человека — также создает совершенно новые проблемы безопасности, которые беспокоят правительственных чиновников, поскольку компания стремится расширить свою деятельность за пределы 11 городов, где она в настоящее время работает.

CNN выявила сотни инцидентов, в которых роботакси якобы совершали опасные маневры и испытывали трудности с препятствиями, с которыми люди инстинктивно справляются. Они проезжали на красный свет, выезжали на встречную полосу и на места преступлений, не соблюдали правила дорожного движения и приближались на расстояние нескольких сантиметров к пешеходам, законно переходящим улицу — ошибки, которые роботизированные автомобили должны быть запрограммированы избегать.

За последние два месяца компания Waymo отозвала тысячи автомобилей и приостановила работу в нескольких городах после того, как роботакси выехали на затопленные улицы, в том числе в Сан-Антонио, где пустой автомобиль Waymo был смыт бурным потоком воды. А недавно компания объявила о приостановке работы на всех автомагистралях в таких городах, как Лос-Анджелес и Майами, после того, как один из пассажиров из Сан-Франциско рассказал на форуме X, что его роботакси устроило высокоскоростную погоню с полицией через зону активных дорожных работ. - ‘Driving like teenagers’: Waymo robotaxis have run red lights and nearly hit pedestrians, CNN finds

ИИ и судебная практика

Российиская судебная практика по делам, связанным с ИИ. В России впервые вынесли приговор за публикацию порно, сгенерированного ИИ. В России осудили подростка, который занимался распространением сгенерированной искусственным интеллектом порнографии. Молодой человек сказал, что разослал созданные нейронной сетью кадры, чтобы пошутить над потерпевшей. Суд назначил ему наказание в виде двух лет лишения свободы условно с испытательным сроком один год.

Saturday, June 06, 2026

Аппаратная безопасность

Конфиденциальные вычисления решают проблемы безопасности и конфиденциальности данных для организаций, переносящих конфиденциальные рабочие нагрузки в облако. Это важнейший шаг вперед, позволяющий шифровать данные как во время их обработки в памяти, так и во время активного использования. По мере роста внедрения облачных технологий конфиденциальные вычисления будут играть ключевую роль в повышении безопасности и конфиденциальности в облачных средах. В этом отчете описывается эффективный подход к защите данных, обрабатываемых рабочими нагрузками искусственного интеллекта в облачной инфраструктуре, чтобы защитить наборы данных от вредоносных программ, кражи данных и других уязвимостей, связанных с безопасностью - Hardware-Enabled Security: Confidential Computing of Data in Cloud Workloads