Sunday, December 07, 2025

Наши дипфейки - самые глубокие фейки

По мере того, как системы обнаружения дипфейков становятся всё более сложными, понимание их уязвимостей становится критически важным для разработки надёжной защиты. Мы представляем комплексное исследование конкурентных атак на детекторы дипфейков на основе изображений, предлагая новый подход, создающий «конкурентную реальность» — синтетические изображения, которые сохраняют визуальное сходство с оригинальными дипфейками, успешно обходя автоматизированные системы обнаружения. Наш метод использует генеративную структуру с архитектурой в стиле UNet для преобразования изображений, сгенерированных GAN, диффузионно-генерированных и обработанных лиц, в варианты, обманывающие детектор, сохраняя при этом визуальную точность. В отличие от традиционных подходов, основанных на возмущениях, которые добавляют шумовые паттерны, наш генеративный метод обучается преобразованиям, специфичным для изображений, без необходимости использования вручную созданных спектральных фильтров. Благодаря обширной оценке различных наборов данных, типов генераторов и архитектур детекторов мы демонстрируем, что наш подход достигает уровня ошибочной классификации до 98,83% на диффузных изображениях и 83,36% на контенте на основе GAN, сохраняя при этом высокое качество восприятия со средними баллами PSNR выше 35. Наши результаты выявляют критические уязвимости в существующих системах обнаружения и дают представление о разработке более надежных детекторов дипфейков. - Adversarial Reality for Evading Deepfake Image Detectors

См. также другие публикации по теме deepfake

Saturday, December 06, 2025

Двойной триггер

Детекторы объектов в реальном времени, широко используемые в реальных приложениях, уязвимы к атакам с использованием бэкдоров. Эта уязвимость возникает из-за того, что многие пользователи полагаются на наборы данных или предобученные модели, предоставляемые третьими лицами, из-за ограничений на данные и ресурсы. Однако большинство исследований атак с использованием бэкдоров было сосредоточено на классификации изображений, а обнаружение объектов в реальном времени изучено недостаточно. Более того, триггеры для большинства существующих атак с использованием бэкдоров генерируются вручную, что требует наличия предварительных знаний и наличия закономерностей между этапами обучения и вывода. Такой подход делает атаки либо легко обнаруживаемыми, либо сложно адаптируемыми к различным сценариям. Для устранения этих ограничений мы предлагаем новые генеративные сети с двойным триггером в частотной области для генерации невидимых триггеров для внедрения скрытых бэкдоров в модели во время обучения и видимых триггеров для постоянной активации во время вывода, что затрудняет отслеживание процесса атаки. В частности, для генеративной сети с невидимым триггером мы используем слой гауссовского сглаживания и высокочастотный классификатор артефактов для повышения скрытности внедрения бэкдоров в детекторы объектов. Для генеративной сети с видимыми триггерами мы разрабатываем новый алгоритм потери выравнивания, чтобы оптимизировать видимые триггеры таким образом, чтобы они отличались от исходных шаблонов, но при этом соответствовали вредоносному поведению активации невидимых триггеров. Обширные экспериментальные результаты и анализ подтверждают возможность использования различных триггеров на этапе обучения и этапе вывода, а также демонстрируют эффективность атак наших предлагаемых генеративных сетей с видимыми и невидимыми триггерами, значительно снижая эффективность детекторов объектов на 70,0% и 84,5%. - Twin trigger generative networks for backdoor attacks against real-time object detection

Принципиальный момент - исполюзуются разные триггеры при обучении и инференсе.

P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Friday, December 05, 2025

Состязательное тестирование LLM

Стремительное расширение исследований безопасности и надежности больших языковых моделей (LLM) привело к появлению разрозненной и зачастую содержащей ошибки экосистемы реализаций, наборов данных и методов оценки. Эта фрагментация затрудняет воспроизводимость и сопоставимость результатов различных исследований, препятствуя существенному прогрессу. Для решения этих проблем мы представляем ADVERSARIALLM, набор инструментов для проведения исследований надежности джейлбрейка LLM. Его дизайн ориентирован на воспроизводимость, корректность и расширяемость. Фреймворк реализует двенадцать алгоритмов состязательных атак, объединяет семь эталонных наборов данных, охватывающих оценку вредоносности, избыточного отказа и полезности, и предоставляет доступ к широкому спектру открытых LLM через Hugging Face. Реализация включает расширенные функции для обеспечения сопоставимости и воспроизводимости, такие как отслеживание ресурсов компьютера, детерминированные результаты и методы оценки распределения. ADVERSARIALLM также интегрирует систему оценки через сопутствующий пакет JUDGEZOO, который также может использоваться независимо. Вместе эти компоненты направлены на создание прочной основы для прозрачных, сравнимых и воспроизводимых исследований в области безопасности магистратуры по праву. Оба пакета доступны на GitHub - AdversariaLLM: A Unified and Modular Toolbox for LLM Robustness Research

См. также другие публикации, посвященные LLM

Wednesday, December 03, 2025

Что по интерпретации?

Интересные заметки от Google Deepmind по интерпретации моделей. Например, про атрибуцию данных на основе функций влияния.

Я к Вам пишу ...

Ужасы AI Red Team. Запросы в прошедшем времени обходили фильтры LLM. Теперь выяснилось, что их обходят еще и стихи ...

Мы представляем доказательства того, что состязательная поэзия функционирует как универсальный одношаговый джейлбрек для больших языковых моделей (LLM). В 25 передовых проприетарных и открытых моделях курируемые поэтические подсказки показали высокие показатели успешности атак (ASR), превышающие 90% у некоторых поставщиков. Сопоставление подсказок с таксономиями рисков MLCommons и EU CoP показывает, что поэтические атаки переносятся в области CBRN (Chemical, Biological, Radiological, and Nuclear) опасностей, манипуляций, киберпреступлений и потери контроля. Преобразование 1200 вредоносных подсказок MLCommons в стихи с помощью стандартизированного мета-подсказки дало ASR до 18 раз выше, чем их базовые показатели для прозы. Результаты оцениваются с помощью ансамбля из 3 экспертов LLM с открытым весом, чьи бинарные оценки безопасности были проверены на стратифицированном подмножестве, маркированном людьми. Поэтические подсказки достигли среднего уровня успешности взлома 62% для стихотворений, написанных вручную, и примерно 43% для мета-подсказок (по сравнению с непоэтическими базовыми вариантами), значительно превзойдя непоэтические базовые варианты и выявив систематическую уязвимость среди модельных семейств и подходов к обучению безопасности. Эти результаты показывают, что одни только стилистические вариации могут обойти современные механизмы безопасности, указывая на фундаментальные ограничения существующих методов выравнивания и протоколов оценки. - Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models

См. также другие публикации, посвященные LLM

Tuesday, December 02, 2025

A2AS - безопасность агентов

Фреймворк A2AS представлен в качестве уровня безопасности для агентов ИИ и приложений на базе LLM, аналогично тому, как HTTPS защищает HTTP. A2AS обеспечивает сертифицированное поведение, активирует самозащиту модели и обеспечивает целостность контекстного окна. Он определяет границы безопасности, аутентифицирует запросы, применяет правила безопасности и настраиваемые политики, а также контролирует поведение агентов, обеспечивая стратегию глубокой защиты. Фреймворк A2AS позволяет избежать накладных расходов, связанных с задержками, внешними зависимостями, изменениями архитектуры, переобучением модели и сложностью эксплуатации. В качестве основы A2AS представлена модель безопасности BASIC:

(B) Сертификаты поведения обеспечивают принудительное применение поведения,
(A) Аутентифицированные запросы обеспечивают целостность контекстного окна,
(S) Границы безопасности обеспечивают изоляцию ненадежных входных данных,
(I) Контекстная защита обеспечивает безопасную модельную аргументацию,
(C) Кодифицированные политики обеспечивают правила, специфичные для приложения.

В этой первой статье серии представлены модель безопасности BASIC и фреймворк A2AS, а также исследуется их потенциал для установления отраслевого стандарта A2AS - Agentic AI Runtime Security and Self-Defense

См. также другие публикации, посвященные агентам

Monday, December 01, 2025

LLM в защите

Когда агенты больших языковых моделей (LLM) всё чаще используются для автоматизации задач и взаимодействия с недоверенными внешними данными, внедрение подсказок становится серьёзной угрозой безопасности. Внедряя вредоносные инструкции в данные, к которым обращаются LLM, злоумышленник может произвольно переопределить исходную задачу пользователя и перенаправить агента на выполнение непреднамеренных, потенциально опасных действий. Существующие средства защиты либо требуют доступа к весам модели (тонкая настройка), либо приводят к существенной потере полезности (основанная на обнаружении), либо требуют нетривиальной переработки системы (на системном уровне). В связи с этим мы предлагаем DataFilter — защиту, не зависящую от модели, которая удаляет вредоносные инструкции из данных до того, как они достигнут бэкенда LLM. DataFilter обучается с контролируемой тонкой настройкой на имитационных внедрениях и использует как инструкции пользователя, так и данные для выборочного удаления вредоносного контента, сохраняя при этом безвредную информацию. В множестве бенчмарков DataFilter стабильно снижает процент успешных атак с использованием инъекций подсказок практически до нуля, сохраняя при этом полезность LLM. DataFilter обеспечивает надежную безопасность, высокую полезность и быстрое развертывание, что делает его надежной практической защитой для защиты коммерческих LLM от инъекций подсказок. Наша модель DataFilter доступна для немедленного использования, а код для воспроизведения наших результатов доступен здесь. - Defending Against Prompt Injection with DataFilter

Специально обученная LLM удаляет инъекции подсказок. Возможно - это правильный путь для агентов. Специальный агент-защитник, используемый в workflow агентов.

См. также другие публикации, посвященные LLM

Sunday, November 30, 2025

Временные подсказки

Анализ временных рядов с помощью LLM. По сути - набор конкретных промптов. LLM-Powered Time-Series Analysis

См. также другие публикации, посвященные LLM

См. также другие материалы, посвященные подсказкам

Saturday, November 29, 2025

ML interview

How to Crack Machine Learning System-Design Interviews. Подробное руководство по собеседованиям по проектированию машинного обучения в Meta, Apple, Reddit, Amazon, Google и Snap

См. также другие публикации на тему интервью

Friday, November 28, 2025

ИИ в науке

Запуск миссии Genesis:

По полномочиям, предоставленным мне как Президенту Конституцией и законами Соединённых Штатов Америки, настоящим постановляется:

Раздел 1. Цель. С момента основания нашей Республики научные открытия и технологические инновации были движущей силой американского прогресса и процветания. Сегодня Америка гонится за глобальное технологическое доминирование в развитии искусственного интеллекта (ИИ) — важной рубежи научных открытий и экономического роста. В этой связи моя администрация предприняла ряд мер для победы в этой гонке, включая выпуск нескольких исполнительных указов и внедрение Американского плана действий по ИИ, который признаёт необходимость инвестирования в науку с ИИ для ускорения научного прогресса. В этот решающий момент перед нами возникают исторические национальные усилия, сопоставимые по срочности и амбициям с Манхэттенским проектом, который сыграл ключевую роль в нашей победе во Второй мировой войне и стал критической основой для основания Министерства энергетики (DOE) и его национальных лабораторий.

Этот приказ запускает «Миссию Генезис» как целенаправленную, скоординированную национальную инициативу по запуску новой эры инноваций и открытий, ускоренных с помощью ИИ, способных решить самые сложные проблемы этого века. Миссия Genesis создаст интегрированную платформу ИИ для использования федеральных научных наборов данных — крупнейшей в мире коллекции таких наборов данных, созданной десятилетиями федеральных инвестиций — для обучения научных базовых моделей и создания агентов ИИ для тестирования новых гипотез, автоматизации исследовательских рабочих процессов и ускорения научных прорывов. Миссия Genesis объединит научно-исследовательские и разработочные ресурсы нашей страны — объединяя усилия выдающихся американских учёных, включая сотрудников национальных лабораторий, с новаторскими американскими компаниями; всемирно известных университетов; а также существующую исследовательскую инфраструктуру, хранилища данных, производственные заводы и объекты национальной безопасности — чтобы добиться значительного ускорения разработки и использования ИИ. Мы будем использовать на благо нашей страны происходящую революцию в области вычислительной техники и опираться на десятилетия инноваций в области полупроводников и высокопроизводительных вычислений. Миссия Genesis значительно ускорит научные открытия, укрепит национальную безопасность, обеспечит энергетическое доминирование, повысит производительность рабочей силы и умножит отдачу от инвестиций налогоплательщиков в исследования и разработки, тем самым укрепляя технологическое превосходство Америки и её глобальное стратегическое лидерство.

Сек. 2. Создание миссии Genesis. (a) Учреждена миссия Genesis (Mission) — национальная инициатива по ускорению применения ИИ для преобразующих научных открытий, сосредоточенная на актуальных национальных проблемах.

(b) Министр энергетики (Секретарь) несёт ответственность за реализацию Миссии в рамках Министерства энергетики в соответствии с положениями настоящего приказа, включая, по мере необходимости и разрешения закона, установление приоритетов и обеспечение интеграции всех ресурсов Министерства энергетики, используемых для элементов Миссии, в безопасную, единую платформу. Секретарь может назначить старшего политического назначенца для надзора за повседневной деятельностью Миссии.

(c) Помощник президента по науке и технологиям (APST) обеспечивает общее руководство Миссией, включая координацию участвующих исполнительных департаментов и агентств (агентств) через Национальный совет по науке и технологиям (NSTC) и выдачу рекомендаций для обеспечения соответствия миссии национальным целям.

Сек. 3. Работа Американской платформы науки и безопасности. (a) Секретарь должен учредить и эксплуатировать Американскую платформу науки и безопасности (Платформу), которая служит инфраструктурой для Миссии с целью обеспечения в интегрированной и максимально возможной степени и в соответствии с законом:

(i) высокопроизводительные вычислительные ресурсы, включая суперкомпьютеры национальной лаборатории DOE и безопасные облачные среды искусственного интеллекта, способные поддерживать обучение крупномасштабных моделей, моделирование и выводы;
(ii) фреймворки для моделирования и анализа ИИ, включая агентов ИИ для изучения проектных пространств, оценки экспериментальных результатов и автоматизации рабочих процессов;
(iii) вычислительные инструменты, включая предсказательные модели с поддержкой ИИ, модели симуляции и инструменты оптимизации проектирования;
(iv) специализированные модели фундамента в различных областях, охваченных научными областями;
(v) безопасный доступ к соответствующим наборам данных, включая проприетарные, федерально курируемые и открытые научные наборы данных, а также синтетические данные, созданные с помощью вычислительных ресурсов DOE, в соответствии с применимым законодательством; применимая защита классификации, конфиденциальности и интеллектуальной собственности; и федеральные стандарты доступа к данным и управления данными; и
(vi) экспериментальные и производственные инструменты для обеспечения автономных и усиленных ИИ экспериментов и производства в областях с высоким воздействием.

(b) Секретарь должен предпринять необходимые меры для обеспечения того, чтобы Платформа функционировала в соответствии с требованиями безопасности, соответствующими её миссии по национальной безопасности и конкурентоспособности, включая применимую классификацию, безопасность цепочки поставок, а также федеральные стандарты и лучшие практики кибербезопасности.

(c) В течение 90 дней с даты настоящего приказа Секретарь должен определить федеральные вычислительные, хранительские и сетевые ресурсы, доступные для поддержки Миссии, включая как локальные, так и облачные высокопроизводительные вычислительные системы DOE, а также ресурсы, доступные через отраслевых партнёров. Секретарь также должен определить любые дополнительные партнерства или улучшения инфраструктуры, которые могут поддержать вычислительную основу Платформы.

(d) В течение 120 дней с даты настоящего приказа Секретарь:

(i) определить набор начальных данных и модельных активов для использования в Миссии, включая оцифровку, стандартизацию, метаданные и отслеживание происхождения; и
(ii) разработать план с соответствующими мерами кибербезопасности, основанной на рисках, для включения наборов данных из федеральных исследований, других агентств, академических учреждений и одобренных партнёров частного сектора, при необходимости.

(e) В течение 240 дней с даты настоящего приказа Секретарь должен пересмотреть возможности национальных лабораторий Министерства энергетики и других участвующих федеральных исследовательских объектов для робототехнических лабораторий и производственных объектов с возможностью участия в экспериментах и производстве, направленных на ИИ, включая автоматизированные и усиленные ИИ рабочие процессы, а также соответствующие технические и операционные стандарты.

(f) В течение 270 дней с даты настоящего приказа Секретарь, в соответствии с применимым законодательством и с учётом доступных ассигнирований, должен попытаться продемонстрировать первоначальную операционную способность Платформы по крайней мере для одной из национальных научных и технологических задач, выявленных в соответствии с разделом 4 настоящего приказа.

Сек. 4. Выявление национальных проблем в области науки и технологий. (a) В течение 60 дней с даты настоящего приказа Секретарь должен определить и представить APST подробный список как минимум 20 научно-технических вызовов национального значения, которые, по его оценке, имеют потенциал для решения через Миссию и которые охватывают приоритетные области в соответствии с Национальным меморандумом по науке и технологиям No2 от 23 сентября, 2025 год, включая:

(i) продвинутое производство;
(ii) биотехнологии;
(iii) критически важные материалы;
(iv) ядерное деление и энергия синтеза;
(v) квантовая информационная наука; и
(vi) полупроводники и микроэлектроника.

(b) В течение 30 дней после подачи списка, описанного в подпункте (a) данного раздела, APST рассмотрит предложенный список и, работая с участвующими агентствами NSTC, координирует разработку расширенного списка, который может служить начальным набором национальных научно-технических вызовов, которые должна решать Миссия, включая дополнительные вызовы, предлагаемые участвующими агентствами через NSTC, при условии доступных ассигнирований.

(c) После разработки расширенного списка, описанного в подпункте (b) данного раздела, агентства, участвующие в миссии, должны использовать Платформу для продвижения исследований и разработок, соответствующих национальным научно-техническим вызовам, указанным в расширенном списке, в соответствии с применимым законодательством и их соответствующими миссиями, а также с учётом доступных ассигнирований.

(d) В дальнейшем ежегодно Секретарь будет рассматривать и обновлять список вызовов в консультации с APST и NSTC с учётом достигнутого прогресса, возникающих национальных потребностей и соответствия приоритетам моей администрации в области исследований и разработок.

Сек. 5. Межведомственная координация и внешнее взаимодействие. (a) APST через NSTC и при поддержке Федерального совета главных специалистов по данным и Совета главных офицеров по ИИ созывает соответствующие и заинтересованные агентства для:

(i) помогать участвующим агентствам в согласовании, в разрешённой законом степени, их программ, наборов данных и научно-исследовательской деятельности, связанных с ИИ, с целями Миссии в их соответствующих областях экспертизы, при этом избегая дублирования усилий в федеральном правительстве и способствуя совместимости;
(ii) выявить источники данных, которые могут поддерживать цель миссии;
(iii) разработать процесс и план ресурсов в координации с участвующими агентствами для интеграции соответствующих и доступных данных и инфраструктуры агентств в Миссию в пределах, разрешенных законом и с учётом доступных ассигнования, включая методы, при которых все агентства, участвующие в Миссии, поощряются к внедрению соответствующих мер безопасности, основанных на рисках, отражающих лучшие практики кибербезопасности;
(iv) запускать координированные возможности финансирования или конкурсы призов между участвующими агентствами, в пределах, разрешенных законом и при наличии доступных ассигнирований, чтобы стимулировать участие частного сектора в научных исследованиях, основанных на ИИ, соответствующих целям миссии; и
(v) создать механизмы координации возможностей финансирования исследований и разработок, а также экспериментальных ресурсов между участвующими агентствами, обеспечивая эффективное участие агентств в миссии.

(b) APST должна координировать действия с соответствующими агентствами в установлении, в соответствии с действующими уполномочивающими законами и с учётом доступных ассигнования, конкурентных программ для исследовательских стипендий, стажировок и ученических программ, направленных на применение ИИ в научных сферах, определённых как национальные вызовы для Миссии, включая размещение участников программ в национальных лабораториях Министерства энергетики и других участвующих федеральных исследовательских объектах, с целью обеспечения доступа к Платформе и обучения научным открытиям с использованием ИИ.

(c) Секретарь в координации с APST и Специальным советником по ИИ и криптографам должен устанавливать механизмы сотрудничества агентств с внешними партнёрами, обладающими передовыми возможностями ИИ, данных или вычислительной техники или научной экспертизой, включая совместные соглашения о исследованиях и разработках, партнерства с пользовательскими объектами или другие соответствующие соглашения с внешними организациями для поддержки и улучшения деятельности Миссии, и обеспечит структуру таких партнёрств с целью сохранения безопасности федеральных исследовательских активов и максимизации общественной выгоды. Для содействия этому сотрудничеству Секретарь:

(i) разрабатывать стандартизированные рамки партнерства, включая совместные исследования и разработки или другие соответствующие соглашения, а также соглашения об использовании данных и обмене моделями;
(ii) устанавливать чёткие политики владения, лицензирования, защиты коммерческой тайны и коммерциализации интеллектуальной собственности, разработанных в рамках Миссии, включая инновации, возникающие в результате экспериментов, управляемых ИИ;
(iii) внедрять единые и строгие процессы доступа и управления данными, а также стандарты кибербезопасности для нефедеральных сотрудников, получающих доступ к наборам данных, моделям и вычислительным средам, включая меры, требующие соблюдения требований классификации, конфиденциальности и контроля экспорта, а также других применимых законов; и
(iv) устанавливать процедуры для обеспечения высочайших стандартов проверки и авторизации пользователей и сотрудников, стремящихся получить доступ к ресурсам Миссии и сопутствующей исследовательской деятельности, включая Платформу и связанные с ней федеральные исследовательские ресурсы.

(d) APST через NSTC должна, по мере необходимости, выявлять возможности для международного научного сотрудничества для поддержки деятельности в рамках Миссии.

Сек. 6. Оценка и отчетность. (a) В течение 1 года с даты настоящего приказа и ежегодно после этого Секретарь должен представить Президенту отчёт через APST и директору Управления по управлению и бюджету, описывающий:

(i) операционный статус и возможности платформы;
(ii) прогресс в интеграции национальных лабораторий DOE и других участвующих федеральных исследовательских партнёров, включая совместный доступ к вычислительным ресурсам, инфраструктуре данных и исследовательским лабораториям;
(iii) статус вовлечённости пользователей, включая участие студентов-исследователей и любое сопутствующее обучение;
(iv) обновления о научных усилиях и достигнутых результатах, включая измеримые научные достижения, публикации и прототипные технологии;
(v) объем и результаты государственно-частных партнёрств, включая совместные исследовательские проекты и любые технологические переходы или деятельность по коммерциализации; и
(vi) любые выявленные потребности или рекомендации по полномочиям или межведомственной поддержке для достижения целей Миссии.

Сек. 7. Общие положения. (a) Ничто в настоящем порядке не должно истолковаться как нарушающее или иным образом влияющее:

(i) полномочия, предоставленные законом исполнительному ведомству или агентству, либо их главе; или
(ii) функции директора Управления по управлению и бюджету, связанные с бюджетными, административными или законодательными предложениями.

(b) Данный приказ должен исполняться в соответствии с применимым законодательством и при условии наличия ассигнования.

(c) Это постановление не предназначено и не создаёт никаких прав или выгод, материальных или процедурных, которые могут быть исполнены по закону или по справедливости любой стороной против Соединённых Штатов, их департаментов, агентств или организаций, их должностных лиц, сотрудников или агентов, либо любого другого лица.

(d) Расходы на публикацию этого приказа покроет Министерство энергетики.

ДОНАЛЬД ДЖ. ТРАМП
БЕЛЫЙ ДОМ,
24 ноября 2025 года.

Приватные курсы

Интересные курсы от ETH по приватности данных и LLM

Thursday, November 27, 2025

Как же он служил в очистке?

Длинноконтекстные LLM уязвимы к внедрению подсказок, когда злоумышленник может внедрить инструкцию в длинный контекст, чтобы побудить LLM сгенерировать желаемый злоумышленником вывод. Существующие методы защиты от внедрения подсказок разработаны для коротких контекстов. При распространении на сценарии с длинным контекстом они имеют ограниченную эффективность. Причина в том, что внедренная инструкция составляет лишь очень малую часть длинного контекста, что делает защиту очень сложной. В данной работе мы предлагаем PISanitizer, который сначала выявляет и дезинфицирует потенциально внедренные токены (если таковые имеются) в контексте, прежде чем позволить бэкенд-LLM сгенерировать ответ, тем самым устраняя влияние внедренной инструкции. Для дезинфекции внедренных токенов PISanitizer основывается на двух наблюдениях: (1) атаки с внедрением подсказок, по сути, создают инструкцию, которая заставляет LLM следовать ей, и (2) LLM по сути используют механизм внимания, чтобы сосредоточиться на критически важных входных токенах для генерации вывода. Руководствуясь этими двумя наблюдениями, мы сначала намеренно позволяем LLM следовать произвольным инструкциям (если таковые имеются) в контексте, а затем дезинфицируем токены, получающие повышенное внимание и управляющие поведением LLM, связанным с следованием инструкциям. По своей сути PISanitizer представляет собой дилемму для злоумышленника: чем эффективнее внедренная инструкция заставляет LLM следовать ей, тем выше вероятность, что она будет дезинфицирована PISanitizer. Наш обширный анализ показывает, что PISanitizer может успешно предотвращать внедрение подсказок, сохранять полезность, превосходить существующие средства защиты, является эффективным и устойчивым к атакам, основанным на оптимизации, и сильным адаптивным атакам. Код доступен по адресу https://github.com/sleeepeer/PISanitizer - PISanitizer: Preventing Prompt Injection to Long-Context LLMs via Prompt Sanitization

Интиересная идея - очищать промпты с помощью другой LLM

Wednesday, November 26, 2025

Большая разница

Большинство моделей машинного обучения уязвимы к состязательным примерам, что создает проблемы безопасности для этих моделей. Состязательные примеры создаются путем применения тонких, но намеренно худших модификаций к примерам из набора данных, что приводит к тому, что модель выдает ответ, отличный от исходного примера. В данной статье состязательные примеры формируются совершенно противоположным образом, которые существенно отличаются от исходных примеров, но приводят к тому же ответу. Мы предлагаем новый набор алгоритмов для создания таких состязательных примеров, включая метод отрицательного итерационного быстрого градиента (NI-FGSM) и метод отрицательного итерационного быстрого градиента (NI-FGM), а также их варианты с импульсом: метод отрицательного итерационного быстрого градиента (NMI-FGSM) и метод отрицательного итерационного быстрого градиента (NMI-FGM). Состязательные примеры, созданные этими методами, могут быть использованы для проведения атаки на системы машинного обучения в определенных случаях. Более того, наши результаты показывают, что вредоносные примеры не просто распределены по соседству с примерами из набора данных; вместо этого они широко распределены в пространстве выборки. - A New Type of Adversarial Examples

Изначально, состязательные примеры строились на принципах незаметности. Здесь же, все наоборот - состязательный пример сильно отличается от оригинала. Человек, при классификации, легко отличит состязательный пример от оригинала. Модель же - не отличает.

P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Тестирование мультиагентных систем

Большие языковые модели (LLM) продемонстрировали сильные возможности как автономных агентов благодаря использованию инструментов, планированию и принятию решений, что привело к их широкому внедрению в самых разных задачах. По мере роста сложности задач многоагентные системы LLM все чаще используются для совместного решения задач. Однако безопасность этих систем остается в значительной степени недостаточно изученной. Существующие бенчмарки и наборы данных в основном фокусируются на одноагентных настройках, не отражая уникальные уязвимости многоагентной динамики и координации. Чтобы устранить этот пробел, мы представляем «Угрозы и атаки в многоагентных системах» (TAMAS), бенчмарк, предназначенный для оценки надежности и безопасности многоагентных LLM-систем. TAMAS включает пять различных сценариев, включающих 300 соперничающих экземпляров шести типов атак и 211 инструментов, а также 100 безопасных задач. Мы оцениваем производительность системы на десяти базовых LLM и трёх конфигурациях взаимодействия агентов из фреймворков Autogen и CrewAI, выделяя критические проблемы и виды отказов в текущих мультиагентных развертываниях. Кроме того, мы вводим показатель эффективной надёжности (ERS) для оценки компромисса между безопасностью и эффективностью выполнения задач этих фреймворков. Наши результаты показывают, что многоагентные системы крайне уязвимы для атак со стороны злоумышленников, что подчёркивает острую необходимость в более эффективной защите. TAMAS обеспечивает основу для систематического изучения и повышения безопасности многоагентных LLM-систем. Код доступен по адресу https://github.com/microsoft/TAMAS. - TAMAS: Benchmarking Adversarial Risks in Multi-Agent LLM Systems

См. также другие публикации, посвященные агентам

Tuesday, November 25, 2025

RAG для кибербезопасности

Приложения безопасности все чаще используют большие языковые модели (LLM) для обнаружения киберугроз; однако их непрозрачность в рассуждениях часто ограничивает доверие, особенно при принятии решений, требующих знаний в области кибербезопасности. Поскольку угрозы безопасности быстро развиваются, LLM должны не только помнить об исторических инцидентах, но и адаптироваться к возникающим уязвимостям и шаблонам атак. Метод генерации дополненного поиска (RAG) продемонстрировал эффективность в общих приложениях LLM, но его потенциал для кибербезопасности остается недоисследованным. В данной работе мы представляем фреймворк на основе RAG, предназначенный для контекстуализации данных кибербезопасности и повышения точности LLM в сохранении знаний и временных рассуждениях. Используя внешние наборы данных и модель Llama-3-8B-Instruct, мы оцениваем базовый RAG, оптимизированный гибридный подход к поиску, и проводим сравнительный анализ по нескольким метрикам производительности. Наши результаты подчеркивают потенциал гибридного поиска для повышения адаптивности и надежности LLM для задач кибербезопасности. - Adapting Large Language Models to Emerging Cybersecurity using Retrieval Augmented Generation

См. по этой теме статью Намиот, Д. Е. "Что LLM знает о кибербезопасности." International Journal of Open Information Technologies 13.7 (2025): 37-46.

См. также другие публикации, посвященные LLM

Интернет Вещей и кванты

Отчет GSMA: Post Quantum Cryptography in IoT Ecosystem

Monday, November 24, 2025

Онтологии ИИ

Искусственный интеллект быстро стал краеугольным камнем технологий, существенно повлияв на европейский общественный и экономический ландшафт. Однако распространение ИИ также поднимает важные этические, правовые и нормативные проблемы. Проект CERTAIN (Сертификация этической и нормативной прозрачности в области искусственного интеллекта) решает эти проблемы, разрабатывая комплексную структуру, которая интегрирует соблюдение нормативных требований, этические стандарты и прозрачность в системы ИИ. В данной аналитической записке мы описываем методологические этапы создания основных компонентов этой структуры. В частности, мы представляем: (i) семантические операции машинного обучения (MLOps) для структурированного управления жизненным циклом ИИ, (ii) отслеживание происхождения данных на основе онтологий для обеспечения прослеживаемости и подотчетности, и (iii) рабочие процессы регуляторных операций (RegOps) для операционализации требований соответствия. Внедряя и проверяя свои решения в различных пилотных проектах, CERTAIN стремится к повышению уровня соответствия нормативным требованиям и продвижению ответственных инноваций в области ИИ, соответствующих европейским стандартам. - Towards a Framework for Supporting the Ethical and Regulatory Certification of AI Systems

Sunday, November 23, 2025

Как же это работает?

Это пока ранняя стадия исследований. Новая модель, называемая «трансформером с разреженным весом», гораздо компактнее и гораздо менее функциональна, чем топовые массовые модели, такие как GPT-5 компании, Claude от Anthropic и Gemini от Google DeepMind. Её возможности не превышают возможностей GPT-1, модели, разработанной OpenAI ещё в 2018 году (хотя он и его коллеги не проводили прямого сравнения). Но цель не в том, чтобы конкурировать с лучшими в своём классе (по крайней мере, пока). Вместо этого, изучая работу этой экспериментальной модели, OpenAI надеется узнать о скрытых механизмах, которые лежат в основе этих более крупных и улучшенных версий технологии. - Understanding neural networks through sparse circuits

См. также другие публикации, посвященные LLM