Thursday, December 11, 2025

Безопасность ИИ-агентов

Учебное пособие на русском языке. Подготовлено на кафедре ИБ факультета ВМК МГУ имени М.В. Ломоносова. В первую очередь - для слушателей курса Разработка агентов ИИ, который с осени 2025 читается на факультете. Обновленный вариант на декабрь 2025. Охваченные вопросы:
  • Структура ИИ-агентов и шаблоны проектирования
  • Проблемы с безопасностью ИИ-агентов
  • Риски безопасности ИИ-агентов
  • Модель угроз
  • Уязвимости MCP
  • Вопросы безопасности во фреймворках разработки ИИ-агентов и практические рекомендации
  • Безопасные шаблоны для ИИ-агентов

Скачать пособие можно здесь

См. также другие публикации, посвященные агентам

AI-List 2025

AI-List 2025: новые решения российской индустрии ИИ

Wednesday, December 10, 2025

На злобу дня

— Вы использовали в работе искуственный интеллект?

— Что Вы, мы даже естественный не использовали.

Совсем взрослый язык

30 лет языку JavaScript. В мае 1995 года 33-летний Брендан Айх всего за десять дней создал первый прототип JavaScript, изначально имевший кодовое название Mocha (а затем LiveScript). 4 декабря 1995 года Netscape и Sun Microsystems официально представили JavaScript в пресс-релизе как «простой в использовании язык объектных сценариев, предназначенный для создания онлайн-приложений, связывающих объекты и ресурсы как на клиентах, так и на серверах».

Monday, December 08, 2025

Кибератаки на дроны

Беспилотные летательные аппараты (БПЛА), также известные как дроны, всё чаще используются в различных приложениях, и на них можно проводить различные кибератаки с использованием разных инструментов. Некоторые примеры этих атак включают разрыв соединения между дроном и контроллером с помощью атак деаутентификации, раскрытие пароля или криптографического ключа, используемого в протоколе связи, получение управления дроном посредством внедрения команд/кода и атаки типа «человек посередине» (MitM). В данной статье рассматриваются атаки с использованием дронов посредством анализа различных компонентов дрона, включая пульт дистанционного управления и протоколы связи. Основная цель — предоставить обзор возможных способов осуществления кибератак. В этом анализе сделан вывод о том, что дроны, предназначенные для различных целей, уязвимы для ряда кибератак. В статье также рассматриваются существующие методологии тестирования на проникновение для БПЛА, которые обеспечивают логическую основу для их реализации. В этом обзоре рассматриваются различные методы и инструменты кибератак, применяемые против БПЛА, с целью улучшения механизмов защиты. - Cyber Attacks on Commercial Drones: A Review

Sunday, December 07, 2025

Наши дипфейки - самые глубокие фейки

По мере того, как системы обнаружения дипфейков становятся всё более сложными, понимание их уязвимостей становится критически важным для разработки надёжной защиты. Мы представляем комплексное исследование конкурентных атак на детекторы дипфейков на основе изображений, предлагая новый подход, создающий «конкурентную реальность» — синтетические изображения, которые сохраняют визуальное сходство с оригинальными дипфейками, успешно обходя автоматизированные системы обнаружения. Наш метод использует генеративную структуру с архитектурой в стиле UNet для преобразования изображений, сгенерированных GAN, диффузионно-генерированных и обработанных лиц, в варианты, обманывающие детектор, сохраняя при этом визуальную точность. В отличие от традиционных подходов, основанных на возмущениях, которые добавляют шумовые паттерны, наш генеративный метод обучается преобразованиям, специфичным для изображений, без необходимости использования вручную созданных спектральных фильтров. Благодаря обширной оценке различных наборов данных, типов генераторов и архитектур детекторов мы демонстрируем, что наш подход достигает уровня ошибочной классификации до 98,83% на диффузных изображениях и 83,36% на контенте на основе GAN, сохраняя при этом высокое качество восприятия со средними баллами PSNR выше 35. Наши результаты выявляют критические уязвимости в существующих системах обнаружения и дают представление о разработке более надежных детекторов дипфейков. - Adversarial Reality for Evading Deepfake Image Detectors

См. также другие публикации по теме deepfake

Saturday, December 06, 2025

Двойной триггер

Детекторы объектов в реальном времени, широко используемые в реальных приложениях, уязвимы к атакам с использованием бэкдоров. Эта уязвимость возникает из-за того, что многие пользователи полагаются на наборы данных или предобученные модели, предоставляемые третьими лицами, из-за ограничений на данные и ресурсы. Однако большинство исследований атак с использованием бэкдоров было сосредоточено на классификации изображений, а обнаружение объектов в реальном времени изучено недостаточно. Более того, триггеры для большинства существующих атак с использованием бэкдоров генерируются вручную, что требует наличия предварительных знаний и наличия закономерностей между этапами обучения и вывода. Такой подход делает атаки либо легко обнаруживаемыми, либо сложно адаптируемыми к различным сценариям. Для устранения этих ограничений мы предлагаем новые генеративные сети с двойным триггером в частотной области для генерации невидимых триггеров для внедрения скрытых бэкдоров в модели во время обучения и видимых триггеров для постоянной активации во время вывода, что затрудняет отслеживание процесса атаки. В частности, для генеративной сети с невидимым триггером мы используем слой гауссовского сглаживания и высокочастотный классификатор артефактов для повышения скрытности внедрения бэкдоров в детекторы объектов. Для генеративной сети с видимыми триггерами мы разрабатываем новый алгоритм потери выравнивания, чтобы оптимизировать видимые триггеры таким образом, чтобы они отличались от исходных шаблонов, но при этом соответствовали вредоносному поведению активации невидимых триггеров. Обширные экспериментальные результаты и анализ подтверждают возможность использования различных триггеров на этапе обучения и этапе вывода, а также демонстрируют эффективность атак наших предлагаемых генеративных сетей с видимыми и невидимыми триггерами, значительно снижая эффективность детекторов объектов на 70,0% и 84,5%. - Twin trigger generative networks for backdoor attacks against real-time object detection

Принципиальный момент - исполюзуются разные триггеры при обучении и инференсе.

P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Friday, December 05, 2025

Состязательное тестирование LLM

Стремительное расширение исследований безопасности и надежности больших языковых моделей (LLM) привело к появлению разрозненной и зачастую содержащей ошибки экосистемы реализаций, наборов данных и методов оценки. Эта фрагментация затрудняет воспроизводимость и сопоставимость результатов различных исследований, препятствуя существенному прогрессу. Для решения этих проблем мы представляем ADVERSARIALLM, набор инструментов для проведения исследований надежности джейлбрейка LLM. Его дизайн ориентирован на воспроизводимость, корректность и расширяемость. Фреймворк реализует двенадцать алгоритмов состязательных атак, объединяет семь эталонных наборов данных, охватывающих оценку вредоносности, избыточного отказа и полезности, и предоставляет доступ к широкому спектру открытых LLM через Hugging Face. Реализация включает расширенные функции для обеспечения сопоставимости и воспроизводимости, такие как отслеживание ресурсов компьютера, детерминированные результаты и методы оценки распределения. ADVERSARIALLM также интегрирует систему оценки через сопутствующий пакет JUDGEZOO, который также может использоваться независимо. Вместе эти компоненты направлены на создание прочной основы для прозрачных, сравнимых и воспроизводимых исследований в области безопасности магистратуры по праву. Оба пакета доступны на GitHub - AdversariaLLM: A Unified and Modular Toolbox for LLM Robustness Research

См. также другие публикации, посвященные LLM

Wednesday, December 03, 2025

Что по интерпретации?

Интересные заметки от Google Deepmind по интерпретации моделей. Например, про атрибуцию данных на основе функций влияния.

Я к Вам пишу ...

Ужасы AI Red Team. Запросы в прошедшем времени обходили фильтры LLM. Теперь выяснилось, что их обходят еще и стихи ...

Мы представляем доказательства того, что состязательная поэзия функционирует как универсальный одношаговый джейлбрек для больших языковых моделей (LLM). В 25 передовых проприетарных и открытых моделях курируемые поэтические подсказки показали высокие показатели успешности атак (ASR), превышающие 90% у некоторых поставщиков. Сопоставление подсказок с таксономиями рисков MLCommons и EU CoP показывает, что поэтические атаки переносятся в области CBRN (Chemical, Biological, Radiological, and Nuclear) опасностей, манипуляций, киберпреступлений и потери контроля. Преобразование 1200 вредоносных подсказок MLCommons в стихи с помощью стандартизированного мета-подсказки дало ASR до 18 раз выше, чем их базовые показатели для прозы. Результаты оцениваются с помощью ансамбля из 3 экспертов LLM с открытым весом, чьи бинарные оценки безопасности были проверены на стратифицированном подмножестве, маркированном людьми. Поэтические подсказки достигли среднего уровня успешности взлома 62% для стихотворений, написанных вручную, и примерно 43% для мета-подсказок (по сравнению с непоэтическими базовыми вариантами), значительно превзойдя непоэтические базовые варианты и выявив систематическую уязвимость среди модельных семейств и подходов к обучению безопасности. Эти результаты показывают, что одни только стилистические вариации могут обойти современные механизмы безопасности, указывая на фундаментальные ограничения существующих методов выравнивания и протоколов оценки. - Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models

См. также другие публикации, посвященные LLM

Tuesday, December 02, 2025

A2AS - безопасность агентов

Фреймворк A2AS представлен в качестве уровня безопасности для агентов ИИ и приложений на базе LLM, аналогично тому, как HTTPS защищает HTTP. A2AS обеспечивает сертифицированное поведение, активирует самозащиту модели и обеспечивает целостность контекстного окна. Он определяет границы безопасности, аутентифицирует запросы, применяет правила безопасности и настраиваемые политики, а также контролирует поведение агентов, обеспечивая стратегию глубокой защиты. Фреймворк A2AS позволяет избежать накладных расходов, связанных с задержками, внешними зависимостями, изменениями архитектуры, переобучением модели и сложностью эксплуатации. В качестве основы A2AS представлена модель безопасности BASIC:

(B) Сертификаты поведения обеспечивают принудительное применение поведения,
(A) Аутентифицированные запросы обеспечивают целостность контекстного окна,
(S) Границы безопасности обеспечивают изоляцию ненадежных входных данных,
(I) Контекстная защита обеспечивает безопасную модельную аргументацию,
(C) Кодифицированные политики обеспечивают правила, специфичные для приложения.

В этой первой статье серии представлены модель безопасности BASIC и фреймворк A2AS, а также исследуется их потенциал для установления отраслевого стандарта A2AS - Agentic AI Runtime Security and Self-Defense

См. также другие публикации, посвященные агентам

Monday, December 01, 2025

LLM в защите

Когда агенты больших языковых моделей (LLM) всё чаще используются для автоматизации задач и взаимодействия с недоверенными внешними данными, внедрение подсказок становится серьёзной угрозой безопасности. Внедряя вредоносные инструкции в данные, к которым обращаются LLM, злоумышленник может произвольно переопределить исходную задачу пользователя и перенаправить агента на выполнение непреднамеренных, потенциально опасных действий. Существующие средства защиты либо требуют доступа к весам модели (тонкая настройка), либо приводят к существенной потере полезности (основанная на обнаружении), либо требуют нетривиальной переработки системы (на системном уровне). В связи с этим мы предлагаем DataFilter — защиту, не зависящую от модели, которая удаляет вредоносные инструкции из данных до того, как они достигнут бэкенда LLM. DataFilter обучается с контролируемой тонкой настройкой на имитационных внедрениях и использует как инструкции пользователя, так и данные для выборочного удаления вредоносного контента, сохраняя при этом безвредную информацию. В множестве бенчмарков DataFilter стабильно снижает процент успешных атак с использованием инъекций подсказок практически до нуля, сохраняя при этом полезность LLM. DataFilter обеспечивает надежную безопасность, высокую полезность и быстрое развертывание, что делает его надежной практической защитой для защиты коммерческих LLM от инъекций подсказок. Наша модель DataFilter доступна для немедленного использования, а код для воспроизведения наших результатов доступен здесь. - Defending Against Prompt Injection with DataFilter

Специально обученная LLM удаляет инъекции подсказок. Возможно - это правильный путь для агентов. Специальный агент-защитник, используемый в workflow агентов.

См. также другие публикации, посвященные LLM

Sunday, November 30, 2025

Временные подсказки

Анализ временных рядов с помощью LLM. По сути - набор конкретных промптов. LLM-Powered Time-Series Analysis

См. также другие публикации, посвященные LLM

См. также другие материалы, посвященные подсказкам

Saturday, November 29, 2025

ML interview

How to Crack Machine Learning System-Design Interviews. Подробное руководство по собеседованиям по проектированию машинного обучения в Meta, Apple, Reddit, Amazon, Google и Snap

См. также другие публикации на тему интервью

Friday, November 28, 2025

ИИ в науке

Запуск миссии Genesis:

По полномочиям, предоставленным мне как Президенту Конституцией и законами Соединённых Штатов Америки, настоящим постановляется:

Раздел 1. Цель. С момента основания нашей Республики научные открытия и технологические инновации были движущей силой американского прогресса и процветания. Сегодня Америка гонится за глобальное технологическое доминирование в развитии искусственного интеллекта (ИИ) — важной рубежи научных открытий и экономического роста. В этой связи моя администрация предприняла ряд мер для победы в этой гонке, включая выпуск нескольких исполнительных указов и внедрение Американского плана действий по ИИ, который признаёт необходимость инвестирования в науку с ИИ для ускорения научного прогресса. В этот решающий момент перед нами возникают исторические национальные усилия, сопоставимые по срочности и амбициям с Манхэттенским проектом, который сыграл ключевую роль в нашей победе во Второй мировой войне и стал критической основой для основания Министерства энергетики (DOE) и его национальных лабораторий.

Этот приказ запускает «Миссию Генезис» как целенаправленную, скоординированную национальную инициативу по запуску новой эры инноваций и открытий, ускоренных с помощью ИИ, способных решить самые сложные проблемы этого века. Миссия Genesis создаст интегрированную платформу ИИ для использования федеральных научных наборов данных — крупнейшей в мире коллекции таких наборов данных, созданной десятилетиями федеральных инвестиций — для обучения научных базовых моделей и создания агентов ИИ для тестирования новых гипотез, автоматизации исследовательских рабочих процессов и ускорения научных прорывов. Миссия Genesis объединит научно-исследовательские и разработочные ресурсы нашей страны — объединяя усилия выдающихся американских учёных, включая сотрудников национальных лабораторий, с новаторскими американскими компаниями; всемирно известных университетов; а также существующую исследовательскую инфраструктуру, хранилища данных, производственные заводы и объекты национальной безопасности — чтобы добиться значительного ускорения разработки и использования ИИ. Мы будем использовать на благо нашей страны происходящую революцию в области вычислительной техники и опираться на десятилетия инноваций в области полупроводников и высокопроизводительных вычислений. Миссия Genesis значительно ускорит научные открытия, укрепит национальную безопасность, обеспечит энергетическое доминирование, повысит производительность рабочей силы и умножит отдачу от инвестиций налогоплательщиков в исследования и разработки, тем самым укрепляя технологическое превосходство Америки и её глобальное стратегическое лидерство.

Сек. 2. Создание миссии Genesis. (a) Учреждена миссия Genesis (Mission) — национальная инициатива по ускорению применения ИИ для преобразующих научных открытий, сосредоточенная на актуальных национальных проблемах.

(b) Министр энергетики (Секретарь) несёт ответственность за реализацию Миссии в рамках Министерства энергетики в соответствии с положениями настоящего приказа, включая, по мере необходимости и разрешения закона, установление приоритетов и обеспечение интеграции всех ресурсов Министерства энергетики, используемых для элементов Миссии, в безопасную, единую платформу. Секретарь может назначить старшего политического назначенца для надзора за повседневной деятельностью Миссии.

(c) Помощник президента по науке и технологиям (APST) обеспечивает общее руководство Миссией, включая координацию участвующих исполнительных департаментов и агентств (агентств) через Национальный совет по науке и технологиям (NSTC) и выдачу рекомендаций для обеспечения соответствия миссии национальным целям.

Сек. 3. Работа Американской платформы науки и безопасности. (a) Секретарь должен учредить и эксплуатировать Американскую платформу науки и безопасности (Платформу), которая служит инфраструктурой для Миссии с целью обеспечения в интегрированной и максимально возможной степени и в соответствии с законом:

(i) высокопроизводительные вычислительные ресурсы, включая суперкомпьютеры национальной лаборатории DOE и безопасные облачные среды искусственного интеллекта, способные поддерживать обучение крупномасштабных моделей, моделирование и выводы;
(ii) фреймворки для моделирования и анализа ИИ, включая агентов ИИ для изучения проектных пространств, оценки экспериментальных результатов и автоматизации рабочих процессов;
(iii) вычислительные инструменты, включая предсказательные модели с поддержкой ИИ, модели симуляции и инструменты оптимизации проектирования;
(iv) специализированные модели фундамента в различных областях, охваченных научными областями;
(v) безопасный доступ к соответствующим наборам данных, включая проприетарные, федерально курируемые и открытые научные наборы данных, а также синтетические данные, созданные с помощью вычислительных ресурсов DOE, в соответствии с применимым законодательством; применимая защита классификации, конфиденциальности и интеллектуальной собственности; и федеральные стандарты доступа к данным и управления данными; и
(vi) экспериментальные и производственные инструменты для обеспечения автономных и усиленных ИИ экспериментов и производства в областях с высоким воздействием.

(b) Секретарь должен предпринять необходимые меры для обеспечения того, чтобы Платформа функционировала в соответствии с требованиями безопасности, соответствующими её миссии по национальной безопасности и конкурентоспособности, включая применимую классификацию, безопасность цепочки поставок, а также федеральные стандарты и лучшие практики кибербезопасности.

(c) В течение 90 дней с даты настоящего приказа Секретарь должен определить федеральные вычислительные, хранительские и сетевые ресурсы, доступные для поддержки Миссии, включая как локальные, так и облачные высокопроизводительные вычислительные системы DOE, а также ресурсы, доступные через отраслевых партнёров. Секретарь также должен определить любые дополнительные партнерства или улучшения инфраструктуры, которые могут поддержать вычислительную основу Платформы.

(d) В течение 120 дней с даты настоящего приказа Секретарь:

(i) определить набор начальных данных и модельных активов для использования в Миссии, включая оцифровку, стандартизацию, метаданные и отслеживание происхождения; и
(ii) разработать план с соответствующими мерами кибербезопасности, основанной на рисках, для включения наборов данных из федеральных исследований, других агентств, академических учреждений и одобренных партнёров частного сектора, при необходимости.

(e) В течение 240 дней с даты настоящего приказа Секретарь должен пересмотреть возможности национальных лабораторий Министерства энергетики и других участвующих федеральных исследовательских объектов для робототехнических лабораторий и производственных объектов с возможностью участия в экспериментах и производстве, направленных на ИИ, включая автоматизированные и усиленные ИИ рабочие процессы, а также соответствующие технические и операционные стандарты.

(f) В течение 270 дней с даты настоящего приказа Секретарь, в соответствии с применимым законодательством и с учётом доступных ассигнирований, должен попытаться продемонстрировать первоначальную операционную способность Платформы по крайней мере для одной из национальных научных и технологических задач, выявленных в соответствии с разделом 4 настоящего приказа.

Сек. 4. Выявление национальных проблем в области науки и технологий. (a) В течение 60 дней с даты настоящего приказа Секретарь должен определить и представить APST подробный список как минимум 20 научно-технических вызовов национального значения, которые, по его оценке, имеют потенциал для решения через Миссию и которые охватывают приоритетные области в соответствии с Национальным меморандумом по науке и технологиям No2 от 23 сентября, 2025 год, включая:

(i) продвинутое производство;
(ii) биотехнологии;
(iii) критически важные материалы;
(iv) ядерное деление и энергия синтеза;
(v) квантовая информационная наука; и
(vi) полупроводники и микроэлектроника.

(b) В течение 30 дней после подачи списка, описанного в подпункте (a) данного раздела, APST рассмотрит предложенный список и, работая с участвующими агентствами NSTC, координирует разработку расширенного списка, который может служить начальным набором национальных научно-технических вызовов, которые должна решать Миссия, включая дополнительные вызовы, предлагаемые участвующими агентствами через NSTC, при условии доступных ассигнирований.

(c) После разработки расширенного списка, описанного в подпункте (b) данного раздела, агентства, участвующие в миссии, должны использовать Платформу для продвижения исследований и разработок, соответствующих национальным научно-техническим вызовам, указанным в расширенном списке, в соответствии с применимым законодательством и их соответствующими миссиями, а также с учётом доступных ассигнирований.

(d) В дальнейшем ежегодно Секретарь будет рассматривать и обновлять список вызовов в консультации с APST и NSTC с учётом достигнутого прогресса, возникающих национальных потребностей и соответствия приоритетам моей администрации в области исследований и разработок.

Сек. 5. Межведомственная координация и внешнее взаимодействие. (a) APST через NSTC и при поддержке Федерального совета главных специалистов по данным и Совета главных офицеров по ИИ созывает соответствующие и заинтересованные агентства для:

(i) помогать участвующим агентствам в согласовании, в разрешённой законом степени, их программ, наборов данных и научно-исследовательской деятельности, связанных с ИИ, с целями Миссии в их соответствующих областях экспертизы, при этом избегая дублирования усилий в федеральном правительстве и способствуя совместимости;
(ii) выявить источники данных, которые могут поддерживать цель миссии;
(iii) разработать процесс и план ресурсов в координации с участвующими агентствами для интеграции соответствующих и доступных данных и инфраструктуры агентств в Миссию в пределах, разрешенных законом и с учётом доступных ассигнования, включая методы, при которых все агентства, участвующие в Миссии, поощряются к внедрению соответствующих мер безопасности, основанных на рисках, отражающих лучшие практики кибербезопасности;
(iv) запускать координированные возможности финансирования или конкурсы призов между участвующими агентствами, в пределах, разрешенных законом и при наличии доступных ассигнирований, чтобы стимулировать участие частного сектора в научных исследованиях, основанных на ИИ, соответствующих целям миссии; и
(v) создать механизмы координации возможностей финансирования исследований и разработок, а также экспериментальных ресурсов между участвующими агентствами, обеспечивая эффективное участие агентств в миссии.

(b) APST должна координировать действия с соответствующими агентствами в установлении, в соответствии с действующими уполномочивающими законами и с учётом доступных ассигнования, конкурентных программ для исследовательских стипендий, стажировок и ученических программ, направленных на применение ИИ в научных сферах, определённых как национальные вызовы для Миссии, включая размещение участников программ в национальных лабораториях Министерства энергетики и других участвующих федеральных исследовательских объектах, с целью обеспечения доступа к Платформе и обучения научным открытиям с использованием ИИ.

(c) Секретарь в координации с APST и Специальным советником по ИИ и криптографам должен устанавливать механизмы сотрудничества агентств с внешними партнёрами, обладающими передовыми возможностями ИИ, данных или вычислительной техники или научной экспертизой, включая совместные соглашения о исследованиях и разработках, партнерства с пользовательскими объектами или другие соответствующие соглашения с внешними организациями для поддержки и улучшения деятельности Миссии, и обеспечит структуру таких партнёрств с целью сохранения безопасности федеральных исследовательских активов и максимизации общественной выгоды. Для содействия этому сотрудничеству Секретарь:

(i) разрабатывать стандартизированные рамки партнерства, включая совместные исследования и разработки или другие соответствующие соглашения, а также соглашения об использовании данных и обмене моделями;
(ii) устанавливать чёткие политики владения, лицензирования, защиты коммерческой тайны и коммерциализации интеллектуальной собственности, разработанных в рамках Миссии, включая инновации, возникающие в результате экспериментов, управляемых ИИ;
(iii) внедрять единые и строгие процессы доступа и управления данными, а также стандарты кибербезопасности для нефедеральных сотрудников, получающих доступ к наборам данных, моделям и вычислительным средам, включая меры, требующие соблюдения требований классификации, конфиденциальности и контроля экспорта, а также других применимых законов; и
(iv) устанавливать процедуры для обеспечения высочайших стандартов проверки и авторизации пользователей и сотрудников, стремящихся получить доступ к ресурсам Миссии и сопутствующей исследовательской деятельности, включая Платформу и связанные с ней федеральные исследовательские ресурсы.

(d) APST через NSTC должна, по мере необходимости, выявлять возможности для международного научного сотрудничества для поддержки деятельности в рамках Миссии.

Сек. 6. Оценка и отчетность. (a) В течение 1 года с даты настоящего приказа и ежегодно после этого Секретарь должен представить Президенту отчёт через APST и директору Управления по управлению и бюджету, описывающий:

(i) операционный статус и возможности платформы;
(ii) прогресс в интеграции национальных лабораторий DOE и других участвующих федеральных исследовательских партнёров, включая совместный доступ к вычислительным ресурсам, инфраструктуре данных и исследовательским лабораториям;
(iii) статус вовлечённости пользователей, включая участие студентов-исследователей и любое сопутствующее обучение;
(iv) обновления о научных усилиях и достигнутых результатах, включая измеримые научные достижения, публикации и прототипные технологии;
(v) объем и результаты государственно-частных партнёрств, включая совместные исследовательские проекты и любые технологические переходы или деятельность по коммерциализации; и
(vi) любые выявленные потребности или рекомендации по полномочиям или межведомственной поддержке для достижения целей Миссии.

Сек. 7. Общие положения. (a) Ничто в настоящем порядке не должно истолковаться как нарушающее или иным образом влияющее:

(i) полномочия, предоставленные законом исполнительному ведомству или агентству, либо их главе; или
(ii) функции директора Управления по управлению и бюджету, связанные с бюджетными, административными или законодательными предложениями.

(b) Данный приказ должен исполняться в соответствии с применимым законодательством и при условии наличия ассигнования.

(c) Это постановление не предназначено и не создаёт никаких прав или выгод, материальных или процедурных, которые могут быть исполнены по закону или по справедливости любой стороной против Соединённых Штатов, их департаментов, агентств или организаций, их должностных лиц, сотрудников или агентов, либо любого другого лица.

(d) Расходы на публикацию этого приказа покроет Министерство энергетики.

ДОНАЛЬД ДЖ. ТРАМП
БЕЛЫЙ ДОМ,
24 ноября 2025 года.

Приватные курсы

Интересные курсы от ETH по приватности данных и LLM

Thursday, November 27, 2025

Как же он служил в очистке?

Длинноконтекстные LLM уязвимы к внедрению подсказок, когда злоумышленник может внедрить инструкцию в длинный контекст, чтобы побудить LLM сгенерировать желаемый злоумышленником вывод. Существующие методы защиты от внедрения подсказок разработаны для коротких контекстов. При распространении на сценарии с длинным контекстом они имеют ограниченную эффективность. Причина в том, что внедренная инструкция составляет лишь очень малую часть длинного контекста, что делает защиту очень сложной. В данной работе мы предлагаем PISanitizer, который сначала выявляет и дезинфицирует потенциально внедренные токены (если таковые имеются) в контексте, прежде чем позволить бэкенд-LLM сгенерировать ответ, тем самым устраняя влияние внедренной инструкции. Для дезинфекции внедренных токенов PISanitizer основывается на двух наблюдениях: (1) атаки с внедрением подсказок, по сути, создают инструкцию, которая заставляет LLM следовать ей, и (2) LLM по сути используют механизм внимания, чтобы сосредоточиться на критически важных входных токенах для генерации вывода. Руководствуясь этими двумя наблюдениями, мы сначала намеренно позволяем LLM следовать произвольным инструкциям (если таковые имеются) в контексте, а затем дезинфицируем токены, получающие повышенное внимание и управляющие поведением LLM, связанным с следованием инструкциям. По своей сути PISanitizer представляет собой дилемму для злоумышленника: чем эффективнее внедренная инструкция заставляет LLM следовать ей, тем выше вероятность, что она будет дезинфицирована PISanitizer. Наш обширный анализ показывает, что PISanitizer может успешно предотвращать внедрение подсказок, сохранять полезность, превосходить существующие средства защиты, является эффективным и устойчивым к атакам, основанным на оптимизации, и сильным адаптивным атакам. Код доступен по адресу https://github.com/sleeepeer/PISanitizer - PISanitizer: Preventing Prompt Injection to Long-Context LLMs via Prompt Sanitization

Интиересная идея - очищать промпты с помощью другой LLM