См. также другие публикации по теме deepfake
AbavaNet technical corner
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Sunday, December 07, 2025
Наши дипфейки - самые глубокие фейки
Saturday, December 06, 2025
Двойной триггер
Принципиальный момент - исполюзуются разные триггеры при обучении и инференсе.
P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению
Friday, December 05, 2025
Состязательное тестирование LLM
См. также другие публикации, посвященные LLM
Thursday, December 04, 2025
Wednesday, December 03, 2025
Что по интерпретации?
Я к Вам пишу ...
Мы представляем доказательства того, что состязательная поэзия функционирует как универсальный одношаговый джейлбрек для больших языковых моделей (LLM). В 25 передовых проприетарных и открытых моделях курируемые поэтические подсказки показали высокие показатели успешности атак (ASR), превышающие 90% у некоторых поставщиков. Сопоставление подсказок с таксономиями рисков MLCommons и EU CoP показывает, что поэтические атаки переносятся в области CBRN (Chemical, Biological, Radiological, and Nuclear) опасностей, манипуляций, киберпреступлений и потери контроля. Преобразование 1200 вредоносных подсказок MLCommons в стихи с помощью стандартизированного мета-подсказки дало ASR до 18 раз выше, чем их базовые показатели для прозы. Результаты оцениваются с помощью ансамбля из 3 экспертов LLM с открытым весом, чьи бинарные оценки безопасности были проверены на стратифицированном подмножестве, маркированном людьми. Поэтические подсказки достигли среднего уровня успешности взлома 62% для стихотворений, написанных вручную, и примерно 43% для мета-подсказок (по сравнению с непоэтическими базовыми вариантами), значительно превзойдя непоэтические базовые варианты и выявив систематическую уязвимость среди модельных семейств и подходов к обучению безопасности. Эти результаты показывают, что одни только стилистические вариации могут обойти современные механизмы безопасности, указывая на фундаментальные ограничения существующих методов выравнивания и протоколов оценки. - Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models
См. также другие публикации, посвященные LLM
Tuesday, December 02, 2025
A2AS - безопасность агентов
(B) Сертификаты поведения обеспечивают принудительное применение поведения,
(A) Аутентифицированные запросы обеспечивают целостность контекстного окна,
(S) Границы безопасности обеспечивают изоляцию ненадежных входных данных,
(I) Контекстная защита обеспечивает безопасную модельную аргументацию,
(C) Кодифицированные политики обеспечивают правила, специфичные для приложения.
В этой первой статье серии представлены модель безопасности BASIC и фреймворк A2AS, а также исследуется их потенциал для установления отраслевого стандарта A2AS - Agentic AI Runtime Security and Self-Defense
См. также другие публикации, посвященные агентам
Monday, December 01, 2025
LLM в защите
Специально обученная LLM удаляет инъекции подсказок. Возможно - это правильный путь для агентов. Специальный агент-защитник, используемый в workflow агентов.
См. также другие публикации, посвященные LLM
Sunday, November 30, 2025
Временные подсказки
См. также другие публикации, посвященные LLM
См. также другие материалы, посвященные подсказкам
Saturday, November 29, 2025
ML interview
См. также другие публикации на тему интервью
Friday, November 28, 2025
ИИ в науке
По полномочиям, предоставленным мне как Президенту Конституцией и законами Соединённых Штатов Америки, настоящим постановляется:
Раздел 1. Цель. С момента основания нашей Республики научные открытия и технологические инновации были движущей силой американского прогресса и процветания. Сегодня Америка гонится за глобальное технологическое доминирование в развитии искусственного интеллекта (ИИ) — важной рубежи научных открытий и экономического роста. В этой связи моя администрация предприняла ряд мер для победы в этой гонке, включая выпуск нескольких исполнительных указов и внедрение Американского плана действий по ИИ, который признаёт необходимость инвестирования в науку с ИИ для ускорения научного прогресса. В этот решающий момент перед нами возникают исторические национальные усилия, сопоставимые по срочности и амбициям с Манхэттенским проектом, который сыграл ключевую роль в нашей победе во Второй мировой войне и стал критической основой для основания Министерства энергетики (DOE) и его национальных лабораторий.
Этот приказ запускает «Миссию Генезис» как целенаправленную, скоординированную национальную инициативу по запуску новой эры инноваций и открытий, ускоренных с помощью ИИ, способных решить самые сложные проблемы этого века. Миссия Genesis создаст интегрированную платформу ИИ для использования федеральных научных наборов данных — крупнейшей в мире коллекции таких наборов данных, созданной десятилетиями федеральных инвестиций — для обучения научных базовых моделей и создания агентов ИИ для тестирования новых гипотез, автоматизации исследовательских рабочих процессов и ускорения научных прорывов. Миссия Genesis объединит научно-исследовательские и разработочные ресурсы нашей страны — объединяя усилия выдающихся американских учёных, включая сотрудников национальных лабораторий, с новаторскими американскими компаниями; всемирно известных университетов; а также существующую исследовательскую инфраструктуру, хранилища данных, производственные заводы и объекты национальной безопасности — чтобы добиться значительного ускорения разработки и использования ИИ. Мы будем использовать на благо нашей страны происходящую революцию в области вычислительной техники и опираться на десятилетия инноваций в области полупроводников и высокопроизводительных вычислений. Миссия Genesis значительно ускорит научные открытия, укрепит национальную безопасность, обеспечит энергетическое доминирование, повысит производительность рабочей силы и умножит отдачу от инвестиций налогоплательщиков в исследования и разработки, тем самым укрепляя технологическое превосходство Америки и её глобальное стратегическое лидерство.
Сек. 2. Создание миссии Genesis. (a) Учреждена миссия Genesis (Mission) — национальная инициатива по ускорению применения ИИ для преобразующих научных открытий, сосредоточенная на актуальных национальных проблемах.
(b) Министр энергетики (Секретарь) несёт ответственность за реализацию Миссии в рамках Министерства энергетики в соответствии с положениями настоящего приказа, включая, по мере необходимости и разрешения закона, установление приоритетов и обеспечение интеграции всех ресурсов Министерства энергетики, используемых для элементов Миссии, в безопасную, единую платформу. Секретарь может назначить старшего политического назначенца для надзора за повседневной деятельностью Миссии.
(c) Помощник президента по науке и технологиям (APST) обеспечивает общее руководство Миссией, включая координацию участвующих исполнительных департаментов и агентств (агентств) через Национальный совет по науке и технологиям (NSTC) и выдачу рекомендаций для обеспечения соответствия миссии национальным целям.
Сек. 3. Работа Американской платформы науки и безопасности. (a) Секретарь должен учредить и эксплуатировать Американскую платформу науки и безопасности (Платформу), которая служит инфраструктурой для Миссии с целью обеспечения в интегрированной и максимально возможной степени и в соответствии с законом:
(i) высокопроизводительные вычислительные ресурсы, включая суперкомпьютеры национальной лаборатории DOE и безопасные облачные среды искусственного интеллекта, способные поддерживать обучение крупномасштабных моделей, моделирование и выводы;
(ii) фреймворки для моделирования и анализа ИИ, включая агентов ИИ для изучения проектных пространств, оценки экспериментальных результатов и автоматизации рабочих процессов;
(iii) вычислительные инструменты, включая предсказательные модели с поддержкой ИИ, модели симуляции и инструменты оптимизации проектирования;
(iv) специализированные модели фундамента в различных областях, охваченных научными областями;
(v) безопасный доступ к соответствующим наборам данных, включая проприетарные, федерально курируемые и открытые научные наборы данных, а также синтетические данные, созданные с помощью вычислительных ресурсов DOE, в соответствии с применимым законодательством; применимая защита классификации, конфиденциальности и интеллектуальной собственности; и федеральные стандарты доступа к данным и управления данными; и
(vi) экспериментальные и производственные инструменты для обеспечения автономных и усиленных ИИ экспериментов и производства в областях с высоким воздействием.
(b) Секретарь должен предпринять необходимые меры для обеспечения того, чтобы Платформа функционировала в соответствии с требованиями безопасности, соответствующими её миссии по национальной безопасности и конкурентоспособности, включая применимую классификацию, безопасность цепочки поставок, а также федеральные стандарты и лучшие практики кибербезопасности.
(c) В течение 90 дней с даты настоящего приказа Секретарь должен определить федеральные вычислительные, хранительские и сетевые ресурсы, доступные для поддержки Миссии, включая как локальные, так и облачные высокопроизводительные вычислительные системы DOE, а также ресурсы, доступные через отраслевых партнёров. Секретарь также должен определить любые дополнительные партнерства или улучшения инфраструктуры, которые могут поддержать вычислительную основу Платформы.
(d) В течение 120 дней с даты настоящего приказа Секретарь:
(i) определить набор начальных данных и модельных активов для использования в Миссии, включая оцифровку, стандартизацию, метаданные и отслеживание происхождения; и
(ii) разработать план с соответствующими мерами кибербезопасности, основанной на рисках, для включения наборов данных из федеральных исследований, других агентств, академических учреждений и одобренных партнёров частного сектора, при необходимости.
(e) В течение 240 дней с даты настоящего приказа Секретарь должен пересмотреть возможности национальных лабораторий Министерства энергетики и других участвующих федеральных исследовательских объектов для робототехнических лабораторий и производственных объектов с возможностью участия в экспериментах и производстве, направленных на ИИ, включая автоматизированные и усиленные ИИ рабочие процессы, а также соответствующие технические и операционные стандарты.
(f) В течение 270 дней с даты настоящего приказа Секретарь, в соответствии с применимым законодательством и с учётом доступных ассигнирований, должен попытаться продемонстрировать первоначальную операционную способность Платформы по крайней мере для одной из национальных научных и технологических задач, выявленных в соответствии с разделом 4 настоящего приказа.
Сек. 4. Выявление национальных проблем в области науки и технологий. (a) В течение 60 дней с даты настоящего приказа Секретарь должен определить и представить APST подробный список как минимум 20 научно-технических вызовов национального значения, которые, по его оценке, имеют потенциал для решения через Миссию и которые охватывают приоритетные области в соответствии с Национальным меморандумом по науке и технологиям No2 от 23 сентября, 2025 год, включая:
(i) продвинутое производство;
(ii) биотехнологии;
(iii) критически важные материалы;
(iv) ядерное деление и энергия синтеза;
(v) квантовая информационная наука; и
(vi) полупроводники и микроэлектроника.
(b) В течение 30 дней после подачи списка, описанного в подпункте (a) данного раздела, APST рассмотрит предложенный список и, работая с участвующими агентствами NSTC, координирует разработку расширенного списка, который может служить начальным набором национальных научно-технических вызовов, которые должна решать Миссия, включая дополнительные вызовы, предлагаемые участвующими агентствами через NSTC, при условии доступных ассигнирований.
(c) После разработки расширенного списка, описанного в подпункте (b) данного раздела, агентства, участвующие в миссии, должны использовать Платформу для продвижения исследований и разработок, соответствующих национальным научно-техническим вызовам, указанным в расширенном списке, в соответствии с применимым законодательством и их соответствующими миссиями, а также с учётом доступных ассигнирований.
(d) В дальнейшем ежегодно Секретарь будет рассматривать и обновлять список вызовов в консультации с APST и NSTC с учётом достигнутого прогресса, возникающих национальных потребностей и соответствия приоритетам моей администрации в области исследований и разработок.
Сек. 5. Межведомственная координация и внешнее взаимодействие. (a) APST через NSTC и при поддержке Федерального совета главных специалистов по данным и Совета главных офицеров по ИИ созывает соответствующие и заинтересованные агентства для:
(i) помогать участвующим агентствам в согласовании, в разрешённой законом степени, их программ, наборов данных и научно-исследовательской деятельности, связанных с ИИ, с целями Миссии в их соответствующих областях экспертизы, при этом избегая дублирования усилий в федеральном правительстве и способствуя совместимости;
(ii) выявить источники данных, которые могут поддерживать цель миссии;
(iii) разработать процесс и план ресурсов в координации с участвующими агентствами для интеграции соответствующих и доступных данных и инфраструктуры агентств в Миссию в пределах, разрешенных законом и с учётом доступных ассигнования, включая методы, при которых все агентства, участвующие в Миссии, поощряются к внедрению соответствующих мер безопасности, основанных на рисках, отражающих лучшие практики кибербезопасности;
(iv) запускать координированные возможности финансирования или конкурсы призов между участвующими агентствами, в пределах, разрешенных законом и при наличии доступных ассигнирований, чтобы стимулировать участие частного сектора в научных исследованиях, основанных на ИИ, соответствующих целям миссии; и
(v) создать механизмы координации возможностей финансирования исследований и разработок, а также экспериментальных ресурсов между участвующими агентствами, обеспечивая эффективное участие агентств в миссии.
(b) APST должна координировать действия с соответствующими агентствами в установлении, в соответствии с действующими уполномочивающими законами и с учётом доступных ассигнования, конкурентных программ для исследовательских стипендий, стажировок и ученических программ, направленных на применение ИИ в научных сферах, определённых как национальные вызовы для Миссии, включая размещение участников программ в национальных лабораториях Министерства энергетики и других участвующих федеральных исследовательских объектах, с целью обеспечения доступа к Платформе и обучения научным открытиям с использованием ИИ.
(c) Секретарь в координации с APST и Специальным советником по ИИ и криптографам должен устанавливать механизмы сотрудничества агентств с внешними партнёрами, обладающими передовыми возможностями ИИ, данных или вычислительной техники или научной экспертизой, включая совместные соглашения о исследованиях и разработках, партнерства с пользовательскими объектами или другие соответствующие соглашения с внешними организациями для поддержки и улучшения деятельности Миссии, и обеспечит структуру таких партнёрств с целью сохранения безопасности федеральных исследовательских активов и максимизации общественной выгоды. Для содействия этому сотрудничеству Секретарь:
(i) разрабатывать стандартизированные рамки партнерства, включая совместные исследования и разработки или другие соответствующие соглашения, а также соглашения об использовании данных и обмене моделями;
(ii) устанавливать чёткие политики владения, лицензирования, защиты коммерческой тайны и коммерциализации интеллектуальной собственности, разработанных в рамках Миссии, включая инновации, возникающие в результате экспериментов, управляемых ИИ;
(iii) внедрять единые и строгие процессы доступа и управления данными, а также стандарты кибербезопасности для нефедеральных сотрудников, получающих доступ к наборам данных, моделям и вычислительным средам, включая меры, требующие соблюдения требований классификации, конфиденциальности и контроля экспорта, а также других применимых законов; и
(iv) устанавливать процедуры для обеспечения высочайших стандартов проверки и авторизации пользователей и сотрудников, стремящихся получить доступ к ресурсам Миссии и сопутствующей исследовательской деятельности, включая Платформу и связанные с ней федеральные исследовательские ресурсы.
(d) APST через NSTC должна, по мере необходимости, выявлять возможности для международного научного сотрудничества для поддержки деятельности в рамках Миссии.
Сек. 6. Оценка и отчетность. (a) В течение 1 года с даты настоящего приказа и ежегодно после этого Секретарь должен представить Президенту отчёт через APST и директору Управления по управлению и бюджету, описывающий:
(i) операционный статус и возможности платформы;
(ii) прогресс в интеграции национальных лабораторий DOE и других участвующих федеральных исследовательских партнёров, включая совместный доступ к вычислительным ресурсам, инфраструктуре данных и исследовательским лабораториям;
(iii) статус вовлечённости пользователей, включая участие студентов-исследователей и любое сопутствующее обучение;
(iv) обновления о научных усилиях и достигнутых результатах, включая измеримые научные достижения, публикации и прототипные технологии;
(v) объем и результаты государственно-частных партнёрств, включая совместные исследовательские проекты и любые технологические переходы или деятельность по коммерциализации; и
(vi) любые выявленные потребности или рекомендации по полномочиям или межведомственной поддержке для достижения целей Миссии.
Сек. 7. Общие положения. (a) Ничто в настоящем порядке не должно истолковаться как нарушающее или иным образом влияющее:
(i) полномочия, предоставленные законом исполнительному ведомству или агентству, либо их главе; или
(ii) функции директора Управления по управлению и бюджету, связанные с бюджетными, административными или законодательными предложениями.
(b) Данный приказ должен исполняться в соответствии с применимым законодательством и при условии наличия ассигнования.
(c) Это постановление не предназначено и не создаёт никаких прав или выгод, материальных или процедурных, которые могут быть исполнены по закону или по справедливости любой стороной против Соединённых Штатов, их департаментов, агентств или организаций, их должностных лиц, сотрудников или агентов, либо любого другого лица.
(d) Расходы на публикацию этого приказа покроет Министерство энергетики.
ДОНАЛЬД ДЖ. ТРАМП
БЕЛЫЙ ДОМ,
24 ноября 2025 года.
Thursday, November 27, 2025
Как же он служил в очистке?
Интиересная идея - очищать промпты с помощью другой LLM
Wednesday, November 26, 2025
Большая разница
Изначально, состязательные примеры строились на принципах незаметности. Здесь же, все наоборот - состязательный пример сильно отличается от оригинала. Человек, при классификации, легко отличит состязательный пример от оригинала. Модель же - не отличает.
P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению
Тестирование мультиагентных систем
См. также другие публикации, посвященные агентам
Tuesday, November 25, 2025
RAG для кибербезопасности
См. по этой теме статью Намиот, Д. Е. "Что LLM знает о кибербезопасности." International Journal of Open Information Technologies 13.7 (2025): 37-46.
См. также другие публикации, посвященные LLM
Monday, November 24, 2025
Онтологии ИИ
Sunday, November 23, 2025
Как же это работает?
См. также другие публикации, посвященные LLM