См. также другие публикации, посвященные LLM
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Friday, December 05, 2025
Состязательное тестирование LLM
Thursday, December 04, 2025
Wednesday, December 03, 2025
Что по интерпретации?
Я к Вам пишу ...
Мы представляем доказательства того, что состязательная поэзия функционирует как универсальный одношаговый джейлбрек для больших языковых моделей (LLM). В 25 передовых проприетарных и открытых моделях курируемые поэтические подсказки показали высокие показатели успешности атак (ASR), превышающие 90% у некоторых поставщиков. Сопоставление подсказок с таксономиями рисков MLCommons и EU CoP показывает, что поэтические атаки переносятся в области CBRN (Chemical, Biological, Radiological, and Nuclear) опасностей, манипуляций, киберпреступлений и потери контроля. Преобразование 1200 вредоносных подсказок MLCommons в стихи с помощью стандартизированного мета-подсказки дало ASR до 18 раз выше, чем их базовые показатели для прозы. Результаты оцениваются с помощью ансамбля из 3 экспертов LLM с открытым весом, чьи бинарные оценки безопасности были проверены на стратифицированном подмножестве, маркированном людьми. Поэтические подсказки достигли среднего уровня успешности взлома 62% для стихотворений, написанных вручную, и примерно 43% для мета-подсказок (по сравнению с непоэтическими базовыми вариантами), значительно превзойдя непоэтические базовые варианты и выявив систематическую уязвимость среди модельных семейств и подходов к обучению безопасности. Эти результаты показывают, что одни только стилистические вариации могут обойти современные механизмы безопасности, указывая на фундаментальные ограничения существующих методов выравнивания и протоколов оценки. - Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models
См. также другие публикации, посвященные LLM
Tuesday, December 02, 2025
A2AS - безопасность агентов
(B) Сертификаты поведения обеспечивают принудительное применение поведения,
(A) Аутентифицированные запросы обеспечивают целостность контекстного окна,
(S) Границы безопасности обеспечивают изоляцию ненадежных входных данных,
(I) Контекстная защита обеспечивает безопасную модельную аргументацию,
(C) Кодифицированные политики обеспечивают правила, специфичные для приложения.
В этой первой статье серии представлены модель безопасности BASIC и фреймворк A2AS, а также исследуется их потенциал для установления отраслевого стандарта A2AS - Agentic AI Runtime Security and Self-Defense
См. также другие публикации, посвященные агентам
Monday, December 01, 2025
LLM в защите
Специально обученная LLM удаляет инъекции подсказок. Возможно - это правильный путь для агентов. Специальный агент-защитник, используемый в workflow агентов.
См. также другие публикации, посвященные LLM
Sunday, November 30, 2025
Временные подсказки
См. также другие публикации, посвященные LLM
См. также другие материалы, посвященные подсказкам
Saturday, November 29, 2025
ML interview
См. также другие публикации на тему интервью
Friday, November 28, 2025
ИИ в науке
По полномочиям, предоставленным мне как Президенту Конституцией и законами Соединённых Штатов Америки, настоящим постановляется:
Раздел 1. Цель. С момента основания нашей Республики научные открытия и технологические инновации были движущей силой американского прогресса и процветания. Сегодня Америка гонится за глобальное технологическое доминирование в развитии искусственного интеллекта (ИИ) — важной рубежи научных открытий и экономического роста. В этой связи моя администрация предприняла ряд мер для победы в этой гонке, включая выпуск нескольких исполнительных указов и внедрение Американского плана действий по ИИ, который признаёт необходимость инвестирования в науку с ИИ для ускорения научного прогресса. В этот решающий момент перед нами возникают исторические национальные усилия, сопоставимые по срочности и амбициям с Манхэттенским проектом, который сыграл ключевую роль в нашей победе во Второй мировой войне и стал критической основой для основания Министерства энергетики (DOE) и его национальных лабораторий.
Этот приказ запускает «Миссию Генезис» как целенаправленную, скоординированную национальную инициативу по запуску новой эры инноваций и открытий, ускоренных с помощью ИИ, способных решить самые сложные проблемы этого века. Миссия Genesis создаст интегрированную платформу ИИ для использования федеральных научных наборов данных — крупнейшей в мире коллекции таких наборов данных, созданной десятилетиями федеральных инвестиций — для обучения научных базовых моделей и создания агентов ИИ для тестирования новых гипотез, автоматизации исследовательских рабочих процессов и ускорения научных прорывов. Миссия Genesis объединит научно-исследовательские и разработочные ресурсы нашей страны — объединяя усилия выдающихся американских учёных, включая сотрудников национальных лабораторий, с новаторскими американскими компаниями; всемирно известных университетов; а также существующую исследовательскую инфраструктуру, хранилища данных, производственные заводы и объекты национальной безопасности — чтобы добиться значительного ускорения разработки и использования ИИ. Мы будем использовать на благо нашей страны происходящую революцию в области вычислительной техники и опираться на десятилетия инноваций в области полупроводников и высокопроизводительных вычислений. Миссия Genesis значительно ускорит научные открытия, укрепит национальную безопасность, обеспечит энергетическое доминирование, повысит производительность рабочей силы и умножит отдачу от инвестиций налогоплательщиков в исследования и разработки, тем самым укрепляя технологическое превосходство Америки и её глобальное стратегическое лидерство.
Сек. 2. Создание миссии Genesis. (a) Учреждена миссия Genesis (Mission) — национальная инициатива по ускорению применения ИИ для преобразующих научных открытий, сосредоточенная на актуальных национальных проблемах.
(b) Министр энергетики (Секретарь) несёт ответственность за реализацию Миссии в рамках Министерства энергетики в соответствии с положениями настоящего приказа, включая, по мере необходимости и разрешения закона, установление приоритетов и обеспечение интеграции всех ресурсов Министерства энергетики, используемых для элементов Миссии, в безопасную, единую платформу. Секретарь может назначить старшего политического назначенца для надзора за повседневной деятельностью Миссии.
(c) Помощник президента по науке и технологиям (APST) обеспечивает общее руководство Миссией, включая координацию участвующих исполнительных департаментов и агентств (агентств) через Национальный совет по науке и технологиям (NSTC) и выдачу рекомендаций для обеспечения соответствия миссии национальным целям.
Сек. 3. Работа Американской платформы науки и безопасности. (a) Секретарь должен учредить и эксплуатировать Американскую платформу науки и безопасности (Платформу), которая служит инфраструктурой для Миссии с целью обеспечения в интегрированной и максимально возможной степени и в соответствии с законом:
(i) высокопроизводительные вычислительные ресурсы, включая суперкомпьютеры национальной лаборатории DOE и безопасные облачные среды искусственного интеллекта, способные поддерживать обучение крупномасштабных моделей, моделирование и выводы;
(ii) фреймворки для моделирования и анализа ИИ, включая агентов ИИ для изучения проектных пространств, оценки экспериментальных результатов и автоматизации рабочих процессов;
(iii) вычислительные инструменты, включая предсказательные модели с поддержкой ИИ, модели симуляции и инструменты оптимизации проектирования;
(iv) специализированные модели фундамента в различных областях, охваченных научными областями;
(v) безопасный доступ к соответствующим наборам данных, включая проприетарные, федерально курируемые и открытые научные наборы данных, а также синтетические данные, созданные с помощью вычислительных ресурсов DOE, в соответствии с применимым законодательством; применимая защита классификации, конфиденциальности и интеллектуальной собственности; и федеральные стандарты доступа к данным и управления данными; и
(vi) экспериментальные и производственные инструменты для обеспечения автономных и усиленных ИИ экспериментов и производства в областях с высоким воздействием.
(b) Секретарь должен предпринять необходимые меры для обеспечения того, чтобы Платформа функционировала в соответствии с требованиями безопасности, соответствующими её миссии по национальной безопасности и конкурентоспособности, включая применимую классификацию, безопасность цепочки поставок, а также федеральные стандарты и лучшие практики кибербезопасности.
(c) В течение 90 дней с даты настоящего приказа Секретарь должен определить федеральные вычислительные, хранительские и сетевые ресурсы, доступные для поддержки Миссии, включая как локальные, так и облачные высокопроизводительные вычислительные системы DOE, а также ресурсы, доступные через отраслевых партнёров. Секретарь также должен определить любые дополнительные партнерства или улучшения инфраструктуры, которые могут поддержать вычислительную основу Платформы.
(d) В течение 120 дней с даты настоящего приказа Секретарь:
(i) определить набор начальных данных и модельных активов для использования в Миссии, включая оцифровку, стандартизацию, метаданные и отслеживание происхождения; и
(ii) разработать план с соответствующими мерами кибербезопасности, основанной на рисках, для включения наборов данных из федеральных исследований, других агентств, академических учреждений и одобренных партнёров частного сектора, при необходимости.
(e) В течение 240 дней с даты настоящего приказа Секретарь должен пересмотреть возможности национальных лабораторий Министерства энергетики и других участвующих федеральных исследовательских объектов для робототехнических лабораторий и производственных объектов с возможностью участия в экспериментах и производстве, направленных на ИИ, включая автоматизированные и усиленные ИИ рабочие процессы, а также соответствующие технические и операционные стандарты.
(f) В течение 270 дней с даты настоящего приказа Секретарь, в соответствии с применимым законодательством и с учётом доступных ассигнирований, должен попытаться продемонстрировать первоначальную операционную способность Платформы по крайней мере для одной из национальных научных и технологических задач, выявленных в соответствии с разделом 4 настоящего приказа.
Сек. 4. Выявление национальных проблем в области науки и технологий. (a) В течение 60 дней с даты настоящего приказа Секретарь должен определить и представить APST подробный список как минимум 20 научно-технических вызовов национального значения, которые, по его оценке, имеют потенциал для решения через Миссию и которые охватывают приоритетные области в соответствии с Национальным меморандумом по науке и технологиям No2 от 23 сентября, 2025 год, включая:
(i) продвинутое производство;
(ii) биотехнологии;
(iii) критически важные материалы;
(iv) ядерное деление и энергия синтеза;
(v) квантовая информационная наука; и
(vi) полупроводники и микроэлектроника.
(b) В течение 30 дней после подачи списка, описанного в подпункте (a) данного раздела, APST рассмотрит предложенный список и, работая с участвующими агентствами NSTC, координирует разработку расширенного списка, который может служить начальным набором национальных научно-технических вызовов, которые должна решать Миссия, включая дополнительные вызовы, предлагаемые участвующими агентствами через NSTC, при условии доступных ассигнирований.
(c) После разработки расширенного списка, описанного в подпункте (b) данного раздела, агентства, участвующие в миссии, должны использовать Платформу для продвижения исследований и разработок, соответствующих национальным научно-техническим вызовам, указанным в расширенном списке, в соответствии с применимым законодательством и их соответствующими миссиями, а также с учётом доступных ассигнирований.
(d) В дальнейшем ежегодно Секретарь будет рассматривать и обновлять список вызовов в консультации с APST и NSTC с учётом достигнутого прогресса, возникающих национальных потребностей и соответствия приоритетам моей администрации в области исследований и разработок.
Сек. 5. Межведомственная координация и внешнее взаимодействие. (a) APST через NSTC и при поддержке Федерального совета главных специалистов по данным и Совета главных офицеров по ИИ созывает соответствующие и заинтересованные агентства для:
(i) помогать участвующим агентствам в согласовании, в разрешённой законом степени, их программ, наборов данных и научно-исследовательской деятельности, связанных с ИИ, с целями Миссии в их соответствующих областях экспертизы, при этом избегая дублирования усилий в федеральном правительстве и способствуя совместимости;
(ii) выявить источники данных, которые могут поддерживать цель миссии;
(iii) разработать процесс и план ресурсов в координации с участвующими агентствами для интеграции соответствующих и доступных данных и инфраструктуры агентств в Миссию в пределах, разрешенных законом и с учётом доступных ассигнования, включая методы, при которых все агентства, участвующие в Миссии, поощряются к внедрению соответствующих мер безопасности, основанных на рисках, отражающих лучшие практики кибербезопасности;
(iv) запускать координированные возможности финансирования или конкурсы призов между участвующими агентствами, в пределах, разрешенных законом и при наличии доступных ассигнирований, чтобы стимулировать участие частного сектора в научных исследованиях, основанных на ИИ, соответствующих целям миссии; и
(v) создать механизмы координации возможностей финансирования исследований и разработок, а также экспериментальных ресурсов между участвующими агентствами, обеспечивая эффективное участие агентств в миссии.
(b) APST должна координировать действия с соответствующими агентствами в установлении, в соответствии с действующими уполномочивающими законами и с учётом доступных ассигнования, конкурентных программ для исследовательских стипендий, стажировок и ученических программ, направленных на применение ИИ в научных сферах, определённых как национальные вызовы для Миссии, включая размещение участников программ в национальных лабораториях Министерства энергетики и других участвующих федеральных исследовательских объектах, с целью обеспечения доступа к Платформе и обучения научным открытиям с использованием ИИ.
(c) Секретарь в координации с APST и Специальным советником по ИИ и криптографам должен устанавливать механизмы сотрудничества агентств с внешними партнёрами, обладающими передовыми возможностями ИИ, данных или вычислительной техники или научной экспертизой, включая совместные соглашения о исследованиях и разработках, партнерства с пользовательскими объектами или другие соответствующие соглашения с внешними организациями для поддержки и улучшения деятельности Миссии, и обеспечит структуру таких партнёрств с целью сохранения безопасности федеральных исследовательских активов и максимизации общественной выгоды. Для содействия этому сотрудничеству Секретарь:
(i) разрабатывать стандартизированные рамки партнерства, включая совместные исследования и разработки или другие соответствующие соглашения, а также соглашения об использовании данных и обмене моделями;
(ii) устанавливать чёткие политики владения, лицензирования, защиты коммерческой тайны и коммерциализации интеллектуальной собственности, разработанных в рамках Миссии, включая инновации, возникающие в результате экспериментов, управляемых ИИ;
(iii) внедрять единые и строгие процессы доступа и управления данными, а также стандарты кибербезопасности для нефедеральных сотрудников, получающих доступ к наборам данных, моделям и вычислительным средам, включая меры, требующие соблюдения требований классификации, конфиденциальности и контроля экспорта, а также других применимых законов; и
(iv) устанавливать процедуры для обеспечения высочайших стандартов проверки и авторизации пользователей и сотрудников, стремящихся получить доступ к ресурсам Миссии и сопутствующей исследовательской деятельности, включая Платформу и связанные с ней федеральные исследовательские ресурсы.
(d) APST через NSTC должна, по мере необходимости, выявлять возможности для международного научного сотрудничества для поддержки деятельности в рамках Миссии.
Сек. 6. Оценка и отчетность. (a) В течение 1 года с даты настоящего приказа и ежегодно после этого Секретарь должен представить Президенту отчёт через APST и директору Управления по управлению и бюджету, описывающий:
(i) операционный статус и возможности платформы;
(ii) прогресс в интеграции национальных лабораторий DOE и других участвующих федеральных исследовательских партнёров, включая совместный доступ к вычислительным ресурсам, инфраструктуре данных и исследовательским лабораториям;
(iii) статус вовлечённости пользователей, включая участие студентов-исследователей и любое сопутствующее обучение;
(iv) обновления о научных усилиях и достигнутых результатах, включая измеримые научные достижения, публикации и прототипные технологии;
(v) объем и результаты государственно-частных партнёрств, включая совместные исследовательские проекты и любые технологические переходы или деятельность по коммерциализации; и
(vi) любые выявленные потребности или рекомендации по полномочиям или межведомственной поддержке для достижения целей Миссии.
Сек. 7. Общие положения. (a) Ничто в настоящем порядке не должно истолковаться как нарушающее или иным образом влияющее:
(i) полномочия, предоставленные законом исполнительному ведомству или агентству, либо их главе; или
(ii) функции директора Управления по управлению и бюджету, связанные с бюджетными, административными или законодательными предложениями.
(b) Данный приказ должен исполняться в соответствии с применимым законодательством и при условии наличия ассигнования.
(c) Это постановление не предназначено и не создаёт никаких прав или выгод, материальных или процедурных, которые могут быть исполнены по закону или по справедливости любой стороной против Соединённых Штатов, их департаментов, агентств или организаций, их должностных лиц, сотрудников или агентов, либо любого другого лица.
(d) Расходы на публикацию этого приказа покроет Министерство энергетики.
ДОНАЛЬД ДЖ. ТРАМП
БЕЛЫЙ ДОМ,
24 ноября 2025 года.
Thursday, November 27, 2025
Как же он служил в очистке?
Интиересная идея - очищать промпты с помощью другой LLM
Wednesday, November 26, 2025
Большая разница
Изначально, состязательные примеры строились на принципах незаметности. Здесь же, все наоборот - состязательный пример сильно отличается от оригинала. Человек, при классификации, легко отличит состязательный пример от оригинала. Модель же - не отличает.
P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению
Тестирование мультиагентных систем
См. также другие публикации, посвященные агентам
Tuesday, November 25, 2025
RAG для кибербезопасности
См. по этой теме статью Намиот, Д. Е. "Что LLM знает о кибербезопасности." International Journal of Open Information Technologies 13.7 (2025): 37-46.
См. также другие публикации, посвященные LLM
Monday, November 24, 2025
Онтологии ИИ
Sunday, November 23, 2025
Как же это работает?
См. также другие публикации, посвященные LLM
Saturday, November 22, 2025
Friday, November 21, 2025
Как расковырять LLM?
Thursday, November 20, 2025
О безопасном коде
Очень правильные заключения ...
Wednesday, November 19, 2025
О промпт-инжиринге
Tuesday, November 18, 2025
ИИ на войне
Довольно реалистичный взгляд. Полной автономности не будет, но возможности уаеличатся многократно.
Атаки на детекторы дипфейков
См. также другие публикации по теме deepfake
Monday, November 17, 2025
Программа IT-конгресса 2025
Тестирование безопасности ИИ-агентов
См. также другие публикации, посвященные агентам
Sunday, November 16, 2025
Saturday, November 15, 2025
Трансформеры в рекомендациях
Агент-вредитель
Эта кампания продемонстрировала беспрецедентную интеграцию и автономность ИИ на протяжении всего жизненного цикла атаки: злоумышленник манипулировал Claude Code для поддержки разведки, обнаружения уязвимостей, эксплуатации, сбора учетных данных, анализа данных и операций по 'эксфильтрации, в значительной степени, автономно. Оператор-человек поручил экземплярам Claude Code работать в группах в качестве автономных организаторов и агентов тестирования на проникновение, при этом злоумышленник мог использовать ИИ для выполнения 80–90% тактических операций самостоятельно с физически невыполнимой частотой запросов.
В ходе расследования было выявлено важное ограничение: Claude часто преувеличивал результаты и иногда фальсифицировал данные во время автономных операций, заявляя, что получил неработающие учетные данные, или выявляя критически важные открытия, которые оказались общедоступной информацией. Эта ИИ-галлюцинация в контексте наступательных угроз безопасности представляла собой проблему для оперативной эффективности злоумышленника, требуя тщательной проверки всех заявленных результатов. Это остается препятствием для полностью автономных кибератак. То есть недостатки LLM (галлюцинации), в данном случае, работали на пользу атакованных.
И далее: "Хотя мы видим только использование Claude Code, это исследование, вероятно, отражает устойчивые модели поведения в различных моделях ИИ и демонстрирует, как злоумышленники адаптируют свои операции для использования самых передовых возможностей ИИ на сегодняшний день. Вместо того, чтобы просто давать советы по методам, злоумышленник манипулировал LLM для выполнения реальных операций по кибервторжению с минимальным контролем со стороны человека".
На самом деле, это явное напоминание о том, что автоматизация атак не оставляет выбора защищающейся стороне. Киберзащита должна быть автоматизирована. Или ее не будет вовсе. Атаки теперь будут происходить "с физически невыполнимой частотой запросов". Соответственно, физически будет невозможно и защититься.
Вот заключение отчета: "Сообщество кибербезопасности должно исходить из того, что произошли фундаментальные изменения: команды безопасности должны экспериментировать с применением ИИ для защиты в таких областях, как автоматизация SOC, обнаружение угроз, оценка уязвимостей и реагирование на инциденты, а также накапливать опыт работы с тем, что работает в их конкретных средах. Кроме того, нам необходимы постоянные инвестиции в меры безопасности на всех платформах ИИ, чтобы предотвратить злонамеренное использование. Методы, которые мы описываем сегодня, будут распространяться по всему ландшафту угроз, что делает обмен информацией об угрозах в отрасли, улучшенные методы обнаружения и более строгие меры безопасности ещё более важными."
Friday, November 14, 2025
Разработка безопасного ПО
Обзор текущего состояния и много интересных замечаний. Например: "Управление заместителя министра обороны по закупкам и поддержке должно выпустить руководство, настоятельно рекомендующее программам исследований и разработки программного обеспечения использовать типобезопасные, безопасные для памяти языки программирования (например, Rust, Go, SPARK) или среды (C#, Java), а не небезопасные языки (например, C, C++). Им следует (среди прочего) использовать возможности этих языков для обеспечения разделения компонентов с четкими интерфейсами, чтобы обеспечить более высокую надежность."
Относительно генерации кода с помощью ИИ инструментов, отчет настаивает на ручном code-review для автоматически созданных компонент.
Закрываем тему
Thursday, November 13, 2025
Судить ИИ
ChatGPT обвиняют в подстрекательстве к самоубийствам, сообщает The Wall Street Journal. Против OpenAI поданы семь судебных исков представителями четырёх человек, покончивших жизнь самоубийством, и ещё троих, получивших психологическую травму после взаимодействия с чат-ботом. Семья одного из погибших молодых парней заявляет, что в ходе четырехчасового разговора с ИИ, после которого их сын застрелился, ChatGPT неоднократно восхвалял самоубийство, но лишь однажды упомянул линию помощи.
В России запретили телеграм-боты для изменения голоса. В московский суд поступили иски на сервисы, которые использовались для подделки голосов в телефонных разговорах. Суд признал, что они нарушают законы о связи, противодействии терроризму и экстремистской деятельности, а их информация запрещена к распространению.
Безопасное тестирование
Wednesday, November 12, 2025
Координатный спуфинг
См. также другие публикации по теме физические атаки
По живому
См. также другие публикации, посвященные LLM
Tuesday, November 11, 2025
Публикации по теме Искусственный интеллект в кибербезопасности 11.11.2025
Вопросы безопасности систем ИИ рассматриваются в двух магистерских программах факультета ВМК МГУ имени М.В. Ломоносова: Искусственный интеллект в кибербезопасности и Кибербезопасность. Ниже приведен список публикаций, подготовленных в процессе реализации этих программ по состоянию на 28.09.2025
Ильюшин Е. А., Намиот Д. Е. An approach to the automatic enhancement of the robustness of ml models to external influences on the example of the problem of biometric speaker identification by voice // International Journal of Open Information Technologies. — 2021. — Vol. 9, no. 6. — P. 11–19.
Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Текущие академические и индустриальные проекты, посвященные устойчивому машинному обучению // International Journal of Open Information Technologies. — 2021. — Т. 9, № 10. — С. 35–46.
Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Основания для работ по устойчивому машинному обучению // International Journal of Open Information Technologies. — 2021. — Т. 9, № 11. — С. 68–74.
Намиот Д. Е., Ильшин Е. А., Чижов И. В. Военные применения машинного обучения // International Journal of Open Information Technologies. — 2022. — Т. 10, № 1. — С. 69–76.
Ильюшин Е. А., Намиот Д. Е., Чижов И. В. Атаки на системы машинного обучения – общие проблемы и методы // International Journal of Open Information Technologies. — 2022. — Т. 10, № 3. — С. 17–22.
Namiot D., Ilyushin E. On monitoring of machine learning models // Distributed Computer and Communication Networks: Control, Computation, Communications (DCCN-2022) : материалы XXV международной научной конференции: Москва, 26–30 сентября 2022 года / под общ. ред. В. М. Вишневского и К. Е. Самуйлова. — РУДН Москва: 2022. — P. 150–157.
Namiot D., Ilyushin E., Chizhov I. On a formal verification of machine learning systems // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 5. — P. 30–34.
Huayu L., Namiot D. A survey of adversarial attacks and defenses for image data on deep learning // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 5. — P. 9–16.
Намиот Д., Ильюшин Е., Пилипенко О. Доверенные платформы искусственного интеллекта // International Journal of Open Information Technologies. — 2022. — Т. 10, № 7. — С. 119–127.
Намиот Д., Ильюшин Е. Порождающие модели в машинном обучении // International Journal of Open Information Technologies. — 2022. — Т. 10, № 7. — С. 101–118.
Биджиев Т. М., Намиот Д. Е. Исследование существующих подходов к встраиванию вредоносного программного обеспечения в искусственные нейронные сети // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 21–31.
Намиот Д. Е., Ильюшин Е. А. Об устойчивости и безопасности систем искусственного интеллекта // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 126–134.
Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Искусственный интеллект и кибербезопасность // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 135–147.
Stroeva E., Tonkikh A. Methods for formal verification of artificial neural networks: A review of existing approaches // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 10. — P. 3.
Намиот Д., Ильюшин Е. Мониторинг сдвига данных в моделях машинного обучения // International Journal of Open Information Technologies. — 2022. — Т. 10, № 12. — С. 84–93.
Костюмов, Василий Владимирович. "Обзор и систематизация атак уклонением на модели компьютерного зрения." International Journal of Open Information Technologies 10.10 (2022): 11-20.
Намиот Д. Е., Ильюшин Е. А. О причинах неудач проектов машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 1. — С. 60–69.
Намиот Д. Е. Введение в атаки отравлением на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 3. — С. 58–68.
Namiot D. E., Ilyushin E., Chizhov I. On the practical generation of counterfactual examples // Труды Института системного анализа Российской академии наук. — 2023. — Vol. 73, no. 1. — P. 73–81.
Junzhe S., Namiot D. E. A survey of model inversion attacks and countermeasures // Труды Института системного анализа Российской академии наук. — 2023. — Vol. 73, no. 1. — P. 82–93.
Junzhe S., Namiot D. A survey of the implementations of model inversion attacks // Communications in Computer and Information Science. — 2023. — Vol. 1748. — P. 3–16.
Намиот Д. Е. Схемы атак на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 5. — С. 68–86.
On the evasion attack detector / L. Huayui, V. Kostyumov, O. Pilipenko, D. Namiot // DCCN 2023. Материалы конференции. — ИПУ РАН Москва: 2023. — P. 183–188.
Junzhe S., Namiot D. On the machine learning models inversion attack detector // DCCN 2023. Материалы конференции. — ИПУ РАН Москва: 2023. — P. 194.
Lozinskii I., Kostyumov V., Stroeva E. Extraction of trigger and mask from poisoned data using modified activation clustering and neural cleanse methods // International Journal of Open Information Technologies. — 2023. — Vol. 11, no. 7. — P. 1
Чехонина, Екатерина Андреевна, and Василий Владимирович Костюмов. "ОБЗОР СОСТЯЗАТЕЛЬНЫХ АТАК И МЕТОДОВ ЗАЩИТЫ ДЛЯ ДЕТЕКТОРОВ ОБЪЕКТОВ." International Journal of Open Information Technologies 11.7 (2023): 11-20.
Пришлецов Д. Е., Пришлецов С. Е., Намиот Д. Е. Камуфляж как состязательные атаки на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 9. — С. 41–49.
Намиот Д. Е., Зубарева Е. В. О работе ai red team // International Journal of Open Information Technologies. — 2023. — Т. 11, № 10. — С. 130–139.
Намиот Д. Е., Ильюшин Е. А. Доверенные платформы искусственного интеллекта: сертификация и аудит // International Journal of Open Information Technologies. — 2024. — Т. 12, № 1. — С. 43–60.
Киржинов Д. А., Ильюшин Е. А. Сравнительный анализ алгоритмов атак и защиты на графовые архитектуры ИНС // International Journal of Open Information Technologies. — 2024. — Т. 12, № 2.
Намиот Д. Е., Романов В. Ю. Об улучшении робастности моделей машинного обучения // International Journal of Open Information Technologies. — 2024. — Т. 12, № 3. — С. 88–98.
Junzhe S., Namiot D. On real-time model inversion attacks detection // Lecture Notes in Computer Science. — 2024. — Vol. 14123. — P. 56–67.
Мударова Р. М., Намиот Д. Е. Противодействие атакам типа инъекция подсказок на большие языковые модели // International Journal of Open Information Technologies. — 2024. — Т. 12, № 5. — С. 39–48.
Намиот Д. Е., Ильюшин Е. А. Искусственный интеллект в кибербезопасности: поиск вредоносного программного обеспечения // International Journal of Open Information Technologies. — 2024. — Т. 12, № 6. — С. 143–149.
Lebed, S. V., et al. "Large Language Models in Cyberattacks." Doklady Mathematics. Vol. 110. No. Suppl 2. Moscow: Pleiades Publishing, 2024.
Селевенко Р. М., Строева Е. Н. Исследование и разработка алгоритма формальной верификации и метрики оценки качества на основе методов понижения размерности ИНС // INJOIT. — 2024. — Т. 12, № 6. — С. 2.
Биджиев Т. М., Намиот Д. Е. Атаки на модели машинного обучения, основанные на фреймворке pytorch // Автоматика и телемеханика. — 2024. — № 3. — С. 38–50.
Намиот Д. Е., Ильюшин Е. А. О сертификации систем искусственного интеллекта // Физика элементарных частиц и атомного ядра. — 2024. — Т. 55, № 3. — С. 530–536.
Намиот Д. Е., Куприяновский В. П., Пичугов А. А. Состязательные атаки для автономных транспортных средств // International Journal of Open Information Technologies. — 2024. — Т. 12, № 7. — С. 139–149.
Намиот Д. Е. О кибератаках с помощью систем Искусственного интеллекта // International Journal of Open Information Technologies. — 2024. — Т. 12, № 9. — С. 132–141.
Воробьев, Егор Александрович. "Анализ состязательных атак на системы сегментации изображений." International Journal of Open Information Technologies 12.10 (2024): 1-25.
Намиот Д. Е., Ильюшин Е. А. О киберрисках генеративного Искусственного Интеллекта // International Journal of Open Information Technologies. — 2024. — Т. 12, № 10. — С. 109–119.
Порывай, Максим Викторович. "Сравнительное исследование методов естественной аугментации изображений." International Journal of Open Information Technologies 12.10 (2024): 26-33.
Герасименко, Денис Валерьевич, and Дмитрий Евгеньевич Намиот. "Извлечение тренировочных данных: Риски и решения в контексте безопасности LLM." International Journal of Open Information Technologies 12.11 (2024): 9-19.
Костиков, Егор Вячеславович. "Методы анализа логов Sysmon для обнаружения киберугроз." International Journal of Open Information Technologies 12.11 (2024): 25-34.
Намиот Д. Е., Ильюшин Е. А. Архитектура LLM агентов //International Journal of Open Information Technologies. – 2025. – Т. 13. – №. 1. – С. 67-74.
Воробьев Е. А., Намиот Д. Е. Состязательное тестирование моделей сегментации изображений // Программная инженерия. — 2025. — Т. 16, № 4. — С. 190–198.
Намиот, Д. Е., and Е. А. Ильюшин. "Об оценке доверия к системам Искусственного интеллекта." International Journal of Open Information Technologies 13.3 (2025): 75-90.
Хамзаева, М. А., and О. Р. Лапонина. "Повышение устойчивости к состязательным атакам моделей машинного обучения для обнаружения межсайтового выполнения сценариев." International Journal of Open Information Technologies 13.6 (2025): 25-33.
Бербер, Д. В., and О. Р. Лапонина. "Разработка подходов к увеличению устойчивости моделей машинного обучения для обнаружения распределенных атак отказа обслуживания." International Journal of Open Information Technologies 13.6 (2025): 16-24.
Егорова, Е. С., and О. Р. Лапонина. "Состязательное тестирование моделей машинного обучения, предназначенных для обнаружения SQL-инъекций." International Journal of Open Information Technologies 13.6 (2025): 34-41.
Лапонина, О. Р., and Р. Н. Костин. "Разработка программного обеспечения моделирования угроз для систем на базе LLM-агентов." International Journal of Open Information Technologies 13.6 (2025): 132-146.
Намиот, Д. Е. "Что LLM знает о кибербезопасности." International Journal of Open Information Technologies 13.7 (2025): 37-46.
Намиот, Д. Е. "Искусственный Интеллект в. Кибербезопасности. Хроника. Выпуск 1." International Journal of Open Information Technologies 13.9 (2025): 34-42.
Намиот, Д. Е., and Е. А. Ильюшин. "О кибербезопасности ИИ-агентов." International Journal of Open Information Technologies 13.9 (2025): 13-24.
Егоров, М. Э., et al. "Объяснения моделей машинного обучения и состязательные атаки." International Journal of Open Information Technologies 13.9 (2025): 50-59.
Намиот, Д. Е., and Е. А. Ильюшин. "Уязвимости экосистемы MCP." International Journal of Open Information Technologies 13.10 (2025): 74-82.
Намиот, Д. Е. "Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 2." International Journal of Open Information Technologies 13.10 (2025): 58-67.
Poryvai, Maxim, and Dmitry Namiot. "On Natural Image Augmentation to Increase Robustness of Machine Learning Models." 2025 International Russian Automation Conference (RusAutoCon). IEEE, 2025.
Namiot D., Zubareva E. On open datasets for llm adversarial testing // Communications in Computer and Information Science. — 2025. — Vol. 2641. — P. 137–148.
Намиот, Д. Е. "Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 3." International Journal of Open Information Technologies 13.11 (2025): 169-179.
Защита от атак патчами
Тема важная - защита от атак на системы распознавния объектов. Для систем с ограниченным ресурсами - это большая проблема. Важно отметить, что в данной работе авторы используют периферические вычисления. Не для всех БПЛА это доступно.
См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению
Monday, November 10, 2025
Состязательное тестирование для MCP
См. также другие публикации, посвященные агентам
Инъекции подсказок для VLM
Sunday, November 09, 2025
Нет веры ничему
См. также другие публикации, посвященные LLM
Проблемы безопасности ML
Saturday, November 08, 2025
Универсальный камуфляж для VLM
1) Физические состязательные атаки, в первую очередь, нацелены на модули зрения. Их трудно напрямую перенести на системы VLM-AD, поскольку они обычно атакуют низкоуровневые компоненты восприятия.
2) Состязательные атаки на VLM-AD в основном сосредоточены на цифровом уровне. Они страдают от значительных ограничений при развертывании в реальном мире, включая отсутствие физической реализуемости и чувствительность к изменчивости окружающей среды.
Для решения этих проблем мы предлагаем первую платформу универсальной камуфляжной атаки (UCA) для VLM-AD. В отличие от предыдущих методов, ориентированных на оптимизацию логит-слоя, UCA работает в пространстве признаков для генерации физически реализуемых камуфляжных текстур, демонстрирующих сильную генерализацию для различных пользовательских команд и архитектур моделей. В связи с наблюдаемой уязвимостью слоёв кодировщика и проекции в VLM-AD, UCA вводит потерю дивергенции признаков (FDL), которая максимизирует расхождение репрезентативности между чистыми и состязательными изображениями. Кроме того, UCA использует многомасштабную стратегию обучения и корректирует коэффициент дискретизации для повышения своей адаптивности к изменениям масштаба и разнообразию точек обзора в реальных сценариях, тем самым повышая стабильность обучения. Многочисленные эксперименты показывают, что UCA может вызывать неверные команды управления в различных моделях VLM-AD и сценариях управления, значительно превосходя существующие современные методы атак (улучшение на 30% по метрикам 3-P). Кроме того, UCA демонстрирует высокую устойчивость к атакам при различных точках обзора и в динамических условиях, что указывает на высокий потенциал для практического применения. - Universal Camouflage Attack on Vision-Language Models for Autonomous Driving
P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению
Цифровые двойники в кибербезопасности
См. также другие публикации, посвященные digital twins
Friday, November 07, 2025
Открытая наука, том 13, номер 11
Это том 13, номер 11 за 2025 год. Новое пополнение для списка работ по теме Искусственный интеллект в кибербезопасности
/via Лаборатория ОИТ
Атаки на NIDS
См. также следующую публикацию про атаки с ограничениями
P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению
Физические атаки в инфракрасном свете
См. также другие публикации по теме физические атаки
Thursday, November 06, 2025
Оценка подходов к интерпретации машинного обучения
- Точечная или глобальная интерпретация?
- Интерпретируется ли по замыслу или постфактум?
- Является ли результат объяснения моделью?
- Для каких моделей и данных?
- Каков результат?
Хороший обзор. От автора лучшей книги по интерпретации ML
RAG vs Context engineering
Это все агенты ...
Wednesday, November 05, 2025
Пост-тренировка LLM
Вот еще хороший материал по теме пост-тренировки LLM - Post-training 101
