Friday, December 05, 2025

Состязательное тестирование LLM

Стремительное расширение исследований безопасности и надежности больших языковых моделей (LLM) привело к появлению разрозненной и зачастую содержащей ошибки экосистемы реализаций, наборов данных и методов оценки. Эта фрагментация затрудняет воспроизводимость и сопоставимость результатов различных исследований, препятствуя существенному прогрессу. Для решения этих проблем мы представляем ADVERSARIALLM, набор инструментов для проведения исследований надежности джейлбрейка LLM. Его дизайн ориентирован на воспроизводимость, корректность и расширяемость. Фреймворк реализует двенадцать алгоритмов состязательных атак, объединяет семь эталонных наборов данных, охватывающих оценку вредоносности, избыточного отказа и полезности, и предоставляет доступ к широкому спектру открытых LLM через Hugging Face. Реализация включает расширенные функции для обеспечения сопоставимости и воспроизводимости, такие как отслеживание ресурсов компьютера, детерминированные результаты и методы оценки распределения. ADVERSARIALLM также интегрирует систему оценки через сопутствующий пакет JUDGEZOO, который также может использоваться независимо. Вместе эти компоненты направлены на создание прочной основы для прозрачных, сравнимых и воспроизводимых исследований в области безопасности магистратуры по праву. Оба пакета доступны на GitHub - AdversariaLLM: A Unified and Modular Toolbox for LLM Robustness Research

См. также другие публикации, посвященные LLM

Wednesday, December 03, 2025

Что по интерпретации?

Интересные заметки от Google Deepmind по интерпретации моделей. Например, про атрибуцию данных на основе функций влияния.

Я к Вам пишу ...

Ужасы AI Red Team. Запросы в прошедшем времени обходили фильтры LLM. Теперь выяснилось, что их обходят еще и стихи ...

Мы представляем доказательства того, что состязательная поэзия функционирует как универсальный одношаговый джейлбрек для больших языковых моделей (LLM). В 25 передовых проприетарных и открытых моделях курируемые поэтические подсказки показали высокие показатели успешности атак (ASR), превышающие 90% у некоторых поставщиков. Сопоставление подсказок с таксономиями рисков MLCommons и EU CoP показывает, что поэтические атаки переносятся в области CBRN (Chemical, Biological, Radiological, and Nuclear) опасностей, манипуляций, киберпреступлений и потери контроля. Преобразование 1200 вредоносных подсказок MLCommons в стихи с помощью стандартизированного мета-подсказки дало ASR до 18 раз выше, чем их базовые показатели для прозы. Результаты оцениваются с помощью ансамбля из 3 экспертов LLM с открытым весом, чьи бинарные оценки безопасности были проверены на стратифицированном подмножестве, маркированном людьми. Поэтические подсказки достигли среднего уровня успешности взлома 62% для стихотворений, написанных вручную, и примерно 43% для мета-подсказок (по сравнению с непоэтическими базовыми вариантами), значительно превзойдя непоэтические базовые варианты и выявив систематическую уязвимость среди модельных семейств и подходов к обучению безопасности. Эти результаты показывают, что одни только стилистические вариации могут обойти современные механизмы безопасности, указывая на фундаментальные ограничения существующих методов выравнивания и протоколов оценки. - Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models

См. также другие публикации, посвященные LLM

Tuesday, December 02, 2025

A2AS - безопасность агентов

Фреймворк A2AS представлен в качестве уровня безопасности для агентов ИИ и приложений на базе LLM, аналогично тому, как HTTPS защищает HTTP. A2AS обеспечивает сертифицированное поведение, активирует самозащиту модели и обеспечивает целостность контекстного окна. Он определяет границы безопасности, аутентифицирует запросы, применяет правила безопасности и настраиваемые политики, а также контролирует поведение агентов, обеспечивая стратегию глубокой защиты. Фреймворк A2AS позволяет избежать накладных расходов, связанных с задержками, внешними зависимостями, изменениями архитектуры, переобучением модели и сложностью эксплуатации. В качестве основы A2AS представлена модель безопасности BASIC:

(B) Сертификаты поведения обеспечивают принудительное применение поведения,
(A) Аутентифицированные запросы обеспечивают целостность контекстного окна,
(S) Границы безопасности обеспечивают изоляцию ненадежных входных данных,
(I) Контекстная защита обеспечивает безопасную модельную аргументацию,
(C) Кодифицированные политики обеспечивают правила, специфичные для приложения.

В этой первой статье серии представлены модель безопасности BASIC и фреймворк A2AS, а также исследуется их потенциал для установления отраслевого стандарта A2AS - Agentic AI Runtime Security and Self-Defense

См. также другие публикации, посвященные агентам

Monday, December 01, 2025

LLM в защите

Когда агенты больших языковых моделей (LLM) всё чаще используются для автоматизации задач и взаимодействия с недоверенными внешними данными, внедрение подсказок становится серьёзной угрозой безопасности. Внедряя вредоносные инструкции в данные, к которым обращаются LLM, злоумышленник может произвольно переопределить исходную задачу пользователя и перенаправить агента на выполнение непреднамеренных, потенциально опасных действий. Существующие средства защиты либо требуют доступа к весам модели (тонкая настройка), либо приводят к существенной потере полезности (основанная на обнаружении), либо требуют нетривиальной переработки системы (на системном уровне). В связи с этим мы предлагаем DataFilter — защиту, не зависящую от модели, которая удаляет вредоносные инструкции из данных до того, как они достигнут бэкенда LLM. DataFilter обучается с контролируемой тонкой настройкой на имитационных внедрениях и использует как инструкции пользователя, так и данные для выборочного удаления вредоносного контента, сохраняя при этом безвредную информацию. В множестве бенчмарков DataFilter стабильно снижает процент успешных атак с использованием инъекций подсказок практически до нуля, сохраняя при этом полезность LLM. DataFilter обеспечивает надежную безопасность, высокую полезность и быстрое развертывание, что делает его надежной практической защитой для защиты коммерческих LLM от инъекций подсказок. Наша модель DataFilter доступна для немедленного использования, а код для воспроизведения наших результатов доступен здесь. - Defending Against Prompt Injection with DataFilter

Специально обученная LLM удаляет инъекции подсказок. Возможно - это правильный путь для агентов. Специальный агент-защитник, используемый в workflow агентов.

См. также другие публикации, посвященные LLM

Sunday, November 30, 2025

Временные подсказки

Анализ временных рядов с помощью LLM. По сути - набор конкретных промптов. LLM-Powered Time-Series Analysis

См. также другие публикации, посвященные LLM

См. также другие материалы, посвященные подсказкам

Saturday, November 29, 2025

ML interview

How to Crack Machine Learning System-Design Interviews. Подробное руководство по собеседованиям по проектированию машинного обучения в Meta, Apple, Reddit, Amazon, Google и Snap

См. также другие публикации на тему интервью

Friday, November 28, 2025

ИИ в науке

Запуск миссии Genesis:

По полномочиям, предоставленным мне как Президенту Конституцией и законами Соединённых Штатов Америки, настоящим постановляется:

Раздел 1. Цель. С момента основания нашей Республики научные открытия и технологические инновации были движущей силой американского прогресса и процветания. Сегодня Америка гонится за глобальное технологическое доминирование в развитии искусственного интеллекта (ИИ) — важной рубежи научных открытий и экономического роста. В этой связи моя администрация предприняла ряд мер для победы в этой гонке, включая выпуск нескольких исполнительных указов и внедрение Американского плана действий по ИИ, который признаёт необходимость инвестирования в науку с ИИ для ускорения научного прогресса. В этот решающий момент перед нами возникают исторические национальные усилия, сопоставимые по срочности и амбициям с Манхэттенским проектом, который сыграл ключевую роль в нашей победе во Второй мировой войне и стал критической основой для основания Министерства энергетики (DOE) и его национальных лабораторий.

Этот приказ запускает «Миссию Генезис» как целенаправленную, скоординированную национальную инициативу по запуску новой эры инноваций и открытий, ускоренных с помощью ИИ, способных решить самые сложные проблемы этого века. Миссия Genesis создаст интегрированную платформу ИИ для использования федеральных научных наборов данных — крупнейшей в мире коллекции таких наборов данных, созданной десятилетиями федеральных инвестиций — для обучения научных базовых моделей и создания агентов ИИ для тестирования новых гипотез, автоматизации исследовательских рабочих процессов и ускорения научных прорывов. Миссия Genesis объединит научно-исследовательские и разработочные ресурсы нашей страны — объединяя усилия выдающихся американских учёных, включая сотрудников национальных лабораторий, с новаторскими американскими компаниями; всемирно известных университетов; а также существующую исследовательскую инфраструктуру, хранилища данных, производственные заводы и объекты национальной безопасности — чтобы добиться значительного ускорения разработки и использования ИИ. Мы будем использовать на благо нашей страны происходящую революцию в области вычислительной техники и опираться на десятилетия инноваций в области полупроводников и высокопроизводительных вычислений. Миссия Genesis значительно ускорит научные открытия, укрепит национальную безопасность, обеспечит энергетическое доминирование, повысит производительность рабочей силы и умножит отдачу от инвестиций налогоплательщиков в исследования и разработки, тем самым укрепляя технологическое превосходство Америки и её глобальное стратегическое лидерство.

Сек. 2. Создание миссии Genesis. (a) Учреждена миссия Genesis (Mission) — национальная инициатива по ускорению применения ИИ для преобразующих научных открытий, сосредоточенная на актуальных национальных проблемах.

(b) Министр энергетики (Секретарь) несёт ответственность за реализацию Миссии в рамках Министерства энергетики в соответствии с положениями настоящего приказа, включая, по мере необходимости и разрешения закона, установление приоритетов и обеспечение интеграции всех ресурсов Министерства энергетики, используемых для элементов Миссии, в безопасную, единую платформу. Секретарь может назначить старшего политического назначенца для надзора за повседневной деятельностью Миссии.

(c) Помощник президента по науке и технологиям (APST) обеспечивает общее руководство Миссией, включая координацию участвующих исполнительных департаментов и агентств (агентств) через Национальный совет по науке и технологиям (NSTC) и выдачу рекомендаций для обеспечения соответствия миссии национальным целям.

Сек. 3. Работа Американской платформы науки и безопасности. (a) Секретарь должен учредить и эксплуатировать Американскую платформу науки и безопасности (Платформу), которая служит инфраструктурой для Миссии с целью обеспечения в интегрированной и максимально возможной степени и в соответствии с законом:

(i) высокопроизводительные вычислительные ресурсы, включая суперкомпьютеры национальной лаборатории DOE и безопасные облачные среды искусственного интеллекта, способные поддерживать обучение крупномасштабных моделей, моделирование и выводы;
(ii) фреймворки для моделирования и анализа ИИ, включая агентов ИИ для изучения проектных пространств, оценки экспериментальных результатов и автоматизации рабочих процессов;
(iii) вычислительные инструменты, включая предсказательные модели с поддержкой ИИ, модели симуляции и инструменты оптимизации проектирования;
(iv) специализированные модели фундамента в различных областях, охваченных научными областями;
(v) безопасный доступ к соответствующим наборам данных, включая проприетарные, федерально курируемые и открытые научные наборы данных, а также синтетические данные, созданные с помощью вычислительных ресурсов DOE, в соответствии с применимым законодательством; применимая защита классификации, конфиденциальности и интеллектуальной собственности; и федеральные стандарты доступа к данным и управления данными; и
(vi) экспериментальные и производственные инструменты для обеспечения автономных и усиленных ИИ экспериментов и производства в областях с высоким воздействием.

(b) Секретарь должен предпринять необходимые меры для обеспечения того, чтобы Платформа функционировала в соответствии с требованиями безопасности, соответствующими её миссии по национальной безопасности и конкурентоспособности, включая применимую классификацию, безопасность цепочки поставок, а также федеральные стандарты и лучшие практики кибербезопасности.

(c) В течение 90 дней с даты настоящего приказа Секретарь должен определить федеральные вычислительные, хранительские и сетевые ресурсы, доступные для поддержки Миссии, включая как локальные, так и облачные высокопроизводительные вычислительные системы DOE, а также ресурсы, доступные через отраслевых партнёров. Секретарь также должен определить любые дополнительные партнерства или улучшения инфраструктуры, которые могут поддержать вычислительную основу Платформы.

(d) В течение 120 дней с даты настоящего приказа Секретарь:

(i) определить набор начальных данных и модельных активов для использования в Миссии, включая оцифровку, стандартизацию, метаданные и отслеживание происхождения; и
(ii) разработать план с соответствующими мерами кибербезопасности, основанной на рисках, для включения наборов данных из федеральных исследований, других агентств, академических учреждений и одобренных партнёров частного сектора, при необходимости.

(e) В течение 240 дней с даты настоящего приказа Секретарь должен пересмотреть возможности национальных лабораторий Министерства энергетики и других участвующих федеральных исследовательских объектов для робототехнических лабораторий и производственных объектов с возможностью участия в экспериментах и производстве, направленных на ИИ, включая автоматизированные и усиленные ИИ рабочие процессы, а также соответствующие технические и операционные стандарты.

(f) В течение 270 дней с даты настоящего приказа Секретарь, в соответствии с применимым законодательством и с учётом доступных ассигнирований, должен попытаться продемонстрировать первоначальную операционную способность Платформы по крайней мере для одной из национальных научных и технологических задач, выявленных в соответствии с разделом 4 настоящего приказа.

Сек. 4. Выявление национальных проблем в области науки и технологий. (a) В течение 60 дней с даты настоящего приказа Секретарь должен определить и представить APST подробный список как минимум 20 научно-технических вызовов национального значения, которые, по его оценке, имеют потенциал для решения через Миссию и которые охватывают приоритетные области в соответствии с Национальным меморандумом по науке и технологиям No2 от 23 сентября, 2025 год, включая:

(i) продвинутое производство;
(ii) биотехнологии;
(iii) критически важные материалы;
(iv) ядерное деление и энергия синтеза;
(v) квантовая информационная наука; и
(vi) полупроводники и микроэлектроника.

(b) В течение 30 дней после подачи списка, описанного в подпункте (a) данного раздела, APST рассмотрит предложенный список и, работая с участвующими агентствами NSTC, координирует разработку расширенного списка, который может служить начальным набором национальных научно-технических вызовов, которые должна решать Миссия, включая дополнительные вызовы, предлагаемые участвующими агентствами через NSTC, при условии доступных ассигнирований.

(c) После разработки расширенного списка, описанного в подпункте (b) данного раздела, агентства, участвующие в миссии, должны использовать Платформу для продвижения исследований и разработок, соответствующих национальным научно-техническим вызовам, указанным в расширенном списке, в соответствии с применимым законодательством и их соответствующими миссиями, а также с учётом доступных ассигнирований.

(d) В дальнейшем ежегодно Секретарь будет рассматривать и обновлять список вызовов в консультации с APST и NSTC с учётом достигнутого прогресса, возникающих национальных потребностей и соответствия приоритетам моей администрации в области исследований и разработок.

Сек. 5. Межведомственная координация и внешнее взаимодействие. (a) APST через NSTC и при поддержке Федерального совета главных специалистов по данным и Совета главных офицеров по ИИ созывает соответствующие и заинтересованные агентства для:

(i) помогать участвующим агентствам в согласовании, в разрешённой законом степени, их программ, наборов данных и научно-исследовательской деятельности, связанных с ИИ, с целями Миссии в их соответствующих областях экспертизы, при этом избегая дублирования усилий в федеральном правительстве и способствуя совместимости;
(ii) выявить источники данных, которые могут поддерживать цель миссии;
(iii) разработать процесс и план ресурсов в координации с участвующими агентствами для интеграции соответствующих и доступных данных и инфраструктуры агентств в Миссию в пределах, разрешенных законом и с учётом доступных ассигнования, включая методы, при которых все агентства, участвующие в Миссии, поощряются к внедрению соответствующих мер безопасности, основанных на рисках, отражающих лучшие практики кибербезопасности;
(iv) запускать координированные возможности финансирования или конкурсы призов между участвующими агентствами, в пределах, разрешенных законом и при наличии доступных ассигнирований, чтобы стимулировать участие частного сектора в научных исследованиях, основанных на ИИ, соответствующих целям миссии; и
(v) создать механизмы координации возможностей финансирования исследований и разработок, а также экспериментальных ресурсов между участвующими агентствами, обеспечивая эффективное участие агентств в миссии.

(b) APST должна координировать действия с соответствующими агентствами в установлении, в соответствии с действующими уполномочивающими законами и с учётом доступных ассигнования, конкурентных программ для исследовательских стипендий, стажировок и ученических программ, направленных на применение ИИ в научных сферах, определённых как национальные вызовы для Миссии, включая размещение участников программ в национальных лабораториях Министерства энергетики и других участвующих федеральных исследовательских объектах, с целью обеспечения доступа к Платформе и обучения научным открытиям с использованием ИИ.

(c) Секретарь в координации с APST и Специальным советником по ИИ и криптографам должен устанавливать механизмы сотрудничества агентств с внешними партнёрами, обладающими передовыми возможностями ИИ, данных или вычислительной техники или научной экспертизой, включая совместные соглашения о исследованиях и разработках, партнерства с пользовательскими объектами или другие соответствующие соглашения с внешними организациями для поддержки и улучшения деятельности Миссии, и обеспечит структуру таких партнёрств с целью сохранения безопасности федеральных исследовательских активов и максимизации общественной выгоды. Для содействия этому сотрудничеству Секретарь:

(i) разрабатывать стандартизированные рамки партнерства, включая совместные исследования и разработки или другие соответствующие соглашения, а также соглашения об использовании данных и обмене моделями;
(ii) устанавливать чёткие политики владения, лицензирования, защиты коммерческой тайны и коммерциализации интеллектуальной собственности, разработанных в рамках Миссии, включая инновации, возникающие в результате экспериментов, управляемых ИИ;
(iii) внедрять единые и строгие процессы доступа и управления данными, а также стандарты кибербезопасности для нефедеральных сотрудников, получающих доступ к наборам данных, моделям и вычислительным средам, включая меры, требующие соблюдения требований классификации, конфиденциальности и контроля экспорта, а также других применимых законов; и
(iv) устанавливать процедуры для обеспечения высочайших стандартов проверки и авторизации пользователей и сотрудников, стремящихся получить доступ к ресурсам Миссии и сопутствующей исследовательской деятельности, включая Платформу и связанные с ней федеральные исследовательские ресурсы.

(d) APST через NSTC должна, по мере необходимости, выявлять возможности для международного научного сотрудничества для поддержки деятельности в рамках Миссии.

Сек. 6. Оценка и отчетность. (a) В течение 1 года с даты настоящего приказа и ежегодно после этого Секретарь должен представить Президенту отчёт через APST и директору Управления по управлению и бюджету, описывающий:

(i) операционный статус и возможности платформы;
(ii) прогресс в интеграции национальных лабораторий DOE и других участвующих федеральных исследовательских партнёров, включая совместный доступ к вычислительным ресурсам, инфраструктуре данных и исследовательским лабораториям;
(iii) статус вовлечённости пользователей, включая участие студентов-исследователей и любое сопутствующее обучение;
(iv) обновления о научных усилиях и достигнутых результатах, включая измеримые научные достижения, публикации и прототипные технологии;
(v) объем и результаты государственно-частных партнёрств, включая совместные исследовательские проекты и любые технологические переходы или деятельность по коммерциализации; и
(vi) любые выявленные потребности или рекомендации по полномочиям или межведомственной поддержке для достижения целей Миссии.

Сек. 7. Общие положения. (a) Ничто в настоящем порядке не должно истолковаться как нарушающее или иным образом влияющее:

(i) полномочия, предоставленные законом исполнительному ведомству или агентству, либо их главе; или
(ii) функции директора Управления по управлению и бюджету, связанные с бюджетными, административными или законодательными предложениями.

(b) Данный приказ должен исполняться в соответствии с применимым законодательством и при условии наличия ассигнования.

(c) Это постановление не предназначено и не создаёт никаких прав или выгод, материальных или процедурных, которые могут быть исполнены по закону или по справедливости любой стороной против Соединённых Штатов, их департаментов, агентств или организаций, их должностных лиц, сотрудников или агентов, либо любого другого лица.

(d) Расходы на публикацию этого приказа покроет Министерство энергетики.

ДОНАЛЬД ДЖ. ТРАМП
БЕЛЫЙ ДОМ,
24 ноября 2025 года.

Приватные курсы

Интересные курсы от ETH по приватности данных и LLM

Thursday, November 27, 2025

Как же он служил в очистке?

Длинноконтекстные LLM уязвимы к внедрению подсказок, когда злоумышленник может внедрить инструкцию в длинный контекст, чтобы побудить LLM сгенерировать желаемый злоумышленником вывод. Существующие методы защиты от внедрения подсказок разработаны для коротких контекстов. При распространении на сценарии с длинным контекстом они имеют ограниченную эффективность. Причина в том, что внедренная инструкция составляет лишь очень малую часть длинного контекста, что делает защиту очень сложной. В данной работе мы предлагаем PISanitizer, который сначала выявляет и дезинфицирует потенциально внедренные токены (если таковые имеются) в контексте, прежде чем позволить бэкенд-LLM сгенерировать ответ, тем самым устраняя влияние внедренной инструкции. Для дезинфекции внедренных токенов PISanitizer основывается на двух наблюдениях: (1) атаки с внедрением подсказок, по сути, создают инструкцию, которая заставляет LLM следовать ей, и (2) LLM по сути используют механизм внимания, чтобы сосредоточиться на критически важных входных токенах для генерации вывода. Руководствуясь этими двумя наблюдениями, мы сначала намеренно позволяем LLM следовать произвольным инструкциям (если таковые имеются) в контексте, а затем дезинфицируем токены, получающие повышенное внимание и управляющие поведением LLM, связанным с следованием инструкциям. По своей сути PISanitizer представляет собой дилемму для злоумышленника: чем эффективнее внедренная инструкция заставляет LLM следовать ей, тем выше вероятность, что она будет дезинфицирована PISanitizer. Наш обширный анализ показывает, что PISanitizer может успешно предотвращать внедрение подсказок, сохранять полезность, превосходить существующие средства защиты, является эффективным и устойчивым к атакам, основанным на оптимизации, и сильным адаптивным атакам. Код доступен по адресу https://github.com/sleeepeer/PISanitizer - PISanitizer: Preventing Prompt Injection to Long-Context LLMs via Prompt Sanitization

Интиересная идея - очищать промпты с помощью другой LLM

Wednesday, November 26, 2025

Большая разница

Большинство моделей машинного обучения уязвимы к состязательным примерам, что создает проблемы безопасности для этих моделей. Состязательные примеры создаются путем применения тонких, но намеренно худших модификаций к примерам из набора данных, что приводит к тому, что модель выдает ответ, отличный от исходного примера. В данной статье состязательные примеры формируются совершенно противоположным образом, которые существенно отличаются от исходных примеров, но приводят к тому же ответу. Мы предлагаем новый набор алгоритмов для создания таких состязательных примеров, включая метод отрицательного итерационного быстрого градиента (NI-FGSM) и метод отрицательного итерационного быстрого градиента (NI-FGM), а также их варианты с импульсом: метод отрицательного итерационного быстрого градиента (NMI-FGSM) и метод отрицательного итерационного быстрого градиента (NMI-FGM). Состязательные примеры, созданные этими методами, могут быть использованы для проведения атаки на системы машинного обучения в определенных случаях. Более того, наши результаты показывают, что вредоносные примеры не просто распределены по соседству с примерами из набора данных; вместо этого они широко распределены в пространстве выборки. - A New Type of Adversarial Examples

Изначально, состязательные примеры строились на принципах незаметности. Здесь же, все наоборот - состязательный пример сильно отличается от оригинала. Человек, при классификации, легко отличит состязательный пример от оригинала. Модель же - не отличает.

P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Тестирование мультиагентных систем

Большие языковые модели (LLM) продемонстрировали сильные возможности как автономных агентов благодаря использованию инструментов, планированию и принятию решений, что привело к их широкому внедрению в самых разных задачах. По мере роста сложности задач многоагентные системы LLM все чаще используются для совместного решения задач. Однако безопасность этих систем остается в значительной степени недостаточно изученной. Существующие бенчмарки и наборы данных в основном фокусируются на одноагентных настройках, не отражая уникальные уязвимости многоагентной динамики и координации. Чтобы устранить этот пробел, мы представляем «Угрозы и атаки в многоагентных системах» (TAMAS), бенчмарк, предназначенный для оценки надежности и безопасности многоагентных LLM-систем. TAMAS включает пять различных сценариев, включающих 300 соперничающих экземпляров шести типов атак и 211 инструментов, а также 100 безопасных задач. Мы оцениваем производительность системы на десяти базовых LLM и трёх конфигурациях взаимодействия агентов из фреймворков Autogen и CrewAI, выделяя критические проблемы и виды отказов в текущих мультиагентных развертываниях. Кроме того, мы вводим показатель эффективной надёжности (ERS) для оценки компромисса между безопасностью и эффективностью выполнения задач этих фреймворков. Наши результаты показывают, что многоагентные системы крайне уязвимы для атак со стороны злоумышленников, что подчёркивает острую необходимость в более эффективной защите. TAMAS обеспечивает основу для систематического изучения и повышения безопасности многоагентных LLM-систем. Код доступен по адресу https://github.com/microsoft/TAMAS. - TAMAS: Benchmarking Adversarial Risks in Multi-Agent LLM Systems

См. также другие публикации, посвященные агентам

Tuesday, November 25, 2025

RAG для кибербезопасности

Приложения безопасности все чаще используют большие языковые модели (LLM) для обнаружения киберугроз; однако их непрозрачность в рассуждениях часто ограничивает доверие, особенно при принятии решений, требующих знаний в области кибербезопасности. Поскольку угрозы безопасности быстро развиваются, LLM должны не только помнить об исторических инцидентах, но и адаптироваться к возникающим уязвимостям и шаблонам атак. Метод генерации дополненного поиска (RAG) продемонстрировал эффективность в общих приложениях LLM, но его потенциал для кибербезопасности остается недоисследованным. В данной работе мы представляем фреймворк на основе RAG, предназначенный для контекстуализации данных кибербезопасности и повышения точности LLM в сохранении знаний и временных рассуждениях. Используя внешние наборы данных и модель Llama-3-8B-Instruct, мы оцениваем базовый RAG, оптимизированный гибридный подход к поиску, и проводим сравнительный анализ по нескольким метрикам производительности. Наши результаты подчеркивают потенциал гибридного поиска для повышения адаптивности и надежности LLM для задач кибербезопасности. - Adapting Large Language Models to Emerging Cybersecurity using Retrieval Augmented Generation

См. по этой теме статью Намиот, Д. Е. "Что LLM знает о кибербезопасности." International Journal of Open Information Technologies 13.7 (2025): 37-46.

См. также другие публикации, посвященные LLM

Интернет Вещей и кванты

Отчет GSMA: Post Quantum Cryptography in IoT Ecosystem

Monday, November 24, 2025

Онтологии ИИ

Искусственный интеллект быстро стал краеугольным камнем технологий, существенно повлияв на европейский общественный и экономический ландшафт. Однако распространение ИИ также поднимает важные этические, правовые и нормативные проблемы. Проект CERTAIN (Сертификация этической и нормативной прозрачности в области искусственного интеллекта) решает эти проблемы, разрабатывая комплексную структуру, которая интегрирует соблюдение нормативных требований, этические стандарты и прозрачность в системы ИИ. В данной аналитической записке мы описываем методологические этапы создания основных компонентов этой структуры. В частности, мы представляем: (i) семантические операции машинного обучения (MLOps) для структурированного управления жизненным циклом ИИ, (ii) отслеживание происхождения данных на основе онтологий для обеспечения прослеживаемости и подотчетности, и (iii) рабочие процессы регуляторных операций (RegOps) для операционализации требований соответствия. Внедряя и проверяя свои решения в различных пилотных проектах, CERTAIN стремится к повышению уровня соответствия нормативным требованиям и продвижению ответственных инноваций в области ИИ, соответствующих европейским стандартам. - Towards a Framework for Supporting the Ethical and Regulatory Certification of AI Systems

Sunday, November 23, 2025

Как же это работает?

Это пока ранняя стадия исследований. Новая модель, называемая «трансформером с разреженным весом», гораздо компактнее и гораздо менее функциональна, чем топовые массовые модели, такие как GPT-5 компании, Claude от Anthropic и Gemini от Google DeepMind. Её возможности не превышают возможностей GPT-1, модели, разработанной OpenAI ещё в 2018 году (хотя он и его коллеги не проводили прямого сравнения). Но цель не в том, чтобы конкурировать с лучшими в своём классе (по крайней мере, пока). Вместо этого, изучая работу этой экспериментальной модели, OpenAI надеется узнать о скрытых механизмах, которые лежат в основе этих более крупных и улучшенных версий технологии. - Understanding neural networks through sparse circuits

См. также другие публикации, посвященные LLM

Friday, November 21, 2025

Как расковырять LLM?

Благодаря постоянному развитию языковых моделей и широкой доступности различных типов интерфейсов, большие языковые модели (LLM) применяются во всё большем числе областей. Однако, из-за огромных объёмов данных и вычислительных ресурсов, необходимых для разработки моделей, защита параметров модели и обучающих данных стала актуальной и критически важной задачей. В связи с революционными парадигмами обучения и применения LLM, в последние годы появилось много новых атак на языковые модели. В данной статье мы определяем эти атаки как методы «обратной инжиниринга» (RE) на LM и стремимся предоставить углубленный анализ обратной инжиниринга языковых моделей. Мы иллюстрируем различные методы обратной инжиниринга, применяемые к различным аспектам модели, а также даём введение в существующие защитные стратегии. С одной стороны, это демонстрирует уязвимость даже моделей «чёрного ящика» к различным типам атак; с другой стороны, это предлагает более целостный взгляд на разработку новых защитных стратегий для моделей. - Towards Reverse Engineering of Language Models: A Survey

Thursday, November 20, 2025

Производительность БД

4 книги по производительности баз данных в свободном доступе

О безопасном коде

В этой статье рассматривается безопасное кодирование — набор шаблонов и практик проектирования программного обеспечения, которые обеспечивают высокую степень защиты от целых классов подобных уязвимостей при минимальных затратах. Основная идея заключается в переносе ответственности за безопасность с отдельного разработчика на язык программирования, библиотеки и фреймворки. Безопасное кодирование достигает этого путём выявления рискованных операций (со сложными предварительными условиями безопасности) и систематического исключения их прямого использования в коде приложения. Вместо этого рискованные операции должны быть инкапсулированы в безопасные абстракции: модули, чьи открытые API безопасны для использования по умолчанию, и чьи реализации несут полную ответственность за удовлетворение всех внутренних предварительных условий безопасности. - Rigorous modular reasoning about software safety

Очень правильные заключения ...

Tuesday, November 18, 2025

ИИ на войне

Состояние ИИ: как война изменится навсегда. В этой беседе Хелен Уоррелл, журналистка Financial Times и бывший редактор отдела обороны и безопасности, и Джеймс О’Доннелл, старший обозреватель по вопросам ИИ в MIT Technology Review, рассматривают этические проблемы и финансовые стимулы, связанные с использованием ИИ военными. - The State of AI: How war will be changed forever.

Довольно реалистичный взгляд. Полной автономности не будет, но возможности уаеличатся многократно.

Атаки на детекторы дипфейков

Распространение медиаконтента, генерируемого искусственным интеллектом, повысило риски дезинформации, что обусловило необходимость создания надежных систем обнаружения дипфейков. Однако состязательные атаки — тонкие возмущения, предназначенные для уклонения от обнаружения, — остаются серьезной уязвимостью. Для решения этой проблемы мы организовали конкурс AADD-2025, предложив участникам разработать атаки, которые обманывают различные классификаторы (например, ResNet, DenseNet, слепые модели), сохраняя при этом визуальную точность. Набор данных включал 16 подмножеств высококачественных/низкокачественных дипфейков, сгенерированных генеративно-состязательными сетями (GAN) и диффузионными моделями (например, StableDiffusion, StyleGAN3). Команды оценивались по структурному сходству (SSIM) и показателям успешности атак по классификаторам. Тринадцать команд предложили инновационные решения, использующие манипуляцию латентным пространством, ансамблевые градиенты, суррогатное моделирование и возмущения в частотной области. Лучшие участники конкурса — MR-CAS (1-е место, результат: 2740), Safe AI (2-е место, 2709) и RoMa (3-е место, 2679) — достигли высокого SSIM (0,74–0,93), уклоняясь от классификаторов. Инверсия латентной диффузии MR-CAS и структура ансамбля градиентов Safe AI продемонстрировали превосходную переносимость, даже против Vision Transformers. Ключевые выводы показали, что атаки в латентном пространстве превосходят методы на уровне пикселей, ансамблевые стратегии повышают кросс-модельную устойчивость, а гибридные атаки с использованием CNN-трансформеров являются наиболее эффективными. Несмотря на прогресс, сохраняются проблемы с обобщением атак на гетерогенные модели и сохранением качества восприятия. Задача AADD-2025 подчеркивает срочность разработки адаптивной защиты и гибридных систем обнаружения для противодействия развивающимся враждебным угрозам в медиа, генерируемых ИИ. Для облегчения воспроизводимости и дальнейших исследований полный набор данных доступен для скачивания в репозитории конкурса на GitHub: https://github.com/mfs-iplab/aadd-2025. - Adversarial Attacks on Deepfake Detectors: A Challenge in the Era of AI-Generated Media (AADD-2025)

См. также другие публикации по теме deepfake

Monday, November 17, 2025

Программа IT-конгресса 2025

Опубликована программа международного конгресса Современные проблемы компьютерных и информационных наук

Тестирование безопасности ИИ-агентов

Кибербезопасность охватывает несколько взаимосвязанных областей, что усложняет разработку значимых, релевантных для трудозатрат бенчмарков. Существующие бенчмарки оценивают отдельные навыки, а не комплексную производительность. Мы обнаружили, что предварительная подготовка в области кибербезопасности у LLM не подразумевает навыков атаки и защиты, что выявляет разрыв между знаниями и возможностями. Чтобы устранить это ограничение, мы представляем Cybersecurity AI Benchmark (CAIBench) – модульную мета-бенчмарк-систему, которая позволяет оценивать модели и агентов LLM в областях наступательной и оборонительной кибербезопасности, делая шаг к осмысленной оценке их трудозатрат. CAIBench объединяет пять категорий оценки, охватывающих более 10 000 случаев: CTF в стиле Jeopardy, CTF атаки и защиты, упражнения Cyber ​​Range, бенчмарки знаний и оценки конфиденциальности. Ключевые нововведения включают систематическую одновременную оценку наступательных и оборонительных навыков, задачи кибербезопасности, ориентированные на робототехнику (RCTF2), и оценку производительности с сохранением конфиденциальности (CyberPII-Bench). Оценка современных моделей ИИ выявляет насыщение по метрикам знаний о безопасности (успех 70%), но существенное ухудшение в многошаговых сценариях противодействия (A&D) (успех 20–40%) или, что ещё хуже, в сценариях с роботизированными целями (успех 22%). Сочетание фреймворка и выбора модели LLM значительно влияет на производительность; мы обнаружили, что правильное сопоставление улучшает дисперсию в CTF атаки и защиты до 2,6 раз. Эти результаты демонстрируют выраженный разрыв между концептуальными знаниями и адаптивными возможностями, что подчёркивает необходимость мета-бенчмарка. - Cybersecurity AI Benchmark (CAIBench): A Meta-Benchmark for Evaluating Cybersecurity AI Agents

См. также другие публикации, посвященные агентам

Saturday, November 15, 2025

Трансформеры в рекомендациях

Хороший обзор подходов к построению рекомендательных систем от R&D Yandex - Scaling Recommender Transformers to a Billion Parameters

Агент-вредитель

Компания Anthropic опубликовала подробный отчет Прерывание первой зарегистрированной кампании кибершпионажа, организованной ИИ. Суть в том, что мультиагентная система, которую связывают с китайскими хакерами, атаковала свыше 30 институций по всему миру без тесного участия этих самых хакеров. Интеллектом агента работала LLM Claude.

Эта кампания продемонстрировала беспрецедентную интеграцию и автономность ИИ на протяжении всего жизненного цикла атаки: злоумышленник манипулировал Claude Code для поддержки разведки, обнаружения уязвимостей, эксплуатации, сбора учетных данных, анализа данных и операций по 'эксфильтрации, в значительной степени, автономно. Оператор-человек поручил экземплярам Claude Code работать в группах в качестве автономных организаторов и агентов тестирования на проникновение, при этом злоумышленник мог использовать ИИ для выполнения 80–90% тактических операций самостоятельно с физически невыполнимой частотой запросов.

В ходе расследования было выявлено важное ограничение: Claude часто преувеличивал результаты и иногда фальсифицировал данные во время автономных операций, заявляя, что получил неработающие учетные данные, или выявляя критически важные открытия, которые оказались общедоступной информацией. Эта ИИ-галлюцинация в контексте наступательных угроз безопасности представляла собой проблему для оперативной эффективности злоумышленника, требуя тщательной проверки всех заявленных результатов. Это остается препятствием для полностью автономных кибератак. То есть недостатки LLM (галлюцинации), в данном случае, работали на пользу атакованных.

И далее: "Хотя мы видим только использование Claude Code, это исследование, вероятно, отражает устойчивые модели поведения в различных моделях ИИ и демонстрирует, как злоумышленники адаптируют свои операции для использования самых передовых возможностей ИИ на сегодняшний день. Вместо того, чтобы просто давать советы по методам, злоумышленник манипулировал LLM для выполнения реальных операций по кибервторжению с минимальным контролем со стороны человека".

На самом деле, это явное напоминание о том, что автоматизация атак не оставляет выбора защищающейся стороне. Киберзащита должна быть автоматизирована. Или ее не будет вовсе. Атаки теперь будут происходить "с физически невыполнимой частотой запросов". Соответственно, физически будет невозможно и защититься.

Вот заключение отчета: "Сообщество кибербезопасности должно исходить из того, что произошли фундаментальные изменения: команды безопасности должны экспериментировать с применением ИИ для защиты в таких областях, как автоматизация SOC, обнаружение угроз, оценка уязвимостей и реагирование на инциденты, а также накапливать опыт работы с тем, что работает в их конкретных средах. Кроме того, нам необходимы постоянные инвестиции в меры безопасности на всех платформах ИИ, чтобы предотвратить злонамеренное использование. Методы, которые мы описываем сегодня, будут распространяться по всему ландшафту угроз, что делает обмен информацией об угрозах в отрасли, улучшенные методы обнаружения и более строгие меры безопасности ещё более важными."

Friday, November 14, 2025

Разработка безопасного ПО

Свежий (2025 года) материал по безопасной разработке: Defense Software for a Contested Future: Agility, Assurance, and Incentives (2025)

Обзор текущего состояния и много интересных замечаний. Например: "Управление заместителя министра обороны по закупкам и поддержке должно выпустить руководство, настоятельно рекомендующее программам исследований и разработки программного обеспечения использовать типобезопасные, безопасные для памяти языки программирования (например, Rust, Go, SPARK) или среды (C#, Java), а не небезопасные языки (например, C, C++). Им следует (среди прочего) использовать возможности этих языков для обеспечения разделения компонентов с четкими интерфейсами, чтобы обеспечить более высокую надежность."

Относительно генерации кода с помощью ИИ инструментов, отчет настаивает на ручном code-review для автоматически созданных компонент.

Закрываем тему

Предварительно обученные модели временных рядов позволили создавать системы прогнозирования, ориентированные только на вывод, которые выдают точные прогнозы без специализированного обучения. Однако существующие подходы в основном сосредоточены на одномерном прогнозировании, что ограничивает их применимость в реальных сценариях, где многомерные данные и ковариаты играют решающую роль. Мы представляем Chronos-2, предварительно обученную модель, способную выполнять одномерные, многомерные и ковариатно-информированные задачи прогнозирования без ошибок. Chronos-2 использует механизм группового внимания, который способствует контекстному обучению (ICL) посредством эффективного обмена информацией между несколькими временными рядами внутри группы, которые могут представлять собой наборы связанных рядов, переменных многомерного ряда или целевых объектов и ковариатов в задаче прогнозирования. Эти общие возможности достигаются посредством обучения на синтетических наборах данных, которые накладывают разнообразные многомерные структуры на одномерные ряды. Chronos-2 обеспечивает высочайшую производительность в трёх комплексных бенчмарках: fev-bench, GIFT-Eval и Chronos Benchmark II. В fev-bench, который делает акцент на многомерном и ковариативном прогнозировании, универсальные возможности ICL Chronos-2 приводят к существенному улучшению по сравнению с существующими моделями. В задачах, связанных с ковариатами, он стабильно значительно превосходит базовые показатели. Практические исследования в сфере энергетики и розничной торговли ещё раз подчеркивают его практические преимущества. Возможности контекстного обучения Chronos-2 делают его универсальной моделью прогнозирования, которую можно использовать «как есть» в реальных процессах прогнозирования. - Chronos-2: From Univariate to Universal Forecasting

Thursday, November 13, 2025

Судить ИИ

Из новостной ленты:

ChatGPT обвиняют в подстрекательстве к самоубийствам, сообщает The Wall Street Journal. Против OpenAI поданы семь судебных исков представителями четырёх человек, покончивших жизнь самоубийством, и ещё троих, получивших психологическую травму после взаимодействия с чат-ботом. Семья одного из погибших молодых парней заявляет, что в ходе четырехчасового разговора с ИИ, после которого их сын застрелился, ChatGPT неоднократно восхвалял самоубийство, но лишь однажды упомянул линию помощи.

В России запретили телеграм-боты для изменения голоса. В московский суд поступили иски на сервисы, которые использовались для подделки голосов в телефонных разговорах. Суд признал, что они нарушают законы о связи, противодействии терроризму и экстремистской деятельности, а их информация запрещена к распространению.

Безопасное тестирование

Настоящие стандарты PAS устанавливают требования к эксплуатационной безопасности и вспомогательной системе управления безопасностью для испытаний и испытаний автоматизированных транспортных средств в Великобритании, чтобы продемонстрировать возможность безопасной и надежной эксплуатации автоматизированных транспортных средств в заданной рабочей среде. Они применяются в случаях, когда транспортное средство и окружающая его среда находятся под постоянным контролем водителя или оператора безопасности, находящегося в транспортном средстве, с возможностью немедленного вмешательства в процесс управления транспортным средством. - PAS 1881:2026 Assuring the operational safety of automated vehicle testing and trials – Specification

Wednesday, November 12, 2025

Координатный спуфинг

С ростом числа приложений, использующих услуги определения местоположения (LBS), которые используют наземную и спутниковую инфраструктуру (например, глобальную навигационную спутниковую систему (GNSS) и краудсорсинговые базы данных Wi-Fi, Bluetooth, сотовой связи и IP-адресов) для определения местоположения, обеспечение их целостности и безопасности становится первостепенной задачей. Однако, мы демонстрируем, что эти приложения уязвимы для атак с низкой стоимостью (менее 50 долларов США), включая подмену Wi-Fi в сочетании с подавлением сигналов GNSS, а также более сложную координированную подмену местоположения. Эти атаки манипулируют данными о местоположении для контроля или подрыва функциональности LBS, что приводит к мошенничеству с пользователями или манипулированию услугами. Поэтому мы предлагаем контрмеру для обнаружения и предотвращения таких атак путем использования легкодоступной избыточной информации о местоположении с готовых платформ. Наш метод расширяет структуру автономного мониторинга целостности приёмника (RAIM) путём включения оппортунистической информации, включая данные бортовых датчиков и сигналы наземной инфраструктуры, а также, естественно, ГНСС. Мы теоретически показываем, что объединение разнородных сигналов повышает устойчивость к сложным противникам по нескольким направлениям. Экспериментальные оценки показывают эффективность предлагаемой схемы в повышении точности обнаружения не более чем на 62% по сравнению с базовыми схемами и восстановлении точного позиционирования. - Coordinated Position Falsification Attacks and Countermeasures for Location-Based Services

См. также другие публикации по теме физические атаки

По живому

Интеграция больших языковых моделей (LLM) в приложения здравоохранения открывает многообещающие возможности для медицинской диагностики, рекомендаций по лечению и ухода за пациентами. Однако уязвимость LLM к состязательным атакам представляет собой значительную угрозу, потенциально приводя к неблагоприятным последствиям в деликатных медицинских ситуациях. В данном исследовании изучается уязвимость LLM к двум типам состязательных атак – оперативным инъекциям вредоносных инструкций и тонкой настройке с использованием отравленных образцов – в трёх медицинских задачах: профилактике, диагностике и лечении заболеваний. Используя данные реальных пациентов, мы демонстрируем, что как открытые, так и проприетарные LLM уязвимы для злонамеренных манипуляций в различных задачах. Мы обнаружили, что, хотя интеграция отравленных данных не приводит к заметному снижению общей производительности модели в медицинских тестах, она может привести к заметным изменениям в настроенных весах модели, что указывает на потенциальный путь обнаружения и противодействия атакам на модели. Данное исследование подчеркивает острую необходимость в надежных мерах безопасности и разработке защитных механизмов для защиты LLM в медицинских приложениях, чтобы гарантировать их безопасное и эффективное использование в учреждениях здравоохранения. - Adversarial prompt and fine-tuning attacks threaten medical large language models

См. также другие публикации, посвященные LLM

Tuesday, November 11, 2025

Публикации по теме Искусственный интеллект в кибербезопасности 11.11.2025

Вопросы безопасности систем ИИ рассматриваются в двух магистерских программах факультета ВМК МГУ имени М.В. Ломоносова: Искусственный интеллект в кибербезопасности и Кибербезопасность. Ниже приведен список публикаций, подготовленных в процессе реализации этих программ по состоянию на 28.09.2025

Ильюшин Е. А., Намиот Д. Е. An approach to the automatic enhancement of the robustness of ml models to external influences on the example of the problem of biometric speaker identification by voice // International Journal of Open Information Technologies. — 2021. — Vol. 9, no. 6. — P. 11–19.

Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Текущие академические и индустриальные проекты, посвященные устойчивому машинному обучению // International Journal of Open Information Technologies. — 2021. — Т. 9, № 10. — С. 35–46.

Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Основания для работ по устойчивому машинному обучению // International Journal of Open Information Technologies. — 2021. — Т. 9, № 11. — С. 68–74.

Намиот Д. Е., Ильшин Е. А., Чижов И. В. Военные применения машинного обучения // International Journal of Open Information Technologies. — 2022. — Т. 10, № 1. — С. 69–76.

Ильюшин Е. А., Намиот Д. Е., Чижов И. В. Атаки на системы машинного обучения – общие проблемы и методы // International Journal of Open Information Technologies. — 2022. — Т. 10, № 3. — С. 17–22.

Namiot D., Ilyushin E. On monitoring of machine learning models // Distributed Computer and Communication Networks: Control, Computation, Communications (DCCN-2022) : материалы XXV международной научной конференции: Москва, 26–30 сентября 2022 года / под общ. ред. В. М. Вишневского и К. Е. Самуйлова. — РУДН Москва: 2022. — P. 150–157.

Namiot D., Ilyushin E., Chizhov I. On a formal verification of machine learning systems // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 5. — P. 30–34.

Huayu L., Namiot D. A survey of adversarial attacks and defenses for image data on deep learning // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 5. — P. 9–16.

Намиот Д., Ильюшин Е., Пилипенко О. Доверенные платформы искусственного интеллекта // International Journal of Open Information Technologies. — 2022. — Т. 10, № 7. — С. 119–127.

Намиот Д., Ильюшин Е. Порождающие модели в машинном обучении // International Journal of Open Information Technologies. — 2022. — Т. 10, № 7. — С. 101–118.

Биджиев Т. М., Намиот Д. Е. Исследование существующих подходов к встраиванию вредоносного программного обеспечения в искусственные нейронные сети // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 21–31.

Намиот Д. Е., Ильюшин Е. А. Об устойчивости и безопасности систем искусственного интеллекта // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 126–134.

Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Искусственный интеллект и кибербезопасность // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 135–147.

Stroeva E., Tonkikh A. Methods for formal verification of artificial neural networks: A review of existing approaches // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 10. — P. 3.

Намиот Д., Ильюшин Е. Мониторинг сдвига данных в моделях машинного обучения // International Journal of Open Information Technologies. — 2022. — Т. 10, № 12. — С. 84–93.

Костюмов, Василий Владимирович. "Обзор и систематизация атак уклонением на модели компьютерного зрения." International Journal of Open Information Technologies 10.10 (2022): 11-20.

Намиот Д. Е., Ильюшин Е. А. О причинах неудач проектов машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 1. — С. 60–69.

Намиот Д. Е. Введение в атаки отравлением на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 3. — С. 58–68.

Namiot D. E., Ilyushin E., Chizhov I. On the practical generation of counterfactual examples // Труды Института системного анализа Российской академии наук. — 2023. — Vol. 73, no. 1. — P. 73–81.

Junzhe S., Namiot D. E. A survey of model inversion attacks and countermeasures // Труды Института системного анализа Российской академии наук. — 2023. — Vol. 73, no. 1. — P. 82–93.

Junzhe S., Namiot D. A survey of the implementations of model inversion attacks // Communications in Computer and Information Science. — 2023. — Vol. 1748. — P. 3–16.

Намиот Д. Е. Схемы атак на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 5. — С. 68–86.

On the evasion attack detector / L. Huayui, V. Kostyumov, O. Pilipenko, D. Namiot // DCCN 2023. Материалы конференции. — ИПУ РАН Москва: 2023. — P. 183–188.

Junzhe S., Namiot D. On the machine learning models inversion attack detector // DCCN 2023. Материалы конференции. — ИПУ РАН Москва: 2023. — P. 194.

Lozinskii I., Kostyumov V., Stroeva E. Extraction of trigger and mask from poisoned data using modified activation clustering and neural cleanse methods // International Journal of Open Information Technologies. — 2023. — Vol. 11, no. 7. — P. 1

Чехонина, Екатерина Андреевна, and Василий Владимирович Костюмов. "ОБЗОР СОСТЯЗАТЕЛЬНЫХ АТАК И МЕТОДОВ ЗАЩИТЫ ДЛЯ ДЕТЕКТОРОВ ОБЪЕКТОВ." International Journal of Open Information Technologies 11.7 (2023): 11-20.

Пришлецов Д. Е., Пришлецов С. Е., Намиот Д. Е. Камуфляж как состязательные атаки на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 9. — С. 41–49.

Намиот Д. Е., Зубарева Е. В. О работе ai red team // International Journal of Open Information Technologies. — 2023. — Т. 11, № 10. — С. 130–139.

Намиот Д. Е., Ильюшин Е. А. Доверенные платформы искусственного интеллекта: сертификация и аудит // International Journal of Open Information Technologies. — 2024. — Т. 12, № 1. — С. 43–60.

Киржинов Д. А., Ильюшин Е. А. Сравнительный анализ алгоритмов атак и защиты на графовые архитектуры ИНС // International Journal of Open Information Technologies. — 2024. — Т. 12, № 2.

Намиот Д. Е., Романов В. Ю. Об улучшении робастности моделей машинного обучения // International Journal of Open Information Technologies. — 2024. — Т. 12, № 3. — С. 88–98.

Junzhe S., Namiot D. On real-time model inversion attacks detection // Lecture Notes in Computer Science. — 2024. — Vol. 14123. — P. 56–67.

Мударова Р. М., Намиот Д. Е. Противодействие атакам типа инъекция подсказок на большие языковые модели // International Journal of Open Information Technologies. — 2024. — Т. 12, № 5. — С. 39–48.

Намиот Д. Е., Ильюшин Е. А. Искусственный интеллект в кибербезопасности: поиск вредоносного программного обеспечения // International Journal of Open Information Technologies. — 2024. — Т. 12, № 6. — С. 143–149.

Lebed, S. V., et al. "Large Language Models in Cyberattacks." Doklady Mathematics. Vol. 110. No. Suppl 2. Moscow: Pleiades Publishing, 2024.

Селевенко Р. М., Строева Е. Н. Исследование и разработка алгоритма формальной верификации и метрики оценки качества на основе методов понижения размерности ИНС // INJOIT. — 2024. — Т. 12, № 6. — С. 2.

Биджиев Т. М., Намиот Д. Е. Атаки на модели машинного обучения, основанные на фреймворке pytorch // Автоматика и телемеханика. — 2024. — № 3. — С. 38–50.

Намиот Д. Е., Ильюшин Е. А. О сертификации систем искусственного интеллекта // Физика элементарных частиц и атомного ядра. — 2024. — Т. 55, № 3. — С. 530–536.

Намиот Д. Е., Куприяновский В. П., Пичугов А. А. Состязательные атаки для автономных транспортных средств // International Journal of Open Information Technologies. — 2024. — Т. 12, № 7. — С. 139–149.

Намиот Д. Е. О кибератаках с помощью систем Искусственного интеллекта // International Journal of Open Information Technologies. — 2024. — Т. 12, № 9. — С. 132–141.

Воробьев, Егор Александрович. "Анализ состязательных атак на системы сегментации изображений." International Journal of Open Information Technologies 12.10 (2024): 1-25.

Намиот Д. Е., Ильюшин Е. А. О киберрисках генеративного Искусственного Интеллекта // International Journal of Open Information Technologies. — 2024. — Т. 12, № 10. — С. 109–119.

Порывай, Максим Викторович. "Сравнительное исследование методов естественной аугментации изображений." International Journal of Open Information Technologies 12.10 (2024): 26-33.

Герасименко, Денис Валерьевич, and Дмитрий Евгеньевич Намиот. "Извлечение тренировочных данных: Риски и решения в контексте безопасности LLM." International Journal of Open Information Technologies 12.11 (2024): 9-19.

Костиков, Егор Вячеславович. "Методы анализа логов Sysmon для обнаружения киберугроз." International Journal of Open Information Technologies 12.11 (2024): 25-34.

Намиот Д. Е., Ильюшин Е. А. Архитектура LLM агентов //International Journal of Open Information Technologies. – 2025. – Т. 13. – №. 1. – С. 67-74.

Воробьев Е. А., Намиот Д. Е. Состязательное тестирование моделей сегментации изображений // Программная инженерия. — 2025. — Т. 16, № 4. — С. 190–198.

Намиот, Д. Е., and Е. А. Ильюшин. "Об оценке доверия к системам Искусственного интеллекта." International Journal of Open Information Technologies 13.3 (2025): 75-90.

Хамзаева, М. А., and О. Р. Лапонина. "Повышение устойчивости к состязательным атакам моделей машинного обучения для обнаружения межсайтового выполнения сценариев." International Journal of Open Information Technologies 13.6 (2025): 25-33.

Бербер, Д. В., and О. Р. Лапонина. "Разработка подходов к увеличению устойчивости моделей машинного обучения для обнаружения распределенных атак отказа обслуживания." International Journal of Open Information Technologies 13.6 (2025): 16-24.

Егорова, Е. С., and О. Р. Лапонина. "Состязательное тестирование моделей машинного обучения, предназначенных для обнаружения SQL-инъекций." International Journal of Open Information Technologies 13.6 (2025): 34-41.

Лапонина, О. Р., and Р. Н. Костин. "Разработка программного обеспечения моделирования угроз для систем на базе LLM-агентов." International Journal of Open Information Technologies 13.6 (2025): 132-146.

Намиот, Д. Е. "Что LLM знает о кибербезопасности." International Journal of Open Information Technologies 13.7 (2025): 37-46.

Намиот, Д. Е. "Искусственный Интеллект в. Кибербезопасности. Хроника. Выпуск 1." International Journal of Open Information Technologies 13.9 (2025): 34-42.

Намиот, Д. Е., and Е. А. Ильюшин. "О кибербезопасности ИИ-агентов." International Journal of Open Information Technologies 13.9 (2025): 13-24.

Егоров, М. Э., et al. "Объяснения моделей машинного обучения и состязательные атаки." International Journal of Open Information Technologies 13.9 (2025): 50-59.

Намиот, Д. Е., and Е. А. Ильюшин. "Уязвимости экосистемы MCP." International Journal of Open Information Technologies 13.10 (2025): 74-82.

Намиот, Д. Е. "Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 2." International Journal of Open Information Technologies 13.10 (2025): 58-67.

Poryvai, Maxim, and Dmitry Namiot. "On Natural Image Augmentation to Increase Robustness of Machine Learning Models." 2025 International Russian Automation Conference (RusAutoCon). IEEE, 2025.

Namiot D., Zubareva E. On open datasets for llm adversarial testing // Communications in Computer and Information Science. — 2025. — Vol. 2641. — P. 137–148. 

Намиот, Д. Е. "Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 3." International Journal of Open Information Technologies 13.11 (2025): 169-179.

Защита от атак патчами

Беспилотные летательные аппараты (БПЛА), оснащенные алгоритмами обнаружения объектов, все чаще используются для автоматизации задач, традиционно требующих ручного осмотра. Однако системы обнаружения, основанные на глубоком обучении, остаются уязвимыми к атакам со стороны злоумышленников, основанным на патчах, что значительно снижает точность обнаружения и создает проблемы безопасности. Для решения этой проблемы мы предлагаем новую двухэтапную структуру защиты от атак со стороны злоумышленников. Первый этап фокусируется на исправлении патчей. Мы используем модель «Сегментировать все» (SAM) для точного генерирования масок злоумышленников, а затем модель диффузии для реконструкции поврежденных областей изображения. Для обеспечения производительности в реальном времени и поддержки масштабируемого развертывания процесс исправления патчей переносится на периферийные серверы и в облако. На втором этапе мы повышаем надежность обнаружения с помощью модуля пространственно-частотного улучшенного выравнивания (SFEA), разработанного для уменьшения искажений, вносимых процессом восстановления изображения. SFEA объединяет сеть долговременной краткосрочной памяти (LSTM) на основе машинного зрения с миксером с комбинированной сверточной Фурье (FFCM) для извлечения и выравнивания пространственных и частотных признаков. Модуль коммутации двух потоков динамически выравнивает эти признаки в обеих областях, а модуль свёрточного блока внимания (CBAM) дополнительно повышает репрезентативную надёжность. Экспериментальные результаты как на эталонных, так и на реальных наборах данных показывают, что наша структура превосходит существующие методы защиты в борьбе с атаками с использованием патчей. - Defending UAVs Against Adversarial Attacks Using Diffusion Model

Тема важная - защита от атак на системы распознавния объектов. Для систем с ограниченным ресурсами - это большая проблема. Важно отметить, что в данной работе авторы используют периферические вычисления. Не для всех БПЛА это доступно.

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Monday, November 10, 2025

Состязательное тестирование для MCP

Замечательные возможности больших языковых моделей (LLM) привели к широкому применению агентов на основе LLM в различных областях. Для стандартизации взаимодействия между агентами на основе LLM и их окружением инструменты протокола контекста модели (MCP) стали фактическим стандартом и теперь широко интегрированы в эти агенты. Однако внедрение инструментов MCP создает риск атак с отравлением инструментов, которые могут манипулировать поведением агентов на основе LLM. Хотя предыдущие исследования выявили такие уязвимости, их подходы к состязательному тестированию, в значительной степени, оставались на стадии проверки концепции, оставляя открытым вопрос об автоматическом и систематическом Red team-инге агентов на основе LLM в рамках парадигмы отравления инструментов MCP. Чтобы восполнить этот пробел, мы предлагаем AutoMalTool, автоматизированную структуру AI Red Tem для агентов на основе LLM, генерирующую вредоносные инструменты MCP. Наш обширный анализ показывает, что AutoMalTool эффективно генерирует вредоносные инструменты MCP, способные манипулировать поведением основных агентов на основе LLM, обходя при этом существующие механизмы обнаружения, тем самым выявляя новые риски безопасности в этих агентах. - Automatic Red Teaming LLM-based Agents with Model Context Protocol Tools

См. также другие публикации, посвященные агентам

Инъекции подсказок для VLM

Визуальные языковые модели обладают медицинскими знаниями и могут использоваться в здравоохранении различными способами, в том числе в качестве интерпретаторов изображений, виртуальных регистраторов и общих систем поддержки принятия решений. Однако здесь мы демонстрируем, что текущие VLM, применяемые для медицинских задач, имеют фундаментальный недостаток безопасности: они могут быть скомпрометированы атаками с инъекцией подсказок. Такие атаки могут использоваться для вывода вредоносной информации, просто взаимодействуя с VLM, без какого-либо доступа к ее параметрам. Мы проводим количественное исследование, чтобы оценить уязвимости четырех современных VLM: Claude-3 Opus, Claude-3.5 Sonnet, Reka Core и GPT-4o. Используя набор из N = 594 атак, мы показываем, что все эти модели подвержены этим атакам. В частности, мы показываем, что внедрение субвизуальных подсказок в разнообразные данные медицинской визуализации может привести к тому, что модель будет выдавать вредоносные выходные данные, и что эти подсказки неочевидны для наблюдателей-людей. Таким образом, наше исследование демонстрирует ключевую уязвимость медицинских VLM, которую следует устранить перед их широким клиническим внедрением. - Prompt injection attacks on vision language models in oncology

Sunday, November 09, 2025

Нет веры ничему

Результаты бенчмаркинга всё больше определяют доверие, выбор и развертывание моделей LLM, однако эти оценки остаются уязвимыми к семантически эквивалентным состязательным возмущениям. Предыдущие исследования устойчивости к состязательным атакам в обработке естественного языка (NLP) делали акцент на текстовых атаках, которые одинаково влияют на многие модели, оставляя открытым вопрос о том, возможно ли выборочно ухудшить или улучшить производительность, минимально влияя на другие модели. Мы формализуем эту проблему и изучаем выборочные состязательные атаки на MMLU — широко используемый бенчмарк, предназначенный для измерения широких общих знаний языковой модели и способности к рассуждению по различным предметам. Используя канонические атаки, интегрированные в фреймворк TextAttack, мы вводим протокол для оценки селективности, разрабатываем пользовательское ограничение для повышения селективности атак и предлагаем конвейер суррогат-LLM, который генерирует выборочные возмущения. Эмпирически мы обнаруживаем, что существуют выборочные состязательные атаки, которые могут существенно изменить относительные рейтинги, ставя под сомнение справедливость, воспроизводимость и прозрачность оценки на основе таблицы лидеров. Наши результаты обосновывают необходимость использования отчётности с учётом возмущений и диагностики надёжности для оценки LLM и демонстрируют, что даже незначительные правки могут изменить сравнительные суждения. - Selective Adversarial Attacks on LLM Benchmarks

См. также другие публикации, посвященные LLM

Проблемы безопасности ML

Системы машинного обучения (МО) стремительно растут в размерах, приобретают новые возможности и всё чаще применяются в условиях высокой ответственности. Как и в случае с другими мощными технологиями, безопасность МО должна быть ведущим исследовательским приоритетом. В ответ на возникающие проблемы безопасности МО, например, вызванные недавними крупномасштабными моделями, мы предлагаем новую дорожную карту безопасности МО и уточняем технические проблемы, которые необходимо решить в этой области. Мы представляем четыре проблемы, готовые для исследования: противостояние опасностям («Робастность»), выявление опасностей («Мониторинг»), управление системами МО («Согласование») и снижение опасностей при развертывании («Системная безопасность»). - Unsolved Problems in ML Safety

Saturday, November 08, 2025

Универсальный камуфляж для VLM

Моделирование визуального языка для автономного вождения (VLM-AD) становится многообещающим направлением исследований, обеспечивающим существенные улучшения в возможностях мультимодального мышления. Несмотря на свои развитые возможности мышления, VLM-AD остается уязвимой для серьезных угроз безопасности со стороны враждебных атак, которые включают в себя вводящие в заблуждение решения моделей посредством тщательно продуманных возмущений. Существующие атаки имеют очевидные проблемы:
1) Физические состязательные атаки, в первую очередь, нацелены на модули зрения. Их трудно напрямую перенести на системы VLM-AD, поскольку они обычно атакуют низкоуровневые компоненты восприятия.
2) Состязательные атаки на VLM-AD в основном сосредоточены на цифровом уровне. Они страдают от значительных ограничений при развертывании в реальном мире, включая отсутствие физической реализуемости и чувствительность к изменчивости окружающей среды.
Для решения этих проблем мы предлагаем первую платформу универсальной камуфляжной атаки (UCA) для VLM-AD. В отличие от предыдущих методов, ориентированных на оптимизацию логит-слоя, UCA работает в пространстве признаков для генерации физически реализуемых камуфляжных текстур, демонстрирующих сильную генерализацию для различных пользовательских команд и архитектур моделей. В связи с наблюдаемой уязвимостью слоёв кодировщика и проекции в VLM-AD, UCA вводит потерю дивергенции признаков (FDL), которая максимизирует расхождение репрезентативности между чистыми и состязательными изображениями. Кроме того, UCA использует многомасштабную стратегию обучения и корректирует коэффициент дискретизации для повышения своей адаптивности к изменениям масштаба и разнообразию точек обзора в реальных сценариях, тем самым повышая стабильность обучения. Многочисленные эксперименты показывают, что UCA может вызывать неверные команды управления в различных моделях VLM-AD и сценариях управления, значительно превосходя существующие современные методы атак (улучшение на 30% по метрикам 3-P). Кроме того, UCA демонстрирует высокую устойчивость к атакам при различных точках обзора и в динамических условиях, что указывает на высокий потенциал для практического применения. - Universal Camouflage Attack on Vision-Language Models for Autonomous Driving

P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Цифровые двойники в кибербезопасности

Благодаря интеграции технологических достижений во взаимосвязанные системы, цифровые двойники (ЦД) играют всё более важную роль в оптимизации операций, улучшении процесса принятия решений и стимулировании инноваций в различных отраслях, таких как производство, здравоохранение, энергетика и транспорт. Они обладают огромным потенциалом для решения одной из самых быстрорастущих проблем в современном технологическом ландшафте — кибербезопасности. В данной статье представлен комплексный анализ 300 публикаций с использованием смешанного подхода, включающего моделирование BERTopic и тематические исследования, для изучения динамической взаимосвязи между ЦД и кибербезопасностью. Было выявлено пять тем: ЦД в средах Интернета вещей, критическая инфраструктура, энергетические системы, ЦД с ИИ и секторальная эффективность, — которые отражают, как возможности кибербезопасности внедряются в различных отраслях для повышения производительности и устойчивости. Наши результаты включают 13 тематических исследований, иллюстрирующих реальное влияние ЦД на улучшение обнаружения угроз в реальном времени, анализа аномалий и адаптивного реагирования. Примечательно, что, хотя применение цифровых технологий в интеллектуальном производстве и энергетических системах значительно повышает эксплуатационную эффективность и устойчивость, сохраняются проблемы в области интеграции данных, масштабируемости и стандартизации. Основываясь на этих выводах, мы предлагаем перспективную структуру кибербезопасности, призванную объединить междоменные проблемы и решения, описанные в литературе. В отличие от существующих исследований, которые остаются отраслевыми, наша структура направлена на консолидацию общих механизмов кибербезопасности, таких как обнаружение аномалий, интеграция ИИ и управление данными, в целостную, применимую ко всем экосистемам цифровых технологий структуру. Этот вклад не только синтезирует разрозненные исследования, но и развивает теоретическое понимание, удовлетворяя насущную потребность в масштабируемых, совместимых и безопасных инфраструктурах цифровых технологий. Более того, наш анализ сопоставляет эти достижения с Целью ООН в области устойчивого развития 9 (ЦУР 9) и ее подцелями: ЦУР 9.1, ЦУР 9.4 и ЦУР 9.5. В этом исследовании подчеркиваются критические пробелы в управлении интеллектуальными данными, стандартизации и реализации кибербезопасности в различных секторах, а также обосновывается необходимость единой структуры для руководства будущими исследованиями и практикой в области безопасной разработки цифровых технологий. - Bridging cybersecurity with digital twin technology: a thematic analysis

См. также другие публикации, посвященные digital twins

Friday, November 07, 2025

Открытая наука, том 13, номер 11

Очередной номер журнала INJOIT появился на сайте Киберленинка.

Это том 13, номер 11 за 2025 год. Новое пополнение для списка работ по теме Искусственный интеллект в кибербезопасности

/via Лаборатория ОИТ

Атаки на NIDS

По мере роста числа кибератак сетевые системы обнаружения вторжений (NIDS) становятся всё более важными для обнаружения и идентификации вредоносного трафика, а методы машинного обучения набирают популярность для классификации сетевого трафика. Однако, особенно, модели глубокого обучения уязвимы к вредоносным примерам — тонким возмущениям входных данных, которые приводят к неправильной классификации. В то время как враждебные примеры для изображений должны быть незаметными, возмущения сетевых данных сталкиваются со сложными ограничениями, специфичными для предметной области. Мы исследуем уязвимость NIDS к вредоносным атакам и сравниваем шесть архитектур машинного обучения и три метода атаки «чёрный ящик» на четырёх наборах данных обнаружения сетевых вторжений (NID). Мы определяем модель угроз, которая обеспечивает минимальные знания и ограниченный доступ к злоумышленнику, и используем строго ограниченное подмножество признаков для применения возмущений. Наши результаты показывают успешность атак от 0,1 до 36,9%, с большими различиями между архитектурами, зависящими от набора данных. На втором этапе мы применяем три метода для минимизации размера возмущений и обнаруживаем, что точечная атака особенно хорошо подходит для данных NID. Наконец, мы анализируем возмущенные признаки и находим отдельные признаки, которые значительно влияют на классификацию. - Now You See Me / Now You Don’t: Constrained Adversarial Attacks in Network Intrusion Detection Across Datasets and Machine Learning Models

См. также следующую публикацию про атаки с ограничениями

P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Физические атаки в инфракрасном свете

Ряд атак основан на использовании источников инфракрасного света или теплопоглощающего материала, чтобы незаметно обмануть системы, заставляя их неверно интерпретировать визуальный ввод в различных приложениях распознавания изображений. Однако почти все существующие подходы могут осуществлять только нецелевые атаки и требуют значительной оптимизации из-за специфичных для конкретного варианта использования ограничений, таких как местоположение и форма. В этой статье мы предлагаем новую, скрытую и экономически эффективную атаку для генерации как целевых, так и нецелевых враждебных инфракрасных возмущений. Проецируя возмущения с прозрачной пленки на целевой объект с помощью стандартного инфракрасного фонарика, наш подход является первым, надежно осуществляющим безлазерные целевые атаки в инфракрасном диапазоне. Обширные эксперименты с дорожными знаками в цифровой и физической областях показывают, что наш подход надежен и обеспечивает более высокие показатели успешности атак в различных сценариях атак в условиях яркого освещения, на разных расстояниях и под разными углами по сравнению с предыдущими работами. Не менее важно и то, что наша атака очень экономична, требуя менее 50 долларов США и нескольких десятков секунд для развертывания. Наконец, мы предлагаем новый метод обнаружения, основанный на сегментации, который предотвращает нашу атаку с F1-оценкой до 99%. - Targeted Physical Evasion Attacks in the Near-Infrared Domain

См. также другие публикации по теме физические атаки

Thursday, November 06, 2025

Оценка подходов к интерпретации машинного обучения

Для быстрой оценки подходов к интерпретации машинного обучения можно использовать следующие 5 вопросов:

  • Точечная или глобальная интерпретация?
  • Интерпретируется ли по замыслу или постфактум?
  • Является ли результат объяснения моделью?
  • Для каких моделей и данных?
  • Каков результат?

Хороший обзор. От автора лучшей книги по интерпретации ML

RAG vs Context engineering

А помните, был такой RAG? "Да вы что, не знаете, что в однобортном сейчас уже никто не воюет?". Теперь - context engineering. По последнему пункту есть хороший материал от Anthropic - Effective context engineering for AI agents

Это все агенты ...

Wednesday, November 05, 2025

Пост-тренировка LLM

Большие языковые модели (LLM) преобразили ландшафт обработки естественного языка и породили разнообразные приложения. Предварительное обучение на обширных данных веб-масштаба заложило основу для этих моделей, однако исследовательское сообщество в настоящее время все чаще смещает фокус на методы постобучения для достижения дальнейших прорывов. В то время как предварительная подготовка обеспечивает широкую лингвистическую базу, методы постобучения позволяют LLM совершенствовать свои знания, улучшать рассуждения, повышать фактическую точность и более эффективно соответствовать намерениям пользователя и этическим соображениям. Тонкая настройка, обучение с подкреплением и масштабирование времени тестирования стали критически важными стратегиями для оптимизации производительности LLM, обеспечения надежности и повышения адаптивности к различным реальным задачам. Этот обзор представляет собой систематическое исследование методологий постобучения, анализ их роли в совершенствовании LLM за пределами предобучения, решении ключевых проблем, таких как катастрофическое забывание, хакерство с вознаграждением и компромиссы во времени вывода. Мы отмечаем новые направления в области согласования моделей, масштабируемой адаптации и рассуждений во время вывода, а также намечаем будущие направления исследований. Мы также предоставляем публичный репозиторий для постоянного отслеживания достижений в этой быстро развивающейся области: https://github.com/mbzuai-oryx/Awesome-LLM-Post-training. - LLM Post-Training: A Deep Dive into Reasoning Large Language Models

Вот еще хороший материал по теме пост-тренировки LLM - Post-training 101

Оценка качества данных

Рост автоматизации в различных отраслях приводит к тому, что машины всё чаще выполняют функции, которые делают вмешательство человека ненужным. Искусственный интеллект (ИИ) раскрывает способность машины достигать более высокого уровня автономности, выполняя задачи рассуждения и планирования на основе воспринимаемого ею окружения. Поскольку ИИ всё чаще отвечает за критически важные для безопасности функции, производителям, регулирующим органам и органам по сертификации крайне важно обеспечить безопасное выполнение этих функций. Методы, основанные на сценариях, стали эффективным решением для обучения и тестирования модели ИИ автономных систем. Они позволяют системе подвергаться различным условиям эксплуатации, с которыми она может столкнуться после развертывания в реальном мире. Однако это поднимает вопрос о том, являются ли условия эксплуатации, рассматриваемые для обучения и тестирования модели ИИ, действительно достаточными. Проект OASISS (ODD-based AI Safety In Autonomous Systems) направлен на количественную оценку адекватности данных обучения и тестирования модели ИИ по отношению к её целевой области применения. Структура OASISS выявляет пробелы, которые широко распространены в современных системах обучения и тестирования на основе сценариев, и предоставляет механизм оценки, основанный на свойствах безопасности, связанных с набором данных, описанных в ISO PAS 8800. - Introducing OASISS: ODD-based AI Safety In autonomouS Systems