Страницы

Saturday, January 31, 2026

Голая правда

Изображения обнаженных людей вызывают беспокойство у регулирующих органов

Правительства по всему миру забили тревогу после того, как чат-бот Grok от xAI сгенерировал десятки тысяч изображений сексуализированных девушек и женщин без их согласия.

Что произошло: Волна пользователей социальной сети X (бывший Twitter) подтолкнула Grok к созданию изображений публичных деятелей и частных лиц в бикини или нижнем белье, в провокационных позах и/или с измененными физическими чертами. Несколько стран отреагировали, запросив внутренние данные, введя новые правила и пригрозив приостановить работу X и Grok, если компания не устранит возможность генерации таких изображений. Первоначально X отреагировала, ограничив доступ к функциям редактирования изображений только для платных пользователей. В конечном итоге она заблокировала все измененные изображения, на которых изображены «реальные люди в откровенной одежде», по всему миру и генерировала изображения подобного рода в юрисдикциях, где это незаконно.

Как это работает: По данным одного из анализов, опубликованных Bloomberg, в конце декабря за 24 часа генератор изображений Aurora от xAI, работающий в паре с Grok, создавал до 6700 изображений сексуального характера в час. Grok обычно отказывается создавать изображения обнаженных тел, но выполняет запросы на демонстрацию людей на фотографиях в откровенной одежде, сообщила The Washington Post. На это обратили внимание несколько национальных правительств.

Бразилия: Депутат Эрика Хилтон призвала прокуратуру и орган по защите данных Бразилии провести расследование в отношении X и приостановить работу Grok и других функций ИИ на X по всей стране.
Европейский союз: Министр СМИ Германии Вофрам Веймар обвинил Grok в нарушении Закона ЕС о цифровых услугах, который запрещает изображения сексуального характера, созданные без согласия, и изображения сексуального насилия над детьми, как это определено государствами-членами.
Франция: Министры правительства осудили «явно незаконный контент», созданный Grok, в то время как официальные лица расширили масштабы предыдущего расследования в отношении X, включив в него дипфейки.
Индия: Министерство электроники и информационных технологий потребовало от X удалить «незаконный контент» и наказать «нарушителей». Кроме того, оно обязало компанию провести проверку технологии и управления Grok, устранить любые недостатки и представить отчет правительству.
Индонезия: Правительство заблокировало доступ к Grok в стране.
Малайзия: Малайзия также заблокировала доступ к Grok после расследования в отношении X, занимавшейся созданием «непристойных, крайне оскорбительных или иным образом вредных» изображений.
Польша: Председатель парламента Влодзимеж Чарзасты сослался на X, чтобы обосновать необходимость усиления правовой защиты несовершеннолетних в социальных сетях. Великобритания: Министерство внутренних дел Великобритании, отвечающее за правоохранительную деятельность, заявило, что запретит инструменты для «обнажения». Регулятор онлайн-платформ начал расследование того, нарушала ли X действующие законы.
Соединенные Штаты: Сенаторы Рон Уайден (Орегон), Эд Марки (Массачусетс) и Бен Рэй Лухан (Нью-Мексико), все от Демократической партии, направили открытые письма генеральным директорам Apple и Google с просьбой удалить приложение X из их магазинов приложений, утверждая, что создание X изображений сексуального характера без согласия нарушает их условия предоставления услуг. Ответ X: В сообщении в ленте X, касающемся вопросов безопасности, говорится, что компания удалит все публикации, содержащие изображения, которые изображают (i) обнаженность без согласия субъекта и (ii) сексуальное насилие над детьми. Аккаунт Grok X больше не позволит пользователям, платным или бесплатным, в любой юрисдикции, изменять изображения реальных людей, чтобы изображать их в откровенной одежде. Кроме того, Grok запретит пользователям создавать изображения реальных людей в бикини или другой откровенной одежде, если такие изображения являются незаконными.

За кулисами новостей: Правительства пытаются ограничить использование генераторов изображений для удовлетворения мужского желания видеть фотографии обнаженных женщин примерно с 2019 года, когда впервые появилось приложение для этой цели.

В 2019 и 2020 годах штаты Калифорния и Вирджиния в США запретили дипфейки, изображающие «интимные части тела» человека или сексуальную активность с его согласия. В 2023 году Китай принял закон, требующий строгой маркировки и согласия на изменение биометрических данных, включая выражение лица, голос и лицо, а Великобритания сделала распространение интимных дипфейков приоритетным правонарушением. В 2025 году Южная Корея криминализировала хранение и просмотр порнографии с использованием дипфейков, а Закон об искусственном интеллекте Европейского союза потребовал прозрачности для синтетического контента. В США закон «Take It Down» 2025 года криминализировал публикацию несанкционированных «интимных» — обычно подразумеваемых как обнаженные — изображений, созданных с помощью ИИ.

Почему это важно: Хотя другие генераторы изображений могут использоваться аналогичным образом, тесная связь между X и Grok (обе компании принадлежат Илону Маску) добавляет новое измерение в регулирование дипфейков. Ранее регулирующие органы освобождали социальные сети от ответственности за незаконный контент, размещаемый их пользователями. Тот факт, что Grok, который помогал в создании изображений, публиковал свои результаты непосредственно на X, ставит саму социальную сеть в центр внимания. Хотя правовой статус изображений «обнаженной» женщины (в отличие от обнаженных тел), созданных без согласия, еще не определен, вропейская комиссия может наложить штраф в размере 6 процентов от годового дохода X — это предупреждение для компаний, занимающихся искусственным интеллектом, чьи генераторы изображений могут создавать аналогичные результаты.

Мы считаем: цифровое раздевание человека без его согласия — это отвратительно. Никто не должен подвергаться унижению и насилию, будучи изображенным таким образом. Помимо Grok, для этой цели могут использоваться конкурирующие генераторы изображений от Google, OpenAI и других, а также Photoshop, хотя это требует больших усилий со стороны пользователя. Мы поддерживаем правила, запрещающие использование инструментов ИИ или не-ИИ для создания изображений сексуального характера с участием идентифицируемых людей без их согласия.

/via deeplearning.ai

Friday, January 30, 2026

Радиочастотные атаки

Системы на основе радиочастот (РЧ) все чаще используются для обнаружения дронов путем анализа их РЧ-сигналов и преобразования их в спектрограммы, которые обрабатываются моделями обнаружения объектов. Существующие РЧ-атаки на модели, основанные на изображениях, изменяют цифровые характеристики, что затрудняет внедрение беспроводной (OTA) радиосвязи из-за сложности преобразования цифровых возмущений в передаваемые сигналы, которые могут вызывать ошибки синхронизации и помехи, а также сталкиваться с аппаратными ограничениями. Мы представляем первую физическую атаку на РЧ-детекторы дронов на основе изображений, оптимизируя классоспецифичные универсальные комплексные возмущения основной полосы (I/Q), передаваемые вместе с легитимными коммуникациями. Мы оценили атаку, используя РЧ-записи и эксперименты OTA с четырьмя типами дронов. Наши результаты показывают, что умеренные структурированные возмущения I/Q совместимы со стандартными РЧ-цепями и надежно снижают обнаружение целевых дронов, сохраняя при этом обнаружение легитимных дронов. - Real-World Adversarial Attacks on RF-Based Drone Detectors

См. также другие публикации по теме физические атаки

Вайб-хакеры

Неограниченные большие языковые модели (LLM), такие как WormGPT 4 и KawaiiGPT, улучшают свои возможности по генерации вредоносного кода, предоставляя функциональные скрипты для шифраторов программ-вымогателей и горизонтального перемещения. Исследователи из Palo Alto Networks Unit42 экспериментировали с двумя LLM, которые всё чаще используются киберпреступниками по платным подпискам или бесплатным локальным экземплярам.

Модель WormGPT первоначально появилась в 2023 году, но, как сообщается, проект был прекращен в том же году. WormGPT 4 — это возрождение бренда, появившееся в сентябре. Оно доступно за 50 долларов в месяц или за 220 долларов за пожизненный доступ и работает как нецензурированный вариант ChatGPT, специально обученный для операций киберпреступности.

Бесплатной альтернативой, созданной сообществом, является KawaiiGPT, обнаруженная в июле этого года, которая может генерировать хорошо продуманные фишинговые сообщения и автоматизировать горизонтальное перемещение, создавая готовые к запуску скрипты. Результатом такого вайб-хакинга являются проекты, которые предоставляют вредоносное ПО как сервис.

Thursday, January 29, 2026

Управление рисками ИИ

Интересная компания по AI Risk Management - Alethea

Новое расследование Alethea выявило скоординированную экосистему недостоверных сетей «фан-страниц», действующих на различных социальных платформах и нацеленных почти на все основные профессиональные спортивные лиги США.

Эти страницы позиционируют себя как центры сообществ, но функционируют как высокоэффективные «фермы внимания». Они распространяют провокации, дезинформацию, сгенерированную искусственным интеллектом, и коммерческий спам, чтобы спровоцировать вовлеченность, перенаправить трафик на мошеннические и перегруженные рекламой сайты и отвлечь внимание и доход от лиг, команд, вещателей и легитимных издателей. Цель — не фанатство. Цель — вирусность и прибыль.

Наш анализ показывает, что эти сети используют повторяющиеся тактики: сфабрикованные цитаты, приписываемые звездным спортсменам, фальшивые «СРОЧНЫЕ» оповещения, ложные изменения расписания и переработанные сюжетные линии, масштабируемые в разных лигах путем замены имен, команд или изображений. Чтобы избежать пристального внимания, они используют сигналы достоверности, такие как коды городов США, поддельные контакты малых предприятий и фейковые аккаунты в социальных сетях.

Влияние выходит за рамки онлайн-шума. Поскольку синтетические нарративы создают трение, которое приводит к комментариям и репостам быстрее, чем основанный на фактах контент или официальные сообщения, они создают репутационные риски, подрывают доверие к каналам лиги, отнимают рекламные доходы у реальных издателей и вынуждают коммуникационные команды работать в условиях сужающегося окна для реакции. Когда аудитория не может отличить реальные обновления от искусственно созданных споров, разрушается основной актив, на котором построена спортивная индустрия - доверие к болельщикам.

В полном отчете подробно описывается, как работают эти сети, почему они так эффективно масштабируются и что это значит для руководителей коммуникационных отделов в высококонкурентных отраслях.

Атаки фальшивыми изображениями

1. Атака на ЖД. Движение поездов было остановлено после того, как в социальных сетях появилось изображение, предположительно созданное с помощью искусственного интеллекта, на котором, как казалось, были видны серьезные повреждения моста после землетрясения.

Подземные толчки, произошедшие в среду вечером, ощущались по всему Ланкаширу и южной части Озерного края.

Компания Network Rail сообщила, что ей стало известно об изображении, на котором, как казалось, были видны серьезные повреждения Карлайлского моста в Ланкастере, в 00:30 по Гринвичу, и остановила движение поездов по мосту на время проведения проверок безопасности. Журналист BBC пропустил изображение через чат-бота с искусственным интеллектом, который выявил ключевые места, которые могли быть изменены.

2. Виртуальное похищение. ФБР предупреждает о преступниках, изменяющих изображения, распространяемые в социальных сетях, и использующих их в качестве поддельных фотографий, подтверждающих, что человек жив, в мошеннических схемах с виртуальным похищением и требованием выкупа. Как пояснило ФБР, мошеннические схемы с виртуальным похищением не предполагают фактического похищения. Вместо этого преступники используют отредактированные изображения, найденные в социальных сетях, и общедоступную информацию, чтобы создать убедительные сценарии, призванные заставить жертв заплатить выкуп, прежде чем убедиться в безопасности их близких.

Wednesday, January 28, 2026

Агенты энтерпрайза

Как на самом деле выглядит готовый к использованию в корпоративной среде ИИ-агент? Без управляемых данных, отказоустойчивой инфраструктуры, оркестровки и человеческого контроля готовые к демонстрации агенты терпят неудачу в производственной среде, создавая риски вместо возврата инвестиций. Проблема не в модели, а в системе, которая её окружает. - Инфографика

См. также другие публикации, посвященные агентам

CWE Top 25

Список 25 самых опасных уязвимостей программного обеспечения CWE освещает наиболее серьезные и распространенные недостатки, лежащие в основе 39 080 записей Common Vulnerabilities and Exposures (CVE™) в наборе данных этого года. Выявление первопричин этих уязвимостей служит мощным ориентиром для инвестиций, политики и практики, направленных на предотвращение их возникновения, что приносит пользу как представителям отрасли, так и государственным заинтересованным сторонам. - MITRE

Позиция 15: Deserialization of Untrusted Data - прямо касается загрузки преобученных моделей ML.

Tuesday, January 27, 2026

Опасно и тревожно

Google удаляет некоторые из своих сводок по ИИ после того, как здоровье пользователей оказалось под угрозой.

Компания Google удалила некоторые из своих обзоров состояния здоровья, созданных с помощью искусственного интеллекта, после того, как расследование Guardian выявило, что люди подвергались риску, получая ложную и вводящую в заблуждение информацию.

Компания заявила, что ее обзоры, созданные с помощью генеративного ИИ и предоставляющие краткие обзоры важной информации по той или иной теме или вопросу, являются «полезными» и «надежными». Однако некоторые из этих обзоров, отображаемые в верхней части результатов поиска, содержали неточную информацию о состоянии здоровья, подвергая пользователей риску.

В одном случае, который эксперты назвали «опасным» и «тревожным», Google предоставил ложную информацию о важнейших анализах функции печени, из-за чего люди с серьезными заболеваниями печени могли ошибочно считать себя здоровыми.

Как выяснила Guardian, при вводе запроса «каков нормальный диапазон анализов крови на функцию печени» отображалось множество цифр, мало контекста и не учитывались национальность, пол, этническая принадлежность или возраст пациентов. Эксперты заявили, что то, что Google AI Overviews называл нормой, может сильно отличаться от того, что на самом деле считалось нормой. Эти сводки могут привести к тому, что тяжелобольные пациенты ошибочно посчитают результаты анализов нормальными и не будут посещать последующие медицинские осмотры.

После расследования компания удалила AI Overviews для поисковых запросов «каков нормальный диапазон анализов крови на функцию печени» и «каков нормальный диапазон анализов функции печени». Представитель Google заявил: «Мы не комментируем отдельные удаления в Поиске. В случаях, когда AI Overviews упускают какой-то контекст, мы работаем над общими улучшениями, а также принимаем меры в соответствии с нашей политикой, когда это необходимо». - отсюда

DocumentDB

DocumentDB — это совместимая с MongoDB база данных документов с открытым исходным кодом, построенная на основе PostgreSQL. Она предлагает нативную реализацию документоориентированной базы данных NoSQL, обеспечивая беспрепятственное выполнение операций CRUD (создание, чтение, обновление, удаление) с данными типа BSON (Binary JSON) в рамках PostgreSQL. Помимо базовых операций, DocumentDB позволяет пользователям выполнять сложные задачи, включая полнотекстовый поиск, геопространственные запросы и векторный поиск, предоставляя надежную функциональность и гибкость для различных потребностей в управлении данными.

Monday, January 26, 2026

Новости NIST

22 декабря 2025 г. Национальный институт стандартов и технологий (NIST) объявил о двух новых национальных инициативах, расширяющих его давнее сотрудничество с MITRE: Центр экономической безопасности ИИ для повышения производительности обрабатывающей промышленности США и Центр экономической безопасности ИИ для защиты критической инфраструктуры США от киберугроз. MITRE будет управлять обоими центрами, сотрудничая с экспертами NIST, промышленностью и академическими кругами для продвижения и ускорения трансформационных решений в области ИИ.

Это расширенное сотрудничество отражает общую приверженность превращению передовых исследований в области ИИ в развертываемые, реальные возможности. Центр повышения производительности обрабатывающей промышленности США сосредоточится на укреплении американского производства путем стимулирования новой промышленной революции, ориентированной на эффективность, качество и инновации. Центр защиты критической инфраструктуры США от киберугроз будет заниматься кибербезопасностью критической инфраструктуры США, обеспечивая обнаружение угроз в режиме реального времени, автоматизацию реагирования, прогнозирование сбоев и анализ больших объемов данных для выявления возникающих рисков.

«Наша цель — устранить барьеры на пути американских инноваций в области ИИ и ускорить применение наших технологий ИИ по всему миру», — заявил исполняющий обязанности заместителя министра торговли по стандартам и технологиям и исполняющий обязанности директора NIST Крейг Буркхардт. «Это новое соглашение с MITRE будет направлено на повышение способности американских компаний более эффективно производить высококачественную продукцию, удовлетворять рыночные потребности внутри страны и за рубежом, а также стимулировать открытие и коммерциализацию новых технологий и устройств».

Центры будут использовать инвестиции MITRE в AI Lab, Federal AI Sandbox, и общедоступные инструменты, такие как ATLAS, CALDERA и ATT&CK.

NIST выпустил драфт Cybersecurity Framework Profile for Artificial Intelligence (NISTIR 8596). Данный профиль помогает организациям задуматься о том, как стратегически внедрять ИИ, одновременно противодействуя возникающим рискам кибербезопасности, связанным со стремительным развитием ИИ.

Установление ИИ-авторства

Википедия завела проект AI Cleanup - поиск контента, созданного ИИ. И написали хорошее руководство по определению искусственного авторства. Есть версия и на русском языке.

Sunday, January 25, 2026

Agentic AI Foundation (AAIF)

Новый проект от Linux Foundation: Linux Foundation объявила о создании Agentic AI Foundation (AAIF) с участием ведущих технических проектов, включая Model Context Protocol (MCP) от Anthropic, goose от Block и AGENTS.md от OpenAI. AAIF обеспечивает нейтральную, открытую основу для прозрачного и совместного развития агентного ИИ.

MCP — это универсальный стандартный протокол для подключения моделей ИИ к инструментам, данным и приложениям; goose — это открытый исходный код, ориентированный на локальные решения, фреймворк для агентов ИИ, который объединяет языковые модели, расширяемые инструменты и стандартизированную интеграцию на основе MCP; AGENTS.md — это простой, универсальный стандарт, предоставляющий агентам ИИ согласованный источник рекомендаций, специфичных для каждого проекта, необходимых для надежной работы в различных репозиториях и инструментальных цепочках.

Появление агентного ИИ представляет собой новую эру автономного принятия решений и координации в системах ИИ, которая преобразует и революционизирует целые отрасли. AAIF предоставляет нейтральную, открытую основу для обеспечения прозрачного, совместного и благоприятного для внедрения ведущих проектов ИИ с открытым исходным кодом развития этой критически важной возможности. Его первые проекты, AGENTS.md, goose и MCP, заложили основу для общей экосистемы инструментов, стандартов и инноваций, управляемых сообществом.

«Мы наблюдаем, как ИИ вступает в новую фазу, поскольку разговорные системы переходят к автономным агентам, которые могут работать вместе. Всего за один год MCP, AGENTS.md и goose стали незаменимыми инструментами для разработчиков, создающих этот новый класс агентных технологий», — сказал Джим Землин, исполнительный директор Linux Foundation. «Объединение этих проектов в рамках AAIF гарантирует их рост с прозрачностью и стабильностью, которые может обеспечить только открытое управление. Linux Foundation гордится тем, что выступает в качестве нейтральной площадки, где они продолжат создавать инфраструктуру ИИ, на которую будет полагаться мир».

MCP

Запуск AAIF состоялся всего через год после выпуска MCP компанией Anthropic, поставщиком передовых систем ИИ, основанных на исследованиях в области безопасности, включая Claude и платформу разработчиков Claude. MCP быстро стал универсальным стандартным протоколом для подключения моделей ИИ к инструментам, данным и приложениям. Более 10 000 опубликованных MCP-серверов охватывают всё — от инструментов для разработчиков до развертываний в компаниях из списка Fortune 500. Протокол был принят такими популярными платформами ИИ, как Claude, Cursor, Microsoft Copilot, Gemini, VS Code, ChatGPT и другими, поскольку разработчики и предприятия отдают предпочтение простому методу интеграции, средствам контроля безопасности и более быстрому развертыванию.

«MCP начинался как внутренний проект для решения проблемы, с которой столкнулись наши собственные команды. Когда мы открыли его исходный код в ноябре 2024 года, мы надеялись, что другие разработчики найдут его таким же полезным, как и мы», — сказал Майк Кригер, директор по продуктам Anthropic. «Год спустя он стал отраслевым стандартом для подключения систем ИИ к данным и инструментам, используемым разработчиками, создающими приложения с помощью самых популярных инструментов для агентного программирования, и предприятиями, развертывающими приложения на AWS, Google Cloud и Azure. Передача MCP в дар Linux Foundation в рамках AAIF гарантирует, что он останется открытым, нейтральным и управляемым сообществом, становясь критически важной инфраструктурой для ИИ. Мы по-прежнему привержены поддержке и развитию MCP, и, учитывая многолетний опыт Linux Foundation в управлении проектами, которые обеспечивают работу интернета, это только начало».

goose

Выпущенный в начале 2025 года, goose — это открытый исходный код, ориентированный на локальные решения, фреймворк для агентов ИИ, который сочетает в себе языковые модели, расширяемые инструменты и стандартизированную интеграцию на основе MCP для обеспечения структурированной, надежной и заслуживающей доверия среды для создания и выполнения агентных рабочих процессов. Разработанный и предоставленный компанией Block, стоящей за Square, Cash App, Afterpay, TIDAL и растущей экосистемой биткоин-проектов, goose предоставляет практическую инфраструктуру, необходимую для безопасного и стабильного развития агентного ИИ.

«Мы находимся в критическом моменте для ИИ. Технология, которая определит следующее десятилетие, которая обещает стать крупнейшим двигателем экономического роста со времен Интернета, может либо оставаться закрытой и проприетарной в интересах немногих, либо развиваться на основе открытых стандартов, открытых технологий».

AGENTS.md

Выпущенный OpenAI в августе 2025 года, AGENTS.md — это простой, универсальный стандарт, предоставляющий агентам ИИ согласованный источник рекомендаций, специфичных для каждого проекта, необходимых для надежной работы в различных репозиториях и инструментальных цепочках. Эта основанная на Markdown система делает поведение агентов гораздо более предсказуемым в различных репозиториях и системах сборки. AGENTS.md уже используется более чем в 60 000 проектах с открытым исходным кодом и фреймворках для агентов, включая Amp, Codex, Cursor, Devin, Factory, Gemini CLI, GitHub Copilot, Jules и VS Code, среди прочих. OpenAI был одним из первых пользователей MCP и внес свой вклад в разработку ACP, Codex CLI, а также SDK для агентов и SDK для приложений для поддержки открытой экосистемы агентов, основанной на общих, совместимых протоколах.

«Для того чтобы агенты ИИ могли полностью раскрыть свой потенциал, разработчикам и предприятиям необходима надежная инфраструктура и доступные инструменты для дальнейшего развития. Став соучредителями AAIF и передав AGENTS.md, мы помогаем внедрять открытые и прозрачные методы, которые делают разработку агентов ИИ более предсказуемой, совместимой и безопасной», — сказал Ник Купер, член технического персонала OpenAI. «OpenAI давно считает, что общие, управляемые сообществом протоколы необходимы для здоровой экосистемы агентов, поэтому мы открыли исходный код ключевых компонентов, таких как Codex CLI, Agents SDK и теперь AGENTS.md. Мы гордимся тем, что работаем вместе с нашими соучредителями над созданием более открытого и надежного будущего для агентного ИИ».

Saturday, January 24, 2026

Еще один протокол агентов

Мы представляем SCP: протокол научного контекста (Science Context Protocol), стандарт с открытым исходным кодом, разработанный для ускорения научных открытий путем создания глобальной сети автономных научных агентов. SCP основан на двух фундаментальных принципах: (1) Единая интеграция ресурсов: В основе SCP лежит универсальная спецификация для описания и вызова научных ресурсов, охватывающая программные инструменты, модели, наборы данных и физические приборы. Эта стандартизация на уровне протокола позволяет агентам и приложениям ИИ беспрепятственно обнаруживать, вызывать и компоновать возможности на различных платформах и в рамках различных институциональных границ. (2) Управление жизненным циклом эксперимента: SCP дополняет протокол защищенной сервисной архитектурой, которая включает централизованный SCP Hub и федеративные SCP-серверы. Эта архитектура управляет полным жизненным циклом эксперимента (регистрация, планирование, выполнение, мониторинг и архивирование), обеспечивает детальную аутентификацию и авторизацию, а также организует отслеживаемые сквозные рабочие процессы, которые связывают вычислительные и физические лаборатории. На основе SCP мы создали платформу для научных открытий, которая предлагает исследователям и агентам крупномасштабную экосистему, включающую более 1600 инструментов. В самых разных областях применения SCP обеспечивает безопасное крупномасштабное сотрудничество между разнородными системами искусственного интеллекта и исследователями-людьми, значительно снижая затраты на интеграцию и повышая воспроизводимость результатов. Стандартизируя научный контекст и координацию инструментов на уровне протокола, SCP создает необходимую инфраструктуру для масштабируемой, межучрежденческой, агентно-ориентированной науки. - SCP: Accelerating Discovery with a Global Web of Autonomous Scientific Agents

См. также другие публикации, посвященные агентам

Графовый RAG

GraphRAG на практике: как создавать экономически эффективные системы поиска с высокой полнотой. Более интеллектуальные стратегии поиска, превосходящие плотные графы — с гибридными конвейерами и более низкой стоимостью.

См. также другие публикации по теме RAG

Friday, January 23, 2026

Публикации по теме Искусственный интеллект в кибербезопасности 23.01.2026

Вопросы безопасности систем ИИ рассматриваются в двух магистерских программах факультета ВМК МГУ имени М.В. Ломоносова: Искусственный интеллект в кибербезопасности и Кибербезопасность. Ниже приведен список публикаций, подготовленных в процессе реализации этих программ по состоянию на 28.09.2025

Ильюшин Е. А., Намиот Д. Е. An approach to the automatic enhancement of the robustness of ml models to external influences on the example of the problem of biometric speaker identification by voice // International Journal of Open Information Technologies. — 2021. — Vol. 9, no. 6. — P. 11–19.

Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Текущие академические и индустриальные проекты, посвященные устойчивому машинному обучению // International Journal of Open Information Technologies. — 2021. — Т. 9, № 10. — С. 35–46.

Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Основания для работ по устойчивому машинному обучению // International Journal of Open Information Technologies. — 2021. — Т. 9, № 11. — С. 68–74.

Намиот Д. Е., Ильшин Е. А., Чижов И. В. Военные применения машинного обучения // International Journal of Open Information Technologies. — 2022. — Т. 10, № 1. — С. 69–76.

Ильюшин Е. А., Намиот Д. Е., Чижов И. В. Атаки на системы машинного обучения – общие проблемы и методы // International Journal of Open Information Technologies. — 2022. — Т. 10, № 3. — С. 17–22.

Namiot D., Ilyushin E. On monitoring of machine learning models // Distributed Computer and Communication Networks: Control, Computation, Communications (DCCN-2022) : материалы XXV международной научной конференции: Москва, 26–30 сентября 2022 года / под общ. ред. В. М. Вишневского и К. Е. Самуйлова. — РУДН Москва: 2022. — P. 150–157.

Namiot D., Ilyushin E., Chizhov I. On a formal verification of machine learning systems // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 5. — P. 30–34.

Huayu L., Namiot D. A survey of adversarial attacks and defenses for image data on deep learning // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 5. — P. 9–16.

Намиот Д., Ильюшин Е., Пилипенко О. Доверенные платформы искусственного интеллекта // International Journal of Open Information Technologies. — 2022. — Т. 10, № 7. — С. 119–127.

Намиот Д., Ильюшин Е. Порождающие модели в машинном обучении // International Journal of Open Information Technologies. — 2022. — Т. 10, № 7. — С. 101–118.

Биджиев Т. М., Намиот Д. Е. Исследование существующих подходов к встраиванию вредоносного программного обеспечения в искусственные нейронные сети // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 21–31.

Намиот Д. Е., Ильюшин Е. А. Об устойчивости и безопасности систем искусственного интеллекта // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 126–134.

Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Искусственный интеллект и кибербезопасность // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 135–147.

Stroeva E., Tonkikh A. Methods for formal verification of artificial neural networks: A review of existing approaches // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 10. — P. 3.

Намиот Д., Ильюшин Е. Мониторинг сдвига данных в моделях машинного обучения // International Journal of Open Information Technologies. — 2022. — Т. 10, № 12. — С. 84–93.

Костюмов, Василий Владимирович. "Обзор и систематизация атак уклонением на модели компьютерного зрения." International Journal of Open Information Technologies 10.10 (2022): 11-20.

Намиот Д. Е., Ильюшин Е. А. О причинах неудач проектов машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 1. — С. 60–69.

Намиот Д. Е. Введение в атаки отравлением на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 3. — С. 58–68.

Namiot D. E., Ilyushin E., Chizhov I. On the practical generation of counterfactual examples // Труды Института системного анализа Российской академии наук. — 2023. — Vol. 73, no. 1. — P. 73–81.

Junzhe S., Namiot D. E. A survey of model inversion attacks and countermeasures // Труды Института системного анализа Российской академии наук. — 2023. — Vol. 73, no. 1. — P. 82–93.

Junzhe S., Namiot D. A survey of the implementations of model inversion attacks // Communications in Computer and Information Science. — 2023. — Vol. 1748. — P. 3–16.

Намиот Д. Е. Схемы атак на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 5. — С. 68–86.

On the evasion attack detector / L. Huayui, V. Kostyumov, O. Pilipenko, D. Namiot // DCCN 2023. Материалы конференции. — ИПУ РАН Москва: 2023. — P. 183–188.

Junzhe S., Namiot D. On the machine learning models inversion attack detector // DCCN 2023. Материалы конференции. — ИПУ РАН Москва: 2023. — P. 194.

Lozinskii I., Kostyumov V., Stroeva E. Extraction of trigger and mask from poisoned data using modified activation clustering and neural cleanse methods // International Journal of Open Information Technologies. — 2023. — Vol. 11, no. 7. — P. 1

Чехонина, Екатерина Андреевна, and Василий Владимирович Костюмов. "ОБЗОР СОСТЯЗАТЕЛЬНЫХ АТАК И МЕТОДОВ ЗАЩИТЫ ДЛЯ ДЕТЕКТОРОВ ОБЪЕКТОВ." International Journal of Open Information Technologies 11.7 (2023): 11-20.

Пришлецов Д. Е., Пришлецов С. Е., Намиот Д. Е. Камуфляж как состязательные атаки на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 9. — С. 41–49.

Намиот Д. Е., Зубарева Е. В. О работе ai red team // International Journal of Open Information Technologies. — 2023. — Т. 11, № 10. — С. 130–139.

Намиот Д. Е., Ильюшин Е. А. Доверенные платформы искусственного интеллекта: сертификация и аудит // International Journal of Open Information Technologies. — 2024. — Т. 12, № 1. — С. 43–60.

Киржинов Д. А., Ильюшин Е. А. Сравнительный анализ алгоритмов атак и защиты на графовые архитектуры ИНС // International Journal of Open Information Technologies. — 2024. — Т. 12, № 2.

Намиот Д. Е., Романов В. Ю. Об улучшении робастности моделей машинного обучения // International Journal of Open Information Technologies. — 2024. — Т. 12, № 3. — С. 88–98.

Junzhe S., Namiot D. On real-time model inversion attacks detection // Lecture Notes in Computer Science. — 2024. — Vol. 14123. — P. 56–67.

Мударова Р. М., Намиот Д. Е. Противодействие атакам типа инъекция подсказок на большие языковые модели // International Journal of Open Information Technologies. — 2024. — Т. 12, № 5. — С. 39–48.

Намиот Д. Е., Ильюшин Е. А. Искусственный интеллект в кибербезопасности: поиск вредоносного программного обеспечения // International Journal of Open Information Technologies. — 2024. — Т. 12, № 6. — С. 143–149.

Lebed, S. V., et al. "Large Language Models in Cyberattacks." Doklady Mathematics. Vol. 110. No. Suppl 2. Moscow: Pleiades Publishing, 2024.

Селевенко Р. М., Строева Е. Н. Исследование и разработка алгоритма формальной верификации и метрики оценки качества на основе методов понижения размерности ИНС // INJOIT. — 2024. — Т. 12, № 6. — С. 2.

Биджиев Т. М., Намиот Д. Е. Атаки на модели машинного обучения, основанные на фреймворке pytorch // Автоматика и телемеханика. — 2024. — № 3. — С. 38–50.

Намиот Д. Е., Ильюшин Е. А. О сертификации систем искусственного интеллекта // Физика элементарных частиц и атомного ядра. — 2024. — Т. 55, № 3. — С. 530–536.

Намиот Д. Е., Куприяновский В. П., Пичугов А. А. Состязательные атаки для автономных транспортных средств // International Journal of Open Information Technologies. — 2024. — Т. 12, № 7. — С. 139–149.

Намиот Д. Е. О кибератаках с помощью систем Искусственного интеллекта // International Journal of Open Information Technologies. — 2024. — Т. 12, № 9. — С. 132–141.

Воробьев, Егор Александрович. "Анализ состязательных атак на системы сегментации изображений." International Journal of Open Information Technologies 12.10 (2024): 1-25.

Намиот Д. Е., Ильюшин Е. А. О киберрисках генеративного Искусственного Интеллекта // International Journal of Open Information Technologies. — 2024. — Т. 12, № 10. — С. 109–119.

Порывай, Максим Викторович. "Сравнительное исследование методов естественной аугментации изображений." International Journal of Open Information Technologies 12.10 (2024): 26-33.

Герасименко, Денис Валерьевич, and Дмитрий Евгеньевич Намиот. "Извлечение тренировочных данных: Риски и решения в контексте безопасности LLM." International Journal of Open Information Technologies 12.11 (2024): 9-19.

Костиков, Егор Вячеславович. "Методы анализа логов Sysmon для обнаружения киберугроз." International Journal of Open Information Technologies 12.11 (2024): 25-34.

Намиот Д. Е., Ильюшин Е. А. Архитектура LLM агентов //International Journal of Open Information Technologies. – 2025. – Т. 13. – №. 1. – С. 67-74.

Воробьев Е. А., Намиот Д. Е. Состязательное тестирование моделей сегментации изображений // Программная инженерия. — 2025. — Т. 16, № 4. — С. 190–198.

Намиот, Д. Е., and Е. А. Ильюшин. "Об оценке доверия к системам Искусственного интеллекта." International Journal of Open Information Technologies 13.3 (2025): 75-90.

Хамзаева, М. А., and О. Р. Лапонина. "Повышение устойчивости к состязательным атакам моделей машинного обучения для обнаружения межсайтового выполнения сценариев." International Journal of Open Information Technologies 13.6 (2025): 25-33.

Бербер, Д. В., and О. Р. Лапонина. "Разработка подходов к увеличению устойчивости моделей машинного обучения для обнаружения распределенных атак отказа обслуживания." International Journal of Open Information Technologies 13.6 (2025): 16-24.

Егорова, Е. С., and О. Р. Лапонина. "Состязательное тестирование моделей машинного обучения, предназначенных для обнаружения SQL-инъекций." International Journal of Open Information Technologies 13.6 (2025): 34-41.

Лапонина, О. Р., and Р. Н. Костин. "Разработка программного обеспечения моделирования угроз для систем на базе LLM-агентов." International Journal of Open Information Technologies 13.6 (2025): 132-146.

Намиот, Д. Е. "Что LLM знает о кибербезопасности." International Journal of Open Information Technologies 13.7 (2025): 37-46.

Намиот, Д. Е. "Искусственный Интеллект в. Кибербезопасности. Хроника. Выпуск 1." International Journal of Open Information Technologies 13.9 (2025): 34-42.

Намиот, Д. Е., and Е. А. Ильюшин. "О кибербезопасности ИИ-агентов." International Journal of Open Information Technologies 13.9 (2025): 13-24.

Егоров, М. Э., et al. "Объяснения моделей машинного обучения и состязательные атаки." International Journal of Open Information Technologies 13.9 (2025): 50-59.

Намиот, Д. Е., and Е. А. Ильюшин. "Уязвимости экосистемы MCP." International Journal of Open Information Technologies 13.10 (2025): 74-82.

Намиот, Д. Е. "Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 2." International Journal of Open Information Technologies 13.10 (2025): 58-67.

Poryvai, Maxim, and Dmitry Namiot. "On Natural Image Augmentation to Increase Robustness of Machine Learning Models." 2025 International Russian Automation Conference (RusAutoCon). IEEE, 2025.

Namiot D., Zubareva E. On open datasets for llm adversarial testing // Communications in Computer and Information Science. — 2025. — Vol. 2641. — P. 137–148. 

Намиот, Д. Е. "Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 3." International Journal of Open Information Technologies 13.11 (2025): 169-179.

Намиот, Д. Е. "Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 4." International Journal of Open Information Technologies 14.1 (2026): 81-94.

О защите цифровых двойников

Цифровой двойник (ЦД) — это передовая технология, получившая широкое распространение в последние годы, демонстрирующая огромный потенциал для моделирования процессов и предоставления ценной информации для улучшения и оптимизации систем. Благодаря высокой степени точности воспроизведения реальных процессов, ЦД изучаются для таких сложных приложений, как обман и проактивная защита критически важных инфраструктур. Однако это же преимущество вызывает опасения в отношении уязвимости системы, поскольку детальное цифровое представление может создавать новые риски кибербезопасности. С целью содействия развитию этой технологии в данной статье представлено адаптивное решение на основе ЦД, которое упрощает настройку отдельных компонентов цифровой системы, адаптируя различные сценарии применения специально для целей защиты, обмана и тестирования. Наконец, предложенная архитектура тестируется в конкретном сценарии использования, ориентированном на Интернет вещей (IoT), для проверки, экспериментирования и получения выводов о предлагаемом решении. - Adaptive Digital Twin: Protection, deception, and testing

См. также другие публикации, посвященные digital twins

Открытый Red Teaming

В связи с тем, что большие языковые модели (LLM) все чаще используются в средах высокого риска, тестирование на проникновение (red-teaming) становится одним из важнейших методов выявления потенциально опасного поведения, взлома и уязвимостей злоумышленников до фактического обнаружения в ходе реальной атаки. В последнее время было разработано большое количество общедоступных, основанных на исследованиях и открытых инструментов, которые помогают автоматизировать или иным образом улучшить процесс тестирования на проникновение. Хотя эти инструменты сильно различаются по подходу к проблеме, охватываемому диапазону функций и уровню развития, не существует единого источника информации, описывающего текущий ландшафт общедоступных инструментов для тестирования на проникновение в большие языковые модели. Таким образом, в данной статье будет представлен систематический анализ различных фреймворков, используемых для тестирования LLM на предмет уязвимости, путем изучения методологий каждого фреймворка, различных типов атак, стратегий, используемых каждым фреймворком, уровней автоматизации, обеспечиваемых каждым фреймворком, и целей каждого фреймворка, связанных с оценкой безопасности фреймворка. В статье также будут рассмотрены общие черты, преимущества/недостатки и операционные ограничения каждого фреймворка, а также определены области, где инструменты тестирования на предмет уязвимости не обладают достаточными возможностями, такими как: выполнение многошаговых атак с длительным горизонтом, использование взаимодействия агента/инструмента, тестирование на нескольких языках и создание динамических адаптивных циклов атак. Конечная цель авторов данной статьи — помочь исследователям, разработчикам и пользователям систем, использующих LLM, понять текущее состояние общедоступных инструментов тестирования на предмет уязвимости для LLM и дать рекомендации по будущим направлениям разработки надежных, масштабируемых и всеобъемлющих инструментов тестирования на предмет уязвимости для LLM. - Survey of Public Red-Teaming Frameworks for LLM: Techniques, Coverage, and Gaps

См. также другие публикации, посвященные LLM

Thursday, January 22, 2026

Жизнь и судьба RAG

Умер ли RAG? Как генерация с использованием дополненной информации эволюционирует от статических конвейеров к управляемым, контекстно-ориентированным системам, которые делают ИИ более объяснимым, заслуживающим доверия и масштабируемым - The Rise of Context Engineering and Semantic Layers for Agentic AI

См. также другие публикации по теме RAG

Извлечение тренировочных данных

Большие языковые модели (LLM) склонны к запоминанию обучающих данных, что создает серьезные риски для конфиденциальности. Две наиболее серьезные проблемы — это извлечение обучающих данных и атаки на определение принадлежности (MIA). Предыдущие исследования показали, что эти угрозы взаимосвязаны: злоумышленники могут извлекать обучающие данные из LLM, запрашивая у модели генерацию большого объема текста и впоследствии применяя MIA, чтобы проверить, была ли конкретная точка данных включена в обучающий набор. В этом исследовании мы интегрируем несколько методов MIA в конвейер извлечения данных, чтобы систематически оценить их эффективность. Затем мы сравниваем их производительность в этой интегрированной среде с результатами обычных тестов MIA, что позволяет нам оценить их практическую полезность в реальных сценариях извлечения. - On the Effectiveness of Membership Inference in Targeted Data Extraction from Large Language Models

См. также другие публикации, посвященные LLM

Аномалии в изображениях

Несмотря на впечатляющие результаты глубоких нейронных сетей (DNN) в классификации изображений, их уязвимость к атакам со стороны злоумышленников остается серьезной проблемой. Большинство существующих методов обнаружения основаны на сложных и плохо интерпретируемых архитектурах, которые ставят под угрозу интерпретируемость и обобщаемость. Для решения этой проблемы мы предлагаем FeatureLens — легковесную структуру, которая действует как линза для анализа аномалий в признаках изображений. FeatureLens, включающая в себя экстрактор признаков изображений (IFE) и неглубокие классификаторы (например, SVM, MLP или XGBoost) с размерами моделей от 1000 до 30000 параметров, достигает высокой точности обнаружения — от 97,8% до 99,75% при оценке в замкнутом наборе данных и от 86,17% до 99,6% при оценке обобщаемости в атаках FGSM, PGD, C&W и DAmageNet, используя только 51-мерные признаки. Благодаря сочетанию высокой эффективности обнаружения с превосходной обобщающей способностью, интерпретируемостью и вычислительной эффективностью, FeatureLens предлагает практический путь к прозрачной и эффективной защите от враждебных действий. - FeatureLens: A Highly Generalizable and Interpretable Framework for Detecting Adversarial Examples Based on Image Features

P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Tuesday, January 20, 2026

Систематизация безопасности MCP

Протокол контекста модели (MCP) стал фактически стандартом для подключения больших языковых моделей (LLM) к внешним данным и инструментам, фактически функционируя как «USB-C для агентного ИИ». Хотя это разделение контекста и исполнения решает критически важные проблемы совместимости, оно создает совершенно новый ландшафт угроз, где граница между эпистемическими ошибками (галлюцинациями) и нарушениями безопасности (несанкционированными действиями) размывается. Данная систематизация знаний (SoK) направлена на предоставление всеобъемлющей таксономии рисков в экосистеме MCP, различая враждебные угрозы безопасности (например, косвенное внедрение подсказок, отравление инструментов) и эпистемические угрозы безопасности (например, сбои выравнивания в распределенном делегировании инструментов). Мы анализируем структурные уязвимости примитивов MCP, в частности ресурсов, подсказок и инструментов, и демонстрируем, как «контекст» может быть использован для запуска несанкционированных операций в многоагентных средах. Кроме того, мы рассматриваем современные методы защиты, от криптографической проверки происхождения (ETDI) до проверки намерений во время выполнения, и завершаем дорожной картой по обеспечению безопасности перехода от разговорных чат-ботов к автономным агентным операционным системам. - Systematization of Knowledge: Security and Safety in the Model Context Protocol Ecosystem

См. также другие публикации, посвященные MCP

О поведении агентов

Агенты на основе LLM продемонстрировали многообещающую адаптивность в реальных приложениях. Однако эти агенты остаются уязвимыми для широкого спектра атак, таких как отравление инструментов и вредоносные инструкции, которые нарушают поток их выполнения и могут привести к серьезным последствиям, таким как утечка данных и финансовые потери. Существующие исследования обычно пытаются смягчить такие аномалии путем предварительного определения конкретных правил и их применения во время выполнения для повышения безопасности. Тем не менее, разработка всеобъемлющих правил сложна, требует значительных ручных усилий и все еще оставляет пробелы, которые приводят к ложным отрицательным результатам. Поскольку агентные системы развиваются в сложные программные системы, мы, вдохновленные безопасностью программных систем, предлагаем TraceAegis, аналитическую структуру, основанную на происхождении данных, которая использует трассировки выполнения агентов для обнаружения потенциальных аномалий. В частности, TraceAegis строит иерархическую структуру для абстрагирования стабильных единиц выполнения, которые характеризуют нормальное поведение агентов. Затем эти единицы суммируются в ограниченные поведенческие правила, которые определяют условия, необходимые для выполнения задачи. Проверяя трассировки выполнения на соответствие как иерархическим, так и поведенческим ограничениям, TraceAegis способен эффективно обнаруживать аномальное поведение. Для оценки эффективности TraceAegis мы представляем TraceAegis-Bench, набор данных, охватывающий два репрезентативных сценария: здравоохранение и корпоративные закупки. Каждый сценарий включает 1300 безобидных и 300 аномальных поведений, где аномалии либо нарушают порядок выполнения агента, либо нарушают семантическую согласованность его последовательности выполнения. Экспериментальные результаты показывают, что TraceAegis демонстрирует высокую производительность на TraceAegis-Bench, успешно выявляя большинство аномальных поведений. Мы дополнительно подтверждаем практичность TraceAegis с помощью внутреннего процесса тестирования на проникновение, проведенного в технологической компании, где он эффективно обнаруживает аномальные трассировки, сгенерированные атаками «красной команды». - TraceAegis: Securing LLM-Based Agents via Hierarchical and Behavioral Anomaly Detection

См. также другие публикации, посвященные агентам

Monday, January 19, 2026

Атаки на code-review

Использование больших языковых моделей (LLM) в качестве автоматических судей для оценки кода становится все более распространенным в академической среде. Однако их надежность может быть скомпрометирована студентами, которые могут использовать враждебные стратегии подсказок, чтобы добиться неправильной оценки и получить незаслуженные академические преимущества. В этой статье мы представляем первое крупномасштабное исследование взлома автоматизированных систем оценки кода на основе LLM в академическом контексте. Наши достижения заключаются в следующем: (i) Мы систематически адаптируем более 20 стратегий взлома для взлома систем оценки кода на основе ИИ в академическом контексте, определяя новый класс атак, называемый академическим взломом. (ii) Мы публикуем модифицированный набор данных, содержащий 25 000 состязательных студенческих работ, специально разработанный для академической оценки кода, полученный из различных реальных учебных курсов и дополненный рубриками и оценками, выставленными людьми, и (iii) Чтобы уловить многомерное воздействие академического взлома, мы систематически адаптируем и определяем три метрики взлома (успех взлома, завышение оценок и вредоносность). (iv) Мы всесторонне оцениваем атаки академического взлома с использованием шести моделей LLM. Мы обнаруживаем, что эти модели демонстрируют значительную уязвимость, особенно к атакам, основанным на убеждении и ролевых играх (до 97% успеха взлома). Наш набор данных и набор эталонных тестов закладывают основу для надежных оценщиков следующего поколения на основе моделей LLM в академической оценке кода. - How to Trick Your AI TA: A Systematic Study of Academic Jailbreaking in LLM Code Evaluation

Систематическое изложение техник джелбрейка и их применение к оценке программного кода

См. также другие публикации, посвященные LLM

Открытая наука, том 14, номер 1

Очередной номер журнала INJOIT появился на сайте Киберленинка.

Это том 14, номер 1 за 2026 год. Новое пополнение для списка работ по теме Искусственный интеллект в кибербезопасности

/via Лаборатория ОИТ

Адаптивные атаки

Как следует оценивать надежность защиты языковых моделей? Существующие средства защиты от взлома и внедрения подсказок (которые направлены на предотвращение получения злоумышленником вредоносных знаний или удаленного запуска вредоносных действий соответственно) обычно оцениваются либо на статическом наборе вредоносных строк атаки, либо на вычислительно слабых методах оптимизации, которые не были разработаны с учетом цели защиты. Мы утверждаем, что этот процесс оценки ошибочен. Вместо этого следует оценивать средства защиты от адаптивных злоумышленников, которые явно изменяют свою стратегию атаки, чтобы противостоять конструкции защиты, одновременно затрачивая значительные ресурсы на оптимизацию своей цели. Путем систематической настройки и масштабирования общих методов оптимизации — градиентного спуска, обучения с подкреплением, случайного поиска и исследования под руководством человека — мы обходим 12 недавних средств защиты (основанных на разнообразном наборе методов) с вероятностью успеха атаки выше 90% для большинства из них; что важно, большинство средств защиты первоначально сообщали о почти нулевой вероятности успеха атаки. Мы считаем, что в будущих работах по обороне необходимо учитывать более сильные атаки, подобные тем, которые мы описываем, чтобы обосновать надежные и убедительные утверждения об их устойчивости. - The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and Prompt Injections

Среди авторов - Nicholas Carlini

См. также другие публикации, посвященные LLM

Sunday, January 18, 2026

GNN

Хороший учебный материал - GNN (Graph Neural Net) Explained— Intuition, Concepts, Applications

См. также другие публикации посвещенные графам

Как обезопасить MCP

Большие языковые модели (LLM) превратились в агентов искусственного интеллекта, взаимодействующих с внешними инструментами и средами для выполнения сложных задач. Протокол контекста модели (MCP) стал стандартом де-факто для подключения агентов к таким ресурсам, но безопасность отстает: тысячи MCP-серверов работают с неограниченным доступом к хост-системам, создавая широкую поверхность атаки. В этой статье мы представляем AgentBound, первую структуру контроля доступа для MCP-серверов. AgentBound сочетает декларативный механизм политик, вдохновленный моделью разрешений Android, с механизмом принудительного применения политик, который сдерживает вредоносное поведение без необходимости модификации MCP-серверов. Мы создаем набор данных, содержащий 296 наиболее популярных MCP-серверов, и показываем, что политики контроля доступа могут генерироваться автоматически из исходного кода с точностью 80,9%. Мы также показываем, что AgentBound блокирует большинство угроз безопасности на нескольких вредоносных MCP-серверах, и что механизм принудительного применения политик вносит незначительные накладные расходы. Наши разработки предоставляют разработчикам и менеджерам проектов практическую основу для обеспечения безопасности серверов MCP при сохранении производительности, позволяя исследователям и разработчикам инструментов изучать новые направления в области декларативного контроля доступа и безопасности MCP. - Securing AI Agent Execution

См. также другие публикации, посвященные LLM

Saturday, January 17, 2026

А поговорить?

Большие языковые модели (LLM) произвели революцию в разговорном ИИ, однако их устойчивость в длительных многоходовых диалогах остается плохо изученной. Существующие оценочные модели сосредоточены на статических эталонах и оценках отдельных ходов, не учитывая временную динамику ухудшения качества разговора, характерную для реальных взаимодействий. В этой работе мы представляем крупномасштабный анализ устойчивости разговора, моделирующий сбой как процесс «время до события» на протяжении 36 951 хода с использованием 9 современных LLM на эталоне MT-Consistency. Наша модель сочетает в себе модели пропорциональных рисков Кокса, ускоренного времени сбоя (AFT) и случайного леса выживания с простыми признаками семантического дрейфа. Мы обнаружили, что резкий семантический дрейф от подсказки к подсказке резко увеличивает риск несогласованности, в то время как кумулятивный дрейф, вопреки интуиции, оказывает защитное действие, предполагая адаптацию в разговорах, которые выдерживают множественные изменения. Модели AFT, с учетом взаимодействия модели и дрейфа, обеспечивают наилучшее сочетание дискриминации и калибровки, а проверки пропорциональных рисков выявляют систематические нарушения для ключевых ковариат дрейфа, объясняя ограничения моделирования в стиле Кокса в данном контексте. Наконец, мы показываем, что облегченную модель AFT можно превратить в монитор риска на уровне репликации, который отмечает большинство неудачных диалогов за несколько реплик до первого противоречивого ответа, при этом сохраняя низкий уровень ложных срабатываний. Эти результаты подтверждают, что анализ выживаемости является мощной парадигмой для оценки устойчивости к многорепетиционным ситуациям и для разработки практических мер защиты для разговорных систем искусственного интеллекта. - Time-To-Inconsistency: A Survival Analysis of Large Language Model Robustness to Adversarial Attacks

Интересная идея - проверять нужно не отдельные фразы, а диалог

См. также другие публикации, посвященные LLM

Агентные процессы

Агентный ИИ знаменует собой серьезный сдвиг в том, как автономные системы рассуждают, планируют, и выполняют многоэтапные задачи. В отличие от традиционного подхода с использованием одной модели, агентные рабочие процессы интегрируют множество специализированных агентов с различными большими языковыми моделями (LLM), возможностями, дополненными инструментами, логикой оркестровки, и взаимодействиями с внешними системами для формирования динамических конвейеров, способных к автономному принятию решений и действиям. По мере ускорения внедрения в промышленности и научных исследованиях организации сталкиваются с центральной проблемой: как проектировать, разрабатывать и эксплуатировать рабочие процессы агентного ИИ производственного уровня, которые являются надежными, наблюдаемыми, поддерживаемыми и соответствуют требованиям безопасности и управления. В данной статье представлено практическое комплексное руководство по проектированию, разработке и развертыванию систем агентного ИИ производственного качества. Мы представляем структурированный жизненный цикл проектирования, охватывающий декомпозицию рабочих процессов, шаблоны проектирования многоагентных систем, протокол контекста модели (MCP), интеграцию инструментов, детерминированную оркестровку, соображения ответственного ИИ, и стратегии развертывания с учетом окружающей среды. Далее мы представляем девять основных лучших практик проектирования рабочих процессов агентного ИИ производственного уровня, включая проектирование с приоритетом инструментов вместо MCP, вызов чистых функций, агенты с одним инструментом и одной ответственностью, внешнее управление подсказками, проектирование модельного консорциума в соответствии с ResponsibleAI, четкое разделение между логикой рабочего процесса и серверами MCP, контейнеризированное развертывание для масштабируемых операций и соблюдение принципа «Keep it Simple, Stupid» (KISS) для поддержания простоты и надежности. Чтобы продемонстрировать эти принципы на практике, мы представляем всестороннее тематическое исследование: многомодальный рабочий процесс анализа новостей и генерации медиаконтента. Объединяя архитектурные рекомендации, операционные шаблоны и практические идеи по реализации, эта статья предлагает фундаментальный справочник для создания надежных, расширяемых и готовых к производству рабочих процессов агентного ИИ. - A Practical Guide for Designing, Developing, and Deploying Production-Grade Agentic AI Workflows

См. также другие публикации, посвященные агентам

Friday, January 16, 2026

Модель безопасности ИИ-агентов

STRATA-8 - основанная на доказательствах модель безопасности ИИ-агентов

См. также другие публикации, посвященные агентам

Агент-бэкдорщик

Атаки с использованием бэкдоров представляют серьезную угрозу для безопасного развертывания больших языковых моделей (LLM), позволяя злоумышленникам внедрять скрытое поведение, запускаемое определенными входными данными. Однако существующие методы часто основаны на вручную созданных триггерах и статических конвейерах обработки данных, которые являются жесткими, трудоемкими и неадекватными для систематической оценки надежности современных средств защиты. По мере того, как агенты ИИ становятся все более совершенными, возрастает потребность в более строгих, разнообразных и масштабируемых системах тестирования на проникновение, которые могут реалистично имитировать угрозы с использованием бэкдоров и оценивать устойчивость модели в условиях противодействия. В этой работе мы представляем AUTOBACKDOOR, общую структуру для автоматизации внедрения бэкдоров, включающую генерацию триггеров, создание отравленных данных и тонкую настройку модели с помощью автономного конвейера, управляемого агентом. В отличие от предыдущих подходов, AutoBackdoor использует мощный агент языковой модели для генерации семантически согласованных, контекстно-зависимых триггерных фраз, что позволяет масштабируемо отравлять контент по произвольным темам с минимальными человеческими усилиями. Мы оцениваем AutoBackdoor в трех реалистичных сценариях угроз, включая рекомендации, основанные на предвзятости, внедрение галлюцинаций и манипулирование экспертной оценкой, чтобы смоделировать широкий спектр атак. Эксперименты как на моделях с открытым исходным кодом, так и на коммерческих моделях, включая LLaMA-3, Mistral, Qwen и GPT-4o, демонстрируют, что наш метод достигает более 90% успеха атак всего лишь с небольшим количеством отравленных образцов. Что еще важнее, мы обнаружили, что существующие средства защиты часто не справляются с смягчением этих атак, что подчеркивает необходимость более строгих и адаптивных методов оценки угроз, управляемых агентами, как это исследовано в данной работе. Весь код, наборы данных и экспериментальные конфигурации будут объединены в наш основной репозиторий по адресу https://github.com/bboylyg/BackdoorLLM - AutoBackdoor: Automating Backdoor Attacks via LLM Agents

См. также другие публикации, посвященные агентам

Thursday, January 15, 2026

Кибер-Берт

Эффективный анализ данных в области кибербезопасности и анализа угроз требует языковых моделей, способных интерпретировать специализированную терминологию, сложные структуры документов и взаимозависимость естественного языка и исходного кода. Архитектуры трансформеров, использующие только кодировщик, предлагают эффективные и надежные представления, поддерживающие критически важные задачи, такие как семантический поиск, извлечение технических сущностей и семантический анализ — ключевые для автоматического обнаружения угроз, сортировки инцидентов и оценки уязвимостей. Однако универсальные языковые модели, как правило, не обладают необходимой адаптацией к предметной области для обеспечения высокой точности в этих контекстах. Мы представляем SecureBERT 2.0, улучшенную языковую модель, использующую только кодировщик, специально разработанную для приложений кибербезопасности. Используя архитектуру ModernBERT, SecureBERT 2.0 внедряет улучшенное моделирование длинных контекстов и иерархическое кодирование, что позволяет эффективно обрабатывать расширенные и гетерогенные документы, включая отчеты об угрозах и артефакты исходного кода. Предварительно обученная на корпусе, в тринадцать раз превышающем по размеру корпус ее предшественника и включающем более 13 миллиардов текстовых токенов и 53 миллиона кодовых токенов из различных реальных источников, SecureBERT 2.0 достигает самых современных результатов на множестве тестов в области кибербезопасности. Экспериментальные результаты демонстрируют существенные улучшения в семантическом поиске для анализа угроз, семантическом анализе, распознавании именованных сущностей, специфичных для кибербезопасности, и автоматическом обнаружении уязвимостей в коде в области кибербезопасности. - SecureBERT 2.0: Advanced Language Model for Cybersecurity Intelligence

Агент-разведчик

Атаки вывода (доступ к данным обучения моделей) широко изучались и предлагают систематическую оценку рисков сервисов машинного обучения; однако их реализация и параметры атаки для оптимальной оценки представляют собой сложную задачу для неспециалистов. Появление продвинутых больших языковых моделей открывает многообещающую, но в значительной степени неизученную возможность разработки автономных агентов в качестве экспертов по атакам на основе логического вывода, что помогает решить эту проблему. В этой статье мы предлагаем AttackPilot, автономного агента, способного самостоятельно проводить атаки на основе логического вывода без вмешательства человека. Мы оцениваем его на 20 целевых сервисах. Оценка показывает, что наш агент, использующий GPT-4o, достигает 100% выполнения задач и почти экспертной эффективности атаки со средней стоимостью токена всего 0,627 доллара США за запуск. Агент также может работать на основе многих других репрезентативных больших языковых моделей и может адаптивно оптимизировать свою стратегию с учетом ограничений сервиса. Мы также проводим анализ трассировки, демонстрируя, что такие проектные решения, как многоагентная структура и пространства действий, специфичные для каждой задачи, эффективно снижают вероятность ошибок, таких как неверные планы, неспособность следовать инструкциям, потеря контекста задачи и галлюцинации. Мы предполагаем, что такие агенты могут позволить неспециалистам в области машинного обучения, аудиторам или регулирующим органам систематически оценивать риски услуг машинного обучения без необходимости глубоких знаний в предметной области. - AttackPilot: Autonomous Inference Attacks Against ML Services With LLM-Based Agents

См. также другие публикации, посвященные агентам

Wednesday, January 14, 2026

Граф знаний для кода

MCP-сервер, который строит граф знаний вашего кода и дает LLM «архитектурное зрение», превращая ее из простого кодера в настоящего цифрового ассистента - отсюда

См. также другие публикации, посвященные MCP

Большой эксперт безопасности

Потребность в обеспечении безопасности системы в режиме реального времени приводит к тому, что правила обнаружения становятся неотъемлемой частью жизненного цикла обнаружения вторжений. Обнаружение на основе правил часто выявляет вредоносные журналы на основе предопределенной грамматической логики, что требует от экспертов глубоких знаний в предметной области для генерации правил. Поэтому автоматизация генерации правил может привести к значительной экономии времени и облегчить нагрузку на инженеров по безопасности, выполняющих задачи, связанные с правилами. В этой статье мы предлагаем RulePilot, который имитирует человеческий опыт с помощью агента на основе LLM для решения задач, связанных с правилами, таких как создание или преобразование правил. Используя RulePilot, аналитикам безопасности не нужно записывать правила, следуя грамматике; вместо этого они могут просто предоставить аннотации, такие как описания правил на естественном языке, и наш RulePilot может автоматически генерировать правила обнаружения без дополнительного вмешательства. RulePilot оснащен промежуточным представлением (IR), которое абстрагирует сложность правил конфигурации в структурированные, стандартизированные форматы, позволяя LLM-системам сосредоточиться на генерации правил более управляемым и последовательным способом. Мы представляем всестороннюю оценку RulePilot с точки зрения текстового сходства и успешности выполнения, демонстрируя, что RulePilot может генерировать правила высокой точности, превосходя базовые модели на 107,4% по текстовому сходству с эталонными данными и достигая более высокой точности обнаружения в реальных тестах выполнения. Мы проводим исследование на примере наших отраслевых партнеров в Сингапуре, демонстрируя, что RulePilot значительно помогает начинающим аналитикам/обычным пользователям в процессе создания правил. - RulePilot: An LLM-Powered Agent for Security Rule Generation

См. также другие публикации, посвященные LLM

Tuesday, January 13, 2026

И о контексте

Контекст — это не просто ещё один входной параметр для оптимизации. Скорее, это центральная валюта, определяющая, приносит ли система ИИ реальную пользу или остаётся дорогостоящим побочным продуктом. В отличие от традиционной разработки программного обеспечения, где мы оптимизируем скорость, память или пропускную способность, контекстная инженерия требует от нас рассматривать информацию так, как это делают люди: многоуровнево, взаимозависимо и с учётом ситуационной осведомлённости. - Why Context Is the New Currency in AI: From RAG to Context Engineering. Хороший материал по управлению контекстом, например, для ИИ-агентов.

Атаки по краю

Физические атаки с использованием состязательных элементов представляют собой значительную угрозу для интеллектуальных транспортных систем, особенно для распознавания дорожных знаков. Существующие методы часто испытывают трудности с балансом между эффективностью атаки, скрытностью и переносимостью в реальных условиях. В данной статье мы представляем TSEP-Attack, новый метод создания состязательных фрагментов, который значительно повышает визуальную скрытность и эффективность атаки. Используя сегментацию экземпляров и генератор на основе U-Net, наш подход генерирует состязательные фрагменты, точно настроенные на контуры краев дорожных знаков. Эти фрагменты стратегически применяются к периферийным областям знаков, обеспечивая минимальную заметность для человеческого зрения. Для оптимизации как эффективности, так и скрытности фрагментов мы разработали многоуровневую функцию потерь, которая интегрирует согласованность цвета, соответствие текстуры и выравнивание в частотной области, обеспечивая бесшовную интеграцию генерируемых возмущений с фоном знака, сохраняя при этом устойчивость в физическом мире. Экспериментальные результаты демонстрируют, что TSEP-Attack обеспечивает превосходную эффективность атаки и скрытность при ограниченном объеме запросов, достигая максимального показателя успешности до 90%, а также демонстрирует выдающуюся переносимость между различными моделями. Кроме того, наш подход сохраняет стабильную производительность при различных углах обзора и расстояниях в реальных условиях, что делает его жизнеспособным решением для систем автономного вождения, использующих распознавание дорожных знаков. The Outline of Deception: Physical Adversarial Attacks onTrafficSignsUsing Edge Patches

См. также другие публикации по теме физические атаки

Monday, January 12, 2026

Хостинг для MCP

Alpic MCP cloud - хостинг для MCP серверов. Есть бесплатная опция. И пример создания и деплоя MCP-сервера.

См. также другие публикации, посвященные MCP

Тихий обман RAG

В данной статье рассматриваются атаки и методы защиты векторных баз данных в системах генерации с расширенным поиском (RAG). Предыдущие работы по атакам, направленным на отравление знаний, в основном заключались во внедрении ложного или токсичного контента, который легко обнаруживается при проверке фактов или лингвистическом анализе. Мы выявляем новую и тонкую угрозу: атаки с внедрением предвзятости, которые вставляют фактически корректные, но семантически предвзятые фрагменты в базу знаний, чтобы скрытно повлиять на идеологическую трактовку ответов, генерируемых большими языковыми моделями (LLM). Мы демонстрируем, что эти враждебные фрагменты, хотя и лингвистически связные и правдивые, могут систематически вытеснять противоположные точки зрения из полученного контекста и направлять ответы LLM в сторону желаемой точки зрения злоумышленника. Мы точно характеризуем этот класс атак, а затем разрабатываем метод защиты с фильтрацией после получения данных, BiasDef. Для их оценки мы создаем всеобъемлющий бенчмарк на основе общедоступных наборов данных вопросов и ответов. Наши результаты показывают, что: (1) предложенная атака вызывает значительные сдвиги в перспективе в ответах LLM, эффективно обходя существующие средства защиты на основе поиска санитарных мер; и (2) BiasDef превосходит существующие методы, сокращая количество найденных враждебных фрагментов на 15%, что снижает сдвиг в перспективе в ответах в 6,2 раза, при этом позволяя найти на 62% больше безобидных фрагментов. - Bias Injection Attacks on RAG Databases and Sanitization Defenses

См. также другие публикации по теме RAG

Sunday, January 11, 2026

Формальная модель безопасности для ИИ-агентов

Системы агентного ИИ, использующие множество автономных агентов и большие языковые модели (LLM), все чаще применяются для решения сложных многоэтапных задач. Безопасность, защищенность и функциональность этих систем имеют решающее значение, особенно в приложениях с высокими ставками. Однако существующая экосистема межагентного взаимодействия фрагментирована, и такие протоколы, как протокол контекста модели (MCP) для доступа к инструментам и протокол Agent-to-Agent (A2A) для координации, анализируются изолированно. Эта фрагментация создает семантический разрыв, который препятствует тщательному анализу свойств системы и вносит риски, такие как архитектурное несоответствие и уязвимые проблемы координации. Для решения этих проблем мы предлагаем модельную структуру для систем агентного ИИ, состоящую из двух базовых моделей. Первая, модель хост-агента, формализует сущность верхнего уровня, которая взаимодействует с пользователем, декомпозирует задачи и организует их выполнение, используя внешних агентов и инструменты. Вторая модель, модель жизненного цикла задачи, подробно описывает состояния и переходы отдельных подзадач от создания до завершения, обеспечивая детальное представление управления задачами и обработки ошибок. Вместе эти модели обеспечивают единую семантическую основу для рассуждений о поведении многоагентных систем с искусственным интеллектом. На основе этой основы мы определяем 17 свойств для агента-хоста и 14 для жизненного цикла задачи, которые подразделяются на живучесть, безопасность, полноту и справедливость. Выраженные в темпоральной логике, эти свойства позволяют проводить формальную верификацию поведения системы, обнаруживать граничные случаи координации и предотвращать тупики и уязвимости безопасности. В рамках этой работы мы представляем первую строго обоснованную, независимую от предметной области структуру для систематического анализа, проектирования и развертывания корректных, надежных, и устойчивых агентных систем с искусственным интеллектом. - Formalizing the Safety, Security, and Functional Properties of Agentic AI Systems

См. в этой связи подход A2AS

Атаки на мультимодальные LLM

Мы представляем атаку Adversarial Confusion Attack, новый класс угроз против многомодальных больших языковых моделей (MLLM). В отличие от взлома или целенаправленной неправильной классификации, цель состоит в том, чтобы вызвать систематическое нарушение, которое заставляет модель генерировать несогласованные или заведомо неверные результаты. Практические приложения включают встраивание таких состязательных изображений в веб-сайты, чтобы предотвратить надежную работу ИИ-агентов на базе MLLM. Предложенная атака максимизирует энтропию следующего токена, используя небольшой ансамбль MLLM с открытым исходным кодом. В условиях «белого ящика» мы показываем, что одно состязательное изображение может нарушить работу всех моделей в ансамбле, как в условиях полного изображения, так и в условиях Adversarial CAPTCHA. Несмотря на использование базовой состязательной техники (PGD), атака генерирует возмущения, которые переносятся как на неизвестные модели с открытым исходным кодом (например, Qwen3-VL), так и на проприетарные модели (например, GPT-5.1). - Adversarial Confusion Attack: Disrupting Multimodal Large Language Models

См. также другие публикации, посвященные LLM

Saturday, January 10, 2026

Тесты безопасности MCP

Протокол контекста модели (MCP) стандартизирует способы обнаружения, описания и вызова внешних инструментов агентами больших языковых моделей (LLM). Хотя MCP обеспечивает широкую совместимость, он также расширяет поверхность атаки, делая инструменты первоклассными, компонуемыми объектами с метаданными на естественном языке и стандартизированным вводом-выводом. Мы представляем MSB (MCP Security Benchmark), первый комплексный набор инструментов для оценки, который систематически измеряет, насколько хорошо агенты LLM противостоят атакам, специфичным для MCP, на протяжении всего конвейера использования инструментов: планирование задач, вызов инструментов и обработка ответов. MSB включает в себя: (1) таксономию из 12 атак, включая коллизию имен, манипулирование предпочтениями, внедрение подсказок, встроенных в описания инструментов, запросы параметров вне области видимости, ответы, имитирующие пользователя, эскалацию ложных ошибок, передачу инструментов, внедрение запросов на получение и смешанные атаки; (2) оценочный инструмент, который выполняет атаки путем запуска реальных инструментов (как безопасных, так и вредоносных) через MCP, а не симуляцию; и (3) метрика устойчивости, которая количественно оценивает компромисс между безопасностью и производительностью: Net Resilient Performance (NRP). Мы оцениваем девять популярных агентов LLM в 10 областях и более чем 400 инструментах, создавая 2000 экземпляров атак. Результаты показывают эффективность атак против каждого этапа MCP. Модели с более высокой производительностью более уязвимы для атак из-за их выдающихся возможностей вызова инструментов и следования инструкциям. MSB предоставляет практическую основу для исследователей и практиков для изучения, сравнения и повышения устойчивости агентов MCP. - MCP Security Bench (MSB): Benchmarking Attacks Against Model Context Protocol in LLM Agents

См. также другие публикации, посвященные агентам

Какие ваши намерения?

Атаки с непрямым внедрением подсказок (IPIA), при которых большие языковые модели (LLM) следуют вредоносным инструкциям, скрытым во входных данных, представляют собой критическую угрозу для агентов, использующих LLM. В этой статье мы представляем IntentGuard, общую защитную структуру, основанную на анализе намерений, следующих за инструкциями. Ключевая идея IntentGuard заключается в том, что решающим фактором в IPIA является не наличие вредоносного текста, а то, намеревается ли LLM следовать инструкциям из ненадежных данных. Основываясь на этом понимании, IntentGuard использует анализатор намерений, следующих за инструкциями (IIA), для определения того, какие части входной подсказки модель распознает как действенные инструкции, а затем помечает или нейтрализует любые совпадения с сегментами ненадежных данных. Для реализации структуры мы разрабатываем IIA, который использует три стратегии «мыслительного вмешательства» для получения структурированного списка предполагаемых инструкций от LLM, поддерживающих рассуждения. Эти методы включают предварительное заполнение начала мыслительного процесса, уточнение в конце мыслительного процесса и демонстрацию в контексте с помощью состязательных действий. Мы оцениваем IntentGuard на двух агентных бенчмарках (AgentDojo и Mind2Web), используя две модели LLM с поддержкой рассуждений (Qwen-3-32B и gpt-oss-20B). Результаты показывают, что IntentGuard обеспечивает (1) отсутствие снижения полезности во всех условиях, кроме одного, и (2) высокую устойчивость к атакам с адаптивным внедрением подсказок (например, снижение вероятности успеха атаки со 100% до 8,5% в сценарии Mind2Web). - Mitigating Indirect Prompt Injection via Instruction-Following Intent Analysis

См. также другие публикации, посвященные LLM

Friday, January 09, 2026

Малые модели в кибербезопасности

Большие языковые модели (LLM) преобразуют повседневные приложения, однако их внедрение в кибербезопасность отстает из-за отсутствия высококачественных, специализированных моделей и обучающих наборов данных. Для решения этой проблемы мы представляем CyberPal 2.0, семейство малых языковых моделей (SLM) для экспертов в области кибербезопасности, содержащих от 4 до 20 миллиардов параметров. Для обучения CyberPal 2.0 мы генерируем обогащенный набор данных инструкций по кибербезопасности, основанный на цепочке рассуждений, созданный с помощью нашего конвейера обогащения и форматирования данных, SecKnowledge 2.0, который интегрирует управление форматами рассуждений с участием эксперта наряду с многошаговым обоснованием на основе LLM, обеспечивая более точные, основанные на задачах трассировки рассуждений для задач безопасности. В различных тестах кибербезопасности CyberPal 2.0 неизменно превосходит свои базовые показатели и соответствует или превосходит различные передовые модели с открытым и закрытым исходным кодом, оставаясь при этом значительно меньше по размеру. В основных задачах анализа киберугроз наши модели превосходят почти все протестированные передовые модели, занимая второе место после Sec-Gemini v1. В основных задачах расследования угроз, таких как сопоставление уязвимостей и сообщений об ошибках с недостатками, наша лучшая модель с 20 миллиардами параметров превосходит GPT-4o, o1, o3-mini и Sec-Gemini v1, занимая первое место, в то время как наша самая маленькая модель с 4 миллиардами параметров занимает второе место. - Toward Cybersecurity-Expert Small Language Models

См. также другие публикации, посвященные LLM