Wednesday, January 28, 2026

Агенты энтерпрайза

Как на самом деле выглядит готовый к использованию в корпоративной среде ИИ-агент? Без управляемых данных, отказоустойчивой инфраструктуры, оркестровки и человеческого контроля готовые к демонстрации агенты терпят неудачу в производственной среде, создавая риски вместо возврата инвестиций. Проблема не в модели, а в системе, которая её окружает. - Инфографика

См. также другие публикации, посвященные агентам

CWE Top 25

Список 25 самых опасных уязвимостей программного обеспечения CWE освещает наиболее серьезные и распространенные недостатки, лежащие в основе 39 080 записей Common Vulnerabilities and Exposures (CVE™) в наборе данных этого года. Выявление первопричин этих уязвимостей служит мощным ориентиром для инвестиций, политики и практики, направленных на предотвращение их возникновения, что приносит пользу как представителям отрасли, так и государственным заинтересованным сторонам. - MITRE

Позиция 15: Deserialization of Untrusted Data - прямо касается загрузки преобученных моделей ML.

Tuesday, January 27, 2026

Опасно и тревожно

Google удаляет некоторые из своих сводок по ИИ после того, как здоровье пользователей оказалось под угрозой.

Компания Google удалила некоторые из своих обзоров состояния здоровья, созданных с помощью искусственного интеллекта, после того, как расследование Guardian выявило, что люди подвергались риску, получая ложную и вводящую в заблуждение информацию.

Компания заявила, что ее обзоры, созданные с помощью генеративного ИИ и предоставляющие краткие обзоры важной информации по той или иной теме или вопросу, являются «полезными» и «надежными». Однако некоторые из этих обзоров, отображаемые в верхней части результатов поиска, содержали неточную информацию о состоянии здоровья, подвергая пользователей риску.

В одном случае, который эксперты назвали «опасным» и «тревожным», Google предоставил ложную информацию о важнейших анализах функции печени, из-за чего люди с серьезными заболеваниями печени могли ошибочно считать себя здоровыми.

Как выяснила Guardian, при вводе запроса «каков нормальный диапазон анализов крови на функцию печени» отображалось множество цифр, мало контекста и не учитывались национальность, пол, этническая принадлежность или возраст пациентов. Эксперты заявили, что то, что Google AI Overviews называл нормой, может сильно отличаться от того, что на самом деле считалось нормой. Эти сводки могут привести к тому, что тяжелобольные пациенты ошибочно посчитают результаты анализов нормальными и не будут посещать последующие медицинские осмотры.

После расследования компания удалила AI Overviews для поисковых запросов «каков нормальный диапазон анализов крови на функцию печени» и «каков нормальный диапазон анализов функции печени». Представитель Google заявил: «Мы не комментируем отдельные удаления в Поиске. В случаях, когда AI Overviews упускают какой-то контекст, мы работаем над общими улучшениями, а также принимаем меры в соответствии с нашей политикой, когда это необходимо». - отсюда

DocumentDB

DocumentDB — это совместимая с MongoDB база данных документов с открытым исходным кодом, построенная на основе PostgreSQL. Она предлагает нативную реализацию документоориентированной базы данных NoSQL, обеспечивая беспрепятственное выполнение операций CRUD (создание, чтение, обновление, удаление) с данными типа BSON (Binary JSON) в рамках PostgreSQL. Помимо базовых операций, DocumentDB позволяет пользователям выполнять сложные задачи, включая полнотекстовый поиск, геопространственные запросы и векторный поиск, предоставляя надежную функциональность и гибкость для различных потребностей в управлении данными.

Monday, January 26, 2026

Новости NIST

22 декабря 2025 г. Национальный институт стандартов и технологий (NIST) объявил о двух новых национальных инициативах, расширяющих его давнее сотрудничество с MITRE: Центр экономической безопасности ИИ для повышения производительности обрабатывающей промышленности США и Центр экономической безопасности ИИ для защиты критической инфраструктуры США от киберугроз. MITRE будет управлять обоими центрами, сотрудничая с экспертами NIST, промышленностью и академическими кругами для продвижения и ускорения трансформационных решений в области ИИ.

Это расширенное сотрудничество отражает общую приверженность превращению передовых исследований в области ИИ в развертываемые, реальные возможности. Центр повышения производительности обрабатывающей промышленности США сосредоточится на укреплении американского производства путем стимулирования новой промышленной революции, ориентированной на эффективность, качество и инновации. Центр защиты критической инфраструктуры США от киберугроз будет заниматься кибербезопасностью критической инфраструктуры США, обеспечивая обнаружение угроз в режиме реального времени, автоматизацию реагирования, прогнозирование сбоев и анализ больших объемов данных для выявления возникающих рисков.

«Наша цель — устранить барьеры на пути американских инноваций в области ИИ и ускорить применение наших технологий ИИ по всему миру», — заявил исполняющий обязанности заместителя министра торговли по стандартам и технологиям и исполняющий обязанности директора NIST Крейг Буркхардт. «Это новое соглашение с MITRE будет направлено на повышение способности американских компаний более эффективно производить высококачественную продукцию, удовлетворять рыночные потребности внутри страны и за рубежом, а также стимулировать открытие и коммерциализацию новых технологий и устройств».

Центры будут использовать инвестиции MITRE в AI Lab, Federal AI Sandbox, и общедоступные инструменты, такие как ATLAS, CALDERA и ATT&CK.

NIST выпустил драфт Cybersecurity Framework Profile for Artificial Intelligence (NISTIR 8596). Данный профиль помогает организациям задуматься о том, как стратегически внедрять ИИ, одновременно противодействуя возникающим рискам кибербезопасности, связанным со стремительным развитием ИИ.

Установление ИИ-авторства

Википедия завела проект AI Cleanup - поиск контента, созданного ИИ. И написали хорошее руководство по определению искусственного авторства. Есть версия и на русском языке.

Sunday, January 25, 2026

Agentic AI Foundation (AAIF)

Новый проект от Linux Foundation: Linux Foundation объявила о создании Agentic AI Foundation (AAIF) с участием ведущих технических проектов, включая Model Context Protocol (MCP) от Anthropic, goose от Block и AGENTS.md от OpenAI. AAIF обеспечивает нейтральную, открытую основу для прозрачного и совместного развития агентного ИИ.

MCP — это универсальный стандартный протокол для подключения моделей ИИ к инструментам, данным и приложениям; goose — это открытый исходный код, ориентированный на локальные решения, фреймворк для агентов ИИ, который объединяет языковые модели, расширяемые инструменты и стандартизированную интеграцию на основе MCP; AGENTS.md — это простой, универсальный стандарт, предоставляющий агентам ИИ согласованный источник рекомендаций, специфичных для каждого проекта, необходимых для надежной работы в различных репозиториях и инструментальных цепочках.

Появление агентного ИИ представляет собой новую эру автономного принятия решений и координации в системах ИИ, которая преобразует и революционизирует целые отрасли. AAIF предоставляет нейтральную, открытую основу для обеспечения прозрачного, совместного и благоприятного для внедрения ведущих проектов ИИ с открытым исходным кодом развития этой критически важной возможности. Его первые проекты, AGENTS.md, goose и MCP, заложили основу для общей экосистемы инструментов, стандартов и инноваций, управляемых сообществом.

«Мы наблюдаем, как ИИ вступает в новую фазу, поскольку разговорные системы переходят к автономным агентам, которые могут работать вместе. Всего за один год MCP, AGENTS.md и goose стали незаменимыми инструментами для разработчиков, создающих этот новый класс агентных технологий», — сказал Джим Землин, исполнительный директор Linux Foundation. «Объединение этих проектов в рамках AAIF гарантирует их рост с прозрачностью и стабильностью, которые может обеспечить только открытое управление. Linux Foundation гордится тем, что выступает в качестве нейтральной площадки, где они продолжат создавать инфраструктуру ИИ, на которую будет полагаться мир».

MCP

Запуск AAIF состоялся всего через год после выпуска MCP компанией Anthropic, поставщиком передовых систем ИИ, основанных на исследованиях в области безопасности, включая Claude и платформу разработчиков Claude. MCP быстро стал универсальным стандартным протоколом для подключения моделей ИИ к инструментам, данным и приложениям. Более 10 000 опубликованных MCP-серверов охватывают всё — от инструментов для разработчиков до развертываний в компаниях из списка Fortune 500. Протокол был принят такими популярными платформами ИИ, как Claude, Cursor, Microsoft Copilot, Gemini, VS Code, ChatGPT и другими, поскольку разработчики и предприятия отдают предпочтение простому методу интеграции, средствам контроля безопасности и более быстрому развертыванию.

«MCP начинался как внутренний проект для решения проблемы, с которой столкнулись наши собственные команды. Когда мы открыли его исходный код в ноябре 2024 года, мы надеялись, что другие разработчики найдут его таким же полезным, как и мы», — сказал Майк Кригер, директор по продуктам Anthropic. «Год спустя он стал отраслевым стандартом для подключения систем ИИ к данным и инструментам, используемым разработчиками, создающими приложения с помощью самых популярных инструментов для агентного программирования, и предприятиями, развертывающими приложения на AWS, Google Cloud и Azure. Передача MCP в дар Linux Foundation в рамках AAIF гарантирует, что он останется открытым, нейтральным и управляемым сообществом, становясь критически важной инфраструктурой для ИИ. Мы по-прежнему привержены поддержке и развитию MCP, и, учитывая многолетний опыт Linux Foundation в управлении проектами, которые обеспечивают работу интернета, это только начало».

goose

Выпущенный в начале 2025 года, goose — это открытый исходный код, ориентированный на локальные решения, фреймворк для агентов ИИ, который сочетает в себе языковые модели, расширяемые инструменты и стандартизированную интеграцию на основе MCP для обеспечения структурированной, надежной и заслуживающей доверия среды для создания и выполнения агентных рабочих процессов. Разработанный и предоставленный компанией Block, стоящей за Square, Cash App, Afterpay, TIDAL и растущей экосистемой биткоин-проектов, goose предоставляет практическую инфраструктуру, необходимую для безопасного и стабильного развития агентного ИИ.

«Мы находимся в критическом моменте для ИИ. Технология, которая определит следующее десятилетие, которая обещает стать крупнейшим двигателем экономического роста со времен Интернета, может либо оставаться закрытой и проприетарной в интересах немногих, либо развиваться на основе открытых стандартов, открытых технологий».

AGENTS.md

Выпущенный OpenAI в августе 2025 года, AGENTS.md — это простой, универсальный стандарт, предоставляющий агентам ИИ согласованный источник рекомендаций, специфичных для каждого проекта, необходимых для надежной работы в различных репозиториях и инструментальных цепочках. Эта основанная на Markdown система делает поведение агентов гораздо более предсказуемым в различных репозиториях и системах сборки. AGENTS.md уже используется более чем в 60 000 проектах с открытым исходным кодом и фреймворках для агентов, включая Amp, Codex, Cursor, Devin, Factory, Gemini CLI, GitHub Copilot, Jules и VS Code, среди прочих. OpenAI был одним из первых пользователей MCP и внес свой вклад в разработку ACP, Codex CLI, а также SDK для агентов и SDK для приложений для поддержки открытой экосистемы агентов, основанной на общих, совместимых протоколах.

«Для того чтобы агенты ИИ могли полностью раскрыть свой потенциал, разработчикам и предприятиям необходима надежная инфраструктура и доступные инструменты для дальнейшего развития. Став соучредителями AAIF и передав AGENTS.md, мы помогаем внедрять открытые и прозрачные методы, которые делают разработку агентов ИИ более предсказуемой, совместимой и безопасной», — сказал Ник Купер, член технического персонала OpenAI. «OpenAI давно считает, что общие, управляемые сообществом протоколы необходимы для здоровой экосистемы агентов, поэтому мы открыли исходный код ключевых компонентов, таких как Codex CLI, Agents SDK и теперь AGENTS.md. Мы гордимся тем, что работаем вместе с нашими соучредителями над созданием более открытого и надежного будущего для агентного ИИ».

Мониторинг сдвига данных

Обнаружение дрейфа в надежных системах машинного обучения. Необходимое условие для долгосрочного успеха систем машинного обучения

Saturday, January 24, 2026

Еще один протокол агентов

Мы представляем SCP: протокол научного контекста (Science Context Protocol), стандарт с открытым исходным кодом, разработанный для ускорения научных открытий путем создания глобальной сети автономных научных агентов. SCP основан на двух фундаментальных принципах: (1) Единая интеграция ресурсов: В основе SCP лежит универсальная спецификация для описания и вызова научных ресурсов, охватывающая программные инструменты, модели, наборы данных и физические приборы. Эта стандартизация на уровне протокола позволяет агентам и приложениям ИИ беспрепятственно обнаруживать, вызывать и компоновать возможности на различных платформах и в рамках различных институциональных границ. (2) Управление жизненным циклом эксперимента: SCP дополняет протокол защищенной сервисной архитектурой, которая включает централизованный SCP Hub и федеративные SCP-серверы. Эта архитектура управляет полным жизненным циклом эксперимента (регистрация, планирование, выполнение, мониторинг и архивирование), обеспечивает детальную аутентификацию и авторизацию, а также организует отслеживаемые сквозные рабочие процессы, которые связывают вычислительные и физические лаборатории. На основе SCP мы создали платформу для научных открытий, которая предлагает исследователям и агентам крупномасштабную экосистему, включающую более 1600 инструментов. В самых разных областях применения SCP обеспечивает безопасное крупномасштабное сотрудничество между разнородными системами искусственного интеллекта и исследователями-людьми, значительно снижая затраты на интеграцию и повышая воспроизводимость результатов. Стандартизируя научный контекст и координацию инструментов на уровне протокола, SCP создает необходимую инфраструктуру для масштабируемой, межучрежденческой, агентно-ориентированной науки. - SCP: Accelerating Discovery with a Global Web of Autonomous Scientific Agents

См. также другие публикации, посвященные агентам

Графовый RAG

GraphRAG на практике: как создавать экономически эффективные системы поиска с высокой полнотой. Более интеллектуальные стратегии поиска, превосходящие плотные графы — с гибридными конвейерами и более низкой стоимостью.

См. также другие публикации по теме RAG

Friday, January 23, 2026

Публикации по теме Искусственный интеллект в кибербезопасности 23.01.2026

Вопросы безопасности систем ИИ рассматриваются в двух магистерских программах факультета ВМК МГУ имени М.В. Ломоносова: Искусственный интеллект в кибербезопасности и Кибербезопасность. Ниже приведен список публикаций, подготовленных в процессе реализации этих программ по состоянию на 28.09.2025

Ильюшин Е. А., Намиот Д. Е. An approach to the automatic enhancement of the robustness of ml models to external influences on the example of the problem of biometric speaker identification by voice // International Journal of Open Information Technologies. — 2021. — Vol. 9, no. 6. — P. 11–19.

Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Текущие академические и индустриальные проекты, посвященные устойчивому машинному обучению // International Journal of Open Information Technologies. — 2021. — Т. 9, № 10. — С. 35–46.

Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Основания для работ по устойчивому машинному обучению // International Journal of Open Information Technologies. — 2021. — Т. 9, № 11. — С. 68–74.

Намиот Д. Е., Ильшин Е. А., Чижов И. В. Военные применения машинного обучения // International Journal of Open Information Technologies. — 2022. — Т. 10, № 1. — С. 69–76.

Ильюшин Е. А., Намиот Д. Е., Чижов И. В. Атаки на системы машинного обучения – общие проблемы и методы // International Journal of Open Information Technologies. — 2022. — Т. 10, № 3. — С. 17–22.

Namiot D., Ilyushin E. On monitoring of machine learning models // Distributed Computer and Communication Networks: Control, Computation, Communications (DCCN-2022) : материалы XXV международной научной конференции: Москва, 26–30 сентября 2022 года / под общ. ред. В. М. Вишневского и К. Е. Самуйлова. — РУДН Москва: 2022. — P. 150–157.

Namiot D., Ilyushin E., Chizhov I. On a formal verification of machine learning systems // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 5. — P. 30–34.

Huayu L., Namiot D. A survey of adversarial attacks and defenses for image data on deep learning // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 5. — P. 9–16.

Намиот Д., Ильюшин Е., Пилипенко О. Доверенные платформы искусственного интеллекта // International Journal of Open Information Technologies. — 2022. — Т. 10, № 7. — С. 119–127.

Намиот Д., Ильюшин Е. Порождающие модели в машинном обучении // International Journal of Open Information Technologies. — 2022. — Т. 10, № 7. — С. 101–118.

Биджиев Т. М., Намиот Д. Е. Исследование существующих подходов к встраиванию вредоносного программного обеспечения в искусственные нейронные сети // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 21–31.

Намиот Д. Е., Ильюшин Е. А. Об устойчивости и безопасности систем искусственного интеллекта // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 126–134.

Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Искусственный интеллект и кибербезопасность // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 135–147.

Stroeva E., Tonkikh A. Methods for formal verification of artificial neural networks: A review of existing approaches // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 10. — P. 3.

Намиот Д., Ильюшин Е. Мониторинг сдвига данных в моделях машинного обучения // International Journal of Open Information Technologies. — 2022. — Т. 10, № 12. — С. 84–93.

Костюмов, Василий Владимирович. "Обзор и систематизация атак уклонением на модели компьютерного зрения." International Journal of Open Information Technologies 10.10 (2022): 11-20.

Намиот Д. Е., Ильюшин Е. А. О причинах неудач проектов машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 1. — С. 60–69.

Намиот Д. Е. Введение в атаки отравлением на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 3. — С. 58–68.

Namiot D. E., Ilyushin E., Chizhov I. On the practical generation of counterfactual examples // Труды Института системного анализа Российской академии наук. — 2023. — Vol. 73, no. 1. — P. 73–81.

Junzhe S., Namiot D. E. A survey of model inversion attacks and countermeasures // Труды Института системного анализа Российской академии наук. — 2023. — Vol. 73, no. 1. — P. 82–93.

Junzhe S., Namiot D. A survey of the implementations of model inversion attacks // Communications in Computer and Information Science. — 2023. — Vol. 1748. — P. 3–16.

Намиот Д. Е. Схемы атак на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 5. — С. 68–86.

On the evasion attack detector / L. Huayui, V. Kostyumov, O. Pilipenko, D. Namiot // DCCN 2023. Материалы конференции. — ИПУ РАН Москва: 2023. — P. 183–188.

Junzhe S., Namiot D. On the machine learning models inversion attack detector // DCCN 2023. Материалы конференции. — ИПУ РАН Москва: 2023. — P. 194.

Lozinskii I., Kostyumov V., Stroeva E. Extraction of trigger and mask from poisoned data using modified activation clustering and neural cleanse methods // International Journal of Open Information Technologies. — 2023. — Vol. 11, no. 7. — P. 1

Чехонина, Екатерина Андреевна, and Василий Владимирович Костюмов. "ОБЗОР СОСТЯЗАТЕЛЬНЫХ АТАК И МЕТОДОВ ЗАЩИТЫ ДЛЯ ДЕТЕКТОРОВ ОБЪЕКТОВ." International Journal of Open Information Technologies 11.7 (2023): 11-20.

Пришлецов Д. Е., Пришлецов С. Е., Намиот Д. Е. Камуфляж как состязательные атаки на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 9. — С. 41–49.

Намиот Д. Е., Зубарева Е. В. О работе ai red team // International Journal of Open Information Technologies. — 2023. — Т. 11, № 10. — С. 130–139.

Намиот Д. Е., Ильюшин Е. А. Доверенные платформы искусственного интеллекта: сертификация и аудит // International Journal of Open Information Technologies. — 2024. — Т. 12, № 1. — С. 43–60.

Киржинов Д. А., Ильюшин Е. А. Сравнительный анализ алгоритмов атак и защиты на графовые архитектуры ИНС // International Journal of Open Information Technologies. — 2024. — Т. 12, № 2.

Намиот Д. Е., Романов В. Ю. Об улучшении робастности моделей машинного обучения // International Journal of Open Information Technologies. — 2024. — Т. 12, № 3. — С. 88–98.

Junzhe S., Namiot D. On real-time model inversion attacks detection // Lecture Notes in Computer Science. — 2024. — Vol. 14123. — P. 56–67.

Мударова Р. М., Намиот Д. Е. Противодействие атакам типа инъекция подсказок на большие языковые модели // International Journal of Open Information Technologies. — 2024. — Т. 12, № 5. — С. 39–48.

Намиот Д. Е., Ильюшин Е. А. Искусственный интеллект в кибербезопасности: поиск вредоносного программного обеспечения // International Journal of Open Information Technologies. — 2024. — Т. 12, № 6. — С. 143–149.

Lebed, S. V., et al. "Large Language Models in Cyberattacks." Doklady Mathematics. Vol. 110. No. Suppl 2. Moscow: Pleiades Publishing, 2024.

Селевенко Р. М., Строева Е. Н. Исследование и разработка алгоритма формальной верификации и метрики оценки качества на основе методов понижения размерности ИНС // INJOIT. — 2024. — Т. 12, № 6. — С. 2.

Биджиев Т. М., Намиот Д. Е. Атаки на модели машинного обучения, основанные на фреймворке pytorch // Автоматика и телемеханика. — 2024. — № 3. — С. 38–50.

Намиот Д. Е., Ильюшин Е. А. О сертификации систем искусственного интеллекта // Физика элементарных частиц и атомного ядра. — 2024. — Т. 55, № 3. — С. 530–536.

Намиот Д. Е., Куприяновский В. П., Пичугов А. А. Состязательные атаки для автономных транспортных средств // International Journal of Open Information Technologies. — 2024. — Т. 12, № 7. — С. 139–149.

Намиот Д. Е. О кибератаках с помощью систем Искусственного интеллекта // International Journal of Open Information Technologies. — 2024. — Т. 12, № 9. — С. 132–141.

Воробьев, Егор Александрович. "Анализ состязательных атак на системы сегментации изображений." International Journal of Open Information Technologies 12.10 (2024): 1-25.

Намиот Д. Е., Ильюшин Е. А. О киберрисках генеративного Искусственного Интеллекта // International Journal of Open Information Technologies. — 2024. — Т. 12, № 10. — С. 109–119.

Порывай, Максим Викторович. "Сравнительное исследование методов естественной аугментации изображений." International Journal of Open Information Technologies 12.10 (2024): 26-33.

Герасименко, Денис Валерьевич, and Дмитрий Евгеньевич Намиот. "Извлечение тренировочных данных: Риски и решения в контексте безопасности LLM." International Journal of Open Information Technologies 12.11 (2024): 9-19.

Костиков, Егор Вячеславович. "Методы анализа логов Sysmon для обнаружения киберугроз." International Journal of Open Information Technologies 12.11 (2024): 25-34.

Намиот Д. Е., Ильюшин Е. А. Архитектура LLM агентов //International Journal of Open Information Technologies. – 2025. – Т. 13. – №. 1. – С. 67-74.

Воробьев Е. А., Намиот Д. Е. Состязательное тестирование моделей сегментации изображений // Программная инженерия. — 2025. — Т. 16, № 4. — С. 190–198.

Намиот, Д. Е., and Е. А. Ильюшин. "Об оценке доверия к системам Искусственного интеллекта." International Journal of Open Information Technologies 13.3 (2025): 75-90.

Хамзаева, М. А., and О. Р. Лапонина. "Повышение устойчивости к состязательным атакам моделей машинного обучения для обнаружения межсайтового выполнения сценариев." International Journal of Open Information Technologies 13.6 (2025): 25-33.

Бербер, Д. В., and О. Р. Лапонина. "Разработка подходов к увеличению устойчивости моделей машинного обучения для обнаружения распределенных атак отказа обслуживания." International Journal of Open Information Technologies 13.6 (2025): 16-24.

Егорова, Е. С., and О. Р. Лапонина. "Состязательное тестирование моделей машинного обучения, предназначенных для обнаружения SQL-инъекций." International Journal of Open Information Technologies 13.6 (2025): 34-41.

Лапонина, О. Р., and Р. Н. Костин. "Разработка программного обеспечения моделирования угроз для систем на базе LLM-агентов." International Journal of Open Information Technologies 13.6 (2025): 132-146.

Намиот, Д. Е. "Что LLM знает о кибербезопасности." International Journal of Open Information Technologies 13.7 (2025): 37-46.

Намиот, Д. Е. "Искусственный Интеллект в. Кибербезопасности. Хроника. Выпуск 1." International Journal of Open Information Technologies 13.9 (2025): 34-42.

Намиот, Д. Е., and Е. А. Ильюшин. "О кибербезопасности ИИ-агентов." International Journal of Open Information Technologies 13.9 (2025): 13-24.

Егоров, М. Э., et al. "Объяснения моделей машинного обучения и состязательные атаки." International Journal of Open Information Technologies 13.9 (2025): 50-59.

Намиот, Д. Е., and Е. А. Ильюшин. "Уязвимости экосистемы MCP." International Journal of Open Information Technologies 13.10 (2025): 74-82.

Намиот, Д. Е. "Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 2." International Journal of Open Information Technologies 13.10 (2025): 58-67.

Poryvai, Maxim, and Dmitry Namiot. "On Natural Image Augmentation to Increase Robustness of Machine Learning Models." 2025 International Russian Automation Conference (RusAutoCon). IEEE, 2025.

Namiot D., Zubareva E. On open datasets for llm adversarial testing // Communications in Computer and Information Science. — 2025. — Vol. 2641. — P. 137–148. 

Намиот, Д. Е. "Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 3." International Journal of Open Information Technologies 13.11 (2025): 169-179.

Намиот, Д. Е. "Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 4." International Journal of Open Information Technologies 14.1 (2026): 81-94.

О защите цифровых двойников

Цифровой двойник (ЦД) — это передовая технология, получившая широкое распространение в последние годы, демонстрирующая огромный потенциал для моделирования процессов и предоставления ценной информации для улучшения и оптимизации систем. Благодаря высокой степени точности воспроизведения реальных процессов, ЦД изучаются для таких сложных приложений, как обман и проактивная защита критически важных инфраструктур. Однако это же преимущество вызывает опасения в отношении уязвимости системы, поскольку детальное цифровое представление может создавать новые риски кибербезопасности. С целью содействия развитию этой технологии в данной статье представлено адаптивное решение на основе ЦД, которое упрощает настройку отдельных компонентов цифровой системы, адаптируя различные сценарии применения специально для целей защиты, обмана и тестирования. Наконец, предложенная архитектура тестируется в конкретном сценарии использования, ориентированном на Интернет вещей (IoT), для проверки, экспериментирования и получения выводов о предлагаемом решении. - Adaptive Digital Twin: Protection, deception, and testing

См. также другие публикации, посвященные digital twins

Открытый Red Teaming

В связи с тем, что большие языковые модели (LLM) все чаще используются в средах высокого риска, тестирование на проникновение (red-teaming) становится одним из важнейших методов выявления потенциально опасного поведения, взлома и уязвимостей злоумышленников до фактического обнаружения в ходе реальной атаки. В последнее время было разработано большое количество общедоступных, основанных на исследованиях и открытых инструментов, которые помогают автоматизировать или иным образом улучшить процесс тестирования на проникновение. Хотя эти инструменты сильно различаются по подходу к проблеме, охватываемому диапазону функций и уровню развития, не существует единого источника информации, описывающего текущий ландшафт общедоступных инструментов для тестирования на проникновение в большие языковые модели. Таким образом, в данной статье будет представлен систематический анализ различных фреймворков, используемых для тестирования LLM на предмет уязвимости, путем изучения методологий каждого фреймворка, различных типов атак, стратегий, используемых каждым фреймворком, уровней автоматизации, обеспечиваемых каждым фреймворком, и целей каждого фреймворка, связанных с оценкой безопасности фреймворка. В статье также будут рассмотрены общие черты, преимущества/недостатки и операционные ограничения каждого фреймворка, а также определены области, где инструменты тестирования на предмет уязвимости не обладают достаточными возможностями, такими как: выполнение многошаговых атак с длительным горизонтом, использование взаимодействия агента/инструмента, тестирование на нескольких языках и создание динамических адаптивных циклов атак. Конечная цель авторов данной статьи — помочь исследователям, разработчикам и пользователям систем, использующих LLM, понять текущее состояние общедоступных инструментов тестирования на предмет уязвимости для LLM и дать рекомендации по будущим направлениям разработки надежных, масштабируемых и всеобъемлющих инструментов тестирования на предмет уязвимости для LLM. - Survey of Public Red-Teaming Frameworks for LLM: Techniques, Coverage, and Gaps

См. также другие публикации, посвященные LLM

Thursday, January 22, 2026

Жизнь и судьба RAG

Умер ли RAG? Как генерация с использованием дополненной информации эволюционирует от статических конвейеров к управляемым, контекстно-ориентированным системам, которые делают ИИ более объяснимым, заслуживающим доверия и масштабируемым - The Rise of Context Engineering and Semantic Layers for Agentic AI

См. также другие публикации по теме RAG

Извлечение тренировочных данных

Большие языковые модели (LLM) склонны к запоминанию обучающих данных, что создает серьезные риски для конфиденциальности. Две наиболее серьезные проблемы — это извлечение обучающих данных и атаки на определение принадлежности (MIA). Предыдущие исследования показали, что эти угрозы взаимосвязаны: злоумышленники могут извлекать обучающие данные из LLM, запрашивая у модели генерацию большого объема текста и впоследствии применяя MIA, чтобы проверить, была ли конкретная точка данных включена в обучающий набор. В этом исследовании мы интегрируем несколько методов MIA в конвейер извлечения данных, чтобы систематически оценить их эффективность. Затем мы сравниваем их производительность в этой интегрированной среде с результатами обычных тестов MIA, что позволяет нам оценить их практическую полезность в реальных сценариях извлечения. - On the Effectiveness of Membership Inference in Targeted Data Extraction from Large Language Models

См. также другие публикации, посвященные LLM

Wednesday, January 21, 2026

Спросить за данные

Промпт-инжениринг для анализа и обработки данных

Аномалии в изображениях

Несмотря на впечатляющие результаты глубоких нейронных сетей (DNN) в классификации изображений, их уязвимость к атакам со стороны злоумышленников остается серьезной проблемой. Большинство существующих методов обнаружения основаны на сложных и плохо интерпретируемых архитектурах, которые ставят под угрозу интерпретируемость и обобщаемость. Для решения этой проблемы мы предлагаем FeatureLens — легковесную структуру, которая действует как линза для анализа аномалий в признаках изображений. FeatureLens, включающая в себя экстрактор признаков изображений (IFE) и неглубокие классификаторы (например, SVM, MLP или XGBoost) с размерами моделей от 1000 до 30000 параметров, достигает высокой точности обнаружения — от 97,8% до 99,75% при оценке в замкнутом наборе данных и от 86,17% до 99,6% при оценке обобщаемости в атаках FGSM, PGD, C&W и DAmageNet, используя только 51-мерные признаки. Благодаря сочетанию высокой эффективности обнаружения с превосходной обобщающей способностью, интерпретируемостью и вычислительной эффективностью, FeatureLens предлагает практический путь к прозрачной и эффективной защите от враждебных действий. - FeatureLens: A Highly Generalizable and Interpretable Framework for Detecting Adversarial Examples Based on Image Features

P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Tuesday, January 20, 2026

Систематизация безопасности MCP

Протокол контекста модели (MCP) стал фактически стандартом для подключения больших языковых моделей (LLM) к внешним данным и инструментам, фактически функционируя как «USB-C для агентного ИИ». Хотя это разделение контекста и исполнения решает критически важные проблемы совместимости, оно создает совершенно новый ландшафт угроз, где граница между эпистемическими ошибками (галлюцинациями) и нарушениями безопасности (несанкционированными действиями) размывается. Данная систематизация знаний (SoK) направлена на предоставление всеобъемлющей таксономии рисков в экосистеме MCP, различая враждебные угрозы безопасности (например, косвенное внедрение подсказок, отравление инструментов) и эпистемические угрозы безопасности (например, сбои выравнивания в распределенном делегировании инструментов). Мы анализируем структурные уязвимости примитивов MCP, в частности ресурсов, подсказок и инструментов, и демонстрируем, как «контекст» может быть использован для запуска несанкционированных операций в многоагентных средах. Кроме того, мы рассматриваем современные методы защиты, от криптографической проверки происхождения (ETDI) до проверки намерений во время выполнения, и завершаем дорожной картой по обеспечению безопасности перехода от разговорных чат-ботов к автономным агентным операционным системам. - Systematization of Knowledge: Security and Safety in the Model Context Protocol Ecosystem

См. также другие публикации, посвященные MCP

О поведении агентов

Агенты на основе LLM продемонстрировали многообещающую адаптивность в реальных приложениях. Однако эти агенты остаются уязвимыми для широкого спектра атак, таких как отравление инструментов и вредоносные инструкции, которые нарушают поток их выполнения и могут привести к серьезным последствиям, таким как утечка данных и финансовые потери. Существующие исследования обычно пытаются смягчить такие аномалии путем предварительного определения конкретных правил и их применения во время выполнения для повышения безопасности. Тем не менее, разработка всеобъемлющих правил сложна, требует значительных ручных усилий и все еще оставляет пробелы, которые приводят к ложным отрицательным результатам. Поскольку агентные системы развиваются в сложные программные системы, мы, вдохновленные безопасностью программных систем, предлагаем TraceAegis, аналитическую структуру, основанную на происхождении данных, которая использует трассировки выполнения агентов для обнаружения потенциальных аномалий. В частности, TraceAegis строит иерархическую структуру для абстрагирования стабильных единиц выполнения, которые характеризуют нормальное поведение агентов. Затем эти единицы суммируются в ограниченные поведенческие правила, которые определяют условия, необходимые для выполнения задачи. Проверяя трассировки выполнения на соответствие как иерархическим, так и поведенческим ограничениям, TraceAegis способен эффективно обнаруживать аномальное поведение. Для оценки эффективности TraceAegis мы представляем TraceAegis-Bench, набор данных, охватывающий два репрезентативных сценария: здравоохранение и корпоративные закупки. Каждый сценарий включает 1300 безобидных и 300 аномальных поведений, где аномалии либо нарушают порядок выполнения агента, либо нарушают семантическую согласованность его последовательности выполнения. Экспериментальные результаты показывают, что TraceAegis демонстрирует высокую производительность на TraceAegis-Bench, успешно выявляя большинство аномальных поведений. Мы дополнительно подтверждаем практичность TraceAegis с помощью внутреннего процесса тестирования на проникновение, проведенного в технологической компании, где он эффективно обнаруживает аномальные трассировки, сгенерированные атаками «красной команды». - TraceAegis: Securing LLM-Based Agents via Hierarchical and Behavioral Anomaly Detection

См. также другие публикации, посвященные агентам

Monday, January 19, 2026

Атаки на code-review

Использование больших языковых моделей (LLM) в качестве автоматических судей для оценки кода становится все более распространенным в академической среде. Однако их надежность может быть скомпрометирована студентами, которые могут использовать враждебные стратегии подсказок, чтобы добиться неправильной оценки и получить незаслуженные академические преимущества. В этой статье мы представляем первое крупномасштабное исследование взлома автоматизированных систем оценки кода на основе LLM в академическом контексте. Наши достижения заключаются в следующем: (i) Мы систематически адаптируем более 20 стратегий взлома для взлома систем оценки кода на основе ИИ в академическом контексте, определяя новый класс атак, называемый академическим взломом. (ii) Мы публикуем модифицированный набор данных, содержащий 25 000 состязательных студенческих работ, специально разработанный для академической оценки кода, полученный из различных реальных учебных курсов и дополненный рубриками и оценками, выставленными людьми, и (iii) Чтобы уловить многомерное воздействие академического взлома, мы систематически адаптируем и определяем три метрики взлома (успех взлома, завышение оценок и вредоносность). (iv) Мы всесторонне оцениваем атаки академического взлома с использованием шести моделей LLM. Мы обнаруживаем, что эти модели демонстрируют значительную уязвимость, особенно к атакам, основанным на убеждении и ролевых играх (до 97% успеха взлома). Наш набор данных и набор эталонных тестов закладывают основу для надежных оценщиков следующего поколения на основе моделей LLM в академической оценке кода. - How to Trick Your AI TA: A Systematic Study of Academic Jailbreaking in LLM Code Evaluation

Систематическое изложение техник джелбрейка и их применение к оценке программного кода

См. также другие публикации, посвященные LLM

Открытая наука, том 14, номер 1

Очередной номер журнала INJOIT появился на сайте Киберленинка.

Это том 14, номер 1 за 2026 год. Новое пополнение для списка работ по теме Искусственный интеллект в кибербезопасности

/via Лаборатория ОИТ

Адаптивные атаки

Как следует оценивать надежность защиты языковых моделей? Существующие средства защиты от взлома и внедрения подсказок (которые направлены на предотвращение получения злоумышленником вредоносных знаний или удаленного запуска вредоносных действий соответственно) обычно оцениваются либо на статическом наборе вредоносных строк атаки, либо на вычислительно слабых методах оптимизации, которые не были разработаны с учетом цели защиты. Мы утверждаем, что этот процесс оценки ошибочен. Вместо этого следует оценивать средства защиты от адаптивных злоумышленников, которые явно изменяют свою стратегию атаки, чтобы противостоять конструкции защиты, одновременно затрачивая значительные ресурсы на оптимизацию своей цели. Путем систематической настройки и масштабирования общих методов оптимизации — градиентного спуска, обучения с подкреплением, случайного поиска и исследования под руководством человека — мы обходим 12 недавних средств защиты (основанных на разнообразном наборе методов) с вероятностью успеха атаки выше 90% для большинства из них; что важно, большинство средств защиты первоначально сообщали о почти нулевой вероятности успеха атаки. Мы считаем, что в будущих работах по обороне необходимо учитывать более сильные атаки, подобные тем, которые мы описываем, чтобы обосновать надежные и убедительные утверждения об их устойчивости. - The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and Prompt Injections

Среди авторов - Nicholas Carlini

См. также другие публикации, посвященные LLM

Sunday, January 18, 2026

GNN

Хороший учебный материал - GNN (Graph Neural Net) Explained— Intuition, Concepts, Applications

См. также другие публикации посвещенные графам

Как обезопасить MCP

Большие языковые модели (LLM) превратились в агентов искусственного интеллекта, взаимодействующих с внешними инструментами и средами для выполнения сложных задач. Протокол контекста модели (MCP) стал стандартом де-факто для подключения агентов к таким ресурсам, но безопасность отстает: тысячи MCP-серверов работают с неограниченным доступом к хост-системам, создавая широкую поверхность атаки. В этой статье мы представляем AgentBound, первую структуру контроля доступа для MCP-серверов. AgentBound сочетает декларативный механизм политик, вдохновленный моделью разрешений Android, с механизмом принудительного применения политик, который сдерживает вредоносное поведение без необходимости модификации MCP-серверов. Мы создаем набор данных, содержащий 296 наиболее популярных MCP-серверов, и показываем, что политики контроля доступа могут генерироваться автоматически из исходного кода с точностью 80,9%. Мы также показываем, что AgentBound блокирует большинство угроз безопасности на нескольких вредоносных MCP-серверах, и что механизм принудительного применения политик вносит незначительные накладные расходы. Наши разработки предоставляют разработчикам и менеджерам проектов практическую основу для обеспечения безопасности серверов MCP при сохранении производительности, позволяя исследователям и разработчикам инструментов изучать новые направления в области декларативного контроля доступа и безопасности MCP. - Securing AI Agent Execution

См. также другие публикации, посвященные LLM

Saturday, January 17, 2026

А поговорить?

Большие языковые модели (LLM) произвели революцию в разговорном ИИ, однако их устойчивость в длительных многоходовых диалогах остается плохо изученной. Существующие оценочные модели сосредоточены на статических эталонах и оценках отдельных ходов, не учитывая временную динамику ухудшения качества разговора, характерную для реальных взаимодействий. В этой работе мы представляем крупномасштабный анализ устойчивости разговора, моделирующий сбой как процесс «время до события» на протяжении 36 951 хода с использованием 9 современных LLM на эталоне MT-Consistency. Наша модель сочетает в себе модели пропорциональных рисков Кокса, ускоренного времени сбоя (AFT) и случайного леса выживания с простыми признаками семантического дрейфа. Мы обнаружили, что резкий семантический дрейф от подсказки к подсказке резко увеличивает риск несогласованности, в то время как кумулятивный дрейф, вопреки интуиции, оказывает защитное действие, предполагая адаптацию в разговорах, которые выдерживают множественные изменения. Модели AFT, с учетом взаимодействия модели и дрейфа, обеспечивают наилучшее сочетание дискриминации и калибровки, а проверки пропорциональных рисков выявляют систематические нарушения для ключевых ковариат дрейфа, объясняя ограничения моделирования в стиле Кокса в данном контексте. Наконец, мы показываем, что облегченную модель AFT можно превратить в монитор риска на уровне репликации, который отмечает большинство неудачных диалогов за несколько реплик до первого противоречивого ответа, при этом сохраняя низкий уровень ложных срабатываний. Эти результаты подтверждают, что анализ выживаемости является мощной парадигмой для оценки устойчивости к многорепетиционным ситуациям и для разработки практических мер защиты для разговорных систем искусственного интеллекта. - Time-To-Inconsistency: A Survival Analysis of Large Language Model Robustness to Adversarial Attacks

Интересная идея - проверять нужно не отдельные фразы, а диалог

См. также другие публикации, посвященные LLM

Агентные процессы

Агентный ИИ знаменует собой серьезный сдвиг в том, как автономные системы рассуждают, планируют, и выполняют многоэтапные задачи. В отличие от традиционного подхода с использованием одной модели, агентные рабочие процессы интегрируют множество специализированных агентов с различными большими языковыми моделями (LLM), возможностями, дополненными инструментами, логикой оркестровки, и взаимодействиями с внешними системами для формирования динамических конвейеров, способных к автономному принятию решений и действиям. По мере ускорения внедрения в промышленности и научных исследованиях организации сталкиваются с центральной проблемой: как проектировать, разрабатывать и эксплуатировать рабочие процессы агентного ИИ производственного уровня, которые являются надежными, наблюдаемыми, поддерживаемыми и соответствуют требованиям безопасности и управления. В данной статье представлено практическое комплексное руководство по проектированию, разработке и развертыванию систем агентного ИИ производственного качества. Мы представляем структурированный жизненный цикл проектирования, охватывающий декомпозицию рабочих процессов, шаблоны проектирования многоагентных систем, протокол контекста модели (MCP), интеграцию инструментов, детерминированную оркестровку, соображения ответственного ИИ, и стратегии развертывания с учетом окружающей среды. Далее мы представляем девять основных лучших практик проектирования рабочих процессов агентного ИИ производственного уровня, включая проектирование с приоритетом инструментов вместо MCP, вызов чистых функций, агенты с одним инструментом и одной ответственностью, внешнее управление подсказками, проектирование модельного консорциума в соответствии с ResponsibleAI, четкое разделение между логикой рабочего процесса и серверами MCP, контейнеризированное развертывание для масштабируемых операций и соблюдение принципа «Keep it Simple, Stupid» (KISS) для поддержания простоты и надежности. Чтобы продемонстрировать эти принципы на практике, мы представляем всестороннее тематическое исследование: многомодальный рабочий процесс анализа новостей и генерации медиаконтента. Объединяя архитектурные рекомендации, операционные шаблоны и практические идеи по реализации, эта статья предлагает фундаментальный справочник для создания надежных, расширяемых и готовых к производству рабочих процессов агентного ИИ. - A Practical Guide for Designing, Developing, and Deploying Production-Grade Agentic AI Workflows

См. также другие публикации, посвященные агентам

Friday, January 16, 2026

Модель безопасности ИИ-агентов

STRATA-8 - основанная на доказательствах модель безопасности ИИ-агентов

См. также другие публикации, посвященные агентам

Агент-бэкдорщик

Атаки с использованием бэкдоров представляют серьезную угрозу для безопасного развертывания больших языковых моделей (LLM), позволяя злоумышленникам внедрять скрытое поведение, запускаемое определенными входными данными. Однако существующие методы часто основаны на вручную созданных триггерах и статических конвейерах обработки данных, которые являются жесткими, трудоемкими и неадекватными для систематической оценки надежности современных средств защиты. По мере того, как агенты ИИ становятся все более совершенными, возрастает потребность в более строгих, разнообразных и масштабируемых системах тестирования на проникновение, которые могут реалистично имитировать угрозы с использованием бэкдоров и оценивать устойчивость модели в условиях противодействия. В этой работе мы представляем AUTOBACKDOOR, общую структуру для автоматизации внедрения бэкдоров, включающую генерацию триггеров, создание отравленных данных и тонкую настройку модели с помощью автономного конвейера, управляемого агентом. В отличие от предыдущих подходов, AutoBackdoor использует мощный агент языковой модели для генерации семантически согласованных, контекстно-зависимых триггерных фраз, что позволяет масштабируемо отравлять контент по произвольным темам с минимальными человеческими усилиями. Мы оцениваем AutoBackdoor в трех реалистичных сценариях угроз, включая рекомендации, основанные на предвзятости, внедрение галлюцинаций и манипулирование экспертной оценкой, чтобы смоделировать широкий спектр атак. Эксперименты как на моделях с открытым исходным кодом, так и на коммерческих моделях, включая LLaMA-3, Mistral, Qwen и GPT-4o, демонстрируют, что наш метод достигает более 90% успеха атак всего лишь с небольшим количеством отравленных образцов. Что еще важнее, мы обнаружили, что существующие средства защиты часто не справляются с смягчением этих атак, что подчеркивает необходимость более строгих и адаптивных методов оценки угроз, управляемых агентами, как это исследовано в данной работе. Весь код, наборы данных и экспериментальные конфигурации будут объединены в наш основной репозиторий по адресу https://github.com/bboylyg/BackdoorLLM - AutoBackdoor: Automating Backdoor Attacks via LLM Agents

См. также другие публикации, посвященные агентам

Thursday, January 15, 2026

Кибер-Берт

Эффективный анализ данных в области кибербезопасности и анализа угроз требует языковых моделей, способных интерпретировать специализированную терминологию, сложные структуры документов и взаимозависимость естественного языка и исходного кода. Архитектуры трансформеров, использующие только кодировщик, предлагают эффективные и надежные представления, поддерживающие критически важные задачи, такие как семантический поиск, извлечение технических сущностей и семантический анализ — ключевые для автоматического обнаружения угроз, сортировки инцидентов и оценки уязвимостей. Однако универсальные языковые модели, как правило, не обладают необходимой адаптацией к предметной области для обеспечения высокой точности в этих контекстах. Мы представляем SecureBERT 2.0, улучшенную языковую модель, использующую только кодировщик, специально разработанную для приложений кибербезопасности. Используя архитектуру ModernBERT, SecureBERT 2.0 внедряет улучшенное моделирование длинных контекстов и иерархическое кодирование, что позволяет эффективно обрабатывать расширенные и гетерогенные документы, включая отчеты об угрозах и артефакты исходного кода. Предварительно обученная на корпусе, в тринадцать раз превышающем по размеру корпус ее предшественника и включающем более 13 миллиардов текстовых токенов и 53 миллиона кодовых токенов из различных реальных источников, SecureBERT 2.0 достигает самых современных результатов на множестве тестов в области кибербезопасности. Экспериментальные результаты демонстрируют существенные улучшения в семантическом поиске для анализа угроз, семантическом анализе, распознавании именованных сущностей, специфичных для кибербезопасности, и автоматическом обнаружении уязвимостей в коде в области кибербезопасности. - SecureBERT 2.0: Advanced Language Model for Cybersecurity Intelligence

Агент-разведчик

Атаки вывода (доступ к данным обучения моделей) широко изучались и предлагают систематическую оценку рисков сервисов машинного обучения; однако их реализация и параметры атаки для оптимальной оценки представляют собой сложную задачу для неспециалистов. Появление продвинутых больших языковых моделей открывает многообещающую, но в значительной степени неизученную возможность разработки автономных агентов в качестве экспертов по атакам на основе логического вывода, что помогает решить эту проблему. В этой статье мы предлагаем AttackPilot, автономного агента, способного самостоятельно проводить атаки на основе логического вывода без вмешательства человека. Мы оцениваем его на 20 целевых сервисах. Оценка показывает, что наш агент, использующий GPT-4o, достигает 100% выполнения задач и почти экспертной эффективности атаки со средней стоимостью токена всего 0,627 доллара США за запуск. Агент также может работать на основе многих других репрезентативных больших языковых моделей и может адаптивно оптимизировать свою стратегию с учетом ограничений сервиса. Мы также проводим анализ трассировки, демонстрируя, что такие проектные решения, как многоагентная структура и пространства действий, специфичные для каждой задачи, эффективно снижают вероятность ошибок, таких как неверные планы, неспособность следовать инструкциям, потеря контекста задачи и галлюцинации. Мы предполагаем, что такие агенты могут позволить неспециалистам в области машинного обучения, аудиторам или регулирующим органам систематически оценивать риски услуг машинного обучения без необходимости глубоких знаний в предметной области. - AttackPilot: Autonomous Inference Attacks Against ML Services With LLM-Based Agents

См. также другие публикации, посвященные агентам

Wednesday, January 14, 2026

Граф знаний для кода

MCP-сервер, который строит граф знаний вашего кода и дает LLM «архитектурное зрение», превращая ее из простого кодера в настоящего цифрового ассистента - отсюда

См. также другие публикации, посвященные MCP

Большой эксперт безопасности

Потребность в обеспечении безопасности системы в режиме реального времени приводит к тому, что правила обнаружения становятся неотъемлемой частью жизненного цикла обнаружения вторжений. Обнаружение на основе правил часто выявляет вредоносные журналы на основе предопределенной грамматической логики, что требует от экспертов глубоких знаний в предметной области для генерации правил. Поэтому автоматизация генерации правил может привести к значительной экономии времени и облегчить нагрузку на инженеров по безопасности, выполняющих задачи, связанные с правилами. В этой статье мы предлагаем RulePilot, который имитирует человеческий опыт с помощью агента на основе LLM для решения задач, связанных с правилами, таких как создание или преобразование правил. Используя RulePilot, аналитикам безопасности не нужно записывать правила, следуя грамматике; вместо этого они могут просто предоставить аннотации, такие как описания правил на естественном языке, и наш RulePilot может автоматически генерировать правила обнаружения без дополнительного вмешательства. RulePilot оснащен промежуточным представлением (IR), которое абстрагирует сложность правил конфигурации в структурированные, стандартизированные форматы, позволяя LLM-системам сосредоточиться на генерации правил более управляемым и последовательным способом. Мы представляем всестороннюю оценку RulePilot с точки зрения текстового сходства и успешности выполнения, демонстрируя, что RulePilot может генерировать правила высокой точности, превосходя базовые модели на 107,4% по текстовому сходству с эталонными данными и достигая более высокой точности обнаружения в реальных тестах выполнения. Мы проводим исследование на примере наших отраслевых партнеров в Сингапуре, демонстрируя, что RulePilot значительно помогает начинающим аналитикам/обычным пользователям в процессе создания правил. - RulePilot: An LLM-Powered Agent for Security Rule Generation

См. также другие публикации, посвященные LLM

Tuesday, January 13, 2026

И о контексте

Контекст — это не просто ещё один входной параметр для оптимизации. Скорее, это центральная валюта, определяющая, приносит ли система ИИ реальную пользу или остаётся дорогостоящим побочным продуктом. В отличие от традиционной разработки программного обеспечения, где мы оптимизируем скорость, память или пропускную способность, контекстная инженерия требует от нас рассматривать информацию так, как это делают люди: многоуровнево, взаимозависимо и с учётом ситуационной осведомлённости. - Why Context Is the New Currency in AI: From RAG to Context Engineering. Хороший материал по управлению контекстом, например, для ИИ-агентов.

Атаки по краю

Физические атаки с использованием состязательных элементов представляют собой значительную угрозу для интеллектуальных транспортных систем, особенно для распознавания дорожных знаков. Существующие методы часто испытывают трудности с балансом между эффективностью атаки, скрытностью и переносимостью в реальных условиях. В данной статье мы представляем TSEP-Attack, новый метод создания состязательных фрагментов, который значительно повышает визуальную скрытность и эффективность атаки. Используя сегментацию экземпляров и генератор на основе U-Net, наш подход генерирует состязательные фрагменты, точно настроенные на контуры краев дорожных знаков. Эти фрагменты стратегически применяются к периферийным областям знаков, обеспечивая минимальную заметность для человеческого зрения. Для оптимизации как эффективности, так и скрытности фрагментов мы разработали многоуровневую функцию потерь, которая интегрирует согласованность цвета, соответствие текстуры и выравнивание в частотной области, обеспечивая бесшовную интеграцию генерируемых возмущений с фоном знака, сохраняя при этом устойчивость в физическом мире. Экспериментальные результаты демонстрируют, что TSEP-Attack обеспечивает превосходную эффективность атаки и скрытность при ограниченном объеме запросов, достигая максимального показателя успешности до 90%, а также демонстрирует выдающуюся переносимость между различными моделями. Кроме того, наш подход сохраняет стабильную производительность при различных углах обзора и расстояниях в реальных условиях, что делает его жизнеспособным решением для систем автономного вождения, использующих распознавание дорожных знаков. The Outline of Deception: Physical Adversarial Attacks onTrafficSignsUsing Edge Patches

См. также другие публикации по теме физические атаки

Monday, January 12, 2026

Хостинг для MCP

Alpic MCP cloud - хостинг для MCP серверов. Есть бесплатная опция. И пример создания и деплоя MCP-сервера.

См. также другие публикации, посвященные MCP

Тихий обман RAG

В данной статье рассматриваются атаки и методы защиты векторных баз данных в системах генерации с расширенным поиском (RAG). Предыдущие работы по атакам, направленным на отравление знаний, в основном заключались во внедрении ложного или токсичного контента, который легко обнаруживается при проверке фактов или лингвистическом анализе. Мы выявляем новую и тонкую угрозу: атаки с внедрением предвзятости, которые вставляют фактически корректные, но семантически предвзятые фрагменты в базу знаний, чтобы скрытно повлиять на идеологическую трактовку ответов, генерируемых большими языковыми моделями (LLM). Мы демонстрируем, что эти враждебные фрагменты, хотя и лингвистически связные и правдивые, могут систематически вытеснять противоположные точки зрения из полученного контекста и направлять ответы LLM в сторону желаемой точки зрения злоумышленника. Мы точно характеризуем этот класс атак, а затем разрабатываем метод защиты с фильтрацией после получения данных, BiasDef. Для их оценки мы создаем всеобъемлющий бенчмарк на основе общедоступных наборов данных вопросов и ответов. Наши результаты показывают, что: (1) предложенная атака вызывает значительные сдвиги в перспективе в ответах LLM, эффективно обходя существующие средства защиты на основе поиска санитарных мер; и (2) BiasDef превосходит существующие методы, сокращая количество найденных враждебных фрагментов на 15%, что снижает сдвиг в перспективе в ответах в 6,2 раза, при этом позволяя найти на 62% больше безобидных фрагментов. - Bias Injection Attacks on RAG Databases and Sanitization Defenses

См. также другие публикации по теме RAG

Sunday, January 11, 2026

Формальная модель безопасности для ИИ-агентов

Системы агентного ИИ, использующие множество автономных агентов и большие языковые модели (LLM), все чаще применяются для решения сложных многоэтапных задач. Безопасность, защищенность и функциональность этих систем имеют решающее значение, особенно в приложениях с высокими ставками. Однако существующая экосистема межагентного взаимодействия фрагментирована, и такие протоколы, как протокол контекста модели (MCP) для доступа к инструментам и протокол Agent-to-Agent (A2A) для координации, анализируются изолированно. Эта фрагментация создает семантический разрыв, который препятствует тщательному анализу свойств системы и вносит риски, такие как архитектурное несоответствие и уязвимые проблемы координации. Для решения этих проблем мы предлагаем модельную структуру для систем агентного ИИ, состоящую из двух базовых моделей. Первая, модель хост-агента, формализует сущность верхнего уровня, которая взаимодействует с пользователем, декомпозирует задачи и организует их выполнение, используя внешних агентов и инструменты. Вторая модель, модель жизненного цикла задачи, подробно описывает состояния и переходы отдельных подзадач от создания до завершения, обеспечивая детальное представление управления задачами и обработки ошибок. Вместе эти модели обеспечивают единую семантическую основу для рассуждений о поведении многоагентных систем с искусственным интеллектом. На основе этой основы мы определяем 17 свойств для агента-хоста и 14 для жизненного цикла задачи, которые подразделяются на живучесть, безопасность, полноту и справедливость. Выраженные в темпоральной логике, эти свойства позволяют проводить формальную верификацию поведения системы, обнаруживать граничные случаи координации и предотвращать тупики и уязвимости безопасности. В рамках этой работы мы представляем первую строго обоснованную, независимую от предметной области структуру для систематического анализа, проектирования и развертывания корректных, надежных, и устойчивых агентных систем с искусственным интеллектом. - Formalizing the Safety, Security, and Functional Properties of Agentic AI Systems

См. в этой связи подход A2AS

Атаки на мультимодальные LLM

Мы представляем атаку Adversarial Confusion Attack, новый класс угроз против многомодальных больших языковых моделей (MLLM). В отличие от взлома или целенаправленной неправильной классификации, цель состоит в том, чтобы вызвать систематическое нарушение, которое заставляет модель генерировать несогласованные или заведомо неверные результаты. Практические приложения включают встраивание таких состязательных изображений в веб-сайты, чтобы предотвратить надежную работу ИИ-агентов на базе MLLM. Предложенная атака максимизирует энтропию следующего токена, используя небольшой ансамбль MLLM с открытым исходным кодом. В условиях «белого ящика» мы показываем, что одно состязательное изображение может нарушить работу всех моделей в ансамбле, как в условиях полного изображения, так и в условиях Adversarial CAPTCHA. Несмотря на использование базовой состязательной техники (PGD), атака генерирует возмущения, которые переносятся как на неизвестные модели с открытым исходным кодом (например, Qwen3-VL), так и на проприетарные модели (например, GPT-5.1). - Adversarial Confusion Attack: Disrupting Multimodal Large Language Models

См. также другие публикации, посвященные LLM

Saturday, January 10, 2026

Тесты безопасности MCP

Протокол контекста модели (MCP) стандартизирует способы обнаружения, описания и вызова внешних инструментов агентами больших языковых моделей (LLM). Хотя MCP обеспечивает широкую совместимость, он также расширяет поверхность атаки, делая инструменты первоклассными, компонуемыми объектами с метаданными на естественном языке и стандартизированным вводом-выводом. Мы представляем MSB (MCP Security Benchmark), первый комплексный набор инструментов для оценки, который систематически измеряет, насколько хорошо агенты LLM противостоят атакам, специфичным для MCP, на протяжении всего конвейера использования инструментов: планирование задач, вызов инструментов и обработка ответов. MSB включает в себя: (1) таксономию из 12 атак, включая коллизию имен, манипулирование предпочтениями, внедрение подсказок, встроенных в описания инструментов, запросы параметров вне области видимости, ответы, имитирующие пользователя, эскалацию ложных ошибок, передачу инструментов, внедрение запросов на получение и смешанные атаки; (2) оценочный инструмент, который выполняет атаки путем запуска реальных инструментов (как безопасных, так и вредоносных) через MCP, а не симуляцию; и (3) метрика устойчивости, которая количественно оценивает компромисс между безопасностью и производительностью: Net Resilient Performance (NRP). Мы оцениваем девять популярных агентов LLM в 10 областях и более чем 400 инструментах, создавая 2000 экземпляров атак. Результаты показывают эффективность атак против каждого этапа MCP. Модели с более высокой производительностью более уязвимы для атак из-за их выдающихся возможностей вызова инструментов и следования инструкциям. MSB предоставляет практическую основу для исследователей и практиков для изучения, сравнения и повышения устойчивости агентов MCP. - MCP Security Bench (MSB): Benchmarking Attacks Against Model Context Protocol in LLM Agents

См. также другие публикации, посвященные агентам

Какие ваши намерения?

Атаки с непрямым внедрением подсказок (IPIA), при которых большие языковые модели (LLM) следуют вредоносным инструкциям, скрытым во входных данных, представляют собой критическую угрозу для агентов, использующих LLM. В этой статье мы представляем IntentGuard, общую защитную структуру, основанную на анализе намерений, следующих за инструкциями. Ключевая идея IntentGuard заключается в том, что решающим фактором в IPIA является не наличие вредоносного текста, а то, намеревается ли LLM следовать инструкциям из ненадежных данных. Основываясь на этом понимании, IntentGuard использует анализатор намерений, следующих за инструкциями (IIA), для определения того, какие части входной подсказки модель распознает как действенные инструкции, а затем помечает или нейтрализует любые совпадения с сегментами ненадежных данных. Для реализации структуры мы разрабатываем IIA, который использует три стратегии «мыслительного вмешательства» для получения структурированного списка предполагаемых инструкций от LLM, поддерживающих рассуждения. Эти методы включают предварительное заполнение начала мыслительного процесса, уточнение в конце мыслительного процесса и демонстрацию в контексте с помощью состязательных действий. Мы оцениваем IntentGuard на двух агентных бенчмарках (AgentDojo и Mind2Web), используя две модели LLM с поддержкой рассуждений (Qwen-3-32B и gpt-oss-20B). Результаты показывают, что IntentGuard обеспечивает (1) отсутствие снижения полезности во всех условиях, кроме одного, и (2) высокую устойчивость к атакам с адаптивным внедрением подсказок (например, снижение вероятности успеха атаки со 100% до 8,5% в сценарии Mind2Web). - Mitigating Indirect Prompt Injection via Instruction-Following Intent Analysis

См. также другие публикации, посвященные LLM

Friday, January 09, 2026

Малые модели в кибербезопасности

Большие языковые модели (LLM) преобразуют повседневные приложения, однако их внедрение в кибербезопасность отстает из-за отсутствия высококачественных, специализированных моделей и обучающих наборов данных. Для решения этой проблемы мы представляем CyberPal 2.0, семейство малых языковых моделей (SLM) для экспертов в области кибербезопасности, содержащих от 4 до 20 миллиардов параметров. Для обучения CyberPal 2.0 мы генерируем обогащенный набор данных инструкций по кибербезопасности, основанный на цепочке рассуждений, созданный с помощью нашего конвейера обогащения и форматирования данных, SecKnowledge 2.0, который интегрирует управление форматами рассуждений с участием эксперта наряду с многошаговым обоснованием на основе LLM, обеспечивая более точные, основанные на задачах трассировки рассуждений для задач безопасности. В различных тестах кибербезопасности CyberPal 2.0 неизменно превосходит свои базовые показатели и соответствует или превосходит различные передовые модели с открытым и закрытым исходным кодом, оставаясь при этом значительно меньше по размеру. В основных задачах анализа киберугроз наши модели превосходят почти все протестированные передовые модели, занимая второе место после Sec-Gemini v1. В основных задачах расследования угроз, таких как сопоставление уязвимостей и сообщений об ошибках с недостатками, наша лучшая модель с 20 миллиардами параметров превосходит GPT-4o, o1, o3-mini и Sec-Gemini v1, занимая первое место, в то время как наша самая маленькая модель с 4 миллиардами параметров занимает второе место. - Toward Cybersecurity-Expert Small Language Models

См. также другие публикации, посвященные LLM

Пока еще нет

Мы предлагаем трезвый взгляд на применение мультимодальных больших языковых моделей (MLLM) в автономном вождении, бросая вызов распространенным предположениям об их способности интерпретировать динамические сценарии вождения. Несмотря на достижения в моделях, таких как GPT-4o, их производительность в сложных условиях вождения остается в значительной степени неизученной. Наше экспериментальное исследование оценивает различные MLLM как модели мира, используя ракурсы автомобильной камеры, и показывает, что, хотя эти модели превосходно интерпретируют отдельные изображения, им трудно синтезировать связные повествования между кадрами, что приводит к значительным неточностям в понимании (i) динамики собственного транспортного средства, (ii) взаимодействия с другими участниками дорожного движения, (iii) планирования траектории и (iv) рассуждений об открытых сценах. Мы представляем набор данных EVAL-LLM-DRIVE и симулятор DRIVESIM для улучшения нашей оценки, подчеркивая пробелы в текущих возможностях MLLM и необходимость улучшенных моделей в динамических реальных условиях. - Probing Multimodal LLMs as World Models for Driving

Thursday, January 08, 2026

И о культуре

Предупреждение: Данная статья содержит материалы, имеющие культурную ценность, исключительно с целью оценки поведения при согласовании в рамках больших языковых моделей (LLM). Мы исследуем, как лингвистическая и культурная структура влияют на успешность джелбрейков в трех коммерческих БЛМ (GPT-4, Claude 3, Gemini), используя семантически эквивалентные подсказки в прямом, косвенном и метафорическом стилях на четырех языках с широкими языковыми ресурсами. Косвенные подсказки наиболее эффективно обходили фильтры, при этом структура и стиль существенно влияли на согласование. GPT-4 оказалась особенно уязвимой к косвенной структуре, Claude 3 оставалась стабильно устойчивой, а Gemini продемонстрировала высокую чувствительность к культурным и лингвистическим вариациям. Наши результаты подчеркивают необходимость стратегий согласования, устойчивых к различным стилям выражения и культурным контекстам. - Jailbreaking LLMs Through Cross-Cultural Prompts

См. также другие публикации, посвященные LLM

INJOIT vol. 14, no. 1

Вышел первый номер журнала INJOIT в 2026 году. И четырнадцатый год издания журнала.

Темы статей:

  • Случайное сглаживание: Теоретические основы и систематический обзор
  • Построение апостериорных интерпретаций для моделей классификации аудиоданных
  • Точное Решение и Корреляционные Функции Обобщенных Двойных Цепей Изинга
  • Investigation of directed interaction between neural populations using spectral analysis methods
  • Риск-ориентированный подход к размещению центров материально-технического снабжения на транспортной сети
  • Интеграция интеллектуальных систем умного дома для повышения их надежности и устойчивости
  • Аналитический подход к оценке задержек в Mesh-сети в вычислительной системе с распределенной памятью
  • Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 4
  • Minimal-Feature XSS Detection by SHAP and Importance-Driven Pruning
  • Модель обеспечения информационной безопасности в мессенджерах, разрабатываемых на основе протокола Matrix
  • Исследование оптимизаций блокирующей очереди на двух мьютексах
  • Портативный HybriLIT: экономичный вычислительный кластер для образовательных целей и опыт его применения
  • Особенности определения формальной семантики императивного языка для верификации программ интеграции данных
  • Разработка и исследование программного обеспечения для контроля использования средств индивидуальной защиты на предприятии
  • CrossLingual-Noised BackTranslation
  • Структурный подход к проектированию квантовых алгоритмов на основе композиции модулей
  • Большие языковые модели в неврологии
  • Эволюция поисковых систем в электронной коммерции: от статических каталогов к гибридным и векторным архитектурам

Архив журнала находится здесь.

/via Лаборатория ОИТ

Wednesday, January 07, 2026

Человек против ИИ-агента

Мы представляем первую всестороннюю оценку агентов ИИ в сравнении с профессионалами в области кибербезопасности в реальной корпоративной среде. Мы оценивали десять специалистов по кибербезопасности наряду с шестью существующими агентами ИИ и ARTEMIS, нашей новой платформой для агентов, в крупной университетской сети, состоящей из ~8000 хостов в 12 подсетях. ARTEMIS — это многоагентная платформа, включающая динамическую генерацию подсказок, произвольных субагентов и автоматическую сортировку уязвимостей. В нашем сравнительном исследовании ARTEMIS занял второе место в общем зачете, обнаружив 9 достоверных уязвимостей с 82% вероятностью достоверного ответа и превзойдя 9 из 10 участников-людей. В то время как существующие платформы, такие как Codex и CyAgent, показали худшие результаты по сравнению с большинством участников-людей, ARTEMIS продемонстрировал техническую сложность и качество ответа, сопоставимое с лучшими участниками. Мы отмечаем, что агенты ИИ обладают преимуществами в систематическом перечислении, параллельной эксплуатации и стоимости — некоторые варианты ARTEMIS стоят 18 долларов в час по сравнению с 60 долларами в час для профессиональных специалистов по тестированию на проникновение. Мы также выявляем ключевые пробелы в возможностях : агенты ИИ демонстрируют более высокий уровень ложноположительных результатов и испытывают трудности с задачами, основанными на графическом интерфейсе пользователя. - Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing

Статья интересна еще и своим обзором ИИ-агентов для пентестинга.

См. также другие публикации, посвященные агентам

Анатомия ИИ-агентов

Анатомия AI-агента: что внутри этой штуки, которую все хотят, но никто не понимает. Хороший практический разбор с точки зрения инструментов.

См. также другие публикации, посвященные агентам

Tuesday, January 06, 2026

Аномалии гетерогенных данных

Растущая сложность угроз кибербезопасности требует применения передовых методов обнаружения аномалий в разнообразных и гетерогенных источниках данных. Традиционные системы безопасности часто сталкиваются с проблемой изолированных хранилищ данных, высоким уровнем ложных срабатываний и неспособностью адаптироваться к меняющимся угрозам. Обнаружение аномалий стало критически важным подходом к решению этих проблем, поскольку позволяет выявлять отклонения от ожидаемого поведения, которые могут указывать на вредоносную деятельность. В данной статье рассматривается применение методов обнаружения аномалий в гетерогенных данных кибербезопасности, включая журналы сетевого трафика, телеметрию конечных точек, активность пользователей и внешние данные об угрозах. Анализируется роль машинного обучения, глубокого обучения и статистических моделей в обработке и корреляции этих разнообразных наборов данных для выявления угроз с повышенной точностью и скоростью. Обсуждаются такие проблемы, как управление разнообразием данных, масштабируемость и баланс между чувствительностью и специфичностью обнаружения. На основе обзора тематических исследований и последних достижений в статье освещаются успешные примеры применения методов обнаружения аномалий, включая гибридные подходы, сочетающие обучение без учителя с экспертными знаниями в предметной области. Данная работа подчеркивает важность обнаружения аномалий для защиты цифровых экосистем от все более изощренных киберугроз. - Anomaly detection in heterogeneous cybersecurity data

Один раз - не доказательство

Современные оценки безопасности больших языковых моделей основаны на однократном тестировании, неявно предполагая, что ответы модели детерминированы и репрезентативны для соответствия модели требованиям безопасности. Мы ставим под сомнение это предположение, исследуя стабильность решений об отказе от безопасного выполнения при различных случайных начальных значениях и температурных настройках. Протестировав четыре модели, настроенные на основе инструкций, из трех семейств (Llama 3.1 8B, Qwen 2.5 7B, Qwen 3 8B, Gemma 3 12B) на 876 вредоносных запросах при 20 различных конфигурациях выборки (4 температуры × 5 случайных начальных значений), мы обнаружили, что 18–28% запросов демонстрируют изменение решения — модель отказывается в одних конфигурациях, но выполняет требование в других — в зависимости от модели. Наш индекс стабильности безопасности (SSI) показывает, что более высокие температуры значительно снижают стабильность решений (критерий Фридмана χ² = 396,81, p < 0,001), при этом средний SSI внутри каждой температуры снижается с 0,977 при температуре 0,0 до 0,942 при температуре 1,0. Мы подтверждаем наши результаты для всех семейств моделей, используя Cloude 3.5 в качестве единого внешнего судьи, достигнув 89,0% согласованности между судьями с нашим основным судьей Llama 70B (коэффициент Коэна κ = 0,62). В каждой модели подсказки с более высокими показателями соответствия демонстрируют меньшую стабильность (коэффициент Спирмена ρ = от -0,47 до -0,70, все p < 0,001), что указывает на то, что модели «колеблются» сильнее при пограничных запросах.

Эти результаты показывают, что однократные оценки безопасности недостаточны для надежной оценки безопасности, и что протоколы оценки должны учитывать стохастические вариации в поведении модели. Мы показываем, что однократная оценка согласуется с многовыборочными эталонными данными только в 92,4% случаев при объединении данных по разным температурам (94,2–97,7% при фиксированной температуре в зависимости от настроек), и рекомендуем использовать не менее 3 выборок на каждый запрос для надежной оценки безопасности. - The Instability of Safety: How Random Seeds and Temperature Expose Inconsistent LLM Refusal Behavior

См. также другие публикации, посвященные LLM

Monday, January 05, 2026

Нагнать страху для ИИ

В современных высокорискованных областях — от здравоохранения до обороны — алгоритмы развиваются беспрецедентными темпами, однако им по-прежнему не хватает важнейшего элемента человеческого принятия решений: инстинктивной осторожности, помогающей предотвратить вред. Вдохновленные как защитными рефлексами, наблюдаемыми в военной робототехнике, так и ролью миндалевидного тела человека (амигдала - миндалевидное тело - это участок головного мозга, который играет ключевую роль в обработке эмоций, особенно страха и стресса, формировании эмоциональной памяти, а также в принятии решений и социальном поведении) в обнаружении угроз, мы предлагаем новую идею: интегрированный модуль, действующий как внутренняя «система предосторожности». Этот модуль не испытывает эмоций в человеческом понимании; скорее, он служит встроенной защитой, которая постоянно оценивает неопределенность и запускает защитные меры всякий раз, когда возникают потенциальные опасности. Предлагаемая нами структура сочетает в себе несколько устоявшихся методов. Она использует байесовские методы для непрерывной оценки вероятности неблагоприятных исходов, применяет стратегии обучения с подкреплением с штрафами за выбор, который может привести к вредным результатам, и включает в себя уровни человеческого контроля для проверки решений при необходимости. В результате получилась система, отражающая осмотрительность и взвешенные суждения опытных врачей — она колеблется и корректирует свои действия, когда данные неоднозначны, подобно тому как врач полагается на интуицию и опыт, чтобы предотвратить ошибки. Мы призываем специалистов по информатике, медицинских работников и политиков к сотрудничеству в совершенствовании и тестировании этого подхода. Посредством совместных исследований, пилотных проектов и надежных нормативных руководств мы стремимся обеспечить, чтобы передовые вычислительные системы могли сочетать скорость и точность с присущей им склонностью к защите человеческой жизни. В конечном итоге, благодаря внедрению этого предупредительного модуля, ожидается, что данная структура значительно снизит риски, связанные с ИИ, и повысит безопасность пациентов и доверие к медицинским системам ИИ. По всей видимости, будущие сверхинтеллектуальные системы ИИ в медицине неизбежно будут обладать процессами, подобными эмоциям. - Embedding Fear in Medical AI: A Risk-Averse Framework for Safety and Ethics

Sunday, January 04, 2026

LLM как врач

Целью данного исследования было оценить потенциал больших языковых моделей (LLM) в диагностике в здравоохранении, в частности, их способность анализировать подсказки, основанные на симптомах, и ставить точные диагнозы. Исследование сосредоточилось на моделях, включая GPT-4, GPT-4o, Gemini, o1 Preview и GPT-3.5, оценивая их эффективность в выявлении заболеваний исключительно на основе предоставленных симптомов. Подсказки, основанные на симптомах, были отобраны из авторитетных медицинских источников для обеспечения достоверности и релевантности. Каждая модель тестировалась в контролируемых условиях для оценки их диагностической точности, прецизионности, полноты и способности принимать решения. Были разработаны специальные сценарии для изучения их эффективности как в общих, так и в ответственных диагностических задачах. Среди моделей GPT-4 показала наивысшую диагностическую точность, продемонстрировав сильное соответствие медицинскому мышлению. Gemini преуспела в ответственных сценариях, требующих точного принятия решений. GPT-4o и o1 Preview показали сбалансированную эффективность, эффективно справляясь с диагностическими задачами в реальном времени с акцентом как на точность, так и на полноту. Модель GPT-3.5, несмотря на меньшую степень детализации, оказалась надежной для решения общих диагностических задач. Данное исследование подчеркивает сильные и слабые стороны моделей с низкой степенью детализации в медицинской диагностике. Хотя такие модели, как GPT-4 и Gemini, демонстрируют многообещающие результаты, необходимо решить такие проблемы, как соблюдение конфиденциальности, этические соображения и смягчение присущих им предвзятостей. Полученные результаты указывают на пути ответственной интеграции моделей с низкой степенью детализации в диагностические процессы для улучшения результатов лечения. - Digital Diagnostics: The Potential of Large Language Models in Recognizing Symptoms of Common Illnesses

См. также другие публикации, посвященные LLM