Wednesday, January 07, 2026

Человек против ИИ-агента

Мы представляем первую всестороннюю оценку агентов ИИ в сравнении с профессионалами в области кибербезопасности в реальной корпоративной среде. Мы оценивали десять специалистов по кибербезопасности наряду с шестью существующими агентами ИИ и ARTEMIS, нашей новой платформой для агентов, в крупной университетской сети, состоящей из ~8000 хостов в 12 подсетях. ARTEMIS — это многоагентная платформа, включающая динамическую генерацию подсказок, произвольных субагентов и автоматическую сортировку уязвимостей. В нашем сравнительном исследовании ARTEMIS занял второе место в общем зачете, обнаружив 9 достоверных уязвимостей с 82% вероятностью достоверного ответа и превзойдя 9 из 10 участников-людей. В то время как существующие платформы, такие как Codex и CyAgent, показали худшие результаты по сравнению с большинством участников-людей, ARTEMIS продемонстрировал техническую сложность и качество ответа, сопоставимое с лучшими участниками. Мы отмечаем, что агенты ИИ обладают преимуществами в систематическом перечислении, параллельной эксплуатации и стоимости — некоторые варианты ARTEMIS стоят 18 долларов в час по сравнению с 60 долларами в час для профессиональных специалистов по тестированию на проникновение. Мы также выявляем ключевые пробелы в возможностях : агенты ИИ демонстрируют более высокий уровень ложноположительных результатов и испытывают трудности с задачами, основанными на графическом интерфейсе пользователя. - Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing

Статья интересна еще и своим обзором ИИ-агентов для пентестинга.

См. также другие публикации, посвященные агентам

Анатомия ИИ-агентов

Анатомия AI-агента: что внутри этой штуки, которую все хотят, но никто не понимает. Хороший практический разбор с точки зрения инятрументов.

См. также другие публикации, посвященные агентам

Tuesday, January 06, 2026

Аномалии гетерогенных данных

Растущая сложность угроз кибербезопасности требует применения передовых методов обнаружения аномалий в разнообразных и гетерогенных источниках данных. Традиционные системы безопасности часто сталкиваются с проблемой изолированных хранилищ данных, высоким уровнем ложных срабатываний и неспособностью адаптироваться к меняющимся угрозам. Обнаружение аномалий стало критически важным подходом к решению этих проблем, поскольку позволяет выявлять отклонения от ожидаемого поведения, которые могут указывать на вредоносную деятельность. В данной статье рассматривается применение методов обнаружения аномалий в гетерогенных данных кибербезопасности, включая журналы сетевого трафика, телеметрию конечных точек, активность пользователей и внешние данные об угрозах. Анализируется роль машинного обучения, глубокого обучения и статистических моделей в обработке и корреляции этих разнообразных наборов данных для выявления угроз с повышенной точностью и скоростью. Обсуждаются такие проблемы, как управление разнообразием данных, масштабируемость и баланс между чувствительностью и специфичностью обнаружения. На основе обзора тематических исследований и последних достижений в статье освещаются успешные примеры применения методов обнаружения аномалий, включая гибридные подходы, сочетающие обучение без учителя с экспертными знаниями в предметной области. Данная работа подчеркивает важность обнаружения аномалий для защиты цифровых экосистем от все более изощренных киберугроз. - Anomaly detection in heterogeneous cybersecurity data

Один раз - не доказательство

Современные оценки безопасности больших языковых моделей основаны на однократном тестировании, неявно предполагая, что ответы модели детерминированы и репрезентативны для соответствия модели требованиям безопасности. Мы ставим под сомнение это предположение, исследуя стабильность решений об отказе от безопасного выполнения при различных случайных начальных значениях и температурных настройках. Протестировав четыре модели, настроенные на основе инструкций, из трех семейств (Llama 3.1 8B, Qwen 2.5 7B, Qwen 3 8B, Gemma 3 12B) на 876 вредоносных запросах при 20 различных конфигурациях выборки (4 температуры × 5 случайных начальных значений), мы обнаружили, что 18–28% запросов демонстрируют изменение решения — модель отказывается в одних конфигурациях, но выполняет требование в других — в зависимости от модели. Наш индекс стабильности безопасности (SSI) показывает, что более высокие температуры значительно снижают стабильность решений (критерий Фридмана χ² = 396,81, p < 0,001), при этом средний SSI внутри каждой температуры снижается с 0,977 при температуре 0,0 до 0,942 при температуре 1,0. Мы подтверждаем наши результаты для всех семейств моделей, используя Cloude 3.5 в качестве единого внешнего судьи, достигнув 89,0% согласованности между судьями с нашим основным судьей Llama 70B (коэффициент Коэна κ = 0,62). В каждой модели подсказки с более высокими показателями соответствия демонстрируют меньшую стабильность (коэффициент Спирмена ρ = от -0,47 до -0,70, все p < 0,001), что указывает на то, что модели «колеблются» сильнее при пограничных запросах.

Эти результаты показывают, что однократные оценки безопасности недостаточны для надежной оценки безопасности, и что протоколы оценки должны учитывать стохастические вариации в поведении модели. Мы показываем, что однократная оценка согласуется с многовыборочными эталонными данными только в 92,4% случаев при объединении данных по разным температурам (94,2–97,7% при фиксированной температуре в зависимости от настроек), и рекомендуем использовать не менее 3 выборок на каждый запрос для надежной оценки безопасности. - The Instability of Safety: How Random Seeds and Temperature Expose Inconsistent LLM Refusal Behavior

См. также другие публикации, посвященные LLM

Monday, January 05, 2026

Нагнать страху для ИИ

В современных высокорискованных областях — от здравоохранения до обороны — алгоритмы развиваются беспрецедентными темпами, однако им по-прежнему не хватает важнейшего элемента человеческого принятия решений: инстинктивной осторожности, помогающей предотвратить вред. Вдохновленные как защитными рефлексами, наблюдаемыми в военной робототехнике, так и ролью миндалевидного тела человека (амигдала - миндалевидное тело - это участок головного мозга, который играет ключевую роль в обработке эмоций, особенно страха и стресса, формировании эмоциональной памяти, а также в принятии решений и социальном поведении) в обнаружении угроз, мы предлагаем новую идею: интегрированный модуль, действующий как внутренняя «система предосторожности». Этот модуль не испытывает эмоций в человеческом понимании; скорее, он служит встроенной защитой, которая постоянно оценивает неопределенность и запускает защитные меры всякий раз, когда возникают потенциальные опасности. Предлагаемая нами структура сочетает в себе несколько устоявшихся методов. Она использует байесовские методы для непрерывной оценки вероятности неблагоприятных исходов, применяет стратегии обучения с подкреплением с штрафами за выбор, который может привести к вредным результатам, и включает в себя уровни человеческого контроля для проверки решений при необходимости. В результате получилась система, отражающая осмотрительность и взвешенные суждения опытных врачей — она колеблется и корректирует свои действия, когда данные неоднозначны, подобно тому как врач полагается на интуицию и опыт, чтобы предотвратить ошибки. Мы призываем специалистов по информатике, медицинских работников и политиков к сотрудничеству в совершенствовании и тестировании этого подхода. Посредством совместных исследований, пилотных проектов и надежных нормативных руководств мы стремимся обеспечить, чтобы передовые вычислительные системы могли сочетать скорость и точность с присущей им склонностью к защите человеческой жизни. В конечном итоге, благодаря внедрению этого предупредительного модуля, ожидается, что данная структура значительно снизит риски, связанные с ИИ, и повысит безопасность пациентов и доверие к медицинским системам ИИ. По всей видимости, будущие сверхинтеллектуальные системы ИИ в медицине неизбежно будут обладать процессами, подобными эмоциям. - Embedding Fear in Medical AI: A Risk-Averse Framework for Safety and Ethics

Sunday, January 04, 2026

LLM как врач

Целью данного исследования было оценить потенциал больших языковых моделей (LLM) в диагностике в здравоохранении, в частности, их способность анализировать подсказки, основанные на симптомах, и ставить точные диагнозы. Исследование сосредоточилось на моделях, включая GPT-4, GPT-4o, Gemini, o1 Preview и GPT-3.5, оценивая их эффективность в выявлении заболеваний исключительно на основе предоставленных симптомов. Подсказки, основанные на симптомах, были отобраны из авторитетных медицинских источников для обеспечения достоверности и релевантности. Каждая модель тестировалась в контролируемых условиях для оценки их диагностической точности, прецизионности, полноты и способности принимать решения. Были разработаны специальные сценарии для изучения их эффективности как в общих, так и в ответственных диагностических задачах. Среди моделей GPT-4 показала наивысшую диагностическую точность, продемонстрировав сильное соответствие медицинскому мышлению. Gemini преуспела в ответственных сценариях, требующих точного принятия решений. GPT-4o и o1 Preview показали сбалансированную эффективность, эффективно справляясь с диагностическими задачами в реальном времени с акцентом как на точность, так и на полноту. Модель GPT-3.5, несмотря на меньшую степень детализации, оказалась надежной для решения общих диагностических задач. Данное исследование подчеркивает сильные и слабые стороны моделей с низкой степенью детализации в медицинской диагностике. Хотя такие модели, как GPT-4 и Gemini, демонстрируют многообещающие результаты, необходимо решить такие проблемы, как соблюдение конфиденциальности, этические соображения и смягчение присущих им предвзятостей. Полученные результаты указывают на пути ответственной интеграции моделей с низкой степенью детализации в диагностические процессы для улучшения результатов лечения. - Digital Diagnostics: The Potential of Large Language Models in Recognizing Symptoms of Common Illnesses

См. также другие публикации, посвященные LLM

Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 4

В этом документе мы представляем очередной (четвертый по счету) ежемесячный обзор текущих событий, связанных общим направлением – использование Искусственного интеллекта (ИИ) в кибербезопасности. В этом регулярно выходящем документе мы описываем регулирующие документы, значимые события и новые разработки в этой области. В настоящее время, мы сосредоточены именно на этих трех аспектах. Во-первых, это инциденты, связанные с использованием ИИ к кибербезопасности. Например, выявленные уязвимости и риски генеративного ИИ, новые состязательные атаки на модели машинного обучения и ИИ-агентов и т.п. Во-вторых, это мировая регуляриторика: регулирующие документы, новые глобальные и локальные стандарты, касающиеся разных аспектов направления ИИ в кибербезопасности. И в-третьих, каждый обзор включает новые интересные публикации по данному направлению. Безусловно, все отобранные для каждого выпуска материалы отражают взгляды и предпочтения авторов-составителей. В настоящей статье представлен четвертый выпуск хроники ИИ в кибербезопасности. - отсюда

Saturday, January 03, 2026

LLM в неврологии

Развитие систем искусственного интеллекта (ИИ), в частности, так называемых базовых моделей и больших языковых моделей, открыло новую эру на стыке ИИ и неврологии (нейронауки). Эти модели позволяют работать с разнообразными наборами данных в разных модальностях. По сравнению с классическими вычислительными подходами, которые, в основном, опирались на традиционные методы машинного обучения, такие модели представляют собой значительный шаг вперед. Они демонстрируют сильную обобщающую способность, могут улавливать сложные пространственно-временные зависимости, обнаруженные в данных. Это достигается, в частности, за счет сквозного обучения непосредственно на необработанных данных. Базовые модели, потенциально, могут применяться во всех основных нейробиологических областях, охватывая нейровизуализацию и обработку данных, интерфейсы мозг-компьютер и нейронное декодирование, молекулярную нейробиологии и геномное моделирование, клиническую помощь, а также приложения, специфичные для конкретных заболеваний, включая неврологические и психиатрические расстройства. Эти модели демонстрируют способность решать основные вычислительные нейробиологические задачи, включая многомодальную интеграцию нейронных данных, пространственно-временную интерпретацию паттернов и разработку трансляционных структур для клинического применения. - Большие языковые модели в неврологии

См. также другие публикации, посвященные LLM

LLM кодер

Безопасность кода, генерируемого большими языковыми моделями (LLM), вызывает серьезную обеспокоенность, поскольку исследования показывают, что такой код часто содержит уязвимости и не имеет необходимых защитных программных конструкций. Данная работа посвящена изучению и оценке безопасности кода, сгенерированного БЯМ, особенно в контексте C/C++. Мы классифицировали известные уязвимости, используя перечисление общих слабых мест (CWE), и, чтобы изучить их критичность, сопоставили их с CVE. Мы использовали десять различных БЯМ для генерации кода и проанализировали результаты с помощью статического анализа. Количество CWE, присутствующих в коде, сгенерированном ИИ, вызывает опасения. Наши результаты подчеркивают необходимость для разработчиков проявлять осторожность при использовании кода, сгенерированного БЯМ. Это исследование предоставляет ценные сведения для развития автоматизированной генерации кода и стимулирует дальнейшие исследования в этой области. - LLM-CSEC: Empirical Evaluation of Security in C/C++ Code Generated by Large Language Models

См. также другие публикации, посвященные LLM

Friday, January 02, 2026

Как обезопасить MCP

Протокол контекста модели (MCP) позволяет большим языковым моделям (LLM) интегрировать внешние инструменты посредством структурированных дескрипторов, повышая автономность в таких областях, как принятие решений, выполнение задач и взаимодействие нескольких агентов. Однако эта автономность создает недооцененный пробел в безопасности. Существующие средства защиты в основном сосредоточены на атаках с внедрением подсказок и не справляются с угрозами, заложенными в метаданных инструментов, что делает системы на основе MCP уязвимыми для семантической эксплуатации. В данной работе анализируются три ключевых класса семантических атак, нацеленных на системы, интегрированные с MCP: (i) отравление инструментов (Tool Poisoning), внедрение скрытых враждебных инструкций в дескрипторы инструментов, (ii) теневое копирование (Shadowing), косвенное компрометирование доверенных инструментов посредством загрязнения общего контекста, и (iii) подмена дескрипторов (Rug Pulls) — мутации дескрипторов после утверждения, которые подрывают поведение инструментов. Для защиты от этих угроз мы предлагаем многоуровневую систему безопасности, состоящую из трех компонентов: (1) подписание манифеста на основе RSA для обеспечения целостности дескрипторов и предотвращения изменений после развертывания, (2) семантическая проверка LLM-on-LLM для обнаружения и пометки подозрительных дескрипторов инструментов и (3) легковесные эвристические механизмы защиты для блокировки аномального поведения инструментов во время выполнения. В ходе обширной оценки GPT-4, DeepSeek и Llama-3.5 с использованием восьми стратегий подсказок, от Zero-shot до Reflexion и Self-Critique, мы демонстрируем, что результаты безопасности значительно различаются в зависимости от архитектуры модели и стиля рассуждений. GPT-4 блокирует приблизительно 71% небезопасных вызовов инструментов, обеспечивая сбалансированный компромисс между задержкой и безопасностью. DeepSeek демонстрирует наивысшую устойчивость к атакам с использованием теневого отображения (97%), но имеет повышенную задержку (до 16,97 секунд), в то время как Llama-3.5 является самым быстрым (0,65 секунды), но наименее устойчивым к семантическим угрозам. Наши результаты показывают, что предложенная структура существенно снижает частоту небезопасных вызовов без необходимости тонкой настройки модели или внутренней модификации. - Securing the Model Context Protocol: Defending LLMs Against Tool Poisoning and Adversarial Attacks

См. также другие публикации, посвященные агентам