Friday, July 03, 2026

LLM в кибербезопасности - систематизация знаний

В данной статье представлена систематизация знаний о методологиях оценки и границах возможностей больших языковых моделей (БЛМ) в кибербезопасности. Мы предлагаем трехмерную таксономическую матрицу для систематизации существующих метрик в наступательных областях, защитных приложениях и присущих архитектурных недостатках. Помимо категоризации, эта матрица функционирует как прогностическая структура для выявления «слепых зон» структурной оценки. В частности, путем пересечения целевых областей с атрибуцией отказов она выявляет критическую, нерешенную проблему: измерение межархитектурной семантической эквивалентности в низкоуровневом обратном проектировании. Эмпирически, синтез 39 эталонных показателей выявляет системный пробел в оценке: успех по статическим метрикам редко приводит к сквозной эффективности противодействия. В наступательных областях высокие показатели проникновения сильно коррелируют с загрязнением данных до обучения. При использовании обфускации кода с сохранением семантики в качестве стресс-теста, вероятность успешного выполнения эксплойтов без использования инструментов и без предварительного обучения падает почти до 0%. В защитных контекстах межпроцедурный аудит кода испытывает трудности, достигая пикового значения F1-меры всего 23,83%. Кроме того, модели страдают от функциональной деградации, вызванной чрезмерным выравниванием, при этом фреймворки для совместного тестирования фиксируют потерю функциональности до 77% при автоматическом восстановлении программ. Наш анализ убедительно свидетельствует о том, что чисто авторегрессивные механизмы приводят к серьезным техническим галлюцинациям, о чем свидетельствует показатель создания зависимостей пакетов в 19,7%. Оценки также выявляют значительные поверхности атаки и существенный компромисс между безопасностью и полезностью: модели поддаются атакам с утечкой информации со скоростью до 86,2%, в то время как сильно выровненные версии одновременно демонстрируют чрезмерно высокие показатели ложных отказов (FRR) для безобидных, пограничных запросов безопасности. Наконец, мы намечаем теоретическую нейросимволическую дорожную карту, интегрирующую эвристики LLM с детерминированными формальными методами, чтобы структурно смягчить ограничения авторорегрессивной парадигмы. - Evaluating Large Language Models in Cybersecurity: A Systematic Taxonomy and Empirical Analysis

См. также другие публикации, посвященные LLM

Thursday, July 02, 2026

Об эффективности защитников

Большие языковые модели (LLM) приобретают все большее значение, а чат-боты широко используются в коммерческой сфере для оказания помощи сотрудникам и ответа на вопросы клиентов. Для защиты репутации компании и обеспечения соответствия требованиям крайне важно, чтобы чат-боты не генерировали вредоносный контент, даже в случае преднамеренных атак с использованием джейлбрейка. Исследователи предлагают различные методы защиты LLM, известные как «защитные механизмы», для предотвращения генерации вредоносного контента и атак с использованием джейлбрейка. Цель данной статьи — всесторонний анализ существующих решений по защите и предоставление рекомендаций по выбору оптимального решения для конкретных сценариев. В исследовании сравнивались шесть различных методов защиты в трех версиях LLM (Mistral Large 24.02, Meta Llama 3-8B Instruct, Anthropic Claude 3.5 Sonnet), включая два базовых подхода, два облачных решения (AWS Guardrails, Azure AI Content Safety) и два других популярных решения, не основанных на облачных технологиях (NeMo от Nvidia и Llama Guard от Meta). Для оценки было использовано тринадцать наборов данных: десять, представляющих вредоносные вопросы в атаках с использованием джейлбрейка, и три с нейтральными подсказками, похожими на вредоносные вопросы, для проверки чрезмерной блокировки. Наилучшие результаты были достигнуты AWS Guardrails (средняя точность по моделям 96,8%) и NeMo (93,9%). Результаты ясно показали, что использование защитных механизмов крайне важно при создании коммерческих приложений на основе LLM в связи с развитием эффективных атак с использованием джейлбрейка. - Comprehensive Analysis of LLM Guardrails Approaches Preventing Harmful Content and Jailbreak Attacks

См. также другие публикации, посвященные LLM

Wednesday, July 01, 2026

Секретные скиллы

Agent Skills — это новый открытый стандарт, определяющий модульный формат упаковки на основе файловой системы, позволяющий агентам на основе LLM приобретать экспертные знания в конкретной области по запросу. Несмотря на быстрое распространение на различных платформах для агентов и появление крупных сообществ, свойства безопасности Agent Skills не были систематически изучены. В данной статье представлен первый всесторонний анализ безопасности структуры Agent Skills. Мы определяем полный жизненный цикл Agent Skill, состоящий из четырех фаз — Создание, Распространение, Развертывание и Выполнение — и выявляем структурную поверхность атаки, создаваемую каждой фазой. Основываясь на этом анализе жизненного цикла, мы создаем таксономию угроз, включающую семь категорий и семнадцать сценариев, организованных по трем уровням атаки, основанных как на архитектурном анализе, так и на реальных данных. Мы подтверждаем таксономию путем анализа пяти подтвержденных инцидентов безопасности в экосистеме Agent Skills. На основе этих результатов мы обсуждаем направления защиты для каждой категории угроз, определяем открытые исследовательские задачи и предоставляем практические рекомендации для заинтересованных сторон. Наш анализ показывает, что наиболее серьезные угрозы возникают из-за структурных особенностей самой структуры, включая отсутствие границы между данными и инструкциями, модель доверия с единым подтверждением и отсутствие обязательной проверки безопасности, и не могут быть устранены только путем поэтапных мер по смягчению последствий. - Towards Secure Agent Skills: Architecture, Threat Taxonomy, and Security Analysis агентам

Tuesday, June 30, 2026

Бэкдоры сегодня

Пара интересных работ по бэкдор-атакам.

Атаки с использованием бэкдоров против нейронных сетей позволяют злоумышленникам внедрять скрытые модели поведения, которые активируются во время вывода, сохраняя при этом высокую производительность на чистых входных данных. Атаки с использованием бэкдоров с чистыми метками особенно скрытны, поскольку они отравляют обучающие данные, не изменяя истинные метки, что затрудняет обнаружение вредоносных образцов с помощью традиционной проверки данных. Эта угроза особенно актуальна, когда обучающие данные собираются из ненадежных, внешних или распределенных источников. В данной статье представлен систематический обзор атак с использованием бэкдоров с чистыми метками и отравлением данных в классификации изображений. Мы вводим единую двухуровневую таксономию, которая сначала различает атаки, содержащие триггеры, и атаки без триггеров, а затем организует каждую категорию в соответствии с лежащими в ее основе механизмами атаки. На основе этой таксономии мы анализируем 18 репрезентативных методов и сравниваем их с точки зрения эффективности атаки, скрытности и операционных предположений, используя общепринятые метрики, такие как частота успешных атак и точность на чистых данных. Мы также изучаем настройки знаний злоумышленников и практические сценарии развертывания, чтобы оценить реальную осуществимость этих атак. Кроме того, мы выявляем новые тенденции, включая адаптивные и специфичные для выборки триггеры, обсуждаем ограничения существующих стратегий защиты и описываем открытые проблемы в оценке и смягчении последствий. Наконец, мы предлагаем стандартизированную систему отчетности для повышения воспроизводимости, сопоставимости и согласованности между исследованиями. Этот обзор обеспечивает структурированное понимание атак с использованием бэкдоров с «чистой меткой» и предлагает рекомендации по разработке более надежных и безопасных систем машинного обучения. - Clean-Label Backdoor Attacks: A Survey

Атаки с использованием бэкдоров позволяют злоумышленникам внедрять вредоносное поведение в модели машинного обучения путем отравления обучающих данных триггерами. Исследователи в основном сосредоточивались на бэкдорах в одномодальных моделях. Однако появление многомодальных систем, например, моделей «зрение-язык» (VLM) и многомодальных больших языковых моделей (MLLM), значительно расширило поверхность атаки. Многомодальные бэкдоры могут использовать кросс-модальные триггеры, манипулирование на уровне представления, поведение, обусловленное инструкциями, и пути активации во время тестирования, которые недоступны в одномодальных моделях. Тем не менее, количественная оценка прогресса в этой области остается сложной задачей из-за фрагментированных наборов данных, непоследовательных моделей угроз, и отсутствия стандартизированных протоколов оценки. Эта методологическая непоследовательность ограничивает сравнительный анализ и препятствует систематическому пониманию устойчивости в многомодальных условиях. В данной статье представлено мета-исследование многомодальных атак с использованием бэкдоров и проанализировано, как методологическая фрагментация подрывает воспроизводимость и кумулятивное научное понимание. Мы утверждаем, что для надежного и систематического развития исследований многомодальных атак с использованием бэкдоров необходимы стандартизированные контрольные показатели и обратно совместимые протоколы оценки. - Meta-Research on Backdoors: Dataset and Threat Model Shifts in Multimodal Backdoor Attacks

См. также другие публикации по бэкдор атакам

Monday, June 29, 2026

AI SEO

Рост генеративного ИИ как основного источника информации представляет собой сдвиг парадигмы по сравнению с традиционным веб-поиском. В данной статье представлено масштабное эмпирическое исследование, количественно оценивающее фундаментальные различия между результатами, полученными Google Search, и ведущими сервисами генеративного ИИ. Мы анализируем несколько аспектов, показывая, что ответы, сгенерированные ИИ, и результаты поиска в интернете существенно расходятся в используемых исходных доменах, типологии этих доменов (например, заработанные и принадлежащие медиа, социальные соцсеты), намерениях запроса и свежести предоставленной информации. Затем мы исследуем роль предварительного обучения LLM как ключевого фактора, формирующего эти различия, анализируя, как эта внутренняя база знаний взаимодействует с поиском в реальном времени и влияет на него, когда она включена. Наши результаты раскрывают уникальную механику этих двух информационных экосистем, что приводит к критическим наблюдениям о зарождающейся области оптимизации для систем ответов (AEO) и её контрасте с традиционной поисковой оптимизацией (SEO). - Navigating the Shift: A Comparative Analysis of Web Search and Generative AI Response Generation

О таксономии агентной безопасности

Системы генеративного ИИ все чаще используются не только для создания контента, но и для извлечения данных, вызова инструментов и выполнения действий. В данной работе рассматриваются последствия этого сдвига для безопасности на уровне контента, моделей и агентов. Мы анализируем, как меняются требования к доступу злоумышленников, автономность системы и масштабы потенциального вреда по мере того, как модели переходят от генерации артефактов к выполнению операций с помощью цепочек инструментов и внешних API. Затем мы оцениваем технические контрмеры, включая обнаружение, водяные знаки, согласование и новые средства защиты агентов, и показываем, что некоторые из них зависят от форм институциональной координации, которые пока не обеспечиваются существующими механизмами управления. Во всех рассмотренных случаях развертывание возможностей и расширение поверхности атаки неоднократно опережают защитные меры по мере того, как системы переходят от генерации контента к выполнению действий в реальном мире. - From AI-Generated Content to Agentic Action: Security and Safety Threats in Generative AI

Интересная статистика о том, какие формы атак достигают наивысших ASR:

Мультимодальный. Каналы зрения и звука обходят текстоцентричные фильтры безопасности. FigStep преобразует запрещенные инструкции в типографические изображения, достигая в среднем 82,5% ASR на шести LVLM с открытым исходным кодом. HADES сообщает о 90,26% ASR на LLaVA-1.5. AudioJailbreak достигает ≥87% ASR в универсальных условиях сильного противника.
На основе кодирования. Преобразование запросов в нестандартные представления использует более слабое покрытие безопасности за пределами типичного естественного языка. CipherChat сообщает о почти 100% обходе безопасности GPT-4 с помощью кодирования шифра. Перевод на языки с ограниченными ресурсами увеличивает показатели обхода с 1% до 79%. ArtPrompt использует ASCII-графику, и в смежных работах показано, что другие нестандартные представления, такие как Base64, ROT13 и код Морзе, аналогичным образом используют более слабое покрытие безопасности в этих кодирующих пространствах.

См. также другие публикации, посвященные агентам

Sunday, June 28, 2026

Что же такое безопасность агентов?

В этом документе утверждается, что для обеспечения безопасности агентов LLM необходимо сначала определить сквозное свойство корректности, которое определяет, когда выполнение агента точно отражает намерение пользователя. Современные агенты LLM работают по конвейеру «намерение-выполнение», где инструкции на естественном языке преобразуются в конкретные системные операции, такие как вызовы инструментов, запросы API и выполнение кода. Хотя в последнее время средства защиты достигли прогресса в ограничении того, как агенты формируют вызовы инструментов, большинство существующих формулировок неявно предполагают, что инструментам можно доверять. Появление систем, таких как OpenClaw, с открытыми экосистемами сторонних специалистов и прямым доступом к пользовательской среде, нарушает это предположение и выявляет новые режимы сбоев, включая вредоносные или чрезмерно привилегированные компоненты в конвейере выполнения.

Несмотря на быстрый прогресс в механизмах защиты, не существует адекватного свойства корректности, определяющего, что означает «безопасность» для агентов LLM, а также принципиального способа оценки охвата существующих средств защиты. Мы отмечаем, что агенты LLM структурно аналогичны компиляторам, где нарушения безопасности соответствуют ошибочным выполнениям, которые не сохраняют намерения пользователя. Опираясь на эту аналогию, мы выявляем два фундаментальных источника проблем — ненадежный прием данных и ненадежное выполнение инструментов — и выводим четыре свойства целостности, которые должны выполняться одновременно: целостность инструментов, целостность инструкций, целостность суждений и целостность потока данных. Мы называем их конъюнкцию целостностью намерения и выполнения. Анализ существующих средств защиты агентов от этих свойств показывает, что текущие системы обеспечивают лишь частичное и некомпозиционное покрытие, оставляя фундаментальные пробелы в обеспечении безопасности современных агентов LLM. - Securing LLM Agents Need Intent-to-Execution Integrity

См. также другие публикации, посвященные агентам

Saturday, June 27, 2026

О развернутых диалогах

Мы представляем MultiBreak, масштабируемый и разнообразный бенчмарк для многошагового джейлбрейка, предназначенный для оценки безопасности больших языковых моделей (LLM). Многошаговые джейлбрейки имитируют естественные разговорные ситуации, что делает их более удобными для обхода LLM, соответствующих требованиям безопасности, чем одношаговые джейлбрейки. Существующие многошаговые бенчмарки ограничены по размеру или сильно зависят от шаблонов, что ограничивает их разнообразие. Чтобы устранить этот пробел, мы объединяем широкий спектр вредоносных интентов джейлбрейка и представляем конвейер активного обучения для расширения высококачественных многошаговых противодействий, где генератор итеративно дорабатывается для создания более сильных кандидатов на атаку, руководствуясь уточнением на основе неопределенности. Наш MultiBreak включает 10 389 многошаговых противодействий, охватывает 2665 различных вредоносных интентов и включает самый разнообразный набор тем на сегодняшний день. Эмпирическая оценка показывает, что наш бенчмарк обеспечивает до 54,0% и 34,6% более высокий уровень успешности атаки (ASR), чем второй лучший набор данных на DeepSeek-R1-7B и GPT-4.1-mini, соответственно. Что еще важнее, оценки безопасности показывают, что различные категории атак выявляют тонкие уязвимости LLM, и категории, которые кажутся безобидными при однократном воздействии, могут демонстрировать значительно более высокую эффективность в многократных сценариях. Эти результаты подчеркивают устойчивые уязвимости LLM в реалистичных условиях противодействия и подтверждают, что MultiBreak является масштабируемым ресурсом для повышения безопасности LLM. - MultiBreak: A Scalable and Diverse Multi-turn Jailbreak Benchmark for Evaluating LLM Safety

См. также другие публикации, посвященные LLM

Friday, June 26, 2026

Это не лечится

Внедрение подсказок является наиболее критической уязвимостью в развернутых агентах ИИ. Несмотря на недавний прогресс, мы показываем, что преобладающая парадигма защиты (разделение данных и инструкций) не только не обнаруживает атаки, которые действуют посредством контекстной манипуляции, но и ухудшает контекстно-адекватное поведение. Затем мы переосмысливаем внедрение подсказок с точки зрения контекстной целостности (КИ), теории конфиденциальности, которая оценивает соответствие потока информации контекстным нормам. Это объясняет типы атак, которые существующие средства защиты пытаются предотвратить, и предсказывает сложные атаки, с которыми столкнутся будущие агенты. Мы разрабатываем уникальные безобидные и атакующие сценарии, которые заставляют агента нарушать нормы путем (1) искажения потока, (2) манипулирования нормами или (3) смешивания нескольких потоков. Эта переформулировка предполагает результат невозможности: противник всегда может сконструировать контекст, в котором заблокированный поток кажется легитимным, или защитник, который ужесточает нормы, будет блокировать действительно легитимные потоки. Наши результаты показывают, что текущее исследование затрагивает все меньшую долю будущих поверхностей атаки. Вместо этого, с помощью CI мы предлагаем принципиальную основу для оценки контекстно-зависимых сбоев и разработки согласования с учетом CI для передовых автономных агентов. - AI Agents May Always Fall for Prompt Injections

См. также другие публикации, посвященные агентам

Thursday, June 25, 2026

О доверенных агентных системах

Агентные системы искусственного интеллекта — большие языковые модели (LLM), дополненные планированием, использованием инструментов, памятью и взаимодействием на долгосрочную перспективу — могут автономно выполнять сложные задачи, но их многоэтапные траектории приводят к новым режимам сбоев, которые ставят под сомнение надежность. Этот обзор представляет собой целенаправленное исследование надежного агентного ИИ по двум основным параметрам, которые имеют решающее значение для развертывания в условиях высокого риска: безопасность и надежность, а также конфиденциальность и безопасность системы. Для каждого параметра мы уточняем ключевые понятия, определяем, где возникают риски на протяжении рабочего процесса агента, и обобщаем стратегии смягчения рисков на каждом этапе. Другие аспекты надежности (согласование ценностей, прозрачность, справедливость и подотчетность) обсуждаются в качестве контекста, а не в отдельных главах. Для обеспечения согласованного сравнения и принятия решений о развертывании мы объединяем оценку в единый центр метрик и бенчмарков, уделяя особое внимание как результатам, так и сигналам процесса (например, нарушениям ограничений, полноте трассировки и показателям успешности противодействия) и предлагая рекомендации по преобразованию сценариев в метрики для управления процессом выпуска. В заключение мы описываем открытые проблемы, такие как саморазвивающиеся агенты, мониторинг и проверка в режиме реального времени, персонализация с сохранением конфиденциальности и компромисс между доверием и полезностью, а также представляем пример реальных сбоев безопасности в агентных системах с открытым исходным кодом (OpenClaw/Moltbook). Наша цель — служить практическим справочником для исследователей и практиков, создающих надежные агентные системы в условиях высокой ответственности. - Towards trustworthy agentic AI: a comprehensive survey of safety, robustness, privacy, and system security

См. также другие публикации, посвященные агентам

Wednesday, June 24, 2026

Сложное тестирование агентов

Мы проводим всесторонний анализ безопасности автономных агентов-помощников,выявляя угрозы, присущие их уникальным архитектурным свойствам. Во-первых, мы создаем систематическую таксономию, охватывающую 20 реальных рисков, классифицированных на нарушения границ, устойчивое искажение состояния и вредоносные операции. Для дальнейшего выявления уязвимостей автономных агентов в условиях этих угроз мы предлагаем три передовые стратегии атаки, обеспечивающие обход защиты во временном, пространственном и семантическом измерениях: (i) Кросс-поворотная фрагментация: фрагментация и распределение вредоносных полезных нагрузок по нескольким взаимодействиям в рамках одной сессии; (ii) Обход защиты в пределах области обнаружения: внедрение полезных нагрузок атаки в сложные внешние артефакты, которые трудно проверить с помощью LLM; и (iii) Сокрытие в благоприятном контексте: сокрытие вредоносных намерений в объемной, на первый взгляд безобидной информации в длительном контексте. Мы моделируем эти риски и стратегии в A3S-Bench, эталонной системе, включающей 2254 многоходовых диалога (1512 случаев атак, охватывающих 34 метода атак, и 742 безопасных диалога). Набор данных охватывает шесть сценариев использования и два уровня сложности, сгенерированных с помощью автоматизированного трехэтапного конвейера синтеза. Каждый случай выполняется в изолированной среде и оценивается с использованием метрик оценки на основе действий, которые совместно количественно определяют как безопасность, так и полезность. - Benchmarking Autonomous Agents against Temporal, Spatial, and Semantic Evasions

Для тестирования агентов (как и для тестирования LLM) нужны multi-turn тесты

См. также другие публикации, посвященные агентам

Tuesday, June 23, 2026

Перефразирование в состязательных атаках

Большие языковые модели (LLM) широко используются в различных реальных условиях, но остаются уязвимыми для взлома, где атаки на основе подсказок обходят фильтры безопасности. Мы представляем THREAT (Targeted Harmful generation via Reframing and Exploitation of Adversarial Tactics) — основанную на рассуждениях структуру, которая координирует работу нескольких LLM в итеративном цикле поиска для обнаружения текстовых подсказок для взлома. Мы формулируем задачу обнаружения подсказок как невыпуклую задачу оптимизации и предлагаем эффективное решение, которое сокращает время выполнения и повышает эффективность атаки. На различных наборах данных и архитектурах моделей THREAT обеспечивает более высокие показатели успешности атак при меньших вычислительных затратах, чем предыдущие методы. Созданные подсказки были помечены как вредоносные менее чем в 1% случаев, по сравнению с примерно 50% отказов для соответствующих неизмененных подсказок. Эти результаты выявляют ранее не обнаруженные уязвимости в выровненных LLM и позиционируют THREAT как практический инструмент для упреждающего повышения безопасности базовых моделей. Adversarial Reframing: A Framework for Targeted Generation in Language Models

С помощью LLM перефразируют состязательные запросы до тех пор, пока их не перестанут отвергать.

См. также другие публикации, посвященные LLM

Monday, June 22, 2026

Все об атаках на агенты

В реальных приложениях быстро появляются агенты ИИ, которые объединяют большие языковые модели с компонентами не-ИИ систем, предлагая беспрецедентную автоматизацию и гибкость. Однако эта беспрецедентная гибкость порождает сложные проблемы безопасности, которые отличаются от проблем, встречающихся в традиционных программных системах. В данной статье представлена первая всесторонняя систематизация знаний о безопасности агентов ИИ, включая анализ пространства проектирования агентов, ландшафта атак и механизмов защиты для безопасных систем агентов ИИ. Мы также выявляем открытые проблемы, указывающие на перспективные направления будущих исследований в этой новой области. Наша работа представляет собой первую систематическую структуру для понимания рисков безопасности и ландшафтов защиты агентов ИИ, служащую основой для создания как безопасных агентных систем, так и продвижения исследований в этой критически важной области.- SoK: Attack and Defense Landscape of Agentic AI Systems

См. также другие публикации, посвященные агентам

Устройство LLM

Хорошее описание основных компонент LLM

См. также другие публикации, посвященные LLM

Sunday, June 21, 2026

Переполнение подсказок

Модели-ограничители (Guardrail models - средства проверки безопасности) широко используются для проверки пользовательского ввода до того, как он попадет в большие языковые модели (LLM), служа в качестве основной защиты от атак с внедрением подсказок. Из-за строгих контекстных ограничений эти модели обрабатывают слишком длинные подсказки путем усечения или сегментации. Хотя предыдущие работы были сосредоточены на семантически враждебных входных данных, последствия для безопасности этих механизмов обработки длинных входных данных остаются в значительной степени неизученными. В этой статье мы выявляем критическое «слепое пятно», возникающее из-за несоответствия между ограниченными окнами проверки моделей-ограничителей и значительно большими окнами вывода контекста нижних LLM. Мы представляем новую атаку с переполнением подсказки, которая использует это несоответствие путем фрагментации вредоносных инструкций и перемешивания их с безобидным содержимым-заполнителем в слишком длинной подсказке, так что ни один отдельный проверяемый сегмент не кажется вредоносным, в то время как полный контекст остается доступным для LLM. В результате систематической оценки с использованием современных моделей защиты, включая Meta Llama Prompt Guard, IBM Granite Guardian и детекторы на основе DeBERTa, мы демонстрируем, что подсказки, надежно обнаруживаемые в условиях короткого контекста, могут обходить модели защиты после того, как они были изменены злонамеренно в результате преобразования во входные данные чрезмерной длины, но при этом остаются полностью пригодными для использования последующими LLM. Мы также предлагаем потенциальные стратегии защиты и описываем направления смягчения последствий для усиления моделей защиты. - Prompt Overflow: What the Guardrail Inspects Is Not What the Model Infers

См. также другие публикации, посвященные LLM

Saturday, June 20, 2026

О безопасности ML

Сегодняшний день — начало развития машинного обучения в сфере безопасности. Как в 1998 году все говорили о переполнении буфера, а тестирование на проникновение было настоящим безумием, так и в 2026 году все говорят о внедрении уязвимостей с помощью мгновенного запроса, а команды разработчиков, использующие ИИ, находятся на пике популярности.

И даже такая базовая вещь, как внедрение уязвимостей с помощью инъекции подсказок все еще быстро растет. Это означает, что в сфере безопасности, вероятно, произойдёт смещение в сторону мониторинга, обнаружения вторжений и песочницы, как это было в начале 2000-х, сначала рассматривая LLM как «чёрный ящик», входы и выходы которого требуют строгого контроля. Этот сдвиг уже идёт полным ходом. Сколько продуктов для межсетевых экранов на основе ИИ уже представлено на рынке? Далее мы поймём, что нам нужно проникнуть внутрь «чёрного ящика» и разработать набор методов обеспечения безопасности, которые будут моральным эквивалентом анализа кода и архитектурного анализа. Мы пока не знаем, что это значит, но такие работы, как исследования трансформерных цепей Anthropic, открывают новые горизонты. - NO SECURITY METER FOR AI

Friday, June 19, 2026

Поет морзянка за стеной веселым дискантом

Промпт инъекция в виде азбуки Морзе попросила о переводе биткоинов. LLM поняла запрос и исполнила перевод. Но только ты об этом лучше песню расспроси!