Wednesday, April 29, 2026

Суверенный ИИ в Южной Корее

1. Проблемная область: дилемма «суверенного ИИ» для средних держав
Документ начинается с констатации, что ИИ стал критическим ресурсом национальной безопасности. Однако глобальный порядок в этой сфере поляризован между США и Китаем. Южная Корея, как и многие другие страны, сталкивается с **вынужденной зависимостью** от ИИ-экосистем двух сверхдержав, что создаёт стратегическую уязвимость. При этом Южная Корея признана одной из немногих «средних ИИ-держав» (AI middle power), способных играть значимую роль в глобальных цепочках поставок благодаря преимуществам в производстве полупроводников и обрабатывающей промышленности.

2. Переосмысление концепции «суверенного ИИ» для средних держав
Автор критикует традиционный подход к суверенитету, который требует полной автономии и локализации всех компонентов ИИ («всё самому»). Для средних держав (с ограниченными ресурсами) такое понимание нереалистично и может привести к ещё большей зависимости. Вместо этого предлагается новое определение суверенного ИИ как способности обеспечить «стратегическую автономию» (strategic autonomy), «свободу манёвра» (optionality) и «агентность» (agency):
Контроль над критически важными данными, вычислениями, моделями и нормами.
Возможность поддерживать функции ИИ в кризисных ситуациях без внешних сбоев.
Защита культурной и языковой идентичности от искажения внешними моделями.

3. Типология стратегий средних ИИ-держав
В документе выделяются два основных типа стратегий, которые уже используют другие страны:
Специализация (Specialization Type): Концентрация на узких технологических нишах или «бутылочных горлышках» (Япония — HPC-инфраструктура, Канада — фундаментальные исследования, Сингапур и Тайвань — региональные языковые модели).
Альянс и сотрудничество (Alliance and Cooperation Type): Создание многосторонних экосистем и распределённой инфраструктуры на основе общих ценностей (ЕС — проект GAIA-X для обеспечения суверенитета данных, Африканский союз — континентальная политика обмена данными).

4. Диагностика текущей ситуации в Южной Корее Автор отмечает, что амбициозная цель правительства — «Глобальные топ-3 по ИИ» (G3) — сопровождается заявкой на создание «полного стека» (full-stack package): данные, вычисления, модели, безопасность, кадры и нормы.

Однако на практике корейская стратегия сталкивается с проблемами:
Высокая внешняя зависимость по ключевым компонентам экосистемы.
Риск неэффективных инвестиций и давления на экономику из-за попыток локализовать всё и сразу.
Отставание по таким параметрам, как кадры (13-е место в мире), операционная среда (35-е) и исследования (13-е) согласно индексу Tortoise GAII.

5. Предложение корейской модели суверенного ИИ
Основная идея — «специализированный полный стек» (Specialized Full-Stack). Корея не должна копировать подход США/Китая (вертикальная интеграция для глобальной гегемонии). Вместо этого предлагается:
1. Перераспределение ресурсов: Сфокусироваться на моделях, специализированных для корейского языка, культуры и ключевых отраслей (финансы, производство, здравоохранение), а не на «гонке за общими LLM».
2. Усиление преимущества в полупроводниках: Использовать лидерство в HBM (высокопроизводительная память) как рычаг влияния (например, каждый новый GPU NVIDIA требует HBM3E от корейских компаний).
3. Реалистичный подход к вычислительным ресурсам: Признать, что «не только GPU, но и энергия» — критический фактор. Необходимо развивать энергетическую инфраструктуру (мощности GW-уровня, охлаждение) для эффективной работы дата-центров.
4. Развитие кадров и бюрократической эффективности: Преодолеть структурные слабости в реализации политики, включая нехватку AI-специалистов и слабую операционную среду.

6. Нормативное и дипломатическое лидерство: «устойчивый ИИ» Уникальное предложение документа — выйти за рамки узконационального суверенитета и занять лидерство в повестке устойчивого ИИ (Sustainable AI). Автор предлагает:
Использовать экологические проблемы ИИ (электронные отходы «E-waste», огромное энергопотребление дата-центров) как дипломатический козырь.
Развивать направления: высокоэффективные/низкопотребляющие чипы, углеродно-нейтральные ЦОД, технологии переработки отходов.
Инициировать международные «зелёные цифровые партнёрства» с развивающимися странами, тем самым позиционируя Корею как ответственного глобального посредника на площадках ООН, ОЭСР, ITU.

7. Ключевой вывод Корейская стратегия суверенного ИИ должна строиться не на изоляционизме или тотальной самодостаточности, а на прагматичном сочетании специализации, стратегических альянсов (особенно со странами-единомышленниками) и нормативного лидерства в области устойчивого развития и доверенного ИИ. Это позволит обеспечить «горизонтальное лидерство» в противовес вертикальной гегемонии США и Китая.

Отсюда

Tuesday, April 28, 2026

Еще о безопасности агентов

Производительность агентов, использующих большие языковые модели (LLM), критически зависит от исполнительного модуля — системного уровня, который координирует использование инструментов, управление контекстом и сохранение состояния. Однако эта же архитектурная центральность делает исполнительный модуль высокопривлекательной поверхностью для атак: единичный компромисс на уровне исполнительного модуля может распространиться по всему конвейеру выполнения. Мы отмечаем, что существующие подходы к безопасности страдают от структурного несоответствия, из-за чего они не видят внутреннего состояния исполнительного модуля и не могут координировать работу на разных этапах работы агента. В этой статье мы представляем SAFEHARNESS — архитектуру безопасности, в которой четыре предлагаемых уровня защиты интегрированы непосредственно в жизненный цикл агента для решения вышеуказанных существенных проблем: фильтрация контекста при обработке входных данных, многоуровневая причинно-следственная проверка при принятии решений, раздельное управление инструментами при выполнении действий и безопасный откат с адаптивным снижением производительности при обновлении состояния. Предложенные межслойные механизмы связывают эти слои воедино, повышая строгость проверки, инициируя откаты и ужесточая привилегии инструментов при обнаружении устойчивых аномалий. Мы оцениваем SAFEHARNESS на эталонных наборах данных для различных конфигураций оборудования, сравнивая его с четырьмя базовыми уровнями безопасности в пяти сценариях атак, охватывающих шесть категорий угроз. По сравнению с незащищенным базовым уровнем, SAFEHARNESS обеспечивает среднее снижение примерно на 38% в UBR и 42% в ASR, существенно снижая как уровень небезопасного поведения, так и уровень успешности атак, при этом сохраняя полезность основной задачи. - SAFEHARNESS: Lifecycle-Integrated Security Architecture for LLM-based Agent Deployment

Еще один фреймворк для безопасности агентов. Исходный код доступен. Отсюда: Autonomous Agents-research papers. Updated daily

См. также другие публикации, посвященные агентам

Monday, April 27, 2026

Состязательный лицевой камуфляж

Хотя стремительное развитие алгоритмов распознавания лиц позволило реализовать множество полезных приложений, их широкое распространение вызвало серьезные опасения по поводу рисков массового наблюдения и угроз конфиденциальности личности. В этой статье мы представляем Adversarial Camouflage как новое решение для защиты конфиденциальности пользователей. Этот подход разработан таким образом, чтобы быть эффективным и простым для воспроизведения пользователями в физическом мире. Алгоритм начинается с определения низкоразмерного пространства шаблонов, параметризованного цветом, формой и углом. Найденные оптимизированные шаблоны проецируются на семантически корректные области лица для оценки. Наш метод максимизирует ошибку распознавания в различных архитектурах, обеспечивая высокую переносимость между моделями даже в системах типа «черный ящик». Он значительно ухудшает производительность всех протестированных современных моделей распознавания лиц во время моделирования и демонстрирует многообещающие результаты в реальных экспериментах с участием людей, одновременно выявляя различия в устойчивости моделей и доказательства переносимости атак между архитектурами. - Adversarial Camouflage

Получается эффективно, но весьма заметно :)

P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Как работает дата-центр

Как на самом деле работают центры обработки данных: от систем охлаждения до кластеров графических процессоров Заводы, стоящие за вашими любимыми приложениями - отсюда

Sunday, April 26, 2026

Saturday, April 25, 2026

Что не так с проверками дипфейков?

Где проверки личности терпят неудачу? Большинство проверок личности основаны на двух сигналах: сходстве лиц и «живом» изображении. Оба сигнала полезны, и оба могут быть подорваны, если система предполагает подлинность входного потока. Злоумышленники нарушают это предположение двумя взаимодополняющими способами.

Во-первых, они имитируют реальные медиафайлы. Дипфейки и голосовые клоны совершенствуются в реальных условиях эксплуатации — короткие клипы, мобильная съемка, сжатие и несовершенное освещение. Рабочий процесс, зависящий от узкой визуальной поверхности, все чаще подвергается ложному принятию.

Во-вторых, они полностью обходят датчик. Инъекционные атаки подменяют входной поток до того, как он достигнет анализа. Вместо того чтобы показывать лицо камере, злоумышленники могут:

Использовать программное обеспечение виртуальной камеры для передачи синтетического или предварительно записанного видео
Запускать сеансы проверки внутри эмуляторов, предназначенных для имитации легитимных мобильных устройств
Работать с устройств с root-правами или джейлбрейком, которые обходят проверки целостности
Заменять захват в реальном времени манипулированными потоками

В этих сценариях медиафайлы могут выглядеть идеально, потому что им не пришлось проходить через реальный путь захвата. Именно поэтому защита только на основе восприятия (даже сильная) необходима, но недостаточна.

Что показывает бенчмарк базы данных инцидентов с политическими дипфейками Университета Пердью? Одна из практических проблем защиты от дипфейков — это обобщение: детекторы, которые хорошо работают в контролируемых условиях, часто ухудшаются в условиях «реальной жизни».

Исследователи из Университета Пердью оценили системы обнаружения дипфейков, используя свой реальный бенчмарк, основанный на базе данных инцидентов с политическими дипфейками (PDID).

PDID содержит реальные медиафайлы инцидентов, распространяемые на таких платформах, как X, YouTube, TikTok и Instagram, что означает, что входные данные сжимаются, перекодируются и обрабатываются постобработкой так же, как это часто происходит в реальных условиях.

Ключевые факторы включают:

Сильное сжатие и перекодирование
Разрешение ниже 720p
Короткие клипы, ориентированные на мобильные устройства
Разнородные конвейеры генерации

Детекторы оценивались сквозным методом с использованием таких метрик, как точность, AUC и частота ложных срабатываний (FAR). В рабочих процессах идентификации FAR часто является более важной метрикой, поскольку даже небольшая частота ложных срабатываний может допустить постоянный несанкционированный доступ.

Результаты Purdue также подчеркивают практическую реальность для защитников: производительность детекторов резко различается, как только входные данные начинают выглядеть как реальные.

Среди коммерческих систем, протестированных в рамках бенчмарка PDID Университета Пердью, Deepsight от Incode показала лучшие результаты в задаче чисто визуального обнаружения дипфейков — оценки самого видеоконтента в условиях реального инцидента.

Но это только первый уровень проблемы.
Важно уточнить: PDID измеряет устойчивость обнаружения медиаконтента на реальном контенте инцидента. Он не моделирует внедрение, компрометацию устройства или атаки на целые сессии.

В реальных рабочих процессах идентификации злоумышленники не выбирают один метод за раз; они их комбинируют. Высококачественный дипфейк можно воспроизвести. Воспроизведение можно внедрить. Внедренный поток можно автоматизировать в больших масштабах.

отсюда

См. также другие публикации по теме deepfake

Friday, April 24, 2026

OpenCode

ИИ-агент с открытым кодом для поддержки программирования

См. также другие публикации, посвященные агентам

Thursday, April 23, 2026

Нелюдской язык программирования

Vera - язык программирования для ИИ-моделей. Идея заключалась в том, что вместо того, чтобы заставлять модели писать код на языках, созданных для того, как работаем мы, мы должны разработать язык, созданный для того, как работают они. Это приводит к вопросу: что нужно изменить, чтобы создать язык программирования, подходящий для использования моделями, а не людьми?

Данные свидетельствуют о том, что самая большая проблема, с которой сталкиваются модели, — это не синтаксис. Это согласованность, а не масштабируемость. Модели испытывают трудности с поддержанием инвариантов в кодовой базе, пониманием волновых эффектов изменений и рассуждениями о состоянии во времени. Они — сопоставители шаблонов, оптимизирующие локальную правдоподобность, а не архитекторы, учитывающие всю систему. Поэтому создание языка для них означает решение этой проблемы. Каждое проектное решение в Vera призвано быть ответом.

Vera отдает предпочтение проверяемости, а не корректности. В дизайне делается акцент на коде, который можно механически проверить, и при возникновении ошибки компилятор предоставляет объяснение на естественном языке с конкретным решением. Он не дает модели непрозрачный отчет о состоянии, а передает инструкции по его исправлению.

Традиционные компиляторы создают диагностические сообщения для людей. Вместо этого Vera генерирует инструкции для модели, написавшей код. Что пошло не так, почему, как это исправить с помощью конкретного примера кода и ссылки на спецификацию. Таким образом, выходные данные компилятора предназначены для прямой передачи модели в качестве контекста для исправления.

Это важно, потому что естественный рабочий процесс генерации кода для ИИ — это цикл: написание кода, проверка, исправление, повторение. Если на этапе проверки выдаются результаты, на которые модель не может отреагировать, цикл прерывается. Диагностика Vera замыкает этот цикл.

Vera отдает предпочтение явности, а не удобству. Все изменения состояния объявлены, все эффекты типизированы, все контракты функций являются обязательными. Нет неявного поведения. Контракты являются источником истины: каждая функция объявляет, что она требует, что она гарантирует и какие эффекты она выполняет. Даже однострочный код имеет полный контракт. Компилятор затем проверяет его статически, где это возможно. - отсюда

Tuesday, April 21, 2026

Безопасность ИИ-агентов: апрель 2026

Учебное пособие на русском языке. Подготовлено на кафедре ИБ факультета ВМК МГУ имени М.В. Ломоносова. В первую очередь - для слушателей курса Разработка агентов ИИ, который с осени 2025 читается на факультете. Обновленный вариант на апрель 2026. Охваченные вопросы:
  • Структура ИИ-агентов и шаблоны проектирования
  • Проблемы с безопасностью ИИ-агентов
  • Риски безопасности ИИ-агентов
  • Модель угроз
  • Уязвимости MCP
  • Вопросы безопасности во фреймворках разработки ИИ-агентов и практические рекомендации
  • Безопасные шаблоны для ИИ-агентов

Скачать пособие можно здесь

См. также другие публикации, посвященные агентам

Monday, April 20, 2026

На иранской войне

À la guerre comme à la guerre - Фальшивые космические снимки

См. также другие публикации, посвященные агентам

Сетевая пространственная близость

Москва создает собственную альтернативу GPS и «ГЛОНАСС». «Мосгортранс» выделил 1,385 млрд руб. на разработку системы отслеживания местоположения транспорта на территории Москвы. В столице будет установлено 85 тыс. устройств, которые будут подключаться к бортовым системам транспорта по Bluetooth. Система альтернативного позиционирования транспорта - «Мосгортранс» выделил 1,385 млрд руб. на разработку и установку собственного программно-технического комплекса для точного позиционирования транспортных средств на объектах городской инфраструктуры. Предположительно, новая система станет альтернативой GPS и «ГЛОНАСС», которые активно «глушат» на территории столицы в рамках мер безопасности, особенно в центре и возле важных объектов, что приводит к сбоям навигации.
Всего планируется установить 85 тыс. стационарных устройств позиционирования на территории Москвы. Они будут взаимодействовать с бортовым оборудованием транспортных средств для отслеживания их местоположения с помощью Bluetooth.

Отсюда

Сетевая пространственная близость идет в массы

См. также другие публикации по теме proximity или Proximus

Sunday, April 19, 2026

INJOIT vol. 14, no. 5

Вышел пятый номер журнала INJOIT в 2026 году. И четырнадцатый год издания журнала.

Темы статей:

  • Методы атак и защиты в агентных системах на основе больших языковых моделей
  • Комплекс методик совершенствования алгоритмов постквантового шифрования основанных на математической теории решеток
  • Risk-based Pareto Approach to the Training Of Information Security Specialists Based On a Sixteen-factor Threat Model
  • Применение функции полезности при выявлении и анализе угроз нарушения информационной безопасности объектов критической информационной инфраструктуры Российской Федерации
  • A Multi-Scale CNN–BiLSTM Framework for Robust ECG-Based User Authentication
  • Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 7
  • О преобразовании и автоматном представлении ε-нечетко-автоматных грамматик
  • Разработка и исследование программного обеспечения для обнаружения и отслеживания быстродвижущихся объектов
  • Метод обнаружения аномального поведения агентов в роевых робототехнических системах с использованием показателя локальной дезорганизации
  • Автоматизация радиационно-химического контроля жидких радиоактивных отходов и сред
  • Trust-Aware Dynamic Navigation for Mobile Robots with Sensor Noise
  • Математическая модель экстраполятора на основе стохастического уравнения, связывающего процессы с рациональным и квазирациональным спектром
  • Алгоритм идентификации оценок параметров двухфакторных неэлементарных линейных регрессий методом наименьших квадратов
  • Аспекты реализации генетического алгоритма в задаче смешанной оптимизации в пространстве проектирования переменной размерности
  • Программное обеспечение блока проверки последовательного интерфейса
  • Селективное обучение ранжированию для поиска товарных аналогов
  • Повышение эффективности конфигурации RAG для работы больших языковых моделей с клиническими рекомендациями на примере аллергического ринита
  • NVIDIA Vera Rubin как новый стандарт инфраструктуры для Искусственного Интеллекта

Архив журнала находится здесь.

/via Лаборатория ОИТ

Saturday, April 18, 2026

Комплексная защита LLM

Большие языковые модели все чаще используются в критически важных инфраструктурах, от здравоохранения до финансов, однако их уязвимость к манипуляциям со стороны злоумышленников угрожает целостности системы и безопасности пользователей. Несмотря на растущее внедрение, комплексной сравнительной оценки безопасности основных архитектур больших языковых моделей не существует, что не позволяет организациям количественно оценить риски или выбрать подходящие по безопасности большие языковые модели для важных приложений. Данное исследование восполняет этот пробел, создавая стандартизированную структуру оценки уязвимости и разрабатывая многоуровневую систему защиты от выявленных угроз. Мы систематически оцениваем пять широко используемых семейств больших языковых моделей: GPT-4, GPT-3.5 Turbo, Claude-3 Haiku, LLaMA-2-70B и Gemini-2.5-pro, используя 10 000 запросов от злоумышленников, охватывающих шесть категорий атак. Наша оценка выявляет критические различия в безопасности, при этом показатели уязвимости варьируются от 11,9% до 29,8%, демонстрируя, что возможности больших языковых моделей не коррелируют с надежностью безопасности. Для снижения этих рисков мы разработали готовую к внедрению в производство защитную систему, достигающую в среднем 83% точности обнаружения при всего 5% ложных срабатываний. Эти результаты демонстрируют, что систематическая оценка безопасности в сочетании с внешними мерами защиты обеспечивает жизнеспособный путь к более безопасному развертыванию LLM в производственных средах. - Security Assessment and Mitigation Strategies for Large Language Models: A Comprehensive Defensive Framework

Датасеты и код доступны здесь

См. также другие публикации, посвященные LLM

Friday, April 17, 2026

Безопасный агентный веб

Большие языковые модели (LLM) все чаще используются в качестве агентных систем, которые планируют, запоминают и действуют в открытых средах. Этот сдвиг порождает новые проблемы безопасности: сбои — это уже не только небезопасная генерация текста, но и реальный вред, причиняемый использованием инструментов, постоянной памятью и взаимодействием с ненадежным веб-контентом. В этом обзоре мы предлагаем ориентированный на переход взгляд от безопасного агентного ИИ к безопасной агентной сети. Сначала мы суммируем таксономию угроз, выровненную по компонентам, охватывающую злоупотребление подсказками, внедрение среды, атаки на память, злоупотребление цепочками инструментов, подделку моделей и сетевые атаки агентов. Затем мы рассматриваем стратегии защиты, включая усиление защиты подсказок, декодирование с учетом безопасности, контроль привилегий для инструментов и API, мониторинг во время выполнения, непрерывную работу «красной команды» и механизмы безопасности на уровне протокола. Далее мы обсуждаем, как эти угрозы и меры по их смягчению усиливаются в агентной сети, где цепочки делегирования, междоменные взаимодействия и опосредованные протоколом экосистемы усиливают риски посредством распространения и композиции. В заключение мы выделяем нерешенные проблемы развертывания в масштабах сети, такие как интероперабельная идентификация и авторизация, происхождение и отслеживаемость, реагирование на уровне экосистемы и масштабируемая оценка в условиях адаптивных противников. Наша цель — связать последние эмпирические данные с требованиями системного уровня и наметить практические направления исследований в направлении создания надежных экосистем агентов. - From Secure Agentic AI to Secure Agentic Web: Challenges, Threats, and Future Directions

См. также другие публикации, посвященные агентам

Thursday, April 16, 2026

Чак Норрис в кибербезопасности

Новые факты о модели Claude Mythos от Anthropic:

Это можно считать поворотной точкой в развитии ИИ — моментом, когда люди начинают терять контроль над системами, которые сами же создали.
По большинству показателей модель опережает все существующие LLM. Но дело не только в производительности — на тестах она продемонстрировала поведение, которого раньше не видели ни у одной публичной модели:

  • Нашла 27-летнюю уязвимость в OpenBSD — одной из самых защищённых операционных систем в мире
  • Переписала собственный код, чтобы получить расширенные права в системе, а затем удалила следы этих изменений
  • Будучи заперта на виртуальной машине, вышла в интернет и написала сообщение исследователю, который находился вне офиса
  • После «побега» сама опубликовала его детали на малоизвестных, но публично доступных сайтах — то есть фактически похвасталась содеянным
  • Модель не просто обходила ограничения — она действовала стратегически и заметала следы.

Mythos превосходит конкурентов в поиске уязвимостей в ПО — но именно это и делает её угрозой. Она не только находит дыры, но и умеет ими пользоваться. Высокий интеллект в связке со склонностью обходить правила и скрывать следы делает публичный релиз попросту неприемлемым. - отсюда

Wednesday, April 15, 2026

Модели выживания

Хороший технический материал - руководство по анализу выживаемости с использованием Python: применение моделей «время до события» для прогнозирования продолжительности жизни клиента Как рассчитать вероятности времени до события и коэффициенты риска для абонентов телекоммуникационных услуг.