Thursday, March 27, 2025

Indirect Prompt Injection

Атаки с внедрением подсказок манипулируют большими языковыми моделями (LLM), вводя их в заблуждение, заставляя их отклоняться от исходных входных инструкций и выполнять вредоносные инструкции из-за их возможностей следования инструкциям и неспособности различать исходные входные инструкции и вредоносные инструкции. Для защиты от таких атак недавние исследования разработали различные механизмы обнаружения. В то время как значительные усилия были сосредоточены на обнаружении прямых атак с внедрением подсказок, где внедряемые инструкции поступают непосредственно от злоумышленника, который также является пользователем, ограниченное внимание было уделено косвенным атакам с внедрением подсказок, где внедряемые инструкции поступают косвенно от внешних инструментов, таких как поисковая система. Более того, текущие работы в основном исследуют методы обнаружения инъекций и уделяют меньше внимания методу постобработки, который направлен на смягчение инъекции после обнаружения. В этой статье мы исследуем возможность обнаружения и удаления косвенных атак с внедрением подсказок, и создаем эталонный набор данных для оценки. Для обнаружения мы оцениваем производительность существующих LLM и моделей обнаружения с открытым исходным кодом, а также обучаем модели обнаружения с использованием наших созданных обучающих наборов данных. Для удаления мы оцениваем два интуитивных метода:
(1) метод удаления сегментации, который сегментирует введенный документ и удаляет части, содержащие введенные инструкции, и
(2) метод удаления извлечения, который обучает модель извлечения идентифицировать и удалять введенные инструкции.

Can Indirect Prompt Injection Attacks Be Detected and Removed?

Wednesday, March 26, 2025

Сокрытие объектов

Исследование уязвимостей бэкдора в детекторах объектов, особенно в реальных сценариях, остается ограниченным. Значительная проблема заключается в отсутствии естественного физического набора данных бэкдора, и создание такого набора данных требует как времени, так и труда. В этой работе мы устраняем этот пробел, создавая крупномасштабный набор данных, включающий приблизительно 11 800 изображений/кадров с аннотациями, содержащими природные объекты (например, футболки и шляпы) в качестве триггеров для возникновения маскирующих противоправных эффектов в различных реальных сценариях. Этот набор данных предназначен для изучения физических бэкдоров в детекторах объектов. Используя этот набор данных, мы проводим комплексную оценку коварного эффекта маскирующего бэкдора против детекторов объектов, при котором ограничивающая рамка вокруг человека исчезает, когда человек находится рядом с естественным объектом (например, общедоступной футболкой) перед детектором. Наши оценки охватывают три распространенные поверхности атак: аутсорсинг данных, аутсорсинг моделей и использование предварительно обученных моделей. Эффект маскировки успешно внедрен в детекторы объектов по всем трем поверхностям атак. Мы тщательно оцениваем четыре популярных алгоритма обнаружения объектов (Yolo-V3 на основе якорей, Yolo-V4, Faster R-CNN и CenterNet без якорей), используя 19 видео (всего около 11 800 кадров) в реальных сценариях. Наши результаты показывают, что атака бэкдора демонстрирует замечательную устойчивость к различным факторам, включая движение, расстояние, угол, нежесткую деформацию и освещение. В сценариях аутсорсинга данных и моделей показатель успешности атаки (ASR) в большинстве видео достигает 100% или около того, в то время как точность чистых данных модели с бэкдором остается неотличимой от точности чистой модели, что делает невозможным обнаружение поведения бэкдора с помощью набора для проверки. Примечательно, что двухступенчатые детекторы объектов (например, Faster R-CNN) демонстрируют большую устойчивость к бэкдор-атакам в условиях чистого отравления данных (т. е. при аутсорсинге данных) по сравнению с одноступенчатыми детекторами (например, серия Yolo). Однако эта проблема преодолима, когда злоумышленник контролирует процесс обучения (особенно при аутсорсинге модели), даже при том же небольшом бюджете скорости отравления, что и при аутсорсинге данных. В сценариях атак с передачей обучения, оцененных на CenterNet, средний ASR остается высоким и составляет 78%. - Comprehensive Evaluation of Cloaking Backdoor Attacks on Object Detector in Real-World

См. также другие публикации по теме физические атаки

Tuesday, March 25, 2025

Поиск бэкдоров

Атака бэкдора all-to-one (A2O) является одной из основных угроз для нейронных сетей. Большинство существующих защит бэкдора A2O работают в контексте белого ящика, требуя доступа к архитектуре модели бэкдора, скрытым выходам слоя или внутренним параметрам. Необходимость в защите бэкдора A2O черного ящика возникает, особенно в сценариях, где доступны только вход и выход сети. Однако распространенные защиты бэкдора A2O черного ящика часто требуют предположений относительно местонахождения триггеров, поскольку они используют созданные вручную признаки для обнаружения. В случаях, когда триггеры отклоняются от этих предположений, полученные созданные вручную признаки снижаются в качестве, делая эти методы неэффективными. Для решения этой проблемы в этой работе предлагается защита бэкдора A2O черного ящика после обучения, которая поддерживает постоянную эффективность независимо от местонахождения триггеров. Наш метод основан на эмпирическом наблюдении, что в контексте атак с использованием бэкдора A2O отравленные образцы более устойчивы к равномерному шуму, чем чистые образцы с точки зрения сетевого выхода. В частности, наш подход использует метрику для количественной оценки устойчивости заданного входа к равномерному шуму. Детектор новизны, обученный с использованием количественной устойчивости доступных чистых образцов, развертывается для определения, отравлен ли заданный вход. Детектор новизны оценивается по различным триггерам. Наш подход эффективен для всех используемых триггеров. Наконец, дается объяснение нашего наблюдения. - Detecting All-to-One Backdoor Attacks in Black-Box DNNs via Differential Robustness to Noise

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Monday, March 24, 2025

Беседы про ИИ агентов

Тема агентов в искусственном интеллекте, ИИ-агенты и агентный ИИ вот-вот займут центральное место в информационном пространстве. Анализ зарубежных (и западных, и азиатских) консалтинговых и технологических компаний показал, что это самый крупный технологический тренд 2025 года внутри ИИ. - Раскрыть агента. Обзор понимания агентного ИИ

Здесь еще раз приведем ссылку на нашу статью
Намиот Д. Е., Ильюшин Е. А. Архитектура LLM агентов //International Journal of Open Information Technologies. – 2025. – Т. 13. – №. 1. – С. 67-74. Прочесть можно, например, на сайте injoit.org

P.S. когда-то мы были первыми, кто обратил внимание на технологии RPA
Намиот Д. Е. и др. Информационные роботы в системах управления предприятием //International Journal of Open Information Technologies. – 2017. – Т. 5. – №. 4. – С. 12-21. Прочесть можно в Киберленинке, например.

Sunday, March 23, 2025

Оккультная кибербезопасность

MITRE представила платформу Offensive Cyber Capability Unified LLM Testing (OCCULT) - новаторскую методологию, разработанную для оценки рисков, создаваемых большими языковыми моделями (LLM) в автономных кибератаках.

Анонсированная 26 февраля 2025 года, инициатива отвечает на растущие опасения, что системы ИИ могут демократизировать наступательные кибероперации (OCO), позволяя злоумышленникам масштабировать атаки с беспрецедентной эффективностью. - MITRE Releases OCCULT Framework to Address AI Security Challenges

См. также другие публикации, посвященные LLM

Saturday, March 22, 2025

Отчет о безопасном ИИ и стандарты

Первый международный отчет International AI Safety Report. Вот здесь есть история его появления.

Британия, возможно, была первой страной, которая стала выпускать промышленные стандарты. Традиции точно есть. И вот первый стандарт безопасного ИИ:

"Ведущий в мире стандарт кибербезопасности на основе ИИ для защиты цифровой экономики. Британские компании получат выгоду от первого в мире стандарта кибербезопасности, который защитит системы ИИ от кибератак, обеспечивая безопасность цифровой экономики" - кибербезопасность ИИ. Изданы правила для разработчиков (Code of Practice). Это планируется стандартизовать через ETSI.

Вот здесь есть интересный сборник британских правительственных исследовательских отчетов по кибербезопасности искусственного интеллекта, включая опросы и обзоры литературы - Исследования кибербезопасности ИИ.

Friday, March 21, 2025

ИБП для ЦОД

Одним из главных требований к ЦОД является требование к его высокой надежности, первостепенно – требование высокой надежности электроснабжения.

Строится система электроснабжения ЦОД на основе источников бесперебойного питания (ИБП), важность которых демонстрирует стандарт TIA-942, который фиксирует основополагающие требования к структуре ЦОД и классифицирует дата-центры по уровню надёжности (от 1 до 4). Уже на втором уровне (дата-центр с резервированием) обязательно наличие источника бесперебойного питания, а четвертый – самый высокий (отказоустойчивый дата-центр) предполагает двукратное резервирование системы бесперебойного электроснабжения – два отдельных ввода, зарезервированных по схеме N+1 (фактически – не менее четырёх ИБП). - отсюда: ИБП для ЦОД

ЦОД устанавливают на предприятиях, где информационные технологии являются критическими для бизнеса, а само исполнение бизнес-функций напрямую зависит от уровня, качества и степени доступности IT-сервисов. К таким потребителям относятся государственные структуры, банки и телекоммуникационные компании. Для обеспечения бесперебойного питания дата-центра используются современные и мощные ИБП для ЦОД разных мощностей. Выбор источника бесперебойного питания для ЦОД зависит от размеров центра обработки данных. ИБП легко сочетаются с дизель-генераторными установками, которые являются неотъемлемой частью системы электропитания современного ЦОДа.

Когда перебои в электроэнергии составляют небольшое количество времени, для таких ситуаций подойдет установка ИБП для ЦОД. Источник бесперебойного питания может обеспечить lата-центр электропитанием в течение 40-60 минут, в зависимости от выбранных батарей (АКБ для ЦОД).

Если электроэнергия отсутствует довольно продолжительное время, то следует укомплектовать ЦОД дизель-генераторной установкой (ДГУ для ЦОД). Дизельная электростанция запускается автоматически сигналом с ИБП при отключении внешнего электропитания и выходит на полную мощность через минуты после старта. При строительстве ЦОД выбирают мощные источники бесперебойного питания. Преимущества при использовании ИБП является надежность, гибкость, большой срок службы оборудования, легкость обслуживания и мониторинга.- отсюда: Как выбрать ИБП для ЦОД

Коалиция безопасного ИИ

Коалиция за безопасный ИИ (CoSAI) — это открытая экосистема экспертов в области ИИ и безопасности из ведущих отраслевых организаций, целью которой является обмен передовым опытом в области безопасного развертывания ИИ и сотрудничество в области исследований и разработки продуктов в области безопасности ИИ. www.coalitionforsecureai.org.

Вот здесь есть списки рассылок

Thursday, March 20, 2025

Рекомендации DeepSeek

Чтобы проверить использование LLM для последовательных рекомендаций:

Q: Для последовательности A B A A C A B предскажи следующий элемент и объясни свой выбор

A: Для предсказания следующего элемента в последовательности A B A A C A B проанализируем её структуру:

A: Последовательность: A, B, A, A, C, A, B

Заметим, что элементы A и B чередуются, но иногда появляется C.

Возможный паттерн:

A повторяется чаще, а B и C появляются реже.

После A часто следует B, но иногда A или C.

Если продолжить логику, после B может снова идти A.

Предсказание: Следующий элемент — A.

Обоснование: Паттерн предполагает чередование A и B, с редкими вставками C. После B логично ожидать возврат к A.

Q: В последовательности покупок товаров стиральный порошок, хлеб, корм, чипсы предскажи следующий элемент и объясни свой выбор

A: Для предсказания следующего элемента в последовательности покупок стиральный порошок, хлеб, корм, чипсы проанализируем возможные закономерности:

Стиральный порошок — товар для бытовых нужд.

Хлеб — продукт первой необходимости.

Корм — товар для домашних животных.

Чипсы — продукт для перекуса, не первой необходимости.

Эта последовательность не имеет явного логического паттерна, но можно предположить, что это случайный набор товаров из разных категорий. Если искать закономерность, то:

Товары чередуются между необходимыми (стиральный порошок, хлеб) и менее необходимыми (корм, чипсы).

После "чипсов" (необязательный товар) может следовать что-то из категории первой необходимости.

Предсказание: Следующий элемент — молоко (или другой продукт первой необходимости, например, яйца).
Обоснование: После менее необходимого товара (чипсы) логично ожидать возврат к товару первой необходимости, например, молоку или хлебу.

LLM и рекомендательные системы

Использование LLM для рекомендательных сервисов - интересный технический обзор

Tuesday, March 18, 2025

Бэкдор атаки на LLM

"Генеративные большие языковые модели имеют решающее значение в обработке естественного языка, но они уязвимы для атак бэкдора, где тонкие триггеры ставят под угрозу их поведение. Хотя атаки бэкдора против LLM постоянно возникают, существующие бенчмарки остаются ограниченными с точки зрения достаточного охвата атаки, целостности метрической системы, выравнивания атак бэкдора. И существующие предварительно обученные атаки бэкдора идеализируются на практике из-за ограничений доступа к ресурсам. Поэтому мы создаем ELBA-Bench, комплексную и унифицированную структуру, которая позволяет злоумышленникам внедрять бэкдор с помощью эффективной тонкой настройки параметров (например, LoRA) или без методов тонкой настройки (например, In-contextlearning). ELBA-Bench предоставляет более 1300 экспериментов, охватывающих реализации 12 методов атаки, 18 наборов данных и 12 LLM. Обширные эксперименты предоставляют новые бесценные выводы о сильных сторонах и ограничениях различных стратегий атак. Например, атака PEFT последовательно превосходит без тонкой настройки подходов в задачах классификации, показывая при этом сильное обобщение кросс-наборов данных с оптимизированными триггерами, повышающими надежность; Методы оптимизации бэкдора, соответствующие задаче, или подсказки для атаки вместе с чистыми и состязательными демонстрациями могут повысить успешность атаки бэкдора, сохраняя производительность модели на чистых образцах. Кроме того, мы представляем универсальный набор инструментов, разработанный для стандартизированного исследования атак бэкдора, с целью продвижения дальнейшего прогресса в этой жизненно важной области." - ELBA-Bench: An Efficient Learning Backdoor Attacks Benchmark for Large Language Models

См. также другие публикации, посвященные LLM

Monday, March 17, 2025

Систему нужно менять

Состязательные примеры в контексте компьютерного зрения — это входные данные, намеренно созданные для обмана или введения в заблуждение искусственных нейронных сетей. Эти примеры используют уязвимости нейронных сетей, что приводит к минимальным изменениям исходных входных данных, которые незаметны для людей, но могут существенно повлиять на выходные данные сети. В этой статье мы представляем тщательный обзор исследований состязательных примеров, уделяя основное внимание их влиянию на классификаторы нейронных сетей. Мы внимательно изучаем теоретические возможности и ограничения искусственных нейронных сетей. После этого мы исследуем открытие и эволюцию состязательных примеров, начиная с базовых градиентных методов и продвигаясь к недавней тенденции использования генеративных нейронных сетей для этой цели. Мы обсуждаем ограниченную эффективность существующих мер противодействия состязательным примерам. Кроме того, мы подчеркиваем, что состязательные примеры порождают несоответствие между процессами принятия решений человеком и нейронной сетью. Это можно отнести к текущей методологии обучения нейронных сетей. Мы также утверждаем, что широко используемый термин «атака на нейронные сети» вводит в заблуждение при обсуждении состязательного глубокого обучения. В этой статье наша цель — предоставить всесторонний обзор примеров состязаний и вдохновить дальнейших исследователей на разработку более надежных нейронных сетей. Такие сети будут лучше соответствовать процессам принятия решений человеком и повышать безопасность и надежность систем компьютерного зрения в практических приложениях - A decade of adversarial examples: a survey on the nature and understanding of neural network non-robustness

Sunday, March 16, 2025

Утечка данных в моделях ML

С ростом зависимости от машинного обучения (ML) в различных дисциплинах, ML-код подвергается ряду проблем, которые влияют на его качество, таких как отсутствие документации, алгоритмические предубеждения, переобучение, отсутствие воспроизводимости, неадекватная предварительная обработка данных и потенциальная утечка данных, все из которых могут существенно повлиять на производительность и надежность моделей ML. Утечка данных может повлиять на качество ML-моделей, где конфиденциальная информация из тестового набора непреднамеренно влияет на процесс обучения, что приводит к завышенным показателям производительности, которые плохо обобщаются на новые, неизвестные данные. Утечка данных может происходить как на уровне набора данных (т. е. во время создания набора данных), так и на уровне кода. Существующие исследования представили методы для обнаружения утечки данных на уровне кода с использованием ручных и подходов анализа кода. Однако автоматизированные инструменты с передовыми методами МО все чаще признаются необходимыми для эффективного выявления проблем качества в больших и сложных кодовых базах, повышая общую эффективность процессов проверки кода. В этой статье мы стремимся исследовать подходы на основе МО для ограниченных аннотированных наборов данных для обнаружения утечки данных на уровне кода в коде МО. Мы предложили три подхода, а именно: трансферное обучение, активное обучение и низкочастотное подсказывание. Кроме того, мы представили автоматизированный подход для решения проблем дисбаланса данных кода. - Data leakage detection in machine learning code: transfer learning, active learning, or low-shot prompting?

Friday, March 14, 2025

Не ловится

С появлением широкодоступных мощных LLM дезинформация, генерируемая большими Языковыми моделями (LLM), стала основной проблемой. Исторически детекторы LLM рекламировались как решение, но их эффективность в реальном мире еще предстоит доказать. В этой статье мы сосредоточимся на важной настройке в информационных операциях — коротких новостных сообщениях, генерируемых умеренно опытными злоумышленниками. Мы демонстрируем, что существующие детекторы LLM, будь то нулевые или специально обученные, не готовы к реальному использованию в этой настройке. Все протестированные детекторы нулевых результатов работают непоследовательно с предыдущими тестами и крайне уязвимы к повышению температуры выборки, тривиальной атаке, отсутствующей в последних тестах. Можно разработать специально обученный детектор, обобщающий LLM и невидимые атаки, но он не может обобщать новые тексты, написанные человеком. Мы утверждаем, что первое указывает на необходимость предметно-специфического бенчмаркинга, тогда как последнее предполагает компромисс между устойчивостью к состязательному уклонению и переобучением справочному человеческому тексту, причем оба требуют оценки в бенчмарках и в настоящее время отсутствуют. Мы считаем, что это предполагает пересмотр текущих подходов к бенчмаркингу детектора LLM и предоставляет динамически расширяемый бенчмарк, позволяющий это сделать (https://github.com/Reliable-Information-Lab-HEVS/benchmark_llm_texts_detection). - LLM Detectors Still Fall Short of Real World: Case of LLM-Generated Short News-Like Posts

См. также другие публикации, посвященные LLM

Как сделать RAG

Еще одно, довольно толковое, руководство по RAG

См. также другие публикации, посвященные RAG