AbavaNet technical corner: 2024

Sunday, December 29, 2024

Мониторинг ML-моделей

A Comprehensive Guide on How to Monitor Your Models in Production

См. также другие публикации по теме мониторинг

Saturday, December 28, 2024

Friday, December 27, 2024

"Поиск сходства в траекториях движущихся объектов является фундаментальной задачей в пространственно-временном анализе данных. В отличие от обычных задач сопоставления траекторий, поиск траекторий на основе формы (STS) направлен на поиск всех траекторий, которые по форме похожи на траекторию запроса, которые могут быть оценены как несхожие на основе их координат. STS может быть полезен в различных приложениях реального мира, таких как географическое открытие, миграция животных, прогнозирование погоды, автономное вождение и т. д. Однако большинство существующих функций расстояния траектории предназначены для сравнения траекторий на основе местоположения, и лишь немногие из них могут быть напрямую применены к задачам STS. Чтобы сопоставить траектории на основе формы, мы сначала преобразуем их в инвариантную к вращению и трансляции форму. Затем мы предлагаем функцию расстояния, называемую расстоянием на основе формы (shape based distance - SBD), для расчета точного расстояния между двумя траекториями, которая следует парадигме на основе выравнивания. Затем, для ускорения STS, мы предлагаем структуру представления траектории, основанную на символическом представлении, для поддержки эффективного грубого соответствия. Наконец, обширные эксперименты на двух реальных наборах данных демонстрируют эффективность и действенность нашей структуры." - Searching Similar Trajectories Based on Shape

Thursday, December 26, 2024

Уменьшение размера нейронных сетей

"В последние годы нейронные сети (NN) достигли большой зрелости и эффективности, и их приложения распространились на различные области, включая некоторые модули систем, критически важных для безопасности. С другой стороны, недавние исследования продемонстрировали, что NN уязвимы для состязательных атак, поэтому модель нейронной сети должна быть проверена и сертифицирована перед ее развертыванием. Несмотря на количество существующих формальных методов проверки нейронных сетей, проверка большой сети остается серьезной проблемой для этих методов. Это в основном связано с ограничениями масштабируемости этих подходов и нелинейностью, вносимой функциями активации в NN. Чтобы помочь решить эту проблему, мы предлагаем новый метод абстракции, который позволяет уменьшить размер NN, сохраняя ее поведенческие особенности. Основная идея подхода заключается в уменьшении размера исходной нейронной сети путем объединения нейронов, принадлежащих одному слою, и определения новых весов как интервалов и сумм абсолютных значений весов объединенных нейронов. Подход позволяет создать абстрактную (т. е. сокращенную) модель, которая меньше и проще для проверки, гарантируя при этом, что эта абстрактная модель является более точным приближением исходной. Наши ранние эксперименты показывают, что подход повышает масштабируемость при выполнении операций проверки, таких как вычисление выходного диапазона, на абстрактной модели." - Interval Weight-Based Abstraction for Neural Network Verification.

Интересная идея для верификации нейронных сетей

Wednesday, December 25, 2024

Утечки данных в CPS

"С появлением киберфизических систем (CPS) в коммунальных системах, таких как сети электроснабжения, водоснабжения и газоснабжения, сбор данных стал более распространенным. Хотя сбор данных в этих системах имеет многочисленные преимущества, он также вызывает опасения по поводу конфиденциальности, поскольку может потенциально раскрыть конфиденциальную информацию о пользователях. Чтобы решить эту проблему, мы предлагаем байесовский подход для управления состязательным выводом и смягчения проблемы конфиденциальности на физическом уровне в CPS. В частности, мы разрабатываем стратегию управления для наихудшего сценария, когда у противника есть идеальное знание стратегии управления пользователя. Для задач с конечным пространством состояний мы выводим уравнение Беллмана с фиксированной точкой для оптимальной стационарной стратегии и обсуждаем несколько практических подходов к ее решению с использованием проектирования управления на основе оптимизации. Решая проблему вычислительной сложности, мы предлагаем подход обучения с подкреплением, основанный на архитектуре Актер-Критик. Чтобы также поддержать исследования конфиденциальности интеллектуальных счетчиков, мы представляем общедоступный набор данных «Co-LivEn» с комплексными электрическими измерениями приборов в совместном домашнем хозяйстве. Используя этот набор данных, мы сопоставляем предлагаемый подход к обучению с подкреплением. Результаты демонстрируют его эффективность в снижении утечки конфиденциальности. Наша работа дает ценные идеи и практические решения для управления состязательным выводом в киберфизических системах, уделяя особое внимание повышению конфиденциальности в приложениях интеллектуальных счетчиков." - Adversarial Inference Control in Cyber-Physical Systems: A Bayesian Approach With Application to Smart Meters

Tuesday, December 24, 2024

Индекс Искусственного интеллекта в России

Альманах "Искусственный интеллект" - это регулярный сборник аналитических материалов по отрасли искусственного интеллекта в России и мире.

Юбилейный 5-летний выпуск Альманаха содержит ежегодный отчет, подводящий итоги прошлого года и публикующий показатели отрасли Искусственного интеллекта в России

Техники убеждения

"Этот проект о том, как систематически убеждать LLM сделать джейлбрейк. Известный пример «Grandma Exploit» также использует эмоциональный призыв, технику убеждения, для джейлбрейка!

Что мы представили? Таксономию с 40 техниками убеждения, которые помогут вам быть более убедительными!

Что мы обнаружили? Итеративно применяя различные техники убеждения в нашей таксономии, мы успешно сделали джейлбрейк продвинутых выровненных LLM, включая Llama 2-7b Chat, GPT-3.5 и GPT-4, достигнув поразительного показателя успешности атаки в 92%, в частности, без какой-либо указанной оптимизации." - отсюда

См. также другие публикации, посвященные LLM

Saturday, December 21, 2024

Friday, December 20, 2024

Аудит моделей ML

В этой статье рассматриваются аудиты алгоритмов машинного обучения (ML) высшими органами аудита (SAI). Целью статьи является помощь SAI и отдельным аудиторам в проведении аудитов алгоритмов машинного обучения, которые применяются государственными учреждениями. Она предназначена для аудиторов с некоторыми знаниями количественных методов. Знание моделей машинного обучения на уровне эксперта не предполагается.

Мы включаем каталог аудита — набор руководств, включающий предлагаемые темы аудита на основе рисков, а также методологию проведения аудиторских тестов. Статья сопровождается вспомогательным инструментом Excel, который суммирует и проводит по различным частям аудита. - Auditing machine learning algorithms

См. также другие публикации по теме аудит

Thursday, December 19, 2024

Генеративные модели и разделение доступа

Статья «Преодоление проблем безопасности при защите общих сред генеративного ИИ» рассматривает критическую необходимость в надежных мерах безопасности в многопользовательских приложениях генеративного ИИ. В ней описываются проблемы, с которыми сталкиваются организации при внедрении этих систем, включая проблемы интеграции данных, ограничения устаревших систем и необходимость надежной изоляции данных без ущерба для производительности или продуктивности разработчиков. В тексте подчеркивается необходимый баланс между безопасностью, продуктивностью разработчиков и гибкостью для удовлетворения различных потребностей арендаторов. В ней предлагаются три практических решения для многопользовательских архитектур: разделенные коллекции, управление коллекцией контента на основе ролей и использование службы разрешений Credal AI, каждое из которых имеет свои преимущества и примеры реализации. Кроме того, в ней представлен OpenFGA как вариант с открытым исходным кодом для детального контроля доступа. В заключение статьи подчеркивается важность определения соответствующего уровня многопользовательской среды для обеспечения безопасного обмена информацией и адаптивности в общих средах ИИ. - Overcoming Security Challenges in Protecting Shared Generative AI Environments

Wednesday, December 18, 2024

Доклады AI Journey

Записи докладов конференции AI Journey

Бесплатный сервер

Как получить бесплатный сервер в облаке Oracle

Tuesday, December 17, 2024

Обучение на основе подсказок под ударом

Обучение на основе подсказок оказалось эффективным способом в предварительно обученных языковых моделях (PLM), особенно в сценариях с низкими требованиями к ресурсам, таких как настройки с небольшим количеством попыток. Однако надежность PLM имеет первостепенное значение, и в шаблонах на основе подсказок были показаны потенциальные уязвимости, которые могут ввести в заблуждение прогнозы языковых моделей, вызывая серьезные проблемы безопасности. В этой статье мы прольем свет на некоторые уязвимости PLM, предложив состязательную атаку на основе подсказок на ручные шаблоны в сценариях черного ящика. Прежде всего, мы разрабатываем эвристические подходы на уровне символов и на уровне слов для взлома ручных шаблонов по отдельности. Затем мы представляем жадный алгоритм для атаки на основе вышеуказанных эвристических деструктивных подходов и дополнительно объединяем его с отрицательными словами. Наконец, мы оцениваем наш подход с задачами классификации на трех вариантах моделей серий BERT и восьми наборах данных. И всесторонние экспериментальные результаты подтверждают эффективность нашего подхода с точки зрения показателя успешности атаки и скорости атаки. В среднем он достигает показателя успешности атаки около 90% и времени запроса около 3000, что значительно лучше, чем сравниваемые базовые методы. Дальнейшие экспериментальные исследования показывают, что наш предложенный метод также демонстрирует хорошие возможности в сценариях с различным количеством попыток, длиной шаблонов и количеством запросов, демонстрируя хорошую обобщаемость. - Exploring the vulnerability of black-box adversarial attack on prompt-based learning in language models

См. также другие публикации, посвященные LLM

EDA в одну строчку

5 Python One-Liners to Kick Off Your Data Exploration

См. также другие публикации по теме EDA

Monday, December 16, 2024

LLM против мошенников

Можем ли мы доверять Большим языковым моделям (LLM) для точного прогнозирования мошенничества? В этой статье исследуются уязвимости LLM при столкновении с враждебными мошенническими сообщениями для задачи обнаружения мошенничества. Мы решили эту проблему, создав комплексный набор данных с малозаметными метками мошеннических сообщений, включая как исходные, так и враждебные мошеннические сообщения. Набор данных расширил традиционные бинарные классы для задачи обнаружения мошенничества в более тонкие типы мошенничества. Наш анализ показал, как состязательные примеры примеры использовали уязвимости LLM, что привело к высокому уровню ошибочной классификации. Мы оценили производительность LLM на этих враждебных мошеннических сообщениях и предложили стратегии для повышения их надежности. - Exposing LLM Vulnerabilities: Adversarial Scam Detection and Performance

См. также другие публикации, посвященные LLM

Байесовцы против частотников

В частотном подходе общее рассуждение начинается с предположения о некотором фиксированном известном параметре (например, что групповое различие на уровне популяции равно нулю). Затем мы думаем о том, чего мы ожидаем от повторных случайных выборок данных (например, ожидаемое распределение наблюдаемых групповых различий в выборках определенного размера, если различие в популяции на самом деле равно нулю). И затем мы используем это для вывода выводов — например, если наблюдаемое групповое различие в выборке настолько велико, что оно вряд ли возникнет, если групповое различие на уровне популяции равно нулю, мы отбрасываем гипотезу о том, что групповое различие на уровне популяции равно нулю. На всех этапах процесса вероятности относятся к относительным частотам наблюдаемых данных.

Напротив, в байесовской статистике мы наблюдаем некоторые данные, а затем пытаемся сделать вывод о том, какой параметр, скорее всего, привел бы к этим данным. Таким образом, мы в конечном итоге получаем вероятности для параметров (которые количественно определяют нашу степень веры, а не относительные частоты). - хорошее сравнение

Thursday, December 12, 2024

Технологии 2025

The Top Technology Trends for 2025 are:

Agentic AI

Post-quantum Cryptography

Spatial Computing

AI Governance Platforms

Ambient Invisible Intelligence

Polyfunctional Robots

Disinformation Security

Energy-Efficient Computing

Neurological Enhancement

Hybrid Computing

/via Gartner

Monday, December 09, 2024

Публикации по теме Искусственный интеллект в кибербезопасности

Вопросы безопасности систем ИИ рассматриваются в двух магистерских программах факультета ВМК МГУ имени М.В. Ломоносова: Искусственный интеллект в кибербезопасности и Кибербезопасность (совместно со Сбербанк). Ниже приведен список публикаций, подготовленных в процессе реализации этих программ по состоянию на 09.12.2024

Ильюшин Е. А., Намиот Д. Е. An approach to the automatic enhancement of the robustness of ml models to external influences on the example of the problem of biometric speaker identification by voice // International Journal of Open Information Technologies. — 2021. — Vol. 9, no. 6. — P. 11–19.

Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Текущие академические и индустриальные проекты, посвященные устойчивому машинному обучению // International Journal of Open Information Technologies. — 2021. — Т. 9, № 10. — С. 35–46.

Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Основания для работ по устойчивому машинному обучению // International Journal of Open Information Technologies. — 2021. — Т. 9, № 11. — С. 68–74.

Намиот Д. Е., Ильшин Е. А., Чижов И. В. Военные применения машинного обучения // International Journal of Open Information Technologies. — 2022. — Т. 10, № 1. — С. 69–76.

Ильюшин Е. А., Намиот Д. Е., Чижов И. В. Атаки на системы машинного обучения – общие проблемы и методы // International Journal of Open Information Technologies. — 2022. — Т. 10, № 3. — С. 17–22.

Namiot D., Ilyushin E. On monitoring of machine learning models // Distributed Computer and Communication Networks: Control, Computation, Communications (DCCN-2022) : материалы XXV международной научной конференции: Москва, 26–30 сентября 2022 года / под общ. ред. В. М. Вишневского и К. Е. Самуйлова. — РУДН Москва: 2022. — P. 150–157.

Namiot D., Ilyushin E., Chizhov I. On a formal verification of machine learning systems // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 5. — P. 30–34.

Huayu L., Namiot D. A survey of adversarial attacks and defenses for image data on deep learning // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 5. — P. 9–16.

Намиот Д., Ильюшин Е., Пилипенко О. Доверенные платформы искусственного интеллекта // International Journal of Open Information Technologies. — 2022. — Т. 10, № 7. — С. 119–127.

Намиот Д., Ильюшин Е. Порождающие модели в машинном обучении // International Journal of Open Information Technologies. — 2022. — Т. 10, № 7. — С. 101–118.

Биджиев Т. М., Намиот Д. Е. Исследование существующих подходов к встраиванию вредоносного программного обеспечения в искусственные нейронные сети // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 21–31.

Намиот Д. Е., Ильюшин Е. А. Об устойчивости и безопасности систем искусственного интеллекта // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 126–134.

Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Искусственный интеллект и кибербезопасность // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 135–147.

Stroeva E., Tonkikh A. Methods for formal verification of artificial neural networks: A review of existing approaches // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 10. — P. 3.

Намиот Д., Ильюшин Е. Мониторинг сдвига данных в моделях машинного обучения // International Journal of Open Information Technologies. — 2022. — Т. 10, № 12. — С. 84–93.

Костюмов, Василий Владимирович. "Обзор и систематизация атак уклонением на модели компьютерного зрения." International Journal of Open Information Technologies 10.10 (2022): 11-20.

Намиот Д. Е., Ильюшин Е. А. О причинах неудач проектов машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 1. — С. 60–69.

Намиот Д. Е. Введение в атаки отравлением на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 3. — С. 58–68.

Namiot D. E., Ilyushin E., Chizhov I. On the practical generation of counterfactual examples // Труды Института системного анализа Российской академии наук. — 2023. — Vol. 73, no. 1. — P. 73–81.

Junzhe S., Namiot D. E. A survey of model inversion attacks and countermeasures // Труды Института системного анализа Российской академии наук. — 2023. — Vol. 73, no. 1. — P. 82–93.

Junzhe S., Namiot D. A survey of the implementations of model inversion attacks // Communications in Computer and Information Science. — 2023. — Vol. 1748. — P. 3–16.

Намиот Д. Е. Схемы атак на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 5. — С. 68–86.

On the evasion attack detector / L. Huayui, V. Kostyumov, O. Pilipenko, D. Namiot // DCCN 2023. Материалы конференции. — ИПУ РАН Москва: 2023. — P. 183–188.

Junzhe S., Namiot D. On the machine learning models inversion attack detector // DCCN 2023. Материалы конференции. — ИПУ РАН Москва: 2023. — P. 194.

Lozinskii I., Kostyumov V., Stroeva E. Extraction of trigger and mask from poisoned data using modified activation clustering and neural cleanse methods // International Journal of Open Information Technologies. — 2023. — Vol. 11, no. 7. — P. 1

Чехонина, Екатерина Андреевна, and Василий Владимирович Костюмов. "ОБЗОР СОСТЯЗАТЕЛЬНЫХ АТАК И МЕТОДОВ ЗАЩИТЫ ДЛЯ ДЕТЕКТОРОВ ОБЪЕКТОВ." International Journal of Open Information Technologies 11.7 (2023): 11-20.

Пришлецов Д. Е., Пришлецов С. Е., Намиот Д. Е. Камуфляж как состязательные атаки на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 9. — С. 41–49.

Намиот Д. Е., Зубарева Е. В. О работе ai red team // International Journal of Open Information Technologies. — 2023. — Т. 11, № 10. — С. 130–139.

Намиот Д. Е., Ильюшин Е. А. Доверенные платформы искусственного интеллекта: сертификация и аудит // International Journal of Open Information Technologies. — 2024. — Т. 12, № 1. — С. 43–60.

Киржинов Д. А., Ильюшин Е. А. Сравнительный анализ алгоритмов атак и защиты на графовые архитектуры ИНС // International Journal of Open Information Technologies. — 2024. — Т. 12, № 2.

Намиот Д. Е., Романов В. Ю. Об улучшении робастности моделей машинного обучения // International Journal of Open Information Technologies. — 2024. — Т. 12, № 3. — С. 88–98.

Junzhe S., Namiot D. On real-time model inversion attacks detection // Lecture Notes in Computer Science. — 2024. — Vol. 14123. — P. 56–67.

Мударова Р. М., Намиот Д. Е. Противодействие атакам типа инъекция подсказок на большие языковые модели // International Journal of Open Information Technologies. — 2024. — Т. 12, № 5. — С. 39–48.

Намиот Д. Е., Ильюшин Е. А. Искусственный интеллект в кибербезопасности: поиск вредоносного программного обеспечения // International Journal of Open Information Technologies. — 2024. — Т. 12, № 6. — С. 143–149.

Селевенко Р. М., Строева Е. Н. Исследование и разработка алгоритма формальной верификации и метрики оценки качества на основе методов понижения размерности ИНС // INJOIT. — 2024. — Т. 12, № 6. — С. 2.

Биджиев Т. М., Намиот Д. Е. Атаки на модели машинного обучения, основанные на фреймворке pytorch // Автоматика и телемеханика. — 2024. — № 3. — С. 38–50.

Намиот Д. Е., Ильюшин Е. А. О сертификации систем искусственного интеллекта // Физика элементарных частиц и атомного ядра. — 2024. — Т. 55, № 3. — С. 530–536.

Намиот Д. Е., Куприяновский В. П., Пичугов А. А. Состязательные атаки для автономных транспортных средств // International Journal of Open Information Technologies. — 2024. — Т. 12, № 7. — С. 139–149.

Намиот Д. Е. О кибератаках с помощью систем Искусственного интеллекта // International Journal of Open Information Technologies. — 2024. — Т. 12, № 9. — С. 132–141.

Воробьев, Егор Александрович. "Анализ состязательных атак на системы сегментации изображений." International Journal of Open Information Technologies 12.10 (2024): 1-25.

Намиот Д. Е., Ильюшин Е. А. О киберрисках генеративного Искусственного Интеллекта // International Journal of Open Information Technologies. — 2024. — Т. 12, № 10. — С. 109–119.

Порывай, Максим Викторович. "Сравнительное исследование методов естественной аугментации изображений." International Journal of Open Information Technologies 12.10 (2024): 26-33.

Герасименко, Денис Валерьевич, and Дмитрий Евгеньевич Намиот. "Извлечение тренировочных данных: Риски и решения в контексте безопасности LLM." International Journal of Open Information Technologies 12.11 (2024): 9-19.

Костиков, Егор Вячеславович. "Методы анализа логов Sysmon для обнаружения киберугроз." International Journal of Open Information Technologies 12.11 (2024): 25-34.

Sunday, December 08, 2024

Защита периметра

В последние годы проблемы безопасности высокоскоростных железных дорог оставались серьезными. Вторжение персонала или препятствий в периметр часто происходило в прошлом, что приводило к сходу с рельсов или стоянке, особенно в случае плохой погоды, такой как туман, дымка, дождь и т. д. Согласно предыдущим исследованиям, одному датчику трудно удовлетворить потребности приложений всех сценариев, всех погодных условий и всех временных интервалов. Благодаря дополнительным преимуществам данных с нескольких датчиков, таких как изображения и облака точек, технология обнаружения слияния нескольких датчиков для вторжения в периметр высокоскоростных железных дорог становится горячей точкой исследований. Насколько нам известно, не было обзора исследований технологии обнаружения слияния нескольких датчиков для вторжения в периметр высокоскоростных железных дорог. Чтобы восполнить этот недостаток и стимулировать будущие исследования, в этой статье сначала анализируется ситуация с мерами технической защиты высокоскоростных железных дорог и обобщается статус исследований обнаружения с одним датчиком. Во-вторых, на основе анализа типичных сценариев вторжений на высокоскоростных железных дорогах мы представляем исследовательский статус алгоритмов обнаружения слияния многосенсорных данных и данных. Затем мы обсуждаем оценку риска безопасности на железной дороге. Наконец, обсуждаются тенденции и проблемы алгоритмов обнаружения слияния многосенсорных данных в железнодорожной сфере. Это обеспечивает эффективную теоретическую поддержку и техническое руководство для мониторинга вторжений на периметр высокоскоростных железных дорог. - A Survey on Multi-Sensor Fusion Perimeter Intrusion Detection in High-Speed Railways

Влияние генеративного ИИ на безопасность

Несомненно, эволюция моделей генеративного ИИ (GenAI) стала кульминацией цифровой трансформации в 2022 году. Поскольку различные модели GenAI, такие как ChatGPT и Google Bard, продолжают развивать свою сложность и возможности, крайне важно понимать ее последствия с точки зрения кибербезопасности. Недавно несколько примеров продемонстрировали использование инструментов GenAI как в оборонительной, так и в наступательной части кибербезопасности, и сосредоточились на социальных, этических и конфиденциальных последствиях, которые эта технология имеет. В этой исследовательской работе подчеркиваются ограничения, проблемы, потенциальные риски и возможности GenAI в области кибербезопасности и конфиденциальности. В работе представлены уязвимости ChatGPT, которые могут быть использованы злоумышленниками для извлечения вредоносной информации в обход этических ограничений модели. В этой статье показаны успешные примеры атак, таких как джейлбрейки, обратная психология и атаки с подсказками на ChatGPT. В статье также исследуется, как киберпреступники могут использовать инструменты GenAI для разработки кибератак, а также изучаются сценарии, в которых ChatGPT может использоваться злоумышленниками для создания атак социальной инженерии, фишинговых атак, автоматизированного взлома, генерации полезной нагрузки атаки, создания вредоносного ПО и полиморфного вредоносного ПО. Затем в статье рассматриваются методы защиты и используются инструменты GenAI для улучшения мер безопасности, включая автоматизацию киберзащиты, отчетность, разведку угроз, генерацию и обнаружение безопасного кода, идентификацию атак, разработку этических принципов, планов реагирования на инциденты и обнаружение вредоносного ПО. Мы также обсудим социальные, правовые и этические последствия ChatGPT. В заключение в статье освещаются открытые проблемы и будущие направления, чтобы сделать этот GenAI безопасным, надежным, заслуживающим доверия и этичным, поскольку сообщество понимает его воздействие на кибербезопасность. - ChatGPT to ThreatGPT: Impact of Generative AI in Cybersecurity and Privacy

Saturday, December 07, 2024

Атаки на локализацию объектов

Состязательная атака постепенно стала важной отраслью в области безопасности искусственного интеллекта, где потенциальная угроза, создаваемая состязательной атакой на примере, больше не должна игнорироваться. В этой статье предлагается новый режим атаки для задачи обнаружения объектов. Мы обнаружили, что, атакуя задачу локализации при обнаружении объектов, можно реализовать своего рода состязательную атаку на целевые ограничивающие рамки. Мы обнаружили, что для определенной цели на входном изображении области, затронутые классификацией и локализацией модели обнаружения объектов, определены, но различны. Поэтому мы предлагаем метод состязательной атаки на основе локальных возмущений для локализации обнаружения объектов, который определяет ключевые области, влияющие на локализацию цели, и добавляет состязательные возмущения в эти области для достижения атак на ограничивающие рамки на локализацию целевого ограничивающего рамки, обеспечивая при этом высокую скрытность. Экспериментальные результаты на наборе данных MS COCO и самостоятельно созданном наборе данных показывают, что наш метод генерирует состязательные примеры, которые могут заставить детектор объектов располагаться ненормально. Что еще важнее, изучение атак с использованием состязательных примеров полезно для понимания глубоких сетей и разработки надежных моделей. - Adversarial Attacks to Manipulate Target Localization of Object Detector

P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Friday, December 06, 2024

LLM в деле

База с описанием внедрений LLM

См. также другие публикации, посвященные LLM

Thursday, December 05, 2024

Российские экосистемы

ICT.Moscow представляет обзор текущих особенностей в подходах к развитию и применению искусственного интеллекта российскими цифровыми экосистемами — компаниями «Яндекс», «Сбер», VK, МТС и Т-Банк. - здесь

Tuesday, December 03, 2024

Ослепляющий камуфляж

Маскировка такого рода называется деформирующей или ослепляющей (dazzle). Окраска призвана затруднить оценку формы корабля, его курса и скорости за счет использования угловатых форм, углов и контрастных цветов, которые, по задумке, должны помешать противнику идентифицировать судно, а затем не позволить своевременно рассчитать скорость и направление цели.

Первым такой камуфляж использовало Адмиралтейство Великобритании в период Первой мировой войны в связи с тяжелыми потерями, понесенными британскими торговыми судами из-за угроз со стороны немецких подводных лодок. Камуфляж разработал художник Норман Уилкинсон в 1917 году. Суда в такой окраске называют «корабли-зебры» или «корабли-кубики». - отсюда

См. в этой связи нашу статью Camouflage as adversarial attacks on machine learning models

Monday, December 02, 2024

Deep Learning c примерами

Материалы нового курса и книга от автора курса

Sunday, December 01, 2024

AI в кибербезопасности

Темы конференции 8th Cyber Security in Networking Conference

Saturday, November 30, 2024

Все пропало?

Очень важная вещь - что делать автомобилю без водителя, если что-то пошло не так? Британский стандарт (BSI) о минимизации риска при маневрах. В частности, это и о том, как реагировать на состязательные атаки на автономные транспортные средства.

Friday, November 29, 2024

Соревнования по слому LLM

В этой статье представлен Глобальный вызов для Безопасных и надежных больших языковых моделей (LLM), новаторская инициатива, организованная AI Singapore (AISG) и CyberSG R&D Programme Office (CRPO) для содействия разработке передовых механизмов защиты от автоматизированных атак взлома. С ростом интеграции LLM в критические секторы, такие как здравоохранение, финансы и государственное управление, обеспечение устойчивости этих моделей к состязательным атакам имеет жизненно важное значение для предотвращения неправомерного использования и соблюдения этических стандартов. Этот конкурс был сосредоточен на двух отдельных направлениях, разработанных для оценки и повышения надежности фреймворков безопасности LLM. В треке 1 участникам было поручено разработать автоматизированные методы для проверки уязвимостей LLM путем выявления нежелательных ответов, эффективно проверяя пределы существующих протоколов безопасности в LLM. Участникам было предложено разработать методы, которые могли бы обойти меры безопасности контента в самых разных сценариях, от оскорбительного языка до дезинформации и незаконной деятельности. В ходе этого процесса Трек 1 был нацелен на углубление понимания уязвимостей LLM и предоставление информации для создания более устойчивых моделей. Результаты Трека 1 выявили значительные достижения в методах взлома и тестировании безопасности для LLM. Конкурирующие команды оценивались на основе устойчивости их моделей к 85 предопределенным нежелательным поведениям, охватывающим такие категории, как предубеждения, оскорбительный контент, дезинформация и продвижение незаконной деятельности. Примечательно, что наиболее эффективные команды достигли высоких успехов атак, внедряя инновационные методы, включая шаблоны индукции сценариев, которые систематически генерировали контекстно-зависимые подсказки и механизмы атаки с повторным суффиксом, которые адаптировали суффиксы для обхода фильтров моделей в нескольких степенях магистра права. Эти методы продемонстрировали не только эффективность в обходе мер безопасности, но и переносимость между различными типами моделей, подчеркивая адаптивность и сложность современных состязательных методов.

Второй трек, начало которого запланировано на 2025 год, будет посвящен разработке стратегий защиты, не зависящих от модели, направленных на противодействие продвинутым атакам с джейлбрейком. Основная цель этого направления — продвигать адаптивные фреймворки, которые могут эффективно смягчать атаки противников в различных архитектурах LLM. Global Challenge for Safe and Secure LLMs Track 1

Автоматизация AI Red Team

Автоматизированный Red Teaming может обнаруживать редкие сбои модели и генерировать сложные примеры, которые можно использовать для обучения или оценки. Однако основная проблема в автоматизированном red teaming заключается в обеспечении того, чтобы атаки были как разнообразными, так и эффективными. Предыдущие методы обычно успешно оптимизировали либо разнообразие, либо эффективность, но редко и то, и другое. В этой статье мы предлагаем методы, которые позволяют автоматизированному red teaming генерировать большое количество разнообразных и успешных атак. Наш подход разбивает задачу на два этапа: (1) автоматизированные методы для генерации разнообразных целей атак и (2) генерация эффективных атак для этих целей. Хотя мы предоставляем несколько простых методов для генерации разнообразных целей, наш ключевой вклад заключается в обучении атакующего RL, который как следует этим целям, так и генерирует разнообразные атаки для этих целей. Во-первых, мы демонстрируем, что легко использовать большую языковую модель (LLM) для генерации разнообразных целей атакующего с подсказками и вознаграждениями для каждой цели, включая вознаграждения на основе правил (RBR) для оценки того, являются ли атаки успешными для конкретной цели. Во-вторых, мы демонстрируем, как обучение модели атакующего с помощью многошагового RL, где модель вознаграждается за создание атак, отличающихся от прошлых попыток, еще больше увеличивает разнообразие, оставаясь эффективной. Мы используем наш подход для создания как атак с подсказками, так и подсказок, вызывающих небезопасные ответы. В обоих случаях мы обнаруживаем, что наш подход способен генерировать высокоэффективные и значительно более разнообразные атаки, чем прошлые общие подходы red-teaming. - Diverse and Effective Red Teaming with Auto-generated Rewards and Multi-step Reinforcement Learning

Thursday, November 28, 2024

Генеративный рой

Благодаря недавним достижениям в области искусственного интеллекта (ИИ) и робототехники, беспилотные рои транспортных средств привлекли большое внимание как со стороны академических кругов, так и со стороны промышленности из-за их потенциала предоставлять услуги, которые трудно и опасно выполнять людям. Однако изучение и координация движений и действий для большого количества беспилотных транспортных средств в сложных и динамичных средах представляет собой значительные проблемы для традиционных методов ИИ. Генеративный ИИ (ГенИИ) с его возможностями в извлечении, преобразовании и улучшении сложных признаков данных предлагает большой потенциал в решении этих проблем беспилотных роев транспортных средств. Для этого данная статья направлена на предоставление всестороннего обзора приложений, проблем и возможностей ГенИИ в беспилотных роях транспортных средств. В частности, мы сначала представляем обзор беспилотных транспортных средств и беспилотных роев транспортных средств, а также их вариантов использования и существующих проблем. Затем предоставляется углубленный обзор различных методов ГенИИ вместе с их возможностями в улучшении беспилотных роев транспортных средств. После этого мы представляем всесторонний обзор приложений и проблем ГенИИ в роях беспилотных транспортных средств с различными идеями и обсуждениями. Наконец, мы освещаем открытые вопросы ГенИИ в роях беспилотных транспортных средств и обсуждаем потенциальные направления исследований - Generative AI for Unmanned Vehicle Swarms: Challenges, Applications and Opportunities

Атаки на SCADA-системы

Атака с использованием ложных данных (FDIA), удаленная команда на отключение (RTCI) и атака с изменением конфигурации системы (SRA) на сети SCADA (диспетчерское управление и сбор данных) влияют на компоненты интеллектуальной сети с поддержкой Industry 5.0, такие как интеллектуальное электронное устройство (IED), автоматический выключатель, сетевой коммутатор и линии электропередачи. Поскольку поток кибератак на основе сети SCADA не находится в форме цифрового двойника, невозможно смоделировать последствия атаки. Кроме того, строковая природа данных этих затронутых компонентов затрудняет включение в процессы машинного обучения (CTI). Для визуализации потока атак FDIA, RTCI и SRA кибератак на сети SCADA в данной статье представлен новый подход «Анализ потока кибератак с использованием цифровых двойников и машинного обучения (DT-ML-CAFA)» для сетевой CTI в Industry 5.0. Для обработки цифровых двойников и определения того, как кибератаки влияют на компоненты SCADA, используется метод графа знаний на основе алгоритма направленного графа (DiGraph). Весь процесс цифрового двойника исследуется с использованием методов машинного обучения на основе Extra-Trees, Random-Forest, Bootstrap-Aggregation (Bagging), XGBoost и Logistic-Regression. На основе экспериментальных результатов данного исследования в данной статье показано, что предлагаемый метод может имитировать поток кибератак на сеть SCADA в форме цифрового двойника, а метрики путаницы цифрового двойника получаются с высокой точностью. - DiGraph enabled Digital Twin and Label-encoding Machine Learning for SCADA Network’s Cyber Attack Analysis in Industry 5.0

Wednesday, November 27, 2024

Проклятые суффиксы

Хотя большие языковые модели (LLM) обычно выровнены, они остаются уязвимыми для взлома либо через тщательно продуманные подсказки на естественном языке, либо, что интересно, через бессмысленные состязательные суффиксы. Однако, бессмысленные токены получили относительно меньше внимания, несмотря на их успех в атаке на выровненные LLM. Недавняя работа AmpleGCG (Ляо и Сан, 2024) демонстрирует, что генеративная модель может быстро создавать многочисленные настраиваемые бессмысленные состязательные суффиксы для любого вредоносного запроса, выявляя ряд пробелов в выравнивании в языковых пространствах вне распределения (OOD). Чтобы привлечь больше внимания к этой области, мы представляем AmpleGCG-Plus, улучшенную версию, которая достигает лучшей производительности за меньшее количество попыток. С помощью серии исследовательских экспериментов мы определяем несколько стратегий обучения для улучшения обучения бессмысленным суффиксам. Наши результаты, проверенные в условиях строгой оценки, показывают, что он превосходит AmpleGCG как на моделях с открытым весом, так и на моделях с закрытым исходным кодом, достигая увеличения коэффициента успешности атак (ASR) до 17% в режиме белого ящика против Llama-2-7B-chat и более чем утроения ASR в режиме черного ящика против GPT-4. В частности, AmpleGCG-Plus делает джейлбрейк новой серии моделей GPT-4o с той же скоростью, что и GPT4, и обнаруживает уязвимости против недавно предложенной защиты с помощью автоматических выключателей. Мы публично выпускаем AmpleGCG-Plus вместе с нашими собранными наборами данных для обучения. Отсюда: AmpleGCG-Plus: A Strong Generative Model of Adversarial Suffixes to Jailbreak LLMs with Higher Success Rates in Fewer Attempts https://arxiv.org/pdf/2410.22143

Как добавить бессмысленные суффиксы типа “\)>|}{+Jahrhundert”,/\] parse”, чтобы джейлбрекнуть LLM.

ИИ приложения

Национальный стандарт (ГОСТ) - Руководство для приложений на основе искусственного интеллекта

Tuesday, November 26, 2024

Вредоносные LLM

Подробный обзор вредоносных LLM (212 штук)

Подпольная эксплуатация больших языковых моделей (LLM) для вредоносных сервисов (например, Malla) переживает подъем, усиливая ландшафт киберугроз и ставя под сомнение надежность технологий LLM. Однако было приложено мало усилий для понимания этой новой киберпреступности с точки зрения ее масштабов, воздействия и методов. В этой статье мы проводим первое систематическое исследование 212 реальных Mallas, раскрывая их распространение на подпольных рынках и раскрывая их операционные модальности. Наше исследование раскрывает экосистему Malla, показывая ее значительный рост и влияние на сегодняшние публичные сервисы LLM. Изучив 212 Mallas, мы обнаружили восемь бэкэнд-LLM, используемых Mallas, а также 182 подсказки, которые обходят защитные меры публичных API LLM. Мы далее демистифицируем тактику, используемую Mallas, включая злоупотребление неотцензурированными LLM и эксплуатацию публичных API LLM с помощью подсказок для джейлбрейка. Наши результаты позволяют лучше понять реальную эксплуатацию LLM киберпреступниками и дают представление о стратегиях противодействия этой киберпреступности.

См. также другие публикации, посвященные LLM

Лаборатория безопасности LLM

AI Security Lab - Исследовательская лаборатория ИТМО, специализирующаяся на безопасности и этике в сфере генеративного искусственного интеллекта и применения языковых моделей в бизнес задачах

См. также другие публикации, посвященные LLM

Monday, November 25, 2024

Бенчмарки для ИИ

Российские тесты для LLM

Sunday, November 24, 2024

Диффузионное отравление

Хотя современные модели диффузии (DM) превосходны в генерации изображений, проблемы, связанные с их безопасностью, сохраняются. Более ранние исследования выявили уязвимость DM к атакам отравления данных, но эти исследования предъявляли более строгие требования, чем обычные методы, такие как «BadNets» в классификации изображений. Это связано с тем, что искусство требует изменений в процедурах обучения и выборки диффузии. В отличие от предыдущей работы, мы исследуем, могут ли методы отравления данных, подобные BadNets, напрямую ухудшить генерацию DM. Другими словами, если только набор данных для обучения загрязнен (без манипулирования процессом диффузии), как это повлияет на производительность обученных DM? В этой обстановке мы раскрываем двусторонние эффекты отравления данных, которые не только служат состязательной цели (ставя под угрозу функциональность DM), но и обеспечивают оборонительное преимущество (которое можно использовать для защиты в задачах классификации от атак отравления). Мы показываем, что атака отравления данных, подобная BadNets, остается эффективной в DM для создания неверных изображений (несоответствующих предполагаемым текстовым условиям). Между тем, отравленные DM демонстрируют повышенное соотношение триггеров, явление, которое мы называем «усиление триггера», среди сгенерированных изображений. Это понимание может быть затем использовано для улучшения обнаружения отравленных обучающих данных. Кроме того, даже при низком соотношении отравления изучение эффектов отравления DM также ценно для разработки надежных классификаторов изображений против таких атак. И последнее, но не менее важное: мы устанавливаем значимую связь между отравлением данных и явлением репликации данных, исследуя присущие DM тенденции запоминания данных. Код доступен по адресу https://github.com/OPTML-Group/BiBadDiff. Отсюда - From Trojan Horses to Castle Walls: Unveiling Bilateral Data Poisoning Effects in Diffusion Models

См. также публикацию Диффузионные трояны

P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Регуляции ИИ

Глобальный Атлас регулировании ИИ - ссылка для скачивания

Saturday, November 23, 2024

За прошлое не отвечаем

LLM отвечает на запрешенные темы, если спрашивать в прошедшем времени

См. также другие публикации, посвященные LLM

Friday, November 22, 2024

Безопасное железо

Курс от MIT: Secure Hardware Design (Spring 2023) Learn to attack processors… and learn to defend them!

Thursday, November 21, 2024

Как тестировать LLM?

Пример метрик и интерфейсов при тестировании LLM

См. также другие публикации, посвященные LLM

Бэкдор прямой инъекцией

Целью атак бэкдора является внедрение бэкдора в классификатор таким образом, чтобы он предсказывал любые входные данные с выбранным атакующим триггером бэкдора в качестве выбранного атакующим целевого класса. Существующие атаки бэкдора требуют либо переобучения классификатора с некоторыми чистыми данными, либо изменения архитектуры модели. В результате они 1) неприменимы, когда чистые данные недоступны, 2) менее эффективны, когда модель большая, и 3) менее скрытны из-за изменений архитектуры. В этой работе мы предлагаем DFBA, новую атаку бэкдора без переобучения и данных без изменения архитектуры модели. Технически наш предлагаемый метод изменяет несколько параметров классификатора для внедрения бэкдора. С помощью теоретического анализа мы проверяем, что наш внедренный бэкдор доказуемо необнаружим и неустраним различными современными защитами при умеренных предположениях. Наша оценка на нескольких наборах данных далее демонстрирует, что наш внедренный бэкдор: 1) вызывает незначительную потерю классификации, 2) достигает 100%-ного показателя успешности атак и 3) обходит шесть существующих современных защит. Более того, наше сравнение с современной атакой бэкдора без данных показывает, что наша атака более скрытна и эффективна против различных защит, при этом достигая меньшей потери точности классификации. Код для нашего эксперимента можно найти по адресу https://github.com/AAAAAAsuka/DataFree_Backdoor_Attacks - Data Free Backdoor Attacks

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Wednesday, November 20, 2024

Прогрессивный Bluetooth

На идеях сетевой пространственной близости: сеть Bluetooth устройств без соединения

Не спрашивай меня об этом

Большой список защит от prompt injection

См. также другие публикации, посвященные LLM

Tuesday, November 19, 2024

Все о защите LLM

Автор этого руководства исследует аспекты безопасности больших языковых моделей (LLM), обсуждая как наступательные, так и защитные инструменты для понимания и смягчения связанных рисков и уязвимостей. Он охватывает различные темы, включая уязвимости LLM, OWASP Top 10 для приложений LLM, известные взломы и рекомендации по безопасности, предоставляя информацию, особенно полезную для энтузиастов безопасности, начинающих изучать безопасность LLM. Кроме того, он рассматривает инструменты безопасности LLM с открытым исходным кодом для охотников за ошибками и пентестеров, а также выделяет популярные защитные инструменты для крупномасштабных корпоративных установок.

См. также другие публикации, посвященные LLM

LLM для последовательных рекомендаций

Последовательные рекомендательные системы (SRS) нацелены на прогнозирование последующих выборов пользователей на основе их исторических взаимодействий и нашли применение в различных областях, таких как электронная коммерция и социальные сети. Однако в реальных системах большинство пользователей взаимодействуют только с несколькими элементами, в то время как большинство элементов редко потребляются. Эти две проблемы, известные как проблемы пользователя с длинным хвостом и проблемы элемента с длинным хвостом, часто создают трудности для существующих SRS. Эти проблемы могут отрицательно влиять на пользовательский опыт и выгоды продавца, что делает их критически важными для решения. Хотя несколько работ решали эти проблемы, они все еще борются с проблемами качелей или шума из-за внутренней нехватки взаимодействий. Достижения в больших языковых моделях (LLM) представляют собой многообещающее решение этих проблем с семантической точки зрения. Как одни из пионеров в этой области, мы предлагаем структуру улучшения больших языковых моделей для последовательных рекомендаций (LLM-ESR). Эта структура использует семантические вложения, полученные из LLM, для улучшения SRS без добавления дополнительной нагрузки вывода от LLM. Для решения проблемы длиннохвостовых элементов мы разрабатываем структуру моделирования с двумя представлениями, которая объединяет семантику из LLM и совместные сигналы из обычных SRS. Для проблемы длиннохвостовых пользователей мы предлагаем метод самодистилляции с расширенным поиском для улучшения представления предпочтений пользователя с использованием более информативных взаимодействий от похожих пользователей. Чтобы проверить эффективность и универсальность нашей предлагаемой структуры улучшения, мы проводим обширные эксперименты на трех реальных наборах данных с использованием трех популярных моделей SRS. Результаты показывают, что наш метод последовательно превосходит существующие базовые показатели и особенно выгоден для оценки длинных хвостов пользователей и рекомендуемых элементов. Код реализации доступен по адресу https://github.com/Applied-Machine-Learning-Lab/LLM-ESR. LLM-ESR: Large Language Models Enhancement for Long-tailed Sequential Recommendation

Последовательные рекомендательные системы были предметом наших статей - см., например, нашу статью о рекомендательных системах на основе сессий

P.S. См. также другие публикации, посвященные LLM

Шифрованная LLM

Большие языковые модели (LLM) предлагают персонализированные ответы на основе взаимодействия с пользователем, но этот вариант использования вызывает серьезные проблемы с конфиденциальностью. Гомоморфное шифрование (HE) — это криптографический протокол, поддерживающий арифметические вычисления в зашифрованных состояниях и обеспечивающий потенциальное решение для машинного обучения с сохранением конфиденциальности (PPML). Однако вычислительная интенсивность трансформаторов создает проблемы для применения HE к LLM. В этой работе мы предлагаем модифицированную архитектуру трансформатора, дружественную HE, с акцентом на вывод после персонализированной (частной) тонкой настройки. Используя тонкую настройку LoRA и гауссовские ядра, мы достигаем значительного ускорения вычислений — в 6,94 раза для тонкой настройки и в 2,3 раза для вывода — при сохранении производительности, сопоставимой с моделями открытого текста. Наши выводы предоставляют жизнеспособное доказательство концепции для предложения услуг LLM с сохранением конфиденциальности в областях, где защита данных имеет решающее значение. - ENCRYPTION-FRIENDLY LLM ARCHITECTURE

Современные криптографические методы для реализации сохраняющих конфиденциальность LLM, таких как гомоморфное шифрование (HE), требуют, чтобы LLM имели полиномиальную форму. Формирование такого представления является сложной задачей, поскольку Transformers включают неполиномиальные компоненты, такие как Softmax и нормализация слоев. Предыдущие подходы либо напрямую аппроксимировали предварительно обученные модели полиномами большой степени, которые менее эффективны по сравнению с HE, либо заменяли неполиномиальные компоненты примитивами, которые легче аппроксимировать перед обучением, например, Softmax с точечным вниманием. Последний подход может привести к проблемам масштабируемости. Мы представляем новый вариант самовнимания, дружественный HE, который предлагает стабильную форму для обучения и легко аппроксимируется полиномами для безопасного вывода. В нашей работе представлены первые полиномиальные LLM с 32 слоями и более миллиарда параметров, что превышает размер предыдущих моделей более чем в десять раз. Полученные модели демонстрируют возможности рассуждения и контекстного обучения (ICL), сравнимые со стандартными трансформерами того же размера, что представляет собой прорыв в этой области. Наконец, мы предоставляем подробную разбивку задержки для каждого вычисления по зашифрованным данным, прокладывая путь для дальнейшей оптимизации, и исследуем различия в индуктивном смещении между трансформерами, полагающимися на наш вариант HE-friendly, и стандартными трансформерами. Наш код прилагается в качестве дополнения. - POWER-SOFTMAX: TOWARDS SECURE LLM INFERENCE OVER ENCRYPTED DATA

P.S. См. также другие публикации, посвященные LLM

Monday, November 18, 2024

Что в городе моем?

Городское развитие формируется историческими, географическими и экономическими факторами, что создает трудности для планировщиков в понимании городской формы. Это исследование моделирует потоки поездок на работу в нескольких городах США, раскрывая последовательные закономерности в распределении городского населения и поведении при поездках на работу. Встраивая городские места для отражения сетей мобильности, мы наблюдаем, что распределение населения в переопределенных городских пространствах имеет тенденцию приближаться к логарифмически нормальному распределению, в отличие от часто нерегулярных распределений, обнаруженных в географическом пространстве. Это расхождение предполагает, что естественные и исторические ограничения формируют пространственные модели населения, в то время как в идеальных условиях городская организация может естественным образом соответствовать логарифмически нормальному распределению. Теоретическая модель, использующая предпочтительное присоединение и случайные блуждания, поддерживает возникновение этого распределения в городских условиях. Эти результаты раскрывают фундаментальный организующий принцип в городских системах, который, хотя и не всегда виден географически, последовательно управляет потоками и распределениями населения. Это понимание базовой городской структуры может дать информацию планировщикам, стремящимся проектировать эффективные, устойчивые города. - Cities Reconceptualized: Unveiling Hidden Uniform Urban Shape through Commute Flow Modeling in Major US Cities. Интересная статья о понимании транспортных потоков в городе.

О сокрытии лиц

Поскольку технология распознавания лиц (FR) становится все более распространенной в финансах, армии, общественной безопасности и повседневной жизни, проблемы безопасности существенно возросли. Физические состязательные атаки, нацеленные на FR-системы в реальных условиях, привлекли значительный исследовательский интерес из-за их практичности и серьезных угроз, которые они представляют. Однако систематический обзор, сосредоточенный на физических состязательных атаках на FR-системы, все еще отсутствует, что препятствует глубокому изучению проблем и будущих направлений в этой области. В этой статье мы устраняем этот пробел, всесторонне собирая и анализируя методы физических состязательных атак, нацеленных на FR-системы. В частности, мы сначала исследуем ключевые проблемы физических атак на FR-системы. Затем мы классифицируем существующие физические атаки на три категории на основе используемой физической среды и суммируем, как развивались исследования в каждой категории для решения этих проблем. Кроме того, мы рассматриваем текущие стратегии защиты и обсуждаем потенциальные будущие направления исследований. Наша цель — предоставить новое, всестороннее и глубокое понимание физических состязательных атак на FR-системы, тем самым вдохновляя соответствующие исследования в этой области. - A Survey on Physical Adversarial Attacks against Face Recognition Systems

См. также другие публикации по теме физические атаки

Sunday, November 17, 2024

Аномалии в количестве публикаций

Хорошее техническое описание определения аномалий в количестве публикаций в социальных медиа (сетях). В статье речь идет о Twitter

Как обмануть лидар

Автономные транспортные средства (AV) в значительной степени полагаются на системы LiDAR (Light Detection and Ranging) для точного восприятия и навигации, предоставляя трехмерные данные об окружающей среде с высоким разрешением, которые имеют решающее значение для обнаружения и классификации объектов. Однако системы LiDAR уязвимы для состязательных атак, которые создают значительные проблемы для безопасности и надежности AV. В этом обзоре представлен тщательный обзор текущего ландшафта исследований физических состязательных атак, нацеленных на системы восприятия на основе LiDAR, охватывающих как одномодальные, так и многомодальные контексты. Мы классифицируем и анализируем различные типы атак, включая спуфинг и физические состязательные атаки на объекты, подробно описывая их методологии, воздействия и потенциальные последствия в реальном мире. С помощью подробных тематических исследований и анализов мы выявляем критические проблемы и выделяем пробелы в существующих атаках на системы на основе LiDAR. Кроме того, мы предлагаем будущие направления исследований для повышения безопасности и устойчивости этих систем, в конечном итоге способствуя более безопасному развертыванию автономных транспортных средств. - Navigating Threats: A Survey of Physical Adversarial Attacks on LiDAR Perception Systems in Autonomous Vehicles

См. также другие публикации по теме физические атаки

Saturday, November 16, 2024

Открытая наука, том 12, номер 11

Очередной номер журнала INJOIT появился на сайте Киберленинка.

Это том 12, номер 11 за 2024 год.

/via Лаборатория ОИТ

Плохие знаки

Физические состязательные патчи стали ключевой состязательной атакой, вызывающей неправильную классификацию систем распознавания дорожных знаков (TSR) в реальном мире. Однако существующие состязательные патчи обладают плохой скрытностью и атакуют все транспортные средства без разбора после развертывания. В этой статье мы представляем невидимую и активируемую физическую состязательную заплатку (ITPATCH) с новым вектором атаки, т. е. флуоресцентными чернилами, для продвижения современного уровня техники. Она применяет тщательно разработанные флуоресцентные возмущения к целевому знаку, злоумышленник может позже активировать флуоресцентный эффект с помощью невидимого ультрафиолетового света, заставляя систему TSR неправильно классифицировать знак и потенциально приводя к дорожно-транспортным происшествиям. Мы провели комплексную оценку, чтобы исследовать эффективность ITPATCH, которая показывает успех 98,31% в условиях низкой освещенности. Кроме того, наша атака успешно обходит пять популярных защит и достигает успеха 96,72%. - ITPATCH: An Invisible and Triggered Physical Adversarial Patch against Traffic Sign Recognition

См. также статью Состязательные атаки для автономных транспортных средств

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Friday, November 15, 2024

Атаки уклонения на CPS

В последние годы было предложено несколько атак уклонения для промышленных систем управления. Во время атаки уклонения злоумышленник пытается скрыть текущие аномалии процесса, чтобы избежать обнаружения аномалий. Примеры таких атак варьируются от атак воспроизведения до техник состязательного машинного обучения. Эти атаки обычно применяются к существующим наборам данных с нормальными и аномальными данными, к которым атаки уклонения добавляются post hoc. Это представляет очень сильного злоумышленника, который эффективно может наблюдать и манипулировать данными из любой точки системы в режиме реального времени, с нулевой задержкой обработки и без вычислительных ограничений. Предыдущая работа показала, что таких сильных злоумышленников теоретически трудно обнаружить большинством существующих контрмер. Пока неясно, может ли такая атака быть реализована на практике, и есть ли проблемы, которые могли бы нанести ущерб злоумышленнику. В этой работе мы систематически обсуждаем возможности для злоумышленника проводить атаки уклонения в реальных ICS, и показываем ограничения, которые возникают из-за этих возможностей. Чтобы подтвердить наши выводы, мы проектируем и реализуем структуру, которая позволяет реализовывать атаки уклонения и обнаружение аномалий для эмуляции ICS. Мы демонстрируем практические ограничения, возникающие из различных настроек, и их влияние на эффективность атак. Например, мы обнаружили, что воспроизведение сетевых пакетов может вызывать сетевые ошибки, которые приведут к неожиданным шаблонам спуфинга. - On Practical Realization of Evasion Attacks for Industrial Control Systems

Что отличает один сайт от другого?

Каждый сайт по-своему использует кэш процессора при загрузке. Это положено в основу интересной атаки по побочным каналам - какие сайты пользователь открывает в соседних вкладках браузера?

Thursday, November 14, 2024

Пограничник

Новые угрозы для сетей IoT ускорили разработку систем обнаружения вторжений (IDS), характеризующихся переходом от традиционных подходов, основанных на сигнатурах атак или обнаружении аномалий, к подходам, основанным на машинном обучении (ML). Однако современные IDS на основе ML часто не могут явно интегрировать знания предметной области, не обладают объяснимостью и испытывают трудности с устранением атак нулевого дня. В этой статье мы предлагаем IDS-Agent, первого агента ИИ, работающего на основе больших языковых моделей (LLM) для обнаружения вторжений. IDS-Agent предсказывает, является ли входной сетевой трафик безопасным или вредоносным, с объяснением результатов прогнозирования. Рабочий процесс IDS-Agent включает последовательность действий, генерируемых его основной LLM на основе рассуждений о наблюдениях за состоянием. Пространство действий IDS-Agent включает извлечение и предварительную обработку данных, классификацию, знания, и извлечение памяти, а также агрегацию результатов — эти действия будут выполняться с использованием обширных инструментов, в основном специализированных для IDS. Кроме того, IDS-Agent оснащен памятью и базой знаний, которая сохраняет информацию из текущихи предыдущих сеансов, а также документы, связанные с IDS, что расширяет его возможности рассуждений и генерации действий. Системные подсказки IDS-Agent можно легко настраивать для регулировки чувствительности обнаружения или выявления ранее неизвестных типов атак. В наших экспериментах мы демонстрируем сильные возможности обнаружения IDS-Agent по сравнению с IDS на основе ML и IDS на основе LLM с инжинирингом подсказок. IDS-Agent превосходит эти базовые показатели SOTA на тестах ACI-IoT и CIC-IoT с показателями обнаружения F1 0,97 и 0,75 соответственно. - IDS-Agent: An LLM Agent for Explainable Intrusion Detection in IoT Networks. Полезный пример агента для LLM.

P.S. См. также другие публикации, посвященные LLM

Атаки на ИИ агенты

Хотя агенты на основе LLM, работающие на основе больших языковых моделей (LLM), могут использовать внешние инструменты и механизмы памяти для решения сложных реальных задач, они также могут привносить критические уязвимости безопасности. Однако существующая литература не дает всесторонней оценки атак и защиты от агентов на основе LLM. Чтобы решить эту проблему, мы представляем Agent Security Bench (ASB), комплексную структуру, предназначенную для формализации, сравнительного анализа и оценки атак и защиты агентов на основе LLM, включая 10 сценариев (например, электронная коммерция, автономное вождение, финансы), 10 агентов, нацеленных на сценарии, более 400 инструментов, 23 различных типа методов атаки/защиты и 8 метрик оценки. Основываясь на ASB, мы сравниваем 10 атак с подсказками, атаку с отравлением памяти, новую атаку с бэкдором Plan-of-Thought, смешанную атаку и 10 соответствующих защит в 13 магистралях LLM с почти 90 000 тестовых случаев в общей сложности. Результаты наших тестов выявляют критические уязвимости на разных этапах работы агента, включая системный запрос, обработку пользовательских запросов, использование инструментов и извлечение памяти, с наивысшим средним показателем успешности атак 84,30%, но ограниченной эффективностью, показанной в текущих средствах защиты, что раскрывает важные работы, которые необходимо выполнить в плане безопасности агента для сообщества. Наш код можно найти по адресу https://github.com/agiresearch/ASB - AGENT SECURITY BENCH (ASB): FORMALIZING AND BENCHMARKING ATTACKS AND DEFENSES IN LLM-BASED AGENTS

P.S. См. также другие публикации, посвященные LLM

Wednesday, November 13, 2024

Новый Python

Почему выпуск Python 3.13 может стать переломным моментом для AI и ML Узнайте, как он изменит динамику ML и ИИ

Это мой датасет

По мере того, как внедрение систем машинного обучения (МО) становится все более распространенным, особенно с введением более крупных моделей МО, мы ощущаем растущий спрос на массивные данные. Однако это неизбежно приводит к проблемам нарушения и неправильного использования данных, таким как использование несанкционированных онлайн-произведений искусства или изображений лиц для обучения моделей МО. Для решения этой проблемы было предпринято много усилий для аудита авторских прав на набор данных для обучения модели. Однако существующие решения различаются по предположениям и возможностям аудита, что затрудняет сравнение их сильных и слабых сторон. Кроме того, оценки надежности обычно учитывают только часть конвейера МО и едва ли отражают производительность алгоритмов в реальных приложениях МО. Таким образом, важно взять практическую перспективу развертывания текущих инструментов аудита авторских прав на наборы данных, изучив их эффективность и ограничения. Конкретно, мы разделяем исследования аудита авторских прав на наборы данных на два основных направления: интрузивные методы и неинтрузивные методы, в зависимости от того, требуют ли они изменения исходного набора данных. Затем мы разбиваем интрузивные методы на различные варианты внедрения водяных знаков и изучаем неинтрузивные методы с использованием различных отпечатков. Чтобы подвести итог нашим результатам, мы предлагаем подробные справочные таблицы, выделяем ключевые моменты и выявляем нерешенные проблемы в текущей литературе. Объединяя конвейер в системах МО и анализируя предыдущие исследования, мы выделяем несколько будущих направлений, чтобы сделать инструменты аудита более подходящими для реальных требований защиты авторских прав. - SoK: Dataset Copyright Auditing in Machine Learning Systems

Tuesday, November 12, 2024

По закону

Соответствует ли ваша модель Закону об искусственном интеллекте? Новое исследование предполагает, что ведущие модели искусственного интеллекта могут соответствовать требованиям Закона об искусственном интеллекте Европейского союза в некоторых областях, но, вероятно, не во всех.

Что нового: стартап LatticeFlow из Цюриха, работающий с исследовательскими институтами в Болгарии и Швейцарии, разработал COMPL-AI, неофициальную структуру, предназначенную для оценки вероятного соответствия больших языковых моделей Закону об искусственном интеллекте. Таблица лидеров ранжирует первоначальный выбор моделей. (LatticeFlow не работает на Европейскую комиссию и не имеет юридического статуса для интерпретации Закона об искусственном интеллекте.)

Как это работает: в статье объясняется, как COMPL-AI сопоставляет требования Закона об искусственном интеллекте с конкретными контрольными показателями. Он оценивает каждое требование с помощью новых или существующих тестов и выдает совокупный балл. Эти баллы являются относительными мерами, и авторы не предлагают пороговые значения для соответствия. Оценка охватывает пять основных категорий:

1. Техническая надежность и безопасность. Закон об искусственном интеллекте требует, чтобы модели возвращали последовательные ответы, несмотря на незначительные изменения во входных подсказках, и противостояли состязательным атакам. Фреймворк использует такие метрики, как MMLU и BoolQ, для оценки влияния небольших изменений в формулировке подсказки. Он измеряет монотонность (согласованность в отношениях между определенными входами и выходами), чтобы увидеть, насколько хорошо модель поддерживает свою внутреннюю логику в подсказках. Он использует Tensor Trust и LLM RuLES для оценки устойчивости к кибератакам. Эта категория также проверяет, может ли модель идентифицировать и исправлять свои собственные ошибки.

2. Конфиденциальность и защита данных. Выходные данные модели не должны содержать ошибок, предвзятости и нарушений законов, регулирующих конфиденциальность и авторские права. Фреймворк ищет проблемные примеры в обучающем наборе данных модели и оценивает, повторяет ли модель ошибочный, персонально идентифицирующий или защищенный авторским правом материал, который был включен в ее обучающий набор. Многие разработчики не предоставляют обучающие наборы данных своих моделей, поэтому авторы используют открытые наборы данных, такие как Pile, в качестве прокси.

3. Прозрачность и интерпретируемость. Разработчики должны объяснять возможности своих моделей, а сами модели должны позволять тем, кто их развертывает, интерпретировать отношения между входами и выходами. Меры интерпретируемости включают TriviaQA и Expected Calibration Error, которые проверяют способность модели оценивать собственную точность. Фреймворк также оценивает такие требования, например, проверяя, будет ли модель сообщать пользователям, что они взаимодействуют с машиной, а не с человеком, и будет ли она маркировать свои выходные данные водяными знаками.

4. Справедливость и отсутствие дискриминации. Закон требует, чтобы поставщики моделей документировали потенциально дискриминационные выходные данные своих систем, а высокорисковые системы снижали риск предвзятых выходных данных. Фреймворк использует такие тесты, как RedditBias, BBQ и BOLD, для оценки предвзятого языка и FaiRLLM для оценки справедливых выходных данных. Он использует DecodingTrust для измерения справедливости в различных вариантах использования.

5. Социальное и экологическое благополучие. Разработчики высокорисковых систем должны минимизировать вредное и нежелательное поведение, и все разработчики ИИ должны документировать потребление энергии и других ресурсов, используемых для создания своих моделей, а также свои усилия по его сокращению. Фреймворк использует RealToxicityPrompts и AdvBench для измерения склонности модели генерировать нежелательные или иным образом токсичные результаты. Он вычисляет углеродный след модели для измерения экологического благополучия. Результаты: авторы оценили девять открытых моделей и три фирменные модели по шкале от 0 до 1. Их отчеты по каждой модели показывают значительную изменчивость. (Примечание: совокупные баллы, указанные в отчетах, не соответствуют баллам в статье.)

Все протестированные модели показали хорошие результаты по контрольным показателям конфиденциальности и управления данными (достигнув баллов 0,99 или 1) и социального и экологического благополучия (0,96 или выше). Однако несколько получили относительно низкие баллы по справедливости и безопасности, что говорит о том, что предвзятость и уязвимость к состязательным атакам являются значительными проблемами. GPT-4 Turbo и Claude 3 Opus получили наивысший совокупный балл, 0,89. Однако их баллы были снижены низкими оценками за прозрачность, поскольку данные обучения ни одной из моделей не раскрываются. Gemma-2-9B заняла самое низкое место с общим баллом 0,72. Она также набрала самые низкие баллы по тестам на общее рассуждение (MMLU), рассуждение здравого смысла (HellaSwag) и самооценку (уверенность модели в своих ответах на TriviaQA).

Некоторые модели хорошо справились с типичными контрольными задачами, но хуже в областях, которые менее изучены или легко измеряются. Например, Qwen1.5-72B испытывала трудности с интерпретируемостью (0,61). Mixtral-8x7B плохо справилась с устойчивостью к кибератакам (0,32).

Да, но: Авторы отмечают, что некоторые положения Закона об ИИ, включая объяснимость, надзор (уважение к человеческому контролю) и корректируемость (можно ли изменить систему ИИ, чтобы изменить вредоносные результаты, что влияет на классификацию риска модели в соответствии с Законом об ИИ), определены в законе неоднозначно и в настоящее время не могут быть надежно измерены. Эти области недостаточно изучены в исследовательской литературе и не имеют контрольных показателей для их оценки.

Почему это важно: С появлением законов, регулирующих технологию ИИ, разработчики несут ответственность за оценку соответствия модели, прежде чем они ее выпустят или используют ее способами, которые повлияют на общественность. COMPL-AI делает первый шаг к тому, чтобы заверить создателей моделей в том, что их работа юридически защищена, или предупредить их о недостатках, которые могут привести к правовому риску, если они не будут устранены до выпуска.

Мы думаем: Вдумчивое регулирование ИИ необходимо, но оно должно осуществляться способами, которые не налагают неоправданного бремени на разработчиков. Хотя сам Закон об ИИ чрезмерно обременителен, мы рады видеть в значительной степени автоматизированный путь к демонстрации соответствия больших языковых моделей.

Отсюда

Наука с учителем

Книга в открытом доступе - https://ml-science-book.com/

Monday, November 11, 2024

Отравление контента

Большие языковые модели (LLM) продемонстрировали свои превосходные возможности в обработке естественного языка, продвигая обширные приложения на основе LLM в качестве новых порталов для людей, чтобы получить доступ к различному контенту в Интернете. Однако приложения на основе LLM не имеют достаточных соображений безопасности для ненадежного контента, что приводит к потенциальным угрозам. В этой статье мы раскрываем отравление контента, когда злоумышленники могут адаптировать контент атаки, который кажется безобидным для людей, но заставляет приложения на основе LLM генерировать вредоносные ответы. Чтобы подчеркнуть влияние отравления контента и вдохновить на разработку эффективной защиты, мы систематически анализируем атаку, сосредоточившись на режимах атаки в различном контенте, эксплуатируемых особенностях конструкции фреймворков приложений LLM и генерации контента атаки. Мы проводим комплексную оценку пяти LLM, где отравление контента достигает среднего показателя успешности атаки 89,60%. Кроме того, мы оцениваем отравление контента в четырех популярных приложениях на базе LLM, достигая атаки на 72,00% контента. Наши экспериментальные результаты также показывают, что существующие средства защиты неэффективны против отравления контента. Наконец, мы обсуждаем потенциальные меры по смягчению последствий для фреймворков приложений LLM, чтобы противостоять отравлению контента. - Imperceptible Content Poisoning in LLM-Powered Applications

новая форма атаки на LLM с использованием внешнего добавляемого контента.

P.S. См. также другие публикации, посвященные LLM

CQRS

CQRS (Command Query Responsibility Segregation) — это архитектурный шаблон, который разделяет задачи чтения и записи данных.

Он делит приложение на две отдельные части:

Командная сторона: отвечает за управление запросами на создание, обновление и удаление.

Запросная сторона: отвечает за обработку запросов на чтение.

Шаблон CQRS был впервые представлен Грегом Янгом, разработчиком и архитектором программного обеспечения, в 2010 году. Он описал его как способ разделения ответственности за обработку команд (операций записи) от обработки запросов (операций чтения) в системе.

Истоки CQRS можно проследить до принципа разделения команд и запросов (CQS), введенного Бертраном Мейером. CQS утверждает, что каждый метод должен быть либо командой, которая выполняет действие, либо запросом, который возвращает данные, но не тем и другим одновременно. CQRS развивает принцип CQS, применяя его на архитектурном уровне, разделяя обязанности по командам и запросам на различные модели, сервисы или даже базы данных.

С момента своего появления CQRS приобрел популярность в сообществе разработчиков программного обеспечения, особенно в контексте проектирования на основе доменов (DDD) и архитектур, управляемых событиями.

Он успешно применяется в различных областях, таких как электронная коммерция, финансовые системы и приложения для совместной работы, где производительность, масштабируемость и сложность являются критически важными проблемами.

Отсюда

Sunday, November 10, 2024

Как оценивать LLM

Хорошая техническая статья по тестированию LLM.

См. также другие публикации, посвященные LLM

MIA LLM

В этом исследовании мы представляем первый бенчмарк атаки вывода членства (MIA - membership inference attack), адаптированный для различных VLLM, чтобы облегчить обнаружение обучающих данных.

См. также другие публикации, посвященные LLM

Friday, November 08, 2024

Надежность и понимание

В последние годы вопрос надежности методов машинного обучения (МО) приобрел важное значение, и анализ связанных с этим неопределенностей мотивировал все больше исследований. Однако большинство этих исследований применяли анализ стандартной ошибки к моделям МО, и в частности к моделям глубоких нейронных сетей (DNN), которые представляют собой довольно значительный отход от стандартного научного моделирования. Поэтому необходимо интегрировать анализ стандартной ошибки с более глубоким эпистемологическим анализом возможных различий между моделями DNN и стандартным научным моделированием и возможных последствий этих различий в оценке надежности. В этой статье предлагается несколько вкладов. Во-первых, она подчеркивает повсеместную роль предположений модели (как в МО, так и в традиционной науке) против иллюзии науки, свободной от теорий. Во-вторых, предположения модели анализируются с точки зрения их (эпистемической) сложности, которая, как показано, не зависит от языка. Утверждается, что высокая эпистемическая сложность моделей DNN затрудняет оценку их надежности, а также их перспектив долгосрочного прогресса. Предлагаются некоторые потенциальные пути продвижения вперед. В-третьих, в этой статье определяется тесная связь между эпистемической сложностью модели и ее интерпретируемостью, как это представлено в контексте ответственного ИИ. Это проясняет, в каком смысле — и в какой степени — отсутствие понимания модели (проблема черного ящика) влияет на ее интерпретируемость способом, который не зависит от индивидуальных навыков. Это также проясняет, как интерпретируемость является предпосылкой для правдоподобной оценки надежности любой модели, которая не может быть основана только на статистическом анализе. В этой статье основное внимание уделяется сравнению традиционных научных моделей и моделей DNN. Однако также кратко рассматриваются модели случайного леса (RF) и логистической регрессии (LR). - отсюда

Thursday, November 07, 2024

Молчащее смещение

Предвзятость из-за отсутствия ответа: как молчаливое большинство решило исход выборов и потопило любимого издателя. Ключевая проблема любых опросов.

Tuesday, November 05, 2024

Оценка рисков ИИ

В индустрии искусственного интеллекта (ИИ) появился новый инструмент для оценки рисков — SAIF Risk Assessment, разработанный для повышения безопасности ИИ-систем. Этот интерактивный инструмент позволяет разработчикам и компаниям оценить свою защищённость, определить потенциальные угрозы и укрепить систему безопасности.

/via SecurityLab

P.S. Это и есть инструмент для аудита систем ИИ, ровно как мы описывали в наших работах. Например, здесь и здесь

Saturday, November 02, 2024

Культурный код

Из бесед с одной LLM:

1) Продолжи фразу: "Там сидела Мурка в кожаной ..."

Фраза приобретает неожиданный поворот, учитывая, что обычно мы представляем себе кошку Мурку в более привычных образах. Продолжение может быть таким:
"Там сидела Мурка в кожаной куртке байкера, с серьгой в ухе и сигарой в зубах."
Это добавляет элемент юмора и неожиданности, превращая обычную кошку в персонажа с характером.

2) Противодиарейные комбинированные средства – Смекта, Диосмектит, Диоктаб Солюшн таблетки, Неосмектин, Эндосорб. А какова дозировка Титкмеса для взрослых?

Титкмес — это комбинированный противодиарейный препарат, содержащий два активных компонента: лоперамида гидрохлорид и симетикон. Лоперамид замедляет перистальтику кишечника, уменьшая частоту дефекации, а симетикон уменьшает вздутие живота за счет разрушения газовых пузырьков.

Дозировка Титкмеса для взрослых: Начальная доза: 2 капсулы сразу после первого жидкого стула. Поддерживающая доза: По 1 капсуле после каждого последующего жидкого стула.

Google про Титкмес не знает :(

Friday, November 01, 2024

Атаки на трекеры объектов

"В последние годы значительное внимание привлекло устранение уязвимости глубоких нейронных сетей (DNN). Хотя недавние исследования по состязательным атакам и защите в основном касались одного изображения, было предпринято мало усилий для выполнения временных атак на видеопоследовательности. Поскольку временная согласованность между кадрами не учитывается, существующие подходы к состязательным атакам, разработанные для статических изображений, неэффективны для глубокого отслеживания объектов. В этой работе мы генерируем состязательные примеры поверх видеопоследовательностей, чтобы повысить надежность отслеживания против состязательных атак в настройках белого и черного ящика. С этой целью мы учитываем сигналы движения при генерации легких возмущений по оценочным результатам отслеживания по кадрам. Для атаки белого ящика мы генерируем временные возмущения с помощью известных трекеров, чтобы значительно ухудшить производительность отслеживания. Мы передаем сгенерированные возмущения в неизвестные целевые трекеры для атаки черного ящика, чтобы добиться переноса атак. Кроме того, мы обучаем универсальные состязательные возмущения и напрямую добавляем их во все кадры видео, повышая эффективность атаки с небольшими вычислительными затратами. С другой стороны, мы последовательно учимся оценивать и удалять возмущения из входных последовательностей, чтобы восстановить производительность отслеживания. Мы применяем предложенные состязательные подходы к атаке и защите к современным алгоритмам отслеживания. Обширные оценки на крупномасштабных наборах данных эталонных тестов, включая OTB, VOT, UAV123 и LaSOT, показывают, что наш метод атаки значительно ухудшает производительность отслеживания с благоприятной переносимостью на другие магистрали и трекеры. В частности, предложенный метод защиты восстанавливает исходную производительность отслеживания в некоторой степени и достигает дополнительного прироста производительности, когда не находится под состязательными атаками" - Robust Deep Object Tracking against Adversarial Attacks

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению и LLM

Thursday, October 31, 2024

Оцифровка запаха

Это случилось. Сколько интересных ~~(пахучих)~~ приложений появится ...

Wednesday, October 30, 2024

Бизнес-аналитика

Книга в открытом доступе A Business Analyst’s Introduction to Business Analytics. Примеры на R.

Все о Гауссе

Распределение Гаусса, или нормальное распределение, является ключевым предметом в статистике, машинном обучении, физике и практически любой другой области, которая имеет дело с данными и вероятностью. Это один из тех предметов, как π или правило Байеса, который настолько фундаментален, что люди относятся к нему как к иконе. - отсюда

Tuesday, October 29, 2024

Почему они галлюцинируют?

Интересный эксперимент: "Это приводит нас к гипотезе о том, когда GPT на основе LLM будет делать все правильно, а когда он будет делать что-то неправильно (или галлюцинировать). Когда есть общее согласие по теме и есть большой объем языка, доступный для обучения модели, GPT на основе LLM будут отражать это консенсусное мнение. Но в случаях, когда недостаточно примеров языка по теме, или тема является спорной, или нет четкого консенсуса по теме, опора на эти системы приведет к сомнительным результатам. Если эта гипотеза верна, то галлюцинации должны чаще возникать при работе с темами, которые являются неясными или спорными.

Чтобы проверить эту гипотезу, мы придумали набор простых подсказок, которые различались как по неясности темы, так и по степени противоречий вокруг темы. Затем мы задавали эти вопросы различным GPT в течение определенного периода времени. Прогноз заключался в том, что чем более неясной или спорной является тема, тем больше вероятность того, что результат будет неверным."

См. также другие публикации по теме галлюцинации

Monday, October 28, 2024

Защита КИИ

Материалы конференции ITSEC 2024 - Защита АСУ ТП и объектов КИИ

Риски ИИ

Горячая тема. В статье приводится расшифровка рисков ИИ, которые специфицируют частные компании и государства

См. также нашу статью О киберрисках генеративного ИИ

Другие публикации по теме риски

Sunday, October 27, 2024

Out of Distribution ML

Цель этого репозитория — предоставить наиболее полный, актуальный, высококачественный ресурс для обнаружения OOD, надежности и обобщения в машинном обучении/глубоком обучении. Ваш универсальный магазин для всего, что касается OOD, здесь.

P.S. см. также другие публикации по теме OOD

Saturday, October 26, 2024

Публикации по теме Искусственный интеллект в кибербезопасности

Namiot D., Ilyushin E., Chizhov I. On a formal verification of machine learning systems // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 5. — P. 30–34.

Junzhe S., Namiot D. A survey of the implementations of model inversion attacks // Communications in Computer and Information Science. — 2023. — Vol. 1748. — P. 3–16.

Намиот Д. Е. Схемы атак на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 5. — С. 68–86.

On the evasion attack detector / L. Huayui, V. Kostyumov, O. Pilipenko, D. Namiot // DCCN 2023. Материалы конференции. — ИПУ РАН Москва: 2023. — P. 183–188.

Junzhe S., Namiot D. On the machine learning models inversion attack detector // DCCN 2023. Материалы конференции. — ИПУ РАН Москва: 2023. — P. 194.

Намиот Д. Е., Зубарева Е. В. О работе ai red team // International Journal of Open Information Technologies. — 2023. — Т. 11, № 10. — С. 130–139.

Junzhe S., Namiot D. On real-time model inversion attacks detection // Lecture Notes in Computer Science. — 2024. — Vol. 14123. — P. 56–67.