Saturday, November 30, 2024

Friday, November 29, 2024

Соревнования по слому LLM

В этой статье представлен Глобальный вызов для Безопасных и надежных больших языковых моделей (LLM), новаторская инициатива, организованная AI Singapore (AISG) и CyberSG R&D Programme Office (CRPO) для содействия разработке передовых механизмов защиты от автоматизированных атак взлома. С ростом интеграции LLM в критические секторы, такие как здравоохранение, финансы и государственное управление, обеспечение устойчивости этих моделей к состязательным атакам имеет жизненно важное значение для предотвращения неправомерного использования и соблюдения этических стандартов. Этот конкурс был сосредоточен на двух отдельных направлениях, разработанных для оценки и повышения надежности фреймворков безопасности LLM. В треке 1 участникам было поручено разработать автоматизированные методы для проверки уязвимостей LLM путем выявления нежелательных ответов, эффективно проверяя пределы существующих протоколов безопасности в LLM. Участникам было предложено разработать методы, которые могли бы обойти меры безопасности контента в самых разных сценариях, от оскорбительного языка до дезинформации и незаконной деятельности. В ходе этого процесса Трек 1 был нацелен на углубление понимания уязвимостей LLM и предоставление информации для создания более устойчивых моделей. Результаты Трека 1 выявили значительные достижения в методах взлома и тестировании безопасности для LLM. Конкурирующие команды оценивались на основе устойчивости их моделей к 85 предопределенным нежелательным поведениям, охватывающим такие категории, как предубеждения, оскорбительный контент, дезинформация и продвижение незаконной деятельности. Примечательно, что наиболее эффективные команды достигли высоких успехов атак, внедряя инновационные методы, включая шаблоны индукции сценариев, которые систематически генерировали контекстно-зависимые подсказки и механизмы атаки с повторным суффиксом, которые адаптировали суффиксы для обхода фильтров моделей в нескольких степенях магистра права. Эти методы продемонстрировали не только эффективность в обходе мер безопасности, но и переносимость между различными типами моделей, подчеркивая адаптивность и сложность современных состязательных методов.

Второй трек, начало которого запланировано на 2025 год, будет посвящен разработке стратегий защиты, не зависящих от модели, направленных на противодействие продвинутым атакам с джейлбрейком. Основная цель этого направления — продвигать адаптивные фреймворки, которые могут эффективно смягчать атаки противников в различных архитектурах LLM. Global Challenge for Safe and Secure LLMs Track 1

Автоматизация AI Red Team

Автоматизированный Red Teaming может обнаруживать редкие сбои модели и генерировать сложные примеры, которые можно использовать для обучения или оценки. Однако основная проблема в автоматизированном red teaming заключается в обеспечении того, чтобы атаки были как разнообразными, так и эффективными. Предыдущие методы обычно успешно оптимизировали либо разнообразие, либо эффективность, но редко и то, и другое. В этой статье мы предлагаем методы, которые позволяют автоматизированному red teaming генерировать большое количество разнообразных и успешных атак. Наш подход разбивает задачу на два этапа: (1) автоматизированные методы для генерации разнообразных целей атак и (2) генерация эффективных атак для этих целей. Хотя мы предоставляем несколько простых методов для генерации разнообразных целей, наш ключевой вклад заключается в обучении атакующего RL, который как следует этим целям, так и генерирует разнообразные атаки для этих целей. Во-первых, мы демонстрируем, что легко использовать большую языковую модель (LLM) для генерации разнообразных целей атакующего с подсказками и вознаграждениями для каждой цели, включая вознаграждения на основе правил (RBR) для оценки того, являются ли атаки успешными для конкретной цели. Во-вторых, мы демонстрируем, как обучение модели атакующего с помощью многошагового RL, где модель вознаграждается за создание атак, отличающихся от прошлых попыток, еще больше увеличивает разнообразие, оставаясь эффективной. Мы используем наш подход для создания как атак с подсказками, так и подсказок, вызывающих небезопасные ответы. В обоих случаях мы обнаруживаем, что наш подход способен генерировать высокоэффективные и значительно более разнообразные атаки, чем прошлые общие подходы red-teaming. - Diverse and Effective Red Teaming with Auto-generated Rewards and Multi-step Reinforcement Learning

Thursday, November 28, 2024

Генеративный рой

Благодаря недавним достижениям в области искусственного интеллекта (ИИ) и робототехники, беспилотные рои транспортных средств привлекли большое внимание как со стороны академических кругов, так и со стороны промышленности из-за их потенциала предоставлять услуги, которые трудно и опасно выполнять людям. Однако изучение и координация движений и действий для большого количества беспилотных транспортных средств в сложных и динамичных средах представляет собой значительные проблемы для традиционных методов ИИ. Генеративный ИИ (ГенИИ) с его возможностями в извлечении, преобразовании и улучшении сложных признаков данных предлагает большой потенциал в решении этих проблем беспилотных роев транспортных средств. Для этого данная статья направлена на предоставление всестороннего обзора приложений, проблем и возможностей ГенИИ в беспилотных роях транспортных средств. В частности, мы сначала представляем обзор беспилотных транспортных средств и беспилотных роев транспортных средств, а также их вариантов использования и существующих проблем. Затем предоставляется углубленный обзор различных методов ГенИИ вместе с их возможностями в улучшении беспилотных роев транспортных средств. После этого мы представляем всесторонний обзор приложений и проблем ГенИИ в роях беспилотных транспортных средств с различными идеями и обсуждениями. Наконец, мы освещаем открытые вопросы ГенИИ в роях беспилотных транспортных средств и обсуждаем потенциальные направления исследований - Generative AI for Unmanned Vehicle Swarms: Challenges, Applications and Opportunities

Атаки на SCADA-системы

Атака с использованием ложных данных (FDIA), удаленная команда на отключение (RTCI) и атака с изменением конфигурации системы (SRA) на сети SCADA (диспетчерское управление и сбор данных) влияют на компоненты интеллектуальной сети с поддержкой Industry 5.0, такие как интеллектуальное электронное устройство (IED), автоматический выключатель, сетевой коммутатор и линии электропередачи. Поскольку поток кибератак на основе сети SCADA не находится в форме цифрового двойника, невозможно смоделировать последствия атаки. Кроме того, строковая природа данных этих затронутых компонентов затрудняет включение в процессы машинного обучения (CTI). Для визуализации потока атак FDIA, RTCI и SRA кибератак на сети SCADA в данной статье представлен новый подход «Анализ потока кибератак с использованием цифровых двойников и машинного обучения (DT-ML-CAFA)» для сетевой CTI в Industry 5.0. Для обработки цифровых двойников и определения того, как кибератаки влияют на компоненты SCADA, используется метод графа знаний на основе алгоритма направленного графа (DiGraph). Весь процесс цифрового двойника исследуется с использованием методов машинного обучения на основе Extra-Trees, Random-Forest, Bootstrap-Aggregation (Bagging), XGBoost и Logistic-Regression. На основе экспериментальных результатов данного исследования в данной статье показано, что предлагаемый метод может имитировать поток кибератак на сеть SCADA в форме цифрового двойника, а метрики путаницы цифрового двойника получаются с высокой точностью. - DiGraph enabled Digital Twin and Label-encoding Machine Learning for SCADA Network’s Cyber Attack Analysis in Industry 5.0

Wednesday, November 27, 2024

Проклятые суффиксы

Хотя большие языковые модели (LLM) обычно выровнены, они остаются уязвимыми для взлома либо через тщательно продуманные подсказки на естественном языке, либо, что интересно, через бессмысленные состязательные суффиксы. Однако, бессмысленные токены получили относительно меньше внимания, несмотря на их успех в атаке на выровненные LLM. Недавняя работа AmpleGCG (Ляо и Сан, 2024) демонстрирует, что генеративная модель может быстро создавать многочисленные настраиваемые бессмысленные состязательные суффиксы для любого вредоносного запроса, выявляя ряд пробелов в выравнивании в языковых пространствах вне распределения (OOD). Чтобы привлечь больше внимания к этой области, мы представляем AmpleGCG-Plus, улучшенную версию, которая достигает лучшей производительности за меньшее количество попыток. С помощью серии исследовательских экспериментов мы определяем несколько стратегий обучения для улучшения обучения бессмысленным суффиксам. Наши результаты, проверенные в условиях строгой оценки, показывают, что он превосходит AmpleGCG как на моделях с открытым весом, так и на моделях с закрытым исходным кодом, достигая увеличения коэффициента успешности атак (ASR) до 17% в режиме белого ящика против Llama-2-7B-chat и более чем утроения ASR в режиме черного ящика против GPT-4. В частности, AmpleGCG-Plus делает джейлбрейк новой серии моделей GPT-4o с той же скоростью, что и GPT4, и обнаруживает уязвимости против недавно предложенной защиты с помощью автоматических выключателей. Мы публично выпускаем AmpleGCG-Plus вместе с нашими собранными наборами данных для обучения. Отсюда: AmpleGCG-Plus: A Strong Generative Model of Adversarial Suffixes to Jailbreak LLMs with Higher Success Rates in Fewer Attempts https://arxiv.org/pdf/2410.22143

Как добавить бессмысленные суффиксы типа “\)>|}{+Jahrhundert”,/\] parse”, чтобы джейлбрекнуть LLM.

ИИ приложения

Национальный стандарт (ГОСТ) - Руководство для приложений на основе искусственного интеллекта

Tuesday, November 26, 2024

Вредоносные LLM

Подробный обзор вредоносных LLM (212 штук)

Подпольная эксплуатация больших языковых моделей (LLM) для вредоносных сервисов (например, Malla) переживает подъем, усиливая ландшафт киберугроз и ставя под сомнение надежность технологий LLM. Однако было приложено мало усилий для понимания этой новой киберпреступности с точки зрения ее масштабов, воздействия и методов. В этой статье мы проводим первое систематическое исследование 212 реальных Mallas, раскрывая их распространение на подпольных рынках и раскрывая их операционные модальности. Наше исследование раскрывает экосистему Malla, показывая ее значительный рост и влияние на сегодняшние публичные сервисы LLM. Изучив 212 Mallas, мы обнаружили восемь бэкэнд-LLM, используемых Mallas, а также 182 подсказки, которые обходят защитные меры публичных API LLM. Мы далее демистифицируем тактику, используемую Mallas, включая злоупотребление неотцензурированными LLM и эксплуатацию публичных API LLM с помощью подсказок для джейлбрейка. Наши результаты позволяют лучше понять реальную эксплуатацию LLM киберпреступниками и дают представление о стратегиях противодействия этой киберпреступности.

См. также другие публикации, посвященные LLM

Лаборатория безопасности LLM

AI Security Lab - Исследовательская лаборатория ИТМО, специализирующаяся на безопасности и этике в сфере генеративного искусственного интеллекта и применения языковых моделей в бизнес задачах

См. также другие публикации, посвященные LLM

Sunday, November 24, 2024

Диффузионное отравление

Хотя современные модели диффузии (DM) превосходны в генерации изображений, проблемы, связанные с их безопасностью, сохраняются. Более ранние исследования выявили уязвимость DM к атакам отравления данных, но эти исследования предъявляли более строгие требования, чем обычные методы, такие как «BadNets» в классификации изображений. Это связано с тем, что искусство требует изменений в процедурах обучения и выборки диффузии. В отличие от предыдущей работы, мы исследуем, могут ли методы отравления данных, подобные BadNets, напрямую ухудшить генерацию DM. Другими словами, если только набор данных для обучения загрязнен (без манипулирования процессом диффузии), как это повлияет на производительность обученных DM? В этой обстановке мы раскрываем двусторонние эффекты отравления данных, которые не только служат состязательной цели (ставя под угрозу функциональность DM), но и обеспечивают оборонительное преимущество (которое можно использовать для защиты в задачах классификации от атак отравления). Мы показываем, что атака отравления данных, подобная BadNets, остается эффективной в DM для создания неверных изображений (несоответствующих предполагаемым текстовым условиям). Между тем, отравленные DM демонстрируют повышенное соотношение триггеров, явление, которое мы называем «усиление триггера», среди сгенерированных изображений. Это понимание может быть затем использовано для улучшения обнаружения отравленных обучающих данных. Кроме того, даже при низком соотношении отравления изучение эффектов отравления DM также ценно для разработки надежных классификаторов изображений против таких атак. И последнее, но не менее важное: мы устанавливаем значимую связь между отравлением данных и явлением репликации данных, исследуя присущие DM тенденции запоминания данных. Код доступен по адресу https://github.com/OPTML-Group/BiBadDiff. Отсюда - From Trojan Horses to Castle Walls: Unveiling Bilateral Data Poisoning Effects in Diffusion Models

См. также публикацию Диффузионные трояны

P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Регуляции ИИ

Глобальный Атлас регулировании ИИ - ссылка для скачивания

Saturday, November 23, 2024

Thursday, November 21, 2024

Как тестировать LLM?

Пример метрик и интерфейсов при тестировании LLM

См. также другие публикации, посвященные LLM

Бэкдор прямой инъекцией

Целью атак бэкдора является внедрение бэкдора в классификатор таким образом, чтобы он предсказывал любые входные данные с выбранным атакующим триггером бэкдора в качестве выбранного атакующим целевого класса. Существующие атаки бэкдора требуют либо переобучения классификатора с некоторыми чистыми данными, либо изменения архитектуры модели. В результате они 1) неприменимы, когда чистые данные недоступны, 2) менее эффективны, когда модель большая, и 3) менее скрытны из-за изменений архитектуры. В этой работе мы предлагаем DFBA, новую атаку бэкдора без переобучения и данных без изменения архитектуры модели. Технически наш предлагаемый метод изменяет несколько параметров классификатора для внедрения бэкдора. С помощью теоретического анализа мы проверяем, что наш внедренный бэкдор доказуемо необнаружим и неустраним различными современными защитами при умеренных предположениях. Наша оценка на нескольких наборах данных далее демонстрирует, что наш внедренный бэкдор: 1) вызывает незначительную потерю классификации, 2) достигает 100%-ного показателя успешности атак и 3) обходит шесть существующих современных защит. Более того, наше сравнение с современной атакой бэкдора без данных показывает, что наша атака более скрытна и эффективна против различных защит, при этом достигая меньшей потери точности классификации. Код для нашего эксперимента можно найти по адресу https://github.com/AAAAAAsuka/DataFree_Backdoor_Attacks - Data Free Backdoor Attacks

Tuesday, November 19, 2024

Все о защите LLM

Автор этого руководства исследует аспекты безопасности больших языковых моделей (LLM), обсуждая как наступательные, так и защитные инструменты для понимания и смягчения связанных рисков и уязвимостей. Он охватывает различные темы, включая уязвимости LLM, OWASP Top 10 для приложений LLM, известные взломы и рекомендации по безопасности, предоставляя информацию, особенно полезную для энтузиастов безопасности, начинающих изучать безопасность LLM. Кроме того, он рассматривает инструменты безопасности LLM с открытым исходным кодом для охотников за ошибками и пентестеров, а также выделяет популярные защитные инструменты для крупномасштабных корпоративных установок.

См. также другие публикации, посвященные LLM

LLM для последовательных рекомендаций

Последовательные рекомендательные системы (SRS) нацелены на прогнозирование последующих выборов пользователей на основе их исторических взаимодействий и нашли применение в различных областях, таких как электронная коммерция и социальные сети. Однако в реальных системах большинство пользователей взаимодействуют только с несколькими элементами, в то время как большинство элементов редко потребляются. Эти две проблемы, известные как проблемы пользователя с длинным хвостом и проблемы элемента с длинным хвостом, часто создают трудности для существующих SRS. Эти проблемы могут отрицательно влиять на пользовательский опыт и выгоды продавца, что делает их критически важными для решения. Хотя несколько работ решали эти проблемы, они все еще борются с проблемами качелей или шума из-за внутренней нехватки взаимодействий. Достижения в больших языковых моделях (LLM) представляют собой многообещающее решение этих проблем с семантической точки зрения. Как одни из пионеров в этой области, мы предлагаем структуру улучшения больших языковых моделей для последовательных рекомендаций (LLM-ESR). Эта структура использует семантические вложения, полученные из LLM, для улучшения SRS без добавления дополнительной нагрузки вывода от LLM. Для решения проблемы длиннохвостовых элементов мы разрабатываем структуру моделирования с двумя представлениями, которая объединяет семантику из LLM и совместные сигналы из обычных SRS. Для проблемы длиннохвостовых пользователей мы предлагаем метод самодистилляции с расширенным поиском для улучшения представления предпочтений пользователя с использованием более информативных взаимодействий от похожих пользователей. Чтобы проверить эффективность и универсальность нашей предлагаемой структуры улучшения, мы проводим обширные эксперименты на трех реальных наборах данных с использованием трех популярных моделей SRS. Результаты показывают, что наш метод последовательно превосходит существующие базовые показатели и особенно выгоден для оценки длинных хвостов пользователей и рекомендуемых элементов. Код реализации доступен по адресу https://github.com/Applied-Machine-Learning-Lab/LLM-ESR. LLM-ESR: Large Language Models Enhancement for Long-tailed Sequential Recommendation

Последовательные рекомендательные системы были предметом наших статей - см., например, нашу статью о рекомендательных системах на основе сессий

P.S. См. также другие публикации, посвященные LLM

Шифрованная LLM

Большие языковые модели (LLM) предлагают персонализированные ответы на основе взаимодействия с пользователем, но этот вариант использования вызывает серьезные проблемы с конфиденциальностью. Гомоморфное шифрование (HE) — это криптографический протокол, поддерживающий арифметические вычисления в зашифрованных состояниях и обеспечивающий потенциальное решение для машинного обучения с сохранением конфиденциальности (PPML). Однако вычислительная интенсивность трансформаторов создает проблемы для применения HE к LLM. В этой работе мы предлагаем модифицированную архитектуру трансформатора, дружественную HE, с акцентом на вывод после персонализированной (частной) тонкой настройки. Используя тонкую настройку LoRA и гауссовские ядра, мы достигаем значительного ускорения вычислений — в 6,94 раза для тонкой настройки и в 2,3 раза для вывода — при сохранении производительности, сопоставимой с моделями открытого текста. Наши выводы предоставляют жизнеспособное доказательство концепции для предложения услуг LLM с сохранением конфиденциальности в областях, где защита данных имеет решающее значение. - ENCRYPTION-FRIENDLY LLM ARCHITECTURE

Современные криптографические методы для реализации сохраняющих конфиденциальность LLM, таких как гомоморфное шифрование (HE), требуют, чтобы LLM имели полиномиальную форму. Формирование такого представления является сложной задачей, поскольку Transformers включают неполиномиальные компоненты, такие как Softmax и нормализация слоев. Предыдущие подходы либо напрямую аппроксимировали предварительно обученные модели полиномами большой степени, которые менее эффективны по сравнению с HE, либо заменяли неполиномиальные компоненты примитивами, которые легче аппроксимировать перед обучением, например, Softmax с точечным вниманием. Последний подход может привести к проблемам масштабируемости. Мы представляем новый вариант самовнимания, дружественный HE, который предлагает стабильную форму для обучения и легко аппроксимируется полиномами для безопасного вывода. В нашей работе представлены первые полиномиальные LLM с 32 слоями и более миллиарда параметров, что превышает размер предыдущих моделей более чем в десять раз. Полученные модели демонстрируют возможности рассуждения и контекстного обучения (ICL), сравнимые со стандартными трансформерами того же размера, что представляет собой прорыв в этой области. Наконец, мы предоставляем подробную разбивку задержки для каждого вычисления по зашифрованным данным, прокладывая путь для дальнейшей оптимизации, и исследуем различия в индуктивном смещении между трансформерами, полагающимися на наш вариант HE-friendly, и стандартными трансформерами. Наш код прилагается в качестве дополнения. - POWER-SOFTMAX: TOWARDS SECURE LLM INFERENCE OVER ENCRYPTED DATA

P.S. См. также другие публикации, посвященные LLM

Monday, November 18, 2024

Что в городе моем?

Городское развитие формируется историческими, географическими и экономическими факторами, что создает трудности для планировщиков в понимании городской формы. Это исследование моделирует потоки поездок на работу в нескольких городах США, раскрывая последовательные закономерности в распределении городского населения и поведении при поездках на работу. Встраивая городские места для отражения сетей мобильности, мы наблюдаем, что распределение населения в переопределенных городских пространствах имеет тенденцию приближаться к логарифмически нормальному распределению, в отличие от часто нерегулярных распределений, обнаруженных в географическом пространстве. Это расхождение предполагает, что естественные и исторические ограничения формируют пространственные модели населения, в то время как в идеальных условиях городская организация может естественным образом соответствовать логарифмически нормальному распределению. Теоретическая модель, использующая предпочтительное присоединение и случайные блуждания, поддерживает возникновение этого распределения в городских условиях. Эти результаты раскрывают фундаментальный организующий принцип в городских системах, который, хотя и не всегда виден географически, последовательно управляет потоками и распределениями населения. Это понимание базовой городской структуры может дать информацию планировщикам, стремящимся проектировать эффективные, устойчивые города. - Cities Reconceptualized: Unveiling Hidden Uniform Urban Shape through Commute Flow Modeling in Major US Cities. Интересная статья о понимании транспортных потоков в городе.

О сокрытии лиц

Поскольку технология распознавания лиц (FR) становится все более распространенной в финансах, армии, общественной безопасности и повседневной жизни, проблемы безопасности существенно возросли. Физические состязательные атаки, нацеленные на FR-системы в реальных условиях, привлекли значительный исследовательский интерес из-за их практичности и серьезных угроз, которые они представляют. Однако систематический обзор, сосредоточенный на физических состязательных атаках на FR-системы, все еще отсутствует, что препятствует глубокому изучению проблем и будущих направлений в этой области. В этой статье мы устраняем этот пробел, всесторонне собирая и анализируя методы физических состязательных атак, нацеленных на FR-системы. В частности, мы сначала исследуем ключевые проблемы физических атак на FR-системы. Затем мы классифицируем существующие физические атаки на три категории на основе используемой физической среды и суммируем, как развивались исследования в каждой категории для решения этих проблем. Кроме того, мы рассматриваем текущие стратегии защиты и обсуждаем потенциальные будущие направления исследований. Наша цель — предоставить новое, всестороннее и глубокое понимание физических состязательных атак на FR-системы, тем самым вдохновляя соответствующие исследования в этой области. - A Survey on Physical Adversarial Attacks against Face Recognition Systems

См. также другие публикации по теме физические атаки

Sunday, November 17, 2024

Аномалии в количестве публикаций

Хорошее техническое описание определения аномалий в количестве публикаций в социальных медиа (сетях). В статье речь идет о Twitter

Как обмануть лидар

Автономные транспортные средства (AV) в значительной степени полагаются на системы LiDAR (Light Detection and Ranging) для точного восприятия и навигации, предоставляя трехмерные данные об окружающей среде с высоким разрешением, которые имеют решающее значение для обнаружения и классификации объектов. Однако системы LiDAR уязвимы для состязательных атак, которые создают значительные проблемы для безопасности и надежности AV. В этом обзоре представлен тщательный обзор текущего ландшафта исследований физических состязательных атак, нацеленных на системы восприятия на основе LiDAR, охватывающих как одномодальные, так и многомодальные контексты. Мы классифицируем и анализируем различные типы атак, включая спуфинг и физические состязательные атаки на объекты, подробно описывая их методологии, воздействия и потенциальные последствия в реальном мире. С помощью подробных тематических исследований и анализов мы выявляем критические проблемы и выделяем пробелы в существующих атаках на системы на основе LiDAR. Кроме того, мы предлагаем будущие направления исследований для повышения безопасности и устойчивости этих систем, в конечном итоге способствуя более безопасному развертыванию автономных транспортных средств. - Navigating Threats: A Survey of Physical Adversarial Attacks on LiDAR Perception Systems in Autonomous Vehicles

См. также другие публикации по теме физические атаки

Saturday, November 16, 2024

Открытая наука, том 12, номер 11

Очередной номер журнала INJOIT появился на сайте Киберленинка.

Это том 12, номер 11 за 2024 год.

/via Лаборатория ОИТ

Плохие знаки

Физические состязательные патчи стали ключевой состязательной атакой, вызывающей неправильную классификацию систем распознавания дорожных знаков (TSR) в реальном мире. Однако существующие состязательные патчи обладают плохой скрытностью и атакуют все транспортные средства без разбора после развертывания. В этой статье мы представляем невидимую и активируемую физическую состязательную заплатку (ITPATCH) с новым вектором атаки, т. е. флуоресцентными чернилами, для продвижения современного уровня техники. Она применяет тщательно разработанные флуоресцентные возмущения к целевому знаку, злоумышленник может позже активировать флуоресцентный эффект с помощью невидимого ультрафиолетового света, заставляя систему TSR неправильно классифицировать знак и потенциально приводя к дорожно-транспортным происшествиям. Мы провели комплексную оценку, чтобы исследовать эффективность ITPATCH, которая показывает успех 98,31% в условиях низкой освещенности. Кроме того, наша атака успешно обходит пять популярных защит и достигает успеха 96,72%. - ITPATCH: An Invisible and Triggered Physical Adversarial Patch against Traffic Sign Recognition

См. также статью Состязательные атаки для автономных транспортных средств

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Friday, November 15, 2024

Атаки уклонения на CPS

В последние годы было предложено несколько атак уклонения для промышленных систем управления. Во время атаки уклонения злоумышленник пытается скрыть текущие аномалии процесса, чтобы избежать обнаружения аномалий. Примеры таких атак варьируются от атак воспроизведения до техник состязательного машинного обучения. Эти атаки обычно применяются к существующим наборам данных с нормальными и аномальными данными, к которым атаки уклонения добавляются post hoc. Это представляет очень сильного злоумышленника, который эффективно может наблюдать и манипулировать данными из любой точки системы в режиме реального времени, с нулевой задержкой обработки и без вычислительных ограничений. Предыдущая работа показала, что таких сильных злоумышленников теоретически трудно обнаружить большинством существующих контрмер. Пока неясно, может ли такая атака быть реализована на практике, и есть ли проблемы, которые могли бы нанести ущерб злоумышленнику. В этой работе мы систематически обсуждаем возможности для злоумышленника проводить атаки уклонения в реальных ICS, и показываем ограничения, которые возникают из-за этих возможностей. Чтобы подтвердить наши выводы, мы проектируем и реализуем структуру, которая позволяет реализовывать атаки уклонения и обнаружение аномалий для эмуляции ICS. Мы демонстрируем практические ограничения, возникающие из различных настроек, и их влияние на эффективность атак. Например, мы обнаружили, что воспроизведение сетевых пакетов может вызывать сетевые ошибки, которые приведут к неожиданным шаблонам спуфинга. - On Practical Realization of Evasion Attacks for Industrial Control Systems

Что отличает один сайт от другого?

Каждый сайт по-своему использует кэш процессора при загрузке. Это положено в основу интересной атаки по побочным каналам - какие сайты пользователь открывает в соседних вкладках браузера?

Thursday, November 14, 2024

Пограничник

Новые угрозы для сетей IoT ускорили разработку систем обнаружения вторжений (IDS), характеризующихся переходом от традиционных подходов, основанных на сигнатурах атак или обнаружении аномалий, к подходам, основанным на машинном обучении (ML). Однако современные IDS на основе ML часто не могут явно интегрировать знания предметной области, не обладают объяснимостью и испытывают трудности с устранением атак нулевого дня. В этой статье мы предлагаем IDS-Agent, первого агента ИИ, работающего на основе больших языковых моделей (LLM) для обнаружения вторжений. IDS-Agent предсказывает, является ли входной сетевой трафик безопасным или вредоносным, с объяснением результатов прогнозирования. Рабочий процесс IDS-Agent включает последовательность действий, генерируемых его основной LLM на основе рассуждений о наблюдениях за состоянием. Пространство действий IDS-Agent включает извлечение и предварительную обработку данных, классификацию, знания, и извлечение памяти, а также агрегацию результатов — эти действия будут выполняться с использованием обширных инструментов, в основном специализированных для IDS. Кроме того, IDS-Agent оснащен памятью и базой знаний, которая сохраняет информацию из текущихи предыдущих сеансов, а также документы, связанные с IDS, что расширяет его возможности рассуждений и генерации действий. Системные подсказки IDS-Agent можно легко настраивать для регулировки чувствительности обнаружения или выявления ранее неизвестных типов атак. В наших экспериментах мы демонстрируем сильные возможности обнаружения IDS-Agent по сравнению с IDS на основе ML и IDS на основе LLM с инжинирингом подсказок. IDS-Agent превосходит эти базовые показатели SOTA на тестах ACI-IoT и CIC-IoT с показателями обнаружения F1 0,97 и 0,75 соответственно. - IDS-Agent: An LLM Agent for Explainable Intrusion Detection in IoT Networks. Полезный пример агента для LLM.

P.S. См. также другие публикации, посвященные LLM

Атаки на ИИ агенты

Хотя агенты на основе LLM, работающие на основе больших языковых моделей (LLM), могут использовать внешние инструменты и механизмы памяти для решения сложных реальных задач, они также могут привносить критические уязвимости безопасности. Однако существующая литература не дает всесторонней оценки атак и защиты от агентов на основе LLM. Чтобы решить эту проблему, мы представляем Agent Security Bench (ASB), комплексную структуру, предназначенную для формализации, сравнительного анализа и оценки атак и защиты агентов на основе LLM, включая 10 сценариев (например, электронная коммерция, автономное вождение, финансы), 10 агентов, нацеленных на сценарии, более 400 инструментов, 23 различных типа методов атаки/защиты и 8 метрик оценки. Основываясь на ASB, мы сравниваем 10 атак с подсказками, атаку с отравлением памяти, новую атаку с бэкдором Plan-of-Thought, смешанную атаку и 10 соответствующих защит в 13 магистралях LLM с почти 90 000 тестовых случаев в общей сложности. Результаты наших тестов выявляют критические уязвимости на разных этапах работы агента, включая системный запрос, обработку пользовательских запросов, использование инструментов и извлечение памяти, с наивысшим средним показателем успешности атак 84,30%, но ограниченной эффективностью, показанной в текущих средствах защиты, что раскрывает важные работы, которые необходимо выполнить в плане безопасности агента для сообщества. Наш код можно найти по адресу https://github.com/agiresearch/ASB - AGENT SECURITY BENCH (ASB): FORMALIZING AND BENCHMARKING ATTACKS AND DEFENSES IN LLM-BASED AGENTS

P.S. См. также другие публикации, посвященные LLM

Wednesday, November 13, 2024

Новый Python

Почему выпуск Python 3.13 может стать переломным моментом для AI и ML Узнайте, как он изменит динамику ML и ИИ

Это мой датасет

По мере того, как внедрение систем машинного обучения (МО) становится все более распространенным, особенно с введением более крупных моделей МО, мы ощущаем растущий спрос на массивные данные. Однако это неизбежно приводит к проблемам нарушения и неправильного использования данных, таким как использование несанкционированных онлайн-произведений искусства или изображений лиц для обучения моделей МО. Для решения этой проблемы было предпринято много усилий для аудита авторских прав на набор данных для обучения модели. Однако существующие решения различаются по предположениям и возможностям аудита, что затрудняет сравнение их сильных и слабых сторон. Кроме того, оценки надежности обычно учитывают только часть конвейера МО и едва ли отражают производительность алгоритмов в реальных приложениях МО. Таким образом, важно взять практическую перспективу развертывания текущих инструментов аудита авторских прав на наборы данных, изучив их эффективность и ограничения. Конкретно, мы разделяем исследования аудита авторских прав на наборы данных на два основных направления: интрузивные методы и неинтрузивные методы, в зависимости от того, требуют ли они изменения исходного набора данных. Затем мы разбиваем интрузивные методы на различные варианты внедрения водяных знаков и изучаем неинтрузивные методы с использованием различных отпечатков. Чтобы подвести итог нашим результатам, мы предлагаем подробные справочные таблицы, выделяем ключевые моменты и выявляем нерешенные проблемы в текущей литературе. Объединяя конвейер в системах МО и анализируя предыдущие исследования, мы выделяем несколько будущих направлений, чтобы сделать инструменты аудита более подходящими для реальных требований защиты авторских прав. - SoK: Dataset Copyright Auditing in Machine Learning Systems

Tuesday, November 12, 2024

По закону

Соответствует ли ваша модель Закону об искусственном интеллекте? Новое исследование предполагает, что ведущие модели искусственного интеллекта могут соответствовать требованиям Закона об искусственном интеллекте Европейского союза в некоторых областях, но, вероятно, не во всех.

Что нового: стартап LatticeFlow из Цюриха, работающий с исследовательскими институтами в Болгарии и Швейцарии, разработал COMPL-AI, неофициальную структуру, предназначенную для оценки вероятного соответствия больших языковых моделей Закону об искусственном интеллекте. Таблица лидеров ранжирует первоначальный выбор моделей. (LatticeFlow не работает на Европейскую комиссию и не имеет юридического статуса для интерпретации Закона об искусственном интеллекте.)

Как это работает: в статье объясняется, как COMPL-AI сопоставляет требования Закона об искусственном интеллекте с конкретными контрольными показателями. Он оценивает каждое требование с помощью новых или существующих тестов и выдает совокупный балл. Эти баллы являются относительными мерами, и авторы не предлагают пороговые значения для соответствия. Оценка охватывает пять основных категорий:

1. Техническая надежность и безопасность. Закон об искусственном интеллекте требует, чтобы модели возвращали последовательные ответы, несмотря на незначительные изменения во входных подсказках, и противостояли состязательным атакам. Фреймворк использует такие метрики, как MMLU и BoolQ, для оценки влияния небольших изменений в формулировке подсказки. Он измеряет монотонность (согласованность в отношениях между определенными входами и выходами), чтобы увидеть, насколько хорошо модель поддерживает свою внутреннюю логику в подсказках. Он использует Tensor Trust и LLM RuLES для оценки устойчивости к кибератакам. Эта категория также проверяет, может ли модель идентифицировать и исправлять свои собственные ошибки.

2. Конфиденциальность и защита данных. Выходные данные модели не должны содержать ошибок, предвзятости и нарушений законов, регулирующих конфиденциальность и авторские права. Фреймворк ищет проблемные примеры в обучающем наборе данных модели и оценивает, повторяет ли модель ошибочный, персонально идентифицирующий или защищенный авторским правом материал, который был включен в ее обучающий набор. Многие разработчики не предоставляют обучающие наборы данных своих моделей, поэтому авторы используют открытые наборы данных, такие как Pile, в качестве прокси.

3. Прозрачность и интерпретируемость. Разработчики должны объяснять возможности своих моделей, а сами модели должны позволять тем, кто их развертывает, интерпретировать отношения между входами и выходами. Меры интерпретируемости включают TriviaQA и Expected Calibration Error, которые проверяют способность модели оценивать собственную точность. Фреймворк также оценивает такие требования, например, проверяя, будет ли модель сообщать пользователям, что они взаимодействуют с машиной, а не с человеком, и будет ли она маркировать свои выходные данные водяными знаками.

4. Справедливость и отсутствие дискриминации. Закон требует, чтобы поставщики моделей документировали потенциально дискриминационные выходные данные своих систем, а высокорисковые системы снижали риск предвзятых выходных данных. Фреймворк использует такие тесты, как RedditBias, BBQ и BOLD, для оценки предвзятого языка и FaiRLLM для оценки справедливых выходных данных. Он использует DecodingTrust для измерения справедливости в различных вариантах использования.

5. Социальное и экологическое благополучие. Разработчики высокорисковых систем должны минимизировать вредное и нежелательное поведение, и все разработчики ИИ должны документировать потребление энергии и других ресурсов, используемых для создания своих моделей, а также свои усилия по его сокращению. Фреймворк использует RealToxicityPrompts и AdvBench для измерения склонности модели генерировать нежелательные или иным образом токсичные результаты. Он вычисляет углеродный след модели для измерения экологического благополучия. Результаты: авторы оценили девять открытых моделей и три фирменные модели по шкале от 0 до 1. Их отчеты по каждой модели показывают значительную изменчивость. (Примечание: совокупные баллы, указанные в отчетах, не соответствуют баллам в статье.)

Все протестированные модели показали хорошие результаты по контрольным показателям конфиденциальности и управления данными (достигнув баллов 0,99 или 1) и социального и экологического благополучия (0,96 или выше). Однако несколько получили относительно низкие баллы по справедливости и безопасности, что говорит о том, что предвзятость и уязвимость к состязательным атакам являются значительными проблемами. GPT-4 Turbo и Claude 3 Opus получили наивысший совокупный балл, 0,89. Однако их баллы были снижены низкими оценками за прозрачность, поскольку данные обучения ни одной из моделей не раскрываются. Gemma-2-9B заняла самое низкое место с общим баллом 0,72. Она также набрала самые низкие баллы по тестам на общее рассуждение (MMLU), рассуждение здравого смысла (HellaSwag) и самооценку (уверенность модели в своих ответах на TriviaQA).

Некоторые модели хорошо справились с типичными контрольными задачами, но хуже в областях, которые менее изучены или легко измеряются. Например, Qwen1.5-72B испытывала трудности с интерпретируемостью (0,61). Mixtral-8x7B плохо справилась с устойчивостью к кибератакам (0,32).

Да, но: Авторы отмечают, что некоторые положения Закона об ИИ, включая объяснимость, надзор (уважение к человеческому контролю) и корректируемость (можно ли изменить систему ИИ, чтобы изменить вредоносные результаты, что влияет на классификацию риска модели в соответствии с Законом об ИИ), определены в законе неоднозначно и в настоящее время не могут быть надежно измерены. Эти области недостаточно изучены в исследовательской литературе и не имеют контрольных показателей для их оценки.

Почему это важно: С появлением законов, регулирующих технологию ИИ, разработчики несут ответственность за оценку соответствия модели, прежде чем они ее выпустят или используют ее способами, которые повлияют на общественность. COMPL-AI делает первый шаг к тому, чтобы заверить создателей моделей в том, что их работа юридически защищена, или предупредить их о недостатках, которые могут привести к правовому риску, если они не будут устранены до выпуска.

Мы думаем: Вдумчивое регулирование ИИ необходимо, но оно должно осуществляться способами, которые не налагают неоправданного бремени на разработчиков. Хотя сам Закон об ИИ чрезмерно обременителен, мы рады видеть в значительной степени автоматизированный путь к демонстрации соответствия больших языковых моделей.

Отсюда

Наука с учителем

Книга в открытом доступе - https://ml-science-book.com/

Monday, November 11, 2024

Отравление контента

Большие языковые модели (LLM) продемонстрировали свои превосходные возможности в обработке естественного языка, продвигая обширные приложения на основе LLM в качестве новых порталов для людей, чтобы получить доступ к различному контенту в Интернете. Однако приложения на основе LLM не имеют достаточных соображений безопасности для ненадежного контента, что приводит к потенциальным угрозам. В этой статье мы раскрываем отравление контента, когда злоумышленники могут адаптировать контент атаки, который кажется безобидным для людей, но заставляет приложения на основе LLM генерировать вредоносные ответы. Чтобы подчеркнуть влияние отравления контента и вдохновить на разработку эффективной защиты, мы систематически анализируем атаку, сосредоточившись на режимах атаки в различном контенте, эксплуатируемых особенностях конструкции фреймворков приложений LLM и генерации контента атаки. Мы проводим комплексную оценку пяти LLM, где отравление контента достигает среднего показателя успешности атаки 89,60%. Кроме того, мы оцениваем отравление контента в четырех популярных приложениях на базе LLM, достигая атаки на 72,00% контента. Наши экспериментальные результаты также показывают, что существующие средства защиты неэффективны против отравления контента. Наконец, мы обсуждаем потенциальные меры по смягчению последствий для фреймворков приложений LLM, чтобы противостоять отравлению контента. - Imperceptible Content Poisoning in LLM-Powered Applications

новая форма атаки на LLM с использованием внешнего добавляемого контента.

P.S. См. также другие публикации, посвященные LLM

CQRS

CQRS (Command Query Responsibility Segregation) — это архитектурный шаблон, который разделяет задачи чтения и записи данных.

Он делит приложение на две отдельные части:

Командная сторона: отвечает за управление запросами на создание, обновление и удаление.

Запросная сторона: отвечает за обработку запросов на чтение.

Шаблон CQRS был впервые представлен Грегом Янгом, разработчиком и архитектором программного обеспечения, в 2010 году. Он описал его как способ разделения ответственности за обработку команд (операций записи) от обработки запросов (операций чтения) в системе.

Истоки CQRS можно проследить до принципа разделения команд и запросов (CQS), введенного Бертраном Мейером. CQS утверждает, что каждый метод должен быть либо командой, которая выполняет действие, либо запросом, который возвращает данные, но не тем и другим одновременно. CQRS развивает принцип CQS, применяя его на архитектурном уровне, разделяя обязанности по командам и запросам на различные модели, сервисы или даже базы данных.

С момента своего появления CQRS приобрел популярность в сообществе разработчиков программного обеспечения, особенно в контексте проектирования на основе доменов (DDD) и архитектур, управляемых событиями.

Он успешно применяется в различных областях, таких как электронная коммерция, финансовые системы и приложения для совместной работы, где производительность, масштабируемость и сложность являются критически важными проблемами.

Отсюда

Sunday, November 10, 2024

Как оценивать LLM

Хорошая техническая статья по тестированию LLM.

См. также другие публикации, посвященные LLM

MIA LLM

В этом исследовании мы представляем первый бенчмарк атаки вывода членства (MIA - membership inference attack), адаптированный для различных VLLM, чтобы облегчить обнаружение обучающих данных.

См. также другие публикации, посвященные LLM

Friday, November 08, 2024

Надежность и понимание

В последние годы вопрос надежности методов машинного обучения (МО) приобрел важное значение, и анализ связанных с этим неопределенностей мотивировал все больше исследований. Однако большинство этих исследований применяли анализ стандартной ошибки к моделям МО, и в частности к моделям глубоких нейронных сетей (DNN), которые представляют собой довольно значительный отход от стандартного научного моделирования. Поэтому необходимо интегрировать анализ стандартной ошибки с более глубоким эпистемологическим анализом возможных различий между моделями DNN и стандартным научным моделированием и возможных последствий этих различий в оценке надежности. В этой статье предлагается несколько вкладов. Во-первых, она подчеркивает повсеместную роль предположений модели (как в МО, так и в традиционной науке) против иллюзии науки, свободной от теорий. Во-вторых, предположения модели анализируются с точки зрения их (эпистемической) сложности, которая, как показано, не зависит от языка. Утверждается, что высокая эпистемическая сложность моделей DNN затрудняет оценку их надежности, а также их перспектив долгосрочного прогресса. Предлагаются некоторые потенциальные пути продвижения вперед. В-третьих, в этой статье определяется тесная связь между эпистемической сложностью модели и ее интерпретируемостью, как это представлено в контексте ответственного ИИ. Это проясняет, в каком смысле — и в какой степени — отсутствие понимания модели (проблема черного ящика) влияет на ее интерпретируемость способом, который не зависит от индивидуальных навыков. Это также проясняет, как интерпретируемость является предпосылкой для правдоподобной оценки надежности любой модели, которая не может быть основана только на статистическом анализе. В этой статье основное внимание уделяется сравнению традиционных научных моделей и моделей DNN. Однако также кратко рассматриваются модели случайного леса (RF) и логистической регрессии (LR). - отсюда

Tuesday, November 05, 2024

Оценка рисков ИИ

В индустрии искусственного интеллекта (ИИ) появился новый инструмент для оценки рисков — SAIF Risk Assessment, разработанный для повышения безопасности ИИ-систем. Этот интерактивный инструмент позволяет разработчикам и компаниям оценить свою защищённость, определить потенциальные угрозы и укрепить систему безопасности.

/via SecurityLab

P.S. Это и есть инструмент для аудита систем ИИ, ровно как мы описывали в наших работах. Например, здесь и здесь

Saturday, November 02, 2024

Культурный код

Из бесед с одной LLM:

1) Продолжи фразу: "Там сидела Мурка в кожаной ..."

Фраза приобретает неожиданный поворот, учитывая, что обычно мы представляем себе кошку Мурку в более привычных образах. Продолжение может быть таким:
"Там сидела Мурка в кожаной куртке байкера, с серьгой в ухе и сигарой в зубах."
Это добавляет элемент юмора и неожиданности, превращая обычную кошку в персонажа с характером.

2) Противодиарейные комбинированные средства – Смекта, Диосмектит, Диоктаб Солюшн таблетки, Неосмектин, Эндосорб. А какова дозировка Титкмеса для взрослых?

Титкмес — это комбинированный противодиарейный препарат, содержащий два активных компонента: лоперамида гидрохлорид и симетикон. Лоперамид замедляет перистальтику кишечника, уменьшая частоту дефекации, а симетикон уменьшает вздутие живота за счет разрушения газовых пузырьков.

Дозировка Титкмеса для взрослых: Начальная доза: 2 капсулы сразу после первого жидкого стула. Поддерживающая доза: По 1 капсуле после каждого последующего жидкого стула.

Google про Титкмес не знает :(

Friday, November 01, 2024

Атаки на трекеры объектов

"В последние годы значительное внимание привлекло устранение уязвимости глубоких нейронных сетей (DNN). Хотя недавние исследования по состязательным атакам и защите в основном касались одного изображения, было предпринято мало усилий для выполнения временных атак на видеопоследовательности. Поскольку временная согласованность между кадрами не учитывается, существующие подходы к состязательным атакам, разработанные для статических изображений, неэффективны для глубокого отслеживания объектов. В этой работе мы генерируем состязательные примеры поверх видеопоследовательностей, чтобы повысить надежность отслеживания против состязательных атак в настройках белого и черного ящика. С этой целью мы учитываем сигналы движения при генерации легких возмущений по оценочным результатам отслеживания по кадрам. Для атаки белого ящика мы генерируем временные возмущения с помощью известных трекеров, чтобы значительно ухудшить производительность отслеживания. Мы передаем сгенерированные возмущения в неизвестные целевые трекеры для атаки черного ящика, чтобы добиться переноса атак. Кроме того, мы обучаем универсальные состязательные возмущения и напрямую добавляем их во все кадры видео, повышая эффективность атаки с небольшими вычислительными затратами. С другой стороны, мы последовательно учимся оценивать и удалять возмущения из входных последовательностей, чтобы восстановить производительность отслеживания. Мы применяем предложенные состязательные подходы к атаке и защите к современным алгоритмам отслеживания. Обширные оценки на крупномасштабных наборах данных эталонных тестов, включая OTB, VOT, UAV123 и LaSOT, показывают, что наш метод атаки значительно ухудшает производительность отслеживания с благоприятной переносимостью на другие магистрали и трекеры. В частности, предложенный метод защиты восстанавливает исходную производительность отслеживания в некоторой степени и достигает дополнительного прироста производительности, когда не находится под состязательными атаками" - Robust Deep Object Tracking against Adversarial Attacks

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению и LLM