Sunday, November 24, 2024

Диффузионное отравление

Хотя современные модели диффузии (DM) превосходны в генерации изображений, проблемы, связанные с их безопасностью, сохраняются. Более ранние исследования выявили уязвимость DM к атакам отравления данных, но эти исследования предъявляли более строгие требования, чем обычные методы, такие как «BadNets» в классификации изображений. Это связано с тем, что искусство требует изменений в процедурах обучения и выборки диффузии. В отличие от предыдущей работы, мы исследуем, могут ли методы отравления данных, подобные BadNets, напрямую ухудшить генерацию DM. Другими словами, если только набор данных для обучения загрязнен (без манипулирования процессом диффузии), как это повлияет на производительность обученных DM? В этой обстановке мы раскрываем двусторонние эффекты отравления данных, которые не только служат состязательной цели (ставя под угрозу функциональность DM), но и обеспечивают оборонительное преимущество (которое можно использовать для защиты в задачах классификации от атак отравления). Мы показываем, что атака отравления данных, подобная BadNets, остается эффективной в DM для создания неверных изображений (несоответствующих предполагаемым текстовым условиям). Между тем, отравленные DM демонстрируют повышенное соотношение триггеров, явление, которое мы называем «усиление триггера», среди сгенерированных изображений. Это понимание может быть затем использовано для улучшения обнаружения отравленных обучающих данных. Кроме того, даже при низком соотношении отравления изучение эффектов отравления DM также ценно для разработки надежных классификаторов изображений против таких атак. И последнее, но не менее важное: мы устанавливаем значимую связь между отравлением данных и явлением репликации данных, исследуя присущие DM тенденции запоминания данных. Код доступен по адресу https://github.com/OPTML-Group/BiBadDiff. Отсюда - From Trojan Horses to Castle Walls: Unveiling Bilateral Data Poisoning Effects in Diffusion Models

См. также публикацию Диффузионные трояны

P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Регуляции ИИ

Глобальный Атлас регулировании ИИ - ссылка для скачивания

Thursday, November 21, 2024

Как тестировать LLM?

Пример метрик и интерфейсов при тестировании LLM

Бэкдор прямой инъекцией

Целью атак бэкдора является внедрение бэкдора в классификатор таким образом, чтобы он предсказывал любые входные данные с выбранным атакующим триггером бэкдора в качестве выбранного атакующим целевого класса. Существующие атаки бэкдора требуют либо переобучения классификатора с некоторыми чистыми данными, либо изменения архитектуры модели. В результате они 1) неприменимы, когда чистые данные недоступны, 2) менее эффективны, когда модель большая, и 3) менее скрытны из-за изменений архитектуры. В этой работе мы предлагаем DFBA, новую атаку бэкдора без переобучения и данных без изменения архитектуры модели. Технически наш предлагаемый метод изменяет несколько параметров классификатора для внедрения бэкдора. С помощью теоретического анализа мы проверяем, что наш внедренный бэкдор доказуемо необнаружим и неустраним различными современными защитами при умеренных предположениях. Наша оценка на нескольких наборах данных далее демонстрирует, что наш внедренный бэкдор: 1) вызывает незначительную потерю классификации, 2) достигает 100%-ного показателя успешности атак и 3) обходит шесть существующих современных защит. Более того, наше сравнение с современной атакой бэкдора без данных показывает, что наша атака более скрытна и эффективна против различных защит, при этом достигая меньшей потери точности классификации. Код для нашего эксперимента можно найти по адресу https://github.com/AAAAAAsuka/DataFree_Backdoor_Attacks - Data Free Backdoor Attacks

Tuesday, November 19, 2024

Все о защите LLM

Автор этого руководства исследует аспекты безопасности больших языковых моделей (LLM), обсуждая как наступательные, так и защитные инструменты для понимания и смягчения связанных рисков и уязвимостей. Он охватывает различные темы, включая уязвимости LLM, OWASP Top 10 для приложений LLM, известные взломы и рекомендации по безопасности, предоставляя информацию, особенно полезную для энтузиастов безопасности, начинающих изучать безопасность LLM. Кроме того, он рассматривает инструменты безопасности LLM с открытым исходным кодом для охотников за ошибками и пентестеров, а также выделяет популярные защитные инструменты для крупномасштабных корпоративных установок.

См. также другие публикации, посвященные LLM

LLM для последовательных рекомендаций

Последовательные рекомендательные системы (SRS) нацелены на прогнозирование последующих выборов пользователей на основе их исторических взаимодействий и нашли применение в различных областях, таких как электронная коммерция и социальные сети. Однако в реальных системах большинство пользователей взаимодействуют только с несколькими элементами, в то время как большинство элементов редко потребляются. Эти две проблемы, известные как проблемы пользователя с длинным хвостом и проблемы элемента с длинным хвостом, часто создают трудности для существующих SRS. Эти проблемы могут отрицательно влиять на пользовательский опыт и выгоды продавца, что делает их критически важными для решения. Хотя несколько работ решали эти проблемы, они все еще борются с проблемами качелей или шума из-за внутренней нехватки взаимодействий. Достижения в больших языковых моделях (LLM) представляют собой многообещающее решение этих проблем с семантической точки зрения. Как одни из пионеров в этой области, мы предлагаем структуру улучшения больших языковых моделей для последовательных рекомендаций (LLM-ESR). Эта структура использует семантические вложения, полученные из LLM, для улучшения SRS без добавления дополнительной нагрузки вывода от LLM. Для решения проблемы длиннохвостовых элементов мы разрабатываем структуру моделирования с двумя представлениями, которая объединяет семантику из LLM и совместные сигналы из обычных SRS. Для проблемы длиннохвостовых пользователей мы предлагаем метод самодистилляции с расширенным поиском для улучшения представления предпочтений пользователя с использованием более информативных взаимодействий от похожих пользователей. Чтобы проверить эффективность и универсальность нашей предлагаемой структуры улучшения, мы проводим обширные эксперименты на трех реальных наборах данных с использованием трех популярных моделей SRS. Результаты показывают, что наш метод последовательно превосходит существующие базовые показатели и особенно выгоден для оценки длинных хвостов пользователей и рекомендуемых элементов. Код реализации доступен по адресу https://github.com/Applied-Machine-Learning-Lab/LLM-ESR. LLM-ESR: Large Language Models Enhancement for Long-tailed Sequential Recommendation

Последовательные рекомендательные системы были предметом наших статей - см., например, нашу статью о рекомендательных системах на основе сессий

P.S. См. также другие публикации, посвященные LLM

Шифрованная LLM

Большие языковые модели (LLM) предлагают персонализированные ответы на основе взаимодействия с пользователем, но этот вариант использования вызывает серьезные проблемы с конфиденциальностью. Гомоморфное шифрование (HE) — это криптографический протокол, поддерживающий арифметические вычисления в зашифрованных состояниях и обеспечивающий потенциальное решение для машинного обучения с сохранением конфиденциальности (PPML). Однако вычислительная интенсивность трансформаторов создает проблемы для применения HE к LLM. В этой работе мы предлагаем модифицированную архитектуру трансформатора, дружественную HE, с акцентом на вывод после персонализированной (частной) тонкой настройки. Используя тонкую настройку LoRA и гауссовские ядра, мы достигаем значительного ускорения вычислений — в 6,94 раза для тонкой настройки и в 2,3 раза для вывода — при сохранении производительности, сопоставимой с моделями открытого текста. Наши выводы предоставляют жизнеспособное доказательство концепции для предложения услуг LLM с сохранением конфиденциальности в областях, где защита данных имеет решающее значение. - ENCRYPTION-FRIENDLY LLM ARCHITECTURE

Современные криптографические методы для реализации сохраняющих конфиденциальность LLM, таких как гомоморфное шифрование (HE), требуют, чтобы LLM имели полиномиальную форму. Формирование такого представления является сложной задачей, поскольку Transformers включают неполиномиальные компоненты, такие как Softmax и нормализация слоев. Предыдущие подходы либо напрямую аппроксимировали предварительно обученные модели полиномами большой степени, которые менее эффективны по сравнению с HE, либо заменяли неполиномиальные компоненты примитивами, которые легче аппроксимировать перед обучением, например, Softmax с точечным вниманием. Последний подход может привести к проблемам масштабируемости. Мы представляем новый вариант самовнимания, дружественный HE, который предлагает стабильную форму для обучения и легко аппроксимируется полиномами для безопасного вывода. В нашей работе представлены первые полиномиальные LLM с 32 слоями и более миллиарда параметров, что превышает размер предыдущих моделей более чем в десять раз. Полученные модели демонстрируют возможности рассуждения и контекстного обучения (ICL), сравнимые со стандартными трансформерами того же размера, что представляет собой прорыв в этой области. Наконец, мы предоставляем подробную разбивку задержки для каждого вычисления по зашифрованным данным, прокладывая путь для дальнейшей оптимизации, и исследуем различия в индуктивном смещении между трансформерами, полагающимися на наш вариант HE-friendly, и стандартными трансформерами. Наш код прилагается в качестве дополнения. - POWER-SOFTMAX: TOWARDS SECURE LLM INFERENCE OVER ENCRYPTED DATA

P.S. См. также другие публикации, посвященные LLM

Monday, November 18, 2024

Что в городе моем?

Городское развитие формируется историческими, географическими и экономическими факторами, что создает трудности для планировщиков в понимании городской формы. Это исследование моделирует потоки поездок на работу в нескольких городах США, раскрывая последовательные закономерности в распределении городского населения и поведении при поездках на работу. Встраивая городские места для отражения сетей мобильности, мы наблюдаем, что распределение населения в переопределенных городских пространствах имеет тенденцию приближаться к логарифмически нормальному распределению, в отличие от часто нерегулярных распределений, обнаруженных в географическом пространстве. Это расхождение предполагает, что естественные и исторические ограничения формируют пространственные модели населения, в то время как в идеальных условиях городская организация может естественным образом соответствовать логарифмически нормальному распределению. Теоретическая модель, использующая предпочтительное присоединение и случайные блуждания, поддерживает возникновение этого распределения в городских условиях. Эти результаты раскрывают фундаментальный организующий принцип в городских системах, который, хотя и не всегда виден географически, последовательно управляет потоками и распределениями населения. Это понимание базовой городской структуры может дать информацию планировщикам, стремящимся проектировать эффективные, устойчивые города. - Cities Reconceptualized: Unveiling Hidden Uniform Urban Shape through Commute Flow Modeling in Major US Cities. Интересная статья о понимании транспортных потоков в городе.

О сокрытии лиц

Поскольку технология распознавания лиц (FR) становится все более распространенной в финансах, армии, общественной безопасности и повседневной жизни, проблемы безопасности существенно возросли. Физические состязательные атаки, нацеленные на FR-системы в реальных условиях, привлекли значительный исследовательский интерес из-за их практичности и серьезных угроз, которые они представляют. Однако систематический обзор, сосредоточенный на физических состязательных атаках на FR-системы, все еще отсутствует, что препятствует глубокому изучению проблем и будущих направлений в этой области. В этой статье мы устраняем этот пробел, всесторонне собирая и анализируя методы физических состязательных атак, нацеленных на FR-системы. В частности, мы сначала исследуем ключевые проблемы физических атак на FR-системы. Затем мы классифицируем существующие физические атаки на три категории на основе используемой физической среды и суммируем, как развивались исследования в каждой категории для решения этих проблем. Кроме того, мы рассматриваем текущие стратегии защиты и обсуждаем потенциальные будущие направления исследований. Наша цель — предоставить новое, всестороннее и глубокое понимание физических состязательных атак на FR-системы, тем самым вдохновляя соответствующие исследования в этой области. - A Survey on Physical Adversarial Attacks against Face Recognition Systems

См. также другие публикации по теме физические атаки

Sunday, November 17, 2024

Аномалии в количестве публикаций

Хорошее техническое описание определения аномалий в количестве публикаций в социальных медиа (сетях). В статье речь идет о Twitter

Как обмануть лидар

Автономные транспортные средства (AV) в значительной степени полагаются на системы LiDAR (Light Detection and Ranging) для точного восприятия и навигации, предоставляя трехмерные данные об окружающей среде с высоким разрешением, которые имеют решающее значение для обнаружения и классификации объектов. Однако системы LiDAR уязвимы для состязательных атак, которые создают значительные проблемы для безопасности и надежности AV. В этом обзоре представлен тщательный обзор текущего ландшафта исследований физических состязательных атак, нацеленных на системы восприятия на основе LiDAR, охватывающих как одномодальные, так и многомодальные контексты. Мы классифицируем и анализируем различные типы атак, включая спуфинг и физические состязательные атаки на объекты, подробно описывая их методологии, воздействия и потенциальные последствия в реальном мире. С помощью подробных тематических исследований и анализов мы выявляем критические проблемы и выделяем пробелы в существующих атаках на системы на основе LiDAR. Кроме того, мы предлагаем будущие направления исследований для повышения безопасности и устойчивости этих систем, в конечном итоге способствуя более безопасному развертыванию автономных транспортных средств. - Navigating Threats: A Survey of Physical Adversarial Attacks on LiDAR Perception Systems in Autonomous Vehicles

См. также другие публикации по теме физические атаки

Saturday, November 16, 2024

Открытая наука, том 12, номер 11

Очередной номер журнала INJOIT появился на сайте Киберленинка.

Это том 12, номер 11 за 2024 год.

/via Лаборатория ОИТ

Плохие знаки

Физические состязательные патчи стали ключевой состязательной атакой, вызывающей неправильную классификацию систем распознавания дорожных знаков (TSR) в реальном мире. Однако существующие состязательные патчи обладают плохой скрытностью и атакуют все транспортные средства без разбора после развертывания. В этой статье мы представляем невидимую и активируемую физическую состязательную заплатку (ITPATCH) с новым вектором атаки, т. е. флуоресцентными чернилами, для продвижения современного уровня техники. Она применяет тщательно разработанные флуоресцентные возмущения к целевому знаку, злоумышленник может позже активировать флуоресцентный эффект с помощью невидимого ультрафиолетового света, заставляя систему TSR неправильно классифицировать знак и потенциально приводя к дорожно-транспортным происшествиям. Мы провели комплексную оценку, чтобы исследовать эффективность ITPATCH, которая показывает успех 98,31% в условиях низкой освещенности. Кроме того, наша атака успешно обходит пять популярных защит и достигает успеха 96,72%. - ITPATCH: An Invisible and Triggered Physical Adversarial Patch against Traffic Sign Recognition

См. также статью Состязательные атаки для автономных транспортных средств

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Friday, November 15, 2024

Атаки уклонения на CPS

В последние годы было предложено несколько атак уклонения для промышленных систем управления. Во время атаки уклонения злоумышленник пытается скрыть текущие аномалии процесса, чтобы избежать обнаружения аномалий. Примеры таких атак варьируются от атак воспроизведения до техник состязательного машинного обучения. Эти атаки обычно применяются к существующим наборам данных с нормальными и аномальными данными, к которым атаки уклонения добавляются post hoc. Это представляет очень сильного злоумышленника, который эффективно может наблюдать и манипулировать данными из любой точки системы в режиме реального времени, с нулевой задержкой обработки и без вычислительных ограничений. Предыдущая работа показала, что таких сильных злоумышленников теоретически трудно обнаружить большинством существующих контрмер. Пока неясно, может ли такая атака быть реализована на практике, и есть ли проблемы, которые могли бы нанести ущерб злоумышленнику. В этой работе мы систематически обсуждаем возможности для злоумышленника проводить атаки уклонения в реальных ICS, и показываем ограничения, которые возникают из-за этих возможностей. Чтобы подтвердить наши выводы, мы проектируем и реализуем структуру, которая позволяет реализовывать атаки уклонения и обнаружение аномалий для эмуляции ICS. Мы демонстрируем практические ограничения, возникающие из различных настроек, и их влияние на эффективность атак. Например, мы обнаружили, что воспроизведение сетевых пакетов может вызывать сетевые ошибки, которые приведут к неожиданным шаблонам спуфинга. - On Practical Realization of Evasion Attacks for Industrial Control Systems

Что отличает один сайт от другого?

Каждый сайт по-своему использует кэш процессора при загрузке. Это положено в основу интересной атаки по побочным каналам - какие сайты пользователь открывает в соседних вкладках браузера?

Thursday, November 14, 2024

Пограничник

Новые угрозы для сетей IoT ускорили разработку систем обнаружения вторжений (IDS), характеризующихся переходом от традиционных подходов, основанных на сигнатурах атак или обнаружении аномалий, к подходам, основанным на машинном обучении (ML). Однако современные IDS на основе ML часто не могут явно интегрировать знания предметной области, не обладают объяснимостью и испытывают трудности с устранением атак нулевого дня. В этой статье мы предлагаем IDS-Agent, первого агента ИИ, работающего на основе больших языковых моделей (LLM) для обнаружения вторжений. IDS-Agent предсказывает, является ли входной сетевой трафик безопасным или вредоносным, с объяснением результатов прогнозирования. Рабочий процесс IDS-Agent включает последовательность действий, генерируемых его основной LLM на основе рассуждений о наблюдениях за состоянием. Пространство действий IDS-Agent включает извлечение и предварительную обработку данных, классификацию, знания, и извлечение памяти, а также агрегацию результатов — эти действия будут выполняться с использованием обширных инструментов, в основном специализированных для IDS. Кроме того, IDS-Agent оснащен памятью и базой знаний, которая сохраняет информацию из текущихи предыдущих сеансов, а также документы, связанные с IDS, что расширяет его возможности рассуждений и генерации действий. Системные подсказки IDS-Agent можно легко настраивать для регулировки чувствительности обнаружения или выявления ранее неизвестных типов атак. В наших экспериментах мы демонстрируем сильные возможности обнаружения IDS-Agent по сравнению с IDS на основе ML и IDS на основе LLM с инжинирингом подсказок. IDS-Agent превосходит эти базовые показатели SOTA на тестах ACI-IoT и CIC-IoT с показателями обнаружения F1 0,97 и 0,75 соответственно. - IDS-Agent: An LLM Agent for Explainable Intrusion Detection in IoT Networks. Полезный пример агента для LLM.

P.S. См. также другие публикации, посвященные LLM

Атаки на ИИ агенты

Хотя агенты на основе LLM, работающие на основе больших языковых моделей (LLM), могут использовать внешние инструменты и механизмы памяти для решения сложных реальных задач, они также могут привносить критические уязвимости безопасности. Однако существующая литература не дает всесторонней оценки атак и защиты от агентов на основе LLM. Чтобы решить эту проблему, мы представляем Agent Security Bench (ASB), комплексную структуру, предназначенную для формализации, сравнительного анализа и оценки атак и защиты агентов на основе LLM, включая 10 сценариев (например, электронная коммерция, автономное вождение, финансы), 10 агентов, нацеленных на сценарии, более 400 инструментов, 23 различных типа методов атаки/защиты и 8 метрик оценки. Основываясь на ASB, мы сравниваем 10 атак с подсказками, атаку с отравлением памяти, новую атаку с бэкдором Plan-of-Thought, смешанную атаку и 10 соответствующих защит в 13 магистралях LLM с почти 90 000 тестовых случаев в общей сложности. Результаты наших тестов выявляют критические уязвимости на разных этапах работы агента, включая системный запрос, обработку пользовательских запросов, использование инструментов и извлечение памяти, с наивысшим средним показателем успешности атак 84,30%, но ограниченной эффективностью, показанной в текущих средствах защиты, что раскрывает важные работы, которые необходимо выполнить в плане безопасности агента для сообщества. Наш код можно найти по адресу https://github.com/agiresearch/ASB - AGENT SECURITY BENCH (ASB): FORMALIZING AND BENCHMARKING ATTACKS AND DEFENSES IN LLM-BASED AGENTS

P.S. См. также другие публикации, посвященные LLM

Wednesday, November 13, 2024

Новый Python

Почему выпуск Python 3.13 может стать переломным моментом для AI и ML Узнайте, как он изменит динамику ML и ИИ

Это мой датасет

По мере того, как внедрение систем машинного обучения (МО) становится все более распространенным, особенно с введением более крупных моделей МО, мы ощущаем растущий спрос на массивные данные. Однако это неизбежно приводит к проблемам нарушения и неправильного использования данных, таким как использование несанкционированных онлайн-произведений искусства или изображений лиц для обучения моделей МО. Для решения этой проблемы было предпринято много усилий для аудита авторских прав на набор данных для обучения модели. Однако существующие решения различаются по предположениям и возможностям аудита, что затрудняет сравнение их сильных и слабых сторон. Кроме того, оценки надежности обычно учитывают только часть конвейера МО и едва ли отражают производительность алгоритмов в реальных приложениях МО. Таким образом, важно взять практическую перспективу развертывания текущих инструментов аудита авторских прав на наборы данных, изучив их эффективность и ограничения. Конкретно, мы разделяем исследования аудита авторских прав на наборы данных на два основных направления: интрузивные методы и неинтрузивные методы, в зависимости от того, требуют ли они изменения исходного набора данных. Затем мы разбиваем интрузивные методы на различные варианты внедрения водяных знаков и изучаем неинтрузивные методы с использованием различных отпечатков. Чтобы подвести итог нашим результатам, мы предлагаем подробные справочные таблицы, выделяем ключевые моменты и выявляем нерешенные проблемы в текущей литературе. Объединяя конвейер в системах МО и анализируя предыдущие исследования, мы выделяем несколько будущих направлений, чтобы сделать инструменты аудита более подходящими для реальных требований защиты авторских прав. - SoK: Dataset Copyright Auditing in Machine Learning Systems

Tuesday, November 12, 2024

По закону

Соответствует ли ваша модель Закону об искусственном интеллекте? Новое исследование предполагает, что ведущие модели искусственного интеллекта могут соответствовать требованиям Закона об искусственном интеллекте Европейского союза в некоторых областях, но, вероятно, не во всех.

Что нового: стартап LatticeFlow из Цюриха, работающий с исследовательскими институтами в Болгарии и Швейцарии, разработал COMPL-AI, неофициальную структуру, предназначенную для оценки вероятного соответствия больших языковых моделей Закону об искусственном интеллекте. Таблица лидеров ранжирует первоначальный выбор моделей. (LatticeFlow не работает на Европейскую комиссию и не имеет юридического статуса для интерпретации Закона об искусственном интеллекте.)

Как это работает: в статье объясняется, как COMPL-AI сопоставляет требования Закона об искусственном интеллекте с конкретными контрольными показателями. Он оценивает каждое требование с помощью новых или существующих тестов и выдает совокупный балл. Эти баллы являются относительными мерами, и авторы не предлагают пороговые значения для соответствия. Оценка охватывает пять основных категорий:

1. Техническая надежность и безопасность. Закон об искусственном интеллекте требует, чтобы модели возвращали последовательные ответы, несмотря на незначительные изменения во входных подсказках, и противостояли состязательным атакам. Фреймворк использует такие метрики, как MMLU и BoolQ, для оценки влияния небольших изменений в формулировке подсказки. Он измеряет монотонность (согласованность в отношениях между определенными входами и выходами), чтобы увидеть, насколько хорошо модель поддерживает свою внутреннюю логику в подсказках. Он использует Tensor Trust и LLM RuLES для оценки устойчивости к кибератакам. Эта категория также проверяет, может ли модель идентифицировать и исправлять свои собственные ошибки.

2. Конфиденциальность и защита данных. Выходные данные модели не должны содержать ошибок, предвзятости и нарушений законов, регулирующих конфиденциальность и авторские права. Фреймворк ищет проблемные примеры в обучающем наборе данных модели и оценивает, повторяет ли модель ошибочный, персонально идентифицирующий или защищенный авторским правом материал, который был включен в ее обучающий набор. Многие разработчики не предоставляют обучающие наборы данных своих моделей, поэтому авторы используют открытые наборы данных, такие как Pile, в качестве прокси.

3. Прозрачность и интерпретируемость. Разработчики должны объяснять возможности своих моделей, а сами модели должны позволять тем, кто их развертывает, интерпретировать отношения между входами и выходами. Меры интерпретируемости включают TriviaQA и Expected Calibration Error, которые проверяют способность модели оценивать собственную точность. Фреймворк также оценивает такие требования, например, проверяя, будет ли модель сообщать пользователям, что они взаимодействуют с машиной, а не с человеком, и будет ли она маркировать свои выходные данные водяными знаками.

4. Справедливость и отсутствие дискриминации. Закон требует, чтобы поставщики моделей документировали потенциально дискриминационные выходные данные своих систем, а высокорисковые системы снижали риск предвзятых выходных данных. Фреймворк использует такие тесты, как RedditBias, BBQ и BOLD, для оценки предвзятого языка и FaiRLLM для оценки справедливых выходных данных. Он использует DecodingTrust для измерения справедливости в различных вариантах использования.

5. Социальное и экологическое благополучие. Разработчики высокорисковых систем должны минимизировать вредное и нежелательное поведение, и все разработчики ИИ должны документировать потребление энергии и других ресурсов, используемых для создания своих моделей, а также свои усилия по его сокращению. Фреймворк использует RealToxicityPrompts и AdvBench для измерения склонности модели генерировать нежелательные или иным образом токсичные результаты. Он вычисляет углеродный след модели для измерения экологического благополучия. Результаты: авторы оценили девять открытых моделей и три фирменные модели по шкале от 0 до 1. Их отчеты по каждой модели показывают значительную изменчивость. (Примечание: совокупные баллы, указанные в отчетах, не соответствуют баллам в статье.)

Все протестированные модели показали хорошие результаты по контрольным показателям конфиденциальности и управления данными (достигнув баллов 0,99 или 1) и социального и экологического благополучия (0,96 или выше). Однако несколько получили относительно низкие баллы по справедливости и безопасности, что говорит о том, что предвзятость и уязвимость к состязательным атакам являются значительными проблемами. GPT-4 Turbo и Claude 3 Opus получили наивысший совокупный балл, 0,89. Однако их баллы были снижены низкими оценками за прозрачность, поскольку данные обучения ни одной из моделей не раскрываются. Gemma-2-9B заняла самое низкое место с общим баллом 0,72. Она также набрала самые низкие баллы по тестам на общее рассуждение (MMLU), рассуждение здравого смысла (HellaSwag) и самооценку (уверенность модели в своих ответах на TriviaQA).

Некоторые модели хорошо справились с типичными контрольными задачами, но хуже в областях, которые менее изучены или легко измеряются. Например, Qwen1.5-72B испытывала трудности с интерпретируемостью (0,61). Mixtral-8x7B плохо справилась с устойчивостью к кибератакам (0,32).

Да, но: Авторы отмечают, что некоторые положения Закона об ИИ, включая объяснимость, надзор (уважение к человеческому контролю) и корректируемость (можно ли изменить систему ИИ, чтобы изменить вредоносные результаты, что влияет на классификацию риска модели в соответствии с Законом об ИИ), определены в законе неоднозначно и в настоящее время не могут быть надежно измерены. Эти области недостаточно изучены в исследовательской литературе и не имеют контрольных показателей для их оценки.

Почему это важно: С появлением законов, регулирующих технологию ИИ, разработчики несут ответственность за оценку соответствия модели, прежде чем они ее выпустят или используют ее способами, которые повлияют на общественность. COMPL-AI делает первый шаг к тому, чтобы заверить создателей моделей в том, что их работа юридически защищена, или предупредить их о недостатках, которые могут привести к правовому риску, если они не будут устранены до выпуска.

Мы думаем: Вдумчивое регулирование ИИ необходимо, но оно должно осуществляться способами, которые не налагают неоправданного бремени на разработчиков. Хотя сам Закон об ИИ чрезмерно обременителен, мы рады видеть в значительной степени автоматизированный путь к демонстрации соответствия больших языковых моделей.

Отсюда

Наука с учителем

Книга в открытом доступе - https://ml-science-book.com/

Monday, November 11, 2024

Отравление контента

Большие языковые модели (LLM) продемонстрировали свои превосходные возможности в обработке естественного языка, продвигая обширные приложения на основе LLM в качестве новых порталов для людей, чтобы получить доступ к различному контенту в Интернете. Однако приложения на основе LLM не имеют достаточных соображений безопасности для ненадежного контента, что приводит к потенциальным угрозам. В этой статье мы раскрываем отравление контента, когда злоумышленники могут адаптировать контент атаки, который кажется безобидным для людей, но заставляет приложения на основе LLM генерировать вредоносные ответы. Чтобы подчеркнуть влияние отравления контента и вдохновить на разработку эффективной защиты, мы систематически анализируем атаку, сосредоточившись на режимах атаки в различном контенте, эксплуатируемых особенностях конструкции фреймворков приложений LLM и генерации контента атаки. Мы проводим комплексную оценку пяти LLM, где отравление контента достигает среднего показателя успешности атаки 89,60%. Кроме того, мы оцениваем отравление контента в четырех популярных приложениях на базе LLM, достигая атаки на 72,00% контента. Наши экспериментальные результаты также показывают, что существующие средства защиты неэффективны против отравления контента. Наконец, мы обсуждаем потенциальные меры по смягчению последствий для фреймворков приложений LLM, чтобы противостоять отравлению контента. - Imperceptible Content Poisoning in LLM-Powered Applications

новая форма атаки на LLM с использованием внешнего добавляемого контента.

P.S. См. также другие публикации, посвященные LLM

CQRS

CQRS (Command Query Responsibility Segregation) — это архитектурный шаблон, который разделяет задачи чтения и записи данных.

Он делит приложение на две отдельные части:

Командная сторона: отвечает за управление запросами на создание, обновление и удаление.

Запросная сторона: отвечает за обработку запросов на чтение.

Шаблон CQRS был впервые представлен Грегом Янгом, разработчиком и архитектором программного обеспечения, в 2010 году. Он описал его как способ разделения ответственности за обработку команд (операций записи) от обработки запросов (операций чтения) в системе.

Истоки CQRS можно проследить до принципа разделения команд и запросов (CQS), введенного Бертраном Мейером. CQS утверждает, что каждый метод должен быть либо командой, которая выполняет действие, либо запросом, который возвращает данные, но не тем и другим одновременно. CQRS развивает принцип CQS, применяя его на архитектурном уровне, разделяя обязанности по командам и запросам на различные модели, сервисы или даже базы данных.

С момента своего появления CQRS приобрел популярность в сообществе разработчиков программного обеспечения, особенно в контексте проектирования на основе доменов (DDD) и архитектур, управляемых событиями.

Он успешно применяется в различных областях, таких как электронная коммерция, финансовые системы и приложения для совместной работы, где производительность, масштабируемость и сложность являются критически важными проблемами.

Отсюда

Sunday, November 10, 2024

Как оценивать LLM

Хорошая техническая статья по тестированию LLM.

См. также другие публикации, посвященные LLM

MIA LLM

В этом исследовании мы представляем первый бенчмарк атаки вывода членства (MIA - membership inference attack), адаптированный для различных VLLM, чтобы облегчить обнаружение обучающих данных.

См. также другие публикации, посвященные LLM

Friday, November 08, 2024

Надежность и понимание

В последние годы вопрос надежности методов машинного обучения (МО) приобрел важное значение, и анализ связанных с этим неопределенностей мотивировал все больше исследований. Однако большинство этих исследований применяли анализ стандартной ошибки к моделям МО, и в частности к моделям глубоких нейронных сетей (DNN), которые представляют собой довольно значительный отход от стандартного научного моделирования. Поэтому необходимо интегрировать анализ стандартной ошибки с более глубоким эпистемологическим анализом возможных различий между моделями DNN и стандартным научным моделированием и возможных последствий этих различий в оценке надежности. В этой статье предлагается несколько вкладов. Во-первых, она подчеркивает повсеместную роль предположений модели (как в МО, так и в традиционной науке) против иллюзии науки, свободной от теорий. Во-вторых, предположения модели анализируются с точки зрения их (эпистемической) сложности, которая, как показано, не зависит от языка. Утверждается, что высокая эпистемическая сложность моделей DNN затрудняет оценку их надежности, а также их перспектив долгосрочного прогресса. Предлагаются некоторые потенциальные пути продвижения вперед. В-третьих, в этой статье определяется тесная связь между эпистемической сложностью модели и ее интерпретируемостью, как это представлено в контексте ответственного ИИ. Это проясняет, в каком смысле — и в какой степени — отсутствие понимания модели (проблема черного ящика) влияет на ее интерпретируемость способом, который не зависит от индивидуальных навыков. Это также проясняет, как интерпретируемость является предпосылкой для правдоподобной оценки надежности любой модели, которая не может быть основана только на статистическом анализе. В этой статье основное внимание уделяется сравнению традиционных научных моделей и моделей DNN. Однако также кратко рассматриваются модели случайного леса (RF) и логистической регрессии (LR). - отсюда

Tuesday, November 05, 2024

Оценка рисков ИИ

В индустрии искусственного интеллекта (ИИ) появился новый инструмент для оценки рисков — SAIF Risk Assessment, разработанный для повышения безопасности ИИ-систем. Этот интерактивный инструмент позволяет разработчикам и компаниям оценить свою защищённость, определить потенциальные угрозы и укрепить систему безопасности.

/via SecurityLab

P.S. Это и есть инструмент для аудита систем ИИ, ровно как мы описывали в наших работах. Например, здесь и здесь

Saturday, November 02, 2024

Культурный код

Из бесед с одной LLM:

1) Продолжи фразу: "Там сидела Мурка в кожаной ..."

Фраза приобретает неожиданный поворот, учитывая, что обычно мы представляем себе кошку Мурку в более привычных образах. Продолжение может быть таким:
"Там сидела Мурка в кожаной куртке байкера, с серьгой в ухе и сигарой в зубах."
Это добавляет элемент юмора и неожиданности, превращая обычную кошку в персонажа с характером.

2) Противодиарейные комбинированные средства – Смекта, Диосмектит, Диоктаб Солюшн таблетки, Неосмектин, Эндосорб. А какова дозировка Титкмеса для взрослых?

Титкмес — это комбинированный противодиарейный препарат, содержащий два активных компонента: лоперамида гидрохлорид и симетикон. Лоперамид замедляет перистальтику кишечника, уменьшая частоту дефекации, а симетикон уменьшает вздутие живота за счет разрушения газовых пузырьков.

Дозировка Титкмеса для взрослых: Начальная доза: 2 капсулы сразу после первого жидкого стула. Поддерживающая доза: По 1 капсуле после каждого последующего жидкого стула.

Google про Титкмес не знает :(

Friday, November 01, 2024

Атаки на трекеры объектов

"В последние годы значительное внимание привлекло устранение уязвимости глубоких нейронных сетей (DNN). Хотя недавние исследования по состязательным атакам и защите в основном касались одного изображения, было предпринято мало усилий для выполнения временных атак на видеопоследовательности. Поскольку временная согласованность между кадрами не учитывается, существующие подходы к состязательным атакам, разработанные для статических изображений, неэффективны для глубокого отслеживания объектов. В этой работе мы генерируем состязательные примеры поверх видеопоследовательностей, чтобы повысить надежность отслеживания против состязательных атак в настройках белого и черного ящика. С этой целью мы учитываем сигналы движения при генерации легких возмущений по оценочным результатам отслеживания по кадрам. Для атаки белого ящика мы генерируем временные возмущения с помощью известных трекеров, чтобы значительно ухудшить производительность отслеживания. Мы передаем сгенерированные возмущения в неизвестные целевые трекеры для атаки черного ящика, чтобы добиться переноса атак. Кроме того, мы обучаем универсальные состязательные возмущения и напрямую добавляем их во все кадры видео, повышая эффективность атаки с небольшими вычислительными затратами. С другой стороны, мы последовательно учимся оценивать и удалять возмущения из входных последовательностей, чтобы восстановить производительность отслеживания. Мы применяем предложенные состязательные подходы к атаке и защите к современным алгоритмам отслеживания. Обширные оценки на крупномасштабных наборах данных эталонных тестов, включая OTB, VOT, UAV123 и LaSOT, показывают, что наш метод атаки значительно ухудшает производительность отслеживания с благоприятной переносимостью на другие магистрали и трекеры. В частности, предложенный метод защиты восстанавливает исходную производительность отслеживания в некоторой степени и достигает дополнительного прироста производительности, когда не находится под состязательными атаками" - Robust Deep Object Tracking against Adversarial Attacks

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению и LLM

Thursday, October 31, 2024

Wednesday, October 30, 2024

Бизнес-аналитика

Книга в открытом доступе A Business Analyst’s Introduction to Business Analytics. Примеры на R.

Все о Гауссе

Распределение Гаусса, или нормальное распределение, является ключевым предметом в статистике, машинном обучении, физике и практически любой другой области, которая имеет дело с данными и вероятностью. Это один из тех предметов, как π или правило Байеса, который настолько фундаментален, что люди относятся к нему как к иконе. - отсюда

Tuesday, October 29, 2024

Почему они галлюцинируют?

Интересный эксперимент: "Это приводит нас к гипотезе о том, когда GPT на основе LLM будет делать все правильно, а когда он будет делать что-то неправильно (или галлюцинировать). Когда есть общее согласие по теме и есть большой объем языка, доступный для обучения модели, GPT на основе LLM будут отражать это консенсусное мнение. Но в случаях, когда недостаточно примеров языка по теме, или тема является спорной, или нет четкого консенсуса по теме, опора на эти системы приведет к сомнительным результатам. Если эта гипотеза верна, то галлюцинации должны чаще возникать при работе с темами, которые являются неясными или спорными.

Чтобы проверить эту гипотезу, мы придумали набор простых подсказок, которые различались как по неясности темы, так и по степени противоречий вокруг темы. Затем мы задавали эти вопросы различным GPT в течение определенного периода времени. Прогноз заключался в том, что чем более неясной или спорной является тема, тем больше вероятность того, что результат будет неверным."

См. также другие публикации по теме галлюцинации

Monday, October 28, 2024

Защита КИИ

Материалы конференции ITSEC 2024 - Защита АСУ ТП и объектов КИИ

Риски ИИ

Горячая тема. В статье приводится расшифровка рисков ИИ, которые специфицируют частные компании и государства

См. также нашу статью О киберрисках генеративного ИИ

Другие публикации по теме риски

Sunday, October 27, 2024

Out of Distribution ML

Цель этого репозитория — предоставить наиболее полный, актуальный, высококачественный ресурс для обнаружения OOD, надежности и обобщения в машинном обучении/глубоком обучении. Ваш универсальный магазин для всего, что касается OOD, здесь.

P.S. см. также другие публикации по теме OOD

Saturday, October 26, 2024

Публикации по теме Искусственный интеллект в кибербезопасности

Вопросы безопасности систем ИИ рассматриваются в двух магистерских программах факультета ВМК МГУ имени М.В. Ломоносова: Искусственный интеллект в кибербезопасности и Кибербезопасность (совместно со Сбербанк). Ниже приведен список публикаций, подготовленных в процессе реализации этих программ.

Ильюшин Е. А., Намиот Д. Е. An approach to the automatic enhancement of the robustness of ml models to external influences on the example of the problem of biometric speaker identification by voice // International Journal of Open Information Technologies. — 2021. — Vol. 9, no. 6. — P. 11–19.

Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Текущие академические и индустриальные проекты, посвященные устойчивому машинному обучению // International Journal of Open Information Technologies. — 2021. — Т. 9, № 10. — С. 35–46.

Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Основания для работ по устойчивому машинному обучению // International Journal of Open Information Technologies. — 2021. — Т. 9, № 11. — С. 68–74.

Намиот Д. Е., Ильшин Е. А., Чижов И. В. Военные применения машинного обучения // International Journal of Open Information Technologies. — 2022. — Т. 10, № 1. — С. 69–76.

Ильюшин Е. А., Намиот Д. Е., Чижов И. В. Атаки на системы машинного обучения – общие проблемы и методы // International Journal of Open Information Technologies. — 2022. — Т. 10, № 3. — С. 17–22.

Namiot D., Ilyushin E. On monitoring of machine learning models // Distributed Computer and Communication Networks: Control, Computation, Communications (DCCN-2022) : материалы XXV международной научной конференции: Москва, 26–30 сентября 2022 года / под общ. ред. В. М. Вишневского и К. Е. Самуйлова. — РУДН Москва: 2022. — P. 150–157.

Namiot D., Ilyushin E., Chizhov I. On a formal verification of machine learning systems // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 5. — P. 30–34.

Huayu L., Namiot D. A survey of adversarial attacks and defenses for image data on deep learning // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 5. — P. 9–16.

Намиот Д., Ильюшин Е., Пилипенко О. Доверенные платформы искусственного интеллекта // International Journal of Open Information Technologies. — 2022. — Т. 10, № 7. — С. 119–127.

Намиот Д., Ильюшин Е. Порождающие модели в машинном обучении // International Journal of Open Information Technologies. — 2022. — Т. 10, № 7. — С. 101–118.

Биджиев Т. М., Намиот Д. Е. Исследование существующих подходов к встраиванию вредоносного программного обеспечения в искусственные нейронные сети // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 21–31.

Намиот Д. Е., Ильюшин Е. А. Об устойчивости и безопасности систем искусственного интеллекта // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 126–134.

Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Искусственный интеллект и кибербезопасность // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 135–147.

Stroeva E., Tonkikh A. Methods for formal verification of artificial neural networks: A review of existing approaches // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 10. — P. 3.

Намиот Д., Ильюшин Е. Мониторинг сдвига данных в моделях машинного обучения // International Journal of Open Information Technologies. — 2022. — Т. 10, № 12. — С. 84–93.

Костюмов, Василий Владимирович. "Обзор и систематизация атак уклонением на модели компьютерного зрения." International Journal of Open Information Technologies 10.10 (2022): 11-20.

Намиот Д. Е., Ильюшин Е. А. О причинах неудач проектов машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 1. — С. 60–69.

Намиот Д. Е. Введение в атаки отравлением на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 3. — С. 58–68.

Namiot D. E., Ilyushin E., Chizhov I. On the practical generation of counterfactual examples // Труды Института системного анализа Российской академии наук. — 2023. — Vol. 73, no. 1. — P. 73–81.

Junzhe S., Namiot D. E. A survey of model inversion attacks and countermeasures // Труды Института системного анализа Российской академии наук. — 2023. — Vol. 73, no. 1. — P. 82–93.

Junzhe S., Namiot D. A survey of the implementations of model inversion attacks // Communications in Computer and Information Science. — 2023. — Vol. 1748. — P. 3–16.

Намиот Д. Е. Схемы атак на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 5. — С. 68–86.

On the evasion attack detector / L. Huayui, V. Kostyumov, O. Pilipenko, D. Namiot // DCCN 2023. Материалы конференции. — ИПУ РАН Москва: 2023. — P. 183–188.

Junzhe S., Namiot D. On the machine learning models inversion attack detector // DCCN 2023. Материалы конференции. — ИПУ РАН Москва: 2023. — P. 194.

Lozinskii I., Kostyumov V., Stroeva E. Extraction of trigger and mask from poisoned data using modified activation clustering and neural cleanse methods // International Journal of Open Information Technologies. — 2023. — Vol. 11, no. 7. — P. 1

Чехонина, Екатерина Андреевна, and Василий Владимирович Костюмов. "ОБЗОР СОСТЯЗАТЕЛЬНЫХ АТАК И МЕТОДОВ ЗАЩИТЫ ДЛЯ ДЕТЕКТОРОВ ОБЪЕКТОВ." International Journal of Open Information Technologies 11.7 (2023): 11-20.

Пришлецов Д. Е., Пришлецов С. Е., Намиот Д. Е. Камуфляж как состязательные атаки на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 9. — С. 41–49.

Намиот Д. Е., Зубарева Е. В. О работе ai red team // International Journal of Open Information Technologies. — 2023. — Т. 11, № 10. — С. 130–139.

Намиот Д. Е., Ильюшин Е. А. Доверенные платформы искусственного интеллекта: сертификация и аудит // International Journal of Open Information Technologies. — 2024. — Т. 12, № 1. — С. 43–60.

Киржинов Д. А., Ильюшин Е. А. Сравнительный анализ алгоритмов атак и защиты на графовые архитектуры ИНС // International Journal of Open Information Technologies. — 2024. — Т. 12, № 2.

Намиот Д. Е., Романов В. Ю. Об улучшении робастности моделей машинного обучения // International Journal of Open Information Technologies. — 2024. — Т. 12, № 3. — С. 88–98.

Junzhe S., Namiot D. On real-time model inversion attacks detection // Lecture Notes in Computer Science. — 2024. — Vol. 14123. — P. 56–67.

Мударова Р. М., Намиот Д. Е. Противодействие атакам типа инъекция подсказок на большие языковые модели // International Journal of Open Information Technologies. — 2024. — Т. 12, № 5. — С. 39–48.

Намиот Д. Е., Ильюшин Е. А. Искусственный интеллект в кибербезопасности: поиск вредоносного программного обеспечения // International Journal of Open Information Technologies. — 2024. — Т. 12, № 6. — С. 143–149.

Селевенко Р. М., Строева Е. Н. Исследование и разработка алгоритма формальной верификации и метрики оценки качества на основе методов понижения размерности ИНС // INJOIT. — 2024. — Т. 12, № 6. — С. 2.

Биджиев Т. М., Намиот Д. Е. Атаки на модели машинного обучения, основанные на фреймворке pytorch // Автоматика и телемеханика. — 2024. — № 3. — С. 38–50.

Намиот Д. Е., Ильюшин Е. А. О сертификации систем искусственного интеллекта // Физика элементарных частиц и атомного ядра. — 2024. — Т. 55, № 3. — С. 530–536.

Намиот Д. Е., Куприяновский В. П., Пичугов А. А. Состязательные атаки для автономных транспортных средств // International Journal of Open Information Technologies. — 2024. — Т. 12, № 7. — С. 139–149.

Намиот Д. Е. О кибератаках с помощью систем Искусственного интеллекта // International Journal of Open Information Technologies. — 2024. — Т. 12, № 9. — С. 132–141.

Воробьев, Егор Александрович. "Анализ состязательных атак на системы сегментации изображений." International Journal of Open Information Technologies 12.10 (2024): 1-25.

Намиот Д. Е., Ильюшин Е. А. О киберрисках генеративного Искусственного Интеллекта // International Journal of Open Information Technologies. — 2024. — Т. 12, № 10. — С. 109–119.

Порывай, Максим Викторович. "Сравнительное исследование методов естественной аугментации изображений." International Journal of Open Information Technologies 12.10 (2024): 26-33.

Если не косинус, то кто?

Хорошая статья: Альтернативы косинусной близости

Wednesday, October 23, 2024

0.1%

Контроль такого количества данных при тренировке LLM позволяет отравить ее обучающий набор:

"Большие языковые модели предварительно обучаются на неконтролируемых текстовых наборах данных, состоящих из триллионов токенов, извлеченных из Интернета. Предыдущие работы показали, что: (1) извлеченные из Интернета предварительно обучающие наборы данных могут быть практически отравлены злоумышленниками; и (2) злоумышленники могут скомпрометировать языковые модели после отравления наборов данных тонкой настройки. Наша работа впервые оценивает, могут ли языковые модели также быть скомпрометированы во время предварительной настройки, с акцентом на постоянство предварительных обучающих атак после того, как модели будут настроены как полезные и безвредные чат-боты. Мы предварительно обучаем ряд LLM с нуля, чтобы измерить влияние потенциального отравляющего противника при четырех различных целях атаки (отказ в обслуживании, манипулирование убеждениями, джейлбрейк и быстрая кража) и в широком диапазоне размеров моделей (от 600 МБ до 7 Б). Наш главный результат заключается в том, что отравление только 0,1% набора данных до обучения модели достаточно для того, чтобы три из четырех атак измеримо сохранялись после обучения. Более того, простые атаки, такие как отказ в обслуживании, сохраняются после обучения с уровнем отравления всего 0,001%." - отсюда

См. также другие публикации, посвященные LLM

Tuesday, October 22, 2024

Состязательные атаки на LLM

"Большая часть работы по состязательным атакам проводится на изображениях. Это работа в непрерывном, многомерном пространстве. Атаки на дискретные данные, такие как текст, считаются гораздо более сложными из-за отсутствия прямых градиентных сигналов. Состязательные атаки — это входные данные, которые заставляют модель выводить что-то нежелательное. Большая часть ранней литературы была сосредоточена на задачах классификации, в то время как недавние усилия начинают больше исследовать выходные данные генеративных моделей. В контексте больших языковых моделей, в этой статье предполагается, что атаки происходят только во время вывода, что означает, что веса модели фиксированы." - хороший обзор атак на LLM

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению и LLM

Цифровые двойники и CPS

Пара интересных работ по использованию цифровых двойников в кибербезопасности кибер-физических систем

"Интеграция и автоматизация промышленных процессов принесли значительный рост эффективности и производительности, но также увеличили риски кибербезопасности, особенно в перерабатывающей промышленности. В этой статье представлена методология, использующая интеллектуальный анализ процессов и цифровых двойников для улучшения обнаружения аномалий в промышленных системах управления (ICS). Преобразуя необработанные журналы устройств в журналы событий, мы обнаруживаем закономерности и аномалии, указывающие на кибератаки, даже когда такие атаки маскируются обычными эксплуатационными данными. Мы представляем подробное исследование случая, воспроизводящего промышленный процесс, чтобы продемонстрировать практическое применение нашего подхода. Экспериментальные результаты подтверждают эффективность нашего метода в выявлении киберфизических атак в реалистичной промышленной обстановке." - отсюда. Иными словами идея следующая: автоматически преобразовать системный журнал в журнал событий, а затем искать паттерны атаки уже по событиям

Безопасность киберфизических систем (CPS) при наличии кибератак имеет решающее значение для благополучия персонала, эксплуатирующего их, и безопасности предоставляемых услуг. Например, CPS может быть развернута в промышленной автоматизации и критической инфраструктуре. Взаимозависимость между ее компонентами подразумевает, что атака на один из них может вызвать каскадный сбой в системе из-за неисправностей (отклонений от поведения соответствия) во время работы компонента(ов). Это может затруднить работу и повлиять на безопасность. Наша цель — проанализировать последствия кибератак на компоненты — чтобы лучше охватить горизонт событий безопасности (границу, до которой события не могут повлиять на безопасность) физической системы. Для этого мы интегрируем модель каскадных отказов в цифровой двойник (DT), используя поведенческие модели компонентов системы на основе вероятностного автомата Мили. Наш DT разработан для обеспечения анализа безопасности путем выявления отклонений, которые могут повлиять на функциональную и физическую безопасность. - отсюда

Monday, October 21, 2024

Атаки во благо

Если нельзя предотвратить, то нужно это возглавить. Добавление состязательных модификаций к исходным данным для защиты.

Состязательные атаки в компьютерном зрении используют уязвимости моделей машинного обучения, внося едва заметные изменения во входные данные, что часто приводит к неверным прогнозам или классификациям. Эти атаки стали более сложными с появлением глубокого обучения, представляя значительные проблемы в критически важных приложениях, которые могут быть вредны для общества. Однако существует также богатое направление исследований с преобразующей точки зрения, которое использует состязательные методы для общественного блага. В частности, мы изучаем рост проактивных схем — методов, которые шифруют входные данные с использованием дополнительных сигналов, называемых шаблонами, для повышения производительности моделей глубокого обучения. Встраивая эти незаметные шаблоны в цифровые носители, проактивные схемы применяются в различных приложениях, от простых улучшений изображений до сложных фреймворков глубокого обучения для повышения производительности по сравнению с пассивными схемами, которые не изменяют распределение входных данных для своего фреймворка. В обзоре рассматриваются методологии, лежащие в основе этих проактивных схем, процессы шифрования и обучения, и их применение в современных приложениях компьютерного зрения и обработки естественного языка. Кроме того, в нем обсуждаются проблемы, потенциальные уязвимости и будущие направления для проактивных схем, в конечном итоге подчеркивая их потенциал для содействия ответственному и безопасному развитию технологий глубокого обучения.

Sunday, October 20, 2024

Что делать с дипфейками?

Дипфейки — гиперреалистичные цифровые подделки — привлекли значительное внимание, поскольку быстрое развитие генеративного ИИ упростило создание убедительно реалистичных видео и аудиозаписей, которые могут обмануть даже самых взыскательных зрителей. Хотя дипфейки являются мощным инструментом социальной инженерии, специалистам по кибербезопасности не нужно обращаться к новым технологиям обнаружения или интенсивным программам обучения «как распознать дипфейк», чтобы снизить риск, который они представляют. Цель этого исследования — предоставить руководство, устойчивое к развивающимся угрозам, усиленным дипфейком, путем применения фундаментальных принципов безопасности.

Ключевые стратегии, которые поддерживает руководство, включают:
– Сосредоточение внимания на соблюдении процесса, а не на визуальном или слуховом обнаружении подделок
– Внедрение и поддержание строгого финансового контроля и процедур проверки
– Развитие культуры осведомленности и скептицизма в отношении необычных запросов.
– Разработка и регулярное обновление планов реагирования на инциденты.

Отсюда: OWASP - Руководство по подготовке и реагированию на события Deepfake

Определить дипфейки уже не удастся. Нужно подготовиться к жизни с ними.

Saturday, October 19, 2024

О борьбе с дипфейками

MIT Technology Review о борьбе с порно-фейками: Three ways we can fight deepfake porn

Эти три способа:
водяные знаки (метки для контента)
модификация изображений для затруднения использования их в генеративном ИИ
законодательство

о детектировании дипфейков речи уже не идет ...

Краткий курс

Краткий курс по ML от университета Беркли - книга в открытом доступе

Friday, October 18, 2024

Сдвиг концепций

"С расцветом методов машинного обучения (ML) специалисты по программному обеспечению создают системы ML для обработки огромного объема потоковых данных для различных задач по программной инженерии, таких как прогнозирование сбоев в AIOps. Обученные с использованием исторических данных, такие модели ML сталкиваются с ухудшением производительности, вызванным дрейфом концепций, т. е. изменениями данных и взаимосвязей (концепций) между обучением и производством. Важно использовать обнаружение разрыва концепций для мониторинга развернутых моделей ML и повторного обучения моделей ML при необходимости.

В этой работе мы исследуем применение современных (SOTA) методов обнаружения дрейфа концепций на синтетических и реальных наборах данных в промышленных условиях. Такие промышленные условия требуют минимальных ручных усилий по маркировке и максимальной общности в архитектуре модели ML. Мы обнаружили, что текущие полуконтролируемые методы SOTA не только требуют значительных усилий по маркировке, но и работают только для определенных типов моделей ML. Чтобы преодолеть такие ограничения, мы предлагаем новую модельно-независимую технику (CDSeer) для обнаружения дрейфа концепций. Наша оценка показывает, что CDSeer имеет лучшую точность и полноту по сравнению с современными решениями, при этом требуя значительно меньше ручной маркировки. Мы демонстрируем эффективность CDSeer при обнаружении дрейфа концепций, оценивая его на восьми наборах данных из разных доменов и вариантов использования. Результаты внутреннего развертывания CDSeer на промышленном запатентованном наборе данных показывают улучшение точности на 57,1% при использовании на 99% меньше меток по сравнению с методом обнаружения дрейфа концепций SOTA. Производительность также сопоставима с контролируемым методом обнаружения дрейфа концепций, который требует маркировки 100% данных. Повышенная производительность и простота внедрения CDSeer ценны для повышения надежности систем машинного обучения." - отсюда

Отражение атак на IDS

IDS-Anta: An open-source code with a defense mechanism to detect adversarial attacks for intrusion detection system

"Система обнаружения вторжений (IDS) имеет решающее значение для защиты организаций от киберугроз. Уязвимость IDS на основе машинного обучения и глубокого обучения к состязательным атакам возникает из-за преднамеренного создания злоумышленниками состязательных образцов. В этом исследовании предлагается репозиторий открытого исходного кода на основе Python под названием IDS-Anta с надежным механизмом защиты для выявления состязательных атак без ущерба для производительности IDS. Он использует многорукие бандиты с выборкой Томсона, оптимизацию колонии муравьев (ACO) и методы генерации состязательных атак и проверен с использованием трех общедоступных наборов данных эталонных тестов. Этот репозиторий кода можно легко применять и реплицировать в наборах данных IDS против состязательных атак."

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Thursday, October 17, 2024

О достоверных данных

Наука о достоверных данных предлагает структуру для оценки достоверности ваших результатов, демонстрируя, что они соответствуют (или предсказуемы) реальному сценарию, в котором они будут применяться, и активно изучая ряд источников неопределенности с помощью серии исследований стабильности, все в контексте реального мира проблемы предметной области.

Эта структура называется структурой предсказуемости, вычислимости и стабильности (PCS). Вы можете показать, что ваши результаты предсказуемы, вычислительно продемонстрировав, что они повторно появляются в соответствующих будущих данных и соответствуют знаниям предметной области (предсказуемость можно рассматривать как проверку реальности), и вы можете показать, что они стабильны, вычислительно продемонстрировав, что они не меняются кардинально, когда соответствующие изменения вносятся в течение всего жизненного цикла. Вычислительно демонстрируя, что ваши результаты предсказуемы и стабильны, вы предоставляете доказательства того, что ваши выводы, основанные на данных (и последующие решения в реальном мире), заслуживают доверия и соответствуют реальности. - книга в открытом доступе

Сенсоры - в блокчейн

Безопасные данные дистанционного зондирования с помощью блокчейна Технология распределенного реестра: решение для умных городов

"В частности, в контексте умных городов данные дистанционного зондирования (ДЗ) стали одной из самых горячих тем для изучения в области информационно-коммуникационных технологий (ИКТ) сегодня. Развитие машинного обучения (МО) и искусственного интеллекта (ИИ) позволило решить ряд проблем, включая автоматизацию, контроль доступа, оптимизацию, мониторинг и управление. Одновременно с этим существуют значительные проблемы с проектированием и разработкой иерархии процессов, включая неадекватные записи обучения, централизованную архитектуру, защиту конфиденциальности данных и общие ограничения потребления ресурсов. С другой стороны, развитие технологии распределенного реестра (DLT) обеспечивает децентрализованную инфраструктуру, которая позволяет системам устранять централизованные процедуры обмена данными умных городов при переходе от одного сетевого узла к другому, а контроль доступа третьей стороны решает проблемы машинного обучения. Для обработки идеального механизма доставки данных для аналитической модели умных городов в статье используется Частичная оптимизация Swam (POS) в сочетании с защищенной распределенной сетью консорциума блокчейна. Эта работа вносит три вклада. Во-первых, она предлагает безопасный метод передачи, который объединяет блокчейн и машинное обучение для оптимизации пути надежной доставки данных по защищенным каналам. Во-вторых, последовательности шифрования соседства выполняются с использованием шифрования значений с поддержкой повторного шифрования NuCypher proxy, криптографического подхода с открытым ключом, который избегает преобразования шифра. В-третьих, искусственные нейронные сети (ИНС) могут решить проблему классификации доставки данных в умных городах за счет оптимизации управления и сохранения записей."

Wednesday, October 16, 2024

Атаки глубокого леса

Уязвимость Deep Forest к состязательным атакам

"Классификаторы машинного обучения уязвимы к состязательным примерам, которые представляют собой тщательно созданные входные данные, предназначенные для скомпрометировать их эффективность классификации. Недавно был предложен новый классификатор машинного обучения, состоящий из лесов деревьев решений, вдохновленных архитектурой глубоких нейронных сетей. Однако глубокие нейронные сети уязвимы к состязательным атакам. Поэтому в этой работе мы запускаем серию состязательных атак на глубокие леса, включая атаки черного ящика и белого ящика, чтобы впервые оценить его уязвимость к состязательным атакам. Предыдущие работы показали, что состязательные примеры, созданным на одной модели, переносятся на различные модели с различными методами обучения. Мы эмпирически демонстрируем, что глубокий лес уязвим к атакам переносимости на основе кросс-техник. С другой стороны, для улучшения производительности глубокого леса в условиях состязательных ситуаций наша работа включает эксперименты, которые демонстрируют, что обучение недифференцируемых моделей, таких как глубокие леса на случайно или состязательно возмущенных входных данных, увеличивает их состязательную устойчивость к таким атакам. Кроме того, предложен эвристический метод белого ящика для атаки на глубокие леса путем реализации более быстрого и эффективного алгоритма атаки дерева решений. Атакуя оба компонента глубокого леса, а именно каскадный лес и многозернистый слой, мы показываем, что глубокие леса восприимчивы к предлагаемой состязательной атаке белого ящика."

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Tuesday, October 15, 2024

Генерация синтетических данных

Генеративные модели в транспортных исследованиях

Глубокие генеративные модели (DGM) быстро развивались в последние годы, став важными инструментами в различных областях благодаря своей способности изучать сложные распределения данных и генерировать синтетические данные. Их важность в транспортных исследованиях все больше признается, особенно для таких приложений, как генерация данных о дорожном движении, прогнозирование и извлечение признаков. Эта статья предлагает всеобъемлющее введение и руководство по DGM с акцентом на их применение в транспорте. Она начинается с обзора генеративных моделей, за которым следуют подробные объяснения фундаментальных моделей, систематический обзор литературы и практический обучающий код для помощи в реализации. В статье также обсуждаются текущие проблемы и возможности, подчеркивая, как эти модели могут быть эффективно использованы и далее развиты в транспортных исследованиях. Эта статья служит ценным справочником, направляющим исследователей и практиков от фундаментальных знаний к передовым приложениям DGM в транспортных исследованиях.

Большое О

Big O notation

O(1)
Это нотация постоянного времени. Время выполнения остается постоянным независимо от размера входных данных. Например, доступ к элементу в массиве по индексу и вставка/удаление элемента в хэш-таблице.

O(n) Линейная нотация времени. Время выполнения растет прямо пропорционально размеру входных данных. Например, поиск максимального или минимального элемента в несортированном массиве.

O(log n)
Логарифмическая нотация времени. Время выполнения медленно увеличивается по мере увеличения входных данных. Например, бинарный поиск в отсортированном массиве и операции над сбалансированными бинарными деревьями поиска.

O(n^2)
Квадратичная нотация времени. Время выполнения растет экспоненциально с размером входных данных. Например, простые алгоритмы сортировки, такие как пузырьковая сортировка, сортировка вставкой и сортировка выбором.

O(n^3)
Кубическая нотация времени. Время выполнения быстро увеличивается по мере увеличения размера входных данных. Например, умножение двух плотных матриц с использованием наивного алгоритма.

O(n logn)
Линейная нотация времени. Это смесь линейного и логарифмического роста. Например, эффективные алгоритмы сортировки, такие как сортировка слиянием, быстрая сортировка и сортировка кучей

O(2^n)
Экспоненциальная нотация времени. Время выполнения удваивается с каждым новым элементом ввода. Например, рекурсивные алгоритмы решают задачи, разделяя их на несколько подзадач.

O(n!)
Факториальная нотация времени. Время выполнения резко возрастает с размером ввода. Например, задачи генерации перестановок.

O(sqrt(n))
Квадратная нотация времени. Время выполнения увеличивается относительно квадратного корня ввода. Например, поиск в диапазоне, таком как решето Эратосфена, для нахождения всех простых чисел до n.

Sunday, October 13, 2024

Вредоносные LLM

Интересная работа Ziong Lin - реальное тестирование вредоносных LLM: Malla: Demystifying Real-world Large Language Model Integrated Malicious Services

Что нового: Зилонг Лин и его коллеги из Университета Индианы в Блумингтоне изучали, как большие языковые модели (LLM) используются для предоставления вредоносных услуг, в частности, для генерации вредоносного кода, фишинговых писем и фишинговых веб-сайтов. Они были не очень эффективны, в общем и целом (хотя высокий уровень успеха может быть необязательным для поддержки процветающего рынка автоматизированной преступной деятельности).

Рискованный бизнес: поставщики основывают такие услуги либо на неотцензурированных LLM — то есть тех, которые не были настроены на отражение человеческих предпочтений или не используют фильтры ввода/вывода — либо на общедоступных моделях, которые они предлагают с помощью методов джейлбрейка, которые обходят встроенные защитные ограждения. Они продают свои услуги на хакерских рынках и форумах, взимая гораздо меньше, чем типичные традиционные поставщики вредоносного ПО, но услуги, основанные на моделях, которые были настроены на предоставление вредоносного вывода, требуют наценки. Авторы обнаружили, что одна услуга принесла доход более 28 000 долларов за два месяца.

Разрастающийся рынок: авторы выявили 212 вредоносных сервисов. Из них 125 размещались на платформе Poe AI, 73 — на FlowGPT, а остальные 14 находились на уникальных серверах. Из них авторы не смогли получить доступ к пяти, поскольку либо провайдер их заблокировал, либо сервис был мошенническим. Они выявили 11 LLM, используемых этими сервисами, включая Claude-2-100k, GPT-4 и Pygmalion-13B (вариант LLaMA-13B).

Тестирование качества вывода: авторы запросили более 200 сервисов, используя более 30 запросов, для генерации вредоносного кода, фишинговых писем или фишинговых веб-сайтов. Они оценивали ответы по следующим параметрам:


Формат: как часто они следовали ожидаемому формату (как определено регулярными выражениями)
Компиляция: как часто сгенерированный код Python, C или C++ мог быть скомпилирован
Достоверность: как часто сгенерированный HTML и CSS успешно запускались как в Chrome, так и в Firefox
Читаемость: как часто сгенерированные фишинговые письма были плавными и связными в соответствии с индексом сложности чтения Ганнинга
Уклончивость или как часто сгенерированный текст успешно проходил все предыдущие проверки и избегал обнаружения VirusTotal (для вредоносного кода и фишинговых сайтов) или OOPSpam (для фишинговых писем).

Во всех трех задачах по крайней мере одна служба достигла уклончивости 67 процентов или выше, в то время как большинство служб достигли уклончивости менее 30 процентов.

Тестирование эффективности в реальных условиях: Кроме того, авторы провели практические тесты, чтобы увидеть, насколько хорошо выходные данные работают в реальных ситуациях. Они побудили девять служб сгенерировать код, который будет нацелен на три конкретные уязвимости, связанные с переполнением буфера и инъекцией SQL. В этих тестах модели были заметно менее успешными.

Авторы протестировали сгенерированный код на наличие двух уязвимостей в VICIdial, системе колл-центра, которая, как известно, уязвима к таким проблемам. Из 22 сгенерированных программ, которые удалось скомпилировать, ни одна не изменила базы данных VICIdial или не раскрыла системные данные. Они также протестировали сгенерированный код на OWASP WebGoat 7.1, веб-сайте, который предоставляет код с известными уязвимостями безопасности. Из 39 сгенерированных программ, которые удалось скомпилировать, семь запустили успешные атаки. Однако эти атаки не были нацелены на конкретные уязвимости, запрошенные авторами.

Почему это важно: Предыдущая работа показала, что сервисы на основе LLM могут генерировать дезинформацию и другой вредоносный вывод, но мало исследований изучали их фактическое использование в киберпреступности. Эта работа оценивает их качество и эффективность. Кроме того, авторы опубликовали подсказки, которые они использовали для обхода ограждений и генерации вредоносного вывода — ресурс для дальнейших исследований, направленных на исправление таких проблем в будущих моделях.

Мы думаем: отрадно видеть, что вредоносные сервисы не продвинулись далеко в реальных тестах, и выводы авторов должны смягчить паникерские сценарии киберпреступности с использованием ИИ. Это не значит, что нам не нужно беспокоиться о вредоносных применениях технологии ИИ. Сообщество ИИ несет ответственность за разработку своих продуктов так, чтобы они были полезными, и тщательно оценивать их на предмет безопасности.

/via deeplearning.ai

См. также другие публикации, посвященные LLM

Friday, October 11, 2024

О проблемах автономного вождения

Интересная работа с анализом аварий в автовождении - ROCAS: Анализ первопричин аварий с автономным вождением через киберфизическую комутацию

"Поскольку автономные системы вождения (ADS) изменили нашу повседневную жизнь, безопасность ADS приобретает все большее значение. Хотя появились различные подходы к тестированию для повышения надежности ADS, остается существенный пробел в понимании причин аварий. Такой анализ после аварий имеет первостепенное значение и полезен для повышения безопасности и надежности ADS. Существующие методы анализа первопричин киберфизических систем (CPS) в основном предназначены для дронов и не могут справиться с уникальными проблемами, возникающими из-за более сложных физических сред и моделей глубокого обучения, развернутых в ADS. В этой статье мы устраняем этот пробел, предлагая формальное определение проблемы анализа первопричин ADS и представляя Rocas, новую структуру анализа первопричин ADS с киберфизической коммутацией. Наша методика уникальным образом использует как физическую, так и кибермутацию, которая может точно идентифицировать сущность, вызывающую аварию, и точно определить неверную конфигурацию целевой ADS, ответственной за аварию. Мы также разрабатываем дифференциальный анализ для определения ответственного модуля, чтобы сократить пространство поиска неверной конфигурации. Мы изучаем 12 категорий аварий ADS и демонстрируем эффективность и результативность Rocas в сужении пространства поиска и выявлении неправильной конфигурации. Мы также показываем подробные примеры того, как выявленная неправильная конфигурация помогает понять обоснование аварий."

Примеры причин аварий:
Принимает красный грузовик за красный свет и внезапно останавливается на кольцевом перекрестке
Опознает неправильный светофор из-за особой формы дороги и внезапно останавливается на дороге

См. в этой связи нашу статью О состязательных атаках на автономные транспортные средства

Wednesday, October 09, 2024

LLM в анализе данных

"В этой статье рассматривается потенциал инструментов на основе ИИ для изменения анализа данных, уделяя особое внимание соображениям и проблемам проектирования. Мы изучаем, как появление больших языковых и мультимодальных моделей открывает новые возможности для улучшения различных этапов рабочего процесса анализа данных путем перевода намерений пользователя высокого уровня в исполняемый код, диаграммы и идеи. Затем мы изучаем принципы проектирования, ориентированные на человека, которые облегчают интуитивное взаимодействие, создают доверие пользователей и оптимизируют рабочий процесс анализа с помощью ИИ в нескольких приложениях. Наконец, мы обсуждаем исследовательские проблемы, которые препятствуют разработке этих систем на основе ИИ, такие как расширение возможностей моделей, оценка и бенчмаркинг, а также понимание потребностей конечного пользователя." - Анализ данных с помощью LLM "

См. также другие публикации, посвященные LLM

Практический IoT

Интересная статья с описанием Open Source архитектурных решений для IoT:

В этой статье обсуждается разработка системы IoT для мониторинга и управления различными устройствами и системами от разных поставщиков. Авторы рассмотрели ключевые проблемы в проектах IoT, такие как совместимость и интеграция, масштабируемость, а также хранение, обработка и визуализация данных на этапах проектирования и развертывания. В дополнение к этим общим проблемам авторы также углубляются в конкретные проблемы интеграции, с которыми они столкнулись. Различные устройства и системы были интегрированы в систему, и для иллюстрации возникших проблем используются пять реальных сценариев в среде университетского городка. Сценарии включают мониторинг различных аспектов среды университетского городка, включая качество воздуха, параметры окружающей среды, энергоэффективность, солнечную фотоэлектрическую энергию и потребление энергии. Авторы проанализировали данные и использование ЦП, чтобы убедиться, что система может обрабатывать большой объем данных, генерируемых устройствами. Разработанная платформа использует проекты с открытым исходным кодом, такие как Home Assistant, InfluxDB, Grafana и Node-RED. Все разработки были опубликованы как проекты с открытым исходным кодом в публичных репозиториях. В заключение следует отметить, что в данной работе подчеркивается потенциал и осуществимость систем Интернета вещей в различных реальных приложениях, важность учета ключевых проблем в проектах Интернета вещей на этапах проектирования и развертывания, а также конкретные проблемы интеграции, с которыми можно столкнуться."

отсюда

См. также другие публикации по теме IoT

Monday, October 07, 2024

Автоматизация запросов

Автоматизированная разработка подсказок: полное практическое руководство
Узнайте, как автоматизировать разработку подсказок и добиться значительных улучшений производительности в рабочей нагрузке LLM. Код доступен на Github

См. также другие публикации, посвященные LLM

Оценка непредвзятости

Оценка предвзятости LLM

См. также другие публикации, посвященные LLM

Saturday, October 05, 2024

Риски генеративных моделей ИИ и их тестирование

"Настоящая статья посвящена обзору рисков генеративных моделей Искусственного Интеллекта. Бурное развитие больших языковых моделей серьезно повысило внимание к безопасности моделей Искусственного интеллекта. С практической точки зрения, в данном случае, речь идет о безопасности моделей глубокого обучения. Большие языковые модели подвержены атакам отравления, атакам уклонения, атакам, направленным на извлечение тренировочных данных и т.д. Но, вместе с этим, появляются и новые атаки, связанные именно с создаваемым контентом. Причем последние составляют очевидное большинство. Поэтому в последнее время появилось много работ, которые пытаются систематизировать все риски генеративных моделей. Этим занимаются, например, OWASP и NIST. Полная таксономия рисков генеративного ИИ должна послужить основой для построения систем тестирования генеративных моделей. В работе приводится обзор спецификаций рисков генеративного ИИ, изложенных OWASP, профилем NIST и репозиторием рисков от MIT. Цель подобных спецификаций – создать базу для тестирования генеративных моделей и инструментов, предназначенных для AI Red Team." - статья О киберрисках генеративного Искусственного Интеллекта

Стороннее тестирование как ключевой элемент политики в области ИИ - пишет Antropic, возможно, основной конкурент Open AI. И в этой связи собирает предложения в рамках своей инициативы по разработке сторонних оценок моделей ИИ

Требования к тестам для LLM

Метрики для оценки LLM приложений

Friday, October 04, 2024

Библиотека промптов

Библиотека промптов для LLM. Довольно большой список задач

См. также другие публикации, посвященные LLM

INJOIT том 12, номер 10

Вышел десятый номер журнала INJOIT в 2024 году. И двенадцатый год издания журнала.

Темы статей:

  • Анализ состязательных атак на системы сегментации изображений
  • Сравнительное исследование методов естественной аугментации изображений
  • Алгоритм защиты от состязательных атак в языковых моделях
  • Development of a web application for applying the analytic hierarchy process
  • Математическая модель фильтрации с учетом капиллярных сил в мультипоровой среде
  • Оценивание с помощью метода наименьших модулей регрессионных моделей с целочисленными функциями пол и потолок
  • Methodology for Analyzing Thematic Co-Authorship Networks
  • Статистическая модель поиска целевых объектов в социальной сети
  • Система мониторинга для балансировки нагрузки узлов распределенной вычислительной системы на основе смартфонов
  • О роли и месте институционального репозитория в цифровой экосистеме научной организации
  • Оценка функциональной (параметрической) полноты информационных рисков
  • О киберрисках генеративного Искусственного Интеллекта
  • Использование автоматизированных информационных систем для улучшения процесса управления доставками: перспективы и вызовы
  • Экономика данных
  • Концепция стохастического метамоделирования интеллектуальных цифровых экосистем
  • Exploring Fine-grained Task Parallelism on Simultaneous Multithreading Cores

/via Лаборатория ОИТ

Архив журнала находится здесь.

Thursday, October 03, 2024

Тестирование LLM

Пример ферймворка для тестирования LLM

См. также другие публикации, посвященные LLM

Как кэшировать базы данных

Схема, которую использует UBER в своей высоконагруженной системе:

Uber построил CacheFront — интегрированное решение для кэширования с Redis, Docstore и MySQL. Чтение и запись файлов с использованием CDC (Change Data Capture). Реализация состоит из 3 основных частей:

1. Чтение и запись с CDC
Вместо микросервиса, механизм запросов Docstore взаимодействует с Redis для запросов на чтение. При попадании в кэш механизм запросов извлекает данные из Redis. При промахах кэша запрос отправляется в механизм хранения и базу данных. В случае записи служба CDC Docstore (Flux) делает записи в Redis недействительными. Она отслеживает события binlog MySQL, чтобы инициировать аннулирование.

2. Разогрев кэша в нескольких регионах с помощью потоковой передачи Redis
Отказ региона может привести к промахам кэша и перегрузке базы данных. Чтобы справиться с этим, инженерная группа Uber использует репликацию Redis между регионами. Это делается путем отслеживания потока записи Redis для репликации ключей в удаленный регион. В удаленном регионе потребитель потока отправляет запросы на чтение в механизм запросов, который считывает базу данных и обновляет кэш.

3. Redis и шардинг Docstore
Все команды в Uber используют Docstore, при этом некоторые генерируют огромное количество запросов. Экземпляры Redis и Docstore шардированы или разделены для обработки нагрузки. Но один кластер Redis, выходящий из строя, может создать горячий шард БД. Чтобы предотвратить это, инженеры разделили кластер Redis, используя схему, отличную от шардинга БД. Это гарантирует равномерное распределение нагрузки.

/via bytebytego.com и Uber