Страницы

Это мой датасет

По мере того, как внедрение систем машинного обучения (МО) становится все более распространенным, особенно с введением более крупных моделей МО, мы ощущаем растущий спрос на массивные данные. Однако это неизбежно приводит к проблемам нарушения и неправильного использования данных, таким как использование несанкционированных онлайн-произведений искусства или изображений лиц для обучения моделей МО. Для решения этой проблемы было предпринято много усилий для аудита авторских прав на набор данных для обучения модели. Однако существующие решения различаются по предположениям и возможностям аудита, что затрудняет сравнение их сильных и слабых сторон. Кроме того, оценки надежности обычно учитывают только часть конвейера МО и едва ли отражают производительность алгоритмов в реальных приложениях МО. Таким образом, важно взять практическую перспективу развертывания текущих инструментов аудита авторских прав на наборы данных, изучив их эффективность и ограничения. Конкретно, мы разделяем исследования аудита авторских прав на наборы данных на два основных направления: интрузивные методы и неинтрузивные методы, в зависимости от того, требуют ли они изменения исходного набора данных. Затем мы разбиваем интрузивные методы на различные варианты внедрения водяных знаков и изучаем неинтрузивные методы с использованием различных отпечатков. Чтобы подвести итог нашим результатам, мы предлагаем подробные справочные таблицы, выделяем ключевые моменты и выявляем нерешенные проблемы в текущей литературе. Объединяя конвейер в системах МО и анализируя предыдущие исследования, мы выделяем несколько будущих направлений, чтобы сделать инструменты аудита более подходящими для реальных требований защиты авторских прав. - SoK: Dataset Copyright Auditing in Machine Learning Systems

Tuesday, November 12, 2024

По закону

Соответствует ли ваша модель Закону об искусственном интеллекте? Новое исследование предполагает, что ведущие модели искусственного интеллекта могут соответствовать требованиям Закона об искусственном интеллекте Европейского союза в некоторых областях, но, вероятно, не во всех.

Что нового: стартап LatticeFlow из Цюриха, работающий с исследовательскими институтами в Болгарии и Швейцарии, разработал COMPL-AI, неофициальную структуру, предназначенную для оценки вероятного соответствия больших языковых моделей Закону об искусственном интеллекте. Таблица лидеров ранжирует первоначальный выбор моделей. (LatticeFlow не работает на Европейскую комиссию и не имеет юридического статуса для интерпретации Закона об искусственном интеллекте.)

Как это работает: в статье объясняется, как COMPL-AI сопоставляет требования Закона об искусственном интеллекте с конкретными контрольными показателями. Он оценивает каждое требование с помощью новых или существующих тестов и выдает совокупный балл. Эти баллы являются относительными мерами, и авторы не предлагают пороговые значения для соответствия. Оценка охватывает пять основных категорий:

1. Техническая надежность и безопасность. Закон об искусственном интеллекте требует, чтобы модели возвращали последовательные ответы, несмотря на незначительные изменения во входных подсказках, и противостояли состязательным атакам. Фреймворк использует такие метрики, как MMLU и BoolQ, для оценки влияния небольших изменений в формулировке подсказки. Он измеряет монотонность (согласованность в отношениях между определенными входами и выходами), чтобы увидеть, насколько хорошо модель поддерживает свою внутреннюю логику в подсказках. Он использует Tensor Trust и LLM RuLES для оценки устойчивости к кибератакам. Эта категория также проверяет, может ли модель идентифицировать и исправлять свои собственные ошибки.

2. Конфиденциальность и защита данных. Выходные данные модели не должны содержать ошибок, предвзятости и нарушений законов, регулирующих конфиденциальность и авторские права. Фреймворк ищет проблемные примеры в обучающем наборе данных модели и оценивает, повторяет ли модель ошибочный, персонально идентифицирующий или защищенный авторским правом материал, который был включен в ее обучающий набор. Многие разработчики не предоставляют обучающие наборы данных своих моделей, поэтому авторы используют открытые наборы данных, такие как Pile, в качестве прокси.

3. Прозрачность и интерпретируемость. Разработчики должны объяснять возможности своих моделей, а сами модели должны позволять тем, кто их развертывает, интерпретировать отношения между входами и выходами. Меры интерпретируемости включают TriviaQA и Expected Calibration Error, которые проверяют способность модели оценивать собственную точность. Фреймворк также оценивает такие требования, например, проверяя, будет ли модель сообщать пользователям, что они взаимодействуют с машиной, а не с человеком, и будет ли она маркировать свои выходные данные водяными знаками.

4. Справедливость и отсутствие дискриминации. Закон требует, чтобы поставщики моделей документировали потенциально дискриминационные выходные данные своих систем, а высокорисковые системы снижали риск предвзятых выходных данных. Фреймворк использует такие тесты, как RedditBias, BBQ и BOLD, для оценки предвзятого языка и FaiRLLM для оценки справедливых выходных данных. Он использует DecodingTrust для измерения справедливости в различных вариантах использования.

5. Социальное и экологическое благополучие. Разработчики высокорисковых систем должны минимизировать вредное и нежелательное поведение, и все разработчики ИИ должны документировать потребление энергии и других ресурсов, используемых для создания своих моделей, а также свои усилия по его сокращению. Фреймворк использует RealToxicityPrompts и AdvBench для измерения склонности модели генерировать нежелательные или иным образом токсичные результаты. Он вычисляет углеродный след модели для измерения экологического благополучия. Результаты: авторы оценили девять открытых моделей и три фирменные модели по шкале от 0 до 1. Их отчеты по каждой модели показывают значительную изменчивость. (Примечание: совокупные баллы, указанные в отчетах, не соответствуют баллам в статье.)

Все протестированные модели показали хорошие результаты по контрольным показателям конфиденциальности и управления данными (достигнув баллов 0,99 или 1) и социального и экологического благополучия (0,96 или выше). Однако несколько получили относительно низкие баллы по справедливости и безопасности, что говорит о том, что предвзятость и уязвимость к состязательным атакам являются значительными проблемами. GPT-4 Turbo и Claude 3 Opus получили наивысший совокупный балл, 0,89. Однако их баллы были снижены низкими оценками за прозрачность, поскольку данные обучения ни одной из моделей не раскрываются. Gemma-2-9B заняла самое низкое место с общим баллом 0,72. Она также набрала самые низкие баллы по тестам на общее рассуждение (MMLU), рассуждение здравого смысла (HellaSwag) и самооценку (уверенность модели в своих ответах на TriviaQA).

Некоторые модели хорошо справились с типичными контрольными задачами, но хуже в областях, которые менее изучены или легко измеряются. Например, Qwen1.5-72B испытывала трудности с интерпретируемостью (0,61). Mixtral-8x7B плохо справилась с устойчивостью к кибератакам (0,32).

Да, но: Авторы отмечают, что некоторые положения Закона об ИИ, включая объяснимость, надзор (уважение к человеческому контролю) и корректируемость (можно ли изменить систему ИИ, чтобы изменить вредоносные результаты, что влияет на классификацию риска модели в соответствии с Законом об ИИ), определены в законе неоднозначно и в настоящее время не могут быть надежно измерены. Эти области недостаточно изучены в исследовательской литературе и не имеют контрольных показателей для их оценки.

Почему это важно: С появлением законов, регулирующих технологию ИИ, разработчики несут ответственность за оценку соответствия модели, прежде чем они ее выпустят или используют ее способами, которые повлияют на общественность. COMPL-AI делает первый шаг к тому, чтобы заверить создателей моделей в том, что их работа юридически защищена, или предупредить их о недостатках, которые могут привести к правовому риску, если они не будут устранены до выпуска.

Мы думаем: Вдумчивое регулирование ИИ необходимо, но оно должно осуществляться способами, которые не налагают неоправданного бремени на разработчиков. Хотя сам Закон об ИИ чрезмерно обременителен, мы рады видеть в значительной степени автоматизированный путь к демонстрации соответствия больших языковых моделей.

Отсюда

Monday, November 11, 2024

Отравление контента

Большие языковые модели (LLM) продемонстрировали свои превосходные возможности в обработке естественного языка, продвигая обширные приложения на основе LLM в качестве новых порталов для людей, чтобы получить доступ к различному контенту в Интернете. Однако приложения на основе LLM не имеют достаточных соображений безопасности для ненадежного контента, что приводит к потенциальным угрозам. В этой статье мы раскрываем отравление контента, когда злоумышленники могут адаптировать контент атаки, который кажется безобидным для людей, но заставляет приложения на основе LLM генерировать вредоносные ответы. Чтобы подчеркнуть влияние отравления контента и вдохновить на разработку эффективной защиты, мы систематически анализируем атаку, сосредоточившись на режимах атаки в различном контенте, эксплуатируемых особенностях конструкции фреймворков приложений LLM и генерации контента атаки. Мы проводим комплексную оценку пяти LLM, где отравление контента достигает среднего показателя успешности атаки 89,60%. Кроме того, мы оцениваем отравление контента в четырех популярных приложениях на базе LLM, достигая атаки на 72,00% контента. Наши экспериментальные результаты также показывают, что существующие средства защиты неэффективны против отравления контента. Наконец, мы обсуждаем потенциальные меры по смягчению последствий для фреймворков приложений LLM, чтобы противостоять отравлению контента. - Imperceptible Content Poisoning in LLM-Powered Applications

новая форма атаки на LLM с использованием внешнего добавляемого контента.

P.S. См. также другие публикации, посвященные LLM

CQRS

CQRS (Command Query Responsibility Segregation) — это архитектурный шаблон, который разделяет задачи чтения и записи данных.

Он делит приложение на две отдельные части:

Командная сторона: отвечает за управление запросами на создание, обновление и удаление.

Запросная сторона: отвечает за обработку запросов на чтение.

Шаблон CQRS был впервые представлен Грегом Янгом, разработчиком и архитектором программного обеспечения, в 2010 году. Он описал его как способ разделения ответственности за обработку команд (операций записи) от обработки запросов (операций чтения) в системе.

Истоки CQRS можно проследить до принципа разделения команд и запросов (CQS), введенного Бертраном Мейером. CQS утверждает, что каждый метод должен быть либо командой, которая выполняет действие, либо запросом, который возвращает данные, но не тем и другим одновременно. CQRS развивает принцип CQS, применяя его на архитектурном уровне, разделяя обязанности по командам и запросам на различные модели, сервисы или даже базы данных.

С момента своего появления CQRS приобрел популярность в сообществе разработчиков программного обеспечения, особенно в контексте проектирования на основе доменов (DDD) и архитектур, управляемых событиями.

Он успешно применяется в различных областях, таких как электронная коммерция, финансовые системы и приложения для совместной работы, где производительность, масштабируемость и сложность являются критически важными проблемами.

Отсюда

Sunday, November 10, 2024

Как оценивать LLM

Хорошая техническая статья по тестированию LLM.

См. также другие публикации, посвященные LLM

MIA LLM

В этом исследовании мы представляем первый бенчмарк атаки вывода членства (MIA - membership inference attack), адаптированный для различных VLLM, чтобы облегчить обнаружение обучающих данных.

См. также другие публикации, посвященные LLM

Friday, November 08, 2024

Надежность и понимание

В последние годы вопрос надежности методов машинного обучения (МО) приобрел важное значение, и анализ связанных с этим неопределенностей мотивировал все больше исследований. Однако большинство этих исследований применяли анализ стандартной ошибки к моделям МО, и в частности к моделям глубоких нейронных сетей (DNN), которые представляют собой довольно значительный отход от стандартного научного моделирования. Поэтому необходимо интегрировать анализ стандартной ошибки с более глубоким эпистемологическим анализом возможных различий между моделями DNN и стандартным научным моделированием и возможных последствий этих различий в оценке надежности. В этой статье предлагается несколько вкладов. Во-первых, она подчеркивает повсеместную роль предположений модели (как в МО, так и в традиционной науке) против иллюзии науки, свободной от теорий. Во-вторых, предположения модели анализируются с точки зрения их (эпистемической) сложности, которая, как показано, не зависит от языка. Утверждается, что высокая эпистемическая сложность моделей DNN затрудняет оценку их надежности, а также их перспектив долгосрочного прогресса. Предлагаются некоторые потенциальные пути продвижения вперед. В-третьих, в этой статье определяется тесная связь между эпистемической сложностью модели и ее интерпретируемостью, как это представлено в контексте ответственного ИИ. Это проясняет, в каком смысле — и в какой степени — отсутствие понимания модели (проблема черного ящика) влияет на ее интерпретируемость способом, который не зависит от индивидуальных навыков. Это также проясняет, как интерпретируемость является предпосылкой для правдоподобной оценки надежности любой модели, которая не может быть основана только на статистическом анализе. В этой статье основное внимание уделяется сравнению традиционных научных моделей и моделей DNN. Однако также кратко рассматриваются модели случайного леса (RF) и логистической регрессии (LR). - отсюда

Thursday, November 07, 2024

Tuesday, November 05, 2024

Оценка рисков ИИ

В индустрии искусственного интеллекта (ИИ) появился новый инструмент для оценки рисков — SAIF Risk Assessment, разработанный для повышения безопасности ИИ-систем. Этот интерактивный инструмент позволяет разработчикам и компаниям оценить свою защищённость, определить потенциальные угрозы и укрепить систему безопасности.

/via SecurityLab

P.S. Это и есть инструмент для аудита систем ИИ, ровно как мы описывали в наших работах. Например, здесь и здесь

Saturday, November 02, 2024

Культурный код

Из бесед с одной LLM:

1) Продолжи фразу: "Там сидела Мурка в кожаной ..."

Фраза приобретает неожиданный поворот, учитывая, что обычно мы представляем себе кошку Мурку в более привычных образах. Продолжение может быть таким:
"Там сидела Мурка в кожаной куртке байкера, с серьгой в ухе и сигарой в зубах."
Это добавляет элемент юмора и неожиданности, превращая обычную кошку в персонажа с характером.

2) Противодиарейные комбинированные средства – Смекта, Диосмектит, Диоктаб Солюшн таблетки, Неосмектин, Эндосорб. А какова дозировка Титкмеса для взрослых?

Титкмес — это комбинированный противодиарейный препарат, содержащий два активных компонента: лоперамида гидрохлорид и симетикон. Лоперамид замедляет перистальтику кишечника, уменьшая частоту дефекации, а симетикон уменьшает вздутие живота за счет разрушения газовых пузырьков.

Дозировка Титкмеса для взрослых: Начальная доза: 2 капсулы сразу после первого жидкого стула. Поддерживающая доза: По 1 капсуле после каждого последующего жидкого стула.

Google про Титкмес не знает :(

Friday, November 01, 2024

Атаки на трекеры объектов

"В последние годы значительное внимание привлекло устранение уязвимости глубоких нейронных сетей (DNN). Хотя недавние исследования по состязательным атакам и защите в основном касались одного изображения, было предпринято мало усилий для выполнения временных атак на видеопоследовательности. Поскольку временная согласованность между кадрами не учитывается, существующие подходы к состязательным атакам, разработанные для статических изображений, неэффективны для глубокого отслеживания объектов. В этой работе мы генерируем состязательные примеры поверх видеопоследовательностей, чтобы повысить надежность отслеживания против состязательных атак в настройках белого и черного ящика. С этой целью мы учитываем сигналы движения при генерации легких возмущений по оценочным результатам отслеживания по кадрам. Для атаки белого ящика мы генерируем временные возмущения с помощью известных трекеров, чтобы значительно ухудшить производительность отслеживания. Мы передаем сгенерированные возмущения в неизвестные целевые трекеры для атаки черного ящика, чтобы добиться переноса атак. Кроме того, мы обучаем универсальные состязательные возмущения и напрямую добавляем их во все кадры видео, повышая эффективность атаки с небольшими вычислительными затратами. С другой стороны, мы последовательно учимся оценивать и удалять возмущения из входных последовательностей, чтобы восстановить производительность отслеживания. Мы применяем предложенные состязательные подходы к атаке и защите к современным алгоритмам отслеживания. Обширные оценки на крупномасштабных наборах данных эталонных тестов, включая OTB, VOT, UAV123 и LaSOT, показывают, что наш метод атаки значительно ухудшает производительность отслеживания с благоприятной переносимостью на другие магистрали и трекеры. В частности, предложенный метод защиты восстанавливает исходную производительность отслеживания в некоторой степени и достигает дополнительного прироста производительности, когда не находится под состязательными атаками" - Robust Deep Object Tracking against Adversarial Attacks

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению и LLM