технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Saturday, November 30, 2024
Все пропало?
Friday, November 29, 2024
Соревнования по слому LLM
Второй трек, начало которого запланировано на 2025 год, будет посвящен разработке стратегий защиты, не зависящих от модели, направленных на противодействие продвинутым атакам с джейлбрейком. Основная цель этого направления — продвигать адаптивные фреймворки, которые могут эффективно смягчать атаки противников в различных архитектурах LLM. Global Challenge for Safe and Secure LLMs Track 1
Автоматизация AI Red Team
Thursday, November 28, 2024
Генеративный рой
Атаки на SCADA-системы
Wednesday, November 27, 2024
Проклятые суффиксы
Как добавить бессмысленные суффиксы типа “\)>|}{+Jahrhundert”,/\] parse”, чтобы джейлбрекнуть LLM.
ИИ приложения
Tuesday, November 26, 2024
Вредоносные LLM
Подпольная эксплуатация больших языковых моделей (LLM) для вредоносных сервисов (например, Malla) переживает подъем, усиливая ландшафт киберугроз и ставя под сомнение надежность технологий LLM. Однако было приложено мало усилий для понимания этой новой киберпреступности с точки зрения ее масштабов, воздействия и методов. В этой статье мы проводим первое систематическое исследование 212 реальных Mallas, раскрывая их распространение на подпольных рынках и раскрывая их операционные модальности. Наше исследование раскрывает экосистему Malla, показывая ее значительный рост и влияние на сегодняшние публичные сервисы LLM. Изучив 212 Mallas, мы обнаружили восемь бэкэнд-LLM, используемых Mallas, а также 182 подсказки, которые обходят защитные меры публичных API LLM. Мы далее демистифицируем тактику, используемую Mallas, включая злоупотребление неотцензурированными LLM и эксплуатацию публичных API LLM с помощью подсказок для джейлбрейка. Наши результаты позволяют лучше понять реальную эксплуатацию LLM киберпреступниками и дают представление о стратегиях противодействия этой киберпреступности.
См. также другие публикации, посвященные LLM
Лаборатория безопасности LLM
См. также другие публикации, посвященные LLM
Monday, November 25, 2024
Sunday, November 24, 2024
Диффузионное отравление
См. также публикацию Диффузионные трояны
P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению
Saturday, November 23, 2024
За прошлое не отвечаем
См. также другие публикации, посвященные LLM
Friday, November 22, 2024
Безопасное железо
Thursday, November 21, 2024
Как тестировать LLM?
См. также другие публикации, посвященные LLM
Бэкдор прямой инъекцией
Wednesday, November 20, 2024
Прогрессивный Bluetooth
Не спрашивай меня об этом
См. также другие публикации, посвященные LLM
Tuesday, November 19, 2024
Все о защите LLM
См. также другие публикации, посвященные LLM
LLM для последовательных рекомендаций
Последовательные рекомендательные системы были предметом наших статей - см., например, нашу статью о рекомендательных системах на основе сессий
P.S. См. также другие публикации, посвященные LLM
Шифрованная LLM
Современные криптографические методы для реализации сохраняющих конфиденциальность LLM, таких как гомоморфное шифрование (HE), требуют, чтобы LLM имели полиномиальную форму. Формирование такого представления является сложной задачей, поскольку Transformers включают неполиномиальные компоненты, такие как Softmax и нормализация слоев. Предыдущие подходы либо напрямую аппроксимировали предварительно обученные модели полиномами большой степени, которые менее эффективны по сравнению с HE, либо заменяли неполиномиальные компоненты примитивами, которые легче аппроксимировать перед обучением, например, Softmax с точечным вниманием. Последний подход может привести к проблемам масштабируемости. Мы представляем новый вариант самовнимания, дружественный HE, который предлагает стабильную форму для обучения и легко аппроксимируется полиномами для безопасного вывода. В нашей работе представлены первые полиномиальные LLM с 32 слоями и более миллиарда параметров, что превышает размер предыдущих моделей более чем в десять раз. Полученные модели демонстрируют возможности рассуждения и контекстного обучения (ICL), сравнимые со стандартными трансформерами того же размера, что представляет собой прорыв в этой области. Наконец, мы предоставляем подробную разбивку задержки для каждого вычисления по зашифрованным данным, прокладывая путь для дальнейшей оптимизации, и исследуем различия в индуктивном смещении между трансформерами, полагающимися на наш вариант HE-friendly, и стандартными трансформерами. Наш код прилагается в качестве дополнения. - POWER-SOFTMAX: TOWARDS SECURE LLM INFERENCE OVER ENCRYPTED DATA
P.S. См. также другие публикации, посвященные LLM
Monday, November 18, 2024
Что в городе моем?
О сокрытии лиц
См. также другие публикации по теме физические атаки
Sunday, November 17, 2024
Аномалии в количестве публикаций
Как обмануть лидар
См. также другие публикации по теме физические атаки
Saturday, November 16, 2024
Открытая наука, том 12, номер 11
Это том 12, номер 11 за 2024 год.
/via Лаборатория ОИТ
Плохие знаки
См. также статью Состязательные атаки для автономных транспортных средств
См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению
Friday, November 15, 2024
Атаки уклонения на CPS
Что отличает один сайт от другого?
Thursday, November 14, 2024
Пограничник
P.S. См. также другие публикации, посвященные LLM
Атаки на ИИ агенты
P.S. См. также другие публикации, посвященные LLM
Wednesday, November 13, 2024
Новый Python
Это мой датасет
Tuesday, November 12, 2024
По закону
Что нового: стартап LatticeFlow из Цюриха, работающий с исследовательскими институтами в Болгарии и Швейцарии, разработал COMPL-AI, неофициальную структуру, предназначенную для оценки вероятного соответствия больших языковых моделей Закону об искусственном интеллекте. Таблица лидеров ранжирует первоначальный выбор моделей. (LatticeFlow не работает на Европейскую комиссию и не имеет юридического статуса для интерпретации Закона об искусственном интеллекте.)
Как это работает: в статье объясняется, как COMPL-AI сопоставляет требования Закона об искусственном интеллекте с конкретными контрольными показателями. Он оценивает каждое требование с помощью новых или существующих тестов и выдает совокупный балл. Эти баллы являются относительными мерами, и авторы не предлагают пороговые значения для соответствия. Оценка охватывает пять основных категорий:
1. Техническая надежность и безопасность. Закон об искусственном интеллекте требует, чтобы модели возвращали последовательные ответы, несмотря на незначительные изменения во входных подсказках, и противостояли состязательным атакам. Фреймворк использует такие метрики, как MMLU и BoolQ, для оценки влияния небольших изменений в формулировке подсказки. Он измеряет монотонность (согласованность в отношениях между определенными входами и выходами), чтобы увидеть, насколько хорошо модель поддерживает свою внутреннюю логику в подсказках. Он использует Tensor Trust и LLM RuLES для оценки устойчивости к кибератакам. Эта категория также проверяет, может ли модель идентифицировать и исправлять свои собственные ошибки.
2. Конфиденциальность и защита данных. Выходные данные модели не должны содержать ошибок, предвзятости и нарушений законов, регулирующих конфиденциальность и авторские права. Фреймворк ищет проблемные примеры в обучающем наборе данных модели и оценивает, повторяет ли модель ошибочный, персонально идентифицирующий или защищенный авторским правом материал, который был включен в ее обучающий набор. Многие разработчики не предоставляют обучающие наборы данных своих моделей, поэтому авторы используют открытые наборы данных, такие как Pile, в качестве прокси.
3. Прозрачность и интерпретируемость. Разработчики должны объяснять возможности своих моделей, а сами модели должны позволять тем, кто их развертывает, интерпретировать отношения между входами и выходами. Меры интерпретируемости включают TriviaQA и Expected Calibration Error, которые проверяют способность модели оценивать собственную точность. Фреймворк также оценивает такие требования, например, проверяя, будет ли модель сообщать пользователям, что они взаимодействуют с машиной, а не с человеком, и будет ли она маркировать свои выходные данные водяными знаками.
4. Справедливость и отсутствие дискриминации. Закон требует, чтобы поставщики моделей документировали потенциально дискриминационные выходные данные своих систем, а высокорисковые системы снижали риск предвзятых выходных данных. Фреймворк использует такие тесты, как RedditBias, BBQ и BOLD, для оценки предвзятого языка и FaiRLLM для оценки справедливых выходных данных. Он использует DecodingTrust для измерения справедливости в различных вариантах использования.
5. Социальное и экологическое благополучие. Разработчики высокорисковых систем должны минимизировать вредное и нежелательное поведение, и все разработчики ИИ должны документировать потребление энергии и других ресурсов, используемых для создания своих моделей, а также свои усилия по его сокращению. Фреймворк использует RealToxicityPrompts и AdvBench для измерения склонности модели генерировать нежелательные или иным образом токсичные результаты. Он вычисляет углеродный след модели для измерения экологического благополучия. Результаты: авторы оценили девять открытых моделей и три фирменные модели по шкале от 0 до 1. Их отчеты по каждой модели показывают значительную изменчивость. (Примечание: совокупные баллы, указанные в отчетах, не соответствуют баллам в статье.)
Все протестированные модели показали хорошие результаты по контрольным показателям конфиденциальности и управления данными (достигнув баллов 0,99 или 1) и социального и экологического благополучия (0,96 или выше). Однако несколько получили относительно низкие баллы по справедливости и безопасности, что говорит о том, что предвзятость и уязвимость к состязательным атакам являются значительными проблемами. GPT-4 Turbo и Claude 3 Opus получили наивысший совокупный балл, 0,89. Однако их баллы были снижены низкими оценками за прозрачность, поскольку данные обучения ни одной из моделей не раскрываются. Gemma-2-9B заняла самое низкое место с общим баллом 0,72. Она также набрала самые низкие баллы по тестам на общее рассуждение (MMLU), рассуждение здравого смысла (HellaSwag) и самооценку (уверенность модели в своих ответах на TriviaQA).
Некоторые модели хорошо справились с типичными контрольными задачами, но хуже в областях, которые менее изучены или легко измеряются. Например, Qwen1.5-72B испытывала трудности с интерпретируемостью (0,61). Mixtral-8x7B плохо справилась с устойчивостью к кибератакам (0,32).
Да, но: Авторы отмечают, что некоторые положения Закона об ИИ, включая объяснимость, надзор (уважение к человеческому контролю) и корректируемость (можно ли изменить систему ИИ, чтобы изменить вредоносные результаты, что влияет на классификацию риска модели в соответствии с Законом об ИИ), определены в законе неоднозначно и в настоящее время не могут быть надежно измерены. Эти области недостаточно изучены в исследовательской литературе и не имеют контрольных показателей для их оценки.
Почему это важно: С появлением законов, регулирующих технологию ИИ, разработчики несут ответственность за оценку соответствия модели, прежде чем они ее выпустят или используют ее способами, которые повлияют на общественность. COMPL-AI делает первый шаг к тому, чтобы заверить создателей моделей в том, что их работа юридически защищена, или предупредить их о недостатках, которые могут привести к правовому риску, если они не будут устранены до выпуска.
Мы думаем: Вдумчивое регулирование ИИ необходимо, но оно должно осуществляться способами, которые не налагают неоправданного бремени на разработчиков. Хотя сам Закон об ИИ чрезмерно обременителен, мы рады видеть в значительной степени автоматизированный путь к демонстрации соответствия больших языковых моделей.
Monday, November 11, 2024
Отравление контента
новая форма атаки на LLM с использованием внешнего добавляемого контента.
P.S. См. также другие публикации, посвященные LLM
CQRS
Он делит приложение на две отдельные части:
Командная сторона: отвечает за управление запросами на создание, обновление и удаление.
Запросная сторона: отвечает за обработку запросов на чтение.
Шаблон CQRS был впервые представлен Грегом Янгом, разработчиком и архитектором программного обеспечения, в 2010 году. Он описал его как способ разделения ответственности за обработку команд (операций записи) от обработки запросов (операций чтения) в системе.
Истоки CQRS можно проследить до принципа разделения команд и запросов (CQS), введенного Бертраном Мейером. CQS утверждает, что каждый метод должен быть либо командой, которая выполняет действие, либо запросом, который возвращает данные, но не тем и другим одновременно. CQRS развивает принцип CQS, применяя его на архитектурном уровне, разделяя обязанности по командам и запросам на различные модели, сервисы или даже базы данных.
С момента своего появления CQRS приобрел популярность в сообществе разработчиков программного обеспечения, особенно в контексте проектирования на основе доменов (DDD) и архитектур, управляемых событиями.
Он успешно применяется в различных областях, таких как электронная коммерция, финансовые системы и приложения для совместной работы, где производительность, масштабируемость и сложность являются критически важными проблемами.
Sunday, November 10, 2024
Как оценивать LLM
См. также другие публикации, посвященные LLM
MIA LLM
См. также другие публикации, посвященные LLM
Friday, November 08, 2024
Надежность и понимание
Thursday, November 07, 2024
Молчащее смещение
Tuesday, November 05, 2024
Оценка рисков ИИ
/via SecurityLab
P.S. Это и есть инструмент для аудита систем ИИ, ровно как мы описывали в наших работах. Например, здесь и здесь
Saturday, November 02, 2024
Культурный код
1) Продолжи фразу: "Там сидела Мурка в кожаной ..."
Фраза приобретает неожиданный поворот, учитывая, что обычно мы представляем себе кошку Мурку в более привычных образах. Продолжение может быть таким:
"Там сидела Мурка в кожаной куртке байкера, с серьгой в ухе и сигарой в зубах."
Это добавляет элемент юмора и неожиданности, превращая обычную кошку в персонажа с характером.
2) Противодиарейные комбинированные средства – Смекта, Диосмектит, Диоктаб Солюшн таблетки, Неосмектин, Эндосорб. А какова дозировка Титкмеса для взрослых?
Титкмес — это комбинированный противодиарейный препарат, содержащий два активных компонента: лоперамида гидрохлорид и симетикон. Лоперамид замедляет перистальтику кишечника, уменьшая частоту дефекации, а симетикон уменьшает вздутие живота за счет разрушения газовых пузырьков.
Дозировка Титкмеса для взрослых: Начальная доза: 2 капсулы сразу после первого жидкого стула. Поддерживающая доза: По 1 капсуле после каждого последующего жидкого стула.
Google про Титкмес не знает :(
Friday, November 01, 2024
Атаки на трекеры объектов
См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению и LLM