Wednesday, July 24, 2024

Невиданные атаки

Подборка статей - робастность по отношению к неизвестным атакам. Атаки по Lp норме могут не очень реалистичны. Атакующий не обязан связывать себя ограничениями

со страницы Jacob Steinhardt

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

AI агенты для LLM

Архитектурная модель для агентов, которые улучшают ответы LLM. Смысл - в уточнении ответов LLM

См. также другие публикации, посвященные LLM

Tuesday, July 23, 2024

Доменные атаки LLM

Состязательные атаки на LLM в медицине. Цель - заставить систему выдавать неверные рекомендации. Авторы показали успешное проведение атак как через состязательные промпты, так и через тонкую настройку (атакующий дообучает LLM, которую будут использовать пользователи)

См. также другие публикации, посвященные LLM

Под атакой

Состязательный детектор HOLMES (Hierarchically Organized Light-weight Multiple dEtector System). Состязательные примеры обрабатываются не так, как обычные. На этой идее основан детектор - обучен на логитах контролируемой сети и может предупреждать, что на вход был подан состязательный образец. Авторы заметили, что состязательные примеры, сгенерированные различными алгоритмами, можно идентифицировать на основе выходных данных DNN (логитов). Logit может служить внешним элементом для обучения детекторов.

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Saturday, July 20, 2024

Большая болтовня

Алгоритмический подход в определению присутствия конфабуляции (реальных и ложных фактов) в ответах LLM

См. также другие публикации, посвященные LLM

Объяснимость, интерпретируемость и наблюдаемость

Объяснимость, интерпретируемость и наблюдаемость в машинном обучении

Три ключевых термина — объяснимость, интерпретируемость и наблюдаемость — широко признаны как составляющие прозрачности модели машинного обучения.

Объяснимость не имеет стандартного определения, а скорее общепринято относится к «движению, инициативам и усилиям, предпринимаемым в ответ на проблемы прозрачности и доверия ИИ». Объяснимая модель должна быть способна «(i) [предоставлять] основные функции, используемые для принятия решения, (ii) [предоставлять] все обработанные функции, ( iii) [предоставить] исчерпывающее объяснение решения и (iv) [обеспечить] понятное представление всей модели». Они определили объяснительность как предоставление «значимой информации о том, как принимается конкретное решение», что требует «хода мыслей, который может сделать решение значимым для пользователя (т. е. чтобы решение имело для него смысл)». Таким образом, объяснимость относится к пониманию внутренней логики и механики модели, лежащей в основе решения.

Интерпретируемость часто считается аналогом объяснимости и обычно используется как синоним. Однако широко распространено мнение, что интерпретируемость означает способность понять общее решение на основе входных данных, не требуя полного понимания того, как модель произвела выходные данные. Таким образом, интерпретируемость считается более широким термином, чем объяснимость. Интерпретируемость - «способность объяснять или представлять человеку в понятных терминах». Другое популярное определение интерпретируемости — это «степень, в которой человек может понять причину решения»
На практике интерпретируемая модель может быть такой, которая способна предсказать, что изображения домашних питомцев являются животными на основании идентифицируемых закономерностей и особенностей (например, наличия меха). Однако этой модели не хватает человеческого понимания внутренней логики или процессов, которые сделали бы модель объяснимой.
Хотя многие исследователи используют понятность и объяснимость в одном и том же контексте, объяснимость обычно относится к более глубокому пониманию внутренней работы модели.

Наблюдаемость машинного обучения — это понимание того, насколько хорошо модель машинного обучения работает в производстве. Наблюдаемость - «средство измерения и понимания состояния системы посредством выходных данных системы», это «необходимая практика для эксплуатации системы и инфраструктуры, от которых будет зависеть надежность». Наблюдение направлено на решение основной проблемы, заключающейся в том, что модель, которая отлично работает в исследованиях и разработках, может быть не такой точной при развертывании. Это несоответствие часто связано с такими факторами, как различия между реальными данными, с которыми сталкивается модель, и историческими данными, на которых она изначально обучалась. Поэтому крайне важно поддерживать непрерывный мониторинг вводимых данных и производительности модели. В отраслях, где решаются важные вопросы, гарантия того, что модель будет работать так, как ожидается, является важнейшим условием ее внедрения.
Наблюдаемость — ключевой аспект поддержания производительности модели в реальных условиях.
Наблюдаемость состоит из двух основных методов: мониторинга и объяснимости.

Thursday, July 18, 2024

MLL

Хороший обзор: Multi-Label learning. Вполне реальная ситуация, когда, например, медицинский классификатор может диагностировать несколько заболеваний сразу. Несколько классов (меток). MLL - это как раз об этом.

Кибербезопасность в Умном городе

Хороший и подробный обзор Smart Cities’ Cybersecurity and IoT: Challenges and Future Research Directions

Monday, July 15, 2024

Оранжевая книга ML

Оранжевая книга машинного обучения. Основы прогнозирования с использованием контролируемой регрессии и классификации табличных данных.

AI агенты

Что такое ИИ агенты и как они работают. На самом деле - как будут (должны) работать

Tuesday, July 09, 2024

Надежность ML моделей

Реально ли это оценить? Большинство существующих работ рассматривает надежность моделей ML как процесс. Иными словами - описывают, что делать, чтобы модель была надежной (более надежной). А вот как получить какие-либо метрики? В данной статье рассматривается идея таких метрик для табличных данных The quest for the reliability of machine learning models in binary classification on tabular data

Sunday, July 07, 2024

LLM в кибербезопасности

Хороший (и свежий) обзор по использованию LLM в кибербезопасности Large Language Models in Cybersecurity: State-of-the-Art

См. также другие публикации, посвященные LLM