Saturday, September 30, 2023

Об утечке данных

И это не про кибербезопасность. Утечки данных в машинном обучении - это использовать при тренировке модели данные, которые будут недоступны на этапе вывода. В итоге, модель может показывать хорошую произволительность на тестах, но плохо работать на реальных данных.

Friday, September 29, 2023

О робастности метрик

Сравнение робастности регрессионных метрик: MAE, MSE и RMSE

См. также другие публикации, посвященные робастности

Синтетические личности

В некоторых странах - это уже главная проблема при выдаче кредитов банками. Кредиты берут синтетические персоны

Thursday, September 28, 2023

Знания из ничего

Машинное обучение в ситуации, когда количество экземпляров данных меньше, чем количество классов: Learning N Classes From M < N Samples. Вот здесь можно почитать про другие подобные примеры.

В перспективе

Интересный инструмент для визуализации больших наборов данных - Perspective

См. также другие статьи, посвященные визуализации

Monday, September 25, 2023

Международный конгресс «СОВРЕМЕННЫЕ ПРОБЛЕМЫ КОМПЬЮТЕРНЫХ И ИНФОРМАЦИОННЫХ НАУК»

30 ноября - 2 декабря 2023 года на факультете вычислительной математики и кибернетики Московского государственного университета имени М.В. Ломоносова состоится Международный конгресс «СОВРЕМЕННЫЕ ПРОБЛЕМЫ КОМПЬЮТЕРНЫХ И ИНФОРМАЦИОННЫХ НАУК». В рамках Конгресса будут проведены пленарные заседания и серия научных мероприятий, соответствующих приоритетным направлениям развития науки, технологий и техники в Российской Федерации в крупнейшей междисциплинарной области современности - информационно-телекоммуникационные системы - которая объединяет представителей математики, информатики, физики и наук о материалах, компьютерных наук, наук о данных и гуманитарных наук из России и зарубежных стран.

Подробнее об участии - здесь

Saturday, September 23, 2023

Thursday, September 21, 2023

Оценка уязвимостей

Как оценивать уязвимости в программном обеспечении?

Серьезность и возможность использования — это два разных измерения серьезности обнаруженной уязвимости. Усилие по исправлению измеряет сложность работы, необходимой для исправления результата.

Серьезность — это потенциальное влияние на конфиденциальность, целостность и доступность приложения, как это определено в CVSS (Общая система оценки уязвимостей). Возможность использования — это вероятность или легкость, с которой злоумышленник может использовать обнаруженную информацию. Обнаружение высокой важности с высокой вероятностью использования злоумышленником потенциально более опасно, чем обнаружение высокой серьезности с низкой вероятностью использования.

Усилие по исправлению, также называемое сложностью исправления, является мерой ожидаемых усилий, необходимых для исправления результата.

Атаки на сертификацию

Интересная идея - состязательные атаки на алгоритмы сертификации моделей машинного обучения

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Tuesday, September 19, 2023

Просто и эффективно

Архитектура Instagram

Нас этому не учили

Out-of-distribution (OOD) - определить при использовании модели машинного обучения тот факт, что мы встретили данные, отличающиеся от тренировочного набора.

1. Фреймворк для оценки надежности моделей машинного обучения от Google. Предлагается одновременно провести стресс-тестирование производительности «готовой» модели (т. е. прогнозируемого распределения) в терминах неопределенности, надежного обобщения и адаптации к новым данным.

2. Интересный автор из списка MIT Technology Review’s 2023 Innovator of the Year, который занимается исследованиями по данной теме: Sharon Yixuan Li

P.S. см. также другие публикации по теме out-of-ditribution-detection: OOD

P.P.S. статья в журнале INJOIT: Namiot, Dmitry, and Eugene Ilyushin. "Data shift monitoring in machine learning models." International Journal of Open Information Technologies 10.12 (2022): 84-93.

Monday, September 18, 2023

Будьте проще

Очень верные слова Google про web3 - нужно спрятать технологический жаргон от пользователей.

VLAM

Интересно - Vision-Language-Action Models (VLAMs). Использует возможности LLM для выработки суждений для анализа движения

См. также другие публикации, посвященные LLM

Tuesday, September 12, 2023

Sunday, September 10, 2023

Защита моделей ML

Интересная идея - описать ограничения для моделей

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

ML в критических приложениях

Использование систем машинного обучения в военной авиации (DAF). Описывается тестирование и оценка систем машинного обучения.

Ясно выражено то, о чем мы писали в своих статьях о мониторинге работы реальных моделей:
"Commercial solutions will certainly incorporate methodology for monitoring and retraining models, but it is unlikely they will incorporate processes that capture the complex system integration and risk frameworks that apply to DAF systems, especially safetycritical systems in the foreseeable future. The DAF should invest in synthetic data engines, live virtual constructive environments, data repositories, and support for digital twins representative of their modalities and platforms of interest to facilitate rapid model retraining and maintenance. Data standards must be extended to the platforms to support this retraining and enable fast capture of AI-ready data to facilitate retraining around model failure events."

Thursday, September 07, 2023

LLM и кибербезопасность

Хороший и подробный обзор Use of LLMs for Illicit Purposes: Threats, Prevention Measures, and Vulnerabilities

См. также другие публикации, посвященные LLM

AI Red Team - 2

Продолжая тему AI Red Team (см. предыдущую публикацию здесь):

1. Google опубликовал программный документ Securing AI: Similar or Different?

2. Статья Google: Why Red Teams Play a Central Role in Helping Organizations Secure AI Systems

3. Интересное интервью с CISO Google Cloud: What we can learn when responsible hacking meets responsible AI

4. NVIDIA AI Red Team: An Introduction. Хорошее введение в проблему, фреймворк и набор используемых инструментов.

5. Следующая платформа для кибербезопасности - Securing AI: The Next Platform Opportunity in Cybersecurity

6. Red Team для больших языковых моделей (LLM)

Tuesday, September 05, 2023

Мартингалы и робастность

Как еще можно определять сдвиг данных? Использовать мартингалы. Основная причина использования мартингала, а не более известной статистики сдвига распределения, заключается в том, чтобы избежать «группирования» данных временных рядов в произвольно определенные интервалы для расчета распределения. Вот пример.

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Sunday, September 03, 2023

Камуфляж и состязательные атаки

Состязательные атаки на модели машинного обучения бывают в цифровом и физическом доменах. Старейшей формой физической атаки является камуфляж. Вот в данной статье как раз исследуется влияние камуфляжа на распознавание объектов в моделях машинного обучения.

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Все атаки из архива

Статьи, посвященные состязательным атакам из arxiv.org. Поддержка: Nicholas Carlini (атака Carlini-Wagner).

Интересная статья из этого списка: MDTD: A Multi-Domain Trojan Detector for Deep Neural Networks. Идея метода проверть в реальном времени, содержат входные данные триггер или нет. Основывается на том, что "чистые" экземпляры данных, и экземпляры данных с триггером находятся на разных расстояниях от границы решений.

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению