Страницы

Friday, December 29, 2023

Разреженные атаки черного ящика

Атаки черного ящика на модели машинного обучения обычно ассоциируются с множеством запросов, которые необходимо отправлять атакующему. Это не всегда возможно и, уж точно, совсем не практично. В данной статье рассматриваются так называемые разреженные атаки, которые ограничивают количество запросов.

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Thursday, December 28, 2023

Wednesday, December 27, 2023

Разведочный анализ данных

Advanced exploratory data analysis (EDA) - хорошо написанная статья и Jupyter Notebook

Fast and easy data exploration for machine-learning - пример использования библиотеки fast_eda. Помимо поиска возможных ошибок в данных и анализа пропущенных значений, этот пакет еще помогает искать утечки данных.

См. также другие публикации, посвященные EDA

О тестировании систем ML

Серия публикаций, посвященных тестированию ML

См. также другие публикации, по теме тестирование

Tuesday, December 26, 2023

Категорирование журналов ВАК

Появился новый список категорий журналов ВАК. Утвержденные категории действуют три года, начиная с с 1 января 2024 года.

Журнал INJOIT - категория K1

Monday, December 25, 2023

Обнаружение выбросов

Обнаружение выбросов — это задача машинного обучения без учителя, направленная на выявление аномалий (необычных наблюдений) в заданном наборе данных. Рассмотрены следующие алгоритмы:

Эллиптический конверт - подходит для нормально распределенных данных с низкой размерностью. Как следует из названия, он использует многомерное нормальное распределение для создания меры расстояния для отделения выбросов от нормальных значений.

Локальный фактор выбросов — это сравнение локальной плотности наблюдения с плотностью его соседей. Наблюдения с гораздо меньшей плотностью, чем у их соседей, считаются выбросами.

Одноклассовая машина опорных векторов (SVM) со стохастическим градиентным спуском (SGD) - представляет собой приблизительное решение O(n) SVM одного класса.

Изолированный лес — это древовидный подход, при котором выбросы изолируются случайным образом быстрее, чем нормальные значения.

Sunday, December 24, 2023

Объяснения для LLM

Коллекция материалов Awesome LLM Interpretability

См. также другие публикации, посвященные LLM

Friday, December 22, 2023

1000 авторов

Что вы не знали о соавторах - статья Google о Gemini. Одна тысяча авторов. Кстати, это еще и оценка стоимости создания таких систем - все эти люди на зарплате.

См. также другие публикации, посвященные LLM

Новые стандарты ИИ

ПНСТ 870-2023 «Искусственный интеллект в переработке сельскохозяйственной продукции и производстве пищевой продукции. Варианты использования для автоматизации управления процессами»;
ПНСТ 861-2023 «Искусственный интеллект. Системы операционной аналитики потоков пространственно-временных данных на основе искусственного интеллекта. Основные положения»;
ПНСТ 862-2023 «Искусственный интеллект. Системы операционной аналитики потоков пространственно-временных данных на основе искусственного интеллекта. Термины и определения»;
ПНСТ 838-2023 «Искусственный интеллект. Структура описания систем искусственного интеллекта, использующих машинное обучение»;
ПНСТ 839-2023 «Искусственный интеллект. Смещенность в системах искусственного интеллекта и при принятии решений с помощью искусственного интеллекта»;
ПНСТ 841-2023 «Системная и программная инженерия. Требования и оценка качества систем и программного обеспечения (SQuaRE). Руководство по оценке качества систем искусственного интеллекта»;
ПНСТ 843-2023 «Информационные технологии. Стратегическое управление информационными технологиями. Последствия влияния стратегического управления при использовании искусственного интеллекта организациями»;
ПНСТ 844-2023 «Искусственный интеллект. Методология оценки разработки программного обеспечения для глубокого обучения».

Saturday, December 16, 2023

Борьба с галлюцинациями

Fine-tuning Language Models for Factuality - научить LLM фактам

Отсюда

См. также другие публикации, посвященные LLM

Thursday, December 14, 2023

Tuesday, December 12, 2023

На чем учили?

И еще про извлечение тренировочных данных из LLM

См. также другие публикации, посвященные LLM, а также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

ML YaTalks

Запись секции по машинному обучению конференции YaTalks 2023

Saturday, December 09, 2023

Павшие на измену

Отравленные отклики в Reinforcement Learning для обучения LLM. Магическим образом они изменяют поведение LLM :)

См. также другие публикации, посвященные LLM

Извлечение данных из LLM

Атака извлечения данных для LLM. Как получить тренировочные данные модели.

См. также другие публикации, посвященные LLM, а также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Thursday, December 07, 2023

Военный эмулятор

Эмулятор для систем вооружения с искусственным интеллектом - GhostPlay

Wednesday, December 06, 2023

Хмм ...

Простая иллюстрация работы HMM (Hidden Markov Model). Код на Python.

Граф знаний и LLM

Перекачивание графа знаний в LLM. Neo4J позиционирует себя как основной продукт для knowledge graph. См. также следующую публикацию

См. также другие публикации, посвященные LLM

О социальной динамике

Когда-то с подобных работ начинались проекты по краудсенсингу. В социальной динамике исследовались перемещения людей на основе треков их мобильных устройств (оригинально - в MIT). Вот современное состояние - анализ сегрегации жителей города

Тестирование по словарю

Специальный датасет для тестирования LLM: FLAMES (Fairness, Legality, Data protection, Morality, Safety)

См. также другие публикации, посвященные LLM

Sunday, December 03, 2023

Friday, December 01, 2023

Аудит и сертификация систем машинного обучения

Презентация, посвященная аудиту систем машинного обучения. Аудит должен быть обязательной процедурой для промышленных систем ИИ.

Thursday, November 30, 2023

Обучение без учителя

"Для внедрения ИИ в практику нужны серьезные технические решения, к которым готовы далеко не все медучреждения, сказывается и дефицит кадров в этой области, добавляет гендиректор сервиса онлайн-расшифровки снимков «Честная медицина» Дмитрий Росляков. Михаил Виноградов основную проблему видит в том, что ИИ приходится учиться в том числе на снимках, где врач не выделил патологию, никак не прокомментировал данные и не подтвердил диагноз."

Отсюда

Wednesday, November 29, 2023

Техники допроса

Техники prompt engineering

См. также другие публикации по теме prompt и LLM

Tuesday, November 28, 2023

Управляемые нейронные сети

Steerable Neural Networks. Расширение для CNN, когда возможна не только трансляция, нои другие преобразования (повороты и т.п.)

Забудь все это

Программные подходы к стиранию памяти LLM

См. также другие публикации, посвященные LLM

Monday, November 27, 2023

ML RIGVIR

Машинное обучение и онковирусы. Статья и презентация для конференции FRUCT 2023

Thursday, November 23, 2023

Состязательные атаки и защиты для графовых моделей

Коллекция атак и защит для GNN

P.S. см. также другие публикации, посвященные GNN, а также также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Friday, November 17, 2023

LLM оценивает LLM

Использование LLM для оценки LLM

См. также другие публикации, посвященные LLM

Как учить LLM

В порядке борьбы с галлюцинациями: данные берутся из внешних источников. LLM отвечает за интепретацию полученных данных в контексте запроса.

Отсюда

См. также другие публикации, посвященные LLM

Sunday, November 12, 2023

Нюансы Redis

Хорошее описание деталей работы с Redis

См. также другие публикации, посвященные Redis

Friday, November 10, 2023

О контрфактических примерах

On the Practical Generation of Counterfactual Examples

One of the important elements in evaluating the stability of machine learning systems are the so-called adversarial examples. These are specially selected or artificially created input data for machine learning systems that interfere with their normal operation, are interpreted or processed incorrectly. Most often, such data are obtained through some formal modifications of the real source data. This article considers a different approach to creating such data, which takes into account the semantic significance (meaning) of the modified data - counterfactual examples. The purpose of the work is to present practical solutions for generating counterfeit examples. The consideration is based on the real use of counterfactual examples in assessing the robustness of machine learning systems.

Thursday, November 09, 2023

GDAL

GDAL - Geospatial Data Abstraction Library. Открытая альтернатива коммерческим GIS.

Tuesday, November 07, 2023

О состязательных тренировках

Регулярный поход к возмущению исходных данных для построения устойчивых моделей анализа трафика. Интересная и практическая идея.

Monday, November 06, 2023

Инверсия черного ящика

Атака инверсии модели (восстановление приватных тренировочных данных) в режиме черного ящика. Довольно впечатляющие результаты. От атакуемой модели известны только метки (результаты работы).

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Saturday, November 04, 2023

Оглянись назад

Интересная техника задания вопросов LLM - Step-Back Prompting. Формирование абстрактных знаний для цепочки рассуждений.

См. также другие публикации, посвященные LLM

Friday, November 03, 2023

Где ваши тесты?

"...developers must watermark generated outputs and share results of safety tests conducted by so-called red teams" - из американского закона о безопасных системах ИИ.

См. также другие публикации, посвященные Red Team

Thursday, November 02, 2023

Знай это !

Руководство по загрузке фактов в LLM. RAG - retrieval augmented generation

См. также другие публикации, посвященные LLM

Wednesday, November 01, 2023

Про работу

Очень правильный текст от рекрутера из Linkedin. Именно так и нужно делать. Один момент добавлю к тому, что ниже. Домашняя работа - изучите и другие вакансии в компании. Нужно понять про компанию - кто они? Постарайтесь понять, что (кто) им нужно на самом деле. Кто они в технологиях (стек, архитектуры и т.п.). И исходя их этого и правьте (настраивайте) резюме.

Поиск работы за рубежом - это навык. Ему можно научиться, но важно разобраться, как именно работает система.

Очень важно, какую историю вы о себе рассказываете. Ваша история должна быть последовательна, из неё должно быть очевидно, как именно вы росли в профессию.

Затачивайте весь свой бэкграунд под конкретную вакансию или под ту позицию, которую ищете (если речь про публичное резюме или профиль в Linkedin).
Зачем это делать:
Никто не догадается, что вы идеально подходящий кандидат, пока вы это не объясните в резюме.
Если работодатель не увидит в вашем резюме, чем ваш опыт релевантен задачам вакансии, вы получите отказ.
Вас может спасти прямой рефёрал, который поручится, что вы норм. Но на всех работодателей рефёралов не напасёшься.

Как описывать опыт, если кратко: вот что я делал, вот каких результатов добивался, вот такая ответственность у меня была, вот так я развивался как профессионал в течении нескольких лет
Резюме нужно затачивать под позицию, под тип позиции и даже под индустрию.
Очень важно показывать правильные ключевые слова, правильное описание того, что вы делали.
Везде нужно описывать достижения и/или результаты.

Со стороны почти никогда не понятно, кто вы как профессионал. Люди — не телепаты! Поэтому, делайте краткое Summary в начале вашего резюме, чтобы объяснить незнакомому человеку, в чем именно вы профи.
Summary должен быть очень релевантно той позиции, на которую вы подаётесь.

Компания вас нанимает не для того, чтобы закрыть вакансию, а для того, чтобы решить какую-то бизнес-задачу.
Работодатель хочет увидеть, что у вас уже есть релевантный опыт, который компания хочет купить. Чтобы это показать, опишите в своём резюме результаты, которые вы достигали ранее и заточите их под требования вакансии. Если работодатель видит, что вы достигали ровно таких результатов, которые нужны компании, он априори считает, что вы способны решить задачу его бизнеса.

Руководство по визуализации

Объемное руководство по визуализации данных

P.S. см. также другие публикации, посвященные визуализации данных

Tuesday, October 31, 2023

Понимание глубокого обучения

Интересная книга в открытом доступе Understanding Deep Learning

P.S. см. также другие материалы, посвященные deep learning

Thursday, October 26, 2023

Wednesday, October 25, 2023

Эмбеддинги

Много всего про embeddings

См. также другие публикации по теме embeddings

Tuesday, October 24, 2023

Twin network

Интересная модель использования контрфактических примеров. Сети-близнецы рассматривают контрфакты как пару вероятностных моделей: одна представляет реальный мир, другая — вымышленный. Модели связаны таким образом, что модель реального мира ограничивает модель вымышленного мира, сохраняя ее неизменной во всех отношениях, за исключением фактов, которые вы хотите изменить. Отсюда.

Monday, October 23, 2023

AI Red Teaming LLM

1. AI Red Teaming LLM - продукт компании Adversa. Они же публикуют периодический дайджест - LLM security.

2. OpenAI формирует сеть экспертов Red teaming network

См. также другие публикации, посвященные LLM

Интернет Военных вещей

Магистерская диссертация по IoMT. Главный вопрос - насколько технология LoRa применима в таких специальных областях. Работы такие есть.

Saturday, October 21, 2023

Проверь себя

Тесты на знание Python

См. также другие публикации, посвященные pandas или Python

Friday, October 20, 2023

Модели использования LLM

Как большие модели используются в бизнесе прямо сейчас. И отдельный обзор - использование LLM в медицине

См. также другие публикации, посвященные LLM

Thursday, October 19, 2023

Как оценивать LLM

Подробный обзор метрик и фреймворков для оценки LLM

См. также другие публикации, посвященные LLM

Wednesday, October 18, 2023

Что использовать?

Auto feature selection в Python. Библиотека с открытым кодом

См. также другие публикации, посвященные feature analysis

Low code ML

Еще один обзор решений для машинного обучения без программирования

См. также другие публикации, посвященные Low code

Агенты для LLM

Агенты для выполнения задач большими моделями. Код для бенчамарков - открыт

См. также другие публикации, посвященные LLM

Saturday, October 14, 2023

Безопасность LLM

Интересный портал по безопасности больших языковых моделей - LLM security. У автора есть еще и Twitter

Примеры диалогов с одной отечественной LLM:

Q:Татарстан граничит с Дагестаном?
A: Да, Республика Татарстан расположена на юго-востоке Европейской части России и граничит с несколькими регионами. На севере она омывается водами реки Волга, на востоке — Камским водохранилищем, на западе — рекой Кама.

Q:Что расположено на морском побережье Белоруссии? Что лучше для туристов?
A: Морское побережье Белоруссии находится в пределах Балтийского моря и Калининградского залива. Здесь расположены города-курорты, такие как Светлогорск, Зеленоградск, Пионерский и другие.

Это то, чем занимается AI Red Team

См. также другие публикации, посвященные LLM

Radar Trends

Некоторые интересные ссылки из октябрьского Radar Trends:

Использование векторной базы данных для представления знаний в LLM

Советы от FBI и NSA по борьбе с deepfake

Wednesday, October 11, 2023

Управление беспилотным автомобилем

Как Яндекс видит управление беспилотником. Интересно, что ничего не сказано про звуковые сигналы. Сигналить беспилотнику бесполезно?

Tuesday, October 10, 2023

Скажи почему

Примеры использования каузальной библиотеки DoWhy

см. также другие публикации, посвященные каузальности

Monday, October 09, 2023

Анализ на графах

Почему нужно изучать графовые модели. И интересный продукт, который превращает CSV файл в граф

Sunday, October 08, 2023

ML benchmarks

Тесты для ML моделей. Очевидно, что для генеративных моделей - это большой вопрос. Как считать?

Saturday, October 07, 2023

Цифровой двойник транспортной логистики

Интересная работа по практическому использованию цифровых двойников в городской логистике. Со ссылками на реальные продукты.

См. также другие публикации, посвященные digital twins

Friday, October 06, 2023

Визуальный поиск отравленных данных

Идея поиска отравленных данных с помощью LLM - сравнивают заданную метку и метку, созданную LLM

P.S. См. также другие публикации, посвященные LLM

P.P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Thursday, October 05, 2023

AI Red Team

Добрые хакеры для систем машинного обучения. Быстрое распространение приложений машинного обучения, основанных на больших языковых моделях (ChatGPT и т.п.) привлекло внимание к известной проблеме систем машинного обучения – состязательным атакам. Такие атаки представляют собой специальные модификации данных на разных этапах стандартного конвейера машинного обучения (тренировка, тестирование, использование), которые призваны либо воспрепятствовать работе систем машинного обучения, либо добиться требуемого атакующему специального поведения таких систем. В последнем случае атакующий обычно желает добиться того, чтобы обученная модель специальным (нужным атакующему) способом реагировала на определенным образом подготовленные входные данные. Есть также классы атак на модели машинного обучения, которые специальным образом опрашивают работающие модели с целью получения скрытой информации, использованной при обучении модели. Все перечисленные атаки достаточно просто реализуются и для больших языковых моделей, что открыло глаза бизнес-сообществу на реально существующую проблему – кибербезопасность самих систем машинного обучения (искусственного интеллекта). Ответом стало ускоренное создание подразделений корпоративной кибербезопасности, которые должны тестировать системы искусственного интеллекта – AI Red Team. Принципы построения и работы таких команд и рассматриваются в данной статье.

Расстаться с иллюзиями

Борьба с галлюцинациями в ChatGPT

См. также другие публикации, посвященные LLM

Monday, October 02, 2023

Конвергентные когнитивно- информационные технологии

Продолжается регистрация для участия в Международном конгрессе «Современные проблемы компьютерных и информационных наук», который состоится на факультете вычислительной математики и кибернетики Московского государственного университета имени М.В. Ломоносова 30 ноября - 2 декабря 2023 года, г. Москва (Россия). Конгресс проводится в рамках программы деятельности Федерального учебно-методического объединения в сфере высшего образования по УГСН 02.00.00 «Компьютерные и информационные науки». Конгресс проводится в рамках направлений деятельности Московского центра фундаментальной и прикладной математики. Детали - здесь.

Интерпретируемые CNN

Попытка построить интерпретируемые CNN за счет большего количества аннотаций - Concept Bottleneck Models

Sunday, October 01, 2023

Сегментация пользователей

Практические методы анализа сегментации пользователей (покупателей): Kmeans, K-Prototype и LLM + Kmeans

INJOIT vol. 11, no. 10

Вышел десятый номер журнала INJOIT в 2023 году. И одиннадцатый год издания журнала.

Темы статей:

  • Comparison of Outlier Filtering Methods in Terms of Their Influence on Pose Estimation Quality
  • Алгоритм оценки отклонения между регуляризованным и точным решениями в обратных задачах
  • A Hybrid Optimization Method for Path Planning and Obstacle Avoidance in Cluttered Environments
  • Интерпретация оценок параметров моделей полносвязной линейной регрессии
  • Эволюционная модель представления знаний
  • An optimization of path planning A* for static uniform grid based on pruning algorithms: Experimental experience
  • Сегментация неструктурированного текста на изображениях книжных обложек с помощью сверточной сети, основанной на архитектуре U-Net
  • Анализ моделей оценки качества вычислительной системы
  • Использование нейронных сетей в задаче классификации аномального поведения в финансовых транзакциях с использованием Python и Keras
  • Исследование развития межконфессиональных отношений на основе математического аппарата марковских процессов
  • Обзор методов очистки данных для машинного обучения
  • Performance of 32kb/s ADPCM for Data Transmissin at 14.4kb/s
  • Разработка программного обеспечения для мониторинга параметров сетей связи и серверного аппаратного обеспечения
  • Применение интеллектуальных методов анализа данных к задаче прогнозирования результатов промышленного испытания элементов конструкции по данным тензометрии
  • Перспективы использование технологии блокчейн в сфере городского транспорта
  • Обеспечение безопасности открытых проектов Python: проблема оценки потенциально разрушительного функционала
  • Генерация врачебных заключений и классификация по Bethesda с использованием глубокого обучения
  • О работе AI Red Team

Архив журнала находится здесь.

/via Лаборатория ОИТ

Saturday, September 30, 2023

Об утечке данных

И это не про кибербезопасность. Утечки данных в машинном обучении - это использовать при тренировке модели данные, которые будут недоступны на этапе вывода. В итоге, модель может показывать хорошую произволительность на тестах, но плохо работать на реальных данных.

Friday, September 29, 2023

О робастности метрик

Сравнение робастности регрессионных метрик: MAE, MSE и RMSE

См. также другие публикации, посвященные робастности

Синтетические личности

В некоторых странах - это уже главная проблема при выдаче кредитов банками. Кредиты берут синтетические персоны

Thursday, September 28, 2023

Знания из ничего

Машинное обучение в ситуации, когда количество экземпляров данных меньше, чем количество классов: Learning N Classes From M < N Samples. Вот здесь можно почитать про другие подобные примеры.

В перспективе

Интересный инструмент для визуализации больших наборов данных - Perspective

См. также другие статьи, посвященные визуализации

Wednesday, September 27, 2023

Основы A/B тестирования

AB Testing 101 - хорошо написанное руководство

См. также другие публикации, посвященные A/B тестированию

Monday, September 25, 2023

Международный конгресс «СОВРЕМЕННЫЕ ПРОБЛЕМЫ КОМПЬЮТЕРНЫХ И ИНФОРМАЦИОННЫХ НАУК»

30 ноября - 2 декабря 2023 года на факультете вычислительной математики и кибернетики Московского государственного университета имени М.В. Ломоносова состоится Международный конгресс «СОВРЕМЕННЫЕ ПРОБЛЕМЫ КОМПЬЮТЕРНЫХ И ИНФОРМАЦИОННЫХ НАУК». В рамках Конгресса будут проведены пленарные заседания и серия научных мероприятий, соответствующих приоритетным направлениям развития науки, технологий и техники в Российской Федерации в крупнейшей междисциплинарной области современности - информационно-телекоммуникационные системы - которая объединяет представителей математики, информатики, физики и наук о материалах, компьютерных наук, наук о данных и гуманитарных наук из России и зарубежных стран.

Подробнее об участии - здесь

Sunday, September 24, 2023

Saturday, September 23, 2023

Защита критической инфраструктуры

Один из основных игроков на рынке кибербезопасности о защите критической инфраструктуры В частности, рассматривается фреймворк Pipedream

ThingPlug

Открытая IoT платформа от SK TELECOM - ThingPlug platform

См. также другие публикации по теме IoT

Thursday, September 21, 2023

Оценка уязвимостей

Как оценивать уязвимости в программном обеспечении?

Серьезность и возможность использования — это два разных измерения серьезности обнаруженной уязвимости. Усилие по исправлению измеряет сложность работы, необходимой для исправления результата.

Серьезность — это потенциальное влияние на конфиденциальность, целостность и доступность приложения, как это определено в CVSS (Общая система оценки уязвимостей). Возможность использования — это вероятность или легкость, с которой злоумышленник может использовать обнаруженную информацию. Обнаружение высокой важности с высокой вероятностью использования злоумышленником потенциально более опасно, чем обнаружение высокой серьезности с низкой вероятностью использования.

Усилие по исправлению, также называемое сложностью исправления, является мерой ожидаемых усилий, необходимых для исправления результата.

Нас этому не учили

Out-of-distribution (OOD) - определить при использовании модели машинного обучения тот факт, что мы встретили данные, отличающиеся от тренировочного набора.

1. Фреймворк для оценки надежности моделей машинного обучения от Google. Предлагается одновременно провести стресс-тестирование производительности «готовой» модели (т. е. прогнозируемого распределения) в терминах неопределенности, надежного обобщения и адаптации к новым данным.

2. Интересный автор из списка MIT Technology Review’s 2023 Innovator of the Year, который занимается исследованиями по данной теме: Sharon Yixuan Li

P.S. см. также другие публикации по теме out-of-ditribution-detection: OOD

P.P.S. статья в журнале INJOIT: Namiot, Dmitry, and Eugene Ilyushin. "Data shift monitoring in machine learning models." International Journal of Open Information Technologies 10.12 (2022): 84-93.

VLAM

Интересно - Vision-Language-Action Models (VLAMs). Использует возможности LLM для выработки суждений для анализа движения

См. также другие публикации, посвященные LLM

Friday, September 15, 2023

Wednesday, September 13, 2023

Tuesday, September 12, 2023

Триггер против очистки

Две статьи по backdoor-атакам, которы должны проверяться одна против другой: генерация динамических триггеров и независимый метод очистки

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Sunday, September 10, 2023

ML в критических приложениях

Использование систем машинного обучения в военной авиации (DAF). Описывается тестирование и оценка систем машинного обучения.

Ясно выражено то, о чем мы писали в своих статьях о мониторинге работы реальных моделей:
"Commercial solutions will certainly incorporate methodology for monitoring and retraining models, but it is unlikely they will incorporate processes that capture the complex system integration and risk frameworks that apply to DAF systems, especially safetycritical systems in the foreseeable future. The DAF should invest in synthetic data engines, live virtual constructive environments, data repositories, and support for digital twins representative of their modalities and platforms of interest to facilitate rapid model retraining and maintenance. Data standards must be extended to the platforms to support this retraining and enable fast capture of AI-ready data to facilitate retraining around model failure events."

Thursday, September 07, 2023

LLM и кибербезопасность

Хороший и подробный обзор Use of LLMs for Illicit Purposes: Threats, Prevention Measures, and Vulnerabilities

См. также другие публикации, посвященные LLM

AI Red Team - 2

Продолжая тему AI Red Team (см. предыдущую публикацию здесь):

1. Google опубликовал программный документ Securing AI: Similar or Different?

2. Статья Google: Why Red Teams Play a Central Role in Helping Organizations Secure AI Systems

3. Интересное интервью с CISO Google Cloud: What we can learn when responsible hacking meets responsible AI

4. NVIDIA AI Red Team: An Introduction. Хорошее введение в проблему, фреймворк и набор используемых инструментов.

5. Следующая платформа для кибербезопасности - Securing AI: The Next Platform Opportunity in Cybersecurity

6. Red Team для больших языковых моделей (LLM)

Tuesday, September 05, 2023

Мартингалы и робастность

Как еще можно определять сдвиг данных? Использовать мартингалы. Основная причина использования мартингала, а не более известной статистики сдвига распределения, заключается в том, чтобы избежать «группирования» данных временных рядов в произвольно определенные интервалы для расчета распределения. Вот пример.

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Sunday, September 03, 2023

Камуфляж и состязательные атаки

Состязательные атаки на модели машинного обучения бывают в цифровом и физическом доменах. Старейшей формой физической атаки является камуфляж. Вот в данной статье как раз исследуется влияние камуфляжа на распознавание объектов в моделях машинного обучения.

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Все атаки из архива

Статьи, посвященные состязательным атакам из arxiv.org. Поддержка: Nicholas Carlini (атака Carlini-Wagner).

Интересная статья из этого списка: MDTD: A Multi-Domain Trojan Detector for Deep Neural Networks. Идея метода проверть в реальном времени, содержат входные данные триггер или нет. Основывается на том, что "чистые" экземпляры данных, и экземпляры данных с триггером находятся на разных расстояниях от границы решений.

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Monday, August 28, 2023

ChatGPT в атаке

Некоторые ссылки, посвященные генерации или обработке вредоносного контента с помощью LLM. Собрано для новой магистратуры по Кибербезопасности

ChatGPT and Malware: Making Your Malicious Wishes Come True

WormGPT и FraudGPT

Пока не очень получается генерить вредоносное ПО, но фаззинг является перспективной идеей для LLM. Google обещает открыть детали

DarkBERT и DarkBARD - Google API и тренировка на всем даркнете.

PentestGPT - надстройка для ChatGPT, тесты проникновения
Deng, Gelei, et al. "PentestGPT: An LLM-empowered Automatic Penetration Testing Tool." arXiv preprint arXiv:2308.06782 (2023).

Beckerich, Mika, Laura Plein, and Sergio Coronado. "RatGPT: Turning online LLMs into Proxies for Malware Attacks." arXiv preprint arXiv:2308.09183 (2023).

Интересная презентация - Marcus Botacin. 2023. GPThreats-3: Is Automated Malware Generation a Threat? SlideShare.

Jennifer Fernick. 2023. On the malicious use of large language models like GPT-3. nccgroup.

A Survey on Large Language Model based Autonomous Agents. Агентам предстоит сыграть важную роль в автоматизации кибератак.

Malware researchers analyzed the application of Large Language Models (LLM) to malware automation investigating future abuse in autonomous threats. Executive Summar

Aaron Mulgrew. 2023. I built a Zero Day virus with undetectable exfiltration using only ChatGPT prompts.

Fábio Perez and Ian Ribeiro. 2022. Ignore Previous Prompt: Attack Techniques For Language Models. arxiv:2211.09527

OPWNAI: Cybercriminals Starting to Use ChatGPT. Check Point.

Sangfor Technologies. 2023. ChatGPT Malware: A New Threat in Cybersecurity.

Gradient Flow: Unleashing LLMs in Cybersecurity: A Playbook for All Industries

Awesome Large Language Model Tools for Cybersecurity Research

New LLM-based SOC tool to help automate security response

Hazell, Julian. "Large language models can be used to effectively scale spear phishing campaigns." arXiv preprint arXiv:2305.06972 (2023).

См. также другие публикации, посвященные LLM

Sunday, August 27, 2023

Векторные базы данных

И новая область применения для векторных баз данных - хранить эмбеддинги в машинном обучении

Парадоксы статистики

Интересно о статистике:

Accuracy Paradox

False Positive Paradox

Gambler’s Fallacy

Simpson’s Paradox

Berkson’s Paradox

Saturday, August 26, 2023

AI Red Team

Этичные хакеры, которые атакуют системы ИИ. Это стало особенно актуально для больших языковых моделей. Как это устроено в компаниях:

Google

Микрософт

Open AI

См. также другие публикации, посвященные LLM

Friday, August 25, 2023

О робастности

Distributional evasion attacks (атаки уклонения распределения): при атаках уклонения распределения атакующий смещает все распределение тестовых данных на некоторое ограниченное расстояние с целью максимизации ожидаемых потерь. Эта модель угроз может быть использована для характеристики способности ML-моделей к обобщению вне распределения. Сертификация по этой модели угроз представляет собой верхнюю границу ожидаемых потерь.

Global evasion attacks (глобальная атака уклонения): можем менять любые входные данные (локальная атака уклонения меняет данные только внутри существующего распределения). Глобальная атака уклонения относится к робастности во всем диапазоне входных данных. Под робастностью по-прежнему понимается то, что малые изменения не меняют результат.

Отсюда: Li, Linyi, Tao Xie, and Bo Li. "Sok: Certified robustness for deep neural networks." 2023 IEEE Symposium on Security and Privacy (SP). IEEE, 2023.

Атаки и отравления

Awesome Data Poisoning and Backdoor Attacks - большой список публикаций с кодом Awesome Backdoor Attack and Defense - свежие работы по отравлению

Backdoor атаки

Backdoor защиты

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Атаки на приватные данные

В потоке запросов к MaaS определить атаку на приватные данные. Идея определения атаки - схожесть последовательных запросов. Схожая идея была реализована в нашей статье c J.Song, которая будет представлена на DCCN-2023

P.S. авторы, похоже, удалили исходный код из репозитория Responsible Data Science Lab

Wednesday, August 23, 2023

Кругом враги

Byzantine Machine Learning - распределенное машинное обучение, когда присутствуют узлы с поврежденными (отравленными) данными и противоборствующим поведением

LLM - проблемы и направления исследований

Интересный обзор - что делать с LLM

См. также другие публикации, посвященные LLM

Tuesday, August 22, 2023

Искусственные контрфактические примеры

Как оценить эффект изменений, если A/B тесты провести прямо нельзя - ACE - Artificial Counterfactual Estimation

Monday, August 21, 2023

Causal Inference

О вечном вопросе Почему?

см. также другие публикации, посвященные каузальности

Социальный симулятор

Интересный продукт - по mindmap может построить эмулятор событий

Sunday, August 20, 2023

Что же важно для модели?

Использование SHAP для анализа важности фичей. Интересная задача - сравнить SHAP и feature importance

См. также другие публикации, посвященные SHAP

Все про MLOps

Awesome MLOps - коллекция ссылок

См. также другие публикации по теме MLOps

Sunday, August 13, 2023

Устройство ChatGPT

Хорошее объяснение работы LLM

См. также другие публикации, посвященные LLM

3D geometry generation

Новое направление для ML - 2D и 3D geometry generation. Основной назначение сейчас - лекарства

Tuesday, August 08, 2023

LLM и кибербезопасность

Использование ChatGPT в кибератаках и защитах

См. также другие публикации, посвященные LLM

Открытая наука: INJOIT том 11, номер 7

Очередной номер журнала INJOIT появился на сайте Киберленинка.

Это том 11, номер 7 за 2023 год.

/via Лаборатория ОИТ

Tuesday, August 01, 2023

BASE

Поиск по научным публикациям - BASE

5G IoT

Архитектура системы IoT на основе 5G и блокчейн

См. также другие публикации, посвященные блокчейн

Защита блокчейн

Защита блокчейн от кибератак - интересная диссертация

См. также другие публикации, посвященные блокчейн

Thursday, July 27, 2023

Wednesday, July 26, 2023

SOTA LLM

Что мы знаем за LLM?

См. также другие публикации, посвященные LLM

Network sensing

Использование сетей WiFi/4G/5G в роли сенсора. Например, для слежения за человеком

Sunday, July 23, 2023

Вспомнить все

Интересная работа, к которой исследуются "лишние" параметры моделей ML. Через них атакующий может атаковать систему

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению и LLM

Blockchain mindmap

Как развивался блокчейн - интеллект-карта

См. также другие публикации, посвященные блокчейн

Как они едут?

Интересная статья по визуализации передвижения автономных автомобилей. Ну и других автономных транспортных средств

Monday, July 17, 2023

Кибербезопасность в МГУ

Магистерская программа по кибербезопасности обрела свой сайт

Sunday, July 16, 2023

Поиск бэкдоров в черном ящике

Еще один интересный подход к поиску бэкдоров. И также основан на объяснениях.

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Sunday, July 09, 2023

Утечки из LLM

Инструментарий анализа утечек данных из LLM

См. также другие публикации, посвященные LLM

Friday, July 07, 2023

Открытая наука: INJOIT том 11, номер 6

Очередной номер журнала INJOIT появился на сайте Киберленинка.

Это том 11, номер 6 за 2023 год.

/via Лаборатория ОИТ

Thursday, July 06, 2023

О дистилляции знаний

Knowledge distillation и бэкдоры - новый процесс очистки моделей

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Wednesday, July 05, 2023

Кибербезопасность

Открыт прием в новую магистратуру ВМК МГУ совместно со Сбербанком

Tuesday, July 04, 2023

В реальных условиях

Интересная диссертация по практическому повышению устойчивости по отношению к сдвигам данных моделей машинного обучения - Robustness, Evaluation and Adaptation of Machine Learning Models in the Wild

Monday, July 03, 2023

Sunday, July 02, 2023

Saturday, July 01, 2023

Tuesday, June 27, 2023

Черные бэкдоры

Black Box backdoor для MLaaS: атакующий строит теневую модель, делает бэкдор для нее и публикует от своего имени уже отравленную модель

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Saturday, June 24, 2023

Что было до?

Использование Neo4j для анализа customer journey - поведения пользователей, предшествовавшего какому-то действию

См. также другие публикации, посвященные Neo4j

Friday, June 23, 2023

Учебник по Julia

Интерактивный (нотебук) учебник по Julia

См. также другие публикации по Julia

Thursday, June 22, 2023

Бэкдоры с ограниченными данными

Бэкдор атаки с ограниченными данными - интересный подход к подавлению влияния "чистых" характеристик

Не все отравленные данные действуют одинаково - как построить эффективный триггер

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Tuesday, June 20, 2023

Центр киберзащиты Сбер

В рамках запуска новой магистратуры «Кибербезопасность» на ВМК МГУ абитуриентам предлагается уникальная возможность познакомиться с работой Центра киберзащиты Сбера (SOC – Security Operation Center) – крупнейшего в России и Восточной Европе ситуационного центра кибербезопасности.

Специалисты SOC решают задачи кибербезопасности по мониторингу и реагированию на инциденты, киберразведке, инжинирингу средств защиты и процессам управления самим SOC.

Посмотреть 3D-тур по SOC Сбера можно по ссылке.

Зарегистрироваться на экскурсию можно по ссылке в telegram-группе.

Экскурсии в SOC запланированы на 30 июня (10:30 ч.) и 7 июля (12:00 ч.), продолжительность – 1,5 часа.

По вопросам обращайтесь на e-mail: cyberacademy@sberbank.ru

Интервью по ML

Компиляция вопросов для интервью по машинному обучению

См. также другие публикации по теме интервью

Monday, June 19, 2023

Кибербезопасность в МГУ

ВМК МГУ и Сбер открывают новую магистратуру «Кибербезопасность» по направлению подготовки 02.04.02 «Фундаментальная информатика и информационные технологии».

Магистерская программа «Кибербезопасность» разработана факультетом вычислительной математики и кибернетики МГУ имени М.В. Ломоносова совместно с ПАО Сбербанк и предназначена для тех, кто хочет получить глубокие знания и навыки в области информационной безопасности и защиты информации и данных от кибератак. Программа ориентирована на подготовку магистров науки по кибербезопасности. Программа разработана в соответствии с современными международными профессиональными и образовательными стандартами и с учетом действующих национальных стандартов и норм.

Программа включает в себя изучение теоретических и практических аспектов кибербезопасности, включая защиту от вирусов, хакерских атак, фишинга, DDoS-атак и других угроз. Студенты изучают математические модели, современные методы и технологии кибербезопасности, а также учатся анализировать и оценивать риски, связанные с кибербезопасностью. В результате обучения студенты получают необходимые знания и навыки для работы в области кибербезопасности в различных сферах, включая исследовательские центры, государственные организации, частные компании и финансовые учреждения.

Подробнее о программе.

Для желающих обучаться по данной программе проводятся организованные экскурсии в Центр киберзащиты Сбера.

Отсюда