AbavaNet technical corner: December 2023

Saturday, December 30, 2023

О доверительных интервалах

Хорошее объяснение темы доверительных интервалов

Friday, December 29, 2023

Разреженные атаки черного ящика

Атаки черного ящика на модели машинного обучения обычно ассоциируются с множеством запросов, которые необходимо отправлять атакующему. Это не всегда возможно и, уж точно, совсем не практично. В данной статье рассматриваются так называемые разреженные атаки, которые ограничивают количество запросов.

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Thursday, December 28, 2023

Практическое тестирование ML

Серия статей по практическому тестированию ML

См. также другие публикации, по теме тестирование

Wednesday, December 27, 2023

Разведочный анализ данных

Advanced exploratory data analysis (EDA) - хорошо написанная статья и Jupyter Notebook

Fast and easy data exploration for machine-learning - пример использования библиотеки fast_eda. Помимо поиска возможных ошибок в данных и анализа пропущенных значений, этот пакет еще помогает искать утечки данных.

См. также другие публикации, посвященные EDA

О тестировании систем ML

Серия публикаций, посвященных тестированию ML

См. также другие публикации, по теме тестирование

Tuesday, December 26, 2023

Категорирование журналов ВАК

Появился новый список категорий журналов ВАК. Утвержденные категории действуют три года, начиная с с 1 января 2024 года.

Журнал INJOIT - категория K1

Monday, December 25, 2023

Обнаружение выбросов

Обнаружение выбросов — это задача машинного обучения без учителя, направленная на выявление аномалий (необычных наблюдений) в заданном наборе данных. Рассмотрены следующие алгоритмы:

Эллиптический конверт - подходит для нормально распределенных данных с низкой размерностью. Как следует из названия, он использует многомерное нормальное распределение для создания меры расстояния для отделения выбросов от нормальных значений.

Локальный фактор выбросов — это сравнение локальной плотности наблюдения с плотностью его соседей. Наблюдения с гораздо меньшей плотностью, чем у их соседей, считаются выбросами.

Одноклассовая машина опорных векторов (SVM) со стохастическим градиентным спуском (SGD) - представляет собой приблизительное решение O(n) SVM одного класса.

Изолированный лес — это древовидный подход, при котором выбросы изолируются случайным образом быстрее, чем нормальные значения.

Sunday, December 24, 2023

Объяснения для LLM

Коллекция материалов Awesome LLM Interpretability

См. также другие публикации, посвященные LLM

Friday, December 22, 2023

1000 авторов

Что вы не знали о соавторах - статья Google о Gemini. Одна тысяча авторов. Кстати, это еще и оценка стоимости создания таких систем - все эти люди на зарплате.

См. также другие публикации, посвященные LLM

Thursday, December 21, 2023

Цифровые двойники в транспортной безопасности

Improving safety management in railway stations through a simulation-based digital twin approach - очень практическая работа.

См. также другие публикации, посвященные digital twins

Приватные данные и LLM

Privacy in Large Language Models: Attacks, Defenses and Future Directions

См. также другие публикации, посвященные LLM

Tuesday, December 19, 2023

Веселые старты

Интересный ресурс - коллекция (1500+) экспериментальных проектов Google

HTTP/3

HTTP/3 - от А до Я

Monday, December 18, 2023

Утечка данных в ML

Интересная работа по статическому анализу кода Python на предмет возможной учетки данных.

Новые стандарты ИИ

ПНСТ 870-2023 «Искусственный интеллект в переработке сельскохозяйственной продукции и производстве пищевой продукции. Варианты использования для автоматизации управления процессами»;
ПНСТ 861-2023 «Искусственный интеллект. Системы операционной аналитики потоков пространственно-временных данных на основе искусственного интеллекта. Основные положения»;
ПНСТ 862-2023 «Искусственный интеллект. Системы операционной аналитики потоков пространственно-временных данных на основе искусственного интеллекта. Термины и определения»;
ПНСТ 838-2023 «Искусственный интеллект. Структура описания систем искусственного интеллекта, использующих машинное обучение»;
ПНСТ 839-2023 «Искусственный интеллект. Смещенность в системах искусственного интеллекта и при принятии решений с помощью искусственного интеллекта»;
ПНСТ 841-2023 «Системная и программная инженерия. Требования и оценка качества систем и программного обеспечения (SQuaRE). Руководство по оценке качества систем искусственного интеллекта»;
ПНСТ 843-2023 «Информационные технологии. Стратегическое управление информационными технологиями. Последствия влияния стратегического управления при использовании искусственного интеллекта организациями»;
ПНСТ 844-2023 «Искусственный интеллект. Методология оценки разработки программного обеспечения для глубокого обучения».

Sunday, December 17, 2023

Ничто не вечно

Интересная техническая статья - как использование транспортной сети (станций) меняется во времени

Saturday, December 16, 2023

KerasCV

Практическое использование KerasCV для распознавания объектов

Friday, December 15, 2023

Программирование Web 3.0

Design of blockchain-based applications using model-driven engineering and low-code/no-code platforms: a structured literature review

Blockchain and its derived technologies shape the future generation of digital businesses: a focus on decentralized finance and the Metaverse

Борьба с галлюцинациями

Fine-tuning Language Models for Factuality - научить LLM фактам

Отсюда

См. также другие публикации, посвященные LLM

Thursday, December 14, 2023

DEDP

Data Engineering Design Patterns (DEDP) - книга в процессе написания

Highload++ 2023

Презентации конференции Highload++ 2023

Wednesday, December 13, 2023

Главред

Русский вариант Grammarly?

Национальные стандарты ИИ

Новые поступления:

ПНСТ 837-2023 «Искусственный интеллект. Управляемость автоматизированных систем искусственного интеллекта»;

ПНСТ 840-2023 «Искусственный интеллект. Обзор этических и общественных аспектов»;

ПНСТ 842-2023 «Программная инженерия. Требования и оценка качества систем и программного обеспечения (SQuaRE). Модель качества для систем искусственного интеллекта»;

ПНСТ 868-2023 «Искусственный интеллект в растениеводстве. Варианты использования для автоматизации управления процессами».

Tuesday, December 12, 2023

На чем учили?

И еще про извлечение тренировочных данных из LLM

См. также другие публикации, посвященные LLM, а также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Кибербезопасность ИТС

Что у нас с безопасностью Интеллектуальных транспортных систем?

Monday, December 11, 2023

Базисные модели ИИ

Свежий курс CS 886: Recent Advances on Foundation Models. Winter 2024

ML YaTalks

Запись секции по машинному обучению конференции YaTalks 2023

Sunday, December 10, 2023

Какие ваши данные?

В копилку сертификаций ИИ - оценка качества данных в Airbnb и ее применение

О тестировании ML систем

Использование мутаций в тестовых наборах для Deep Learning

Saturday, December 09, 2023

Атаки нулевой динамики

Кибербезопасность киберфизических систем: Zero-Dynamics Attack на ветровые турбины

Павшие на измену

Отравленные отклики в Reinforcement Learning для обучения LLM. Магическим образом они изменяют поведение LLM :)

См. также другие публикации, посвященные LLM

Friday, December 08, 2023

Архитектурные модели IoT

Современный взгляд на архитектуру IoT

Извлечение данных из LLM

Атака извлечения данных для LLM. Как получить тренировочные данные модели.

Thursday, December 07, 2023

Военный эмулятор

Эмулятор для систем вооружения с искусственным интеллектом - GhostPlay

Дроны где?

Горячая тема - обнаружение и отслеживание дронов по радио-сигналу. Интересный обзор.

Wednesday, December 06, 2023

Хмм ...

Простая иллюстрация работы HMM (Hidden Markov Model). Код на Python.

Граф знаний и LLM

Перекачивание графа знаний в LLM. Neo4J позиционирует себя как основной продукт для knowledge graph. См. также следующую публикацию

См. также другие публикации, посвященные LLM

Tuesday, December 05, 2023

Кругом вода

О кибербезопасности систем водоснабжения

О социальной динамике

Когда-то с подобных работ начинались проекты по краудсенсингу. В социальной динамике исследовались перемещения людей на основе треков их мобильных устройств (оригинально - в MIT). Вот современное состояние - анализ сегрегации жителей города