AbavaNet technical corner: November 2021

Monday, November 29, 2021

Больше пояснений

Схемы объяснений для вклада различных характерстик (features) в результат работы модели машинного обучения:

InterpretML

LIME & SHAP

Перестановки характеристик (Permutation Feature Importance)

ParSHAP - какие из характеристик вызывают перетренированность

SHAP vs ACV

См. также другие публикации, посвященные SHAP и ответу на вопрос "почему" для моделей машинного обучения

Friday, November 26, 2021

Работайте с данными, а не моделями. Результаты будут много лучше. Работа с моделями все равно будет автоматизирована инструментами, подобными этому и все сведется к AutoML. А анализ данных не автоматизирует до конца никто, поскольку это связано с конкретной задачей (физикой процесса).

feature engineering - это главное в машинном обучении

Thursday, November 25, 2021

О трансформерах

Подробное объяснение трансформеров

Мониторинг моделей

Простое объяснение мониторинга сдвига данных (с примерами)

Wednesday, November 24, 2021

Много звука

Размеченные аудио-датасеты

Monday, November 22, 2021

Разъяснения по состояниям ИИ

Мы уже публиковали делали отчета о состоянии исследований по искусственному интеллекту в 2021 году - AI 2021. Вот еще один материал, который разбирает этот отчет: State of AI Report 2021 Summary. Хорошо читаемый материал. Автор группирует отчет по слайдам и темам.

Моделирование неопределенности

Неопределенность в нейронных сетях - как с этим работать? Толковый материал по моделированию неопределенности в нейронных сетях

См. также предыдущие публикации, посвященные работе с неопределенностью

Friday, November 19, 2021

Deep Learning

История и краткий обзор

См. также другие публикации, посвященные deep learning

Tuesday, November 16, 2021

Нарисовать текст

Интересная модель отрисовки текста - сопоставление текста и картинок. Удивительно, что Сбер еще скопировал :). Исходные корни - в OpenAI

Monday, November 15, 2021

Открытая наука том 9, номер 11

Очередной номер журнала INJOIT появился на сайте Киберленинка. В этом номере опубликована, в частности, очередная статья из нашего нового цикла работ, посвященного устойчивому машинному обучению.

Это том 9, номер 11 за 2021 год. По данным elibrary.ru, журнал INJOIT занимает второе место в разделе Кибернетика и второе в разделе Автоматика и вычислительная техника

/via Лаборатория ОИТ

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Friday, November 12, 2021

Overfitting

Как его определить переобучение - весьма простой подход. Используется SHAP — SHapley Additive exPlanations. Вот здесь можно прочитать про него

Вот здесь можно посмотреть другие публикации, посвященные SHAP

Wednesday, November 10, 2021

Пример платформы данных

Пример собственной платформы данных в компании, занимающейся маркетингом в ecommecrce. Собрана целиком из открытых инструментов.

Tuesday, November 09, 2021

Цифровой двойник для беспилотников

Цифровой двойник и 3D моделирование для транировки беспилотных автомобилей

См. также другие публикации, посвященные digital twins

ИИ в 2021

Подборка достижений в Искусственном Интеллекте за 2021 год - статьи, код, видео с пояснениями

Пара интересных работ:

DefakeHop: A Light-Weight High-Performance Deepfake Detector
Мы уже представляли эту работу здесь

The Cocktail Fork Problem: Three-Stem Audio Separation for Real-World Soundtracks
Вы когда-нибудь настраивались на видео или телешоу, и актеры были совершенно не слышны, или музыка была слишком громкой? Что ж, эта проблема, также называемая проблемой коктейльной вечеринки, может больше никогда не повториться. Mitsubishi и Университет Индианы только что опубликовали новую модель, а также новый набор данных, решающий задачу определения правильного саундтрека. Например, если мы возьмем тот же аудиоклип, который мы только что запустили, со слишком громкой музыкой, вы можете просто увеличить или уменьшить звуковую дорожку, которую хотите придать речи больше, чем музыке.

Проблема здесь в том, чтобы изолировать любой независимый источник звука от сложной акустической сцены, такой как сцена из фильма или видео на YouTube, где некоторые звуки не сбалансированы. Иногда вы просто не слышите некоторых актеров из-за музыки, взрывов или других звуков на заднем плане. Что ж, если вы успешно изолировали разные категории в саундтреке, это означает, что вы также можете повышать или понижать только одну из них, например, немного приглушить музыку, чтобы правильно слышать всех других актеров. Именно этого и добились исследователи. И получилась довольно ясная архитектура

Sunday, November 07, 2021

Данные, данные - 2

В продолжение публикации об инструментах Google для работы с данными:

Анализатор датасетов. Вот здесь есть информация об этом продукте

Saturday, November 06, 2021

Дрифт данных

Все системы делают это. Данные на этапе использования не те, что были при обучении.

Почему важно определять дрейф данных

Как автоматизировать процесс определения изменения в данных

Friday, November 05, 2021

Missing Data

Пропущенные данные - что делать на практике и почему просто взять среднее значение соседей не есть хорошо.

У автора статьи есть целая книга в свободном доступе, где рассматривается именно такой итеративный процесс, когда пропущенные значения вычисляются как функция от других значений в датасете.

Внимательный телезритель

Multimodal Event Representation Learning Over Time (MERLOT) - метод предварительного обучения, который концентрирует знания, полученные из видео, без необходимости использования помеченных данных. Полученные в результате представления помогли точно настроенным моделям проводить различные суждения по видео с высочайшей точностью.

Как это работает: авторы разделили шесть миллионов видеороликов YouTube на 180 миллионов отдельных кадров, каждый из которых соединен с соответствующим текстом из расшифровки стенограммы.

Во время предварительного обучения ResNet-50 (кодировщик изображений на иллюстрации выше) генерировал начальное представление каждого кадра.

Трансформер (кодировщик только для языка) произвел представление связанного текста (с учетом всей транскрипции до этого момента). Функция потерь поощряла совпадение кадров и текстовых представлений быть похожими, а несоответствия - несхожими.

Другой трансформер получил представление каждого кадра и соответствующий ему текст (но не текстовое представление). Он научился угадывать замаскированные слова в тексте, а также правильный порядок кадров.

Результаты: MERLOT установил новый уровень достижимых результатов для 14 задач, которые включали ответы на вопросы об отдельных кадрах, ответы на вопросы о последовательностях кадров и упорядочивание неупорядоченных кадров. Особенно хорошо он справился с задачами с ответами на вопросы, предназначенными для проверки пространственных и временных рассуждений на GIF-файлах с Tumblr. Например, MERLOT ответил на вопросы с несколькими вариантами ответов о действии, выполняемом в клипе, с точностью 94,0 процента по сравнению с предыдущим лучшим результатом в 82,8 процента точности. В других областях улучшение было менее значительным. Например, в Drama-QA (датасет для тренировки понимания видео-историй) он ответил на вопросы с несколькими вариантами ответов об истории в клипах телешоу с точностью 81,4 процента по сравнению с предыдущим лучшим результатом в 81,0 процента.

Почему это важно: MERLOT научился упаковывать ряд важной информации о видеоизображениях, сопроводительном тексте и порядке кадров в создаваемые им представления. Количество неразмеченных видео и аудио данных - огромно, и такие алгоритмы обучения с самоконтролем, как этот, могут раскрыть огромную ценность таких данных.

А зависимость от публичных м легко модицируемых датасетов является хорошим примеров для иллюстрации проблем кибербезопасности. Текстовые описания для видео никто ведь не проверяет ...

Thursday, November 04, 2021

Tensor Chip

Машинное обучение непосредственно в процессоре мобильного телефона

Лицедейство в браузере

Лице-слежение непосредственно в браузере. Еще один пример использования машинного обучения в JavaScript.

Wednesday, November 03, 2021

Машинное обучение на потоке

MediaPipe - Open Source кроссплатформенный пакет для машинного обучения на потоковых медиа. От Google, с хорошей документацией и со множеством примеров.

Не все так просто

Маска - я вас не знаю. Для авторизации в банковском приложении лицо в маске не подходит. Нужны другие устройства.

См. публикацию о физических атаках на системы машинного обучения.

Tuesday, November 02, 2021

Физические атаки на системы машинного обучения

Физические атаки на системы распознавания лиц

Весьма богатая тема. Естественные изменения для лиц используются как состязательные примеры. Здесь "одевают" маску.

Другие варианты:
маска с изображением другого лица (такой метод маскировки использовался в военном флоте - на борту корабля рисовали контур другого, более мелкого)
очки
повороты головы
кепка с козырьком
наушники
серьги
косметика

См. также другие публикации по теме adversarial, посященные устойчивому машинному обучению