Friday, November 05, 2021

Внимательный телезритель

Multimodal Event Representation Learning Over Time (MERLOT) - метод предварительного обучения, который концентрирует знания, полученные из видео, без необходимости использования помеченных данных. Полученные в результате представления помогли точно настроенным моделям проводить различные суждения по видео с высочайшей точностью.

Как это работает: авторы разделили шесть миллионов видеороликов YouTube на 180 миллионов отдельных кадров, каждый из которых соединен с соответствующим текстом из расшифровки стенограммы.

Во время предварительного обучения ResNet-50 (кодировщик изображений на иллюстрации выше) генерировал начальное представление каждого кадра.

Трансформер (кодировщик только для языка) произвел представление связанного текста (с учетом всей транскрипции до этого момента). Функция потерь поощряла совпадение кадров и текстовых представлений быть похожими, а несоответствия - несхожими.

Другой трансформер получил представление каждого кадра и соответствующий ему текст (но не текстовое представление). Он научился угадывать замаскированные слова в тексте, а также правильный порядок кадров.

Результаты: MERLOT установил новый уровень достижимых результатов для 14 задач, которые включали ответы на вопросы об отдельных кадрах, ответы на вопросы о последовательностях кадров и упорядочивание неупорядоченных кадров. Особенно хорошо он справился с задачами с ответами на вопросы, предназначенными для проверки пространственных и временных рассуждений на GIF-файлах с Tumblr. Например, MERLOT ответил на вопросы с несколькими вариантами ответов о действии, выполняемом в клипе, с точностью 94,0 процента по сравнению с предыдущим лучшим результатом в 82,8 процента точности. В других областях улучшение было менее значительным. Например, в Drama-QA (датасет для тренировки понимания видео-историй) он ответил на вопросы с несколькими вариантами ответов об истории в клипах телешоу с точностью 81,4 процента по сравнению с предыдущим лучшим результатом в 81,0 процента.

Почему это важно: MERLOT научился упаковывать ряд важной информации о видеоизображениях, сопроводительном тексте и порядке кадров в создаваемые им представления. Количество неразмеченных видео и аудио данных - огромно, и такие алгоритмы обучения с самоконтролем, как этот, могут раскрыть огромную ценность таких данных.

А зависимость от публичных м легко модицируемых датасетов является хорошим примеров для иллюстрации проблем кибербезопасности. Текстовые описания для видео никто ведь не проверяет ...

No comments: