Страницы

Wednesday, December 29, 2021

VR на практике

Интересный обзор - приложения виртуальной реальности в конкретной медицинской области

Tuesday, December 28, 2021

Расстояние в анализе данных

Измерение расстояний в data science - преимущества, недостатки, подводные камни

Monday, December 27, 2021

Состязательные атаки - демонстрация

Демонстрация работы состязательных атак непосредственно в браузере. Интересно, что все работает исключительно на клиентской стороне, сервера - нет. Отсюда

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Этюды на Python

Упражнения на Python. Классная идея!

См. также другие публикации, посвященные Python

Friday, December 24, 2021

Чем сердце успокоится

Так долго продолжаться не будет. Деплоймент моделей машииного обучения не может быть столь запутанным.

Вот, что про это думает Google: Five Principles for Machine Learning to Go Mainstream

Все должно превратиться в нормальное программное обеспечение.

Wednesday, December 22, 2021

Saturday, December 18, 2021

Как машины видят нас

Xinming Huang - домашняя страница профессора WPI с интересными работами по семантической сегментации данных лидаров

Здесь есть пример сегментации и датасет для тестирования

Поездки на метро

В московском метро существуют предпочтения пассажиров по маршрутам. Для многих станций конечная точка маршрута известна с большой вероятностью. Отсюда

Wednesday, December 15, 2021

В живом режиме

Interactive Tools for machine learning, deep learning, and math. Можно, например, посмотреть как работает GAN непосредственно в браузере.

См. также другие публикации об интерактивных моделях

Моделирование сдвига данных

Реальные данные для систем машинного обучения часто оказываются отличными от тех, на которых тренировали модель. В работе предлагается способ расширения тренировочного набора данных "сдвинутыми" элементами.

Tuesday, December 14, 2021

Измерение причины

Causal inference - как это измерить?

См. также другие публикации, посвященные каузальности

Качество систем машинного обучения

Важная тема - как оценивать качество систем машинного обучения? Это имеет прямое отношение к использованию ML в критических приложениях

Friday, December 10, 2021

102-й пример машинного обучения

В дополнение к практическим примерам использования ML - хороший учебный пример, полностью рассматривающий построение модели машинного обучения с использованием PyCaret

Thursday, December 09, 2021

Дети цветов

Универсальный патч (цветок), который выглядит естественно, но при этом обманывает _любой_ классификатор изображений на основе глубинного обучения. Это то, чем в итоге заменят камуфляж на военной технике :)

Вот здесь есть видео с процессом.

Tuesday, December 07, 2021

Monday, December 06, 2021

Темная сторона ML

Цена ошибки в модели предсказания для временных рядов. По данным Bloomberg, компания Zillow потеряла 381 миллион долларов после того, как модель данных "вышла из строя".

Wednesday, December 01, 2021

NLP конвейер

Готовый NLP pipeline (для английского языка)

Качество данных

Библиотеки Python для проверки качества данных. Важный элемент пайплайна в машинном обучении

Monday, November 29, 2021

Больше пояснений

Схемы объяснений для вклада различных характерстик (features) в результат работы модели машинного обучения:

InterpretML

LIME & SHAP

Перестановки характеристик (Permutation Feature Importance)

ParSHAP - какие из характеристик вызывают перетренированность

SHAP vs ACV

См. также другие публикации, посвященные SHAP и ответу на вопрос "почему" для моделей машинного обучения

Friday, November 26, 2021

Данные, а не модели

Работайте с данными, а не моделями. Результаты будут много лучше. Работа с моделями все равно будет автоматизирована инструментами, подобными этому и все сведется к AutoML. А анализ данных не автоматизирует до конца никто, поскольку это связано с конкретной задачей (физикой процесса).

feature engineering - это главное в машинном обучении

Monday, November 22, 2021

Разъяснения по состояниям ИИ

Мы уже публиковали делали отчета о состоянии исследований по искусственному интеллекту в 2021 году - AI 2021. Вот еще один материал, который разбирает этот отчет: State of AI Report 2021 Summary. Хорошо читаемый материал. Автор группирует отчет по слайдам и темам.

Моделирование неопределенности

Неопределенность в нейронных сетях - как с этим работать? Толковый материал по моделированию неопределенности в нейронных сетях

См. также предыдущие публикации, посвященные работе с неопределенностью

Friday, November 19, 2021

Tuesday, November 16, 2021

Нарисовать текст

Интересная модель отрисовки текста - сопоставление текста и картинок. Удивительно, что Сбер еще скопировал :). Исходные корни - в OpenAI

Monday, November 15, 2021

Открытая наука том 9, номер 11

Очередной номер журнала INJOIT появился на сайте Киберленинка. В этом номере опубликована, в частности, очередная статья из нашего нового цикла работ, посвященного устойчивому машинному обучению.

Это том 9, номер 11 за 2021 год. По данным elibrary.ru, журнал INJOIT занимает второе место в разделе Кибернетика и второе в разделе Автоматика и вычислительная техника

/via Лаборатория ОИТ

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Friday, November 12, 2021

Overfitting

Как его определить переобучение - весьма простой подход. Используется SHAP — SHapley Additive exPlanations. Вот здесь можно прочитать про него

Вот здесь можно посмотреть другие публикации, посвященные SHAP

Wednesday, November 10, 2021

Пример платформы данных

Пример собственной платформы данных в компании, занимающейся маркетингом в ecommecrce. Собрана целиком из открытых инструментов.

ИИ в 2021

Подборка достижений в Искусственном Интеллекте за 2021 год - статьи, код, видео с пояснениями

Пара интересных работ:

DefakeHop: A Light-Weight High-Performance Deepfake Detector
Мы уже представляли эту работу здесь

The Cocktail Fork Problem: Three-Stem Audio Separation for Real-World Soundtracks
Вы когда-нибудь настраивались на видео или телешоу, и актеры были совершенно не слышны, или музыка была слишком громкой? Что ж, эта проблема, также называемая проблемой коктейльной вечеринки, может больше никогда не повториться. Mitsubishi и Университет Индианы только что опубликовали новую модель, а также новый набор данных, решающий задачу определения правильного саундтрека. Например, если мы возьмем тот же аудиоклип, который мы только что запустили, со слишком громкой музыкой, вы можете просто увеличить или уменьшить звуковую дорожку, которую хотите придать речи больше, чем музыке.

Проблема здесь в том, чтобы изолировать любой независимый источник звука от сложной акустической сцены, такой как сцена из фильма или видео на YouTube, где некоторые звуки не сбалансированы. Иногда вы просто не слышите некоторых актеров из-за музыки, взрывов или других звуков на заднем плане. Что ж, если вы успешно изолировали разные категории в саундтреке, это означает, что вы также можете повышать или понижать только одну из них, например, немного приглушить музыку, чтобы правильно слышать всех других актеров. Именно этого и добились исследователи. И получилась довольно ясная архитектура

Sunday, November 07, 2021

Saturday, November 06, 2021

Friday, November 05, 2021

Missing Data

Пропущенные данные - что делать на практике и почему просто взять среднее значение соседей не есть хорошо.

У автора статьи есть целая книга в свободном доступе, где рассматривается именно такой итеративный процесс, когда пропущенные значения вычисляются как функция от других значений в датасете.

Внимательный телезритель

Multimodal Event Representation Learning Over Time (MERLOT) - метод предварительного обучения, который концентрирует знания, полученные из видео, без необходимости использования помеченных данных. Полученные в результате представления помогли точно настроенным моделям проводить различные суждения по видео с высочайшей точностью.

Как это работает: авторы разделили шесть миллионов видеороликов YouTube на 180 миллионов отдельных кадров, каждый из которых соединен с соответствующим текстом из расшифровки стенограммы.

Во время предварительного обучения ResNet-50 (кодировщик изображений на иллюстрации выше) генерировал начальное представление каждого кадра.

Трансформер (кодировщик только для языка) произвел представление связанного текста (с учетом всей транскрипции до этого момента). Функция потерь поощряла совпадение кадров и текстовых представлений быть похожими, а несоответствия - несхожими.

Другой трансформер получил представление каждого кадра и соответствующий ему текст (но не текстовое представление). Он научился угадывать замаскированные слова в тексте, а также правильный порядок кадров.

Результаты: MERLOT установил новый уровень достижимых результатов для 14 задач, которые включали ответы на вопросы об отдельных кадрах, ответы на вопросы о последовательностях кадров и упорядочивание неупорядоченных кадров. Особенно хорошо он справился с задачами с ответами на вопросы, предназначенными для проверки пространственных и временных рассуждений на GIF-файлах с Tumblr. Например, MERLOT ответил на вопросы с несколькими вариантами ответов о действии, выполняемом в клипе, с точностью 94,0 процента по сравнению с предыдущим лучшим результатом в 82,8 процента точности. В других областях улучшение было менее значительным. Например, в Drama-QA (датасет для тренировки понимания видео-историй) он ответил на вопросы с несколькими вариантами ответов об истории в клипах телешоу с точностью 81,4 процента по сравнению с предыдущим лучшим результатом в 81,0 процента.

Почему это важно: MERLOT научился упаковывать ряд важной информации о видеоизображениях, сопроводительном тексте и порядке кадров в создаваемые им представления. Количество неразмеченных видео и аудио данных - огромно, и такие алгоритмы обучения с самоконтролем, как этот, могут раскрыть огромную ценность таких данных.

А зависимость от публичных м легко модицируемых датасетов является хорошим примеров для иллюстрации проблем кибербезопасности. Текстовые описания для видео никто ведь не проверяет ...

Thursday, November 04, 2021

Лицедейство в браузере

Лице-слежение непосредственно в браузере. Еще один пример использования машинного обучения в JavaScript.

Wednesday, November 03, 2021

Машинное обучение на потоке

MediaPipe - Open Source кроссплатформенный пакет для машинного обучения на потоковых медиа. От Google, с хорошей документацией и со множеством примеров.

Не все так просто

Маска - я вас не знаю. Для авторизации в банковском приложении лицо в маске не подходит. Нужны другие устройства.

См. публикацию о физических атаках на системы машинного обучения.

Tuesday, November 02, 2021

Физические атаки на системы машинного обучения

Физические атаки на системы распознавания лиц

Весьма богатая тема. Естественные изменения для лиц используются как состязательные примеры. Здесь "одевают" маску.

Другие варианты:
маска с изображением другого лица (такой метод маскировки использовался в военном флоте - на борту корабля рисовали контур другого, более мелкого)
очки
повороты головы
кепка с козырьком
наушники
серьги
косметика

См. также другие публикации по теме adversarial, посященные устойчивому машинному обучению

Данные, данные

Анализ того, как проблемы с данными отражаются на моделях машинного обучения. Google называет это каскадами данных

Google также выпустил руководство по сбору и оценке данных - PAIR AI Guidebook, предназначенное для разработчиков и дизайнеров машинного обучения.

Monday, November 01, 2021

Deep fake космоснимков

Использование GAN для генерации поддельных космических снимков

См. также другие публикации по теме adversarial и deepfake

Sunday, October 31, 2021

Ленивая загрузка

Ускорение загрузки сайта через использование CSS свойства content-visibility

content-visibility: auto гарантирует максимальный возможный прирост производительности рендеринга страницы при минимальных усилиях.

Friday, October 29, 2021

GNN - введение

Как начать работать с GNN (и не стесняться этого)

См. также другие публикации, посвященные графовым нейронным сетям

Thursday, October 28, 2021

Печатные новости

Пара статей из свежего номера журнала INJOIT:

Физический браузер: концепция и обзор существующих решений API - как использовать в веб-браузере информацию о физическом обружении. Например, различать с помощью JavaScript, открыта страница магазина (торгового центра и т.п.) в обычном десктоп-браузере, или же это мобильный веб-браузер и пользователь находится сейчас в помещении магазина.

Устойчивое машинное обучение - почему это стало самым важным.

Tuesday, October 26, 2021

О дип фейках

Facebook о поиске deep fakes. Ищут следы работы GAN в изображениях

См. также другие публикации, посвященные GAN

Sunday, October 24, 2021

Тренды в машинном обучении

Согласно Google Cloud’s Applied ML Summit:

Более развитые библиотеки компонентов, которые можно комбинировать.

Снижение ручных усилий: позвольте инструментам выполнять настройку гиперпараметров за вас или даже использовать AutoML, чтобы выполнить всю машинную обработку за вас.

Использование облака для массового параллельного обучения и конвейеров машинного обучения.

Развертывание моделей в TensorFlow Lite и TensorFlow.js.

про то, что все идет к AutoML, мы уже однократно писали

Отсюда

Карта ИИ

Гигантская карта искусственного интеллекта (кликабельна)

Отсюда

Causal Inference и Python

Визуализация каузальности - почему в графическом исполнении

Поиск причин - Causal discovery

см. также другие публикации, посвященные каузальности

Friday, October 22, 2021

Тайные общества

Поиск сообществ на графах. Новый вариант использования рекуррентной графовой нейронной сети.

Водяные знаки

Пометка изображений с использованием состязательного машинного обучения, так что попытки редактирования защищенного изображения становятся видны.

Thursday, October 21, 2021

Анализ логов

LogMine - извлечение шаблонов из логов

P.S. и интересная дискуссия со ссылками на другие продукты на YC

P.P.S. См. также другие публикации, посвященные анализу логов

Wednesday, October 20, 2021

Больше смещений, хороших и разных

Какой он бывает - bias

См. также другие публикации по теме bias

Tuesday, October 19, 2021

Почему - по версии Netflix

Вычислительные причинно-следственные выводы - как это понимает Netflix. Вот исходная статья, представляющая программый инструмент для анализа каузальности

см. также другие публикации, посвященные каузальности

Sunday, October 17, 2021

Обогащение данных

Об одном подходе к улучшению качества данных. Имея изначально небольшой набор изображений для обучения, автор искусственно создавал изображения, проверял модель на них и добавлял к исходноиму набору данных нераспознанные изображения с правильными, вручную проставленными метками. Фактически - состязательная тренировка для улучшения качества данных.

Saturday, October 16, 2021

Наше общее детство прошло на одних букварях

Атаки на система машинного обучения позволяют, в частности, выяснить - а был ли интересующий нас объект в тренировочном наборе? То есть по результатам работы системы можно оценить тренировочный набор данных. Вот пример такой атаки, которая называется Identity Membership Attack. Волшебная технология ...

Открытая наука, том 9, номер 10

Очередной номер журнала INJOIT появился на сайте Киберленинка. В этом номере опубликована, в частности, первая статья из нашего нового цикла работ, посвященного устойчивому машинному обучению.

Это том 9, номер 10 за 2021 год. По данным elibrary.ru, журнал INJOIT занимает второе место в разделе Кибернетика и второе в разделе Автоматика и вычислительная техника

/via Лаборатория ОИТ

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Интерпретация результатов машинного обучения

Интерпретация и объяснения для машинного обучения:

Отчет Cloudera Fast forward labs - Interpretability

XAI методы

Интегрированные градиенты

См. также другие публикации на тему "почему"

Thursday, October 14, 2021

State of AI

Еще один отчет по Искусственному интеллекту: AI 2021. Интересен весьма глубокой технической экспертизой. Авторы - из мира венчурного капитала. То есть за выводы им отвечать своими деньгами.

Ключевые темы отчета за 2021 год включают:

ИИ развивается более конкретными способами, в том числе применяется в критически важной инфраструктуре, такой как национальные электрические сети, и в автоматизированной оптимизации складских помещений в супермаркетах во время пандемий.

Подходы, ориентированные на ИИ, взяли штурмом биологию благодаря более быстрому моделированию клеточных механизмов человека (белков и РНК). Это может изменить открытие новых лекарств и здравоохранение.

Трансформеры появились как архитектура общего назначения для машинного обучения, превзойдя современные достижения во многих областях, включая НЛП, компьютерное зрение и даже предсказание структуры белков.

Инвесторы обратили на ИИ внимание: рекордное финансирование в этом году стартапов в области ИИ и два первых в истории IPO компаний, занимающихся открытием новых лекарств, а также блокбастерные IPO для компаний, занимающихся инфраструктурой данных и кибербезопасностью, которые помогают предприятиям переоснащаться для перехода на эру ИИ.

Недостаточные ресурсы усилий по согласованию ИИ со стороны ключевых организаций, которые продвигают ИИ в целом, а также озабоченность по поводу наборов данных, используемых для обучения моделей ИИ, и предвзятость в контрольных показателях оценки моделей поднимают важные вопросы о том, как лучше всего отображать прогресс ИИ.

ИИ теперь представляет собой настоящую гонку вооружений, а не фигуральную форму. Исследователи ИИ традиционно рассматривали гонку вооружений ИИ как образную - имитированные воздушные бои между конкурирующими системами ИИ, проводимые в лабораториях, - но это меняется с сообщениями о недавнем использовании автономного оружия различными вооруженными силами.

В рамках соперничества между США и Китаем примечателен рост качества исследований и подготовки талантов Китая, при этом китайские институты теперь опережают наиболее известные западные. Зависимость мира от полупроводниковой промышленности Тайваня, которая производит микросхемы искусственного интеллекта для глобальных технологических гигантов, является центральной точкой геополитической напряженности.

Как и в случае с другими аспектами так называемого «фрагментированного интернета», происходит появление и национализация крупных языковых моделей.

См. также публикации про альманах искусственного интеллекта

Монография по Байесовской оптимизации

Книга в открытом доступе: Bayesian Optimization Book

См. также другие публикации по теме Байес

Wednesday, October 13, 2021

Python vs Swift

Проблемы Python, которые Google предлагает решать с помощью Swift

Saturday, October 09, 2021

Всех не просканируешь

Использование GAN для медицинских изображений. Для машинного обучения нужны данные (изображения), собирать трудно и дорого. Остается делать их самим.

Friday, October 08, 2021

Использование SHAP

Объяснение на примерах - как использовать SHAP для объяснения результатов машинного обучения. И делать это можно на разных уровнях: на этапе тренировки, при валидации и при использовании

См. также другие ссылки по теме "почему"

Академия графов

Хороший учебный сайт от Neo4j: графовая база данных и алгоритмы на графах

См. также другие публикации, посвященные Neo4j

Thursday, October 07, 2021

Wednesday, October 06, 2021

ML поисковик

Мета-поиск по моделям ML и исходному коду. Вот, например, статьи и код по теме adversarial

Tuesday, October 05, 2021

Wi-Fi sensing

Хороший обзор по использованию стандартных Wi-Fi устройств длдя мониторинга активности

См. также другие публикации, посвященные Wi-Fi

Monday, October 04, 2021

Устойчивое машинное обучение

Академические и индустриальные проекты, посвященные устойчивому машинному обучению. Обзорная статья.

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Реальный ИИ

Про искусственный интеллект: "Несмотря на утверждения об обратном, у беспилотных автомобилей в настоящее время больше аварий, чем у автомобилей, управляемых людьми, но травмы менее серьезные. В среднем происходит 9,1 ДТП с участием беспилотных автомобилей на миллион пройденных километров, в то время как такой же показатель составляет 4,1 ДТП на миллион миль для обычных транспортных средств."

Отсюда

См. также предыдущую публикацию по этой теме

Sunday, October 03, 2021

О нейронных сетях на графах

Пара статей:

1. Обзор GNN

2. О кодировке графов

См. также другие публикации, посвященные GNN

Печальная реальность

Реальное состояние систем искусственного интеллекта - без человека пока никак. Или это должны быть системы с низкой ценой ошибки.

Saturday, October 02, 2021

"Жидкие" нейронные сети

Нейронные сети, которые обучаются в процессе работы. Вот здесь есть подробнее об этом проекте из MIT. Выглядит как вариация на тему онлайн обучения. И совсем непонятно, как в такой модели бороться за устойчивость.

Friday, October 01, 2021

Online ML

Онлайн системы машинного обучения. Это ситуация, когда у нас нет полного датасета. Данные поступают последовательно

Thursday, September 30, 2021

Состязательная косметика

Наглядный пример атак на систем машинного обучения

Состязательный макияж. Что нового: исследователи из Университета Бен-Гуриона и NEC разработали систему для нанесения естественного макияжа, который делает людей неузнаваемыми по моделям распознавания лиц.

Как это выглядит: работая с 20 добровольцами, исследователи использовали FaceNet, которая изучает сопоставление изображений лиц с компактным евклидовым пространством, для создания тепловых карт, показывающих, какие области лица наиболее важны для идентификации.

Они использовали приложение для виртуального преобразования потребительского уровня YouCam Makeup, чтобы преобразовать тепловые карты в цифровые шаблоны макияжа, наложенные на изображение каждого добровольца. Они скармливали FaceNet копии этих цифровых снимков лица до тех пор, пока объект не стал неузнаваемым. Затем визажист физически нанес эти узоры на настоящие лица в нейтральных тонах.

Добровольцы шли по коридору, сначала без макияжа, а затем с макияжем, пока их снимали две камеры, которые транслировали свои снимки на распознаватель лиц ArcFace. Результаты: ArcFace распознал участников с нанесенным макияжем в 1,2% кадров. Он распознал тех, кто не использовал макияж в 47,6 процентах кадров видео, и тех, кто использовал случайный рисунок макияжа в 33,7 процента кадров.

Почему это важно: эта новая техника требует только обычного ненавязчивого макияжа и отказа от аксессуаров, которые могут вызвать подозрения у сотрудников службы безопасности. Он предлагает, пожалуй, самый простой способ для обычных людей помешать распознаванию лиц - по крайней мере, до тех пор, пока алгоритмы не приспособятся (то есть будут обучены распознавать такие случаи).

См. также другие публикации по теме adversarial, посященные устойчивому машинному обучению

И о статистике

Интересный практический материал - ошибки статистиков. Изложение иллюстрируется соответствующей тетрадкой для непосредственной работы с кодом

Wednesday, September 29, 2021

Распределитель

Интересная и практическая статья Spatial-Temporal Demand Forecasting and Competitive Supply. Распределение заказов в логистике, такси по клиентам и т.д.

Евро IoT

IoT 2.0 and the INTERNET of TRANSFORMATION (Web of Things and Digital Twins) - технический отчет EU по современному состоянию систем IoT

Tuesday, September 28, 2021

МЭМС

МЭМСы. Как устроены современные датчики?. Микроэлектромеханические системы (МЭМС) — устройства, объединяющие в себе микроэлектронные и микромеханические компоненты.

Thursday, September 23, 2021

Ноу криминалити

Общественная палата зачем-то выложила поминутный график электронного голосования в Москве. За одну минуту в 3 часа ночи 18.09 проголосовало 4500 человек. И тут же легли спать - ни до, ни после ничего такого нет. Совсем ноу криминалити. Ну никаких следов взлома.

Данные - отсюда

Правило использования ML

ML strategy tip

When you have a problem, build two solutions - a deep Bayesian transformer running on multicloud Kubernetes and a SQL query built on a stack of egregiously oversimplifying assumptions. Put one on your resume, the other in production. Everyone goes home happy.

Отсюда: Первое правило для машинного обучения - попробуйте без него

Кстати, Google говорит о том же: Rule #1: Don’t be afraid to launch a product without machine learning.

Tuesday, September 21, 2021

Основы HTTP/3

Толковый перевод статьи по HTTP/3

См. также другие публикации, посвященные HTTP/3

Java 17

Новый релиз Java. Не знаю, как на такие добавления реагировать, точно ли все это нужно?

Monday, September 20, 2021

Как испортить изображение

Модификации данных в системах на базе машинного обучения, которые ломают систему (обманывают классификаторы)

Sunday, September 19, 2021

HMM vs LSTM

Для анализа последовательных данных доступно множество инструментов. Один из самых простых, гибких и проверенных временем подходов - это скрытые марковские модели (HMM). Изначально они были разработаны для обработки сигналов, а теперь широко используются в биоинформатике.

В сообществе специалистов по науке о данных есть тенденция отдавать предпочтение вариантам машинного обучения, таким как LSTM. Хотя эти инструменты довольно мощные, они также заведомо сложны и трудны для понимания. В результате вы часто видите, как специалисты по обработке данных изо всех сил пытаются использовать сложный подход, когда простой будет работать лучше.

Скрытые модели Маркова или LSTM?

Thursday, September 16, 2021

Wednesday, September 15, 2021

Tuesday, September 14, 2021

О маленьком Интернете

Как посторить гиперлокальный Интернет. Ресурсы сети доступны только в некоторой локальной области (в сетевой близости от пользователя). Статья конференции DCCN-2020

Открытая наука том 9, номер 9

Очередной номер журнала INJOIT появился на сайте Киберленинка

Это том 9, номер 9 за 2021 год. По данным elibrary.ru, журнал INJOIT занимает второе место в разделе Кибернетика и второе в разделе Автоматика и вычислительная техника

/via Лаборатория ОИТ

Инциденты с ИИ

База данных Artificial Intelligence Incident.

Вот здесь есть описание проекта от авторов

Являясь центральным систематизированным хранилищем проблем, возникающих в реальном мире в результате применения ИИ, эта краудсорсинговая база данных может помочь специалистам в области ИИ смягчить или избежать повторения плохих результатов в будущем. Откройте для себя ранее предоставленные отчеты об инцидентах или отправьте свои собственные сегодня.

Sunday, September 12, 2021

Обобщение в нейронных сетях

Люди понимают мир с помощью абстракции: если вы усвоите концепцию схватывания палки, вы также поймете, как схватить мяч. Новая работа исследует способность систем глубокого обучения делать то же самое - важный аспект их способности делать обобщения.

Что нового: психологи называют такое мышление систематическим рассуждением. Исследователи из DeepMind, Стэнфордского университета и Университетского колледжа Лондона изучали эту способность в моделях глубокого обучения с подкреплением, обученных взаимодействовать с окружающей средой и выполнять задачу.

Ключевой вывод: Феликс Хилл и его коллеги обучили модель помещать объект 1 в точку 1 с примером выполняемого действия. Во время тестирования они попросили модель поместить объект 2 в позицию 2. Объекта 2 и позиции 2 не было в обучающей выборке, поэтому способность модели выполнять задачу указывает на общее понимание того, как положить.

Как это работает: модель получает представление об окружающей среде вместе с описанием задачи (инструкцией по размещению или поиску данного объекта). Модель обрабатывает эти элементы по отдельности, а затем объединяет свое понимание каждого из них, чтобы определить серию действий для выполнения задачи.
Модель состоит из трех компонентов (обычный выбор для обработки изображений, понимания текста и решений последовательности): CNN обрабатывает представление среды, LSTM интерпретирует описание задачи, а выходы CNN и LSTM объединяются в скрытом слое LSTM для отслеживания прогресса. к выполнению задачи.
Модель учится связывать различные объекты с их именами, выполняя задачи put [object] или find [object]. Исследователи разделяют объекты на тестовые и обучающие наборы. Затем они обучают модель ставить или поднимать предметы в обучающую выборку. Чтобы измерить систематичность рассуждений, они просят его поднять или положить предметы в набор для тестирования.

Результаты: исследователи обучили копии модели в смоделированных 2D и 3D средах. В любом случае более 91% удалось поднять новые объекты. Однако успешность размещения новых объектов упала примерно до 50 процентов в обеих средах.

Да, но: удаление описания задачи и компонента LSTM не сильно повлияло на производительность. То есть, хотя такие слова, как положить и найти, могут помочь людям понять, как нейронные сети работают систематически, язык, по-видимому, не имеет решающего значения для их работы.

Почему это важно: нейронные сети могут делать обобщения, но наше понимание того, как они это делают, неполно. Это исследование предлагает способ оценить роль систематических рассуждений. Результаты предполагают, что модели, которые рассуждают систематически, с большей вероятностью будут обобщать.

Вывод: недавняя серия предварительно обученных языковых моделей приобретает знания, которые позволяют им выполнять различные задачи без переобучения с нуля. Понимание систематических рассуждений в нейронных сетях может привести к повышению производительности в областях, отличных от естественного языка.

Отсюда

Saturday, September 11, 2021

Thursday, September 09, 2021

Кто это сделал?

Интересная работа по учету вклада отдельных уровней CNN в результат работы сети. Важно в плане генерации возможных состязательных примеров.

См. также другие статьи, посвященные CNN

ML ресурсы

Интересные ссылки по машинному обучению:

https://paperswithcode.com - соответствует названию. Статьи, изложение которых сопровождается кодом. Cвежие решения задач, ссылки на тестирование проектов на разных референсных датасетах.

https://distill.pub - журнал по ML с хорошо иллюстрированными статьями

https://ruder.io - блог NLP разработчика из DeepMind (Sebastian Ruder)

http://colah.github.io - еще один блог (Christopher Olah) с объяснениями разных прооблем ML

Friday, September 03, 2021

Сравнение AutoML продуктов

Сравнительный анализ работы AutoML на открытых датасетах

См. также другие публикации по теме AutoML

А пояснить?

Explainability в машинном обучении.

См. также другие публикации на тему "почему"

Thursday, September 02, 2021

О неопределенности в машинном обучении

Типичный пример продукта в машинном обучении - MAPIE. Длинное описание, все хорошо, и последнее предложение, которое все убивает: At the moment, MAPIE can only be used on single-output regression problems. Все это - для одной единственной модели. Самой простой :)

Wednesday, September 01, 2021

Дрифты в машинном обучении

Интересный и практически полезный отчет от Cloudera по оценке смещения в распределении данных. Обучали модель на одних данных, а тестовые данные имеют другое распределение

Monday, August 30, 2021

И еще о pandas

Простые примеры использования Pandas. И самый простой способ использования это, конечно, бесплатные облачные блокноты: IBM Watson Studio и Google Colab

См. также другие публикации, посвященные pandas

Friday, August 27, 2021

Больше учебных программ по ИИ

1. Гранты Минобрнауки на разработку учебных программ бакалавриата и программ магистратуры по профилю «Искусственный интеллект», а также на повышение квалификации педагогических работников образовательных организаций высшего образования в сфере искусственного интеллекта - результаты

2. Яндекс на мехмате МГУ

Thursday, August 26, 2021

Современные проблемы компьютерных и информационных наук

24 - 27 ноября 2021 года на факультете вычислительной математики и кибернетики Московского государственного университета имени М.В. Ломоносова состоится Международный конгресс «СОВРЕМЕННЫЕ ПРОБЛЕМЫ КОМПЬЮТЕРНЫХ И ИНФОРМАЦИОННЫХ НАУК». В рамках Конгресса будут проведены пленарные заседания и серия научных мероприятий, соответствующих приоритетным направлениям развития науки, технологий и техники в Российской Федерации в крупнейшей междисциплинарной области современности - информационно-телекоммуникационные системы - которая объединяет представителей математики, информатики, физики и наук о материалах, компьютерных наук, наук о данных и гуманитарных наук из России и зарубежных стран.

Конгресс проводится в рамках программы деятельности Федерального учебно-методического объединения в системе высшего образования по укрупненной группе специальностей и направлений подготовки 02.00.00 «Компьютерные и информационные науки».

Основная программа научных мероприятий Конгресса включает проведение:


VI Международной научной конференции «Конвергентные когнитивно-информационные технологии»;
XVI Международной научно-практической конференции «Современные информационные технологии и ИТ-образование»;
XI Международной конференции-конкурса «Инновационные информационно-педагогические технологии в системе ИТ-образования» – ИП-2021.

Материалы принимаются только в электронном виде через англоязычную или русскоязычную web-форму. Для прикрепления материалов требуется регистрация на сайте конференции.

Рабочими языками Конгресса являются английский или русский.

По результатам работы VI Международной научной конференции «Конвергентные когнитивно-информационные технологии» и XVI Международной научно-практической конференции «Современные информационные технологии и ИТ-образование» научные доклады, рекомендованные программным комитетом, будут опубликованы в Международном научном журнале «Современные информационные технологии и ИТ-образование» (ISSN 2411-1473), который включён в Перечень ВАК Минобрнауки РФ, и проиндексированы в РИНЦ, EBSCO, DOAJ, Ulrichsweb Global Serials Directory, European Reference Index for the Humanities and the Social Sciences (ERIH PLUS), Index Copernicus International.

С целью повышения видимости публикаций конференций для международного научного сообщества избранные научные доклады VI Международной научной конференции «Конвергентные когнитивно-информационные технологии» и XVI Международной научно-практической конференции «Современные информационные технологии и ИТ-образование» будут опубликованы в издательстве Springer в виде отдельных книг (выпусков) в серии Communications in Computer and Information Science (CCIS) и проиндексированы в базе Scopus.

Правила оформления и подачи работ

И о моделях

Все не так хорошо с натренированными моделями машинного обучения. А что плохо - описано здесь. Спойлер - проблема с устойчивостью (как и везде в современном машинном обучении).

Sunday, August 22, 2021

R и анализ данный

Все для (и про) анализа данных на R от The Johns Hopkins Data Science Lab

См. также другие публикации, посвященные языку R

Saturday, August 21, 2021

Интеллектуальные двойники

Цифровые двойники по-китайски. Intelligent Twins от Хуавей

См. также другие публикации, посвященные digital twins

Friday, August 20, 2021

BIM-блог

Хороший блог, посявященный информационному моделированию

См. также другие публикации, посвященные BIM

Анализ динамических взаимодействий

Социальный граф естественным образом представляется в виде графовой структуры. Узлы - участники социальной сети, например, а ребра - связи между ними. В данной статье рассматриваются динамические сети, которые отображают текущее (меняющееся во времени) взаимодействие (общение) участников.

Thursday, August 19, 2021

Куда дальше?

Yoshua Bengio, Geoffrey Hinton и Yann LeCun - проблемы глубинного обучения и куда двинаться дальше. Одно из направлений - System 2 deep learning.

Современные системы машинного обучения основаны на гипотезе независимо и одинаково распределенных (IID - independently and identically distributed) данных. По сути, алгоритмы машинного обучения работают лучше всего, когда их обучающие и тестовые данные относятся к одному и тому же распределению. Это предположение может хорошо работать в простых средах, таких как подбрасывание монет и бросание игральных костей. Но реальный мир запутан, и распределения почти никогда не бывают однородными.

«Когда мы это делаем, мы уничтожаем важную информацию об изменениях в распределении, которые присущи собираемым нами данным», - сказал Yoshua Bengio. «Вместо того, чтобы уничтожать эту информацию, мы должны использовать ее, чтобы узнать, как меняется мир».

Интеллектуальные системы должны иметь возможность делать выводы для различных распределений данных, точно так же, как человеческие дети учатся приспосабливаться к изменениям своего тела и окружающей среды. «Нам нужны системы, которые могут справиться с этими изменениями и осуществлять непрерывное обучение, обучение на протяжении всей жизни и так далее», - сказал Yoshua Bengio в своем выступлении на NeurIPS. «Это давняя цель машинного обучения, но мы еще не нашли решения этой проблемы».

BIM и IoT

Информационное моделирование развивается весьма быстро. Вот статья с обзором литературы по теме использования BIM и Интернета вещей

Monday, August 16, 2021

Робастные модели

Практический пример - почему нужны устойчивые модели машинного обучения: квадратные автомобильные номера не распознаются

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Статистическое обучение

Книга в свободном доступе: Введение в статистическое обучение. Вторая редакция. С упражнениями и примерами.

Tuesday, August 10, 2021

Python для ленивых

Техническое: в этом Python playground помимо самого текста программы можно еще и загружать текстовые файлы данных

См. также другие публикации, посвященные Python

Saturday, August 07, 2021

Вас здесь не звучало

Новая волна стартапов (сервисов) по генерации голоса. Актеры для озвучки становятся просто не нужны

Интерпретируемый K-means

Практический материал - что отличает один кластер от другого. Как определить самые важные характеристики кластеров при использовании K-Means

Open Source школа от Самсунг

Хотите прокачать скиллы Open Source-разработчика этим летом? Самсунг приглашает разработчиков поступить в бесплатную летнюю онлайн школу Community of Open Source Newcomers (COMMoN). Open Source стал глобальным трендом развития программного обеспечения как для компаний, так и для разработчиков. Все пользуются open source решениями, а у многих ли за плечами опыт успешного котрибьюторства в большие проекты?

Разработчики смогут это сделать в школе COMMoN! Участники проведут 4 недели, обучаясь у опытных контрибьюторов и работая над своим собственным коммитом в один из трех известных open source проектов: ROS, Arenadata DB, DeepPavlov.

И это не всё, лучшие решения получат награду от компаний-партнеров треков.

Сроки работы онлайн школы: 16 августа – 10 сентября 2021 г.

Возраст участников не ограничен. Как поступить: https://sosconrussia.net/common_ru

Thursday, August 05, 2021

Как устроены CNN

Объяснение работы Convolutional Neural Networks. И интересная дискуссия на YC

P.S. см. также другие публикации, посвященные CNN

Wednesday, August 04, 2021

Карты значимости

Все нейроны важны, но некоторые важнее. От чего реально зависи вывод нейронной сети? Это, кстати, имеет прямое отношение к устойчивости систем машинного обучения. Значимые нейроны - это то, что и может быть атаковано.

Wednesday, July 28, 2021

Об устойчивом машинном обучении

Базовая проблема для систем машинного обучения: данные на этапе тренировки модели и при практической эксплуатации - разные. И не похожи друг на друга. Другое распределение - distributional shift. Что же делать?

Соревнование от Яндекса: Если сдвиг распределения данных в реальном мире значителен относительно обучающей выборки (например, модель машинного перевода, которая училась на классической литературе, вдруг возьмется переводить твиты), недостаточно надежные модели будут ошибаться. Поэтому, попадая в реальный мир, модели должны быть готовы справляться со сдвигом, который их там ждет.

Этим, однако, дело не ограничивается. Чтобы модель работала эффективно и безошибочно, о вероятности ошибки лучше знать заранее: следовательно, модель должна давать оценку неопределенности относительно своих решений. Поэтому мы хотим добиться от моделей, с одной стороны, устойчивой работы при сдвиге распределения, а с другой — умения оценивать неопределенность.

Это часть NeurIPS 2021 Competition Track. Вот оригинальная страница Shifts Challenge

См. также другие публикации по теме мониторинг моделей машинного обучения

Системные архитектуры

Толковые лекции по программной архитектуре

P.S. тут у автора еще есть интересные материалы по программной инженерии

Tuesday, July 20, 2021

Объявляется прием на программу "Разработчик компьютерных технологий"

Объявляется прием на программы профессиональной переподготовки для получения дополнительной квалификации «Разработчик профессионально-ориентированных компьютерных технологий»
(очно-заочная и дистанционная формы обучения) с 14 июля по 20 сентября 2021 г.

Сроки обучения – 2 года
Форма обучения – вечерняя (очно-заочная) и дистанционная.
Обучение осуществляется на договорной основе (50 000 руб. за 1 семестр, вся программа – 200 000 руб.)
Выпускники получают Диплом о профессиональной переподготовке с присвоением дополнительной квалификации установленного образца.

Прием документов и подробная информация на сайте


Зачисление производится приемной комиссией факультета по факту оплаты за 1й семестр.
Телефон для справок: 8(910)553-6487, dpovmk@cs.msu.ru Якушин Алексей Валериевич

/via Магистратура ВМК МГУ

Thursday, July 15, 2021

Долой SQL

Довольно интересная атака на SQL. И бурная дискуссия на YC

Wednesday, July 14, 2021

Copilot

Обзор текущего состояния системы Copilot (генеративная модель для генерации кода). Пока получается не очень хорошо.

Вам, Юлиеводы

Коллекция алгоритмов data science, реализованных на языке Julia

P.S. см. также другие публикации, посвященные языку Julia

Saturday, July 10, 2021

Открытая наука, том 9, номер 7

Очередной номер журнала INJOIT появился на сайте Киберленинка

Это том 9, номер 6 за 2021 год. По данным elibrary.ru, журнал INJOIT занимает второе место в разделе Кибернетика и второе в разделе Автоматика и вычислительная техника

/via Лаборатория ОИТ

Wednesday, July 07, 2021

NLP курс

Интересный курс по NLP, целиком реализованный на Google Collab

Fake Detector

Это не его лицо - fake face detector всего с 40 000 параметров

Вот здесь подробнее об этой и других похожих работах

Госуслуги


502 Bad Gateway
nginx

Символично ...

О безопасном ИИ

Манифест от CMU, посвященный устойчивому машинному обучению. С интересной библиографией

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Thursday, June 24, 2021

Локальный хэш

Хэш, для поиска ближайших (похожих) данных

И интересная дискуссия на YC

См. также другие публикации с темой хэш

Wednesday, June 23, 2021

О работе в машинном обучении

1. Что спрашивают при приеме: энциклопедия ML interview

2. Как работать - анализ опросов разработчиков на Kaggle. Чем занимаются, какие инструменты используют работающие в области ML

См. также другие публикации, посвященные интервью при приеме на работу

Sunday, June 20, 2021

Saturday, June 19, 2021

Практический анализ данных

Очень толковая книга: Reproducible Data Science: Accessible Data Analysis with Open Source Python Tools and Real-World Data

По шагам - что делать с данными. Все сопровождается кодами на Python.

Wednesday, June 09, 2021

Низкая степень риска

Медизделия в виде программного обеспечения, даже с искусственным интеллектом, приравнены к изделиям с низкой степени риска. Приказ Министерства здравоохранения РФ от 22 апреля 2021 г. N 386н

При этом среди документов, поданных для проведения экспертизы такого ПО, должны быть фотографии электронного носителя ПО и фото интерфейса ПО размером не менее 18 х 24 см. Отсюда

P.S. вспомнилось, как смеялись над фотографией, где следователи картинку на экране рассматривали через увеличительное стекло. Вот, чтобы такого не было - 18x24 ...

Генераторы Gesan

Есть ситуации, когда возникает острая необходимость в использовании дополнительных источников энергии. Например, на временных строительных площадках или в местах, где отсутствуют электросети нужной мощности.

Мобильность и оперативность подключения также не относятся к достоинствам сетей общего пользования. Подобные задачи способны решать лишь полностью автономные источники электропитания — электростанции, работающие на бензине или дизельном топливе.

Распродажа: генераторные установки Gesan из Европы в наличии на складе в Москве

Холодный душ

Революции в анализе медицинских изображений с помощью машинного обучения так и не произошло

Кризис доверия к AI в медицине

Кажется, что понимание фундаментальных проблем машинного обучения (а именно это сейчас - искусственный интеллект) с робастностью растет.

О машинном обучении

Хороший учебник, охватывающий практически все аспекты ML: Patterns, predictions, and actions

Вот его версия в arxiv

Monday, June 07, 2021

Короткие рекомендации

Хороший учебный материал по рекомендательным системам для сессий. Как выработать рекомендации, используя только текущую сессию пользователя (действия пользователя только в текущей сессии, без использования долгой истории).

См. также следующую публикацию

P.S. см. другие исследования от Cloudera Fast forward labs

Открытая наука, том 9, номер 6

Очередной номер журнала INJOIT появился на сайте Киберленинка

Это том 9, номер 6 за 2021 год. По данным elibrary.ru, журнал INJOIT занимает второе место в разделе Кибернетика и второе в разделе Автоматика и вычислительная техника

/via Лаборатория ОИТ

Saturday, June 05, 2021

Stanford CS Curriculum 2021

Все курсы по Computer Science из Стенфордского университета

P.S. не все - вот здесь обсуждение и недостающие ссылки

Friday, June 04, 2021

ИБП для медицины

ИБП для медицины призваны обеспечить защиту оборудование от повреждений и нарушения работы вследствие различного рода сбоев в электропитании: провалы, просадки, всплески, искажение или полное отсутствие напряжения. Подробнее - ИБП для медицинского оборудования.

И распродажа генераторов со склада в Москве.

По такой то причине

Учебный курс Introduction to Causal Inference

см. также другие публикации, посвященные каузальности

Фаззинг, как он есть

Толковое объяснение того, что представляет собой фаззинг - подход к автоматизации тестирования. И главное - как это выглядит практически.

и живая дискуссия на YC

См. также другие публикации, посвященные фаззингу

Monday, May 31, 2021

Граф знаний

Хорошая статья с описанием современного состояния Knowledge Graphs

Bluetooth proximity API

Open Source решение от VMWARE - Bluetooth proximity API. Вот здесь есть описание идеи проекта Herald

Наши идеи по network proximity завоевывают мир