AbavaNet technical corner: September 2021

Thursday, September 30, 2021

Состязательная косметика

Наглядный пример атак на систем машинного обучения

Состязательный макияж. Что нового: исследователи из Университета Бен-Гуриона и NEC разработали систему для нанесения естественного макияжа, который делает людей неузнаваемыми по моделям распознавания лиц.

Как это выглядит: работая с 20 добровольцами, исследователи использовали FaceNet, которая изучает сопоставление изображений лиц с компактным евклидовым пространством, для создания тепловых карт, показывающих, какие области лица наиболее важны для идентификации.

Они использовали приложение для виртуального преобразования потребительского уровня YouCam Makeup, чтобы преобразовать тепловые карты в цифровые шаблоны макияжа, наложенные на изображение каждого добровольца. Они скармливали FaceNet копии этих цифровых снимков лица до тех пор, пока объект не стал неузнаваемым. Затем визажист физически нанес эти узоры на настоящие лица в нейтральных тонах.

Добровольцы шли по коридору, сначала без макияжа, а затем с макияжем, пока их снимали две камеры, которые транслировали свои снимки на распознаватель лиц ArcFace. Результаты: ArcFace распознал участников с нанесенным макияжем в 1,2% кадров. Он распознал тех, кто не использовал макияж в 47,6 процентах кадров видео, и тех, кто использовал случайный рисунок макияжа в 33,7 процента кадров.

Почему это важно: эта новая техника требует только обычного ненавязчивого макияжа и отказа от аксессуаров, которые могут вызвать подозрения у сотрудников службы безопасности. Он предлагает, пожалуй, самый простой способ для обычных людей помешать распознаванию лиц - по крайней мере, до тех пор, пока алгоритмы не приспособятся (то есть будут обучены распознавать такие случаи).

См. также другие публикации по теме adversarial, посященные устойчивому машинному обучению

И о статистике

Интересный практический материал - ошибки статистиков. Изложение иллюстрируется соответствующей тетрадкой для непосредственной работы с кодом

Wednesday, September 29, 2021

Распределитель

Интересная и практическая статья Spatial-Temporal Demand Forecasting and Competitive Supply. Распределение заказов в логистике, такси по клиентам и т.д.

Евро IoT

IoT 2.0 and the INTERNET of TRANSFORMATION (Web of Things and Digital Twins) - технический отчет EU по современному состоянию систем IoT

Tuesday, September 28, 2021

Ученый рейтинг

Рейтингование исследователей по данным Google Scholar. Вот, например, Computer Science в России за 2021 год

Аппроксимация по перцентилям

Практический метериал: How percentile approximation works (and why it's more useful than averages). Все дело в длинных хвостах.

Sunday, September 26, 2021

Свободное место

Поиск свободных парковок по изображениям

МЭМС

МЭМСы. Как устроены современные датчики?. Микроэлектромеханические системы (МЭМС) — устройства, объединяющие в себе микроэлектронные и микромеханические компоненты.

Saturday, September 25, 2021

Крайние вещи

Обзор Edge based IoT

Friday, September 24, 2021

Анализ причинных связей

Анализ причинных связей переменных

См. также другие публикации, посвященные каузальности

Автомат перекоса

Регрессия для данных, где много нулевых значений

Thursday, September 23, 2021

Ноу криминалити

Общественная палата зачем-то выложила поминутный график электронного голосования в Москве. За одну минуту в 3 часа ночи 18.09 проголосовало 4500 человек. И тут же легли спать - ни до, ни после ничего такого нет. Совсем ноу криминалити. Ну никаких следов взлома.

Данные - отсюда

Декларативный ML

Важная статья. Следующий шаг за AutoML - это декларативный ML

Байесовская оптимизация

Байесовская оптимизация с хорошими иллюстрациями

P.S. см. также другие публикации по теме Байес

Wednesday, September 22, 2021

Тестирование ML приложений

Важная тема - как тестировать системы машинного обучения.

Правило использования ML

ML strategy tip

When you have a problem, build two solutions - a deep Bayesian transformer running on multicloud Kubernetes and a SQL query built on a stack of egregiously oversimplifying assumptions. Put one on your resume, the other in production. Everyone goes home happy.

Отсюда: Первое правило для машинного обучения - попробуйте без него

Кстати, Google говорит о том же: Rule #1: Don’t be afraid to launch a product without machine learning.

Tuesday, September 21, 2021

Основы HTTP/3

Толковый перевод статьи по HTTP/3

См. также другие публикации, посвященные HTTP/3

Java 17

Новый релиз Java. Не знаю, как на такие добавления реагировать, точно ли все это нужно?

Monday, September 20, 2021

Как испортить изображение

Модификации данных в системах на базе машинного обучения, которые ломают систему (обманывают классификаторы)

Sunday, September 19, 2021

HMM vs LSTM

Для анализа последовательных данных доступно множество инструментов. Один из самых простых, гибких и проверенных временем подходов - это скрытые марковские модели (HMM). Изначально они были разработаны для обработки сигналов, а теперь широко используются в биоинформатике.

В сообществе специалистов по науке о данных есть тенденция отдавать предпочтение вариантам машинного обучения, таким как LSTM. Хотя эти инструменты довольно мощные, они также заведомо сложны и трудны для понимания. В результате вы часто видите, как специалисты по обработке данных изо всех сил пытаются использовать сложный подход, когда простой будет работать лучше.

Скрытые модели Маркова или LSTM?

Saturday, September 18, 2021

Атаки на системы распознавания голоса

Как выглядят атаки на системы распознавания речи

Friday, September 17, 2021

Что когда использовать?

Краткое руководство по применению моделей машинного обучения

Пространственно-временные кластеры

Интересная статья: k-NN с учетом времени

Thursday, September 16, 2021

Кубик

OLAP Cube - красочное описание

Online ML

River - машинное обучение для потоков данных

Wednesday, September 15, 2021

CLTC UC Berkeley

Center for Long-Term Cybersecurity University of California, Berkeley. И их исследования в области устойчивого машинного обучения

Tuesday, September 14, 2021

О маленьком Интернете

Как посторить гиперлокальный Интернет. Ресурсы сети доступны только в некоторой локальной области (в сетевой близости от пользователя). Статья конференции DCCN-2020

Открытая наука том 9, номер 9

Очередной номер журнала INJOIT появился на сайте Киберленинка

Это том 9, номер 9 за 2021 год. По данным elibrary.ru, журнал INJOIT занимает второе место в разделе Кибернетика и второе в разделе Автоматика и вычислительная техника

/via Лаборатория ОИТ

Monday, September 13, 2021

ИИ оптимизатор

Deep learning модель, которая оптимизирует нейронные сети

Инциденты с ИИ

База данных Artificial Intelligence Incident.

Вот здесь есть описание проекта от авторов

Являясь центральным систематизированным хранилищем проблем, возникающих в реальном мире в результате применения ИИ, эта краудсорсинговая база данных может помочь специалистам в области ИИ смягчить или избежать повторения плохих результатов в будущем. Откройте для себя ранее предоставленные отчеты об инцидентах или отправьте свои собственные сегодня.

Sunday, September 12, 2021

Обобщение в нейронных сетях

Люди понимают мир с помощью абстракции: если вы усвоите концепцию схватывания палки, вы также поймете, как схватить мяч. Новая работа исследует способность систем глубокого обучения делать то же самое - важный аспект их способности делать обобщения.

Что нового: психологи называют такое мышление систематическим рассуждением. Исследователи из DeepMind, Стэнфордского университета и Университетского колледжа Лондона изучали эту способность в моделях глубокого обучения с подкреплением, обученных взаимодействовать с окружающей средой и выполнять задачу.

Ключевой вывод: Феликс Хилл и его коллеги обучили модель помещать объект 1 в точку 1 с примером выполняемого действия. Во время тестирования они попросили модель поместить объект 2 в позицию 2. Объекта 2 и позиции 2 не было в обучающей выборке, поэтому способность модели выполнять задачу указывает на общее понимание того, как положить.

Как это работает: модель получает представление об окружающей среде вместе с описанием задачи (инструкцией по размещению или поиску данного объекта). Модель обрабатывает эти элементы по отдельности, а затем объединяет свое понимание каждого из них, чтобы определить серию действий для выполнения задачи.
Модель состоит из трех компонентов (обычный выбор для обработки изображений, понимания текста и решений последовательности): CNN обрабатывает представление среды, LSTM интерпретирует описание задачи, а выходы CNN и LSTM объединяются в скрытом слое LSTM для отслеживания прогресса. к выполнению задачи.
Модель учится связывать различные объекты с их именами, выполняя задачи put [object] или find [object]. Исследователи разделяют объекты на тестовые и обучающие наборы. Затем они обучают модель ставить или поднимать предметы в обучающую выборку. Чтобы измерить систематичность рассуждений, они просят его поднять или положить предметы в набор для тестирования.

Результаты: исследователи обучили копии модели в смоделированных 2D и 3D средах. В любом случае более 91% удалось поднять новые объекты. Однако успешность размещения новых объектов упала примерно до 50 процентов в обеих средах.

Да, но: удаление описания задачи и компонента LSTM не сильно повлияло на производительность. То есть, хотя такие слова, как положить и найти, могут помочь людям понять, как нейронные сети работают систематически, язык, по-видимому, не имеет решающего значения для их работы.

Почему это важно: нейронные сети могут делать обобщения, но наше понимание того, как они это делают, неполно. Это исследование предлагает способ оценить роль систематических рассуждений. Результаты предполагают, что модели, которые рассуждают систематически, с большей вероятностью будут обобщать.

Вывод: недавняя серия предварительно обученных языковых моделей приобретает знания, которые позволяют им выполнять различные задачи без переобучения с нуля. Понимание систематических рассуждений в нейронных сетях может привести к повышению производительности в областях, отличных от естественного языка.

Отсюда

TensorFlow + Keras

Учебник в colab: TensorFlow + Keras

Saturday, September 11, 2021

Data engineering проекты

5 интересных проектов по выбору создателя инфраструктуры Twitter

Friday, September 10, 2021

Что еще можно подслушать?

Умная звуковая колонка позволяет слушать сердцебиение

Радио - это очень просто

По мотивам знаменитой книги. Как передаются сигналы по радио.

Thursday, September 09, 2021

Кто это сделал?

Интересная работа по учету вклада отдельных уровней CNN в результат работы сети. Важно в плане генерации возможных состязательных примеров.

См. также другие статьи, посвященные CNN

ML ресурсы

Интересные ссылки по машинному обучению:

https://paperswithcode.com - соответствует названию. Статьи, изложение которых сопровождается кодом. Cвежие решения задач, ссылки на тестирование проектов на разных референсных датасетах.

https://distill.pub - журнал по ML с хорошо иллюстрированными статьями

https://ruder.io - блог NLP разработчика из DeepMind (Sebastian Ruder)

http://colah.github.io - еще один блог (Christopher Olah) с объяснениями разных прооблем ML

Tuesday, September 07, 2021

Физический интернет

Паллеты и контейнеры в роли IP-пакетов

Friday, September 03, 2021

Сравнение AutoML продуктов

Сравнительный анализ работы AutoML на открытых датасетах

См. также другие публикации по теме AutoML

А пояснить?

Explainability в машинном обучении.

См. также другие публикации на тему "почему"

Thursday, September 02, 2021

О неопределенности в машинном обучении

Типичный пример продукта в машинном обучении - MAPIE. Длинное описание, все хорошо, и последнее предложение, которое все убивает: At the moment, MAPIE can only be used on single-output regression problems. Все это - для одной единственной модели. Самой простой :)

Wednesday, September 01, 2021

Дрифты в машинном обучении

Интересный и практически полезный отчет от Cloudera по оценке смещения в распределении данных. Обучали модель на одних данных, а тестовые данные имеют другое распределение