Friday, May 20, 2022

Wednesday, May 18, 2022

Human Level AI

Yann Lecun:

About the raging debate regarding the significance of recent progress in AI, it may be useful to (re)state a few obvious facts:
(0) there is no such thing as AGI. Reaching "Human Level AI" may be a useful goal, but even humans are specialized.
(1) the research community is making *some* progress towards HLAI
(2) scaling up helps. It's necessary but not sufficient, because....
(3) we are still missing some fundamental concepts
(4) some of those new concepts are possibly "around the corner" (e.g. generalized self-supervised learning)
(5) but we don't know how many such new concepts are needed. We just see the most obvious ones.
(6) hence, we can't predict how long it's going to take to reach HLAI.

I really don't think it's just a matter of scaling things up. We still don't have a learning paradigm that allows machines to learn how the world works, like human and many non-human babies do.


Some may believe that scaling up a giant transformer trained on sequences of tokenized inputs is enough.
Others believe "reward is enough".
A few others believe that explicit symbol manipulation is necessary.
A few don't believe gradient-based learning is part of the solution.

I believe we need to find new concepts that would allow machines to:
- learn how the world works by observing, like babies.
- learn to predict how one can influence the world through taking actions.
- learn hierarchical representations that allows long-term predictions in abstract representation spaces.
- properly deal with the fact that the world is not completely predictable.
- enable agents to predict the effects of sequences of actions so as to be able to reason and plan
- enable machines to plan hierarchically, decomposing a complex task into subtasks.
- all of this in ways that are compatible with gradient-based learning.

The solution is not just around the corner. We have a number of obstacles to clear, and we don't know how.

Программа исследований ...

Friday, May 13, 2022

Отравленный ИИ

Bloomberg о проблеме отравления данных в машинном обучении. Для бэкдора в системе на базе ML может быть достаточно специальным образом изменить вего лишь 0.7% данных.

Такова жизнь

Реальная производительность приложений машинного обучения. А если будут еще и состязательные примеры?

Wednesday, May 04, 2022

Sunday, May 01, 2022

INJOIT vol. 10, no. 5

Вышел пятый номер журнала INJOIT в 2022 году. И десятый год издания журнала.

Темы статей:

  • Полурешётки подмножеств потенциальных корней в задачах теории формальных языков. Часть II. Построение инверсного морфизма
  • A Survey of Adversarial Attacks and Defenses for image data on Deep Learning
  • Applying a probabilistic algorithm to spam filtering
  • A Prediction Model for Lung Cancer Levels Based on Machine Learning
  • On a formal verification of machine learning systems
  • Система поддержки принятия решений при выборе наилучшей альтернативы (на примере оптовой закупки коровьего молока)
  • Contrast and Contrast Enhancement (in Logic of Visual Perception of Graphic Information)
  • Имитационная модель обработки данных ветроэлектростанции на основе нейронной сети
  • Multi-Objective Model Predictive Control
  • Практическое применение функционального программирования и регулярных выражений в библиометрическом анализе
  • Классификация потоков данных комплексов управления и принципы дифференциации на модули элементов таких систем
  • Построение семейства сценариев использования с целью анализа функциональной безопасности систем управления
  • Об Основах Методологии Оценки Качества Больших Технических Систем в Процессе Эксплуатации

Архив журнала находится здесь.

/via OIT Lab

Friday, April 29, 2022

StyleGAN

Натренированный генератор фотографий. Довольно изощренный инструмент для генерации фейков.

Friday, April 22, 2022

Физическая атака

Хороший пример физической атаки на систему компьютерного зрения

О статистических выводах

Improving Your Statistical Inferences - хорошая книга в открытом доступе

Содержание:


1 Using p-values to test a hypothesis
2 Error control
3 Likelihoods
4 Bayesian statistics
5 Asking Statistical Questions
6 Effect Sizes
7 Confidence Intervals
8 Sample Size Justification
9 Equivalence Testing and Interval Hypotheses
10 Sequential Analysis
11 Meta-analysis
12 Bias detection
13 Preregistration and Transparency
14 Computational Reproducibility

Thursday, April 21, 2022

Заполнить пропуски

Языковая модель BERT способна заполнять пробелы в неполных предложениях, основанных на Wikipedia и нескольких других сетях (ConceptNet иSQuAD). Например, заполнить пропуск в предложении “The theory of relativity was developed by ___.” Основная идея была в том, чтобы использовать общую модель, а не специально обученную для данного класса задач. Главный вывод - большие предварительно обученные языковые модели могут собирать и воспроизводить почти столько же информации — по крайней мере, из некоторых наборов данных — сколько и специально разработанные модели ответов на вопросы. Эти знания могут позволить им выполнять различные языковые задачи, включая заполнение пропусков, без специальной подготовки.

И вместе с тем, если таких пропусков несколько, то с "интеллектом" все становится хуже.

Новые медицинские тесты

Цифровой двойник для медицинских клинических испытаний

См. также другие публикации, посвященные digital twins

Wednesday, April 20, 2022

Нетрадиционные источники данных

Что еще может влиять на цену недвижимости? Это то, где ИИ может помочь в поиске и анализе шаблонов.

Открытая наука, том 10, номер 4

Очередной номер журнала INJOIT появился на сайте Киберленинка.

Это том 10, номер 4 за 2022 год. По данным elibrary.ru, журнал INJOIT занимает второе место в разделе Кибернетика и второе в разделе Автоматика и вычислительная техника

/via Лаборатория ОИТ

Friday, April 15, 2022

Модели ранжирования

Обучение ранжированию в информационном поиске (IR) — это задача по автоматизации построения ранжирующей модели на основе обучающих данных, так, чтобы модель смогла может сортировать новые объекты по степени их значимости, предпочтения или важности. Многие проблемы IR по своей природе есть ранговые проблемы.

Учебник по построению моделей ранжирования в открытом доступе и практический пример - алгоримизация рекламных предложений.

Wednesday, April 06, 2022

IoT в кризисной ситуации

Аналитика больших данных и Интернет Вещей в кризисных ситуациях - толковый обзор

Про секвестр

"В связи со сложным макроэкономическим положением, обусловленным введением незаконных ограничений в отношении нашей страны со стороны недружественных стран, Правительство Российской Федерации поручило главным распорядителям бюджетных средств (в том числе СПбГУ) подготовить и представить к 15.03.2022 предложения по сокращению бюджетных ассигнований, предусмотренных указанным распорядителям в соответствии с законом о федеральном бюджете на 2022 год, в размере не менее 10 % от общего объема бюджетного обеспечения, за исключением публичных обязательств, к которым относятся оплата труда, стипендиальные выплаты и выплаты детям-сиротам." - отсюда.

"Справочно: по таким главным распорядителям бюджетных средств, как Минобрнауки России, РФФИ и Государственный Эрмитаж итоговые размеры секвестра составили 17047,8 млн руб., 1153,3 млн руб. и 410,1 млн руб. соответственно. При этом некоторые главные распорядители бюджетных средств (в том числе МГУ) не представили предложений, что привело к инициированию Правительством Российской Федерации в их отношении процедуры принудительной оптимизации в 10 %, без предоставления дополнительной поддержки."

и далее: "... в преддверии возможных секвестров второй и третьей очереди."

Sunday, April 03, 2022

Сдвиг концепции

Одна из самых больших проблем для устойчивости систем машинного обучения - сдвиг концепции. Что с этим делать - интересная работа, посвященная concept shift

Friday, April 01, 2022

Самоизоляция

Похоже, что elibrary.ru больше не индексируется в Google Scholar. С 2022 года Google Scholar не видит выпуски журнала INJOIT в elibrary. Или это уже все не актуально?

NeurIPS

Обзор статей, принятых на конференцию NeurIPS - 2020 и NeurIPS - 2021

Friday, March 25, 2022

Санкции на практике

При скачивании документации по БД (компания - американская) нужно просто заполнить поле со страной (регистрации нет, просто информация). Стандартный выпадающий список со странами. Страны Россия в списке нет.

Графом по мошенникам

Графовые модели для поиска мошеннических операций. Практический материал от Neo4j.

Вот еще есть руководство по поиску аномалий и мошенничества с помощью графовых моделей

Thursday, March 24, 2022

ML Python

Модерируемая коллекция открытых проектов на Python, связанных с машинным обучением

См. также другие публикации, посвященные Python

Как хранить данные

Каталоги данных нуждаются в базовых средствах анализа. Отсюда

Wednesday, March 23, 2022

Хоронят 5G

Блумберг выпустил практически некролог для 5G. Пора думать о 6G :)

Открытая наука, том 10, номер 3

Очередной номер журнала INJOIT появился на сайте Киберленинка.

Это том 10, номер 3 за 2022 год. По данным elibrary.ru, журнал INJOIT занимает второе место в разделе Кибернетика и второе в разделе Автоматика и вычислительная техника

/via Лаборатория ОИТ

Monday, March 21, 2022

Еще про мониторинг сайтов

Uptime control - 3-х минутные интервалы мониторинга на бесплатных планах

P.S. вынес из комментариев к этой публикации

Наказывать не будут

За публикации в Scopus наказывать не будут. Пока. Отсюда

P.S. Испытание авиационного шлема. 1912 год. 110 лет прошло ...

Saturday, March 19, 2022

О фичах

Серия статей о feature engineering. Хороший материал.

См. также другие инструменты для выбора признаков

Thursday, March 17, 2022

Тайное место

Сохранение приватности в информации о местоположении транспортных средств в современных интеллектуальных транспортных системах - хороший обзор

Saturday, March 12, 2022

Friday, March 11, 2022

Thursday, March 10, 2022

ML постер

C'est la vie

Hello Google Play Developer,

Due to payment system disruption, we will be pausing Google Play’s billing system for users in Russia in the coming days. This means users will not be able to purchase apps and games, make subscription payments or conduct any in-app purchases of digital goods using Google Play in Russia.

Users will still be able to access Google Play and download free apps and games.

Wednesday, March 09, 2022

Об устойчивых моделях

Новые интересные работы по устойчивым моделям машинного обучения:

1. Устойчивость для GNN. Что делать, если у нас есть какое-то смещение в метках узлов?

Статья: https://arxiv.org/abs/2108.01099

Код: https://github.com/GentleZhu/Shift-Robust-GNNs и публикация в блоге

 

2. Ложные корреляции и как они влияют на робастность

Люди, графы и сети

Книга в свободном доступе Handbook of Graphs and Networks in People Analytics

Monday, March 07, 2022

INJOIT vol. 10, no. 3

Вышел третий номер журнала INJOIT в 2022 году. И десятый год издания журнала.

Темы статей:

  • О свойстве конфиденциальности AEAD-режима MGM
  • Безопасность в протоколах и технологиях IoT: обзор
  • Атаки на системы машинного обучения – общие проблемы и методы
  • Принципы и подходы к обеспечению функциональной безопасности компонентов вычислительно-коммуникационных систем
  • О LL(1)-грамматиках, алгоритмах на них и методах их анализа в программировании
  • Выбор стандартов в соответствии с этапами жизненного цикла информационных систем
  • Reliable Object Construction in Object-oriented Programming
  • Влияние нелинейного коэффициента фильтрации функции напора в водоносном горизонте
  • Применение цифровых двойников и киберфизических систем на объектах генерации тепловой и электрической энергии

Архив журнала находится здесь.

/via OIT Lab

Основания для анализа данных

Книга от Microsoft Research в свободном доступе: Foundations of Data Science

Sunday, March 06, 2022

Где будут атаковать?

Системы машинного обучения аккумулируют все больше данных. Поэтому грядущие атаки разворачиваются в сторону бэкдоров и извлечения данных. Источник бэкдоров, очевидно, это какие-то заимствования при разработке (датасеты неясного происхождения, чужие модели и библиотеки и т.п.). А вот атаки извлечением могут построены путем специализированного опроса системы ML. И здесь возникает конфликт. С одной строны, нужен доступ для пользователей к работающей модели, а с другой стороны, этот доступ может помочь построить теневую модель, на которой и будут отработаны атаки.

Thursday, February 24, 2022

Friday, February 18, 2022

Как атаковать систему ML

Еще один хорошо структурированный материал по атакам на системы ML. Автор представляет компанию Adversa

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Thursday, February 17, 2022

Дата-центрический ИИ

Работа с данными (например, с разметкой) улучшает ML системы больше, чем работа с моделями - Data-centric AI

Wednesday, February 16, 2022

Анализаторы кода

Source Code Security Analyzers. Впечатляющий список. Там же на странице ссылки на Byte Code Scanners и Binary Code Scanners

Monday, February 14, 2022

Дипфейки

Современное состояние механизмов определения Deepfake

Состязательные атаки

Пример физической атаки - ослепление дронов

Европейский отчет по фальсификации Digital ID

Открытые ресурсы, собранные под эгидой DARPA по борьбе с состязательными атаками. И, собственно, сам проект GARD. В частности, есть учебный курс по состязательным атакам и устойчивости от Google.

Обзор безопасности систем ИИ

Состязательные атаки - введение

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Tuesday, February 08, 2022

Про elibrary

Контент там, ко всему прочему, еще и очень медленно индексируется. Вот последний номер INJOIT

Машинное обучение и управление

Совместное использование DNN и оптимального управления. Интересная идея - глубинное обучение используется для цифровой оценки неопределенности.

Интерпретируемое машинное обучение

Пользователи и разработчики понимают это по-разному

Monday, February 07, 2022

Открытая наука том 10, номер 2

Очередной номер журнала INJOIT появился на сайте Киберленинка.

Это том 10, номер 2 за 2022 год. По данным elibrary.ru, журнал INJOIT занимает второе место в разделе Кибернетика и второе в разделе Автоматика и вычислительная техника

/via Лаборатория ОИТ

Saturday, February 05, 2022

О неопределенности в deep learning

Неопределенность можно определить как отсутствие знаний или уверенности в чем-либо. Это неизбежная часть жизни и вездесуща как в естественных, так и в искусственных системах. В контексте глубокого обучения существует два основных типа неопределенностей:

1) Алеаторическая (случайная) неопределенность: это неопределенность из-за случайности данных.
2) Эпистемическая неопределенность: это неопределенность из-за отсутствия знаний об истинных параметрах модели.

Отсюда

Friday, February 04, 2022

Обучение с учителем

Обзор Supervised Machine Learning Algorithms

INJOIT vol. 10, no. 2

Вышел второй номер журнала INJOIT в 2022 году. И десятый год издания журнала.

Темы статей:

  • Минимальные расширения цветных звездных графов
  • Оценка распространения LTE сигнала на трассе со сложным рельефом и смешанным лесом
  • Novel Simple Approach to Digital Signal Processing of Sinusoids with MATLAB Using Discrete Fourier Transform
  • Comparison Analysis of Round Robin Algorithm with Highest Response Ratio Next Algorithm for Job Scheduling Problems
  • The Analysis of integration of Ethnobotanical Data to Information System
  • Bluetooth Mesh в IoT
  • Социальные кластеры в городе

Архив журнала находится здесь.

/via Лаборатория ОИТ

Wednesday, February 02, 2022

Дискретное вейвлет-преобразование

Учебник по Дискретному вейвлет-преобразованию

См. также следующую публикацию по Wavelet Zoo

Федеративное обучение

Хороший обзор федеративного обучения - подход к машинному обучению, в которой несколько объектов (клиентов) сотрудничают в решении проблемы машинного обучения при координации центрального сервера или поставщика услуг. Необработанные данные каждого клиента хранятся локально, не обмениваются и не передаются; вместо этого для достижения цели обучения используются целенаправленные обновления, предназначенные для немедленной агрегации.

Tuesday, February 01, 2022

LAR - регрессия

Самая старая и концептуально простая надежная процедура — это LAR-регрессия (наименьшие абсолютные остатки). LAR минимизирует сумму абсолютных остатков — более очевидная и более интуитивная цель, чем метод наименьших кважратов. И применение этого подхода на практике

Wednesday, January 19, 2022

Открытая наука, том 10, номер 1

Очередной номер журнала INJOIT появился на сайте Киберленинка. В этом номере опубликована, в частности, очередная статья из нашего нового цикла работ, посвященного устойчивому машинному обучению.

Это том 10, номер 1 за 2022 год. По данным elibrary.ru, журнал INJOIT занимает второе место в разделе Кибернетика и второе в разделе Автоматика и вычислительная техника

/via Лаборатория ОИТ

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Задача коммивояжера

Новый алгоритм обхода графов

Tuesday, January 18, 2022

Wednesday, January 12, 2022

Про интервью

Фантастистеский ресурс - книга в 400 страниц, рассматривающая вопросы на рабочих интервью по deep learning

См. также другие публикации, посвященные рабочим интервью

Sunday, January 02, 2022

Машинное обучение - боевые применения

Настоящая статья посвящена прикладным аспектам применения систем машинного обучения. Очевидно, что области практического применения такого рода решений постоянно увеличиваются. Основным двигателем здесь является то, что с практической точки зрения машинное обучение рассматривается как синоним для понятия искусственный интеллект, внедрению которого в развитых странах посвящены специальные программы. Естественно, что среди таких внедрений рассматриваются и военные применения. Причем здесь можно отметить интересную особенность. Если раньше, военные области служили толчком для развития техники, заказывался поиск решений для военной техники и т.д., то в данном случае все, скорее, движется в обратном направлении. Сначала появляются новые решения (разработки), использующие машинное (глубинное) обучение, а затем их начинают использовать, в том числе, и в военных системах. В статье приводится обзор опубликованных военных программ использования искусственного интеллекта в военной сфере, который составлен с целью представить именно технологии и решения в области машинного обучения, которые применяются (используются) для военных систем.

Отсюда

См. также другие публикации по теме военных применений машинного обучения

Фильтр Калмана

Хорошая иллюстрация работы фильтра Калмана

См. также эту публикацию