Friday, May 07, 2021

Анализ данных в R

Tidyverse - коллекция пакетов R для анализа данных. И учебник по использованию Tidyverse Skills for Data Science

P.S. см. также другие публикации, посвященные использованию R

Совпадает?

Отличная статья с разъясненями и примерами - как же осуществляется сравнения поисковых запросов с образцом

Thursday, May 06, 2021

Wednesday, May 05, 2021

Практика SAT/SMT

Учебник по S3 - алгебраический решатель

И дискуссия на YC

INJOIT vol. 9, no. 5

Вышел пятый номер журнала INJOIT в 2021 году. И девятый год издания журнала.

Темы статей:

  • Бесконечные деревья в алгоритме проверки условия эквивалентности итераций конечных языков. Часть II
  • Using topic modeling for communities clusterization in the VKontakte social network
  • Критерии распространения различных классов булевых функций и их свойства
  • Reconstruction of 2D structure of highly absorbing media
  • Отбор информативных операций при построении линейно-неэлементарных регрессионных моделей
  • Threat modeling of cloud systems with ontological security pattern catalog
  • Особенности разработки информационной системы для учета льготного питания школьников
  • Программная система входного профилирования абитуриентов – помощь при выборе будущей профессии
  • Разработка информационной системы и приложения по приему и сопровождению заявок службы технической поддержки администрации
  • Situational Digitalization of the Population Activities
  • Об управлении трафиком в Умном городе

Архив журнала находится здесь.

/via Лаборатория ОИТ

Thursday, April 29, 2021

kNN-LM

https://openreview.net/forum?id=HklBjCEKvH - языковая модель, которая подбирает слова в незаконченном предложении поиском в тренировочном наборе данных.

Идея прозрачна - гораздо проще заключить, что два фрагмента текста имеют схожее значение, чем заполнить пропуски. Получив фрагмент предложения и попросив его предсказать следующие слова, алгоритм ищет в обучающем наборе предложения, похожие на этот фрагмент предложения, и использует найденное, чтобы помочь предсказать пропущенные слова. Например, модель может соответствовать цели, начиная с «Диккенс является автором ___» с обучающим предложением «Диккенс написал Оливера Твиста». Затем модель знает, что «Оливер Твист» может быть подходящим для добавления к цели.

Как это работает: авторы предлагают предварительно обученную модель, векторные представления обучающих предложений и алгоритм комбинирования информации при анализе тестового предложения. Их подход работает с любой предварительно обученной моделью нейронного языка, но в большинстве экспериментов они использовали трансформаторные сети.

kNN-LM начинает с генерации векторных представлений каждой последовательности в обучающем наборе. Затем он выполняет поиск в этих векторах векторных представлений k-ближайших соседей новой входной последовательности. Чем ближе вектор обучающей последовательности к входному вектору, тем сильнее он взвешивает следующий токен обучающей последовательности. Модель нейронного языка также напрямую предсказывает следующий токен для ввода. Затем он учитывает как предсказание k-ближайших соседей, так и предсказание языковой модели в окончательном решении. Гиперпараметр определяет, насколько тщательно он учитывает каждый из них.

Результаты: Протестировано на наборе данных статей в Википедии, kNN-LM набрал 15,79 балла в метрике perplexity, что более чем на 10 процентов лучше, чем у предыдущей современной модели.

Почему это важно: языковые модели, вероятно, не будут интерпретировать технические термины, встречающиеся, скажем, в протоколах NuerIPS, если они обучены в Википедии. kNN-LM позволяет им находить меньше связанных слов в обучающих данных, потенциально улучшая обобщение для непонятной темы.

Без батарей

Wiliot - Bluetooth теги без батарей