AbavaNet technical corner: October 2023

Интересная модель использования контрфактических примеров. Сети-близнецы рассматривают контрфакты как пару вероятностных моделей: одна представляет реальный мир, другая — вымышленный. Модели связаны таким образом, что модель реального мира ограничивает модель вымышленного мира, сохраняя ее неизменной во всех отношениях, за исключением фактов, которые вы хотите изменить. Отсюда.

Monday, October 23, 2023

AI Red Teaming LLM

1. AI Red Teaming LLM - продукт компании Adversa. Они же публикуют периодический дайджест - LLM security.

2. OpenAI формирует сеть экспертов Red teaming network

См. также другие публикации, посвященные LLM

Архитектурные заметки

Простые объяснения программных архитектур

Sunday, October 22, 2023

Мобильность на севере Европы

Sustainable mobility in smart cities: a document study of mobility initiatives of mid-sized Nordic smart cities

Интернет Военных вещей

Магистерская диссертация по IoMT. Главный вопрос - насколько технология LoRa применима в таких специальных областях. Работы такие есть.

Saturday, October 21, 2023

Проверь себя

Тесты на знание Python

См. также другие публикации, посвященные pandas или Python

Friday, October 20, 2023

Модели использования LLM

Как большие модели используются в бизнесе прямо сейчас. И отдельный обзор - использование LLM в медицине

См. также другие публикации, посвященные LLM

Thursday, October 19, 2023

Как оценивать LLM

Подробный обзор метрик и фреймворков для оценки LLM

См. также другие публикации, посвященные LLM

Что в датасете твоем?

Membership inference (MI) attack на большие языковые модели

См. также другие публикации, посвященные LLM

Wednesday, October 18, 2023

Что использовать?

Auto feature selection в Python. Библиотека с открытым кодом

См. также другие публикации, посвященные feature analysis

Low code ML

Еще один обзор решений для машинного обучения без программирования

См. также другие публикации, посвященные Low code

Tuesday, October 17, 2023

Сегментация изображений

Практический текст - как устроена сегментация изображений

Агенты для LLM

Агенты для выполнения задач большими моделями. Код для бенчамарков - открыт

См. также другие публикации, посвященные LLM

Monday, October 16, 2023

LLM для анализа кода

Поиск уязвимостей в коде с использованием LLM

См. также другие публикации, посвященные LLM

Sunday, October 15, 2023

Симулятор для кибербезопасности

Европейский проект: Полигон для кибербезопасности киберфизических систем

Saturday, October 14, 2023

Безопасность LLM

Интересный портал по безопасности больших языковых моделей - LLM security. У автора есть еще и Twitter

Примеры диалогов с одной отечественной LLM:

Q:Татарстан граничит с Дагестаном?
A: Да, Республика Татарстан расположена на юго-востоке Европейской части России и граничит с несколькими регионами. На севере она омывается водами реки Волга, на востоке — Камским водохранилищем, на западе — рекой Кама.

Q:Что расположено на морском побережье Белоруссии? Что лучше для туристов?
A: Морское побережье Белоруссии находится в пределах Балтийского моря и Калининградского залива. Здесь расположены города-курорты, такие как Светлогорск, Зеленоградск, Пионерский и другие.

Это то, чем занимается AI Red Team

См. также другие публикации, посвященные LLM

Friday, October 13, 2023

Анализ последовательностей в SQL

Хорошие примеры использования партиций в SQL

Radar Trends

Некоторые интересные ссылки из октябрьского Radar Trends:

Использование векторной базы данных для представления знаний в LLM

Советы от FBI и NSA по борьбе с deepfake

Thursday, October 12, 2023

Атаки на системы распознавания

Атаки отравления с чистой меткой на YOLOv5

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Скрытые состязательные примеры

DNN, отравленная другой DNN

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Wednesday, October 11, 2023

Поясни за CNN

Local Interpretable Model-agnostic Explanations (LIME) для объяснения работы CNN. Есть исходные тексты.

См. также другие публикации, посвященные LIME

Управление беспилотным автомобилем

Как Яндекс видит управление беспилотником. Интересно, что ничего не сказано про звуковые сигналы. Сигналить беспилотнику бесполезно?

Оценка достоверности предсказаний нейронных сетей

Самоуверенные нейросети

Tuesday, October 10, 2023

Скажи почему

Примеры использования каузальной библиотеки DoWhy

см. также другие публикации, посвященные каузальности

Learning to Rank

Машинное обучение для определения ранговой позиции

Monday, October 09, 2023

Анализ на графах

Почему нужно изучать графовые модели. И интересный продукт, который превращает CSV файл в граф

ChatGPT на войне

Военные применения (на самом деле - планы применений) ChatGPT.

См. также другие публикации, посвященные LLM

Sunday, October 08, 2023

ML benchmarks

Тесты для ML моделей. Очевидно, что для генеративных моделей - это большой вопрос. Как считать?

Лучшие люди города

Коллекция Best Paper Awards in Computer Science. С 1996 года.

Saturday, October 07, 2023

Цифровой двойник транспортной логистики

Интересная работа по практическому использованию цифровых двойников в городской логистике. Со ссылками на реальные продукты.

См. также другие публикации, посвященные digital twins

Friday, October 06, 2023

Много данных - это плохо

Интересное исследование - чем больше датасет для обучения LLM, тем больше там проблем с hateful content

См. также другие публикации, посвященные LLM

Визуальный поиск отравленных данных

Идея поиска отравленных данных с помощью LLM - сравнивают заданную метку и метку, созданную LLM

P.S. См. также другие публикации, посвященные LLM

P.P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Thursday, October 05, 2023

Confidential computing

Специальный выпуск ACM Queue, посвященный конфиденциальным вычислениям

Wednesday, October 04, 2023

Устойчивая многомерная статистика

Книга в открытом доступе: Algorithmic High-Dimensional Robust Statistics

AI Red Team

Добрые хакеры для систем машинного обучения. Быстрое распространение приложений машинного обучения, основанных на больших языковых моделях (ChatGPT и т.п.) привлекло внимание к известной проблеме систем машинного обучения – состязательным атакам. Такие атаки представляют собой специальные модификации данных на разных этапах стандартного конвейера машинного обучения (тренировка, тестирование, использование), которые призваны либо воспрепятствовать работе систем машинного обучения, либо добиться требуемого атакующему специального поведения таких систем. В последнем случае атакующий обычно желает добиться того, чтобы обученная модель специальным (нужным атакующему) способом реагировала на определенным образом подготовленные входные данные. Есть также классы атак на модели машинного обучения, которые специальным образом опрашивают работающие модели с целью получения скрытой информации, использованной при обучении модели. Все перечисленные атаки достаточно просто реализуются и для больших языковых моделей, что открыло глаза бизнес-сообществу на реально существующую проблему – кибербезопасность самих систем машинного обучения (искусственного интеллекта). Ответом стало ускоренное создание подразделений корпоративной кибербезопасности, которые должны тестировать системы искусственного интеллекта – AI Red Team. Принципы построения и работы таких команд и рассматриваются в данной статье.

Tuesday, October 03, 2023

Центр безопасности ИИ

Центр безопасности искусственного интеллекта в San-Francisco. Интересная организация.

Расстаться с иллюзиями

Борьба с галлюцинациями в ChatGPT

См. также другие публикации, посвященные LLM

Monday, October 02, 2023

Конвергентные когнитивно- информационные технологии

Продолжается регистрация для участия в Международном конгрессе «Современные проблемы компьютерных и информационных наук», который состоится на факультете вычислительной математики и кибернетики Московского государственного университета имени М.В. Ломоносова 30 ноября - 2 декабря 2023 года, г. Москва (Россия). Конгресс проводится в рамках программы деятельности Федерального учебно-методического объединения в сфере высшего образования по УГСН 02.00.00 «Компьютерные и информационные науки». Конгресс проводится в рамках направлений деятельности Московского центра фундаментальной и прикладной математики. Детали - здесь.

5 советов

На самом деле - вполне добротные рекомендации идущим в Data Science

Интерпретируемые CNN

Попытка построить интерпретируемые CNN за счет большего количества аннотаций - Concept Bottleneck Models

Sunday, October 01, 2023

Сегментация пользователей

Практические методы анализа сегментации пользователей (покупателей): Kmeans, K-Prototype и LLM + Kmeans

INJOIT vol. 11, no. 10

Вышел десятый номер журнала INJOIT в 2023 году. И одиннадцатый год издания журнала.

Темы статей:

Comparison of Outlier Filtering Methods in Terms of Their Influence on Pose Estimation Quality
Алгоритм оценки отклонения между регуляризованным и точным решениями в обратных задачах
A Hybrid Optimization Method for Path Planning and Obstacle Avoidance in Cluttered Environments
Интерпретация оценок параметров моделей полносвязной линейной регрессии
Эволюционная модель представления знаний
An optimization of path planning A* for static uniform grid based on pruning algorithms: Experimental experience
Сегментация неструктурированного текста на изображениях книжных обложек с помощью сверточной сети, основанной на архитектуре U-Net
Анализ моделей оценки качества вычислительной системы
Использование нейронных сетей в задаче классификации аномального поведения в финансовых транзакциях с использованием Python и Keras
Исследование развития межконфессиональных отношений на основе математического аппарата марковских процессов
Обзор методов очистки данных для машинного обучения
Performance of 32kb/s ADPCM for Data Transmissin at 14.4kb/s
Разработка программного обеспечения для мониторинга параметров сетей связи и серверного аппаратного обеспечения
Применение интеллектуальных методов анализа данных к задаче прогнозирования результатов промышленного испытания элементов конструкции по данным тензометрии
Перспективы использование технологии блокчейн в сфере городского транспорта
Обеспечение безопасности открытых проектов Python: проблема оценки потенциально разрушительного функционала
Генерация врачебных заключений и классификация по Bethesda с использованием глубокого обучения
О работе AI Red Team

Архив журнала находится здесь.

/via Лаборатория ОИТ