Страницы

Tuesday, May 30, 2023

Верификация моделей ML

Проверка моделей машинного обучения - deepchecks

Monday, May 29, 2023

MLOps

Еще одна интересная подпорка ресурсов по MLOps. Между прочим, real time machine learning - это также MLOps

См. также другие публикации по теме MLOps

Thursday, May 25, 2023

Tuesday, May 23, 2023

DOI сейчас

Тестируем новый сервис для получения DOI для статей. Пока работает, денег не просят

Monday, May 22, 2023

Sunday, May 21, 2023

Как нам преобразовать AGI

Экспертный опрос: Towards best practices in AGI safety and governance: A survey of expert opinion. Очевидно, что понимание того, что что-то нужно делать с аудитом ИИ (машинного обучения) превалирует над пониманием того, что же конкретно нужно делать

См. также другие публикации по теме аудит

Saturday, May 20, 2023

Базовые понятия статистики

5 Statistics Concepts Will Boost Your Success in Data Science Interviews


Statistical Power
Type I error
Type II error
Confidence Interval
P-value

P.S. См. также другие публикации по теме статистика

Friday, May 19, 2023

Спросить вопрос

Продолжая тему об опросах LLM:

Prompt Engineering Guide

См. также другие публикации по теме prompt и LLM

Thursday, May 18, 2023

Атаки отравлением на LLM

Вполне очевидно - можно отравлять данные для LLM. Вот здесь еще суждения по этому поводу.

А если еще такие модели обучать раздельно (federative learning), то отравления будут еще более легкими

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению и LLM

Sunday, May 14, 2023

Бэкдоры и преобразование Фурье

Использование преобразования Фурье для построения скрытых триггеров

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Saturday, May 13, 2023

Friday, May 12, 2023

О кибербезопасности AI

Новый отчет из Стенфорда о кибербезопасности AI

Protect AI - сканер безопасности для Jupyter Notebooks. И созданное имии сообщество MLSecOps для обсуждения проблем безопасности ИИ

См. также другие публикации по теме аудит

О профессии Data Engineering

Интересные рассуждения о требованиях к Data Engineering. Автор предлагает разделить эту специальность на 4:

  • Data Analytics Engineer
  • Platform Engineer
  • DataOps Engineer
  • Database Reliability Engineer

Важная тема, в контексте того, чему нужно учить студентов

Thursday, May 11, 2023

Как спросить?

Prompt engineering - относится к методам взаимодействия с LLM (большими языковыми моделями), чтобы управлять их поведением для получения желаемых результатов без обновления весов модели. Это эмпирическая наука, и эффект оперативных инженерных методов может сильно варьироваться в зависимости от модели, что требует серьезных экспериментов и эвристики

Еще о prompt engineering:

Техника инженерии запросов

Prompt Engineering (In-Context Prompting) - большая статья

См. также другие публикации по теме prompt и LLM

Аудит для LLM

Администрация киберпространства Китая объявила о проекте руководящих принципов, которые потребуют проверки безопасности сервисов генеративного ИИ, прежде чем им будет разрешено работать. В предлагаемых правилах говорится, что операторы ИИ должны обеспечивать точность контента, уважать интеллектуальную собственность, не подвергать опасности безопасность и не допускать дискриминации. Кроме того, контент, созданный ИИ, должен быть четко помечен. Этот шаг является частью растущих усилий Китая по регулированию быстрого распространения генеративного ИИ с момента дебюта ChatGPT OpenAI в прошлом году. Это развитие соответствует зарубежным компаниям, включая Google и Microsoft, которые изучают потенциал генеративного ИИ. Отсюда

См. также другие публикации по теме аудит

Блокчейн: направления исследований

Темы работ для конференции BRAINS 2023 (5th Conference on Blockchain Research & Applications for Innovative Networks and Services)

Topics of interest

Fundamentals of Blockchain and DLT:
Theoretical contributions on Blockchain and DLT
Distributed consensus and fault tolerance solutions, including domain-specific consensus (e.g., for IoT)
Protocols and algorithms
Distributed Ledger Analytics
Tradeoffs between decentralization, scalability, performance, and security
Sharding and layer 2
Combination between Blockchain and distributed databases (e.g., IPFS)

Fundamentals of Decentralized Apps, Smart contracts, and chain code:
Development languages and tooling
Security, Privacy, Attacks, Forensics
Transaction Monitoring and Analysis
Collaboration between on-chain and off-chain code
Token Economy and incentives
NFT (Non-Fungible Tokens) and protocols
Distributed Trust
Oracles
Blockchain as a service
Blockchain-defined networking

Application and service cases of DLT and Smart-Contracts:
Identity management (e.g., Self-sovereign Identity and Decentralized Identifiers, Open ID Connect)
Finance and payments
DeFi (Decentralized Finance)
IoT and cyber physical systems
Smart grids and Industry 4.0, including Dataspaces
Supply chain management
V2X, connected and autonomous vehicles
Networking, Edge and Cloud Technologies
Blockchain for Beyond 5G and 6G Technologies, Telecom Process and Operation
Blockchain and AI (e.g., for federated learning)
Services or Resources Marketplaces
Public sector Blockchain solutions and infrastructures (e.g., EBSI)
Blockchain for education, public administration, health
Results from large collaborative projects on these topics

См. также другие публикации, посвященные blockchain

Wednesday, May 03, 2023

Схемы атак на модели машинного обучения

В настоящей статье рассматриваются схемы атак на системы искусственного интеллекта (на модели машинного обучения). Классически, атаки на системы машинного обучения - это специальные модификации данных на одном из этапов конвейера машинного обучения, которые призваны воздействовать на модель необходимым атакующему образом. Атаки могут быть направлены на то, чтобы понизить общую точность или честность модели, или же на то, чтобы, например, обеспечить, при определенных условиях, необходимый результат классификации. Другие формы атак могут включать непосредственное воздействие на модели машинного обучения (их код) с теми же целями, что и выше. Есть еще специальный класс атак, который направлен на извлечение из модели ее логики (алгоритма) или информации о тренировочном наборе данных. В последнем случае не происходит модификации данных, но используются специальным образом подготовленные множественные запросы к модели.

Общей проблемой для атак на модели машинного обучения является тот факт, что модифицированные данные есть такие же легитимные данные, что и не подвергшиеся модификации. Соответственно нет явного способа однозначно определить такого рода атаки. Их эффект в виде неправильного функционирования модели может проявиться и без целенаправленного воздействия. По факту, атакам подвержены все дискриминантные модели.

Отсюда

Monday, May 01, 2023

INJOIT vol.11 no. 5

Вышел пятый номер журнала INJOIT в 2023 году. И одиннадцатый год издания журнала.

Темы статей:

  • О задачах извлечения корня из заданного конечного языка
  • О модификации схемы подписи Эль-Гамаля для применения в одном классе систем голосования, использующих механизм подписи вслепую
  • Обзор методов построения рекомендательных систем на основе сессий
  • Research on the Development of Data Augmentation Techniques in the Field of Machine Translation
  • Методы повышения эффективности алгоритма полного перебора на примере решения задачи о неограниченном ранце
  • Applying Machine Learning to Optimize Vaccine Distribution for COVID-19
  • Выявление ошибок разметки данных с помощью моделей классификации для небольших наборов данных
  • Prospects for Information Security in Big Data Technology
  • Схемы атак на модели машинного обучения
  • Разработка программного обеспечения телеграмм бота для студентов и абитуриентов ГБОУ ВО НГИЭУ
  • Инструменты статистической обработки результатов онлайн тестирования студентов
  • Автоматизация расчета предела прочности композитных материалов с металлической матрицей с использованием программных средств
  • Dynamics of the temperature regime of permafrost soil and ice thickness during climate change
  • Using Mathematical Modeling to Generate Training Data in Hydrotreating Processes
  • Перспективы и стратегии пространственного планирования российской экономики как крупномасштабной системы в современных условиях
  • Модуль управление доступом на основе атрибутов для веб-запросов из разных источников
  • Тестирование методов обработки комментариев из Telegram-каналов и пабликов ВКонтакте для анализа социальных медиа
  • Механизмы межсервисной аутентификации в приложениях с микросервисной архитектурой

Архив журнала находится здесь.

/via Лаборатория ОИТ

Транспортные двойники

Интересная работа по транспортным цифровым двойникам

См. также другие публикации, посвященные digital twins