технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Friday, March 31, 2023
Вопрошатель
Thursday, March 30, 2023
Риски в ИИ
См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению
Wednesday, March 29, 2023
Обновление списка ВАК
1.2.2. Математическое моделирование,
численные методы и комплексы
программ (физико-математические
науки),
1.2.2. Математическое моделирование,
численные методы и комплексы
программ (технические науки),
2.3.1. Системный анализ, управление и
обработка информации (физико-математические науки),
2.3.1. Системный анализ, управление и
обработка информации (технические
науки)
2.3.2. Вычислительные системы и их элементы (технические науки)
2.3.5. Математическое и программное
обеспечение вычислительных систем,
комплексов и компьютерных сетей
(физико-математические науки),
2.3.5. Математическое и программное
обеспечение вычислительных систем,
комплексов и компьютерных сетей
(технические науки),
2.3.6. Методы и системы защиты
информации, информационная
безопасность (физико-математические
науки),
2.3.6. Методы и системы защиты
информации, информационная
безопасность (технические науки)
Tuesday, March 28, 2023
Distributed Computing Continuum Systems
Monday, March 27, 2023
Friday, March 24, 2023
Thursday, March 23, 2023
Monday, March 20, 2023
RobustBench
См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению
Saturday, March 18, 2023
Friday, March 17, 2023
Кассандра в деле
Thursday, March 16, 2023
Большие языковые модели GPT
OpenAI представила новейшую серию больших языковых моделей GPT, вызвавшую всеобщий ажиотаж. Компания представила статистику и примеры, призванные продемонстрировать, что новая модель превосходит своих предшественников в понимании языка, а также в способности принимать желаемый стиль и тон и оставаться в рамках, установленных ее дизайнерами. Соучредитель OpenAI Грег Брокман продемонстрировал некоторые из своих возможностей в прямом эфире, сопровождавшем запуск.
Как получить доступ: Ввод/вывод текста доступен через ChatGPT Plus, стоимость которого составляет 20 долларов в месяц, а ввод изображений ожидается. Готовится API, и можно присоединиться к списку ожидания. Как это работает: OpenAI не поделился подробностями, сославшись на опасения по поводу безопасности и конкуренции. Как и более ранние модели GPT, GPT-4 основан на архитектуре трансформеров и обучен прогнозировать следующий токен на основе сочетания общедоступных и частных наборов данных. Он был доработан с использованием обучения с подкреплением на основе отзывов людей и инженерных подсказок.
OpenAI хранит молчание о точной архитектуре (включая размер), наборах данных, процедуре обучения и требованиях к обработке. По словам Брокмана, GPT-4 обрабатывает 32 000 токенов за раз, что на порядок больше, чем оценки количества токенов ChatGPT, что позволяет ему работать с более длинными текстами, чем предыдущие модели больших языков. Модель принимает входные изображения, включая страницы текста, фотографии, диаграммы и снимки экрана. (Эта возможность еще не общедоступна, потому что компания все еще работает над ее ускорением, сказал Брокман.)
Новый тип ввода, называемый системным сообщением, указывает модели стиль, тон и подробность, которые следует использовать в последующих взаимодействиях. Например, системное сообщение может заставить модель реагировать в стиле Сократа, побуждая пользователей приходить к своим собственным ответам посредством критического мышления. Компания предлагает новую платформу OpenAI Evals для создания и запуска тестов. Он приглашает всех желающих помочь протестировать модель.
Как это работает: GPT-4 прошел множество тестов искусственного интеллекта, а также смоделированные версии тестов, разработанных для людей.
GPT-4 превзошел современный уровень в ответах на вопросы с множественным выбором MMLU, рассуждениях на основе здравого смысла HellaSwag, ответах на научные вопросы с множественным выбором в начальной школе AI2, рассуждениях на основе здравого смысла WinoGrande, кодировании HumanEval Python и DROP. понимание прочитанного и арифметика.
Он превзошел GPT-3.5, Chinchilla и PaLM по производительности на английском языке на 24 языках от африкаанс до валлийского.
Модель соответствовала или превзошла уровень техники в нескольких тестах зрения в TextVQA для чтения текста на изображениях, ChartQA, AI2 Diagram, DocVQA, Infographic VQA и TVQA.
GPT-4 набрал от 80 до 100 процентов на смоделированных человеческих тестах, включая единый экзамен на адвоката, LSAT, SAT и расширенные вступительные тесты по биологии, психологии, микроэкономике и статистике.
GPT-4 прыгает через ограждения, когда его спрашивают о запрещенных темах, таких как получение опасных веществ, примерно в 1% случаев, в то время как GPT-3.5 делает это примерно в 5% случаев.
Точно так же GPT-4 ведет себя неправильно, когда его спрашивают о деликатных темах, таких как членовредительство, примерно в 23 процентах случаев, тогда как GPT-3.5 делает это примерно в 42 процентах случаев.
Где это работает: несколько компаний уже используют GPT-4.
Сам OpenAI использует эту модель для модерации контента, продаж, поддержки клиентов и кодирования.
Обновленный поиск Microsoft Bing, запущенный в прошлом месяце, основан на GPT-4.
Stripe использует GPT-4 для сканирования и написания резюме бизнес-сайтов.
Платные подписчики Duolingo могут изучать языки, общаясь с GPT-4.
Да, но: OpenAI не скрывает проблем: «Хотя во многих реальных сценариях она менее способна, чем люди. . . Возможности и ограничения GPT-4 создают серьезные и новые проблемы безопасности». Хотя эта модель превзошла своих предшественников во внутренних состязательных оценках фактической правильности, как и другие модели больших языков, она по-прежнему изобретает факты, делает ошибки в рассуждениях, генерирует предвзятые результаты и формулирует неверные утверждения уверенным языком. Кроме того, ему не хватает информации о событиях, произошедших после сентября 2021 года, когда был завершен сбор его тренировочных данных. OpenAI подробно описывает проблемы безопасности здесь.
Adversarial ML: классификация и терминология
Атак на интеллектуальную собственность уже 5:
Data Reconstruction
Memorization
Membership Inference
Model Extraction
Property Inference
См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению
Анти-YOLO
См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению
Wednesday, March 15, 2023
Прикладное машинное обучение
23 лекции с подробными конспектами курса
30+ часов лекций
Более 20 реализаций алгоритмов машинного обучения на Python
Tuesday, March 14, 2023
Monday, March 13, 2023
Сетевая безопасность
OVERVIEW
This workshop will explore evolving Future networks (5G/6G) use cases, as well as associated research challenges. The objective of this workshop is to bring together global expertise and create a joint platform for
knowledge exchanges, presentation of results, and fruitful discussions to identify gaps and future directions for the IEEE FNI Security Working Group and efforts.
Day 1 - 14 March 2023
9:00-9:15 Introduction - IEEE Future Networks Security Working Group Ashutosh Dutta (JHU/APL), Eman Hammad (Texas A&M - RELLIS)
Keynote Presentation:
Venki Ramaswamy (MITRE)
9:45-10:00 Enhancing the Security of 5G Fronthaul Marcus Wong
10:00-10:15 Towards a Trust Aware Network Slice based Service Provision in Virtualised Infrastructures Kallol Krishna Karmakar, Vijay Varaadharajan
10:15-10:30 IETF LAKE: Lighweight Authenticated Key Exchange for Internet-of-Things Use Cases Mališa Vučinić
10:30-10:40 Break
10:40-10:55 Scalable Information Veracity Verification of mMTC in Emerging Networks Nirnimesh Ghose
10:55-11:10 ZSM Policy Based 5G Security Slice Management Framework Rodrigo Asensio-Garriga, Antonio Fernando Skarmeta Gomez, Alejandro Moliina Zarca, Jordi Ortiz
11:10-11:25 Zero Trust Architecture: The Past, The Present and The Future Michael A. Enright, Eman Hammad, Ashutosh Dutta
Keynote Presentation:
Introduction to The DoD's New Zero Trust DataSpecification
Junaid Islam, CTO XQ Message, Partner OODA LLC
11:55-12:20 TBD Ashish Kundu, Cisco
12:20-1:30 Blockchain and FN Security Panel DJ-SHYY Mitre (moderator), Bharat Rawal, Mahesh Chand, Dante Pacella
Day 2 - 15 March 2023
9:00-9:05 Introduction
9:05-9:35 Keynote Presentation: ORAN, ZTA, and CI in Cloud Scott Poretsky (Ericsson)
9:35-9:50 Hardware Confidential Computing for Securing Next-Gen Networks Kapil Sood (Intel)
9:50-10:05 Open Security Challenges 5G Based Critical Communications Ravishankar Borgaonkar
10:05-10:20 Threat Model for Multi-Site Private 5G Deployments Arpit Tripathi
10:20-10:30 Break
10:30-11:45 Blockchain-enabled Secure Communication in Internet of Drones Omer M Gul
11:45-11:55 5G/6G for Enabling Secure Autonomous Vehicular Communcation: Research Challenges Deepanshu Garg, Rasmeet S. Bali
11:55-12:10 Hybrid Quantum-Classical Machine Learning for Near Real-time Space to Ground Communication of ISS Lightning Imaging Sensor Data Samih Fadli (ORION SPACE, DOD)
12:10-12:25 Security-as-a-Service for 5G Applications Ashutosh Dutta
12:25-12:55 Keynote Presentation: 5G/Future G Security and AI/ML Arupjyoti Bhuyn (INL)
12:55-1:30 Panel Discussion
Sunday, March 12, 2023
Отравляемость моделей ML
Friday, March 10, 2023
О вычислительной лингвистике
Thursday, March 09, 2023
И не говори мне ...
Как это работает: такие компании, как ElevenLabs, Resemble AI, Respeecher и Play.ht, недавно запустили бесплатные сервисы, которые клонируют голос говорящего из коротких образцов. Такие предложения развязывали хор сгенерированных голосов.
Создатели YouTube привлекли сотни тысяч зрителей к видеороликам, в которых якобы записаны голоса недавних президентов США, спорящих из-за карточной игры, играющих в Minecraft и обсуждающих покемонов.
Athene AI Show, вымышленное ток-шоу, транслируемое без перерыва на Twitch, принимает вопросы интервью, заданные зрителями в канале чата. Сгенерированные голоса знаменитостей или вымышленных персонажей отвечают в сгенерированном разговоре с хостом (личностью в Интернете по имени Афина). У канала более 16 000 подписчиков.
Музыкант Дэвид Гетта, используя неуказанные модели генерации текста и голоса, доступные в сети, синтезировал строки в стиле Эминема «в шутку». Он сыграл ее во время живого выступления, и «люди сошли с ума!»
Сервис потоковой передачи музыки Spotify запустил «AI DJ», который создает для пользователей специальные плейлисты, перемежающиеся комментариями клонированного голоса Ксавьера Джернигана, главы отдела культурного партнерства компании. Sonantic AI, стартап, который Spotify приобрел в прошлом году, предоставил синтезированный голос, который интонирует комбинацию слов, написанных человеком, и текста, сгенерированного неизвестной моделью OpenAI.
Да, но демократизация клонирования голоса открывает двери преступникам и шутникам.
Мошенники выманивали деньги у своих жертв, имитируя голоса родственников, просящих деньги.
Репортер Vice использовал ElevenLabs для клонирования собственного голоса. Факсимиле было достаточно убедительным, чтобы позволить ему получить доступ к своему банковскому счету.
Пользователи 4Chan использовали технологию ElevenLabs для создания языка ненависти синтезированными голосами знаменитостей.
ElevenLabs отреагировала на поток поддельных голосов, проверив личность пользователей, идентифицировав клонов и заблокировав учетные записи, которые злоупотребляют ее услугами.
Почему это важно: клонирование голоса стало культурным мейнстримом благодаря онлайн-платформам, предлагающим бесплатные услуги искусственного интеллекта. Изображения, текст, а теперь и голоса быстро стали достаточно убедительными и доступными, чтобы служить выразительными инструментами для медиапроизводителей всех мастей.
Итого: с новыми возможностями приходят и новые задачи. Многие методы социальной защиты и безопасности необходимо будет пересмотреть в эпоху, когда голос человека больше не является надежным признаком его личности.
Wednesday, March 08, 2023
ChatGPT и кибербезопасность
Tuesday, March 07, 2023
Тестирование DNN
Saturday, March 04, 2023
Новый список ВАК
1.2.2. Математическое моделирование,
численные методы и комплексы
программ (физико-математические
науки),
1.2.2. Математическое моделирование,
численные методы и комплексы
программ (технические науки),
2.3.1. Системный анализ, управление и
обработка информации (физико-математические науки),
2.3.1. Системный анализ, управление и
обработка информации (технические
науки),
2.3.5. Математическое и программное
обеспечение вычислительных систем,
комплексов и компьютерных сетей
(физико-математические науки),
2.3.5. Математическое и программное
обеспечение вычислительных систем,
комплексов и компьютерных сетей
(технические науки),
2.3.6. Методы и системы защиты
информации, информационная
безопасность (физико-математические
науки),
2.3.6. Методы и системы защиты
информации, информационная
безопасность (технические науки)
Friday, March 03, 2023
Мозг и LLM
Transfer learning и тонкая настройка моделей
Thursday, March 02, 2023
Что там в датасете?
Типичные курсы машинного обучения обучают методам создания эффективных моделей для заданного набора данных. В реальных приложениях данные беспорядочны, и улучшение моделей — не единственный способ повысить производительность. Вы также можете улучшить сам набор данных, а не рассматривать его как фиксированный. Data-Centric AI (DCAI) — это новая наука, изучающая методы улучшения наборов данных, что часто является лучшим способом повышения производительности в практических приложениях ML. DCAI рассматривает улучшение данных как систематическую инженерную дисциплину.
Первый в мире курс по DCAI от MIT: Введение в Data-centric AI
См. также другие публикации по теме data centric