Monday, September 16, 2024

Редкие события

"Обнаружение редких событий (RED) включает в себя идентификацию и обнаружение событий, характеризующихся низкой частотой возникновения, но имеющих большое значение или влияние. В этой статье представлен систематический обзор (SR) обнаружения редких событий в различных модальностях с использованием методов машинного обучения (ML) и глубокого обучения (DL). В этом обзоре подробно излагаются методы и приемы, наиболее подходящие для обнаружения редких событий в различных модальностях, а также освещаются перспективы будущих исследований. Насколько нам известно, эта статья является новаторской SR, посвященной изучению этой конкретной области исследований. В этой SR определяются используемые методы и приемы, используемые наборы данных и эффективность этих методов при обнаружении редких событий. В этой SR рассматриваются четыре модальности, касающиеся RED: видео, звук, изображение и временные ряды. Соответствующие характеристики различных методов ML и DL для RED обсуждаются всесторонне, а также выделяются связанные с RED проблемы и ограничения, а также направления будущих исследований. Целью данного отчета является предоставление всестороннего обзора существующих методов в RED, который послужит ценным ресурсом для исследователей и практиков, работающих в соответствующей области." - отсюда

больше статей по теме

Sunday, September 15, 2024

О киберобмане

Растущий интерес к кибербезопасности значительно увеличил количество статей, разрабатывающих и реализующих различные механизмы киберобмана (Cyber Deception - CYDEC). Эта тенденция отражает срочную потребность в новых стратегиях для эффективного противодействия киберугрозам. С момента своего появления CYDEC зарекомендовал себя как инновационная защита от злоумышленников благодаря своим проактивным и реактивным возможностям, находящим применение в многочисленных реальных сценариях. Несмотря на значительную работу, посвященную CYDEC, литература по-прежнему представляет собой значительные пробелы. В частности, не было (i) всестороннего анализа основных компонентов, характеризующих CYDEC, (ii) общей классификации, охватывающей все типы решений, ни (iii) обзора текущего состояния литературы в различных контекстах. Целью данной статьи является заполнение этих пробелов путем подробного обзора основных функций, составляющих CYDEC, и разработки всеобъемлющей таксономии классификации. Кроме кроме того, рассматриваются различные фреймворки, используемые для создания CYDEC, представляя более всеобъемлющую. Изучаются и сравниваются существующие решения в литературе, использующие CYDEC, как без искусственного интеллекта (ИИ), так и с ИИ. Наконец, обсуждаются наиболее существенные тенденции текущего состояния дел, предлагая список нерешенных задач для будущих исследований - отсюда

Friday, September 13, 2024

Еще о фишинге

Интересная работа по определению признаков фишинговых URL

"Наша модель использует извлеченные из веб-страниц признаки, используя 89 признаков для точной классификации фишинговых URL-адресов. На основе алгоритмов выбора признаков, таких как прямой выбор (forward selection) и регуляризация Lasso, мы выбрали 27 лучших признаков."

см. также другие публикации по теме фишинг

Wednesday, September 11, 2024

Измерение галлюцинаций

Galileo, предлагающая платформу для оценки моделей ИИ, протестировала 22 модели, чтобы увидеть, галлюцинируют ли они после извлечения информации из документов разной длины. Claude 3.5 Sonnet стал абсолютным победителем, и большинство моделей показали лучшие результаты при извлечении информации из документов средней длины.

Как это работает: исследователи протестировали 10 закрытых и 12 открытых моделей на основе их размеров и популярности. Они запустили каждую модель 20 раз, используя короткие, средние и длинные длины контекста (всего 60 тестов) с использованием GPT-4o, чтобы оценить, насколько близко выходной текст соответствует контексту.

Исследователи выбрали текст из четырех общедоступных и двух частных наборов данных для тестов с коротким контекстом (менее 5000 токенов каждый). Они выбрали более длинные документы от частных компаний для тестов со средним и длинным контекстом. Они разделили эти документы на отрывки по 5000, 10000, 15000, 20000 и 25000 токенов для тестов со средним контекстом и 40000, 60000, 80000 и 100000 токенов для тестов с длинным контекстом.

Для каждого теста они предоставили модели подсказку и связанный с ней документ. Подсказка просила модель извлечь определенную информацию из документа. Они предоставили подсказку и ответ инструменту обнаружения галлюцинаций ChainPoll от Galileo. ChainPoll запрашивает модель (в данном случае GPT-4o) несколько раз, используя цепочку мыслей, чтобы вернуть оценку 1 (ответ напрямую поддерживается документом контекста) или 0 (ответ не поддерживается документом контекста). Они подсчитали средние баллы каждой модели для каждой длины контекста и усреднили их, чтобы получить окончательный балл. Результаты: Claude 3.5 Sonnet от Anthropic заняла первое место в общем рейтинге, достигнув 0,97 в коротких длинах контекста и 1,0 в средних и длинных длинах контекста.

Среди моделей с открытыми весами Qwen2-72b Instruct набрала самые высокие баллы для коротких (0,95) и средних (1,0) длин контекста. Исследователи выделили Gemini 1.5 Flash за высокую производительность (0,94, 1,0 и 0,92 для коротких, средних и длинных длин контекста соответственно) при низких затратах. Большинство моделей показали наилучшие результаты в контекстах средней длины, которые в отчете называются «оптимальным вариантом для большинства LLM».

Galileo провела аналогичные тесты в прошлом году, когда сравнила производительность в условиях RAG и без RAG (без дифференциации по длине контекста). GPT-4 и GPT-3.5 заняли первые три места в обеих условиях, несмотря на высокие результаты Llama 2 и Zephyr 7B. Однако наивысшие баллы были ниже (от 0,70 до 0,77).

Почему это важно: Создатели моделей уменьшили количество галлюцинаций, но разница между редкими ложными сообщениями и их отсутствием может быть критической в ​​некоторых приложениях.

Любопытно, что контексты RAG средней длины обычно вызывали меньше галлюцинаций, чем короткие или длинные. Может быть, нам следует давать моделям больше контекста, чем, как мы думаем, им нужно.

/via deeplearning.ai

См. также другие публикации по теме галлюцинации

Thursday, September 05, 2024

Открытая наука: INJOIT том 12, номер 9

Очередной номер журнала INJOIT появился на сайте Киберленинка.

Это том 12, номер 9 за 2024 год.

/via Лаборатория ОИТ

ИИ в кибербезопасности

Конференция CSNet 2024 в этом году объявила своей темой Artificial Intelligence (AI) for Cybersecurity. Вот заявленные темы в CFP. По сути - это области применения ИИ в кибербезопасности

Advanced AI for Cybersecurity
AI-based Cybersecurity for Next-Generation Technologies
Challenges and Opportunities in AI-driven Security
Emerging AI Threats and Countermeasures
Privacy Preservation in AI-driven Security
Privacy-preserving AI for Surveillance and Monitoring
Cognitive Security and Adaptive Defense Mechanisms
Advanced Deep Learning Techniques for Cyber Defense
Blockchain
Cloud Security
Cognitive Cyber Security
Cyber-attacks & defense
Cyber-Physical System (CPS) Security
Cybersecurity and Human Rights
Data Center Network Control, Security, and Optimization
Decentralized Security
Resilient Networks and Systems
Secure Protocol Design and Key Management
Secure Architecture Design
Secure Network Design
Security Policies Design
Security for the Internet of Things
Security in Fog/edge Computing
AI-driven Intrusion Detection and Prevention Systems
AI-driven Security Monitoring and Anomaly Detection
Cyber Threat Intelligence and Information Sharing
AI-based Cybersecurity for IoT and Fog/edge Computing
Adversarial Machine Learning and AI Security
AI for Cyber Resilience and Incident Response Strategies
AI for Biometric Security
AI for Secure Software Development and DevSecOps
AI-enabled Threat Hunting and Cyber Forensics
AI-enabled Ethical Hacking
AI for Blockchain Technology
AI-based Secure Cloud Computing and Data Protection
AI-based Cybersecurity in Smart Cities/Grids and Urban Environments
AI for Secure Authentication and Access Control Mechanisms
AI-powered Threat Modeling and Risk Assessment
AI-driven Security Automation and Orchestration
Secure AI Model Training and Adversarial Mitigation
AI-driven Security Operations Center (SOC)
Secure Federated Learning
Federated Learning cybersecurity solutions
LLM-based Anomaly Detection
LLM-based Malware Detection and Classification
Secure Deployment of LLM-based Security Solutions
AI for Hardware-Based Attacks
AI-based Vulnerability Assessment and Patch Prioritization
Zero-Day Attack Detection Using AI-based Techniques
Ethical and Regulatory Considerations in AI-based Security
Reinforcement Learning-based Cybersecurity Solutions

Wednesday, September 04, 2024

Разработка приложений на базе LLM

Безопасные шаблоны и методы проектирования для команд, разрабатывающих приложения на базе LLM

Этот ресурс предоставляет безопасные шаблоны проектирования и практики для команд, разрабатывающих приложения на базе LLM. Каждый раздел посвящен определенному типу приложения. Для каждого типа приложения мы описываем наиболее существенные риски и предлагаем стратегии их смягчения

См. также другие публикации, посвященные LLM

Tuesday, September 03, 2024

Искусственный интеллект в атаке

О кибератаках с помощью систем Искусственного интеллекта

В настоящей статье рассматривается один из аспектов использования Искусственного интеллекта в кибербезопасности. Речь идет о кибератаках, которые могут совершаться с использованием систем Искусственного интеллекта (ИИ). Кибератаки с использованием ИИ можно определить как любую хакерскую операцию, которая опирается на использование механизмов ИИ. Другой используемый термин – наступательный ИИ. Кибератаки, основанные на ИИ, несомненно, меняют ландшафт кибербезопасности. В первую очередь, здесь необходимо говорить о скорости реализации атак и их масштабировании. Кибератаки, основанные на ИИ, включают использование передовых алгоритмов машинного обучения для выявления уязвимостей, прогнозирования закономерностей и использования слабых мест. Эффективность и быстрый анализ данных расширяют возможности хакеров по получению тактического преимущества, что приводит к быстрым вторжениям или уничтожению данных. Традиционных методов кибербезопасности больше недостаточно для борьбы со сложными атаками, поскольку кибератаки с использованием ИИ адаптируются и развиваются в режиме реального времени. Кроме того, внедрение систем ИИ в киберзащите порождает новые риски. Системы ИИ сами становятся объектами состязательных атак. В статье рассмотрены общие вопросы организации кибератак с использованием ИИ, приведены таксномия и примеры таких атак.

Отсюда

SQL вопросы

Вопросы для интервью по SQL

Monday, September 02, 2024

Атака или сдвиг концепций?

Как отличить состязательные атаки от сдвига концепций

"Модели машинного обучения (МО) все чаще применяются для разработки систем обнаружения вторжений (IDS). Такие модели обычно обучаются на больших, разнообразных наборах данных. В результате они демонстрируют отличную производительность на ранее невиданных образцах, при условии, что они, как правило, находятся в пределах распределения обучающих данных. Однако, поскольку операционные среды и ландшафт угроз со временем меняются (например, установка новых приложений, обнаружение нового вредоносного ПО), базовые распределения смоделированного поведения также меняются, что приводит к ухудшению производительности IDS на основе МО с течением времени. Такой сдвиг в распределении называется дрейфом концепций. Модели периодически переобучаются с использованием новых собранных данных для учета дрейфа концепций.

Данные, отобранные для переобучения, также могут содержать состязательные образцы, т. е. образцы, которые злоумышленник изменил, чтобы обойти IDS на основе МО. Такие состязательные образцы, если их включить для переобучения, отравят модель и впоследствии ухудшат ее производительность. Концептуальный дрейф и состязательные образцы считаются образцами вне распределения, которые не могут быть легко дифференцированы обученной моделью. Таким образом, необходим интеллектуальный мониторинг входных данных модели, чтобы различать эти два класса образцов вне распределения. В статье мы рассматриваем наихудшую обстановку для защитника, в которой исходная система обнаружения вторжений на основе машинного обучения отравлена ​​через механизм вне диапазона. Мы предлагаем подход, который возмущает входной образец при различных величинах шума и наблюдает за изменением выходных данных отравленной модели, чтобы определить, является ли входной образец состязательным. Мы оцениваем этот подход в двух условиях: сетевая IDS и система обнаружения вредоносных программ Android. Затем мы сравниваем его с существующими методами, которые обнаруживают либо концептуальный дрейф, либо состязательные образцы. Предварительные результаты показывают, что предлагаемый подход обеспечивает сильные сигналы для дифференциации между состязательными и концептуальными дрейфовыми образцами. Кроме того, мы показываем, что методы, которые обнаруживают только дрейф концепций или только состязательные образцы, недостаточны для обнаружения другого класса образцов, находящихся вне распределения."

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Sunday, September 01, 2024

Анти-фишинг LLM

Использование LLM для определения фишинговых страниц

"В этой работе мы предпринимаем шаги для изучения эффективности больших языковых моделей (LLM), в частности, мультимодальных LLM, при обнаружении фишинговых веб-страниц. Учитывая, что LLM предварительно обучены на большом массиве данных, мы стремимся использовать их понимание различных аспектов веб-страницы (логотип, тема, иконка и т. д.) для идентификации бренда данной веб-страницы и сравнения идентифицированного бренда с доменным именем в URL-адресе для обнаружения фишинговой атаки. Мы предлагаем двухфазную систему, использующую LLM на обоих этапах: первый этап фокусируется на идентификации бренда, а второй проверяет домен. Мы проводим комплексные оценки на недавно собранном наборе данных. Наши эксперименты показывают, что система на основе LLM достигает высокого уровня обнаружения при высокой точности; что важно, она также предоставляет интерпретируемые доказательства для решений. Наша система также работает значительно лучше, чем современная система обнаружения фишинга на основе бренда, демонстрируя при этом устойчивость к двум известным состязательным атакам."