Friday, May 16, 2025

Фальшивая кибербезопасность

Учитывая растущее количество и серьезность кибератак, наблюдается всплеск информации о кибербезопасности в различных средствах массовой информации, таких как сообщения, новостные статьи, отчеты и другие ресурсы. Cyber Threat Intelligence (CTI) включает обработку данных из этих источников кибербезопасности, что позволяет профессионалам и организациям получать ценную информацию. Однако с быстрым распространением информации о кибербезопасности включение поддельной CTI может привести к серьезным последствиям, включая атаки с отравлением данных. Чтобы решить эту проблему, мы реализовали трехэтапную стратегию: создание синтетической CTI, оценка качества сгенерированной CTI и обнаружение поддельной CTI. В отличие от других поддоменов, таких как обнаружение поддельных новостей о COVID, в настоящее время нет общедоступного набора данных, специально предназначенного для исследования обнаружения поддельной CTI. Чтобы устранить этот пробел, мы сначала создаем надежный набор данных Groundtruth, используя данные о кибербезопасности, специфичные для домена, для точной настройки Large Language Model (LLM) для генерации синтетической CTI. Затем мы используем методы краудсорсинга и передовые методы проверки синтетических данных для оценки качества сгенерированного набора данных, представляя новую методологию оценки, которая объединяет количественные и качественные подходы. Наша комплексная оценка показывает, что сгенерированный CTI не может быть отличим от подлинного CTI людьми-аннотаторами, независимо от их опыта в области компьютерных наук, что демонстрирует эффективность нашего подхода к генерации. Мы сравниваем различные методы обнаружения дезинформации с нашим набором данных groundtruth, чтобы установить базовые показатели производительности для выявления поддельного CTI. Используя существующие методы и адаптируя их к контексту обнаружения поддельного CTI, мы обеспечиваем основу для будущих исследований в этой критической области. Для содействия дальнейшим исследованиям мы делаем наш код, набор данных и экспериментальные результаты общедоступными на GitHub - Can LLM-generated misinformation be detected: A study on Cyber Threat Intelligence

No comments: