Thursday, January 15, 2026

Кибер-Берт

Эффективный анализ данных в области кибербезопасности и анализа угроз требует языковых моделей, способных интерпретировать специализированную терминологию, сложные структуры документов и взаимозависимость естественного языка и исходного кода. Архитектуры трансформеров, использующие только кодировщик, предлагают эффективные и надежные представления, поддерживающие критически важные задачи, такие как семантический поиск, извлечение технических сущностей и семантический анализ — ключевые для автоматического обнаружения угроз, сортировки инцидентов и оценки уязвимостей. Однако универсальные языковые модели, как правило, не обладают необходимой адаптацией к предметной области для обеспечения высокой точности в этих контекстах. Мы представляем SecureBERT 2.0, улучшенную языковую модель, использующую только кодировщик, специально разработанную для приложений кибербезопасности. Используя архитектуру ModernBERT, SecureBERT 2.0 внедряет улучшенное моделирование длинных контекстов и иерархическое кодирование, что позволяет эффективно обрабатывать расширенные и гетерогенные документы, включая отчеты об угрозах и артефакты исходного кода. Предварительно обученная на корпусе, в тринадцать раз превышающем по размеру корпус ее предшественника и включающем более 13 миллиардов текстовых токенов и 53 миллиона кодовых токенов из различных реальных источников, SecureBERT 2.0 достигает самых современных результатов на множестве тестов в области кибербезопасности. Экспериментальные результаты демонстрируют существенные улучшения в семантическом поиске для анализа угроз, семантическом анализе, распознавании именованных сущностей, специфичных для кибербезопасности, и автоматическом обнаружении уязвимостей в коде в области кибербезопасности. - SecureBERT 2.0: Advanced Language Model for Cybersecurity Intelligence

No comments: