Publication: ФОРМИРОВАНИЕ РАЗМЕЧЕННОГО НАБОРА ДАННЫХ НА ОСНОВЕ СМОДЕЛИРОВАННЫХ КОМПЬЮТЕРНЫХ АТАК
Дата
2025
Авторы
Павлычев, А. В.
Кузьминец, К. В.
Бреус, Д. Е.
Шелупанов, А. А.
Journal Title
Безопасность информационных технологий
Journal ISSN
Volume Title
Безопасность Информационных Технологий
Издатель
НИЯУ МИФИ
Аннотация
В рамках работы предложен подход к созданию массива данных, необходимого для будущих систем машинного обучения искусственного интеллекта, предназначенных для противодействия компьютерным атакам. Авторами проведен краткий обзор современных способов выявления компьютерных атак, в том числе с помощью анализа лог-файлов операционной системы с применением методов машинного обучения. Рассмотрены различные подходы к моделированию атак и формированию наборов данных. Предложен алгоритм для формирования базы данных из записей системных журналов и соответствующих им компьютерных атаках и сценариях пользовательской работы, учитывающий различные подходы и лучшие практики. Для реализации алгоритма спроектирована и развернута виртуальная сетевая инфраструктура, предназначенная для автоматизированного извлечения файлов системных журналов операционной системы после запуска заранее подготовленных скриптов. В результате проведенного исследования сформулирован алгоритм моделирования компьютерных атак и формирования размеченного набора данных из системных журналов операционной системы. Согласно разработанному алгоритму в результате проведенной серии экспериментов получена база данных, которую можно использовать для обучения моделей машинного обучения и применения в современных интеллектуальных средствах защиты информации. Датасет, содержащий 1 473 559 записей, размещен на платформе Kaggle. Научная новизна заключается в доработке алгоритма моделирования компьютерных атак и формирования набора данных из системных журналов операционной системы, который в отличие от существующих подходов автоматизирует процесс сбора данных, что обеспечивает более полное покрытие тактик MITRE ATT&СК. Усовершенствованный алгоритм включает механизмы валидации выполнения скриптов и передачи метаданных, что повышает достоверность данных, получаемых в ходе выполнения скриптов и формирования датасета, в отличие от алгоритмов, не учитывающих данные аспекты.
Описание
Ключевые слова
Набор данных , Машинное обучение , Системные журналы , Тактики и техники , Компьютерные атаки , Алгоритм
Цитирование
Павлычев, Алексей В. и др. Формирование размеченного набора данных на основе смоделированных компьютерных атак. Безопасность информационных технологий, [S.l.], т. 32, № 4, с. 1–17, 2025. ISSN 2074-7136. URL: https://bit.spels.ru/index.php/bit/article/view/1858. DOI: http://dx.doi.org/10.26583/bit.2025.4.01.