Информационная безопасность

8.01M

Category:

informatics

1. Тема проекта

Бакшаева Ксения Б21-525
Штанденко Илья Б21-565
Руководитель:
Нурматов Салим Рашидович

2. АКТУАЛЬНОСТЬ

Информационная безопасность - одно из самых динамично развивающихся
направлений ИТ. Это обусловлено большой ролью человеческого фактора - он
вносит большое разнообразие и спонтанность в реализацию атак. В связи с этим мы
имеем дело с большим количеством хаотичных данных, которое не позволяет
выделять и различать разные угрозы - а следовательно, и бороться с ними. И тут на
помощь приходит машинное обучение.

3. ЦЕЛЬ ПРОЕКТА

Провести исследование на основе
существующих вариантов програмного
решения, которые будут иметь достаточный
диапазон и степень достоверности данных об
опасности тех или иных аномалий трафика.

4. Классификаторы машинного обучения

Метод k-ближайших соседей (K-Nearest Neighbors);
Метод опорных векторов (Support Vector Machines);
Классификатор дерева решений (Decision Tree
Classifier) / Случайный лес (Random Forests);
Изоляционный лес (Isolation forest)
Наивный байесовский метод (Naive Bayes);
Линейный дискриминантный анализ (Linear Discriminant
Analysis);
Логистическая регрессия (Logistic Regression);

5. С чем мы работаем

Для наших операций используем язык
программирования Python со
специализированными библиотеками.
Генерируем датасет с фиксированными
параметрами
Вводим классификацию аномалий:
нормальное распределение имеет один
пик, аномальное два.

6. Выбор алгоритма

Анализируя f1-score, выявляем, что
OneClassSVM, Isolation forest и Random
Forest сами по себе не справляются с
поставленной задачей
Таким образом, мы решили использовать
автокодировщик. Принцип его действия
представлен на рисунке ниже.

7. 8. Устранение недостатков модели

Обучая модель, мы сталкиваемся с неразличимостью
восстановленных после сжатия данных для аномального и
нормального распределений. Заметив, что аномальное
распределение до сжатия характеризуется пиком, мы вводим
функцию разницы, которая значительно улучшает детекцию.
В итоге в работе была использована связка автоенкодер +
функция разницы + случайный лес. Отметим важность порядка –
при перестановке последних двух шагов случайный лес
“загрязнит” данные, и работа модели будет некорректной.

9.

Представление результатов исследования
Наблюдающийся пик в score’-ах натолкнул нас на использование
гистограмм (см.рис). Чётко выделяется дополнительная “ступенька” в
аномальном распределении. Заключаем, что наша модель пригодна для
детекции аномалий.

10. Итоги

Детекция аномалий требует тщательного подбора инструментов машинного
обучения для каждой конкретной задачи, а иногда и комбинированного подхода,
как в нашем случае. Также немаловажным оказалась вторичная обработка
датасета с помощью вспомогательной функции, позволившей многократно
повысить точность индикации отличия рассматриваемых выборок.
Также не стоит забывать о формате визуального представления результатов (в
нашем случае хорошо подошла гистограмма). Именно оно в конечном счёте
показывает успешность модели.
Таким образом, хорошее решение должно содержать проработку всех этапов
работы с данными, а также опираться на их качественную интеграцию друг с
другом.

11. Спасибо за внимание!

Бакшаева Ксения Б21-525
Штанденко Илья Б21-565
Руководитель:
Нурматов Салим Рашидович

English Русский Rules