Подбор оптимального метода машинного обучения для выявления банковских угроз

1. Подбор оптимального метода машинного обучения для выявления банковских угроз

Выполнил: Сидоров П.Г. группа МИТ-13-1
Научный руководитель: Кузнецов А.А. ассист.
НИТУ МИСИС
2017 г.

2. Введение

В настоящее время на теневых форумах происходит активная купля/продажа
дебетовых карт
Одна из распространенных схем мошенничества:
❏ На форумах мошенники изъявляют желание продать или купить карты
❏ Как правило, карта используется для вывода средств, украденных в интернетбанке, электронных кошельках, карточных переводах между гражданами.
❏ Теневые форумы также используются для поиска людей, которые будут
осуществлять обналичивание

3. Постановка задачи

Исходные данные
Выборка постов теневых форумов тематики “Торговля пластиковыми картами”,
сформированная на основе парсинга форумов Dark Net и фильтрации по ключевым
словам
Цели
Построить классификатор, идентифицирующий сообщения тематики “Куплю/продам
дебетовые карты”
Задачи
1.
2.
3.
4.
5.
Разметить исходные данные
Обработать исходные данные
Проанализировать характеристики представленной выборки
Провести эксперименты сравнения моделей
Выбрать оптимальный метод машинного обучения с лучшим результатом

4. Схема выявления постов по угрозе

Выборки по
ключевым
словам
Sphinx система
полнотекстовог
о поиска
Разметка
Модуль
классифик
атор
БД - хранение
сырых
данных
теневых
форумов
БД - хранение
идентифицир
ованных
сообщений по
теме угрозы
Парсинг контента
теневых форумов

5. Исходные данные

6. Разметка данных

❏ Разметка данных требует привлечения асессоров.
❏ Асессор - человек, знающий предметную область угроз, способный, читая
сообщение, определить, можно ли отнести пост к угрозе.
❏ Правила, по которым он это делает, называются манифестом разметки.
❏ Манифест разметки представляет собой семантический портрет угрозы,
включающий в себя цель сообщения, варианты подачи информации и первичный
словарь.
Итоговая выборка состоит из 1500 постов.
Помеченных угрозой постов: 444.

7. Предобработка данных

❏ Удаление английских символов
❏ Удаление символов разметки
❏ Удаление цифр и остальных символов, не являющихся русскими буквами
Сообщение
Очищенное сообщение
Куплю карты сбера срочно 5 штук
{→./images/smilies/icon_e_smile.gif} 89675536460
>
Куплю карты сбера срочно 5 штук

8. Обработка данных

Реализация классификатора включает реализацию компонентов:
❏ Индексатор текстов
❏ Токенизация текстов
❏ Нормализация слов
❏ Стемминг
❏ Лемматизация
❏ Взвешивание слов
❏ Включение n-грамм
❏ Счетчик слов (Count Vectorizer)
❏ TF-IDF

9. Обучение классификатора

Выбранные модели
❏ Логистическая регрессия
❏ Метод опорных векторов
❏ Наивный Байесовский классификатор
❏ Метод ближайших соседей
Разделение выборки
❏ Обучающая (⅔ выборки)
❏ Тестовая (⅓ выборки)
Этапы построения классификатора
❏ Обучение классификатора на обучающей выборке
❏ Тестирование классификатора на тестовой выборке

10. Оценка результатов обучения

Accuracy (Доля правильных ответов) = (TP+TN)/(TP+TN+FP+FN)
Precision (Точность) = TP/(TP+FP)
Recall (Полнота) = TP/(TP+FN)
F1-Score=((1+a2)*Precision*Recall)/(a2*Precision+Recall)
y=1
y=-1
a(x)=1
TP
FP
a(x)=-1
FN
TN

11. Оценка результатов обучения

12. Важность признаков

Топ первых 30-признаков, по мнению Метода Опорных Векторов (SVM):
1.голд
6.сбер
11.продать
карта
16.комплект
21.разово
26.карта
альфа-банк
2.купить
7.наличие
12.штука
17.лс
22.доставка
27.платинум
3.продать
8.банк
13.втб
18.гарант
23.полный
28.тинькофф
4.альфа
9.карта
14.купить
дебетовые
19.купить
дебетовые
карты
24.момент
29.тенькофф
5.классик
10.купить
карта
15.сбербанк
20.моментал
ьная
25.карта
приватбанка
30.классичес
кий

13. Результаты

1. Была осуществлена разметка данных
2. Была осуществлена предобработка и индексация текстовых данных
3. Обучены несколько классификаторов
4. Был получен оптимальный для данной задачи метод машинного обучения
❏ Метод взвешивания TF-IDF
❏ Метод классификации SVM (Метод опорных векторов)
Еженедельно база данных пополняется новыми данными, появляются новые слова и
тексты постов. Классификация может ухудшиться. По мере роста накопленных данных
следует переобучать классификатор.

English Русский Rules