Similar presentations:
Информационная система классификации входящих документов на основе методов машинного обучения
1. Информационная система классификации входящих документов на основе методов машинного обучения
А ЛТ А Й СК ИЙ Г ОСУД А Р СТВЕННЫ Й Т Е ХНИ ЧЕСК И Й У НИ ВЕ Р СИ Т ЕТ И М . И . И . П ОЛЗУ Н О В АК А ФЕ ДРА « И НФ ОР М А Ц И ОННЫ Е СИ СТ Е М Ы В ЭК ОНОМ И К Е»
Информационная система классификации
входящих документов на основе методов
машинного обучения
ВЫ П ОЛНИ ЛА СТ У Д Е НТКА Г Р У П П Ы 8 П И Э - 1 1:
К ОЗЛОВА Е . В.
НА У ЧНЫ Й Р У К ОВОД И ТЕЛЬ:
А ВД Е ЕВ А . С.
Барнаул 2023
2. Актуальность
В настоящее время одной из актуальных задачавтоматизации документооборота компании в
условиях огромного потока документов от
множества контрагентов является классификация
документов.
2
3. Цель магистерской диссертации
Разработать информационную систему автоматической классификации входящихдокументов с применением методов машинного обучения.
3
4. Задачи магистерской диссертации
Изучить деятельность сектора регистрации и учета документов организации ООО«Мария-Ра»
Выявить «узкие» места в работе сектора, в процессе регистрации входящих документов
и определении вида документа
Рассмотреть современные технологии для определения вида документа
Спроектировать и разработать АИС для автоматического определения вида входящего
документа
Оценить эффективность от внедрения системы, сделать выводы
4
5. Объект исследования
Объектисследования
–
структурное
подразделение
Компании
–
Отдел
документационного обеспечения, сектор регистрации и учета документов.
Торговая сеть «Мария-Ра» - одна из крупнейших продовольственных компаний в
Сибири.
Основное направление деятельности – розничная торговля продуктами питания.
Компания «Мария-Ра» является одним из крупнейших работодателей в Сибирском
округе. Общая численность сотрудников компании превышает 21000 человек.
5
6. Организационная структура
КомпанияСлужба
строительства
Отдел
корпоративных
отношений
Отдел
маркетинга
Служба
безопасности
Юридическая
служба
Коммерческий
отдел
Отдел
документационного
обеспечения
Служба
персонала
Архив
Сектор контроля
исполнения
документов
Сектор
регистрации и
учета
документов
Сектор приема
и отправки
документов
Управление
розничной
сети
Служба
поставок
Финансовая
служба
Служба по
сохранности
собственности
6
7. Документооборот Компании
78. Документооборот Компании
Провайдеры(Корус, Диадок)
Телекоммуникацион
ные канала связи
(телеграммы, факс,
электронная почта,
Контур)
Нарочно (от
контрагента,
экспедиторская
доставка)
Входящий
документооб
орот
8
9. Документооборот Компании
910. Документооборот Компании
№Документопоток
Описание
п/п
1
Приоритетность
работы
Договорные
Документы, подтверждающие договорные обязательства
4
Деловая переписка
2
Проектно-технические
Документы, раскрывающие сущность проекта; документация, содержащая
5
документы
решения для объектов строительства
Судебно-надзорные
Документы, поступающих от судебных и надзорных органов в отношении
документы
юридических лиц Компании
Финансовые
Документы хозяйственных операций
документы
2
Письменная
корреспонденция
3
4
5
1
3
документы
Внутренним положением Компании установлено 167 видов документов, подлежащих обязательной регистрации.
10
11. Регистрация входящих документов
1112. Статистика
В среднем за один месяц 2022 год в Компанию различными способами доставки былополучено порядка 250000 документов.
Документы, полученные от провайдеров, создаются в системе автоматически.
Документы, полученные по электронной почте или на бумажном носителе, создаются
вручную делопроизводителями.
На полную обработку 1 документа уходит в среднем 3-5 минут.
12
13. Существующие проблемы
Определение вида документа ответственными сотрудниками зачастую происходитневерно
В результате некорректного определения вида документ возрастают трудозатраты
сотрудников на повторную перерегистрацию документа, а так же возникают затраты
других секторов по удалению неверных документов
В некоторых случаях ответственному сотруднику необходимо полностью изучить
документ, чтобы определить принадлежность к тому или иному виду
13
14. Разработка метода решения задачи. Технологии
OCR, оптическое распознавание символов – способ перевода графических изображений втекстовый формат.
RegExp, регулярные выражения - формальный язык, используемый в компьютерных
программах, работающих с текстом, для поиска и осуществления манипуляций с подстроками
в тексте, основанный на использовании метасимволов.
MachineLearning, машинное обучение - это методики анализа данных, которые позволяют
аналитической системе обучаться в ходе решения множества сходных задач.
14
15. Схема обработки входящего документа
• Документформата PDF
Комплект
документов
OCR
распознавание
текста
• Текстовый
образ файла
• Ключевые
слова в тексте
документа
Нейронная
сеть
• Вид
документа
Регулярные
выражения
15
16. Выбор программного обеспечения
ABBYY FineReader - программа для оптического распознавания символов - распознаваниетекста документа
Python – язык программирования общего назначения – регулярные выражения, обучение
нейронной сети
1С:Предприятие – система прикладных решений – вывод результата
16
17. Настройка модели
Сбор образцов документов каждого типаРаспознавание документов
Выделение ключевых слов для документа каждого типа
Создание регулярных выражений, позволяющих выделять ключевые
слова, учитывая ошибки в распознавании текста
Настройка нейросетевой модели на классификацию каждого типа
документа
17
18. Сбор базы документов
Из рабочей базы Компании было выбрано 420 файлов по каждому виду документов.Виды документов, по которым в рабочей базе не создано документов не будут
классифицироваться в текущей реализации.
18
19. Распознавание текста
1920. Выделение ключевых слов
Из полученных после распознавания текстовых массивов были выделены ключевыеслова.
Ключевые слова определялись по принципу наиболее частого упоминания в тексте
документа.
Всего было выявлено около 165 ключевых слов для 97 видов документов.
20
21. Выделение ключевых слов – матрица реквизитов
Виддокумента/Ключево Претензия Телеграмма Телефонограмма Акт
е слово
Письмо-претензия
+
(нефинансовая) (от
ЮЛ)
Телеграмма
Телефонограмма
ДТП Возражения Жалоба
+
+
Акт проверки
(судебно-надзорный)
+
Акт о причинении
ущерба (ДТП)
+
Возражение (судебнонадзорный)
Обследования/
проверки
+
+
+
Жалоба (судебнонадзорный)
+
21
22. Пример регулярного выражения
Выделение ключевого словосочетания «Отчет агента»(\W|)о[а-я]чет\sагента(\W|),
(\W|)от[а-я]ет\sагента(\W|),
(\W|)[а-я]тчет\sагента(\W|),
(\W|)отч[а-я]т\sагента(\W|),
(\W|)[а-я]тчет\sагента(\W|),
(\W|)отчет\s[а-я]гента(\W|),
(\W|)отчет\sа[а-я]ента(\W|),
(\W|)отчет\sаг[а-я]нта(\W|),
(\W|)отчет\sаге[а-я]та(\W|),
(\W|)отчет\sаген[а-я]а(\W|),
(\W|)отчет\sагент[а-я]
(\W|),
(\W|)О[А-Я]ЧЕТ\SАГЕНТА(\W|),
(\W|)ОТ[А-Я]ЕТ\SАГЕНТА(\W|),
(\W|)[А-Я]ТЧЕТ\SАГЕНТА(\W|),
(\W|)ОТЧ[А-Я]Т\SАГЕНТА(\W|),
(\W|)[А-Я]ТЧЕТ\SАГЕНТА(\W|),
(\W|)ОТЧЕТ\S[А-Я]ГЕНТА(\W|),
(\W|)ОТЧЕТ\SА[А-Я]ЕНТА(\W|),
(\W|)ОТЧЕТ\SАГ[А-Я]НТА(\W|),
(\W|)ОТЧЕТ\SАГЕ[А-Я]ТА(\W|),
(\W|)ОТЧЕТ\SАГЕН[А-Я]А(\W|),
(\W|)ОТЧЕТ\SАГЕНТ[А-Я] (\W|).
22
23. Фрагмент обучающей выборки
ПоручениеПостановле Предостереж
Представл
Расхождени Правонар Распоряже Надзорное/
Предписание
Приговор Приказ Протокол Осмотра Отбора
ние
ение
ение
й
ушений
ние
надзорного
Вид
документа
Поручение
1
0
0
0
0
0
0
0
0
0
0
0
0
0
22
Постановление
0
1
0
0
0
0
0
0
0
0
0
0
0
0
23
Предостережение
0
0
1
0
0
0
0
0
0
0
0
0
0
0
24
Предписание
0
0
0
1
0
0
0
0
0
0
0
0
0
0
25
Представление
0
0
0
0
1
0
0
0
0
0
0
0
0
0
26
Приговор
(судебный)
0
0
0
0
0
1
0
0
0
0
0
0
0
0
27
Приказ
(судебнонадзорный)
0
0
0
0
0
0
1
0
0
0
0
0
0
0
28
Протокол
(судебнонадзорный)
0
0
0
0
0
0
0
1
1
1
1
1
0
0
29
Распоряжение
(судебнонадзорный)
0
0
0
0
0
0
0
0
0
0
0
0
1
1
30
23
24. Результаты обучения
Алгоритм (лучшиерезультаты)
Ошибка обучающей
выборки
Ошибка тестовой выборки
Линейная регрессия
0,044
0,19
Нейронная сеть
0,085
0,1
Приведены усредненные результаты экспериментов обучения и тестирования модели с
разбиением выборки на обучающую и тестовую.
24
25.
Пример обработки документа поразработанной схеме. Исходный документ
25
26. Пример обработки документа по разработанной схеме. Распознавание текста
2627. Пример обработки документа по разработанной схеме. Выявление ключевых слов
2728. Пример обработки документа по разработанной схеме. Определение вида документа
Определен вид документа №42 – Акт приема-передачи ТМЦ, ОС (ПД).28
29. Результаты и выводы
Изучена деятельность сектора регистрации и учетадокументов ООО «Мария-Ра», проанализированы бизнеспроцессы регистрации входящих документов.
Выявлены и рассмотрены проблемы определения вида
входящего документа.
Спроектировано
обеспечение
для
и
разработано
автоматического
программное
определения
вида
документа.
29
30. Перспективы развития системы
В перспективе развития системы планируетсядоработка для полного распознавания документа
и его автоматического создания в учетной
системе.
Созданный документ будет автоматически
направляться
на
исполнение
ответственным
сотрудникам.
30
31. Информационная система классификации входящих документов на основе методов машинного обучения
А ЛТ А Й СК ИЙ Г ОСУД А Р СТВЕННЫ Й Т Е ХНИ ЧЕСК И Й У НИ ВЕ Р СИ Т ЕТ И М . И . И . П ОЛЗУ Н О В АК А ФЕ ДРА « И НФ ОР М А Ц И ОННЫ Е СИ СТ Е М Ы В ЭК ОНОМ И К Е»
Информационная система классификации
входящих документов на основе методов
машинного обучения
ВЫ П ОЛНИ ЛА СТ У Д Е НТКА Г Р У П П Ы 8 П И Э - 1 1:
К ОЗЛОВА Е . В.
НА У ЧНЫ Й Р У К ОВОД И ТЕЛЬ:
А ВД Е ЕВ А . С.
Барнаул 2023