Разработка модуля извлечения текстовых описаний объектов капитального строительства для системы электронного бюджета
Актуальность разработки
Предметная область
Предполагаемый эффект
Пользователи
Обзор аналогов
Функциональные требования
Нефункциональные требования
Основной алгоритм обработки файла
Процесс поступления и обработки документов
Поиск дубликатов
Методика тестирования
Итоги работы модуля
Инструменты для разработки
296.96K

Презентация

1. Разработка модуля извлечения текстовых описаний объектов капитального строительства для системы электронного бюджета

РАЗРАБОТКА МОДУЛЯ ИЗВЛЕЧЕНИЯ
ТЕКСТОВЫХ ОПИСАНИЙ ОБЪЕКТОВ
КАПИТАЛЬНОГО СТРОИТЕЛЬСТВА ДЛЯ
СИСТЕМЫ ЭЛЕКТРОННОГО БЮДЖЕТА
Выполнила: студентка 4 курса
ИПБ-21 Лапина Ольга

2. Актуальность разработки

Модуль предназначен для автоматического поиска дубликатов
документов на основе ключевых атрибутов ОКС и их процентного
сравнения.
2

3. Предметная область

■ Оптимизация документооборота для устранения необходимости
ручного ввода данных
■ Повышение
прозрачности
для
обеспечения
информации о расходах и доходах бюджета
доступности
■ Улучшение финансового управления для автоматизации процессов
3

4. Предполагаемый эффект

■ Сокращение времени на обработку данных
■ Повышение точности данных
■ Улучшение взаимодействия между модулями системы
4

5. Пользователи

Основные пользователи:
■ Сотрудники финансовых и бюджетных органов
■ Аналитики организации
5

6. Обзор аналогов

■ Elasticsearch:
– Преимущества: высокая скорость поиска, гибкость настройки,
готовые решения для дедупликации .
– Недостатки: слабая семантическая обработка без доработок,
требуется ручная настройка для сложных сценариев.
■ OpenAI Embeddings :
– Преимущества: готовая высококачественная модель без обучения,
отличное понимание контекста, простота интеграции.
– Недостатки: платный API, зависимость от интернета, ограничение на
длину текста.
6

7. Функциональные требования

1.
Обработка документов:
– Автоматическое загрузка CSV – файлов;
– Предобработка данных (нормализация тестовых полей, стантартизация
определение типа объекта по кода классификатора Минстроя №374).
форматов,
2.
Алгоритмы сравнения:
– Хеширование комбинированных ключей;
– Нечеткое сравнение строк;
– Векторизация текста.
3.
Формирование отчётов:
– Два файла формата XML с указанием информации о найденных дублях и файл с
процентным сходствам по атрибутам.
4.
Автоматическая передача данных:
– Интеграция с подсистемой «Бюджетная отчетность» для обновления статусов
объектов.
7

8. Нефункциональные требования

■ Система должна поддерживать увеличение нагрузки без необходимости полной
переработки архитектуры
■ Модуль должен быть совместим с операционными системами, а также с базами
данных
■ Языковые модели для распознавания должны обновляться автоматически без
остановки работы системы
8

9. Основной алгоритм обработки файла

9

10. Процесс поступления и обработки документов

10

11. Поиск дубликатов

11

12. Методика тестирования

В методику тестирования входит:
1.
Тестирование точности распознавания
2.
Тестирование производительности
3.
Тестирование безопасности
12

13. Итоги работы модуля

13

14. Инструменты для разработки

■ Python (NLTK, SpaCy, Pandas)
■ PostgreSQL
■ Git
■ Docker
14
English     Русский Rules