Разработка модуля извлечения текстовых описаний объектов капитального строительства для системы электронного бюджета

Процесс поступления и обработки документов

296.96K

Category:

Construction

Similar presentations:

Объекты капитального строительства

Трехмерное моделирование при кадастровом учете объектов капитального строительства

Разработка информационной системы управления складом строительной фирмы

Разработка решения по созданию жилого модуля для первооткрывателей космического объекта

Основы проектирования и конструирования объектов капитального строительства

Разработка строительства оздоровительного санатория

Каркасная технология строительства

Проектирование объектов строительства, строительные материалы и технология строительного производства. (Тема 3)

Проведение пожарно-технической экспертизы проектов и объектов капитального строительства

Разработка смет на строительство объектов нового строительства с детальной разработкой технологии установки оконных блоков

Разработка модуля извлечения текстовых описаний объектов капитального строительства для системы электронного бюджета

1. Разработка модуля извлечения текстовых описаний объектов капитального строительства для системы электронного бюджета

РАЗРАБОТКА МОДУЛЯ ИЗВЛЕЧЕНИЯ
ТЕКСТОВЫХ ОПИСАНИЙ ОБЪЕКТОВ
КАПИТАЛЬНОГО СТРОИТЕЛЬСТВА ДЛЯ
СИСТЕМЫ ЭЛЕКТРОННОГО БЮДЖЕТА
Выполнила: студентка 4 курса
ИПБ-21 Лапина Ольга

2. Актуальность разработки

Модуль предназначен для автоматического поиска дубликатов
документов на основе ключевых атрибутов ОКС и их процентного
сравнения.
2

3. Предметная область

■ Оптимизация документооборота для устранения необходимости
ручного ввода данных
■ Повышение
прозрачности
для
обеспечения
информации о расходах и доходах бюджета
доступности
■ Улучшение финансового управления для автоматизации процессов
3

4. Предполагаемый эффект

■ Сокращение времени на обработку данных
■ Повышение точности данных
■ Улучшение взаимодействия между модулями системы
4

5. Пользователи

Основные пользователи:
■ Сотрудники финансовых и бюджетных органов
■ Аналитики организации
5

6. Обзор аналогов

■ Elasticsearch:
– Преимущества: высокая скорость поиска, гибкость настройки,
готовые решения для дедупликации .
– Недостатки: слабая семантическая обработка без доработок,
требуется ручная настройка для сложных сценариев.
■ OpenAI Embeddings :
– Преимущества: готовая высококачественная модель без обучения,
отличное понимание контекста, простота интеграции.
– Недостатки: платный API, зависимость от интернета, ограничение на
длину текста.
6

7. Функциональные требования

1.
Обработка документов:
– Автоматическое загрузка CSV – файлов;
– Предобработка данных (нормализация тестовых полей, стантартизация
определение типа объекта по кода классификатора Минстроя №374).
форматов,
2.
Алгоритмы сравнения:
– Хеширование комбинированных ключей;
– Нечеткое сравнение строк;
– Векторизация текста.
3.
Формирование отчётов:
– Два файла формата XML с указанием информации о найденных дублях и файл с
процентным сходствам по атрибутам.
4.
Автоматическая передача данных:
– Интеграция с подсистемой «Бюджетная отчетность» для обновления статусов
объектов.
7

8. Нефункциональные требования

■ Система должна поддерживать увеличение нагрузки без необходимости полной
переработки архитектуры
■ Модуль должен быть совместим с операционными системами, а также с базами
данных
■ Языковые модели для распознавания должны обновляться автоматически без
остановки работы системы
8

9. Основной алгоритм обработки файла

10. Процесс поступления и обработки документов

11. Поиск дубликатов

12. Методика тестирования

В методику тестирования входит:
1.
Тестирование точности распознавания
2.
Тестирование производительности
3.
Тестирование безопасности
12

13. Итоги работы модуля

14. Инструменты для разработки

■ Python (NLTK, SpaCy, Pandas)
■ PostgreSQL
■ Git
■ Docker
14

English Русский Rules