Similar presentations:
Презентация
1. Разработка модуля извлечения текстовых описаний объектов капитального строительства для системы электронного бюджета
РАЗРАБОТКА МОДУЛЯ ИЗВЛЕЧЕНИЯТЕКСТОВЫХ ОПИСАНИЙ ОБЪЕКТОВ
КАПИТАЛЬНОГО СТРОИТЕЛЬСТВА ДЛЯ
СИСТЕМЫ ЭЛЕКТРОННОГО БЮДЖЕТА
Выполнила: студентка 4 курса
ИПБ-21 Лапина Ольга
2. Актуальность разработки
Модуль предназначен для автоматического поиска дубликатовдокументов на основе ключевых атрибутов ОКС и их процентного
сравнения.
2
3. Предметная область
■ Оптимизация документооборота для устранения необходимостиручного ввода данных
■ Повышение
прозрачности
для
обеспечения
информации о расходах и доходах бюджета
доступности
■ Улучшение финансового управления для автоматизации процессов
3
4. Предполагаемый эффект
■ Сокращение времени на обработку данных■ Повышение точности данных
■ Улучшение взаимодействия между модулями системы
4
5. Пользователи
Основные пользователи:■ Сотрудники финансовых и бюджетных органов
■ Аналитики организации
5
6. Обзор аналогов
■ Elasticsearch:– Преимущества: высокая скорость поиска, гибкость настройки,
готовые решения для дедупликации .
– Недостатки: слабая семантическая обработка без доработок,
требуется ручная настройка для сложных сценариев.
■ OpenAI Embeddings :
– Преимущества: готовая высококачественная модель без обучения,
отличное понимание контекста, простота интеграции.
– Недостатки: платный API, зависимость от интернета, ограничение на
длину текста.
6
7. Функциональные требования
1.Обработка документов:
– Автоматическое загрузка CSV – файлов;
– Предобработка данных (нормализация тестовых полей, стантартизация
определение типа объекта по кода классификатора Минстроя №374).
форматов,
2.
Алгоритмы сравнения:
– Хеширование комбинированных ключей;
– Нечеткое сравнение строк;
– Векторизация текста.
3.
Формирование отчётов:
– Два файла формата XML с указанием информации о найденных дублях и файл с
процентным сходствам по атрибутам.
4.
Автоматическая передача данных:
– Интеграция с подсистемой «Бюджетная отчетность» для обновления статусов
объектов.
7
8. Нефункциональные требования
■ Система должна поддерживать увеличение нагрузки без необходимости полнойпереработки архитектуры
■ Модуль должен быть совместим с операционными системами, а также с базами
данных
■ Языковые модели для распознавания должны обновляться автоматически без
остановки работы системы
8
9. Основной алгоритм обработки файла
910. Процесс поступления и обработки документов
1011. Поиск дубликатов
1112. Методика тестирования
В методику тестирования входит:1.
Тестирование точности распознавания
2.
Тестирование производительности
3.
Тестирование безопасности
12
13. Итоги работы модуля
1314. Инструменты для разработки
■ Python (NLTK, SpaCy, Pandas)■ PostgreSQL
■ Git
■ Docker
14