Similar presentations:
преза практика
1.
Результатыпроизводственной практики
в ПАО «Сбербанк»
Проект «Классификатор документов PDF»
ФИО практиканта: Гарипов Самат Ильдарович
Группа/Направление: К0109-23, 09.02.01 «Компьютерные системы и
комплексы»
Период прохождения: 01 – 28 декабря 2025 г.
Руководитель от университета: Сметанин А.А.
Место прохождения: ПАО «Сбербанк», г. Сочи, ул. Войкова, д. 2
2.
Проблематика проекта «Классификатор документов PDF»Автоматизация обработки нормативно-правовых актов (НПА) является ключевой задачей для повышения эффективности. Проект
«Классификатор документов PDF» направлен на решение следующих проблем:
1
2
3
Ручная обработка НПА
Неструктурированные данные
Задача для ИИ
Автоматическое извлечение
Информация, содержащаяся в PDF-
Для полной автоматизации процесса
документах, зачастую находится в
требовалось создать комплексное
НПА вручную — это длительный,
неструктурированном виде, что делает
решение на основе оптического
затратный процесс, сопряженный с
её недоступной для машинного
высоким риском ошибок.
анализа и интеграции в существующие
распознавания символов (OCR) и
структурированных данных из сотен
информационные системы.
обработки естественного языка (NLP) с
применением технологий
искусственного интеллекта.
3.
ЗАДАЧА 1Анализ технологий и инфраструктуры проекта
Frontend
React + TypeScript для страниц
авторизации, загрузки и просмотра
документов.
Инфраструктура
Docker, Kubernetes (K8s), Jenkins
(CI/CD), S3-хранилище.
Backend
Микросервисы на Python (FastAPI): pdfanalyzer-web, auth-service, storageservice.
ИИ-ядро
LangChain + GigaChat (отечественная
LLM Сбера).
Вывод: Проект построен на актуальном и масштабируемом стеке технологий, что является характерным для высоконагруженных систем
финансового сектора.
4.
ЗАДАЧА 2Настройки безопасности
Аутентификация
Сервис auth-service с использованием JWT-токенов. Все запросы к API требуют наличие
действительного токена, обеспечивая безопасный доступ.
Сетевая изоляция
Строгое разделение namespace в Kubernetes (dev / prod) и применение сетевых политик для
минимизации поверхности атаки и предотвращения несанкционированного доступа.
Защита данных
Доступ к S3-хранилищу реализован через JWT, что обеспечивает принцип «безопасности по дизайну»,
где каждый компонент системы спроектирован с учетом требований безопасности.
Вывод: В проекте реализован комплексный подход к безопасности, соответствующий строгим корпоративным
стандартам ПАО «Сбербанк».
5.
ЗАДАЧА 3Анализ принципов микросервисной архитектуры
Принцип единой ответственности
Независимое развертывание
Каждый сервис (auth, storage, analyzer) выполняет свою
Контейнеры в K8s обеспечивают независимое обновление и
упрощает поддержку.
систему.
Слабая связанность
Инфраструктура как код (IaC)
Взаимодействие между сервисами осуществляется через четкие
Использование YAML-манифестов обеспечивает
уникальную функцию, что повышает читаемость кода и
REST API (OpenAPI), что гарантирует низкую связанность и
упрощает интеграцию.
масштабирование сервисов, минимизируя влияние на общую
воспроизводимость инфраструктуры и автоматизацию
развертывания.
Вывод: Микросервисная архитектура обеспечила проекту высокую гибкость, масштабируемость и отказоустойчивость
6.
ЗАДАЧА 4Анализ внедрения искусственного интеллекта
Практическое применение: ИИ-агент на LangChain с GigaChat
Основной задачей после оптического распознавания текста (OCR)
было извлечение из него набора полей, таких как тип документа,
издающий орган, даты и номера.
Для решения этой задачи был использован ИИ-агент на базе
LangChain, с GigaChat (отечественной LLM Сбера) в качестве
языковой модели. Ключевой работой стала разработка детального
промта — инструкции для ИИ, которая объясняет задачу,
перечисляет необходимые свойства и требует ответ в формате
JSON.
Агент интегрирован в pdf-analyzer-web. Сервис отправляет
текст документа в цепочку LangChain, которая взаимодействует с
GigaChat API, получая в ответ структурированный JSON с
извлеченными данными.
Вывод: Этот проект является реальным примером успешной
интеграции передовых ИИ-технологий в производственные
процессы крупной компании для решения конкретных бизнесзадач.
7.
ЗАДАЧА 5Разработка скрипта автоматизации тестирования на
Python
Практический вклад в CI/CD: Повышение надёжности и скорости проверок
Разработка скрипта
Написан скрипт на Python для автоматического тестирования API pdf-analyzer-web, обеспечивая быструю
проверку работоспособности сервиса.
Логика работы
Загрузка тестового PDF.
Опрос эндпоинта /health/ до получения статуса «Готово».
Получение и валидация итогового JSON (проверка наличия полей и корректности данных).
Интеграция в CI/CD
Скрипт добавлен как этап «Run API Tests» в Jenkins-пайплайн, автоматизируя процесс тестирования на каждом
этапе разработки.
Результат
Автоматическая остановка пайплайна при неудачном тесте, предотвращая деплой нерабочей версии. Это
значительно ускоряет проверки и повышает надежность системы.
Вывод: Закреплены навыки программирования на Python и продемонстрирована важность автоматизации тестирования в
промышленной разработке программного обеспечения.