Требования к системам массового ввода документов. Характеристика OCR, ICR, OMR.
Расширение понятия СЭД
Концепция ЕСМ
Задачи ЕСМ
Компоненты ECM
Компоненты ECM
Компоненты ECM
Компоненты ECM
Основные функциональные подсистемы СЭД
Подсистема формирования электронных документов
Типы форм, используемых в СЭД
Состав формы ЭД
Проектирование экранных форм
Проектирование форм ЭД
Пример формы ЭД
Пример заполненного документа
Подсистема организации массового ввода документов
Задачи системы массового ввода
Подготовительный этап обработки документа
Настройка системы на форму ЭД
Настройка системы на модель ввода
Основной этап ввода документов
Технологии распознавания
Требования к системам массового ввода
937.00K
Category: softwaresoftware

12_Требования_к_системам_массового_ввода_документов

1. Требования к системам массового ввода документов. Характеристика OCR, ICR, OMR.

2. Расширение понятия СЭД

Перед современными системами управления
документами ставится более широкий круг задач –
автоматизация всех аспектов деятельности
организации, связанных с обработкой документов.
Понимание значимости массива накопленной
информации как ценнейшего интеллектуального
актива организации.
Переход от традиционной функциональнодивизионной модели управления предприятием к
процессно-ориентированной.
Динамичность внешней среды.

3.

ECM = BPM + IDM
ECM (Enterprise Content Management) –
управление корпоративными
информационными ресурсами
BPM (Business Process Management) –
управление бизнес-процессами
IDM (Integrated Document Management) —
интегрированное управление документами

4. Концепция ЕСМ

ECM – это набор технологий, инструментов и
методов, используемых для сбора, управления,
накопления, хранения и доставки информации всем
потребителям внутри организации.
Association for Information and Image Management
ECM – это стратегическая инфраструктура и
техническая архитектура для поддержки единого
жизненного цикла неструктурированной
информации (контента) различных типов и
форматов.
Gartner Group

5. Задачи ЕСМ

1. Поддержка полного жизненного цикла
информации.
2. Интеграция различных информационных
систем на уровне информационных
потоков.
3. Управление неструктурированной
информацией в бизнес-процессах.

6. Компоненты ECM

1. Управление документами (Integrated Document
Management (IDM), Document Management System
(DMS)
экспорт/импорт документов,
контроль версий,
хранение документов и их метаданных
разграничение доступа
ведение истории работы с документом.
2. Управление образами документов (Document
Imaging)
технология сканирования бумажных документов;
атрибутирование и индексирование документов;
загрузка в репозитории документов.

7. Компоненты ECM

3. Управление записями (Records Management (RM)
поддержка полного жизненного цикла документа;
долгосрочное архивирование;
автоматизация политик хранения;
обеспечение соответствия законодательным и
отраслевым нормам.
4. Управление потоками работ (Business Process
Management (BPM), Workflow)
поддержка бизнес-процессов;
передача контента по маршрутам;
назначение рабочих задач и состояний;
создание журналов аудита.

8. Компоненты ECM

5. Управление веб-контентом (Web Content
Management (WCM)
автоматизация роли веб-мастера (процессы создания,
согласования, публикации и постоянного обновления
информации на сайтах);
управление динамическим контентом и взаимодействием
пользователей.
6. Управление мультимедиаконтентом (Digital
Asset Management (DAM)
управление графическими, видео- и аудиофайлами,
различными маркетинговыми материалами, рекламными
роликами.
цель применения DAM – извлечение организацией
максимальной выгоды из использования цифровых
активов.

9. Компоненты ECM

7. Документо-ориентированное взаимодействие
(Collaborate)
организация коллективного использования контента в
трудно формализуемых, творческих процессах.
8. Управление знаниями (Knowledge Management
(КМ)
поддержка систем для накопления и доставки
релевантной для бизнеса информации
полнотекстовый поиск.
сквозной поиск по разнородным источникам
информации.
автоматическая категоризация.
визуализация информации.

10. Основные функциональные подсистемы СЭД

подсистема формирования электронных
документов
подсистема организации массового ввода
документов
подсистема хранения и поиска документов
подсистема маршрутизации и контроля
исполнения документов

11. Подсистема формирования электронных документов

Электронная форма документа – это
страница с пустыми полями, оставленными
для заполнения пользователем.
Под электронной формой документа
понимается не изображение бумажного
документа, а технология работы с формами,
где бумажная форма появляется только по
требованию в качестве копии электронной.

12. Типы форм, используемых в СЭД

1. Формы, предназначенные для сбора
информации и ее последующей статистической
обработки (извлечение информации из
бумажных форм – выборы, ЕГЭ и т.д.).
2. Формы, предназначенные для сбора
информации, требующие процедуры
ознакомления и подтверждения (заказы на
покупку, счета, отчеты о командировках).
3. Формы, размещенные на Web-сайтах для
использования удаленными пользователями
(регистрация клиентов, заказ продукции).

13. Состав формы ЭД

Поля с постоянными реквизитами, не изменяющимися
среди экземпляров документа одного типа (наименование
предприятия).
Поля с переменными реквизитами, значения которых
могут заполняться либо вручную, либо автоматически.
Автоматически заполняемые поля:
вычисляемые поля с помощью подключения стандартных
статистических, математических, логических, финансовых функций
или макросов,
автоматически заполняемые поля из БД или справочников.
Управляющие кнопки, предназначенные для
инициирования более сложных вычислений или отправки
документа по маршруту.
Поля для отметок, которые ставятся в документе в
процессе его просмотра.
Поля с электронными подписями.

14. Проектирование экранных форм

15. Проектирование форм ЭД

1. Проектирование структуры (внешнего вида)
формы ЭД.
2. Проектирование содержания формы ЭД
(определение перечня элементов).
3. Определение последовательности форм ЭД.
4. Установление связей между формами ЭД.
5. Апробация форм ЭД и их заполнение.

16.

17. Пример формы ЭД

18. Пример заполненного документа

19.

20. Подсистема организации массового ввода документов

1. Персональный ввод бумажных
документов.
Ввод небольшого количества разнотипных
бумажных документов с помощью планшетных
или персональных сканеров.
Ручная индексация путем заполнения карточки
документа.
2. Массовый (поточный) ввод бумажных
документов.
Ввод большого количества однотипных
бумажных документов.
Автоматическая индексация.

21. Задачи системы массового ввода

Извлечение данных из бумажных документов без
сохранения их образов
Извлечение данных из бумажных документов с
сохранением их образов
В случае использования структурированных данных
для организации хранения и поиска изображений
применяется атрибутивная индексация
В случае использования неструктурированных данных
применяется полнотекстовая индексация
Извлечение данных из бумажных документов с
частичным сохранением их образов (наиболее
значимой части документа)

22. Подготовительный этап обработки документа

1. Подготовка документов для сканирования:
вскрытие конвертов, удаление скрепок или других
предметов, мешающих сканированию;
определение состава документов, подлежащих
сканированию;
выбор конкретных областей в каждом документе для
сканирования;
определение технологической цепочки движения
документа по рабочим местам;
формирование пакетов документов для сканирования;
выписка ярлыков на каждый пакет документов с
указанием кода документа и количества документов
каждого типа в пакете.
2. Настройка системы на конкретную форму и модель
ввода документа предполагает описание полей
документа и модели его ввода в базу данных.

23. Настройка системы на форму ЭД

Форма ЭД – набор полей.
Каждое поле описывается в двух аспектах:
визуально и содержательно.
Визуально каждое поле должно быть явно
обособлено.
Содержательная часть характеризуется
назначением поля, словарным и
алфавитным составом, а также законами
построения текста

24. Настройка системы на модель ввода

1. Ввод ключевых слов. Ключевые слова будут
использоваться в качестве индексов для
конкретного изображения.
2. Ввод всего текста документа. Производится
ввод всех слов документа для возможности
осуществления полнотекстового поиска.
3. Формо-ориентированный ввод данных.
Применяется для ввода данных из форм
стандартных, однотипных документов. Атрибуты
документа используются для составления
индекса документа для его поиска и хранения.

25. Основной этап ввода документов

1. Сканирование
2. Предварительная обработка изображений
Улучшение читаемости изображения
Повышение точности распознавания.
Уменьшение размера изображения
3. Сегментация (нахождение полей) и
распознавание
4. Контроль качества распознавания и
редактирование
5. Индексирование документа и загрузка.

26. Технологии распознавания

OCR (Optical Character Recognition) –
технология оптического распознавания
печатных символов;
ICR (Intelligent Character Recognition) –
распознавание раздельных печатных
символов, написанных от руки;
OMR (Optical Mark Recognition) –
распознавание отметок;
Стилизованные цифры – распознавание
рукописных цифр, написанных от руки
по шаблону.

27. Требования к системам массового ввода

тип обрабатываемых документов и вид
содержащихся в них данных;
точность распознавания;
наличие эффективной системы редактирования;
настраиваемость системы на требования заказчика;
способность системы адаптироваться к
изменяющимся внешним условиям без
программирования;
наличие поддержки сканеров различных типов;
наличие редактора форм;
наличие редактора схем обработки документов;
наличие редактора схем экспорта в базу данных
для хранения или в другие бизнес-приложения для
обработки.
English     Русский Rules