Similar presentations:
Kofax. Настраиваемые (обучаемые) локаторы для счет-фактуры. Извлечение по форматам и ключевым словам
1.
Первый проект– Извлечение по форматам иключевым словам
2.
Первый проект– Извлечение по форматам и ключевымсловам
Мы создали основной класс, называемый счетами и некоторыми
подклассами
Счета-фактуры могут быть отправлены несколькими тысячами
поставщиков, и, возможно, вы не хотите иметь подкласс и локатор
Advanced Zone Locator для каждого из этих счетов-фактур ...
Предположим, что мы хотим настроить проект более общим
образом и извлечь значения для всех этих документов таким же
образом
Помните, что мы не можем получить идеальные результаты
Module 8 - Format Locators
2
3.
Первый проект– Извлечение по форматам и ключевымсловам
Чтобы выполнить извлечение более «общим» способом (во
многих разных формах), вам необходимо знать:
Какие значения вы хотите извлечь?
Какие ключевые слова необходимы?
Существует ли связь между значениями?
Вы уже знаете значения? (Можете ли вы использовать базу
данных?)
Мы сделали несколько заметок ранее ...
Давайте рассмотрим наши текущие знания документов
Module 8 - Format Locators
3
4.
Первый проект– Извлечение по форматам и ключевымсловам
Invoice Number
всегда содержит
9 цифр
PONumber всегда
содержит 8 цифр
Ключевое слово
Invoice Number
Ключевое слово:
Purchase Order
Invoice Date
всегда в
формате:
MM/DD/YY
Общая сумма
всегда в
формате US
Ключевое слвоо:
Invoice Date
Ключевое слово:
Invoice Total
Module 8 - Format Locators
4
5.
Первый проект– Извлечение по форматам и ключевымсловам
Invoice
Number
Keyword
Invoice Date
Keyword
PONumber
Keyword
Total
amount
Keyword
\d{9}
Invoice
Number
US DATE
Invoice Date
\d{8}
Purchase
Order
US Amount
Invoice Total
Notes:
Module 8 - Format Locators
5
6.
Первый проект– Извлечение по форматам и ключевымсловам
Invoice
Numberвсегда 9
цифр
PONumber
иногда пустое, 6,
8 or 12 цифр или
типа A5561I
Ключевое
словоFreight Bill
Number
Ключевое слово
P.O. NUMBER
Invoice Date
всегда в
формате
MM/DD/YY
Общая сумма
всегда в
формате US
Ключевое слово:
Date
Ключевое слово:
Please pay this
amount
Module 8 - Format Locators
Можно найти под
invoice number
6
7.
Первый проект– Извлечение по форматам и ключевымсловам
Invoice
Number
Keyword
Invoice Date
Keyword
PONumber
Keyword
Total
amount
Keyword
\d{9}
Invoice
Number
US DATE
Invoice Date
\d{8}
Purchase
Order
US Amount
Invoice Total
\d{9}
Freight Bill
Number
US DATE
Date
\d{6} \d{8}
\d{12} A\d{4}I
P.O. Number
US Amount
Please pay
this amount
Notes:
Fedex:
Poor Keyword for Invoice Date, but it is below Invoice number.
Keywords ORIGIN and DEST are always below Invoice Date.
PO Number can be empty
Module 8 - Format Locators
7
8.
Первый проект– Извлечение по форматам и ключевымсловам
Invoice Number is
always
6 digits
and 2 chars
Invoice Date is
always
MM/DD/YY
Keyword is
Invoice Number
Keyword is
Invoice Date
PONumber is 8
digits
Total amount
is always in
US Format
Keyword is
Customer PO NO
Keyword is
AMOUNT
DUE
Module 8 - Format Locators
8
9.
Первый проект– Извлечение по форматам и ключевымсловам
Invoice
Number
Keyword
Invoice Date
Keyword
PONumber
Keyword
Total
amount
Keyword
\d{9}
Invoice
Number
US DATE
Invoice Date
\d{8}
Purchase
Order
US Amount
Invoice Total
\d{9}
Freight Bill
Number
US DATE
Date
\d{6} \d{8}
\d{12} A\d{4}I
P.O. Number
US Amount
Please pay
this amount
\d{6}[A-Z]{2}
Invoice NO
US DATE
Invoice Date
\d{8}
Customer PO
NO
US Amount
Amount Due
Notes:
Fedex:
Poor Keyword for Invoice Date, but it is below Invoice number
PO Number can be empty
Oki:
Poor Keyword for Total Amount, because it has white text on a black background
Total Amount is always below Sales Taxes
Module 8 - Format Locators
9
10.
Первый проект– Извлечение по форматам и ключевымсловам
Основываясь на этих знаниях, мы можем создать некоторые
«общие» локаторы для нашего проекта
Поскольку это общие знания, мы хотим создать их,
привязанные к базовому классу «Счета-фактуры»
Каждый подкласс ниже Invoices наследует локаторы и поля из
этого базового класса
Иногда базовые классы называются родительскими классами
Иногда подклассы называются дочерними классами
Module 8 - Format Locators
10
11.
Первый проект– Извлечение по форматам и ключевымсловам
1) Добавьте новый локатор
в свою систему и назовите
FL_InvoiceNumber
Module 8 - Format Locators
11
12.
Первый проект– Извлечение по форматам и ключевымсловам
3) Клик на свойства
локатора
2) Используйте Format
Locator как Locator Method
Module 8 - Format Locators
12
13.
Первый проект– Извлечение по форматам и ключевымсловам
4) Добавьте к нему новое
регулярное выражение
Module 8 - Format Locators
13
14.
Первый проект– Извлечение по форматам и ключевымсловам
5) Переключиться на
Evaluation Settings
4) Введите регулярное
выражение
Module 8 - Format Locators
14
15.
Первый проект– Извлечение по форматам и ключевымсловам
6) Введите ключевое слово
8) Добавьте в список
7) Выберете “Match all words as a
phrase” если у вас есть пробел между
вашими ключевыми словами, и если
вы ожидаете, что они будут одной
строкой
Module 8 - Format Locators
15
16.
Первый проект– Извлечение по форматам и ключевымсловам
Список ключевых
слов:
9) Введите второе ключевое
Включите ключевые
для теста при
необходимости
Просто кликните
10) Добавьте в список
Module 8 - Format Locators
16
17.
Первый проект– Извлечение по форматам и ключевымсловам
Теперь все
ключевые в
списке
Module 8 - Format Locators
11) Проверьте свои
настройки на документе,
который выбран в
тестовых документах
17
18.
Первый проект– Извлечение по форматам и ключевымсловам
Результаты теста
в просмотрщике
Результаты теста
в свойствах
локатора
12) Выберите другой
документ из тестового
набора и повторите
попытку
Module 8 - Format Locators
18
19.
Первый проект– Извлечение по форматам и ключевымсловам
Слишком много результатов с
высокой степенью
уверенности в документах Dell
Давайте посмотрим ближе
Module 8 - Format Locators
19
20.
Первый проект– Извлечение по форматам и ключевымсловам
Первый результат
исходит со страницы 2,
и это номер накладной
Module 8 - Format Locators
20
21.
Первый проект– Извлечение по форматам и ключевымсловам
Второй результат
исходит со страницы 1,
и номер счета-фактуры
Module 8 - Format Locators
21
22.
Первый проект– Извлечение по форматам и ключевымсловам
Третий результат исходит со
страницы 1, и это еще раз
накладная. УВЕДОМЛЕНИЕ:
ЗЕЛЕНЫЕ ОСНОВНЫЕ
ПОКАЗАТЕЛИ ВСЕГДА
ВЫБРАННЫЕ РЕЗУЛЬТАТЫ
Module 8 - Format Locators
22
23.
Первый проект– Извлечение по форматам и ключевымсловам
Отношение
ключевого
Third result comes from page
1
слова сейчас важно.
and it is waybill number again
Ключевое “Invoice Number”
NOTICE: GREEN HIGHLIGHTS
на Западе (W) от цели.
ARE ALWAYS SELECTED
Отмените выбор NW и N и
RESULTS
нажмите «Изменить».
Module 8 - Format Locators
23
24.
Первый проект– Извлечение по форматам и ключевымсловам
Third result comes from page 1
and it is waybill number again
NOTICE: GREEN HIGHLIGHTS
Связь только западная (W)
ARE ALWAYS SELECTED
RESULTS
Если вы проверите его
снова, вы увидите ...
Module 8 - Format Locators
24
25.
Первый проект– Извлечение по форматам и ключевымсловам
У вас есть только один
результат с высокой
степенью уверенности/
Отлично!
Module 8 - Format Locators
25
26.
Первый проект– Извлечение по форматам и ключевымсловам
Назначьте свое поле
локатору
1) Дважды щелкните
по полям ниже Счетафактуры
Module 8 - Format Locators
2) Выберите графу
“Field populated by”
to FL_InvoiceNumber
26
27.
Первый проект– Извлечение по форматам и ключевымсловам
3) Контролируйте
новые настройки
извлечения
Module 8 - Format Locators
27
28.
Первый проект– Извлечение по форматам и ключевымсловам
Значительное
улучшение
Module 8 - Format Locators
28
29.
Первый проект– Извлечение по форматам и ключевымсловам
Настройки для FL_InvoiceDate:
Используйте одно
или несколько
предопределенных
регулярных
выражений
Используйте
ключевые слова
Module 8 - Format Locators
29
30.
Первый проект– Извлечение по форматам и ключевымсловам
Настройки для FL_OrderNumber:
Основываясь на
ваших
документах
Используйте
ключевые слова
Module 8 - Format Locators
30
31.
Первый проект– Извлечение по форматам и ключевымсловам
Настройки для FL_OrderNumber:
Предопределенные регулярные
выражения для доступных сумм
Используйте
ключевые слова
Module 8 - Format Locators
31
32.
Первый проект– Извлечение по форматам и ключевымсловам
Дважды щелкните
по полям ниже
Счета-фактуры
класса
Свяжите все свои
поля с локаторами
Module 8 - Format Locators
32
33.
Первый проект– Извлечение по форматам и ключевымсловам
Запустите extraction
benchmark еще раз
Прекрасный результат
Но это недостаточно
хорошо
Module 8 - Format Locators
33
34.
Первый проект– Извлечение по форматам и ключевымсловам
Задание
Добавить локаторы формата в класс Invoices
Свяжите свои новые локаторы с полями
Отвяжите поля из AZL в классе Oki (Установите его
обратно в унаследованное)
Запустить extraction benchmark
Просмотрите свои результаты
Module 8 - Format Locators
34
35.
Первый проект - УсовершенствованияВсегда улучшайте свой проект
Всегда следите за своим оператором
35 Module 8 - Format Locators
36.
Первый проект - УсовершенствованияПервый проект имеет хорошие показатели распознавания, но
есть еще место для дальнейшего совершенствования
Если вы хотите оптимизировать извлечение, хороший способ
- сначала проверить тест извлечения.
Еще один способ получить дополнительные знания -
проверить многие документы и сделать несколько заметок
Давайте подробнее рассмотрим эталонный тест извлечения
Module 8 - Format Locators
36
37.
Первый проект - УсовершенствованияЗеленый знак на
валидации означает,
что значение
правильное.
.
Зеленые поля
корректные (будут
пропущены на
валидации)
Module 8 - Format Locators
37
38.
Первый проект - УсовершенствованияВосклицательный
знак
Значение поля пустое
Желтые поля - это
неправильные поля
(они не соответствуют
значению в наборе
ссылок).
Кто-то должен ввести
значение поля
НО они отображаются в
валидации, и кто-то
должен подтвердить
свои значения.
Module 8 - Format Locators
38
39.
Первый проект - УсовершенствованияЗеленый значок
спереди
Значение
некорректно
Красные поля это поля
которые неверны,
И никто не будет их
рассматривать, потому
что KTM уверен, что их
значение правильное.
Module 8 - Format Locators
39
40.
Первый проект - УсовершенствованияСиние поля - это
поля, которые
являются
правильными,
Красный
восклицательный
знак Значение
неверное
НО кто-то должен их
подтвердить.
Module 8 - Format Locators
40
41.
Первый проект - УсовершенствованияСохраните результаты,
прежде чем пытаться
улучшить свой проект ...
Module 8 - Format Locators
41
42.
Первый проект - Усовершенствования.. потому что позже
вы можете сравнить
свои тесты
Module 8 - Format Locators
42
43.
Первый проект - УсовершенствованияПочему поле зеленое или красное?
Во-первых проверьте уверенность извлечения
Во-вторых проверьте расстояние между первым и вторым
результатом
В-третьих проверьте форматирование
В-четвертых проверьте правило валидации
Что такое правило валидации?
Обсудим позже
Module 8 - Format Locators
43
44.
Первый проект - УсовершенствованияТретья
проверка
Форматтер
Первая
проверка
Вторая
проверка
Порог
валидации
Module 8 - Format Locators
Расстояние
между двумя
результатами
44
45.
Первый проект - УсовершенствованияЧетвертая
проверка
Правила
валидации,
связанные с
полями
Module 8 - Format Locators
45
46.
Первый проект - УсовершенствованияНомер заказа:
Поскольку у нас нет форматов или
правил валидации, применяемых
к порядковому номеру, состояние
поля красное или зеленое на
основе уверенности.
Module 8 - Format Locators
46
47.
Первый проект - УсовершенствованияПроверьте свой локатор
FL_OrderNumber
Вы увидите два результата с
доверием 83,33%
First project – Improvements
Протестируйте его в средстве просмотра
документов
Вы увидите два ключевых слова,
выделенных оранжевым цветом, и значения
рядом с ним
Module 8 - Format Locators
47
48.
Первый проект - УсовершенствованияPO NO клиента был
найден нечетким
поиском
First project – Improvements
Система получает
номер клиента, это
83,33% вашего
ключевого слова
Клиент PO NO
Module 8 - Format Locators
48
49.
Первый проект - УсовершенствованияCustomer PO NO клиента
был найден нечетким
поиском
Система получает NO
клиента, это 83.33% всего
ключевого слова
First project – Improvements
Module 8 - Format Locators
49
50.
Первый проект - УсовершенствованияМинимальное
расстояние - 10%
В нашем случае
расстояние
составляет 83.33 83.33 = 0%
Состояние поля
становится красным
Module 8 - Format Locators
50
51.
Первый проект - УсовершенствованияДавайте начнем c легкого. У нас есть
много синих документов для счетовфактур Dell.Есть возможность для
улучшения.Дважды щелкните по первому
Dell, чтобы открыть средство просмотра
документов и закрыть Эталонный тест
извлечения
Module 8 - Format Locators
51
52.
Первый проект - УсовершенствованияДвойной клик на
локатор
FL_OrderNumber
Тестируем
Module 8 - Format Locators
52
53.
Первый проект - УсовершенствованияВторая альтернатива
имеет ключевые
слова к северо-западу
от ее местоположения
Альтернатива 1 правильный номер
счета-фактуры
Module 8 - Format Locators
53
54.
Первый проект - УсовершенствованияПросмотрите настройки
ключевых слов
Только отношение W, не
используйте W, N, NW
(настройка по умолчанию)
Module 8 - Format Locators
54
55.
Первый проект - УсовершенствованияНовый тест показывает, что только
PONumber получает уверенность в 100%.
Поскольку номер заказа печатается
дважды в документе, вы видите первые
два результата с одинаковым значением
Module 8 - Format Locators
55
56.
Первый проект - УсовершенствованияЗапускаем эталонный тест
извлечения
Номер заказа на поставку для
Dell оптимизирован!
Прокрутите вниз, чтобы найти
следующие проблемы, не
беспокойтесь о
незначительных вещах в
первом запуске
Module 8 - Format Locators
56
57.
Первый проект - УсовершенствованияДата счета на классе
Fedex всегда синяя
Module 8 - Format Locators
57
1.
Двойной клик по
первому документу
(Откроется Document
viewer)
2.
Сохраните эталонный
тест извлечения
3.
Закройте эталонный
тест извлечения
4.
Двойной клик
поFL_InvoiceDate
(откроются свойства
локтора)
5.
Тестируйте
58.
Первый проект - УсовершенствованияУверенность в альтернативе
слишком низкая
Давайте снова проверять
ключевые слова
Module 8 - Format Locators
58
59.
Первый проект - УсовершенствованияКлючевое слово DEST и
ORIGIN был установлен на
юго-восток и юго-запад.
Отношение OCR (xdoc) не
всегда совпадает с тем,
что вы видите на экране
Добавьте Юг для обоих и
снова проверьте его.
Module 8 - Format Locators
59
60.
Первый проект - УсовершенствованияИдеально!
Module 8 - Format Locators
60
61.
Первый проект - УсовершенствованияЗапускаем эталонный тест
извлечения
Посмотрите на
сводку результатов
тестирования:
88.72 %
являются
правильными и
пропущены!
Module 8 - Format Locators
61
62.
Первый проект - УсовершенствованияВ некоторых документах нет
номера заказа (и это
правильно).
НО ни один номер заказа не
означает уверенности,
поэтому он останется
красным, пока не будет
использовано правило
проверки.
Module 8 - Format Locators
62
63.
Первый проект - УсовершенствованияСнова обработайте документы
(щелкните по стрелке рядом с
«Обработка и обработка всей
партии»)
Нажмите «Проверить» и попробуйте
проверить все документы.
Проверьте время, необходимое для
этого.
Module 8 - Format Locators
63
64.
Первый проект - УсовершенствованияЕсли вы подтвердите
значение, система перейдет в
следующее недопустимое
(красное) поле и пропустит
все зеленые поля.
Сначала вам потребовалось более
15 минут
для валидации пакета
Теперь это занимает
2 минуты!
13 минут сохранено!
Module 8 - Format Locators
64
Даже если следующее
недопустимое поле содержит
более 100 документов,
система пропускает все
документы, находящиеся
между ними
65.
Первый проект - УсовершенствованияЗадание
Исползайте эталонный тест извлечения для поиска ошибок
Усовершенствуйте локаторы
Перезапустите эталонный тест извлечения
Посмотрите результаты
Module 8 - Format Locators
65
66.
Первый проект - Зеленые и красныеполя (Правила валидации)
Как сделать значения зелеными или красными
автоматически
66 Module 8 - Format Locators
67.
Первый проект - Зеленые и красные поля (Правилавалидации)
Поля могут быть валидными и невалидными
Как уже обсуждалось в улучшенияих
Почему поля зеленые или красные?
Сначала проверьте уверенность в извлечении
Во вторых проверьте расстояние между первым и
вторым результатом
В третьих проверьте форматирование
В четвертых проверьте правило валидации
Что такое правило валидации?
Давайте обсудим…
Module 8 - Format Locators
67
68.
Первый проект - Зеленые и красные поля (Правилавалидации)
Метод валидации это настройка проекта и может быть
использована
из локатора для поиска значения (об этом мы поговорим в
более позднем модуле)
также он может быть связан с полем, чтобы изменить
состояние поля на красный или зеленый.
Это назвается ПРАВИЛО ВАЛИДАЦИИ
Использовать существующие знания для ваших методов ВА
валидации
Доступными способами являются: Стандартное, Дата,
Регулярное выражение, Проверка на одно поле и
многопользовательский скрипт и проверка счетов
Module 8 - Format Locators
68
69.
Первый проект - Зеленые и красные поля (Правилавалидации)
Invoice
Number
Keyword
Invoice Date
Keyword
PONumber
Keyword
Total
amount
Keyword
\d{9}
Invoice
Number
US DATE
Invoice Date
\d{8}
Purchase
Order
US Amount
Invoice Total
\d{9}
Freight Bill
Number
US DATE
Date
\d{6} \d{8}
\d{12} A\d{4}I
P.O. Number
US Amount
Please pay
this amount
\d{6}[A-Z]{2}
Invoice NO
US DATE
Invoice Date
\d{8}
Customer PO
NO
US Amount
Amount Due
Knowledge
Notes:
Fedex:
Poor Keyword for Invoice Date, but it is below Invoice number
PO Number can be empty
Oki:
Poor Keyword for Total Amount, because it has white text on black background
Total Amount is always below Sales Taxes
Module 8 - Format Locators
69
70.
Первый проект - Зеленые и красные поля (Правилавалидации)
2) Изменить на валидацию
1) Нажмите на Project setting
(часть ленты в Project Tab)
3) Добавить новый метод
валидации
Module 8 - Format Locators
70
71.
Первый проект - Зеленые и красные поля (Правилавалидации)
4) Назвать
5) Выберите регулярное
выражение для номеров
счетов Current knowledge
is like \d{9}
Module 8 - Format Locators
71
72.
Первый проект - Зеленые и красные поля (Правилавалидации)
6) Добавьте свое
регулярное выражение
(аналогично локатору
формата)
Список всех
добавленных
форматов
Проверьте
регулярные
выржаения
Module 8 - Format Locators
72
73.
Первый проект - Зеленые и красные поля (Правилавалидации)
7) Создайте другой Метод Валидации
для дат счет фактуры
8) Выбраь Date Validation для дат
счет-фактуры
Module 8 - Format Locators
73
74.
Первый проект - Зеленые и красные поля (Правилавалидации)
9) Используйте
DefaultDateFormater
10) Значение даты счета может быть старой, но не в будущем
• Снимите first option (Выберите period before ref
date)
• Check second (Check for period after ref date)
• Снимите «allow empty fields»
Module 8 - Format Locators
74
75.
Первый проект - Зеленые и красные поля (Правилавалидации)
11) Создать метод валидации для
номеров заказов
12) Добавьте регулярные
выражения
Отметьте флажки пустыми
полями, потому что у нас
есть документы без
PONumber
Module 8 - Format Locators
75
76.
Первый проект - Зеленые и красные поля (Правилавалидации)
ф
Все методы валидации созданы
Давайте привяжем их к полям
Module 8 - Format Locators
76
77.
Первый проект - Зеленые и красные поля (Правилавалидации)
1) Щелкните правой кнопкой мыши на Правилах
валидации (ниже счетов-фактур класса)
2) Добавить правило проверки отдельного поля
3) Назовите его InvoiceNumber
Module 8 - Format Locators
77
78.
Первый проект - Зеленые и красные поля (Правилавалидации)
4) Выберите поле
InvoiceNumber
5) Добавьте метод валидации
6) Добавьте метод
InvoiceNumber
Module 8 - Format Locators
78
79.
Первый проект - Зеленые и красные поля (Правилавалидации)
Создайте новое правило для
invoice date
Module 8 - Format Locators
79
80.
Первый проект - Зеленые и красные поля (Правилавалидации)
И последняя для OrderNumber
Выберите “Validation rule makes
uncertain results valid”
Это полезно для пустых
номеров номеров: даже если
поле пустое, наше правило будет
отображать значения зеленым
цветом
Module 8 - Format Locators
80
81.
Первый проект - Зеленые и красные поля (Правилавалидации)
Запустите эталонный тест
извлечения
Правило валидации Order Number
делает пустые поля
действительными для номеров
заказов . Никто не должен
проверять пустые поля
Сохраните и сравните
Module 8 - Format Locators
81
82.
Первый проект - Зеленые и красные поля (Правилавалидации)
Module 8 - Format Locators
82
83.
Демонстрация и заданиеModule 8 - Format Locators
83
84.
First project – Green & red fields (Validation Rules)Задание
Создайте метод валидации
Создайте правило валидации
(Свяжите поле с методом)
Запустите Эталонный тест извелчения
Просмотрите результаты
Module 8 - Format Locators
84