ИСИДА-Т
Извлечение информации
Примеры предметных областей
Приложения технологии извлечения информации
Основные компоненты системы
Знания в системе
Извлечение информации
Извлечение информации в «слабом» смысле
Построение первичных текстовых объектов
Примеры текстовых объектов
Построение текстовых фактов
Построение текстовых фактов
Установление кореферентности (примеры)
Вывод новых фактов
Построение гипотез об отношениях между объектами из базы фактов
Построение гипотез… (окончание)
Результаты извлечения информации
Пример факта
Установление кореферентности номинаций экземпляров
Примеры
ИСИДА-Т: Параллельная обработка данных
Параллельные вычисления
3.53M
Categories: informaticsinformatics softwaresoftware

Интеллектуальная система извлечения и анализа данных из текстов

1. ИСИДА-Т

Интеллектуальная система
извлечения и анализа данных из
текстов

2. Извлечение информации

Цель:
извлечь значимую информацию
определенного типа из (больших
массивов) текста для дальнейшей
аналитической обработки
Результат:
структурированные данные
(объекты+отношения)

3. Примеры предметных областей

Спортивные события: <победитель>,
<проигравший>, <счет>, <место встречи>,
<дата>…
База данных о рынке жилья: <район>,<цена>,
<количество комнат>, <контактный
телефон>…
Выпуск новых товаров:
<производитель>, <дата выпуска>, <название
товара> …

4. Приложения технологии извлечения информации

семантическая кластеризация и
классификация
автоматическое аннотирование
визуализация данных
семантическое сравнение и поиск
создание баз данных

5. Основные компоненты системы

Инфраструктурные службы
(конфигурирование, параллельная
обработка, взаимодействие модулей)
Лингвистический процессор
Интерпретатор правил извлечения
информации
Модули работы со знаниями предметной
области

6. Знания в системе

предметные
президент
власть
государство
Онтология
База фактов
Знания
системы
априорные
Словарь
терминов
фактические
(из текстов)
Динамические
словари
А
А
абажур – а,м. Колпак для лампы.
абажурный – ...
...
лингвистические
абажур – ...
абажурный – ...
...
М
мосгортранс – ...

7. Извлечение информации

В «слабом» смысле
Обнаружение и пометка текстовых
элементов и отношений (разметка
текста)
В «сильном» смысле
Переход от текстовых структур к модели
предметной области

8. Извлечение информации в «слабом» смысле

Лингвистическая обработка
Токенизация
Разбиение на предложения
Морфология
Частичный синтаксический анализ
Словарное распознавание
Распознавание именованных сущностей
Частичный семантический анализ (в том числе, с
использованием контекстных правил)

9. Построение первичных текстовых объектов

Ковальчук Михаил Федорович родился 5 января
1948 г. в Черниговской области Украинской
ССР.[…] Прошел путь от транспортного
рабочего, водителя до генерального директора
одного из крупнейших автотранспортных
предприятий Санкт-Петербурга - АОЗТ
"Трансэк". Возглавляет предприятие с 1978 года.
[…] Женат, имеет двоих сыновей.
Об этом "ДП" сообщил генеральный директор
ЗАО "Трансэк" Михаил Ковальчук. // 31 июля 2003
[…] - говорит исполнительный директор
транспортной компании ЗАО «Трансэк» Игорь
Ковальчук. // 06.10.04
Вчера член-корреспондент РАН Михаил
Ковальчук был назначен на должность директора
Российского научного центра "Курчатовский
институт". // 04.02.05
Правила
построения
текстовых
объектов
Должность
Организация
Должность
Организация
Лицо
Лицо
Должность
Должность
Лицо
Организация
Должность
Организация
Организация
Организация
[…] по словам генерального директора
транспортной компании "Трансэк" Игоря
Ковальчука, пробок не наблюдалось.
// 24 апреля 2006 г.
Организация
Лицо

10. Примеры текстовых объектов

Тип:
Подтип:
Атрибут
Фамилия
Имя
Отчество
@лицо

Значение
Текстовый элемент
Ковальчук
Михаил
Федорович
Тип:
@организация
Подтип:
@транспортная_компания
Атрибут
Значение Текстовый элемент
Название
Трансэк
Правовая форма AV@зао
ЗАО
Тип:
Подтип:
@должность
@генеральный_директор
Тип:
@организация
Подтип:
?
Атрибут
Значение
Название
Правовая форма AV@зао
Текстовый элемент
Трансэк
АОЗТ
Тип:
Подтип:
Атрибут
Фамилия
Имя
Текстовый элемент
Ковальчук
Михаил
@лицо

Значение
...
Всего по приведенным фрагментам построено 19 таких объектов.
Очевидно, что число реальных объектов, упомянутых в текстах, меньше.
Системе предстоит установить, какие из текстовых объектов соответствуют
одному и тому же реальному объекту.

11. Построение текстовых фактов

Текстовый факт — ситуация заданной структуры, имеющая временн’ую
координату
Объект X
Объект X
Объект Z
Объект Z
$занимает_должность
[31.07.03]
$должность_в_организации
[31.07.03]
Объект Y
Объект Y
($занимает_должность (Объект X, Объект Y), время: 31.07.03) &
($должность_в_организации (Объект Y, Объект Z), время: 31.07.03)

12. Построение текстовых фактов

Михаил Ковальчук
Михаил Ковальчук
ЗАО «Трансэк»
ЗАО «Трансэк»
Игорь Ковальчук
Игорь Ковальчук
31.07.03
Генеральный
Генеральный
директор
директор
Транспортная
Транспортная
компания
ЗАО
компания
«Трансэк»ЗАО
«Трансэк»
06.10.04
Исполнительный
Исполнительный
директор
директор
Примеры построенных фактов
Михаил Ковальчук — генеральный директор ЗАО "Трансэк" [ 31.07.03]
Михаил Ковальчук — член-корреспондент РАН, директор Российского научного центра
"Курчатовский институт" [ 03.02.05]
Игорь Ковальчук — исполнительный директор транспортной компании ЗАО «Трансэк»
[06.10.04]
Игорь Ковальчук — генеральный директор транспортной компании "Трансэк" [24.04.06]

13. Установление кореферентности (примеры)

Модуль собирает в один объект
разбросанную по разным текстам
информацию об организации
«Трансэк»:
!
Тип:
организация
Подтип:
транспортная_компания
Название
Трансэк
Правовая форма ЗАО
Профиль
автотранспортные услуги
Локализация
Санкт-Петербург
Ни один отдельно взятый текст не содержал
полного набора сведений об этой компании
Устанавливается, что существуют два разных лица с именем Михаил Ковальчук:
Михаил
Михаил
Ковальчук
Ковальчук
ЗАО «Трансэк»
ЗАО «Трансэк»
Генеральный
Генеральный
директор
директор
РАН
РАН
Михаил
Михаил
Ковальчук
Ковальчук
ЧленЧленкорреспондент
корреспондент
Директор
Директор
Курчатовский
Курчатовский
институт
институт

14. Вывод новых фактов

Пример вывода новых фактов об отставках и назначениях на основе
данных, содержащихся в разных текстах
«Смена лиц, занимающих должность»
освободил
должность
Михаил Федорович
Михаил
Федорович
Ковальчук
Ковальчук
занял
должность
Генеральный
Генеральный
директор
директор
Игорь Ковальчук
Игорь Ковальчук
ЗАО «Трансэк»
ЗАО «Трансэк»
«Смена должностей лица»
2004 г
Исполнительный
Исполнительный
директор
директор
2006 г
Игорь Ковальчук
Игорь Ковальчук
ЗАО «Трансэк»
ЗАО «Трансэк»
Генеральный
Генеральный
директор
директор

15. Построение гипотез об отношениях между объектами из базы фактов

По первому тексту система
получает достоверный факт:
Сын 1
Сын 1
Сын 2
Михаил
Михаил
Ковальчук
Ковальчук
Постулируется существование
гипотетических объектов Сын 1
и Сын 2, обладающих
определенными свойствами,
хоть и с разной степенью
достоверности
...
Пол:
Отчество:
Фамилия:
...
мужской
Михайлович
Ковальчук
Игорь
Игорь
Ковальчук
Ковальчук
Поиск гипотетических объектов
с такими свойствами в базе
текстовых фактов обнаруживает
два объекта:

Транспортная
Транспортная
компания
ЗАО
компания
«Трансэк»ЗАО
«Трансэк»
Исполнительный
Исполнительный
директор
директор
РАН
РАН
Михаил
Михаил
Ковальчук
Ковальчук
ЧленЧленкорреспондент
корреспондент
Директор
Директор
Курчатовский
Курчатовский
институт
институт

16. Построение гипотез… (окончание)

Система ранее вывела факт:
Михаил
Михаил
Ковальчук
Ковальчук
освободил
должность
занял
должность
Генеральный
Генеральный
директор
директор
Игорь
Игорь
Ковальчук
Ковальчук
ЗАО «Трансэк»
ЗАО «Трансэк»
Предположим, в знаниях системы
о мире есть фрагмент, который
позволяет строить гипотезы —
например, такого рода:
лицо, сменяющее однофамильца на
руководящей должности, с некоторой
вероятностью состоит с ним в
родственных отношениях
сын
Строится гипотеза:
Для подтверждения или
опровержения этой гипотезы у
системы пока нет данных. Но они
могут появиться по мере
поступления новых текстов.
Игорь
Игорь
Ковальчук
Ковальчук
Михаил
Михаил
Ковальчук
Ковальчук

17. Результаты извлечения информации

Полученные результаты могут использоваться
непосредственно — система выводит новые
факты, распределенные по набору текстов,
обеспечивает способ их визуализации
в качестве исходных данных для систем Data
Mining — данные теперь структурированы
в качестве исходных данных для подсистемы
индексирования — это даст новые возможности
локального поиска

18. Пример факта

Президиум Российской академии наук решил назначить члена-корреспондента РАН, директора
Курчатовского института Михаила Ковальчука исполняющим обязанности вице-президента РАН.

19. Установление кореферентности номинаций экземпляров

Разрешение местоименной анафоры
Установление тождества между номинациями
экземпляров из одного текста
Иллюстрация

20.

То, что 28-летний Борис
Ковальчук будет назначен
на эту должность, вопрос
практически решенный, и
его кандидатура проходит
процедуру формального
согласования в
спецслужбах.
Его отец, Юрий Ковальчук,
почетный консул Таиланда
в Санкт-Петербурге, в
1996 году наряду с
Владимиром Путиным и
нынешним министром
образования Андреем
Фурсенко выступил
соучредителем дачного
кооператива "Озеро", а в
2000 году создал и
возглавил центр
стратегических
разработок "Северо-запад".

21. Примеры

22.

23.

24.

25. ИСИДА-Т: Параллельная обработка данных

A
B
C
A
B
C
1
2
3
1
2
3
4
5
6
4
5
6
7
? ?
7
Параллелизм на уровне
документов для высокой
производительности и
снижения накладных
расходов
Разбиение документов
для балансировки
нагрузки
Выделение сервисных
узлов для выполнения
отдельных функций по
необходимости
Время

26. Параллельные вычисления

Параллельность в системе определяется
спецификой конкретной задачи поиска и анализа
информации. Выделяются следующие типы
параллелизма:
по данным (требуется обрабатывать независимые
документы: индексация, извлечение информации…)
по задачам (задачи загрузки документов, их индексации,
каталогизации и поиска, работы с ресурсами знаний могут
осуществляться независимо друг от друга)
по пользователям (требуется обеспечить распределенную
обработку запросов различных пользователей)
алгоритмический параллелизм (некоторые алгоритмы,
например вычисления прямого и обратного индекса, могут
быть разбиты на параллельные блоки и исполняться на
разных узлах)
English     Русский Rules