2.35M
Category: informaticsinformatics

Концепция построения современного лингвистического процессора для смысловой обработки текстов

1.

Федеральный исследовательский центр
«Информатика и управление»
Российской академии наук
(ФИЦ ИУ РАН)
27 Центральный научно-исследовательский
институт Министерства обороны Российской
Федерации
(27 ЦНИИ МО РФ)
Концепция построения
современного лингвистического процессора
для смысловой обработки текстов
Москва 2022 г.
Основной докладчик –
доктор технических наук
Хорошилов Александр Алекссевич

2.

Научно-исследовательская база и апробация технологий
Научный коллектив – лаборатория прикладных
исследований и развития компетенций в области
компьютерной лингвистики «МетаФраз»
НИР на базе научно-исследовательских и
образовательных центров:
• ФИЦ ИУ РАН, отдел 62 «Информационные
технологии управления и моделирования
информационных систем»
• 27 ЦНИИ МО РФ, Управление №5
• МАИ, кафедра 805 «Математическая кибернетика»
Научный руководитель –
Хорошилов Александр Алексеевич,
д.т.н., проф. кафедры МАИ, в.н.с. ФИЦ ИУ РАН,
с.н.с. 27 ЦНИИ Минобороны России
Основоположник научного направления
фразеологического концептуального анализа
текстов – д.т.н., проф Белоногов Герольд Георгиевич,
доктор технических наук, профессор
Опыт разработки лингвистического ПО
• создание полнофункционального ЛП МетаФраз
(многоязычная АОТ и перевод)
• накопленный опыт обработки больших корпусов
текстов в разных предметных областях
• применение ЛП на множестве прикладных задач в
проектах НИОКР:
o ВИНИТИ РАН
o ФНС России
o ФКЦ «Земля»
o СКЦ Росатома
o НИЦ им. Жуковского, ФГУП ГосНИИАС,
o АО «РТИ», АО «НПК «ВТ и СС»
Руководитель группы разработки –
Никитин Юрий Викторович, н.с. ФИЦ ИУ РАН
2

3.

Технологии ИИ применительно к задаче обработки текстов
на ЕЯ
Технологии ИИ
Традиционные
лингвистические
технологии
- Ориентация на традиционное
понимание природы ЕЯ,
- жесткие лингвистические
модели,
- ограниченное признаковое
пространство,
слабая формализемость
ограничивает использование
математического аппарата
Нейросетевые технологии
(машинное обучение)
Базирование на модели
машинного обучения,
ориентированное на извлечение
большого числа признаков из
необработанных данных и
использование математического
аппарата для решения большого
числа задач
Технологии на основе
ФКАТ
Продолжение традиционного
лингвистического подхода,
дополненного гибкими
динамическими языковыми
моделями, широкое
использования методов
лингвистической аналогии и мат.
аппарата
3

4.

Основные положения теоретической концепции
фразеологического концептуального анализа текстов
Основоположник концепции фразеологического концептуального
анализа текстов (ФКАТ) проф. Г.Г. Белоногов военный ученый,
сотрудник 27 ЦНИИ МО РФ( 1925-2017).
• В ЕЯ объективно существует иерархия смысловых единиц языка
и речи, представленные в текстах: словами, словосочетаниями,
предложениями, сверхфразовыми единствами.
• Наиболее устойчивой единицей смысла является понятие,
определяемое как социально значимый мыслительный образ,
за которым в языке закреплено его наименование в виде
отдельного слова или, значительно чаще ще, в виде устойчивого
фразеологического словосочетания.
• Понятия занимают центральное место в языке и речи и являются
теми базовыми строительными блоками, на основе которых
формируются смысловые единицы более высоких уровней.
• Смысл понятия проявляется в полной мере только через всю
систему его отношений со всеми другими понятиями языка.
• Следующей по значимости единицей смысла является
предложение
• Из предложений формируются различного рода сверхфразовые
единства, которые представляются в виде последовательностей
связного текста.
• Смысловое содержание предложения выражается через его
предикатно-актантную структуру.
• В связном тексте предложения выступают в тесной
смысловой связи. В основе этой связи лежат мыслительные
образы тех конкретных или абстрактных объектов (ситуаций,
явлений), которые человек имеет в виду, когда порождает
текст.
• Смысловое содержание текстов выражается с помощью
единиц смысла, входящих в их состав и их смысловых
отношений.
• Локальная связность обеспечивает раскрытие смысла понятия
на основе его контекста.
• Под смысловой связанностью текста или его фрагмента
будем понимать совокупность наименований понятий,
расположенных в тексте в определённом порядке и
отражающих основное смысловое содержание текста или его
фрагмента.
• Локальная смысловая схожесть понятий текста определяется
как сходство контекстного окружения идентичных
наименований понятий в двух текстах или их фрагментах.
• Глобальная смысловая схожесть текстов или их фрагментов
определяется как сходство состава идентичных наименований
понятий и порядка их следования в текстах или их
фрагментах. Каждое понятие этого фрагмента также должно
удовлетворять условию локальной смысловой схожести
4

5.

Требование к принципам создания современногогЛП
Для решения задач смысловой обработки текстов необходимо разработать относительно простое, малозатратное,
быстро адаптируемое средство автоматической обработки неструктурированной текстовой информации,
обеспечивающее реализацию процесса формализации смысловой структуры текстов для последующего использования в
прикладных задачах ТИИ.
Это средство должной базироваться на современный теоретических представлениях о смысловой структуре текстов ,
учитывать позитивные и негативные стороны предыдущих аналогичных разработок в этой области и превосходить их по
возможностям быстрой адаптации к любой решаемой технологической задаче.
Это средство должно рационально сочетать соотношение между программно-алгоритмической и декларативной
составляющими:
Программно-алгоритмической составляющая должна состоять из относительно простых быстродействующих
алгоритмов, не требующих специального дорогостоящего оборудования.
Декларативные средства должны быть простые по своей структуре, но обладать большой «интеллектуальной
мощностью», позволяющей обрабатывать тексты любой тематической области с высокой степенью глубины их
семантической обработки.
Интеллектуальной мощностью декларативных средств может быть обеспечена выявлением фундаментальных
закономерностей функционирования ЕЯ, путем выявления и фиксации аномальных случаев в языке и
повсеместного использования принципа лингвистической аналогии.
Структура декларативных средств должна позволять оперативно модернизировать состав лингвистических
моделей, расширять их признаковое пространство, а также включать в их состав дополнительные
грамматические таблицы и словарные ресурсы.
ПО не должно использовать в своем составе сторонние (особенно зарубежные) библиотеки, что обеспечит возможность
быстрой и малозатратной сертификации ПО для МО РФ.
5

6.

Основная идея технологии на основе ФКАТ
Использование метода лингвистической аналогии на всех стадиях АОТ:
сокращение алгоритмической части, снижение сложности АОТ
существенное уменьшение количества лингвистических правил,
функций и строк в программном коде
Лингвистические правила трансформированы в модели (шаблоны):
базируются на ранее составленных словарях и статистически проверенных
закономерностях смысловой структуры текста
создаются на основе корпуса текстов в полностью автоматизированном
режиме в больших объемах:
o требуют минимального участия человека (модели создаются
автоматически, человек только одобряет/отклоняет полученную модель)
o требуют минимальной квалификации специалиста (базовые знания
языка и эрудиция)
6

7.

Иерархия функций ЛП
Низкоуровневые функции автоматической обработки и формализации текстов (АОиФТ):
o элементарные лингвистические процедуры: токенизация, морфология, нормализация слов, деление текста на
предложения
o выделение объектов из неструктурированного текста и назначение им формальных признаков
o выделение понятийной структуры текста и установление связей между понятиями
o предоставление API к элементарным функциям АОТ
Высокоуровневые функции семантического и прагматического анализа текстов:
o автоматическое реферирование (суммаризация, формализованные рефераты, тематические конспекты)
o установление смысловой близости текстов и их фрагментов (антиплагиат, поиск нормативных требований и
стандартов, трассировка реализации пунктов ТЗ, исключение дублирования и т.п.)
o рубрикация и кластеризация
o выделение информационных событий, параметрических значений, фактография и т.п.
Сквозная реализация прикладных задач полного цикла с возможностью получения контролируемых
(обоснованных) результатов на каждой стадии АОТ
Мультиязычная обработка текстов и машинный перевод:
o АОТ и формализация текстов на различных языках и мультиязычных текстов (текстов с иноязычными
фрагментами)
o машинный перевод текстов, поисковых запросов, унификация наименований понятий на различных языках
Функции автоматизированной словарной службы (АСС):
o обработка и дистрибутивно-статистический анализ корпусов текстов
o автоматизированное создание, верификация и актуализация декларативных средств ЛП
o подготовка онтологических ресурсов для семантических средств и баз знаний
o предоставление API к информационно-лингвистическому обеспечению ЛП (в т.ч. для настройки в процессе
эксплуатации)
Подготовка обучающих данных и разметка текстов для нейросетевых моделей
7

8.

Этапы разработки компонент ЛП:
1. Экспериментальное моделирование для подтверждения метода
2. Создание структуры и первоначальное (минимально необходимое)
наполнение словарей
3. Разработка экспериментальной алгоритмической части ПО
4. Повышение качества обработки путем автоматизированного пополнения
словарей (дообучение системы)
5. При необходимости – корректировка (уточнение) алгоритмов
6. Создание прототипа компонентов ЛП
8

9.

Процесс автоматической обработки и
формализации текстов
Стадии автоматической интеллектуальной
смысловой обработки текста (АОТ):
Графематический анализ:
членение текста на элементы текста (токены)
Морфологический анализ:
определение внеконтекстных грамматических и семантических признаков слов
(часть речи, род, падеж, одушевленность, аббревиатура, ФИО, наличие
омонимии и т.д.)
Семантико-синтаксический анализ:
деление текста на предложения, выявление его синтаксической структуры,
определение простых предложений, подлежащих (субъектов/актантов), сказуемых
(предикатов) и дополнений (объектов, обстоятельств)
Концептуальный анализ:
выявление сущностей (понятий, терминов, названий, обозначений), связей между
ними и их классификация
Прагматический анализ:
прикладной смысловой анализ высокого уровня (реферирование, классификация,
кластеризация текстов, установление смысловой близости, фактографический
анализ и т.д.)
9

10.

Графематический анализ (ГА)
Подпроцесс ГА:
Сегментация
Первичный формальнологический контроль
Токенизация
и унификация делимитеров
Вторичный формальнологический контроль
• Процесс деления текста
на элементарные составные сегменты
на основе классификации символов
• Процесс проверки в тексте локальных
некорректностей (опечаток), замена омоглифов
(совпадающих символов в разных раскладках)
• Процесс «сборки» сегментов в токены по
шаблонам на основе типизированных формул
составных токенов
• Процесс разрешения дефисов-тире-переносов,
слияний слов, капитализированного текста
10

11.

Пример токенизации (технологический, тестовый вывод)
11

12.

Фрагмент мнемонических обозначений грамматических
и семантических характеристик русских слов
FK - Номер флективного класса
PG - Признак глагольности
GK - Грамматический класс
PD - Признак одушевленности
DK - Дополнительный (уточненный) грамматический класс PO - Признак омонимии
OS - Грамматическая синтагма
PV - Признак возвратности
CK - Семантический класс
PS - Признак супплетивной формы слова
OK - Длина окончания (длина изменяемого при
PA - Признак субстантивированного прилагательного
словоизменении псевдоокончания данной словоформы в PM - Только множественное число
символах с конца слова)
PE - Только единственное число
TO - Текстовое окончание (изменяемое при словоизменении PP - Признак переходности глагола
псевдоокончание данной словоформы)
PF - Признак фамильно-именной группы
NO - Нормализующее окончание (псевдоокончание
PZ - Признак валюты
нормальной формы)
PB - Признак аббревиатуры
TW - Тип слова: имя, местоименность, числительное
PX - Признак географического названия
TK - Тип основы: каноническая, вариантная
PT - Признак даты
NM - Число субстантивированного прилагательного
PI - Признак компании, бренда
GN - Род субстантивированного прилагательного
P0 - Признак числительного
GI - Грамматическая информация: род, число, падеж, лицо
SU - Наличие именительного падежа
12

13.

Морфологический анализ (МА)
Подпроцесс МА:
Назначение характеристик
для несловарных токенов
Назначение характеристик
для высокочастотных слов
по эталонному словарю
Разрешение грамматической омонимии
Назначение грамматических
характеристик для остальных слов по
принципу лингвистической аналогии
Уточнение семантических
характеристик для семантически
значимых слов
• Назначение дефолтных синтаксических
характеристик числам/номерам, знакам,
аббревиатурам и иноязычным словам по типу токена
• Назначение полного набора грамматических,
семантических характеристик и нормализация
высокочастотных слов по эталонному словарю
• Выбор вариантной формы слова в соответствии с
виртуальным контекстным окружением
• Предсказание грамматических характеристик любых
слов (низкочастотных, неологизмов,
профессионализмов, искаженных слов)
• Назначение дополнительных семантических
признаков, уточняющих смысл слов
13

14.

Пример морфологического разбора – назначение грамматических
и семантических признаков (технологический, тестовый вывод)
14

15.

Представления синтаксической структуры
предложения в виде символов OS
N
n/n
Слова исходного
предложения
Символ
обобщенной
синтагмы
Aq
Грамматические признаки слов
01
Трубопровод-ы
Сущ., муж. р. , неодуш., ФК=001 1)мн. ч., им. п. 2) мн. ч., вин. п.
02
высок-ого
Полн. прил., ФК=106 1)муж. р. , ед. ч, род п. 2) муж. р. , ед. ч, вин. п. 3) ср. , ед. ч, род. п.
Цf
03
давлени-я
Сущ., ср. р. ,неодуш., ФК=073 1)ед. ч., род. п. 2) мн. ч., им. п. 2) мн. ч., вин. п.
ЙЦ
04
расположен-ы |
Кратк. прич., ФК=126, мн. ч.
жq
05
на
Предлог, ФК=164, мод. упр.- вин. п., пред. п.
7A
06
значительн-ом
Полн. прил., ФК=103 1)муж. р. , ед. ч, пред. п. 2) ср. р. , ед. ч, вин. п.
Фi
07
расстояни-и
Сущ., ср. р. , неодуш., ФК=073, пред.л.
ЙS
Представление предложения в виде последовательности индексов обобщенных синтагм
Aq Цf ЙЦ жq 7A Фi ЙS = Трубопроводы высокого
давления расположены
на
значительном
15

16.

Центроидно-контекстная модель (ЦКМ)
(ЦКМ
16

17.

Представления ЦКМ типа PS в контексте
предложения
ШS2AШS5AЁS,,щAлAAГ2A""кA=+ / торгуем мы # показываем Мы * 116/306
ШS2AШSCмЁм9AПQфAtР""хAZZ=+ / ожидаем мы # показываем Мы * 116/306
ШS2AШSZZЁKZZНХZZFzZZсAZZ=+ / рассматриваем Мы # показываем Мы * 116/306
ШS2AШSФk""чA,,ZZ--ZZЯAZZ=+ / работаем мы # показываем Мы * 116/306
. . . . . . . . . . . . . .
ШйZР..@AZZНСZZШйZZAAZZыA=+ / переезжают европейцы # делают испанцы * 116/032
ШйZР9AРgуAРgШйZZFzZZыAZZ=+ / имеют ракетоносцы # делают испанцы * 116/032
ШйZРШй5AыAфAВЗ,,..НХZZОt=+ / оказывают питомцы # делают испанцы * 116/032
ШйZРШйZZыAZZ9AZZГHZZ..ZZ=+ / сообщают Очевидцы # делают испанцы * 116/032
ШйeKьAZZШйZZьAZZufZZЁxZZ=+ / контролируют Граждане # делают граждане * 116/037
ШйiгШй,,сAЁз,,0AсAхAИмZZ=+ / поступают друзья # делают сыновья * 116/043
ШйjР""AA..тAZZsЦZZНОZZШй=- / подрывают Украины # делают женщины * 116/044
ШйjР--,,9A""wxоA,,РАЯA""=- / контролируют Украины # делают женщины * 116/044
ШйjР..QBZZAAZZыAZZtРZZwf=- / шантажируют Украины # делают женщины * 116/044
ШйjРABШй@AНБ@A,,..AГZZСУ=+ / вызывают амебы # делают женщины * 116/044
ШйjРABуAтAГBЁмШй..уAZZсA=- / имеют жертвы # делают женщины * 116/044
. . . . . . . . . . . . . .
17

18.

Семантико-синтаксический анализ (ССА)
Подпроцесс ССА:
Построение синтаксической
структуры предложения
Определение границ и состава
синтаксических словосочетаний
Деление сложных предложений
на простые предложения
Установление смыслового
каркаса простого предложения
Построение предикатно-актантной
структуры предложения
• Построение структуры предложения в виде
последовательности грамматических классов слов и их
обобщенных синтагм
• Определение именных и глагольных словосочетаний на
основе семантико-синтаксических шаблонов
• Определение границ простых предложений на основе
принципа лингвистической аналогии с использованием
контекстных шаблонов синтагм
• Определение членов предложения (подлежащих,
сказуемых, дополнений) на основе принципа
лингвистической аналогии с использованием
контекстных шаблонов синтагм
• Выявление смысловой структуры предложения в виде
структуры: Субъект – Предикат – Объект
18

19.

Пример семантико-синтаксического разбора предложения
(технологический, тестовый вывод)
19

20.

Предиктивное выделение наименований
понятий в текстах
vBNwYzNw
СХAwtANw
ЁKNwНВAwsfNw
НВAwsfNw
НХAwНХNw
СХAwГANw
РIAwtBNw
НФAwtDNw
НБAwЁKNw
ЁKNweANw
лAIwAANw
AANwsfNw
РДAwГЗNw
НХAwwxNw
РkAwYCNw
AГNwvfNw
вербовка сотрудников / поддержка ровесников
силовых структур / береговых служб
создание агентурной сети / выведение угольной пыли
агентурной сети / абсолютной надежности
разведывательных данных / бездомных животных
силовых ведомств / береговых войск
террористическая война / абиотическая среда
созданными структурами / вооруженными силами
эмоциональное состояние / абсолютное оружие
состояние граждан / взаимодействие граждан
понизить градус / налагать штраф
градус ненависти / актиномикоз челюсти
украинскому руководству / актерскому мастерству
специальных операций / аварийных ситуаций
информационно-психологическим пособникам / европейским союзникам
народом республики / алгоритмом трассировки
20

21.

Предиктивное выделение наименований
понятий в текстах
РiAwНТAwAANw
НТAwAANw
vBNwYzNw
СХAwtANw
ЁKNwНВAwsfNw
НВAwsfNw
НХAwНХNw
СХAwГANw
РIAwtBNw
НФAwtDNw
НБAwЁKNw
ЁKNweANw
лAIwAANw
РДAwГЗNw
НХAwwxNw
РkAwYCNw
AГNwvfNw
женский диверсионный отряд / аллергический бронхолегочный аспергиллез
диверсионный отряд / абразивный износ
вербовка сотрудников / поддержка ровесников
силовых структур / береговых служб
создание агентурной сети / выведение угольной пыли
агентурной сети / абсолютной надежности
разведывательных данных / бездомных животных
силовых ведомств / береговых войск
террористическая война / абиотическая среда
созданными структурами / вооруженными силами
эмоциональное состояние / абсолютное оружие
состояние граждан / взаимодействие граждан
понизить градус / налагать штраф
украинскому руководству / актерскому мастерству
специальных операций / аварийных ситуаций
информационно-психологическим пособникам / европейским союзникам
народом республики / алгоритмом трассировки
21

22.

Концептуальный анализ (КА)
Подпроцесс КА:
Выделение понятий (слов,
словосочетаний, аббревиатур) и имен
собственных по концептуальному словарю
Унификация представления понятий
(субъектов, объектов и предикатов)
• Выделение понятий по политематическим, тематическим
и пользовательским терминологическим и
фразеологическим концептуальным словарям
• Унификация различных форм представления
смыслового содержания понятия в его эталонную
(доминантную) форму
Классификация понятий и установление
синтагматических, парадигматических и
анафорических связей между понятиями
• Классификация понятий по заданным классификаторам;
установление синонимов, отношений род-вид, частьцелое, ассоциативных по семантическим ресурсам
Построение таблицы связей между
понятиями
• Формирование наборов смысловых триад (Понятие 1 –
смысловая связь – Понятие 2) для всех видов
выявленных связей
Построение семантической сети документа
• Представление смыслового содержания документа в
виде семантического графа понятий их отношений
22

23.

Пример концептуального анализа текста
(технологический, тестовый вывод)
23

24.

Прагматический анализ (ПА), прикладные функции
Прототип антиплагиата:
Формализация и индексация
документов коллекции
Анализ документа:
формализация документа и
формирование фрагментов
Анализ документа:
сравнение с документами
коллекции (по фрагментам)
Анализ документа:
построение таблицы фрагментов
и смысловых связей документов
• АОТ каждого документа коллекции, формализация и
сохранение индексов (метаданных АОТ) в БД метаданных
• АОТ анализируемого документа, формализация и
построение таблицы сравниваемых фрагментов (шинглов –
«скользящих» фрагментов с перекрытием)
• Сравнение смыслового содержания (формализованных
метаданных) каждого фрагмента (шингла) документа
с фрагментами документов коллекции
• Формирование таблиц:
- последовательных фрагментов документа, содержащих
смысловые пересечения с документами коллекции
(заимствования/совпадения формальных шаблонов
документов);
- попарных списков пересечения текстов с документами
коллекции
24

25.

Возможности базовых лингвистических процедур
Необходимый функционал для обработки и формализации текстов для всех видов прикладных задач
Стадия автоматической обработки текста (АОТ)
Реализация метода предиктивного анализа
по методу лингвистической аналогии
Графематический анализ:
членение текста на элементы текста (токены)
• Возможность автоматизированного построения шаблонов для любой сложности
графического представления токенов.
• Возможность детальной классификации выделенных токенов.
• Возможность включения/выключения отдельных классов.
Морфологический анализ:
определение внеконтекстных грамматических и
семантических признаков слов
(часть речи, род, падеж, одушевленность, аббревиатура,
ФИО, наличие омонимии и т.д.)
• Ускоренная морфология частых слов русского языка («кэш» результатов).
• Возможность обработки текстов любого лексического состава
(с учетом слов-исключений, опечаток, неологизмов и узкоспециализированных
терминов).
• Адаптируемая система грамматических и семантических признаков для решения
различных видов прикладных задач.
• Возможность классификации текстов по составу семантических признаков их
лексики.
Семантико-синтаксический анализ:
деление текста на предложения, выявление его
синтаксической структуры, определение простых
предложений, подлежащих (субъектов/актантов), сказуемых
(предикатов) и дополнений (объектов, обстоятельств)
• Возможность членения текста на простые и сложные предложения, выделения
именных, глагольных словосочетаний и установления их смысловой структуры
(системы связей), выделения членов предложения и построения предикатноактантной структуры (субъект-объект-предикат) – на основе автоматически
формируемых по текстам синтагматических контекстных шаблонов.
• Контекстное разрешение грамматически и семантически неоднозначных
ситуаций (разрешение омонимии, уточнение признаков).
25

26.

Возможности процедур смыслового анализа
Типовые задачи смыслового анализа текстов (повторяющиеся в прикладных задача в незначительных вариациях):
Стадия автоматической обработки текста (АОТ)
Реализация метода предиктивного анализа
по методу лингвистической аналогии
Концептуальный анализ:
выявление сущностей (понятий, терминов, названий, обозначений),
связей между ними и их классификация
Типовые задачи анализа текстов (повторяющиеся в прикладных задача в
незначительных вариациях):
• Возможность выявления в тексте наименований понятий
(расширенного состава сущностей), в т.ч. понятий отсутствующих в
концептуальных словарях (новых) либо при полном отсутствии таких
словарей.
• Возможность классификации понятий по различным основаниям, в т.ч.
по использованием тематических (отраслевых) классификаторов и
классификаторов заказчиков.
• Установление синтагматических (контекстных) и парадигматических
(внеконтекстных, на основе общеязыковых и тематических онтологий)
связей между понятиями.
• Соотнесение смыслового содержания понятий на разных языках.
Прагматический анализ
(прикладной смысловой анализ и функционал бизнез-логики высокого
уровня)
• Автоматическое реферирование (сжатие текста/смысла):
суммаризация, формализованные рефераты, автоконспекты и
тематические срезы
• Установление смысловой близости текстов/фрагментов (задачи
антиплагиата, поиска нормативных требований и стандартов,
трассировки реализации пунктов ТЗ, исключения дублирования и т.п.)
• Задачи классификации текстов: рубрикация и кластеризация
• Выделение информационных событий, фактов.
• Семантический поиск, формализация и обогащение поисковых
запросов.
26

27.

Иерархическая формализованная модель метаданных (ФММ) документа
27

28.

Подсистема лингвистического обеспечения
28

29.

Функциональная структура ядерной части ЛП
29

30.

Принципы организации и иерархия тематических словарей ЛП
Политематика
Политематический словарь
Предметная
область А
Предметная
область B
Тематический
словарь
А
Тематический
словарь
B
Тематический
словарь
C
Предметная
область C
Пользовательский
словарь 1
Пользовательский
словарь 2
30

31.

Реализация функции - представление текста в виде
(«псевдотекста») для обучения нейросетей
Псевдотекст - исходный текст, преобразованный таким образом, что:
1) все токены текста отделены пробелами (включая знаки препинания);
2) каждое слово нормализовано;
3) прописные (большие) буквы отмечены стрелками перед словом;
4) каждому слову через знак "~~" приписана модель грамматической и семантической информации (ГСИ);
5) знаки препинания, знаки обозначения, числа и номера - без ГСИ;
6) конец предложения отмечен знаком "▼".
31

32.

Реализация функции –выделение понятийного
состава документа и установление связей
Фрагмент текста документа
Заразившийся коронавирусом президент Украины Владимир Зеленский находится в клинической больнице "Феофания". Там
есть оборудованный специальный кабинет, где глава государства проводит совещания. Он находится в изолированной палате, и,
соответственно, у него там спецсвязь установлена. Ермак тоже госпитализирован в "Феофанию". Летом коронавирусом
переболела жена украинского лидера Елена Зеленская. Она проходила лечение амбулаторно, однако позднее попала в
больницу с пневмонией. Тогда Зеленский также прошел двухнедельную изоляцию, ни у него, ни у детей вирус не выявили.
Смысловые триады текста
Predicate
Subject
Object
президент украины
находиться в
больница феофания
президент украины
заразиться
covid-19
специальный кабинет
есть
там
там
анаф. связь
больница феофания
президент украины
проводить
совещание
он
находиться в
палата

32

33.

Реализация функции - унификация понятий
Именные понятия
Текстовые понятия
Унифицированные
понятия
Президент Украины
президент украина
Владимир Зеленский
коронавирусом
covid-19
Глагольные понятия
Текстовые понятия
Унифицированные
понятия
Заразившийся
заразиться
находится
находиться
есть
есть
проводит
проводить
клинической больнице
«Феофания»
глава государства
больница феофания
президент украина
находится
находиться
палате
палата
установлена
установить
Ермак
глава офиса
госпитализирован
госпитализировать
"Феофанию"
больница феофания
переболела
переболеть
жена украинского
лидера Елена Зеленская
супруга президент
украина

прошел
проходить
33

34.

Реализация функции – смысловое сравнение текстов
текстов
34

35.

Реализация функции – построение семантического
графа документа
35

36.

Реализация функции – выделение информационных событий из
текстов СМИ
36

37.

Реализация функции – извлечение инфоповодов из
документов СМИ
covid-19
ь
ет
л
бо
за
Президент
Украины
р
за
я
ьс
т
и
аз
Президент
Украины
проходить лечение в
Больница
«Феофания»
covid-19
находиться в
ься
т
ть с
а
и
з
в
а
о
зар
зир
и
л
а
пит
с
о
г
Больница
«Феофания»
covid-19
Президент
Украины
37

38.

Заключение
• Концепция современного ЛП позволяет реализовать базовые процедуры обработки, формализации
текстового представления и выявления смысловой структуры текстов, построить формализованную модель
метаданных текста и выполнить на ее основе ряд прикладных задач: классификации, кластеризация
• Концепция ЛП в ряде положений согласуется с определением систем ИИ ГОСТа Р 59276-2020] согласно
которому эти системы должны обеспечивать способность технической системы имитировать когнитивные
функции человека (включая самообучение и поиск решений без заранее заданного алгоритма) и получать при
выполнении конкретных практически значимых задач обработки данных результаты, сопоставимые, как
минимум, с результатами интеллектуальной деятельности человека, кроме того концепция также
обеcпечивает: понятность и объяснимость алгоритмов, предсказуемость и доверие к полученным
результатам
• Интеллектуальное информационные системы смысловой обработки текстов, разработанные на основе
предлагаемой концепции, могут функционировать как автономно, так и в составе с другими подсистемами
обработки информации (например, нейропроцессорами) , при этом интеграция может быть реализована на
различных стадиях разработки гибридных систем АОТ: как на стадии обучения моделей и подготовки
декларативных средств, так и процессе выполнения технологических операций АОТ в готовом программном
продукте.
• Гибридный подход позволяет, с одной стороны, дополнить понятийные формальные модели мощным
вычислительным аппаратом и технологиями глубокого обучения, с другой стороны, использовать для
обучения нейросетевых моделей формальное представление текста, дополненное цифровыми понятийными
моделями.
38
English     Русский Rules