58.12K
Category: informaticsinformatics

Обработка естественного языка (NLP, Natural language processing)

1.

Обработка естественного языка (NLP, Natural language processing)
Теория и методы
Общие цели NLP:
• Интеллектуальный анализ текста, извлечение данных из текста (Text Mining)
• Синтез речи (Text to Speech, TTS)
• Распознавание речи (Speech-to-Text, Speech recognition)
А.В.Бочаров, ТГУ, 2023

2.

Text Mining
• Автоматизированное извлечение из текстов лингвистической,
фактологической и статистической информации.
• Автоматизированный анализ (структурирование) больших объемов
неструктурированных текстовых данных с помощью программного
обеспечения.
• Прикладные аспекты текст-майнинга: анализ рынка, обслуживание
клиентов, анализ общественного сознания, управление
документооборотом, управление контентом.
НЕструктурированный текст: предложения и фразы на естественном языке
не стандартизированные по форме,
не лимитированные по размеру,
разнообразные по содержанию.
Структурированный текст: формализован, единообразен, лимитирован по размеру.
А.В.Бочаров, ТГУ, 2023

3.

Базовые средства
Предобработка текста - очистка, нормализация, сегментация:
Сегментация текста:
- Токенизация (Tokenization) - разбиении текста на отдельно значимые единицы
- N-граммы (n-gram) - разделение на сочетания слов и токенов
- Разделение на предложения (Sentence-splitting)
- Лемматизация (Lemmatisation)
- Стемминг (Stemming)
А.В.Бочаров, ТГУ, 2023

4.

Обработка текста - разметка и структурирование
Разметка текста (определение частей речи, морфологическая,
семантическая, синтаксическая разметка, определение интонации)
• Разметка данных (data markup)
• Первичный частотный анализ текста (Bag-of-words)
• Составление тезаурусов (Thesaurus building)
• Составление конкордансов (Concordance building)
• Составление корпусов (Building a linguistic corpus)
А.В.Бочаров, ТГУ, 2023

5.

Методы NLP
Парсинг (parsing - разбор) - процесс сопоставления линейной последовательности
лексем (слов, токенов) естественного или формального языка с его формальной
грамматикой. Результатом обычно является дерево разбора (синтаксическое дерево).
Обычно применяется совместно с лексическим анализом.
Синтаксический анализатор (parser) — это программа, выполняющая разбор выражения
с преобразованием его структуры из линейной в древовидную.
Шинглы (shingles — чешуйки) - это небольшая часть текста состоящия их групп от 2 до 10
слов. Выборка происходит внахлест, а не встык. Разбиение текста на шинглы
необходимо для проверки уникальности. Слова в шинглах могут повторяться. При
сравнении текстов каждый из шинглов проверяется отдельно.
Чакинг (chunking - дробление) - частичный синтаксический разбор, метод, который
заключается в разбиении текста на синтаксически связанные фрагменты текста - чанки.
Чанки в первом приближении представляют собой синтаксические группы – вершину в
синтаксическом дереве с зависимыми.
А.В.Бочаров, ТГУ, 2023

6.

Прикладные задачи NLP
• Автоматический определитель языка (Language identifier)
• Проверка правописания - определение и исправление орфографических ошибок и
опечаток (Spell-checking)
• Извлечении именованных сущностей (Named-entity recognition, NER)
• Сентимент-анализ (Sentiment Analysis)
• Суммаризация текста - (реферирование, аннотирование, резюмирование)
(Automatic Text Summarization)
• Генерирование заголовков (Generating headlines)
• Извлечении терминологии (Terminology extraction)
• Авторубрикация (Automatic rubrication system)
• Тематическое моделирование (topic modeling)
• Извлечение отношений (Relationship extraction)
• Извлечение фреймов (Frame-Based NLP System)
А.В.Бочаров, ТГУ, 2023

7.

Прикладные задачи NLP
• Поиск обоснований (Argumentation mining)
• Вопросно-ответные системы (Question-Answering System)
• Диалоговые системы (Dialog Systems and Chatbots)
• Определение жанра текста (Automatic Detection of Text Genre)
• Определение намерений (интент-анализ) (Intent Extraction)
• Генерирование текстов с заданными свойствами (Text generation)
• Обнаружение сходства (Detecting Text Similarity)
• Измерение читабельности (Readability)
• Упрощение (адаптация) текста (Simplification of Text, automated text adaptation)
• Звуковая разметка (Sound Scripting Markup)
• Интонационная разметка (Prosody Markup)
А.В.Бочаров, ТГУ, 2023

8.

Прикладные задачи NLP
• Метрики сложности текста (Measures of Text Complexity)
• Извлечение сюжета (plot extraction)
• Конструирование сюжета (narrative bilding)
• Рерайтинг (rewriting) — переписывание, пересказ текста другими словами.
• Определение авторства (Authorship attribution)
• Определение плагиата (Detecting plagiarism)
А.В.Бочаров, ТГУ, 2023
English     Русский Rules