Методы автоматической обработки текста

1.

Методы автоматической обработки
текста
Выполнила: Тотмина Екатерина, гр. 23225.2

Определение
Автоматическая обработка текста: Эти методы используются для сложного анализа и
интерпретации текста, часто с применением методов машинного обучения.
-
Цель: Cоздать системы, способные понимать языковые структуры и смыслы, а
также выполнять полезные задачи на основе этого понимания.

3.

Где используются
1. Поисковые системы
2. Чат-боты и виртуальные ассистенты
3. Сентимент-анализ
4. Машинный перевод
5. Тематическое моделирование
6. Рекомендательные системы

4.

Мешок слов (BoW)
Определение: Это упрощенное представление текста, которое показывает, какие слова
встретились в тексте.
Использование: Задачи классификации текста, кластеризации и рекомендательной
системы.
Ограничения:
1. BoW не учитывает семантику и порядок слов в тексте.
2. Проблема разреженности данных

5.

Алгоритм работы Bag of Words
Исходные предложения указаны слева, их представление — справа. Каждый индекс в
векторах представляет собой одно конкретное слово.
Подготовка -> Создание словаря -> Векторизация

6.

TF-IDF
Определение: TF-IDF — это статистическая мера, которая оценивает важность слова в
документе на основе его частотности в этом документе и его редкости во всем корпусе
документов.
Использование: Извлечение ключевых слов из документов и построение векторных
представлений текста.
Преимущества над BoW: Учитывается не только частота слова в документе (TF), но и
то, насколько редко оно встречается во всем корпусе (IDF).

7.

Алгоритм работы TF-IDF
TF-IDF = TF*IDF

8.

Пример
Примеры вычисления значений tf-idf для документа

9.

Наивный байесовский классификатор
Определение: Это статистический классификатор, основанный на применении
теоремы Байеса.
Применение: Классификации текстов (определение тональности отзывов, фильтрация
спама в электронной почте и другие задачи).
Преимущества:
1. Наивный байесовский классификатор обычно быстр и эффективен.
2. Он также работает хорошо с большим числом признаков.

10.

Алгоритм работы классификатора
P(A | B) – апостериорная вероятность
(что A из B истинно)
P(A) – априорная вероятность
(независимая вероятность A)
P(B | A) – вероятность данного
значения признака при данном
классе. (что B из A истинно)
P(B) – априорная вероятность при
значении нашего признака.
(независимая вероятность B)

11.

Машины опорных векторов (SVM)
Определение: SVM — это алгоритм, который ищет гиперплоскость (-и), разделяющую
данные таким образом, чтобы максимизировать зазор между разными классами.
Применение: Преимущественно задачи классификации текста
Преимущества: Имеет преимущество, когда данные разделимы, особенно в
высокоразмерных пространствах, что делает их подходящими для текстовых данных.

12.

Алгоритм работы SVM
Задача заключается в построении
разделяющей гиперплоскость
таким образом, чтобы
максимизировать зазор.
Векторы, которые попадут на
границы зазора, называют
опорными векторами.
Ядро — это функция для работы с
данными в пространстве более
высокой размерности

13.

Рекуррентные нейронные сети (RNN)
Определение: RNN — это тип нейронных сетей, предназначенный для работы с
последовательностями данных.
Применение: Различные задачи, таких как машинный перевод, распознавание
рукописного ввода, генерация текста и другие задачи, где важен контекст и порядок
слов.
Преимущества:
1. RNN учитывают порядок слов в тексте.
2. Однако они также имеют некоторые ограничения, такие как затрудненное
обучение на длинных последовательностях из-за проблемы "затухания градиента".

14.

Рекуррентные нейронные сети (RNN)
Рекуррентная нейронная сеть и ее развертка (unfolding)
x_t — вход на временном шаге t.
s_t — это скрытое состояние на шаге t.
o_t — выход на шаге t.

15.

Трансформеры
Определение: Трансформеры — это архитектура, которая была впервые представлена в
статье "Attention is All You Need".
Применение: классификация текста, вопросно-ответные системы, перевод и др.
Преимущества:
1. Механизм внимания позволяет моделям трансформера обрабатывать длинные
последовательности данных.
2. Учет контекста из разных частей текста.

16.

Архитектура трансформеров
Слева представлено устройство энкодера.
Он по очереди применяет к исходной
последовательности N блоков.
Каждый блок выдаёт последовательность
такой же длины.
У декодера схема похожая, но внутри
каждого из N блоков два слоя multi-head
attention, в одном из которых используются
выходы энкодера

17.

Слой внимания (self-attention)
Первая часть transformer-блока — это слой
self-attention.
-
Близость запроса к ключу
Выход слоя self-attention
-
Три обучающие матрицы
.
Представление xi умножаем на
, (i
– номер элемента), которые
соответственно называются запросами,
ключами и значениями (query, key и value).
qi - запрос к базе данных
ki - ключи хранящихся в базе значений
vi - сами значения

18.

Заключение
Автоматическая обработка текста продолжает развиваться с быстрыми темпами
благодаря новым методам и технологиям машинного обучения. Она играет ключевую
роль в создании интеллектуальных систем, способных взаимодействовать с человеком
на естественном языке, обеспечивая новые возможности в различных отраслях, от
бизнеса и медицины до развлечений и образования.

19.

СПАСИБО ЗА ВНИМАНИЕ

English Русский Rules