Векторизация слов и текстов
NLP: определение и ключевые принципы функционирования
Обработка естественного языка (Natural Language Processing, NLP)
Фундаментальные принципы NLP
История развития NLP
Базовые компоненты NLP-систем
1. Предварительная обработка текста
2. Морфологический и синтаксический анализ
3. Семантический анализ
4. Представление текста в виде векторов чисел
NLP пайплайн
NLP пайплайн шаг за шагом
NLP пайплайн шаг за шагом
NLP пайплайн шаг за шагом
NLP пайплайн шаг за шагом
NLP пайплайн шаг за шагом
NLP пайплайн шаг за шагом
Как преобразовывать текстовые данные в числовые?
Векторные представления слов
Векторные представления слов
Векторные представления слов
Составление эмбеддингов слов
Составление эмбеддингов слов
Задание 1. Составление эмбеддингов слов
Задание 1. Составление эмбеддингов слов
Задание 1. Составление эмбеддингов слов
Составление эмбеддингов слов
Составление эмбеддингов слов
Составление эмбеддингов слов
Составление эмбеддингов слов
Задание 2. Составление эмбеддингов слов (TF-IDF)
Задание 2. Составление эмбеддингов слов (TF-IDF)
Вопросы (каверзные )
Варианты использования TF-IDF
Составление эмбеддингов слов
Составление эмбеддингов слов
Свойства эмбеддингов
Свойства эмбеддингов
Сходство между векторами
Оценки сходства векторов
Оценки сходства векторов
Задание 3.
Оценки сходства векторов
N-граммы и PMI
N-граммы
Point-wise mutual information (PMI)
Point-wise mutual information (PMI)
Усовершенствованная PMI - pPMI (positive PMI)
Задание 4.
Задание 4.
Задание 4.
Задание 4.
Подытожим
Методы и алгоритмы обработки естественного языка
Статистические методы
Методы машинного обучения
Глубокое обучение (Deep Learning, DL)
2.19M
Category: informaticsinformatics

07.+Vektorizacija+slov+i+tekstov

1. Векторизация слов и текстов

Подготовка данных для машинного обучения
Лекция 7 из 8
Кемерово 2026

2. NLP: определение и ключевые принципы функционирования

Кафедра
Цифровых технологий
2

3. Обработка естественного языка (Natural Language Processing, NLP)

Множество технологий ИИ, сфокусированных на
взаимодействии между компьютерами и человеческим
языком.
Основная цель NLP - научить машины понимать,
интерпретировать и генерировать человеческую речь в
ее естественной форме.
В отличие от строго формализованных компьютерных
языков, естественные языки отличаются
многозначностью, контекстуальной зависимостью и
постоянной эволюцией.
Кафедра
Цифровых технологий
3

4. Фундаментальные принципы NLP

• Лингвистическое моделирование: формализация языковых
правил, структур и отношений для машинного представления;
• Статистический анализ: обработка больших корпусов текстов
для выявления паттернов и вероятностных моделей языка;
• Контекстуальное понимание: интерпретация значений слов и
выражений с учетом окружающего контекста;
• Нейронное представление языка: кодирование семантики
слов и предложений в многомерных векторных пространствах;
• Масштабное обучение: использование обширных наборов
данных для обучения языковых моделей.
Кафедра
Цифровых технологий
4

5. История развития NLP

Период
Парадигма
Ключевые технологии
Ограничения
1950 - 1980
Символический
подход
Правила, грамматики,
словари
Неспособность
масштабирования,
хрупкость
1980 - 2010
Статистический
подход
N-граммы, скрытые
марковские модели
Ограниченное
понимание контекста
2010 - 2018
Нейронные сети
Word2Vec, RNN, LSTM
Ресурсоемкость,
ограниченный контекст
BERT, GPT, T5
Вычислительная
сложность, этические
вопросы
Кафедра
Цифровых технологий
5
2018 настоящее
время
Трансформеры

6.

Современный NLP - междисциплинарная область,
объединяющая лингвистику, машинное обучение,
статистику и компьютерные науки.
Такое сочетание позволяет создавать системы,
способные решать комплексные задачи языкового
взаимодействия - от базового распознавания спама
до генерации художественных текстов и
многоязычного перевода в режиме реального
времени.
Кафедра
Цифровых технологий
6

7. Базовые компоненты NLP-систем

Кафедра
Цифровых технологий
7

8.

Системы обработки естественного языка
представляют собой многоуровневые
архитектуры с последовательными этапами
преобразования и анализа текстовых данных.
Понимание базовых компонентов этого
конвейера критически важно для эффективной
работы с NLP-технологиями.
Кафедра
Цифровых технологий
8

9. 1. Предварительная обработка текста

Фундаментальный этап, превращающий сырой текст в
структурированный формат, пригодный для
алгоритмического анализа:
1. Токенизация: разбиение текста на элементарные единицы
(токены): слова, подслова или символы.
2. Удаление стоп-слов: исключение высокочастотных слов с
низкой смысловой нагрузкой (предлоги, союзы, местоимения);
3. Нормализация: приведение текста к единому стандарту
(удаление HTML-тегов, преобразование в нижний регистр,
обработка специальных символов, цифр и т.п.);
4. Обработка опечаток: исправление орфографических ошибок с
помощью алгоритмов Левенштейна, фонетического
кодирования или нейросетей;
5. Лемматизация/стемминг: приведение слов к базовой форме
("бежал", "бегут", "бежавший" → "бежать").
Кафедра
Цифровых технологий
9

10. 2. Морфологический и синтаксический анализ

Обогащает текст структурной информацией:
• Определение частей речи (POS-tagging): разметка
каждого слова/токена соответствующей частью речи;
• Синтаксический разбор (парсинг): построение дерева
зависимостей, отражающего грамматическую структуру
предложения;
• Чанкинг: разбиение текста на синтаксические группы,
каждая из которых выражает определённый смысл
(именные группы, глагольные группы).
Кафедра
Цифровых технологий
10

11. 3. Семантический анализ

Направлен на извлечение смысла из текста:
• Распознавание именованных сущностей (NER): выявление
и классификация таких объектов, как имена людей,
организации, местоположения, даты;
• Разрешение кореференции: определение, когда разные
выражения ссылаются на один и тот же объект (например,
"Иван купил книгу. Он начал ее читать.");
• Анализ тональности: определение эмоциональной окраски
текста (позитивная, негативная, нейтральная);
• Извлечение отношений: выявление связей между
сущностями в тексте (например, "Москва - столица России").
Кафедра
Цифровых технологий
11

12. 4. Представление текста в виде векторов чисел

Критически важный компонент, преобразующий
лингвистические структуры в числовые векторы, понятные
алгоритмам машинного обучения:
• Мешок слов (Bag of Words): простейшее представление
текста как набора слов с их частотами;
• TF-IDF: взвешивание слов по их значимости в документе и в
коллекции;
• Word Embeddings: плотные векторные представления слов
(Word2Vec, GloVe, FastText), кодирующие семантические и
синтаксические свойства;
• Контекстуальные эмбеддинги: динамические представления
слов, зависящие от контекста (BERT, ELMo), где одно и то же
слово получает разные векторы в разных контекстах.
Кафедра
Цифровых технологий
12

13. NLP пайплайн

шаг за шагом
Кафедра
Цифровых технологий
13

14. NLP пайплайн шаг за шагом

Шаг 1. Выделение предложений:
разбиваем текст на отдельные предложения.
Шаг 2. Токенизация, или выделение слов:
выделение отдельных слов или токенов
Шаг 3. Определение частей речи:
смотрим на каждый токен и стараемся угадать, какой
частью речи он является: глаголом, существительным,
прилагательным или чем-то другим
Кафедра
Цифровых технологий
14

15. NLP пайплайн шаг за шагом

Шаг 4. Лемматизация:
находим основную форму (лемму) каждого слова в
предложении
Шаг 5. Определение стоп-слов:
некоторые токены создают много шума, так как
появляются чаще, чем остальные. Для обнаружения
стоп-слов обычно используются готовые таблицы.
Однако нет единого стандартного списка, подходящего в
любой ситуации. Игнорируемые токены могут меняться,
все зависит от особенностей проекта.
Кафедра
Цифровых технологий
15

16. NLP пайплайн шаг за шагом

Шаг 6. Парсинг зависимостей:
устанавливаем взаимосвязь между словами в
предложении. Каждый токен получает единственного
родителя, а корнем может быть главный глагол. Также
необходимо установить тип связи между двумя словами
Кафедра
Цифровых технологий
16

17. NLP пайплайн шаг за шагом

Шаг 7. Распознавание именованных сущностей (Named
Entity Recognition, NER):
цель – обнаружить существительные, обозначающие
реальные вещи, и связать их с реальными концепциями.
Большинство NER-моделей распознают следующие типы объектов:
• имена людей;
• названия компаний;
• географические обозначения (и физические, и политические);
• продукты;
• даты и время;
• денежные суммы;
• события.
Кафедра
Цифровых технологий
17

18. NLP пайплайн шаг за шагом

Шаг 8. Разрешение кореференции:
определяем, когда разные выражения ссылаются на
один и тот же объект (например, "Иван купил книгу. Он
начал ее читать."). Разрешением кореференции
называется отслеживание местоимений в предложениях
с целью выбрать все слова, относящиеся к одной
сущности.
Кафедра
Цифровых технологий
18

19. NLP пайплайн шаг за шагом

Кафедра
Цифровых технологий
19

20. Как преобразовывать текстовые данные в числовые?

Эмбеддинги
Кафедра
Цифровых технологий
20

21. Векторные представления слов

Эмбеддинг, от англ. e´mbedding - «вложение» представление слова в виде вектора чисел. Этот вектор
содержит в себе информацию о значении слова, о том,
как оно употребляется в языке.
Другими словами,
смысл слова определяется контекстом, в котором оно
встречается в языке. Эмбеддинг слова должен
инкапсулировать в себе этот смысл.
Слова с близкими смыслами имеют близкие контексты,
следовательно, имеют близкие эмбеддинги.
(гипотеза распределения слов в лингвистике)
Кафедра
Цифровых технологий
21

22. Векторные представления слов

Современные методы построения эмбеддингов основаны
на кодировании контекста, в котором встречается слово.
Эмбеддинги слов, близких по смыслу, должны быть
близкими векторами, т.е. чтобы модуль разности между
ними был маленьким.
Варкалось. Хливкие шорьки
Пырялись по нове,
И хрюкотали зелюки,
Как мюмзики в мове.
Льюис Кэрролл,
«Алиса в Зазеркалье»,
1871
Статья «Что такое эмбеддинги и как с ними работать. Вводная для начинающих»
https://habr.com/ru/articles/947216/
Кафедра
Цифровых технологий
22

23. Векторные представления слов

Векторное представление слов — это кодирование слов
текста с помощью числовых векторов.
• Преобразуем весь текст в последовательность токенов - минимальных
единиц текста, с которыми удобно работать методами NLP;
• Зафиксируем словарь из всех токенов текста;
• Сопоставим каждому токену числовой вектор фиксированной длины эмбеддинг;
• Последовательность токенов превратим в последовательность векторов.
Кафедра
Цифровых технологий
23

24. Составление эмбеддингов слов

Вариант 1: Присвоение каждому слову случайного вектора
Пусть словарь состоит из слов «обработка», «машинное», «обучение»,
«линейная» и «регрессия» — всего 5 слов. Сопоставим с каждым из них
набор из 5 случайных чисел:
обработка
машинное
обучение
линейная
регрессия
0.4
3.2
3.8
-0.6
2.5
-2.7
0.5
-2
4.5
4.9
8.3
-2.1
1
0.8
-7.6
-5
-4.1
4.7
1.3
0.6
4.1
3.5
9.2
3.2
1.7
Этот вариант неоптимальный. Числовые значения эмбеддинга слова,
определяющие его в пространстве слов, должны что-то говорить нам о
смысле слова, которое он кодирует, и о его связях с другими словами.
Здесь этого нет, так как числа взяты случайным образом.
Кафедра
Цифровых технологий
24

25. Составление эмбеддингов слов

Вариант 2: One-hot кодирование
Второй способ основан на кодировании смысла слова. Сопоставим
каждому слову словаря вектор размером 5, состоящий из 4 нулей и 1
единицы — как раз на позиции номера данного слова в словаре.
линейная
машинное
обработка
обучение
регрессия
линейная
1
0
0
0
0
машинное обработка
0
0
1
0
0
1
0
0
0
0
обучение
0
0
0
1
0
регрессия
0
0
0
0
1
Каждому слову однозначно сопоставлен некоторый вектор.
У данного метода есть важный недостаток. Если в словаре слишком много
слов, то длина каждого вектора тоже будет очень большой.
Кафедра
Цифровых технологий
25

26. Задание 1. Составление эмбеддингов слов

Исходный текст:
У всего есть своя красота, но не
каждый может
ее увидеть.
Препроцессинг текста:
1. Удаление пробелов:
«У всего есть своя красота, но не каждый может ее увидеть.»
2. Нормализация (приведение к нижнему регистру):
«у всего есть своя красота, но не каждый может ее увидеть.»
3. Удаление пунктуации, частиц и предлогов:
«всего есть своя красота каждый может ее увидеть»
4. лемматизация/стемминг - приведение слова к начальной форме:
«все быть свой красота каждый мочь она видеть»
Кафедра
Цифровых технологий
26

27. Задание 1. Составление эмбеддингов слов

Препроцессинг текста:
5. Индексация:
упорядоченный локальный словарь в лексикографическом порядке
1 быть
2 все
3 видеть
4 каждый
5 красота
6 мочь
7 она
8 свой
*) глобальный словарь — словарь, из большого количества упорядоченных слов
(каждому слову в соответствие ставится индекс слова в словаре)
**) локальный словарь — словарь, составленный из упорядоченных слов
(каждому слову в соответствие ставится вектор чисел с учетом совпадения
позиций)
Кафедра
Цифровых технологий
27

28. Задание 1. Составление эмбеддингов слов

И вот мы можем составить простейшие вектора слов:
• вектор для слова "каждый" относительно составленного словаря:
00010000
• вектор для слова "мочь" относительно составленного словаря:
00000100
• вектор для предложения "Каждый стремиться к красоте"
относительно составленного словаря:
00011000
• вектор для предложения "Красота в глазах смотрящего"
относительно составленного словаря:
00001000
Кафедра
Цифровых технологий
28

29. Составление эмбеддингов слов

Вариант 3: Bag of Words (BOW)
Алгоритмы, учитывающие частотность слов в тексте:
■ «Мешок слов» (Bag of Words): представление текста в виде массива,
состоящего из отдельных слов и количества их использования. Минус в
том, что теряется вся информация о взаимном расположении слов
внутри текста.
Кафедра
Цифровых технологий
29

30. Составление эмбеддингов слов

Вариант 4: TF-IDF
Алгоритмы, учитывающие частотность слов в тексте:
■ TF-IDF (term frequency–inverse document frequency):
• TF (Term Frequency — частота слова): Отражает, насколько часто
термин встречается в конкретном документе. Рассчитывается как
отношение количества вхождений слова к общему числу слов в
документе.
• IDF (Inverse Document Frequency — обратная частота документа):
Снижает вес широкоупотребляемых слов (например, союзов,
предлогов), встречающихся почти во всех документах, и повышает вес
редких слов.
Кафедра
Цифровых технологий
30

31. Составление эмбеддингов слов

Вариант 4: TF-IDF
Частотность слова в текстЕ :
Специфичность слова относительно текстОВ :
Чем чаще встречается слово в текстАХ, тем менее он отражает
специфичность данного текста, тем ниже будет IDF слова, и наоборот при
низкой частотности слова в текстАХ :
Кафедра
Цифровых технологий
31

32. Составление эмбеддингов слов

Вариант 4: TF-IDF
Кафедра
Цифровых технологий
32

33. Задание 2. Составление эмбеддингов слов (TF-IDF)

Для текстов
1. "Погода — настроение природы."
2. "Сегодня отличная погода."
3. "Дождливая погода — лучший саундтрек."
4. "Ловите хорошее настроение."
упорядоченный локальный словарь в лексикографическом
порядке:
1 дождливый
2 ловить
3 лучший
4 настроение
5 отличный
6 погода
7 природа
8 саундтрек
9 сегодня
10 хорошее
Кафедра
Цифровых технологий
33

34. Задание 2. Составление эмбеддингов слов (TF-IDF)

TF("погода" в тексте 2) = 1/3
TF("погода" в тексте 4) = 0
IDF("настроение") = log10(4/2) ​= log10(2) ≈ 0,3
TF−IDF("погода" в тексте 1) = TF("погода" в тексте 1) ⋅ IDF("погода") =
1/3​⋅log10(4​/3) ≈ 0,04
TF-IDF векторизация слова "настроение" в тексте 4 для
рассматриваемых текстов:
0 0 0 0,1 0 0 0 0 0 0
Текст 4 в виде вектора (сложить TF-IDF-вектора для каждого слова):
0 0,2 0 0,1 0 0 0 0 0 0,2
Кафедра
Цифровых технологий
34

35. Вопросы (каверзные )

Вопросы (каверзные )
1. Если слово встречается во всех текстах, IDF= ?
2. Вычислите частотность слова "погода" в тексте
"Дождливая погода — лучший саундтрек".
3. Вычислите специфичность IDF слова
"настроение" относительно текстОВ 1,2,3.
4. TF-IDF векторизация слова "погода" в тексте 2
для рассматриваемых текстов 1,2,3,4 ?
5. Представить в виде вектора текст 3, сложив
вектора для каждого слова.
Кафедра
Цифровых технологий
35

36. Варианты использования TF-IDF

TF-IDF - это метод выделения ключевых признаков в текстах, он
широко используется для их обработки и анализа.
• Классификация документов: позволяет автоматически
определять тематику текстов и относить их к определённым
категориям.
• Автоматическая маркировка: служит одним из инструментов
для автоматической расстановки меток или тегов к документам.
• Информационный поиск: При поиске по запросу помогает
выделять слова, наиболее точно отражающие суть документа.
Это повышает релевантность выдачи: чем сильнее ключевые
слова связаны с запросом, тем лучше результаты поиска.
• Фильтрация стоп-слов: позволяет автоматически отсеивать
часто встречающиеся, но малозначимые слова, избавляя от
необходимости вручную составлять длинные списки стоп-слов.
Кафедра
Цифровых технологий

37. Составление эмбеддингов слов

Вариант 5: word2vec
One-hot кодирование - способ представить каждое слово в виде очень
длинного вектора, где почти все элементы равны 0, и только один - 1.
Такой подход крайне неэффективен: он не отражает смысл слова, а
матрицы получаются огромными и разреженными.
Word2Vec решает эту проблему. Он переводит слова из дискретного
пространства в плотное и компактное векторное пространство
признаков (embedding space) с небольшим числом измерений
(например, 100, 300 или 600).
Суть Word2Vec - научиться получать такие векторы для слов, чтобы они
отражали их формы и контексты. Эти векторы обладают важными
свойствами:
• они плотные (почти все элементы ненулевые);
• непрерывные (похожие слова имеют похожие векторы);
• и главное - сохраняют семантические и синтаксические отношения
между словами.
Кафедра
Цифровых технологий
37

38. Составление эмбеддингов слов

Вариант 6: Трансформеры
Также для получения векторного представления текста могут
использовать нейронные сети, которые специально обучались для задач
работы с текстовыми данными (чаще всего это нейронные сети с
архитектурой трансформер)
Кафедра
Цифровых технологий
38

39. Свойства эмбеддингов

• Связь семантической и
геометрической близости:
Геометрически близкие точки
соответствуют близким по
смыслу словам. Наиболее
близкие друг к другу слова на
семантической карте —
синонимы.
Кафедра
Цифровых технологий
39

40. Свойства эмбеддингов

• Векторная структура отношений между объектами:
Например, если отметить точки, соответствующие словам «король»
и «мужчина», то вектор между ними будет такой же, как между
словами «королева» и «женщина».
В терминологии векторов
queen = king − man + woman
Кафедра
Цифровых технологий
40

41. Сходство между векторами

Кафедра
Цифровых технологий
41

42. Оценки сходства векторов

Каким образом мы можем обнаружить сходство между
двумя векторами?
Для измерения разницы между двумя векторами
используются различные метрики:
• Косинусное сходство - самая распространённая мера. Она
вычисляет косинус угла между двумя векторами и
показывает, насколько они направлены одинаково.
Значения лежат в диапазоне от –1 (противоположные) до
1 (идентичные), а 0 означает ортогональность (нет связи).
Кафедра
Цифровых технологий

43. Оценки сходства векторов

Чем ближе два вектора друг к другу, тем больше значение
косинусного сходства. В массиве TF-IDF каждый документ является
вектором, и мы можем посчитать косинусное расстояние между
ними, чтобы измерить их сходство.
Кафедра
Цифровых технологий

44. Задание 3.

Даны TF-IDF для каждого предложения:
• Документ 1: «Джейн — моя мать»
• Документ 2: «Джон — мой отец»
• Документ 3: «Кто моя мать?»
a) Постройте матрицы TF-IDF.
b) Определите с помощью косинусного расстояния, какое
предложение наиболее релевантно запросу.
Кафедра
Цифровых технологий
44

45. Оценки сходства векторов

• Евклидово расстояние - определяет «обычное» расстояние
между точками в пространстве. Чем оно меньше, тем ближе
векторы друг к другу.
• Манхэттенское расстояние - сумма модулей разностей по
координатам; используется реже, но иногда удобнее для
определённых задач.
• Расстояния Хэмминга и Левенштейна - используются для
сравнения строк: первое - по числу различающихся символов,
второе - по минимальному числу правок для превращения
одной строки в другую.
Кафедра
Цифровых технологий

46. N-граммы и PMI

Кафедра
Цифровых технологий
46

47. N-граммы

Кодировать можно не только слова, но и словосочетания.
N-граммы - последовательности слов длиной n, выделенные в
предложении.
В тексте длиной n можно выделить n-(k-1) штук k-грамм
(словосочетаний длиной k).
Исходный текст:
N = 2 (биграммы)
5 штук
N = 3 (триграммы)
4 штуки
N = 4 (тетраграммы)
3 штуки
N = 5 (пентаграммы)
2 штуки
N = 6 - 1 штука
"Вдруг до меня донеслись звуки музыки."
вдруг до, до меня, меня донеслись, донеслись
звуки, звуки музыки.
вдруг до меня, до меня донеслись, меня донеслись звуки,
донеслись звуки музыки.
вдруг до меня донеслись, до меня донеслись звуки, меня
донеслись звуки музыки.
вдруг до меня донеслись звуки, до меня донеслись звуки
музыки.
вдруг до меня донеслись звуки музыки.
Кафедра
Цифровых технологий
47

48. Point-wise mutual information (PMI)

Не все n-граммы имеют смысл сами по себе.
Чтобы это учесть, будем смотреть на
словосочетания немного по-другому.
В триграмме общего вида
слово1 слово2 слово3
назовем:
слово2 - «центральным»,
слово1 - «левым контекстом» центрального слова,
слово3 - «правым контекстом» центрального слова.
Кафедра
Цифровых технологий
48

49. Point-wise mutual information (PMI)

PMI - метрика, показывающая силу взаимосвязи
центрального слова и его контекста. Обозначим:
• p(слово) - частоту встречаемости слова "слово" в тексте. Это
отношение числа раз, когда оно встретилось, к общему числу
слов в текстах.
• p(слово1, слово2) - частоту встречаемости словосочетания
"слово1 слово2" в тексте. Это отношение числа раз, когда
словосочетание встретилось в тексте, к общему числу
словосочетаний такой же длины.
Тогда
Кафедра
Цифровых технологий
49

50. Усовершенствованная PMI - pPMI (positive PMI)

Усовершенствованная PMI pPMI (positive PMI)
PMI может оказаться меньше 0, если словосочетание
встречается в тексте редко.
Усовершенствованная метрика позволяет выделить
в тексте словосочетания, которые встречаются часто:
Эта метрика позволяет отсечь все словосочетания, для которых
значение метрики PMI < 0
Кафедра
Цифровых технологий
50

51. Задание 4.

Дан набор текстов:
1. "Мама приготовила нам вкусный борщ."
2. "Я зашёл в ресторан напротив дома, где подают,
пожалуй, самый вкусный борщ."
3. "В ресторане обед был довольно стандартный: борщ,
пюре с котлетой и компот."
В следующих упражнениях при работе с текстами нужно
рассматривать все слова, которые в них представлены, в
том числе, предлоги и союзы.
Кафедра
Цифровых технологий
51

52. Задание 4.

Для расчета PMI необходимо вычислить частоту встречаемости
заданного словосочетания p(w1w2 ) в текстах по формуле:
где n - общее количество слов в текстах, а nw1w2 - число раз,
которое в текстах встретилось словосочетание w1w2.
1.
Рассчитайте n - количество слов в приведённых текстах (если
одно и то же слово встретилось в текстах несколько раз,
нужно столько же раз учесть его при подсчёте).
2.
Вычислите частоту p("вкусный", "борщ").
Кафедра
Цифровых технологий
52

53. Задание 4.

Характеристики p(w1) и p(w2) отражают частоту встречаемости
слов w1 и w2 по отдельности. Вычисляются характеристики по
следующей формуле:
где n - общее количество слов в текстах, nw - число раз, которое
слово w встречается в текстах.
3. Вычислите частоту встречаемости p("вкусный")
4.
Вычислите частоту p("борщ").
5.
Вычислите значение PMI("вкусный", "борщ") по формуле
Кафедра
Цифровых технологий
53

54. Задание 4.

Важно, что частоту встречаемости словосочетания w1w2 можно
вычислять по-разному. Раньше в числителе соответствующей
дроби nw1w2 / n мы учитывали только ситуации, когда w1 и w2
стояли в текстах на соседних позициях.
Однако можно считать, что два слова встречаются вместе, если
они находятся в общем контексте. Например, между словами не
более, чем k−2 других слова.
6. Подберите такой минимальный размер k, чтобы значение
PMI("ресторан", "борщ") стало больше 0.
Кафедра
Цифровых технологий
54

55. Подытожим

Таким образом, PMI позволяет построить модель для
предсказания центрального слова по его контексту и
обратно - контекста по центральному слову
Кафедра
Цифровых технологий
55

56.

• TF-IDF кодирует только один вариант употребления,
один смысл для каждого слова. Он не видит связи
между словами, которые не являются ключевыми.
• PMI способен уловить различные контексты, в которых
употребляется слово, и «видит» его расширения
(синонимы, омонимы, и др.). PMI - это простая и
понятная статистическая мера семантической связи.
• word2vec - это сложный алгоритм машинного обучения,
который эффективно обучается на тех же принципах, что
и PMI, но создает более качественные и универсальные
представления слов (вектора), которые решают
проблемы разреженности данных и позволяют находить
сложные семантические аналогии.
Кафедра
Цифровых технологий
56

57. Методы и алгоритмы обработки естественного языка

Кафедра
Цифровых технологий
57

58. Статистические методы

Основаны на вероятностных моделях.
Исторически стали первым эффективным подходом к
масштабной обработке текстов.
Включают в себя:
• TF-IDF - метрика, отражающая важность слова (токена)
для документа в корпусе;
• N-граммные модели (предсказание слов на основе
предшествующих N-1 слов/токенов);
• Скрытые марковские модели (последовательное
тегирование, например, частей речи);
• Наивный байесовский классификатор (категоризация
текстов).
Кафедра
Цифровых технологий
58

59. Методы машинного обучения

Существенно расширили возможности NLP-систем.
Включают в себя:
• Деревья решений и случайные леса (классификация и
регрессия);
• Метод опорных векторов (SVM) - высокоэффективен
для задач с ограниченными данными;
• Алгоритмы кластеризации (K-means, DBSCAN) обнаружение тематических групп;
• Word2Vec и GloVe (построение распределенных
представлений слов).
Кафедра
Цифровых технологий
59

60. Глубокое обучение (Deep Learning, DL)

Произвело революцию в NLP, предлагая архитектуры,
способные улавливать сложные языковые нюансы:
• Рекуррентные нейронные сети (RNN) и их
усовершенствованные версии (LSTM, GRU),
улавливающие последовательные зависимости;
• Сверточные нейронные сети (CNN), эффективные
для извлечения локальных признаков;
• Автоэнкодеры для несупервизируемого изучения
представлений;
• Трансформеры (BERT, GPT, T5) - архитектуры на
основе механизма внимания, достигающие
высочайшей точности в большинстве NLP-задач.
Кафедра
Цифровых технологий
60
English     Русский Rules