2.68M
Category: informaticsinformatics

NLP. Сравнение стемминга и лемматизации

1.

NLP. Сравнение стемминга и
лемматизации.
Выполнил: Лазаренков Никита КМБО-02-20

2.

Что такое NLP?
Обработка естественного языка, или NLP(Natural Language Processing), — это
междисциплинарная область науки, фокусирующаяся на взаимодействии компьютеров и
реального человеческого языка. NLP предполагает разработку алгоритмов и моделей,
позволяющих компьютерам понимать, интерпретировать и генерировать человеческий язык
осмысленным и полезным способом. Цель состоит в том, чтобы позволить машинам
понимать человеческий язык и реагировать на него, как люди, и выполнять такие задачи, как
языковой перевод, анализ настроений, распознавание речи, поиск информации, ответы на
вопросы, обобщение текста и многое другое.
Для достижения этой цели NLP включает в себя различные методы и методологии, взятые
из лингвистики и информатики, включая статистические подходы и подходы машинного
обучения, глубокое обучение, понимание естественного языка (NLU), генерацию
естественного языка (NLG) и компьютерную лингвистику.
Конвеер
NLP

3.

Стемминг
Лемматизация
Урезает слово до их основ, не всегда
оставляя действительные слова.
Учитывает контекст и преобразует слово в
его значимую базовую форму, которая
называется леммой.

4.

Подготовка текста
к стеммингу/лемматизации
Токенизация текста

5.

Подготовка текста
к стеммингу/лемматизации
Удаление стоп-слов

6.

Алгоритмы
стемминга
The LancasterStemmer The PorterStemmer
Абстрактный класс
Функция стемминга, которая
использует стеммер, передаваемый в
качестве параметра
The SnowballStemmer
Экземпляры каждого из классов
Stemmers
Передача стеммера и очищенного
текста в функцию stem

7.

Алгоритмы стемминга
Результаты стемминга

8.

Алгоритмы стемминга
Скорость выполнения

9.

Алгоритмы лемматизации
WordNet Лемматизатор
Загрузка
словаря
Экземпляр лемматизатора
Функция
лемматизации

10.

Алгоритмы лемматизации
Результат лемматизации WordNet

11.

Алгоритмы лемматизации
POS-теги
Метод lemmatize принимает необязательный
параметр pos , который указывает часть речи, к
которой мы классифицируем слово, подлежащее
лемматизации. Возможные значения этого
параметра:
• а для прилагательных,
• n для существительных,
• r для наречий,
• s для деепричастий
• v для глаголов,
• со значением по умолчанию n
Разные результаты без и с
этим дополнительным тегом POS

12.

Алгоритмы лемматизации
Морфологический анализатор pymorphy2
Анализ слова бутявковедами
Анализ слова
стали

13.

Сравнение
стемминга и лемматизации
Стемминг
Лемматизация
Преимуществ
а
Недостатки
Преимуществ
а
Недостатки
Быстродействие
Низкая точность
Высокая точность
Требует больше ресурсов
Уменьшение
размера словаря
Ограниченная
применимость
Лучшее понимание текста
Медленеее стемминга
Полезна для специфических
задач
Сложность реализации
Простота
реализации
Не учитывает контекст

14.

Сравнение
стемминга и лемматизации
Cтемминг лучше
использовать для более
коротких запросов, а
лемматизацию лучше
использовать для более
длинных запросов

15.

Как лемматизация может улучшить
работу с эмбеддингами для анализа
семантики.
Эмбеддинги – это векторные представления, используемые для преобразования высокоразмерных данных
(например, слов, предложений, абзацев, или даже целых документов) в плотные векторы меньшей размерности.
Эти векторные представления обучаются таким образом, чтобы отражать семантические, синтаксические и
относительные отношения между данными, на которых они были обучены. В контексте естественного языкового
обработки (NLP), эмбеддинги слов являются наиболее распространенным типом, хотя эмбеддинги могут также
применяться к символам, предложениям, абзацам и даже целым документам.
Ключевые аспекты эмбеддингов:
Семантическое богатство
Уменьшение размерности
Обучение:
Применение
Контекстуализация

16.

Как лемматизация может улучшить
работу с эмбеддингами для анализа
семантики.
Лемматизация – это процесс приведения слова к его базовой форме или лемме, что помогает
уменьшить сложность текстовых данных и увеличить их обработку в задачах естественного
языкового обработки (NLP). Это особенно важно при работе с эмбеддингами, которые являются
плотными векторными представлениями слов, отражающими их семантическое значение.
Взаимодействие лемматизации и эмбеддингов может улучшить анализ семантики в нескольких
ключевых аспектах:
Уменьшение размера словаря
Улучшение семантической согласованности
Улучшения качества эмбеддингов
Обработка полисемии и омонимии
повышение точности в задачах NLP

17.

Как лемматизация может улучшить
работу с эмбеддингами для анализа
семантики.
Лемматизация – это процесс приведения слова к его базовой форме или лемме, что помогает
уменьшить сложность текстовых данных и увеличить их обработку в задачах естественного
языкового обработки (NLP). Это особенно важно при работе с эмбеддингами, которые являются
плотными векторными представлениями слов, отражающими их семантическое значение.
Взаимодействие лемматизации и эмбеддингов может улучшить анализ семантики в нескольких
ключевых аспектах:
Уменьшение размера словаря
Улучшение семантической согласованности
Улучшения качества эмбеддингов
Обработка полисемии и омонимии
повышение точности в задачах NLP

18.

Заключение
В заключении, эффективность стемминга и лемматизации в NLP контекстах значительно зависит от
специфических требований задачи. Лемматизация рекомендуется для задач, требующих высокой
семантической точности и глубокого анализа контекста. В контрасте, стемминг предпочтителен для
сценариев, где первостепенно важна вычислительная эффективность. Будущие исследования могут
сосредоточиться на разработке гибридных методов, которые объединяют преимущества обеих
техник, обеспечивая высокую точность при сохранении эффективности обработки
English     Русский Rules