Similar presentations:
NLP. Сравнение стемминга и лемматизации
1.
NLP. Сравнение стемминга илемматизации.
Выполнил: Лазаренков Никита КМБО-02-20
2.
Что такое NLP?Обработка естественного языка, или NLP(Natural Language Processing), — это
междисциплинарная область науки, фокусирующаяся на взаимодействии компьютеров и
реального человеческого языка. NLP предполагает разработку алгоритмов и моделей,
позволяющих компьютерам понимать, интерпретировать и генерировать человеческий язык
осмысленным и полезным способом. Цель состоит в том, чтобы позволить машинам
понимать человеческий язык и реагировать на него, как люди, и выполнять такие задачи, как
языковой перевод, анализ настроений, распознавание речи, поиск информации, ответы на
вопросы, обобщение текста и многое другое.
Для достижения этой цели NLP включает в себя различные методы и методологии, взятые
из лингвистики и информатики, включая статистические подходы и подходы машинного
обучения, глубокое обучение, понимание естественного языка (NLU), генерацию
естественного языка (NLG) и компьютерную лингвистику.
Конвеер
NLP
3.
СтеммингЛемматизация
Урезает слово до их основ, не всегда
оставляя действительные слова.
Учитывает контекст и преобразует слово в
его значимую базовую форму, которая
называется леммой.
4.
Подготовка текстак стеммингу/лемматизации
Токенизация текста
5.
Подготовка текстак стеммингу/лемматизации
Удаление стоп-слов
6.
Алгоритмыстемминга
The LancasterStemmer The PorterStemmer
Абстрактный класс
Функция стемминга, которая
использует стеммер, передаваемый в
качестве параметра
The SnowballStemmer
Экземпляры каждого из классов
Stemmers
Передача стеммера и очищенного
текста в функцию stem
7.
Алгоритмы стеммингаРезультаты стемминга
8.
Алгоритмы стеммингаСкорость выполнения
9.
Алгоритмы лемматизацииWordNet Лемматизатор
Загрузка
словаря
Экземпляр лемматизатора
Функция
лемматизации
10.
Алгоритмы лемматизацииРезультат лемматизации WordNet
11.
Алгоритмы лемматизацииPOS-теги
Метод lemmatize принимает необязательный
параметр pos , который указывает часть речи, к
которой мы классифицируем слово, подлежащее
лемматизации. Возможные значения этого
параметра:
• а для прилагательных,
• n для существительных,
• r для наречий,
• s для деепричастий
• v для глаголов,
• со значением по умолчанию n
Разные результаты без и с
этим дополнительным тегом POS
12.
Алгоритмы лемматизацииМорфологический анализатор pymorphy2
Анализ слова бутявковедами
Анализ слова
стали
13.
Сравнениестемминга и лемматизации
Стемминг
Лемматизация
Преимуществ
а
Недостатки
Преимуществ
а
Недостатки
Быстродействие
Низкая точность
Высокая точность
Требует больше ресурсов
Уменьшение
размера словаря
Ограниченная
применимость
Лучшее понимание текста
Медленеее стемминга
Полезна для специфических
задач
Сложность реализации
Простота
реализации
Не учитывает контекст
14.
Сравнениестемминга и лемматизации
Cтемминг лучше
использовать для более
коротких запросов, а
лемматизацию лучше
использовать для более
длинных запросов
15.
Как лемматизация может улучшитьработу с эмбеддингами для анализа
семантики.
Эмбеддинги – это векторные представления, используемые для преобразования высокоразмерных данных
(например, слов, предложений, абзацев, или даже целых документов) в плотные векторы меньшей размерности.
Эти векторные представления обучаются таким образом, чтобы отражать семантические, синтаксические и
относительные отношения между данными, на которых они были обучены. В контексте естественного языкового
обработки (NLP), эмбеддинги слов являются наиболее распространенным типом, хотя эмбеддинги могут также
применяться к символам, предложениям, абзацам и даже целым документам.
Ключевые аспекты эмбеддингов:
Семантическое богатство
Уменьшение размерности
Обучение:
Применение
Контекстуализация
16.
Как лемматизация может улучшитьработу с эмбеддингами для анализа
семантики.
Лемматизация – это процесс приведения слова к его базовой форме или лемме, что помогает
уменьшить сложность текстовых данных и увеличить их обработку в задачах естественного
языкового обработки (NLP). Это особенно важно при работе с эмбеддингами, которые являются
плотными векторными представлениями слов, отражающими их семантическое значение.
Взаимодействие лемматизации и эмбеддингов может улучшить анализ семантики в нескольких
ключевых аспектах:
Уменьшение размера словаря
Улучшение семантической согласованности
Улучшения качества эмбеддингов
Обработка полисемии и омонимии
повышение точности в задачах NLP
17.
Как лемматизация может улучшитьработу с эмбеддингами для анализа
семантики.
Лемматизация – это процесс приведения слова к его базовой форме или лемме, что помогает
уменьшить сложность текстовых данных и увеличить их обработку в задачах естественного
языкового обработки (NLP). Это особенно важно при работе с эмбеддингами, которые являются
плотными векторными представлениями слов, отражающими их семантическое значение.
Взаимодействие лемматизации и эмбеддингов может улучшить анализ семантики в нескольких
ключевых аспектах:
Уменьшение размера словаря
Улучшение семантической согласованности
Улучшения качества эмбеддингов
Обработка полисемии и омонимии
повышение точности в задачах NLP
18.
ЗаключениеВ заключении, эффективность стемминга и лемматизации в NLP контекстах значительно зависит от
специфических требований задачи. Лемматизация рекомендуется для задач, требующих высокой
семантической точности и глубокого анализа контекста. В контрасте, стемминг предпочтителен для
сценариев, где первостепенно важна вычислительная эффективность. Будущие исследования могут
сосредоточиться на разработке гибридных методов, которые объединяют преимущества обеих
техник, обеспечивая высокую точность при сохранении эффективности обработки