Использование искусственных нейронных сетей для автоматического исправления ошибок в набираемом тексте

1.

МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ
КАЗАНСКИЙ (ПРИВОЛЖСКИЙ) ФЕДЕРАЛЬНЫЙ УНИВЕРСИТЕТ
Курсовая работа
Использование искусственных нейронных
сетей для автоматического исправления
ошибок в набираемом тексте
Студент
Научный руководитель
3 курса группы 05-206
К.П.Н., доцент кафедры ТФиП
А. Д. Васильев
С. В. Маклецов
Казань — 2025

2.

Цель и задачи исследования
Целью курсовой работы является исследование многоэтапного подхода к автоматической коррекции текстовых
ошибок на основе искусственных нейронных сетей, способного учитывать орфографические, грамматические и
контекстуальные аспекты языка.
Для достижения поставленной цели необходимо решить следующие задачи:
1
3
Проанализировать теоретические основы и
2
Изучить архитектуры и типы искусственных
ключевые методы обработки естественного языка,
нейронных сетей, применяемых для решения задач
применяемые для исправления ошибок
текстовой коррекции
Описать концептуальную многоэтапную структуру
4
Определить подходы к обучению и оценке
систем автоматической коррекции, основанную на
эффективности предложенной модели, включая
проанализированных подходах
выбор метрик качества и анализ существующих
решений

3.

Эволюция подходов к коррекции текста
Традиционные подходы (до ИНС)
Современные подходы на основе ИНС
Поиск в словаре
Архитектура Seq2Seq с механизмом внимания
Анализ N-грамм
Архитектура Transformer
Редакционное расстояние
Многоэтапные (гибридные) архитектуры
Фонетические алгоритмы

4.

Ключевые архитектуры нейронных сетей для обработки текста
Архитектурный принцип
Принцип обработки данных
Seq2Seq + механизм внимания
Transformer
Многоэтапные (гибридные) архитектуры
Рекуррентная сеть с механизмом
Не рекуррентная сеть с механизмом
Комбинация нескольких моделей и
внимания.
самовнимания.
подходов.
Последовательный на всех этапах. И
Параллельный на этапе энкодера и
Зависит от компонентов. Часто
энкодер, и декодер обрабатывают
обучения декодера. Последовательный
представляет собой последовательность
данные пошагово.
при работе декодера.
этапов, каждый из которых может работать
как параллельно, так и последовательно.
Ключевой механизм
Механизм внимания.Помогает декодеру
Механизм самовнимания.Позволяет
Специализация компонентов.Разные части
"заглядывать" в нужные части входной
каждому токену взаимодействовать со
архитектуры решают разные подзадачи.
последовательности при генерации
всеми остальными токенами в
каждого выходного токена.
последовательности для вычисления
контекстно-зависимых представлений.
Типичные применения
Машинный перевод, генерация
Практически все NLP задачи.
Задачи исправления текста.
Модель для автоматического
GPT (Generative Pre-trained Transformer),
GECToR (Grammatical Error Correction: Tag,
исправления опечаток при поиске
T5 (Text-To-Text Transfer Transformer).
Not Rewrite).
исправлений для опечаток при поиске.
Примеры моделей
(Купер, ex СберМаркет), Google Neural
Machine Translation (GNMT).

5.

Многоэтапная архитектура: оптимальное решение для
задачи исправления ошибок в тексте
Предварительная обработка и нормализация
Детектирование и классификация ошибок
Цель этого этапа — привести необработанные данные к
Здесь система идентифицирует потенциально
унифицированному формату, пригодному для
некорректные токены и определяет тип допущенной
дальнейшего машинного анализа.
ошибки.
Генерация кандидатов на исправление и ранжирование
Применение исправлений и пост-обработка
Для каждого ошибочного токена система формирует
На этой стадии лучший кандидат из ранжированного
список вероятных корректных вариантов. Основным
списка заменяет ошибочный токен в тексте.
инструментом для этого служит вычисление
редакционного расстояния.

6.

Методы оценки эффективности системы
Precision (Точность)
Recall (Полнота)
F1-мера (F-score)
Определяет долю правильных
Определяет долю найденных
Среднее гармоническое между
исправлений среди всех
системой ошибок среди всех
точностью и полнотой. Это
изменений, предложенных
реально существующих ошибок в
сбалансированный показатель,
системой. Высокое значение
тексте. Высокое значение
который отражает общую
указывает на минимальное
указывает на способность
эффективность системы.
количество ложных срабатываний.
обнаруживать большинство
Формула: TP / (TP + FP).
проблем.
Формула: 2 * (P * R) / (P + R).
Формула: TP / (TP + FN).
На практике часто используется F0.5-мера, которая придает больший вес точности (precision), так как ложные
исправления могут раздражать пользователя сильнее, чем пропущенные ошибки.

7.

Сравнение современных моделей для коррекции ошибок
В настоящее время для достижения высоких точности и полноты в задаче исправления ошибок используются
специализированные модели, зачастую построенные на базе архитектуры трансформер.Модели T5 и GECToR
демонстрируют различные подходы к применению трансформеров в этой области.
Модель
T5 (Text-to-Text
Precision
Recall
(Точность)
(Полнота)
—
—
F1-мера
F0.5-мера
Дополнительные сведения
—
75.88
Использовалась модель
Transfer
T5-xxl (11B параметров).
Transformer)
Бенчмарк — BEA-2019 (test).
GECToR
79.2
53.9
64.1
72.4
Использовалась
(Grammatical
наилучшая (по F0.5) single-
Error Correction:
модель GECToR из
Tag, Not Rewrite)
оригинальной статьи.
Бенчмарк — BEA-2019 (test).

8.

Методы и техники обучения моделей автоматической
коррекции текста
Метод (техника) обучения
Обучение с учителем
Трансферное обучение и Fine-tuning
Преимущества
Недостатки
Высокая точность в целевой задаче
Предсказуемое поведение модели
Хорошие результаты при наличии
Риск переобучения
размеченных данных
Ограниченная способность к обобщению
Экономия вычислительных ресурсов
Зависимость от качества базовой
Быстрая адаптация к новой задаче
Хорошая работа на малых наборах
размеченных данных
модели
Риск потери языковых особенностей
исходного набора данных
данных
Аугментация данных
Требует большого количества
Увеличение объёма тренировочных
Риск генерации нереалистичных данных
данных
Возможноcть ненамеренно внести
Снижение риска переобучения
смещения в данные

9.

Спасибо за внимание!
Готов ответить на Ваши вопросы.

English Русский Rules