Переводчик будущего: нейросеть vs человек

2.75M

Category:

software

Переводчик будущего: нейросеть vs человек

1. Переводчик будущего: нейросеть vs человек

Информационные технологии в переводческой деятельности»
Переводчик будущего:
нейросеть vs человек
Вкалывают роботы,
Счастлив человек...
Л.А. Горохова, ПГУ

2.

Нужно ли переводчикам
бояться нейросетей
«Гугла»?
https://geektimes.ru/post/286692/
Нейросеть vs человек

«Переводчик — это тот, кто отлично знает свой язык, хорошо понимает чужой и может точно
передать оттенки смысла».
80% профессиональных переводчиков — плохие. Они сидят на требованиях
законодательства и/или местных обычаев. 80% переводческих контор живут при нотариусах.
Для нижних 80% не изменится ничего. Они и так зарабатывают не потому что переводчики, а
потому что бюрократы самого нижнего уровня.
верхние 3%:
Самый ответственный 1%: синхронный перевод очень важных переговоров между крупными
корпорациями, в ООН и т.п. Одна ошибка переводчика может привести к атомной войне.
Переводчик должен идеально знать оба культурных контекста своих рабочих языков. Такие
переводчики могут не бояться ИИ: никто никогда не доверит такую ответственность машине.
Следующий 1% — это художественные переводчики. Далеко не всякий дипломированный
переводчик справится с переводом романа, не говоря уже о переводе поэзии.
Самый технически сложный (для нейросети — вообще невозможный) 1% - это научнотехнический перевод. если иностранная команда «совсем ускакала» вперёд, у «догоняющих»
учёных есть два варианта в лингвистическом смысле: калькировать или переводить. этим
людям нечего бояться, потому что они сами формируют язык, вводят в него новые слова и
термины. Нейросети всего лишь учатся на их решениях. К тому же, эти учёные и инженеры не
на переводах зарабатывают.
«Средний класс», хорошие профессиональные переводчики, но не топы. С одной стороны,
они ещё защищены бюрократией; с другой— это уже сегодня современные работники с
высокой автоматизацией труда. Их работа уже сейчас начинается с составления «словарика»
терминов, чтобы перевод был единообразен, а дальше, по сути, состоит в редактировании
текста в специализированном софте типа trados. Нейросети уменьшат количество
необходимых правок и увеличат производительность труда, но принципиально ничего не
изменят.
Нейросеть vs человек

4.

Итого, слухи о скорой смерти профессии обычного переводчика
немного преувеличены. На всех уровнях немного ускорится
работа и немного увеличится конкуренция, но — ничего
необычного.
Нейросеть vs человек

5.

Нельзя ли подойти к задаче автоперевода с другой стороны: создать ограниченные
формализованные версии языков с фиксированным списком конструкций и слов специально
для технических текстов? Тогда их перевести будет не сложнее чем XML преобразовать.
Внедрение все более и более сильного ИИ в перевод увеличит лишь количество отсебятины,
привносимой в изначальный смысл. Так как наиболее сильный интеллект, имеющийся на
планете на сегодня — человеческий, именно так и поступает. Ибо он уже «автор», «он так
видит».
Мне кажется, что переводчики не нужны (в перспективе). И не потому, что ИИ разовьется, а
потому, что в идеале следует переходить на один универсальный язык. И это произойдет, хоть
и не без скрипа. Уже сегодня многие профессиональные области настолько привязаны к
конкретному языку, что проще изучить его, чем всю жизнь мучиться с переводами.
Человек, задача которого перевести с одного языка на другой документ, не обязательно должен
«владеть тонкостями языка», есть масса случаев, когда это избыточно. Например, если
компании нужно перевести руководство пользователя к чайнику, то достаточно просто не
делать грубых ошибок.
Компьютеры подъедают рабочие места людей низкой квалификации. Людям с высокой
квалификацией бояться нечего.
«Никто никогда не доверит такой ответственный перевод машине» - Смешно читать. Автопилот
УЖЕ доверяют машине, а эта ответственность намного выше.
А как насчет постоянного появления новых реалий, терминов, которые, как снежный ком,
нарастают именно в результате небывалого технического прогресса?
Человеку за этой гонкой не успеть, а машина в реальном времени будет свой скил прокачивать
по мере появления новых реалий.
Нейросеть vs человек

6.

Как работает нейронный машинный
перевод?
https://habrahabr.ru/company/lokalise/blog/334342/
Нейронный машинный перевод

7.

Треугольник Вокуа (1968):
Процесс преобразования исходного предложения в целевое
(разница в уровнях внутри треугольника представляет глубину
процесса анализа исходного предложения)
Нейронный машинный перевод

8.

3 технологии автоматического
перевода:
машинный перевод на базе правил
машинный перевод на базе фраз
нейронный машинный перевод
The smart mouse plays violin.
Нейронный машинный перевод

9.

Машинный перевод на базе правил
Процесс строго следует треугольнику Вокуа, анализ очень часто завышен, а процесс
генерации сводится к минимальному;
Все три этапа перевода используют базу данных правил и лексических элементов, на которые
распространяются эти правила;
Правила и лексические элементы заданы однозначно, но могут быть изменены лингвистом.
Уровни анализа:
Частеречный анализ: каждому слову присваивается своя «часть речи», которая является
грамматической категорией.
Морфологический анализ: слово «plays» распознается как форма глагола «Play».
Семантический анализ: некоторым словам присваивается семантическая категория.
Например, «Violin» — инструмент.
Составной анализ: некоторые слова сгруппированы. «Smart mouse» — это группа
существительного.
Анализ зависимостей: слова и фразы связаны с «ссылками», при помощи которых происходит
идентификация объекта и субъекта действия основного глагола «Plays».
Нейронный машинный перевод

10.

Интерпретация на целевом языке перевода:
Нейронный машинный перевод

11.

Тогда правила генерации на французском языке будут иметь следующий
вид:
Прилагательное, выраженное словосочетанием, следует за существительным — с
несколькими исключениями.
Определяющее слово согласовано по числу и роду с существительным, которое
оно определяет.
Прилагательное согласовано по числу и полу с существительным, которое оно
определяет.
Глагол согласован с подлежащим.
Итоговая версия перевода:
Нейронный машинный перевод

12.

Машинный перевод на базе фраз
Машинный перевод на базе фраз не следует процессу, сформулированному
Вокуа. В процессе этого типа машинного перевода не проводится никакого анализа
или генерации, но результат не является детерминированным. Это означает, что
технология может генерировать несколько разных переводов одного и того же
предложения из одного и того же источника, а суть подхода заключается в выборе
наилучшего варианта.
Эта модель перевода основана на трех базовых методах:
Таблица фраз, которая дает варианты перевода и вероятность их употребления в
этой последовательности на исходном языке.
Таблица изменения порядка, которая указывает, как могут быть переставлены
слова при переносе с исходного на целевой язык.
Языковая модель, которая показывает вероятность для каждой возможной
последовательности слов на целевом языке.
Нейронный машинный перевод

13.

Из этой таблицы генерируются тысячи возможных вариантов перевода
предложения, например:
Нейронный машинный перевод

14.

Поисковые алгоритмы предпочитают использовать
последовательности слов, которые являются наиболее
вероятными переводами исходных с учетом таблицы
изменения порядка.
Это позволяет с высокой точностью генерировать правильную
последовательность слов на целевом языке.
Нейронный машинный перевод

15.

Нейронный машинный перевод
Нейронный машинный перевод имеет следующие особенности:
«Анализ» называется кодированием, а его результатом является
загадочная последовательность векторов.
«Перенос» называется декодированием и непосредственно генерирует
целевую форму без какой-либо фазы генерации. Это не строгое
ограничение и, возможно, имеются вариации, но базовая технология
работает именно так.
Нейронный машинный перевод

16.

2 фазы процесса перевода:
Первая фаза: каждое слово исходного предложения проходит через «кодер»,
который генерирует то, что мы называем «исходным контекстом», опираясь при этом
на текущее слово и предыдущий контекст.
Последовательность исходных контекстов (ContextS 1,… ContextS 5) является
внутренней интерпретацией исходного предложения по треугольнику Вокуа
Нейронный машинный перевод

17.

Первым шагом кодера является поиск каждого исходного слова
внутри таблицы.
Слова, обладающие общими свойствами и признаками, будут
расположены близко друг к другу.
Нейронный машинный перевод

18.

Второй шаг имеет следующий вид:
На этом этапе формируется полная последовательность с упором на «исходный
контекст», после чего целевые слова генерируются одно за другим с учетом:
• «целевого контекста», сформированного в связке с предыдущим словом;
• значимости «контекстного источника», который представляет собой смесь
различных «исходных контекстов», опираясь на конкретную модель под
названием «модель внимания» (Attention Model) («модели внимания» выбирают
исходное слово для использования в переводе на любом этапе процесса);
• предыдущего слова с использованием вложения слов для преобразования его в
вектор, который будет обрабатываться декодером.
Нейронный машинный перевод

Переводчик будущего: нейросеть vs человек

1. Переводчик будущего: нейросеть vs человек

2.

3.

4.

5.

6.

7.

8.

9.

10.

11.

12.

13.

14.

15.

16.

17.

18.

19.

20.

21.

22.