Similar presentations:
Технологии распознавания речи в работе письменного переводчика
1. Технологии распознавания речи в работе письменного переводчика
Дмитрий Троицкий, к.т.н., доц.,директор агентства переводов TTS
2. Цель: повышение производительности при письменном переводе
• Узкое место: преобразование текста на пути«мозг переводчика – цифровой носитель»
150…200 знаков в минуту
Перевод по хорошо знакомой тематике
выполняется со скоростью набора текста на
клавиатуре
3. Предлагаемое решение: распознавание речи
Современные технологии:Распознавание offline – непригодно для
практического использования
Распознавание online с использованием
распределенных вычислений – Google
Speech API (разрабатывается с 2011 г
группой из 32 человек). API бесплатна для
разработчиков ПО
4. Принцип работы Google Speech API
АЦПhttps Сервер https
Файл
FALC
Служебные
данные
Текстовая
строка
5. Особенности Google Speech API
Отсутствие каких-либо настроек распознаванияПоддержка многих языков с автоопределением
(иногда ошибается и вместо русского слова
выдает аналогичное английское)
Наличие обширных словарей (знает даже очень
редкие слова)
Учет результатов поисковых запросов в Интернете
(вероятностных связей между словами)
Изредка возникают «затыки» - временная
недоступность сервера
6. Качество распознавания
Google не сообщает % распознаванияВ статье Julius Adorf Web Speech API (KTH
Royal Institute of Technology, Stockholm)
приводятся следующие данные для
английского языка:
В среднем 75…85%
7. Применение в работе письменного переводчика
Сервер Googleтекст
Локальное
приложение
CAT-система
Приложение разработано в среде Delphi XE2 и выполняет следующие функции:
Запись звука с выбранного источника в FLAC-файл (начало и конец записи – по
нажатию и отпусканию заданной в настройках комбинации клавиш)
Отправка FLAC-файла на сервер Google и получение ответа
Вставка полученной текстовой строки в любое приложение
8. Оценка эффективности внедрения
150…200 знаков в минуту350…450 знаков в минуту
Значительно меньшая утомляемость
(на управление мелкой моторикой
рук тратится заметная часть
«вычислительной мощности» мозга)
Вместо туннельного синдрома –
тонзиллит
Упрощение диверсификации для
устных переводчиков, переходящих
на письменный перевод
9. Из личного опыта
Качество микрофона, внешние шумы – не влияютна распознавание (частотный диапазон голоса
очень невелик)
Плохо распознаются окончания русских слов
(«переводчики», «переводчика», «переводчику»…)
Лучше распознается быстро произносимый текст
(видимо, API сделано под темп речи английского
языка)
Говорить надо естественно, с обычной интонацией,
не пытаясь выделять слова, удлинять паузы между
ними и пр. Не надо «усиленно» диктовать, как
лектор на лекции!
10. Основные преимущества
Заметный рост производительностиОтсутствие опечаток: все слова подставляются из
словарей
Снижение утомляемости
повышение качества: устраняется подсознательное
желание «подсократить перевод», чтобы набирать
поменьше букв
Основные недостатки
Требуется обязательное повторное вычитывание (я
привлекаю корректора) для контроля окончаний и
проверки, не проскочило ли похожее по звучанию
слово («двух местных жителей» – «двухместных
жителей»)
11. Спасибо за внимание, готов ответить на ваши вопросы!
Выражаю благодарность Ирине Бариновой,модератору секции устного перевода сайта
«Город переводчиков», за ценные советы и
поддержку при подготовке данного доклада.
Спасибо за внимание, готов ответить
на ваши вопросы!