Исследование эффективности нейронных сетей для устройства распознавания речи

1.

Федеральное государственное бюджетное
образовательное учреждение
высшего образования
«Университет «Дубна»
Институт системного анализа и управления
Исследование эффективности нейронных сетей для
устройства распознавания речи
Выполнил: Григорьев Д. А. 5012
Руководитель: Сычев П. П.

2.

Актуальность
Цель моего исследования заключается в оценке эффективности различных нейронных сетей, работающих на одноплатном
компьютере, для распознавания речи. Дальнейшая разработка устройства, которое будет крепиться на очки и выводить
распознанную речь, обладает потенциалом значительно облегчить жизнь глухих людей. Это устройство будет действовать
подобно субтитрам в реальной жизни, предоставляя возможность глухим людям получать информацию в реальном времени и
активно участвовать в различных ситуациях общения.
Было принято решение создать устройство для распознавания речи, которое поможет глухим людям свободно
взаимодействовать и участвовать в общении, открывая новые горизонты возможностей и способствуя созданию более
инклюзивного общества.

3.

Анализ рынка

4.

Live Transcribe (Google)
Live Transcribe (Google) – это мобильное приложение, разработанное Google, которое распознает и отображает речь в режиме
реального времени на экране устройства
Преимущества:
·
Доступно на мобильных устройствах с операционной системой Android;
·
работает в режиме реального времени;
·
поддерживает множество языков.
Недостатки:
·
Не доступно для всех операционных систем мобильных устройств;
·
некоторые пользователи могут столкнуться с проблемами аккуратности распознавания речи;
·
для использования требуется использование мобильного устройства.

5.

CaptionCall
CaptionCall – это специализированное устройство, предлагающее телефонные услуги для глухих людей. Оно предоставляет
текстовые субтитры в режиме реального времени во время телефонных разговоров, помогая глухим людям лучше понимать
собеседника.
Преимущества:
·
Предоставляет текстовые субтитры в режиме реального времени во время телефонных разговоров;
·
удобное использование для людей с ограничениями слуха при звонках.
Недостатки:
·
Ограничивается только телефонными разговорами;
·
работает на специальных устройствах, которые требуют установки.

6.

Google Glass
Google Glass – это умные очки от Google, которые объединяют функции распознавания речи, визуальных уведомлений и других возможностей.
Преимущества:
·
Интеграция с функцией распознавания речи позволяет пользователям получать информацию без необходимости использования рук
или каких-либо устройств;
·
очки могут отображать контекстуальные уведомления, например, календарные события, сообщения и другую полезную информацию;
·
встроенная камера позволяет снимать фотографии и видео.
·
Ограниченная жизнь аккумулятора. Пользователям может потребоваться заряжать устройство чаще, особенно при активном
Недостатки:
использовании;
·
юридические и этические проблемы – очки могут восприниматься как нарушение приватности.
·
продажи официально прекращены.

7.

XRAI Glass
XRAI Glass – это программный комплекс на базе AR очков Nreal Air, позволяющий переводить речь человека в субтитры в реальном
времени.
Преимущества:
·
Работает в режиме реального времени;
·
для повышения точности распознавания были учтены пожелания международной организации DeafKidz International и
непосредственно глухих и слабослышащих людей;
·
очки дополненной реальности предлагают универсальные возможности для развлечений.
Недостатки:
·
Поддерживает девять языков;
·
некоторые функции могут быть доступны только в платной версии;
·
юридические и этические проблемы – разговоры записываются и
хранятся некоторое время на устройстве.

8.

Что сделано на данный момент
В рамках исследования был приобретен одноплатный компьютер в качестве
платформы для проведения экспериментов по распознаванию речи. Для
анализа была выбрана легковесная модель speech-to-text от компании Mozilla,
которая была интегрирована на данном устройстве.
Проведены первичные тесты по распознаванию речи с использованием данной
модели.

9.

Планы на будущее
Полученные результаты первых тестов послужат основой для дальнейших
исследований и улучшений в области устройства распознавания речи на базе
нейронных сетей. Дальнейшие шаги направлены на более глубокий анализ
работы моделей в различных условиях.

10.

Спасибо за внимание

English Русский Rules