Similar presentations:
НИР_2_семестр_презентация_Григорьев_ДА_5012_1
1.
Федеральное государственное бюджетноеобразовательное учреждение
высшего образования
«Университет «Дубна»
Институт системного анализа и управления
Исследование эффективности нейронных сетей для
устройства распознавания речи
Выполнил: Григорьев Д. А. 5012
Руководитель: Сычев П. П.
2.
АктуальностьЦель моего исследования заключается в оценке эффективности различных нейронных сетей, работающих на одноплатном
компьютере, для распознавания речи. Дальнейшая разработка устройства, которое будет крепиться на очки и выводить
распознанную речь, обладает потенциалом значительно облегчить жизнь глухих людей. Это устройство будет действовать
подобно субтитрам в реальной жизни, предоставляя возможность глухим людям получать информацию в реальном времени и
активно участвовать в различных ситуациях общения.
Было принято решение создать устройство для распознавания речи, которое поможет глухим людям свободно
взаимодействовать и участвовать в общении, открывая новые горизонты возможностей и способствуя созданию более
инклюзивного общества.
3.
Анализ рынка4.
Live Transcribe (Google)Live Transcribe (Google) – это мобильное приложение, разработанное Google, которое распознает и отображает речь в режиме
реального времени на экране устройства
Преимущества:
·
Доступно на мобильных устройствах с операционной системой Android;
·
работает в режиме реального времени;
·
поддерживает множество языков.
Недостатки:
·
Не доступно для всех операционных систем мобильных устройств;
·
некоторые пользователи могут столкнуться с проблемами аккуратности распознавания речи;
·
для использования требуется использование мобильного устройства.
5.
CaptionCallCaptionCall – это специализированное устройство, предлагающее телефонные услуги для глухих людей. Оно предоставляет
текстовые субтитры в режиме реального времени во время телефонных разговоров, помогая глухим людям лучше понимать
собеседника.
Преимущества:
·
Предоставляет текстовые субтитры в режиме реального времени во время телефонных разговоров;
·
удобное использование для людей с ограничениями слуха при звонках.
Недостатки:
·
Ограничивается только телефонными разговорами;
·
работает на специальных устройствах, которые требуют установки.
6.
Google GlassGoogle Glass – это умные очки от Google, которые объединяют функции распознавания речи, визуальных уведомлений и других возможностей.
Преимущества:
·
Интеграция с функцией распознавания речи позволяет пользователям получать информацию без необходимости использования рук
или каких-либо устройств;
·
очки могут отображать контекстуальные уведомления, например, календарные события, сообщения и другую полезную информацию;
·
встроенная камера позволяет снимать фотографии и видео.
·
Ограниченная жизнь аккумулятора. Пользователям может потребоваться заряжать устройство чаще, особенно при активном
Недостатки:
использовании;
·
юридические и этические проблемы – очки могут восприниматься как нарушение приватности.
·
продажи официально прекращены.
7.
XRAI GlassXRAI Glass – это программный комплекс на базе AR очков Nreal Air, позволяющий переводить речь человека в субтитры в реальном
времени.
Преимущества:
·
Работает в режиме реального времени;
·
для повышения точности распознавания были учтены пожелания международной организации DeafKidz International и
непосредственно глухих и слабослышащих людей;
·
очки дополненной реальности предлагают универсальные возможности для развлечений.
Недостатки:
·
Поддерживает девять языков;
·
некоторые функции могут быть доступны только в платной версии;
·
юридические и этические проблемы – разговоры записываются и
хранятся некоторое время на устройстве.
8.
Что сделано на данный моментВ рамках исследования был приобретен одноплатный компьютер в качестве
платформы для проведения экспериментов по распознаванию речи. Для
анализа была выбрана легковесная модель speech-to-text от компании Mozilla,
которая была интегрирована на данном устройстве.
Проведены первичные тесты по распознаванию речи с использованием данной
модели.
9.
Планы на будущееПолученные результаты первых тестов послужат основой для дальнейших
исследований и улучшений в области устройства распознавания речи на базе
нейронных сетей. Дальнейшие шаги направлены на более глубокий анализ
работы моделей в различных условиях.