1/31

Восстановление изображения с помощью моментов хана разных порядков

2 слой архитектуры – Свёрточная нейронная сеть

2.48M

Category:

informatics

Чтение по губам с помощью нейронных сетей

1. Чтение по губам

ЧТЕНИЕ ПО ГУБАМ
С ПОМОЩЬЮ НЕЙРОННЫХ СЕТЕЙ

2. Постановка проблемы

ПОСТАНОВКА ПРОБЛЕМЫ
Чтение по губам или визуальное распознавание речи – это задача
восстановления речи из движений губ.
Визуальное распознавание речи позволяет переводить видео поток в текст. В
отличии от аудио распознавания речи оно работает в зашумленных ситуациях.
Чтение по губам может является жизненно важной задачей для людей, чье
взаимодействие c обществом затруднено из-за невозможности говорить или
слышать, что может быть при различных медицинских состояниях.

3. Постановка проблемы

ПОСТАНОВКА ПРОБЛЕМЫ
Вопреки распространенному заблуждению чтение по губам не является чем-то чем можно овладеть и
потом пользоваться без особых проблем.
Чтение по губам затруднено:
отсутствием контекста
схожестью многих звуков
различиями в артикуляции различных людей
скоростью речи, “проглатыванием “ звуков
наличием волос на лице или макияжа
и т. д.
Вплоть до того, что задача становится невыполнимой для людей.

4.

Впервые в работе 2009
года были получены
результаты, согласно
которым компьютер
справлялся с задачей
чтения по губам
лучше, чем человек.
(высокие результаты в
обоих колонках частично
обусловлены
использованием
упрощенных специально
подготовленных данных)
Comparison of human and machine-based lip-reading
Sarah Hilder, Richard Harvey and Barry-John Theobald
School of Computing Sciences
University of East Anglia, UK

5.

Использовались различные подходы:
Инструменты
Accuracy
Active Shape Model (ASM)
Active Appearance Mosel (AAM)
Скрытая марковская модель
44.6 %
Matthews et al. in 2002
Support Vector Machine
58.85%
Zhao et al. in 2009
Deep bottleneck features extraction,
LSTM
58.1%
Petridis and Pantic, 2016
am-LSTM
88.83%
Tian and Weijun, 2017
spatiotemporal 3D CNN, ResNet and
Bidirectional LSTM
88.08%
Tzimiropoulos, 2017

6. Сверточные сети Хана

СВЕРТОЧНЫЕ СЕТИ ХАНА

7.

Во всех предыдущих моделях перед проведением классификации
проводилось извлечение признаков, что отрицательно сказывалось
на количестве расчетов и времени их проведения.
Для борьбы с этими недостатками была предложена Hahn
Convolutional Neural Networks модель, состоящая из:
Моменты Хана (Hanh moments)
Свёрточные нейронные сети (CNN)

8. 1 слой архитектуры - Hanh moments

1 СЛОЙ АРХИТЕКТУРЫ - HANH MOMENTS
Инструмент, позволяющий эффективно выделять наиболее важную
часть изображений с минимумом избыточных данных
Используется на первом слое архитектуры для того, чтобы
извлекать моменты (moments) и скармливать их CNN
Главная цель: уменьшить размерность изображений перед началом
работы с ними

9. Восстановление изображения с помощью моментов хана разных порядков

ВОССТАНОВЛЕНИЕ ИЗОБРАЖЕНИЯ С ПОМОЩЬЮ МОМЕНТОВ ХАНА РАЗНЫХ
ПОРЯДКОВ
Возвращает матрицу моментов размер которой зависит от порядка

10. 2 слой архитектуры – Свёрточная нейронная сеть

2 СЛОЙ АРХИТЕКТУРЫ – СВЁРТОЧНАЯ НЕЙРОННАЯ СЕТЬ
Принимает на вход матрицу моментов вместо изображения и
применяет операции уже к ней
Слои свертки, активации, нормализации, пулинга обрабатывают
поданные данные и обучаются более сложным паттернам и
признакам
Классификация проводится на последнем полносвязном слое

11. 12. Эксперименты и результаты

ЭКСПЕРИМЕНТЫ И РЕЗУЛЬТАТЫ

13. Датасеты

ДАТАСЕТЫ
• AVLetters
OuluVS2
BBC LRW
• 780 видео
• 10 человек
• каждый человек выговаривает
26 букв анг. алфавита по 3 раза
• 52 человека
• Последовательности цифр
• Движения рта зафиксировано с
разных углов
• 500 слов
• На каждое 1000 произношений
разными людьми
• 520 изображений для обучения
• 5850 изображений для
обучения
• Разделение по умолчанию
• 260 для теста
• 1800 для теста
• 5000 эпох
• 1000 эпох
• 105 эпох

14.

o Количество данных
увеличивалось
посредством поворота
изображений на
небольшие углы (до 15
градусов) и отражением
изображений по
горизонтали (DA)
o Для каждого датасета по
разному подбиралось
количество кадров на
фрагмент
o Каждый фрагмент
объединялся в одно
изображение на котором
сохранялся
хронологический порядок

15.

Первый сверточный слой – ядро 3x3, 100 фильтров
Второй сверточный слой – ядро 3x3, 60 фильтров
Первый пулинг (3х3)
Третий сверточный слой – ядро 3x3, 40 фильтров
Второй пулинг (3х3)
Первый полносвязный слой (300 нейронов)
Второй полносвязный слой (240 нейронов)
Выходной слой (26 классов)

16. Результаты Тестирования

РЕЗУЛЬТАТЫ ТЕСТИРОВАНИЯ
AVLetters
OuluVS2

17. Результаты Тестирования

РЕЗУЛЬТАТЫ ТЕСТИРОВАНИЯ
BBC LRW

18. Итоги

ИТОГИ
При использовании Сверточных Нейронных Сетей Хана:
Сложность задачи значительно уменьшается.
Результаты классификации: 59,23% на AVLetters, 93,72% на OuluVS2,
58% на BBC LRW.

19. residual networks и LSTM

RESIDUAL NETWORKS И
LSTM

20.

Следующая модель состоит из трех сетей:
- внешней, осуществляющей пространственно-временную свертку
- ResNet применяющейся к каждому шагу по времени
- Bi-LSTM (Bidirectional Long Short-Term Memory)

21. База Данных

БАЗА ДАННЫХ
Тренировка и оценка
алгоритма осуществляется
на базе данных LRW
500 целевых слов
Целевые слова
произносятся не отдельно, а
являются частями
высказываний
Напр:
Не ”think”,
А “...point, I think the...”
Сеть должна еще и научится
выделять целевые слова

22. Подготовка данных

ПОДГОТОВКА ДАННЫХ
Прежде всего с помощью специальных алгоритмов происходит подготовка
данных:
на лица говорящих помещаются лицевые ориентиры
изображения обрезаются до важной части (области рта)
приводятся к одному размеру
переводятся в оттенки серого
нормализуются

23. I Spatiotemporal front-end

I SPATIOTEMPORAL FRONT-END
Пространственно-временные сверточные слои фиксируют кратковременную
динамику области рта.
Состоят из:
- Сверточный слой с 64 ядрами 5 x 7 x 7 (время, ширина, высота)
- Пакетной нормализации (batch-normalization)
- ReLU

24. II RESNET

…
Полученные карты признаков проходят через
готовый 34-слойный ResNet, изначально
разработанный для ImageNet.
ResNet уменьшает пространственную размерность
данных до одномерного тензора на временной шаг.

25. III Bi-LSTM

III BI-LSTM
LSTM является рекурсивной сетью, то есть
содержит обратные связи. Ее основным
преимуществом перед большинством других
рекурсивных сетей является устойчивость к
проблеме затухающих градиентов. Bi-LSTM это ее
двухнаправленный вариант.

26.

Обучение системы:
1) Вместо Bi-LSTM ставится свертка
2) По достижению сходимости возвращается Bi-LSTM
3) Bi-LSTM тренируется 5 эпох с фиксированными
параметрами свертки и ResNet
4) Система тренируется полностью как обычно

27. Итог

ИТОГ
N1 – 2D свертка, ResNet, свертка вместе LSTM
N2 – 3D свертка, ResNet, свертка вместе LSTM
N3 – 3D свертка, Deep Neural Network, свертка
вместе LSTM
N4 – 3D свертка, ResNet, однослойный Bi-LSTM
(без обучения)
N5 – 3D свертка, ResNet, двухслойный Bi-LSTM
(без обучения)

28. Результаты

РЕЗУЛЬТАТЫ
Помимо работы с
словами из базы данных
вариации данной
архитектуры также
неплохо справляются с
распознаванием и
незнакомых слов.

29. Итог

ИТОГ
В заключение можно сказать, что системы визуального распознавание речи уже
давно превосходят человека и на данный момент могут показывать очень
высокие результаты и при этом продолжают совершенствоваться.
Их использование, особенно вкупе с аудио-распознаванием речи способно
облегчить жизни как и обычных людей, так и повысить доступность окружающей
среды для людей чье взаимодействие с обществом затруднено.

30. Источники

ИСТОЧНИКИ
Lip Reading with Hahn Convolutional Neural Networks
T. Stafylakis, G. Tzimiropoulos, Deep word embeddings for visual speech recognition 2017, In CoRR,
abs/1710.11201.
T. Stafylakis and G. Tzimiropoulos, “Combining Residual Networks with LSTMs for Lipreading,” in Inter-speech,
2017.

31. Спасибо за внимание

СПАСИБО ЗА
ВНИМАНИЕ

English Русский Rules