Добро пожаловать на однодневный экскурс по синтезированным голосам!

1. Добро пожаловать на однодневный экскурс по синтезированным голосам!

5 слайдов, которые помогут вам вкратце разобраться в теме.

2. 11:00. Знакомство.

Начнём с самого начала!
NNSVS (или Neural Network Singing Voice Synthesizer)
впервые вышла на свет 10 мая 2020 года!
Это искусственный интеллект с открытым исходным
кодом, направленный на синтезацию голоса, созданный
инженером-программистом и исследователем Рюити
Ямамото.
Целью проекта было создание механизма синтеза
голоса в исследовательских целях и стремление сделать
инструмент удобным для любого пользователя, тем
самым расширяя базу данных. Так как это ИИ, который
обучается, каждый пользователь, используя его, влияет
на развитие.
Можете больше ознакомиться в статье:
https://vocalsynth.fandom.com/wiki/NNSVS
Это Рюити :) Такой маленький, а уже гений

3. 11:45. Немножко отдыха ^^

Посмотрим на цветы:

4. 11:50. Как создать наш первый голос?

Краткий план, из чего состоит процесс:
1. Пение! Нам нужен материал, на котором будет основываться
голос, поэтому нам нужна база данных. Если вы хотите
синтезировать не свой голос, тогда вам нужно запись нужного
вам голоса минимум от получаса беспрерывного пения и
Звучит всё просто, но здесь есть куча мелких деталей.
Вот САМЫЙ подробный гайд на свете:
https://docs.google.com/document/d/1uMsepxbdUW65P
fIWL1pt2OM6ZKa5ybTTJOpZ733Ht6s/edit?tab=t.0
говорения.
2. Редакция голоса! ИИ воспринимает абсолютно весь
материал, поэтому если вы хотите наиболее качественный
результат, то вам нужно обработать аудио так, чтобы не было
шумов, длинных пауз, неудачных фрагментов и прочего.
3. Маркировка звуков! Это очень длительный процесс, но один
из самых главных. ИИ нужно дать понять фонемы, поэтому
наше отчищенное аудио мы разбираем на каждую буковку,
вздох и паузу: на аудиодорожке мы помечаем марками, где
какая буква и что где находится.
4. Тренинг! Упакованный пакет марок мы даём ИИ на
тренировку :) Если вас не удовлетворил результат,
продолжайте тренинги, пока не достигнете идеала!

5. 14:00. Перерыв на обед…

Приятного аппетита!

6. 15:00. Закрепим знания видео!

Вот парочка видео от энтузиастов
1
Видеогайд по маркировке(~5мин):
https://m.youtube.com/watch?v=J6aLPAvGIUU
2
Видеогайд по тренингу ИИ(~30мин):
https://youtu.be/Sxt11TAflV0?si=yn8U0pa0obqAIwCJ

7. 15:35. Перерывчик…

Посмотрим на красивый пейзаж:

8. 15:40. А зачем мы его изучали?..

На самом деле, синтез голоса же имеет кучу приспособлений! Например, звонить бабушкам и мошенничать :)
Вообще программа Diffsinger привязана к софту OpenUTAU, способствующему созданию песен, которые исполняют виртуальные
певцы. Но применение можно придумать любое, например, синтезирование голосов уже ушедших актеров в кино.
Попробуйте сами!
(вот вам дополнительные материалы для изучения в свободное время:
https://docs.google.com/document/d/1zn_GZKGAuhPM7np88aOgDH052tAE44U7oLn3O4r090U/edit#he
ading=h.mnlnkbi32wrd,
https://github.com/MoonInTheRiver/DiffSinger,
https://github.com/openvpi/DiffSinger,
https://diffsinger.com/)

9. Не теряйтесь!

Данная тема ещё плохо развита в ру-сегменте, но вот вам пара ссылок, если у вас появятся вопросы или вы захотите обсудить
данную тему с другими пользователями:
https://discord.gg/eZ9r3arr
Форум: https://vocaverse.network/

10. До скорых встреч!

Мой тг
Связаться со мной:
Я в ВКонтакте!

English Русский Rules