Нейросеть DeepSinger генерирует голос, который поёт на китайском и английском

Алгоритмы Искусственный интеллект Звук
Исследователи из Чжэцзянского университета и компании Microsoft разработали нейросеть DeepSinger , которая может генерировать голос, поющий на нескольких языках. Нейросеть обучается, захватывая голос исполнителей из различных песен. Как объясняют исследователи, поющие голоса имеют более сложные паттерны и ритмы, чем обычные. Кроме того, как указывает VentureBeat , существует не так много общедоступных наборов данных по обучению пению. Песни, которые используются в процессе обучения, должны анализироваться вручную на уровне текста и звука. DeepSinger, по словам авторов разработки, преодолевает эти проблемы. Нейросеть работает в несколько этапов. Сначала она сканирует популярные песни в интернете. Затем разделяет вокальные и инструментальные партии с помощью инструмента Spleeter и делит вокал на фонемы. Для извлечения фонем исследователи разработали модель выравнивания текста и музыки. Она позволяет автоматически извлекать каждую единицу звука в песне. После этого при помощи технологии Microsoft FastSpeech алгоритм формирует собственную «модель пения». Как утверждают исследователи, у DeepSinger есть несколько преимуществ перед другими нейросетями, синтезирующими певческий голос. «Насколько нам известно, это первая подобная система, которая напрямую добывает данные для обучения с музыкальных сайтов и которая способна синтезировать пение на разных языках», — указывают авторы проекта в статье на Arxiv.org . В ходе экспериментов DeepSinger просканировал десятки тысяч песен из Интернета на китайском, кантонском и английском языках. Исследователи сообщают, что DeepSinger может синтезировать голос высокого качества с точки зрения как точности звучания, так и «естественности голоса». См. также:  « В МТИ разработали нейросеть, которая определяет мелодию по движениям музыкантов » « Какие нейросети умеют «петь» и исполнять дэт-метал » « Искусственный интеллект и музыка »)
Теги:
Хабы: