Новый искусственный интеллект Microsoft научился имитировать голос обладая 3 секундным образцом
В четверг исследователи Microsoft объявили о новой модели искусственного интеллекта для преобразования текста в речь под названием VALL-E, которая может точно имитировать голос человека при наличии хотя-бы трехсекундного звукового образца. Как только VALL-E выучит конкретный голос, он может самостоятельно синтезировать звук, уже без образца, сохраняя при этом тембр и эмоциональный тон говорящего.
Его создатели предполагают, что VALL-E можно использовать для высококачественных приложений преобразования текста в речь и ее редактирования в случаях, когда запись человека должна быть изменена в соответствие с текстовой расшифровкой. Это также может быть полезно для создания аудиоконтента в сочетании с другими генеративными моделями ИИ, такими как GPT-3 .
Microsoft называет VALL-E «языковой моделью нейронного кодека» основанной на EnCodec, о котором Meta объявила в октябре 2022 года.Технология анализирует, как звучит человек и разбивает эту информацию на отдельные компоненты, называемые «токенами». Она использует обучающие данные, чтобы сопоставить то, что он «знает» о том, как этот голос будет звучать, если он произнесет другие фразы.
исследователи передали в VALL-E только трехсекундный образец «Speaker Prompt» и текстовую строку (то, что они хотели сказать голосом). В некоторых случаях записи получались удивительно похожими на оригинал. Некоторые результаты VALL-E пока кажутся сгенерированными компьютером, но другие потенциально могут быть ошибочно приняты за человеческую речь.
Помимо сохранения вокального тембра и эмоционального тона говорящего, VALL-E также может имитировать «акустическое окружение» сэмпла аудио. Например, если сэмпл взят из телефонного звонка, аудиовыход будет имитировать акустические и частотные свойства телефонного звонка в синтезированном фрагменте. А образцы Microsoft (в разделе «Синтез разнообразия») демонстрируют, что VALL-E может генерировать вариации тона голоса, изменяя случайное начальное число, используемое в процессе генерации.
Возможно, из-за потенциальной возможности использовать VALL-E в корыстных и незаконных целях, Microsoft не предоставила код VALL-E для экспериментов. Похоже, исследователи осознают потенциальный социальный вред, который может принести эта технология.
— Microsoft.
Его создатели предполагают, что VALL-E можно использовать для высококачественных приложений преобразования текста в речь и ее редактирования в случаях, когда запись человека должна быть изменена в соответствие с текстовой расшифровкой. Это также может быть полезно для создания аудиоконтента в сочетании с другими генеративными моделями ИИ, такими как GPT-3 .
Microsoft называет VALL-E «языковой моделью нейронного кодека» основанной на EnCodec, о котором Meta объявила в октябре 2022 года.Технология анализирует, как звучит человек и разбивает эту информацию на отдельные компоненты, называемые «токенами». Она использует обучающие данные, чтобы сопоставить то, что он «знает» о том, как этот голос будет звучать, если он произнесет другие фразы.
исследователи передали в VALL-E только трехсекундный образец «Speaker Prompt» и текстовую строку (то, что они хотели сказать голосом). В некоторых случаях записи получались удивительно похожими на оригинал. Некоторые результаты VALL-E пока кажутся сгенерированными компьютером, но другие потенциально могут быть ошибочно приняты за человеческую речь.
Помимо сохранения вокального тембра и эмоционального тона говорящего, VALL-E также может имитировать «акустическое окружение» сэмпла аудио. Например, если сэмпл взят из телефонного звонка, аудиовыход будет имитировать акустические и частотные свойства телефонного звонка в синтезированном фрагменте. А образцы Microsoft (в разделе «Синтез разнообразия») демонстрируют, что VALL-E может генерировать вариации тона голоса, изменяя случайное начальное число, используемое в процессе генерации.
Возможно, из-за потенциальной возможности использовать VALL-E в корыстных и незаконных целях, Microsoft не предоставила код VALL-E для экспериментов. Похоже, исследователи осознают потенциальный социальный вред, который может принести эта технология.
Поскольку VALL-E может синтезировать речь, сохраняющую идентичность говорящего, он может нести потенциальные риски неправильного использования модели, такие как подмена голосовой идентификации или выдача себя за конкретного говорящего. Чтобы снизить такие риски, можно создать модель для обнаружения того, был ли аудиоклип синтезирован VALL-E. Мы также будем следовать принципам искусственного интеллекта Microsoft при дальнейшей разработке моделей
— Microsoft.
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас
Искали золото в Австралии, а обнаружили следы взрыва тысяч атомных бомб
Почему находка древней катастрофы сильно продвинуло исследование Марса?...
Секреты «русского гена»: о чем молчит гаплогруппа R1a1?
67 общих маркеров ДНК: половина современных русских мужчин и две трети мужчин из высших каст Северной Индии происходят от одного предка. И не только......
Непотушенный окурок взорвал целый город: чудовищная катастрофа и чудовищная ложь в США
Почему власти десятилетиями умалчивали истинную причину самого мощного техногенного ЧП в истории Штатов?...
Если высохнет Каспий: почему это особенно опасно для России?
Прогнозы пугают: уникальное море-озеро может уменьшиться почти на 40%. И это катастрофа...
Третий сын Сталина: родство подтвердил уникальный документ из Красноярского архива
Будущий вождь обещал жениться, но судьба и история оказались против этого брака...
«Код» таинственной золотой подводной сферы наконец-то взломан спустя три года
Ученые говорят: это был настоящий ДНК-детектив. Внеземная «капсула» оказалась «деталью» морского гиганта...
Гениально, многоэтажно и смертельно опасно: как римляне научились строить высотные дома
Почему реальный Древний Рим выглядел вообще не так, как нам показывают в исторических фильмах?...
Почему индейцы — родственники россиян: что нашли в ДНК коренных американцев?
Как связан древний мальчик с Байкала с племенем в Амазонии? Какой подарок от древних людей помог заселить Америку?...
Первый раз настоящий сахар нашли в космосе: почему ученые в восторге?
Чем космический сахар отличается от земного? И почему биологи говорят, что это сенсация?...
Тайный алтарь на развалинах мертвого города майя обнаружили археологи
Выяснилось, что индейцы долгие столетия продолжали исповедовать, казалось бы, давно забытый древний культ...
За что Владимир Ленин трижды выдвигался на Нобелевскую премию?
Почему самая большая «мирная» награда так и не дошла до главного большевика?...
Старше на 500 лет: что скрывает «тестовая модель» Стоунхенджа?
Сначала «тренировались» на дереве, а потом перешли на камень...
Прорыв в астрономии: найти жизнь в космосе будет гораздо проще
Ученых не пугает даже погрешность в 20%. Зато будут просканированы тысячи планет...