Новый искусственный интеллект Microsoft научился имитировать голос обладая 3 секундным образцом
В четверг исследователи Microsoft объявили о новой модели искусственного интеллекта для преобразования текста в речь под названием VALL-E, которая может точно имитировать голос человека при наличии хотя-бы трехсекундного звукового образца. Как только VALL-E выучит конкретный голос, он может самостоятельно синтезировать звук, уже без образца, сохраняя при этом тембр и эмоциональный тон говорящего.
Его создатели предполагают, что VALL-E можно использовать для высококачественных приложений преобразования текста в речь и ее редактирования в случаях, когда запись человека должна быть изменена в соответствие с текстовой расшифровкой. Это также может быть полезно для создания аудиоконтента в сочетании с другими генеративными моделями ИИ, такими как GPT-3 .
Microsoft называет VALL-E «языковой моделью нейронного кодека» основанной на EnCodec, о котором Meta объявила в октябре 2022 года.Технология анализирует, как звучит человек и разбивает эту информацию на отдельные компоненты, называемые «токенами». Она использует обучающие данные, чтобы сопоставить то, что он «знает» о том, как этот голос будет звучать, если он произнесет другие фразы.
исследователи передали в VALL-E только трехсекундный образец «Speaker Prompt» и текстовую строку (то, что они хотели сказать голосом). В некоторых случаях записи получались удивительно похожими на оригинал. Некоторые результаты VALL-E пока кажутся сгенерированными компьютером, но другие потенциально могут быть ошибочно приняты за человеческую речь.
Помимо сохранения вокального тембра и эмоционального тона говорящего, VALL-E также может имитировать «акустическое окружение» сэмпла аудио. Например, если сэмпл взят из телефонного звонка, аудиовыход будет имитировать акустические и частотные свойства телефонного звонка в синтезированном фрагменте. А образцы Microsoft (в разделе «Синтез разнообразия») демонстрируют, что VALL-E может генерировать вариации тона голоса, изменяя случайное начальное число, используемое в процессе генерации.
Возможно, из-за потенциальной возможности использовать VALL-E в корыстных и незаконных целях, Microsoft не предоставила код VALL-E для экспериментов. Похоже, исследователи осознают потенциальный социальный вред, который может принести эта технология.
— Microsoft.
Его создатели предполагают, что VALL-E можно использовать для высококачественных приложений преобразования текста в речь и ее редактирования в случаях, когда запись человека должна быть изменена в соответствие с текстовой расшифровкой. Это также может быть полезно для создания аудиоконтента в сочетании с другими генеративными моделями ИИ, такими как GPT-3 .
Microsoft называет VALL-E «языковой моделью нейронного кодека» основанной на EnCodec, о котором Meta объявила в октябре 2022 года.Технология анализирует, как звучит человек и разбивает эту информацию на отдельные компоненты, называемые «токенами». Она использует обучающие данные, чтобы сопоставить то, что он «знает» о том, как этот голос будет звучать, если он произнесет другие фразы.
исследователи передали в VALL-E только трехсекундный образец «Speaker Prompt» и текстовую строку (то, что они хотели сказать голосом). В некоторых случаях записи получались удивительно похожими на оригинал. Некоторые результаты VALL-E пока кажутся сгенерированными компьютером, но другие потенциально могут быть ошибочно приняты за человеческую речь.
Помимо сохранения вокального тембра и эмоционального тона говорящего, VALL-E также может имитировать «акустическое окружение» сэмпла аудио. Например, если сэмпл взят из телефонного звонка, аудиовыход будет имитировать акустические и частотные свойства телефонного звонка в синтезированном фрагменте. А образцы Microsoft (в разделе «Синтез разнообразия») демонстрируют, что VALL-E может генерировать вариации тона голоса, изменяя случайное начальное число, используемое в процессе генерации.
Возможно, из-за потенциальной возможности использовать VALL-E в корыстных и незаконных целях, Microsoft не предоставила код VALL-E для экспериментов. Похоже, исследователи осознают потенциальный социальный вред, который может принести эта технология.
Поскольку VALL-E может синтезировать речь, сохраняющую идентичность говорящего, он может нести потенциальные риски неправильного использования модели, такие как подмена голосовой идентификации или выдача себя за конкретного говорящего. Чтобы снизить такие риски, можно создать модель для обнаружения того, был ли аудиоклип синтезирован VALL-E. Мы также будем следовать принципам искусственного интеллекта Microsoft при дальнейшей разработке моделей
— Microsoft.
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас
Парадокс Великой Зеленой стены: Китай посадил 78 миллиардов новых деревьев, но климат стал только хуже. Как так вышло?
Ученые назвали причины, почему самый грандиозный экологический проект за всю историю в итоге обернулся головной болью для миллионов китайских граждан...
Марс отменяется: три причины, почему российские эксперты ставят крест на Красной планете
Почему пробирка с Марса опаснее любого астероида, как галактические лучи «взрывают» мозг и при чем тут Китай? Честный разбор рисков от Российской академии наук...
«Не повторяйте наших ошибок!» 100 лет борьбы с лесными пожарами обернулись катастрофой для США
Эксперты рассказали, почему, казалось бы, проверенная тактика только усугубила ситуацию с лесным огнем...
Темная сторона Рима: выяснилось, что Империя веками «выкачивала» здоровье из покоренных народов
Новые находки заставили ученых признать: для простых людей римский «прогресс» был скорее приговором, чем спасением. Но почему же так вышло?...
Мегамонстры с 7-го этажа: в древних океанах шла такая война хищников, где у современных косаток не было бы ни единого шанса
Ученые рассказали, куда исчезли «боги» мезозойских морей и почему сейчас их существование было бы невозможно...
ДНК 4000-летней овцы оказалось ключом к древней тайне, стоившей жизни миллионам
Поразительно, но археологи нашли штамм древней чумы, кошмаривший всю Евразию, в самом таинственном российском городе — Аркаиме. Почему же так получилось?...
Супертелескоп James Webb только запутал ученых, а планета-«близнец» Земли стала еще загадочнее
Эксперты рассказали, почему самый мощный телескоп в истории не смог разобраться с атмосферой TRAPPIST-1e. Аппарат не виноват. Но тогда кто?...
Встречи с неведомым: завершаем чтение дневников разведчика и писателя Владимира Арсеньева
Часть третья: таинственный огонь в лесу, свет из облаков, призрак в тумане и странный дым на море...
Первая «чернокожая британка» оказалась белой: новое исследование заставило историков полностью пересмотреть портрет женщины из Бичи-Хед
Почему ученые так сильно ошиблись с ее внешностью? И стоит ли после этого доверять реконструкциям по ДНК?...
Новое исследование показало: если бы не этот «российский ген», древние люди вряд ли бы заселили Америку
Ученые рассказали, почему Алтай в ДНК — это главный секрет феноменального здоровья индейцев...
Мощнее леса в десятки раз: в ЮАР нашли «живые камни», которые выкачивают CO₂ с бешеной скоростью
Микробиалиты могли бы спасти Землю от потепления, но у этих «каменных насосов» есть один нюанс...
20-летнее наблюдение со спутников «сломало климат»: Теперь ученым придется полностью менять все теории
Зато теперь понятно, почему в двух близких городах могут быть... разные времена года...
Грядет научный прорыв: Зачем в последние годы ученые по всему миру создают очень странные компьютеры?
Новые аппараты… не просто живые: они стирают различия между ЭВМ и человеческим мозгом...