Новый искусственный интеллект Microsoft научился имитировать голос обладая 3 секундным образцом
В четверг исследователи Microsoft объявили о новой модели искусственного интеллекта для преобразования текста в речь под названием VALL-E, которая может точно имитировать голос человека при наличии хотя-бы трехсекундного звукового образца. Как только VALL-E выучит конкретный голос, он может самостоятельно синтезировать звук, уже без образца, сохраняя при этом тембр и эмоциональный тон говорящего.
Его создатели предполагают, что VALL-E можно использовать для высококачественных приложений преобразования текста в речь и ее редактирования в случаях, когда запись человека должна быть изменена в соответствие с текстовой расшифровкой. Это также может быть полезно для создания аудиоконтента в сочетании с другими генеративными моделями ИИ, такими как GPT-3 .
Microsoft называет VALL-E «языковой моделью нейронного кодека» основанной на EnCodec, о котором Meta объявила в октябре 2022 года.Технология анализирует, как звучит человек и разбивает эту информацию на отдельные компоненты, называемые «токенами». Она использует обучающие данные, чтобы сопоставить то, что он «знает» о том, как этот голос будет звучать, если он произнесет другие фразы.
исследователи передали в VALL-E только трехсекундный образец «Speaker Prompt» и текстовую строку (то, что они хотели сказать голосом). В некоторых случаях записи получались удивительно похожими на оригинал. Некоторые результаты VALL-E пока кажутся сгенерированными компьютером, но другие потенциально могут быть ошибочно приняты за человеческую речь.
Помимо сохранения вокального тембра и эмоционального тона говорящего, VALL-E также может имитировать «акустическое окружение» сэмпла аудио. Например, если сэмпл взят из телефонного звонка, аудиовыход будет имитировать акустические и частотные свойства телефонного звонка в синтезированном фрагменте. А образцы Microsoft (в разделе «Синтез разнообразия») демонстрируют, что VALL-E может генерировать вариации тона голоса, изменяя случайное начальное число, используемое в процессе генерации.
Возможно, из-за потенциальной возможности использовать VALL-E в корыстных и незаконных целях, Microsoft не предоставила код VALL-E для экспериментов. Похоже, исследователи осознают потенциальный социальный вред, который может принести эта технология.
— Microsoft.
Его создатели предполагают, что VALL-E можно использовать для высококачественных приложений преобразования текста в речь и ее редактирования в случаях, когда запись человека должна быть изменена в соответствие с текстовой расшифровкой. Это также может быть полезно для создания аудиоконтента в сочетании с другими генеративными моделями ИИ, такими как GPT-3 .
Microsoft называет VALL-E «языковой моделью нейронного кодека» основанной на EnCodec, о котором Meta объявила в октябре 2022 года.Технология анализирует, как звучит человек и разбивает эту информацию на отдельные компоненты, называемые «токенами». Она использует обучающие данные, чтобы сопоставить то, что он «знает» о том, как этот голос будет звучать, если он произнесет другие фразы.
исследователи передали в VALL-E только трехсекундный образец «Speaker Prompt» и текстовую строку (то, что они хотели сказать голосом). В некоторых случаях записи получались удивительно похожими на оригинал. Некоторые результаты VALL-E пока кажутся сгенерированными компьютером, но другие потенциально могут быть ошибочно приняты за человеческую речь.
Помимо сохранения вокального тембра и эмоционального тона говорящего, VALL-E также может имитировать «акустическое окружение» сэмпла аудио. Например, если сэмпл взят из телефонного звонка, аудиовыход будет имитировать акустические и частотные свойства телефонного звонка в синтезированном фрагменте. А образцы Microsoft (в разделе «Синтез разнообразия») демонстрируют, что VALL-E может генерировать вариации тона голоса, изменяя случайное начальное число, используемое в процессе генерации.
Возможно, из-за потенциальной возможности использовать VALL-E в корыстных и незаконных целях, Microsoft не предоставила код VALL-E для экспериментов. Похоже, исследователи осознают потенциальный социальный вред, который может принести эта технология.
Поскольку VALL-E может синтезировать речь, сохраняющую идентичность говорящего, он может нести потенциальные риски неправильного использования модели, такие как подмена голосовой идентификации или выдача себя за конкретного говорящего. Чтобы снизить такие риски, можно создать модель для обнаружения того, был ли аудиоклип синтезирован VALL-E. Мы также будем следовать принципам искусственного интеллекта Microsoft при дальнейшей разработке моделей
— Microsoft.
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас
Турецкие археологи обнаружили затерянный мост, способный переписать всю раннюю историю человечества
Оказалось, что научная сенсация все это время... валялась у ученых буквально под ногами...
Эксперты говорят: изобретение ученых из Перми решает одну из самых серьезных и опасных проблем в современной авиации
Американцы потратили на это десятки лет и миллиарды долларов, но открытие сделали в России...
ДНК из ниоткуда: 6000-летние останки в Колумбии ни с кем совпадают по генам. Вообще.
Если у этих людей нет ни предков, ни потомков, то кто они такие?...
В самом большом кратере Луны происходит что-то очень странное
Поэтому астронавты планируют туда заглянуть в самое ближайшее время...
Секретные спутники Илона Маска заподозрили в использовании запрещенных сигналов
Что это значит для России и чем могут ответить наши военные?...
Египетская «Зона 51»: Почему власти полностью засекретили «четвертую пирамиду»?
С 60-х годов ХХ века на объект Завиет-эль-Эриан не попал ни один ученый. Что скрывают военные за колючей проволокой?...
Археологи поражены: 404 тысячи лет назад «римляне» спокойно разделали гигантского слона... 3-сантиметровыми ножичками
Получается, что древние охотники могли справиться с самым большим животным в Европе буквально голыми руками?...
Ученые обнаружили на Кавказе «ужасного» хищника, способного дробить черепа с одного укуса
Почему же 400-килограммовый монстр, побеждавший медведей и саблезубых тигров, все-таки исчез с лица планеты?...
«Черный ящик» раскрыл тайну летучей мыши, пожирающей птиц прямо в полете
Ученые совершенно не ожидали, что рукокрылый властелин ночного неба по свирепости и охотничьему мастерству даст фору даже соколам...
2700 дней понадобилось ученым, чтобы, наконец, раскрыть главную тайну гигантских скатов
Оказалось, что манты ныряют на 1250-метровую глубину вовсе не за едой и не спасаясь от хищников...
В ближайшие 100 лет Юпитер «выстрелит» в Землю как минимум 342 раза
Российские ученые рассчитали: ближайшее «прицеливание» состоится уже 2031 году. Что вообще нам ожидать?...
Нападение акул, считавшихся абсолютно безобидными, вызвало шок у морских биологов
Кто виноват в этой ужасной трагедии? И почему эксперты говорят, что это только начало?...
Мог ли великий художник Клод Моне видеть в ультрафиолетовом спектре, как пчела?
Историки уверены: после операции на глазах с французским живописцем стали происходит очень странные вещи...