Новый искусственный интеллект Microsoft научился имитировать голос обладая 3 секундным образцом
В четверг исследователи Microsoft объявили о новой модели искусственного интеллекта для преобразования текста в речь под названием VALL-E, которая может точно имитировать голос человека при наличии хотя-бы трехсекундного звукового образца. Как только VALL-E выучит конкретный голос, он может самостоятельно синтезировать звук, уже без образца, сохраняя при этом тембр и эмоциональный тон говорящего.
Его создатели предполагают, что VALL-E можно использовать для высококачественных приложений преобразования текста в речь и ее редактирования в случаях, когда запись человека должна быть изменена в соответствие с текстовой расшифровкой. Это также может быть полезно для создания аудиоконтента в сочетании с другими генеративными моделями ИИ, такими как GPT-3 .
Microsoft называет VALL-E «языковой моделью нейронного кодека» основанной на EnCodec, о котором Meta объявила в октябре 2022 года.Технология анализирует, как звучит человек и разбивает эту информацию на отдельные компоненты, называемые «токенами». Она использует обучающие данные, чтобы сопоставить то, что он «знает» о том, как этот голос будет звучать, если он произнесет другие фразы.
исследователи передали в VALL-E только трехсекундный образец «Speaker Prompt» и текстовую строку (то, что они хотели сказать голосом). В некоторых случаях записи получались удивительно похожими на оригинал. Некоторые результаты VALL-E пока кажутся сгенерированными компьютером, но другие потенциально могут быть ошибочно приняты за человеческую речь.
Помимо сохранения вокального тембра и эмоционального тона говорящего, VALL-E также может имитировать «акустическое окружение» сэмпла аудио. Например, если сэмпл взят из телефонного звонка, аудиовыход будет имитировать акустические и частотные свойства телефонного звонка в синтезированном фрагменте. А образцы Microsoft (в разделе «Синтез разнообразия») демонстрируют, что VALL-E может генерировать вариации тона голоса, изменяя случайное начальное число, используемое в процессе генерации.
Возможно, из-за потенциальной возможности использовать VALL-E в корыстных и незаконных целях, Microsoft не предоставила код VALL-E для экспериментов. Похоже, исследователи осознают потенциальный социальный вред, который может принести эта технология.
— Microsoft.
Его создатели предполагают, что VALL-E можно использовать для высококачественных приложений преобразования текста в речь и ее редактирования в случаях, когда запись человека должна быть изменена в соответствие с текстовой расшифровкой. Это также может быть полезно для создания аудиоконтента в сочетании с другими генеративными моделями ИИ, такими как GPT-3 .
Microsoft называет VALL-E «языковой моделью нейронного кодека» основанной на EnCodec, о котором Meta объявила в октябре 2022 года.Технология анализирует, как звучит человек и разбивает эту информацию на отдельные компоненты, называемые «токенами». Она использует обучающие данные, чтобы сопоставить то, что он «знает» о том, как этот голос будет звучать, если он произнесет другие фразы.
исследователи передали в VALL-E только трехсекундный образец «Speaker Prompt» и текстовую строку (то, что они хотели сказать голосом). В некоторых случаях записи получались удивительно похожими на оригинал. Некоторые результаты VALL-E пока кажутся сгенерированными компьютером, но другие потенциально могут быть ошибочно приняты за человеческую речь.
Помимо сохранения вокального тембра и эмоционального тона говорящего, VALL-E также может имитировать «акустическое окружение» сэмпла аудио. Например, если сэмпл взят из телефонного звонка, аудиовыход будет имитировать акустические и частотные свойства телефонного звонка в синтезированном фрагменте. А образцы Microsoft (в разделе «Синтез разнообразия») демонстрируют, что VALL-E может генерировать вариации тона голоса, изменяя случайное начальное число, используемое в процессе генерации.
Возможно, из-за потенциальной возможности использовать VALL-E в корыстных и незаконных целях, Microsoft не предоставила код VALL-E для экспериментов. Похоже, исследователи осознают потенциальный социальный вред, который может принести эта технология.
Поскольку VALL-E может синтезировать речь, сохраняющую идентичность говорящего, он может нести потенциальные риски неправильного использования модели, такие как подмена голосовой идентификации или выдача себя за конкретного говорящего. Чтобы снизить такие риски, можно создать модель для обнаружения того, был ли аудиоклип синтезирован VALL-E. Мы также будем следовать принципам искусственного интеллекта Microsoft при дальнейшей разработке моделей
— Microsoft.
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас
Спасти планету сможет… африканский червь
В Кении найдено насекомое с удивительными способностями....
Ученые раскрыли тайну сигнала, после которого началось самое мощное извержение в истории
Разгадка оказалась потрясающей во всех смыслах....
«Орешник», «Бук» и «Тополь»: искусный нейминг от российских военных конструкторов
Наука как сбить Запад с толку....
80 000 лет жизни: какие тайны скрывает самое древнее и большое существо на планете?
Залог невероятного долголетия и удивительного выживания обнаружили учёные....
«Запрещенные» опыты на орбите помогли «взломать» сразу несколько законов природы
Американские биохакеры признались, зачем на МКС выращивают крошечные человеческие мозги....
Саблезубый котёнок томился во льдах Якутии 35 тысяч лет
Благодаря находке стало известно, что сородичи пушистика обитали в столь холодных местах....
Ученая вылечила свой рак вирусами собственного производства
Если человек хочет жить — медицина бессильна....
Эти «красные монстры» вообще не должны существовать
Что узнали астрономы о трех невозможно огромных галактиках....
Разгадано учеными: почему города разрушают сердце и разум
Причины, которые нашли исследователи, вас удивят....
Почти бессмертные существа помогут человечеству покорить глубокий космос
Ученым, наконец, удалось «взломать» код поразительной живучести тихоходок....
Ещё один одинокий: в Балтийском море обнаружен дельфин, который может говорить только сам с собой
Совсем как старый вдовец, которого давно не навещали близкие....
Эксперты предсказывают: к концу века из-за изменения климата ежегодно будут гибнуть миллионы
Почему США и Западная Европа могут заплатить самую высокую цену?...
Турбулентность отменяется! А пилоты-люди вообще будут не нужны
Искусственный интеллект может в корне изменить авиацию....
Надеялись на Беса: древние египтянки при беременности хлебали галлюциногенные смеси
Думали, что божок с двусмысленным для нас именем убережёт....
Большой мозг — не значит самый умный
Последнее исследование собак показало парадоксальные результаты....
АД-контроль: новейшая разработка облегчит жизнь гипертоникам
Ультразвуковой пластырь будет следить за давлением нон-стоп....