22 сен 2023 98

Озвученные искусственным интеллектом книги будут звучать так, как вы захотите

Исследователи из Майкрософт, Массачусетского технологического института и проекта «Гутенберг», который хранит цифровой архив общедоступной литературы еще до появления Интернета, объявили об инициативе, позволяющей красиво озвучить самые разные книги искусственно генерируемой речью.

В самой автоматической озвучке любимых романов нет ничего нового, эта технология существует уже много лет. Но анонс нового поколения аудиокниг описывает подход, который создает по-живому звучащие произведения с помощью вокализации, основанной на последних разработках в рамках преобразования текста в речь искусственным интеллектом. Такая технология, конечно же, экономит время и затраты.
Современные общедоступные аудиокниги во многом страдают от слишком монотонного, неестесвенного повествования. Новый подход позволит передать характерные эмоциональные нюансы в произведении.

Мы используем генератор речи и систему определения эмоций для динамического изменения голоса и тона чтения в зависимости от контекста.

— Брендан Уолш, инженер-программист Майкрософт

С помощью этой разработки повествование, например, будет читаться одним голосом, а диалоги персонажей рассказа — другими. Тон и стиль речи определяются искусственным интеллектом.

Такая технология делает отрывки с несколькими персонажами и эмоциональными диалогами более реалистичными и увлекательными.

— Брендан Уолш

Пользователи также смогут настроить звучание голоса, высоту, скорость и интонацию по своему вкусу.

Разработка, позволяющая создавать собственные аудиокниги

Исследователи отметили, что готовят живую демонстрацию, которая позволит публике создать аудиокнигу со своим собственным голосом. Для этого потребуются лишь небольшие образцы их речи, которые будут использоваться для озвучки целого произведения.

В апреле прошлого года газета Wall Street Journal сообщила, что компания DeepZen Ltd. использовала образцы голоса актера Эдварда Херрманна, погибшего почти десять лет назад, для озвучивания десятков аудиокниг. А с помощью технологии генеративного искусственного интеллекта образцы его голоса были использованы для точного построения плавного диалога с естественной интонацией, практически неотличимой от записей реального голоса покойного актера.

Проект «Гутенберг» уже разместил в Интернете около 5000 книг, общая продолжительность которых в аудиоформате составляет примерно 35 000 часов. Любой желающий может войти в систему и послушать бесплатно интересующее его произведение. Вскоре создатели проекта предложат пользователям возможность создавать собственные аудиокниги. Для этого нужно будет заполнить голосовой профиль, прочитав несколько предложений. Сайт создаст голос, сгенерированный искусственным интеллектом, который станет сразу же доступен для прослушивания.

Пользователи смогут произнести предисловие или посвящение своим голосом, а затем загрузить полный текст своей книги. После завершения они получат электронное письмо со ссылкой на произведение с собственной озвучкой.