17 дек 2022 51

Модель ИИ Riffusion сочиняет музыку на основе визуализаций

Музыка, созданная искусственным интеллектом (ИИ) — это уже достаточно инновационная концепция. Но разработка Riffusion выводит её на новый уровень: создаёт музыку, взяв за пример не звуки, а их изображения.

Diffusion — технология машинного обучения для создания изображений, которая за последний год обогатила мир ИИ. Две самые известные модели — это DALL-E 2 и Stable Diffusion. Метод доказал свою эффективность в разных направлениях и очень удобен для тонкой настройки. То есть обученной модели можно задать вводные, чтобы она создала больше примеров похожего контента.

То, что Сет Форсгрен и Айк Мартирос сделали для своего хобби-проекта Riffusion — это тонкая настройка «Стабильной диффузии» по спектрограммам.

Мы с Айком играем в небольшой группе. И проект начали просто потому, что любим музыку и не знали, возможно ли вообще в Stable Diffusion использовать спектрограмму для преобразования в звук

— Сет Форсгрен, разработчик Riffusion.

Спектрограммы — это визуальные отображения звука, которые показывают амплитуду разных частот. Форсгрен и Мартирос приготовили спектрограммы музыки и назвали полученные изображения соответствующе: «блюзовая гитара», «джазовое пианино», «афробит» и тому подобное. После ввода в модель этой коллекции, ИИ «получил представление» о том, как «выглядят» определённые звуки и как их можно воспроизводить или комбинировать.

Модель оказалась способной обрабатывать спектрограммы и выдавать звук, соответствующий подсказкам, таким как «фанковое пианино», «джазовый саксофон» и так далее. В проекте Riffusion обнаружили, что если ИИ задали, например, подсказки «церковные колокола» и «электронные ритмы», программа постепенно и «естественно» переходит от одной к другой, и даже в такт. Получается странный, интересный звук, хотя и не особенно сложный или точный, отметил обозреватель TechCrunch.

Словно оправдываясь, Форсгрен пояснил, что «тренеры» ИИ не пытались создать классическую трёхминутную песню с повторяющимися припевами и куплетами. Для этого, вероятно, нужно построить модель более высокого уровня.

Собственный вывод «Вслух.net» — сайт Riffusion.com получился занятной онлайн-игрушкой для знающих толк в музыке и к тому же интересующихся достижениями ИИ.

Дмитрий Ладыгин
riffusion.com

Наши новостные каналы

Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.

ВКонтакте Дзен Одноклассники

32 удивительных подарка за последние 20 лет: ученые пытаются понять, за что косатки «балуют» людей

Модель ИИ Riffusion сочиняет музыку на основе визуализаций

32 удивительных подарка за последние 20 лет: ученые пытаются понять, за что косатки «балуют» людей

Найдено идеальное место для жизни на Марсе

Уникальная находка в Нидерландах: археологи обнаружили римский лагерь далеко за пределами Империи

Тайна разгадана: стало известно, почему большинство кошек предпочитают спать строго на одном боку

«Вертолетная» конструкция да Винчи может сделать беспилотники тише, быстрее и даже дешевле

Ученые и режиссеры все время обманывали нас насчет динозавров

Ученые хотят создать хранилище микробов, чтобы те… не вымерли