Компания Stability AI, которая создала технологию искусственного интеллекта Stable Diffusion для конверсии текста в визуализацию, представила открытую версию нейросети Stable Audio, способную генерировать короткие аудиофрагменты на основе текстовых аннотаций. Stable Audio функционирует на той же базе методов, на которых основана работа Stable Diffusion по производству изображений.
«Stability AI широко известна своими достижениями в области изображений, однако теперь мы презентуем наш дебютный продукт для создания музыкальных и аудиокомпозиций, который мы назвали Stable Audio, — поделился вице-президент по звуковым вопросам в Stability AI, Эд Ньютон-Рекс. — Концепция довольно проста: вы описываете музыку или звуки, которые вы хотели бы услышать, в тексте, и наша система производит их для вас».
Эд имеет определённый опыт в сфере компьютерной музыки: ещё в 2011 году он основал стартап Jukedeck, который в 2019 году приобрёл TikTok. Но технология, которая стала базой для Stable Audio, происходит не от Jukedeck, а от внутренней исследовательской лаборатории Stability AI, занимающейся музыкальной тематикой под названием Harmonai, основанной Заком Эвансом. Эванс пояснил, что текстовая модель работает на технологии, известной как подготовка аудио-контрастного языка (CLAP).
Модель Stable Audio содержит приблизительно 1,2 миллиарда параметров, что почти совпадает с первоначальной версией Stable Diffusion для визуализации текста. Создание базовых звуковых композиций за счёт технологии не является чем-то непрерывно новым.
Ранее использовался принцип так называемой символьной генерации, применяемый обычно при работе с форматом MIDI (цифровой интерфейс музыкальных инструментов). Генеративные способности ИИ Stable Audio позволяют пользователям создавать свежую музыку, которая не ограничена повторяющимися последовательностями нот, традиционными для MIDI и символьной генерации. Stable Audio взаимодействует непосредственно с нарезками звука для обеспечения более высокого качества итогового продукта. Система обучалась на основе более 800 000 фрагментов лицензированной музыки из аудиобиблиотеки AudioSparks.
Любое использование материалов допускается только с указанием источника infopovod.ru