ТЕХНИКА Звук из текстового ввода

Google представил ИИ-систему, способную генерировать произвольный аудиофрагмент по текстовому вводу. Саунд-дизайнерам приготовиться на выход!

Google выкатил генеративный ИИ, который позволяет трансформировать текстовые запросы в аудио, аналогично тому, как, например, Stable Diffusion или Midjourney генерируют изображения на основе текстового ввода.

Это звучит как кошмар профессиональных саунд-дизайнеров, но, судя по рецензии Music Radar, пока что Google MusicLM им не конкурент.
В обзоре говорится, что MusicLM - это "один из самых продвинутых и функциональных генераторов, позволяющих преобразовывать текст в звук". Модель машинного обучения, на которой тот базируется, обучалась на основе тысяч часов существующих музыкальных записей.

Предполагается, что MusicLM может генерировать отдельные звуки, "затравки" для будущих треков или даже целые композиции.

Для этого потребуется ввести подробные текстовые инструкции. В Google утверждают, что ИИ понимает всё, что связано с жанром, настроением, звучащим инструментом, а также контекстом (утилитарным назначением трека) и уровнем исполнительской техники виртуальных музыкантов.

Тестирование, проведённое сотрудниками Music Radar, показало, что бесплатная браузерная версия MusicLM до заявленных возможностей не дотягивает. Она не способна производить законченных музыкальных композиций. Максимум, что она сгенерирует, это два аудиоклипа продолжительностью по 20 секунд.

Этот генератор можно было бы использовать для генерации произвольных сэмплов для последующего их использования в музыкальных композициях. Это позволило бы решить проблемы с копирайтом... И оставило бы без работы огромное количество саунд-дизайнеров.

На их счастье, пока что MusicLM выдаёт аудио очень низкого качества, с лишними призвукми и прочими артефактами. Как написано в рецензии Music Radar, "всё, что исходит [из MusicLM], звучит попросту странновато, как будто звук телепортировали из параллельной вселенной". Или передали по плохому радиоприёмнику:

Скорее всего, это ограничения нынешней итерации модели машинного обучения, и с высокой долей вероятности это будет исправлено в скором времени.

В ответ на запросы на генерацию барабанного лупа в жанре техно с темпом 130 ударов в минуту MusicLM упрямо не соблюдал темп.

Попытка заставить машину сгенерировать вокал "в стиле Марайи Кэри" также не дала результатов: в системе установлен запрет на имитацию голосов существующих артистов. И, по-видимому, на генерацию вокала в принципе: в ответ на запрос "женские голоса" машина выдала "эфирный хор искажённых голосов инопланетян", ничем не напоминавший живой хор.

Некоторые запросы машина обрабатывала с точностью до наоборот, например, снабжая музыкальный фрагмент ритм-секцией, хотя её просили выдать только соло на синтезаторе.

На просьбу сымитировать джаз 1950-х MusicLM предъявила запись в жанре хип-хоп. Зато с саксофоном.

Журналисты Music Radar в итоге пошли даже на "дообучение" генератора, загрузивв в него некоторое количество новой музыки.

В ответ на дальнейшие запросы MusicLM выдала что-то сверхэкспериментальное, чудные и незнакомые звуки и текстуры. В целом её практическая применимость очень ограничена. По мнению Music Radar, эту систему можно использовать в качестве генератора полуслучайных сэмплов, но и не более того.

Существует довольно большое количество других решений, позволяющих конвертировать введённый текст в звук - в звук человеческой речи, прежде всего: Speechelo, Speechify, Lovo.ai, Synthesia и т.д.

Разработчики состязаются в количестве голосов и акцентов, реалистичности звука, способности воспроизводить различные эмоции.

А вот с генерацией произвольных звуков или пения ситуация несколько сложнее.

Помимо Google MusicLM, исследования в аналогичном направлении проводит Meta (пока что доступны только аудиопримеры, протестировать её самостоятельно пока нельзя).

Довольно убедительные результаты даёт генераор AudioLDM, который можно даже убедить убрать артефакты из сгенерированной записи (пусть и не полностью). Длина аудиофайла, впрочем, составит всего 5 секунд.

Наконец, VoiceMod - это браузерный инструмент для генерации песен по заданному произвольному тексту. Судя по демонстрационному ролику, результаты забавные, но не выдающиеся:

Существует также немало ИИ-композиторов, способных писать музыку в произвольных стилях. О них "Звуки" писали ещё полтора года назад. Лишь некоторые из них способны писать музыкальные композиции самостоятельно "с нуля", но поговаривают, что малобюджетные киностудии и разработчики видеоигр уже вовсю пользуются чем-то подобным. Чтобы не платить композиторам или правообладателям.

Что же касается генераторов произвольных звуков, то ныне существующие и общедоступные пока особо не угрожают ни продюсерам, ни музыкантам, ни саунддизайнерам, ни производителям библиотек сэмплов.

Пока что не угрожают. Но это может очень скоро измениться.

07.07.2023, Юрий ИЛЬИН (ЗВУКИ РУ)

ТЕХНИКА - свежие публикации:

MusicPro - Я буду твоими глазами, 14.01.2026
Британская компания разработала уникальный усилитель со шрифтом Брайля для слепого гитариста »»
MusicPro - 2025: технические итоги, 31.12.2025
2025 год отходит в историю. Но события этих 12 месяцев будут сказываться ещё долго »»
События - Нас взломали! Остальное мы сами испортили, 16.12.2025
Стриминг-сервис SoundCloud лежал несколько дней из-за хакерской атаки. Но проблема не только в ней »»

Свежие альбомы

Все альбомы

Опрос

Реестр иноагентов в России пополняется каждую пятницу. Иноагентами уже стали Нойз, Земфира, Пугачева, Оксимирон и другие музыканты. Изменилось ли ваше отношение к музыкантам-иноагентам?

Я буду продолжать слушать любимую музыку вне зависимости от статуса музыканта

Я буду больше слушать иноагентов

Я планирую больше слушать "патриотов"

Я продолжу слушать музыку зарубежного производства

У меня вообще пропало желание слушать музыку

отправить

Хроника19 января

1943 – В Порт-Артуре, Техас родилась королева блюза и рок-н-роллаДженис Джоплин (полное имя - Janis Lynn Joplin). Выступала в составе Big Brother and the Holding Company, затем в Kozmic Blues Band и Full Tilt Boogie Band. Сольно выпустила четыре студийных альбома, один из которых — посмертный:… »»

Родились

Israel CROSBY

Willie "Big Eyes" SMITH (1936)

Phil EVERLY (1939)

Janis JOPLIN (1943)

Dolly PARTON (1946)

Robert PALMER (1949)

Caron WHEELER (1963)

Trey LORENZ (1969)

Сергей МИХАЛОК (1972)

Алексей ВОРОБЬЕВ (1988)

Добавить факт