Намедни исследователи Google опубликовали статью с описанием результатов работы инструмента искусственного интеллекта (ИИ), созданного для создания музыки. Инструмент под названием MusicLM — не первый музыкальный инструмент запущкнный с помощьюИИ. Но примеры, которые предоставляет Google, демонстрируют музыкальные творческие способности, основанные на ограниченном наборе описательных слов. Давайте рассмотрим эту тему подробно и выясним, как же
Инструмент Google AI создает музыку из письменных описаний
ИИ показывает, как сложные компьютерные системы были обучены вести себя по-человечески.
Такие инструменты, как ChatGPT , могут быстро создавать или генерировать письменные документы, которые хорошо сравнимы с работой людей. ChatGPT и подобные системы требуют мощных компьютеров для работы со сложными моделями машинного обучения. Компания OpenAI из Сан-Франциско запустила ChatGPT в конце прошлого года.
Разработчики обучают такие системы на огромных объемах данных, чтобы изучить методы воссоздания различных форм контента. Например, компьютерный контент может включать письменные материалы, элементы дизайна, искусство или музыку.
ChatGPT в последнее время привлек большое внимание своей способностью генерировать сложные тексты и другой контент из простого описания на естественном языке.
Google MusicLM: как всё работает
Инженеры Google объясняют систему MusicLM следующим образом: пользователь придумывает слово или слова, которые описывают музыку, которую он хочет создать с помощью инструмента.
Например, пользователь мог ввести в систему такую короткую фразу: «непрерывная успокаивающая скрипка, сопровождаемая мягким звуком гитары». Введенные описания могут включать различные музыкальные стили, инструменты или другие существующие звуки.
Несколько различных музыкальных примеров, созданных MusicLM, были опубликованы в Интернете. Некоторая сгенерированная музыка была получена из описаний, состоящих всего из одного или двух слов, таких как «джаз», «рок» или «техно». Система создала другие примеры из более подробных описаний, содержащих целые предложения.
В одном примере исследователи Google включают следующие инструкции для MusicLM: «Основной саундтрек к аркадной игре. Он динамичный и оптимистичный, с запоминающимся риффом электрогитары. Музыка повторяющаяся и легко запоминающаяся, но с неожиданными звуками…»
В получившейся записи музыка, кажется, очень близка к описанию. Команда сказала, что чем более подробным будет описание, тем лучше система сможет его воспроизвести.
Модель MusicLM работает аналогично системам машинного обучения, используемым ChatGPT. Такие инструменты могут давать результаты, подобные человеческим, потому что они обучаются на огромных объемах данных. В системы загружается множество различных материалов, что позволяет им осваивать сложные навыки для создания реалистичных работ.
В дополнение к созданию новой музыки из письменных описаний, команда сказала, что система может также создавать примеры, основанные на собственном пении, гудении, насвистывании или игре на инструменте человека.
Исследователи заявили, что инструмент «воспроизводит высококачественную музыку… в течение нескольких минут, сохраняя при этом верность сигналу обработки текста».
В настоящее время команда Google не выпустила модели MusicLM для публичного использования
Это отличается от ChatGPT, который был доступен онлайн для пользователей для экспериментов в ноябре.
Однако Google объявил, что выпускает «высококачественный набор данных» из более чем 5500 пар написания музыки, подготовленный профессиональными музыкантами под названием MusicCaps. Исследователи предприняли этот шаг, чтобы помочь в разработке других музыкальных генераторов ИИ.
Исследователи MusicLM заявили, что, по их мнению, они разработали новый инструмент, который поможет любому быстро и легко создавать высококачественные музыкальные подборки. Тем не менее, команда заявила, что также признает некоторые риски, связанные с процессом машинного обучения.
Одной из самых больших проблем, которую выявили исследователи, была «предвзятость, присутствующая в обучающих данных». Предвзятость может включать слишком много одной стороны и недостаточно другой. Исследователи сказали, что это поднимает вопрос «о целесообразности создания музыки для культур, недостаточно представленных в обучающих данных».
Команда заявила, что планирует продолжить изучение любых системных результатов, которые можно было бы считать культурным присвоением . Цель состоит в том, чтобы ограничить предубеждения за счет дополнительной разработки и тестирования.
Кроме того, исследователи заявили, что планируют продолжать совершенствовать систему, включая генерацию текстов, обработку текста и улучшение качества голоса и музыки.
Брайан Линн написал эту историю для VOA Learning English на основе отчетов Google.
