arXiv: создан энергоэффективный ИИ для преобразования текста в аудио

Генеративные системы искусственного интеллекта (ИИ) вдохновят на взрыв творчества в музыкальной индустрии и за ее пределами, считают исследователи из Университета Суррея, которые приглашают публику протестировать их новую модель преобразования текста в аудио.

AudioLDM — это новая система на основе искусственного интеллекта из Суррея, которая позволяет пользователям отправлять текстовое приглашение, которое затем используется для создания соответствующего аудиоклипа. Система может обрабатывать подсказки и доставлять клипы, используя меньшую вычислительную мощность, чем современные системы ИИ, без ущерба для качества звука или способности пользователей манипулировать клипами.

Широкая публика может опробовать AudioLDM, посетив его удобное пространство для лица. Их код также доступен с открытым исходным кодом на GitHub с более чем 1000 звездами.

Такая система может использоваться звукорежиссерами в различных приложениях, таких как создание фильмов, дизайн игр, цифровое искусство, виртуальная реальность, метавселенная и цифровой помощник для слабовидящих.

Хаохе Лю, руководитель проекта из Университета Суррея, отмечает: «Генеративный ИИ обладает потенциалом для преобразования любого сектора, включая создание музыки и звука. С помощью AudioLDM мы показываем, что любой может создавать высококачественные и уникальные сэмплы за считанные секунды с минимальными вычислительными мощностями. Хотя есть некоторые законные опасения по поводу технологии, нет никаких сомнений в том, что ИИ откроет двери для многих в этих творческих отраслях и вдохновит на взрыв новых идей «.

Модель Суррея с открытым исходным кодом построена полууправляемым способом с использованием метода, называемого контрастивным языком- предварительная подготовка аудио (CLAP). Используя метод CLAP, AudioLDM можно обучать на огромных объемах разнообразных аудиоданных без текстовой маркировки, что значительно повышает производительность модели.

 «Особенность AudioLDM заключается не только в том, что он может создавать звуковые клипы из текстовых подсказок, но и в том, что он может создавать новые звуки на основе того же текста, не требуя переподготовки. Это экономит время и ресурсы, поскольку не требует дополнительного обучения. Поскольку генеративный ИИ становится неотъемлемой частью нашей повседневной жизни, важно, чтобы мы начали думать об энергии, необходимой для питания компьютеров, на которых работают эти технологии. AudioLDM — это шаг в правильном направлении «, — рассказывают разработчики.

Сообщество пользователей создало множество музыкальных клипов с использованием AudioLDM в разных жанрах.

AudioLDM — это исследовательский демонстрационный проект, основанный на действующем в Великобритании исключении из авторских прав на интеллектуальный анализ данных для некоммерческих исследований.

Статья опубликована на сервере препринтов arXiv.

Эксклюзивный перевод

Фото: narcosis-css.ru

Поделиться:

Подписывайтесь на краткие, но содержательные новости со всего мира
глазами молодого поколения в Телеграм и ВКонтакте.

Почитайте также

Имплантируемые батареи, потребляющие кислород, помогают убить рак

496 Несмотря на десятилетия исследований и десятки миллиардов долларов, потраченных на исследования и лечение во …