С помощью искусственного интеллекта ученые научились превращать тексты в изображения

Создавать изображения из текста за считанные секунды — и это с помощью обычной видеокарты и без суперкомпьютеров? Как бы причудливо это ни звучало, но это стало возможным благодаря новой модели устойчивого диффузионного ИИ. Основной алгоритм был разработан группой машинного зрения и обучения под руководством профессора Бьорна Оммера (LMU Munich).

«Даже для непрофессионалов, не обладающих художественным талантом и не имеющих специальных компьютерных знаний или компьютерного оборудования, новая модель является эффективным инструментом, позволяющим компьютерам генерировать изображения по команде. Таким образом, модель устраняет барьер для обычных людей, выражающих свое творчество, — рассказывает Оммер. — Но есть преимущества и для опытных художников, которые могут использовать стабильное распространение для быстрого преобразования новых идей в различные графические эскизы».

Исследователи убеждены, что такие инструменты, работающие на базе ИИ, могут расширить возможности создания творческих изображений с помощью кисти и Photoshop так же кардинально, как компьютерная обработка слов произвела революцию в написании текстов ручками и печатными машинками.

В своем проекте ученые LMU опирались на поддержку стартапа Stability.AI, чьи серверы обучали модель ИИ.

«Эта дополнительная вычислительная мощность и дополнительные обучающие примеры превратили нашу модель ИИ в один из самых мощных алгоритмов синтеза изображений», — отмечает ученый.

Особенность подхода заключается в том, что при всей мощи обученной модели она, тем не менее, настолько компактна, что работает на обычной видеокарте и не требует суперкомпьютера, как это было раньше для синтеза изображений. Для этого искусственный интеллект преобразует суть миллиардов обученных изображений в модель ИИ размером всего в несколько гигабайт.

«Как только такой ИИ действительно поймет, что представляет собой автомобиль или какие  особенности характерны для художественного стиля, он будет понимать эти точные характеристики и в идеале сможет создавать новые примеры, подобно тому, как ученики в мастерской старого мастера могут создавать работы в том же стиле», — объясняет Оммер.

В достижении цели ученых из LMU — научить компьютеры видеть, то есть понимать содержание изображений — это еще один большой шаг вперед, способствующий дальнейшему развитию фундаментальных исследований в области машинного обучения и компьютерного зрения.

Обученная модель была недавно выпущена бесплатно под лицензией CreativeML Open RAIL-M, чтобы способствовать дальнейшим исследованиям и более широкому применению технологии.

«Нам не терпится увидеть, что будет построено с использованием текущих моделей, и посмотреть, какие дальнейшие работы появятся в результате открытых совместных исследований», — подчеркивает Робин Ромбах, доктор философии, профессор.

Эксклюзивный перевод*

Поделиться:

Подписывайтесь на краткие, но содержательные новости со всего мира
глазами молодого поколения в Телеграм и ВКонтакте.

Почитайте также

«Авито Недвижимость»: каждый третий россиянин решил купить жилье в 2024 году

6 Почти треть российских граждан планирует приобрести жилую недвижимость в этом году (32%). Так показали …