Создавать изображения из текста за считанные секунды — и это с помощью обычной видеокарты и без суперкомпьютеров? Как бы причудливо это ни звучало, но это стало возможным благодаря новой модели устойчивого диффузионного ИИ. Основной алгоритм был разработан группой машинного зрения и обучения под руководством профессора Бьорна Оммера (LMU Munich).
«Даже для непрофессионалов, не обладающих художественным талантом и не имеющих специальных компьютерных знаний или компьютерного оборудования, новая модель является эффективным инструментом, позволяющим компьютерам генерировать изображения по команде. Таким образом, модель устраняет барьер для обычных людей, выражающих свое творчество, — рассказывает Оммер. — Но есть преимущества и для опытных художников, которые могут использовать стабильное распространение для быстрого преобразования новых идей в различные графические эскизы».
Исследователи убеждены, что такие инструменты, работающие на базе ИИ, могут расширить возможности создания творческих изображений с помощью кисти и Photoshop так же кардинально, как компьютерная обработка слов произвела революцию в написании текстов ручками и печатными машинками.
В своем проекте ученые LMU опирались на поддержку стартапа Stability.AI, чьи серверы обучали модель ИИ.
«Эта дополнительная вычислительная мощность и дополнительные обучающие примеры превратили нашу модель ИИ в один из самых мощных алгоритмов синтеза изображений», — отмечает ученый.
Особенность подхода заключается в том, что при всей мощи обученной модели она, тем не менее, настолько компактна, что работает на обычной видеокарте и не требует суперкомпьютера, как это было раньше для синтеза изображений. Для этого искусственный интеллект преобразует суть миллиардов обученных изображений в модель ИИ размером всего в несколько гигабайт.
«Как только такой ИИ действительно поймет, что представляет собой автомобиль или какие особенности характерны для художественного стиля, он будет понимать эти точные характеристики и в идеале сможет создавать новые примеры, подобно тому, как ученики в мастерской старого мастера могут создавать работы в том же стиле», — объясняет Оммер.
В достижении цели ученых из LMU — научить компьютеры видеть, то есть понимать содержание изображений — это еще один большой шаг вперед, способствующий дальнейшему развитию фундаментальных исследований в области машинного обучения и компьютерного зрения.
Обученная модель была недавно выпущена бесплатно под лицензией CreativeML Open RAIL-M, чтобы способствовать дальнейшим исследованиям и более широкому применению технологии.
«Нам не терпится увидеть, что будет построено с использованием текущих моделей, и посмотреть, какие дальнейшие работы появятся в результате открытых совместных исследований», — подчеркивает Робин Ромбах, доктор философии, профессор.
Эксклюзивный перевод*
Ведущий автор рубрик «образование», «аналитический блог», «психология». Также занимаюсь переводами с зарубежных источников. Считаю, что от ошибки никто не застрахован, но настоящие СМИ распространяют и комментируют информацию, в достоверности которой они убеждены и источники которой они хорошо знают.