Google представила генерирующую по текстовому описанию картинки нейросеть
Она может стать главным конкурентом аналогичной нейросети DALL-E от OpenAI
Google создала нейросеть Imagen, которая способна генерировать изображения на основе текстового описания.
Для распознавания текстового запроса нейросеть использует большие языковые модели, на которых основаны алгоритмы обработки естественной речи. Далее алгоритмы улучшают схематичную картинку размером 64×64 до тех пор, пока искусственный интеллект не решит, что не может сделать его еще более похожим на заданные параметры. После этого размер изображения увеличивается до 256 х 256 пикселей.
В результате изображение уже в высоком качестве доходит до размера 1024×1024. Это происходит не путем масштабирования — суперразрешение AI создает новые детали на картинке, чтобы сделать ее более похожей на текстовый запрос пользователя. Например, в первой версии изображения деталь может иметь ширину лишь 3 пикселя, во второй — 12 пикселей и т.д.
В компании утверждают, что ее нейросеть генерирует изображения с «беспрецедентным фотореализмом». Разработчики сравнили Imagen с аналогичной нейросетью DALL-E 2 от OpenAI. По данным Google, тестировщики при сравнении изображений от Imagen и DALL-E 2 чаще отдавали предпочтение изображениям, сгенерированные нейросетью Google.
Imagen пока работает в режиме закрытой бета-версии и недоступна для всех желающих.
Сейчас на сайте доступна демо-версия, в которой пользователи не могут сами вводить запросы, а способны лишь выбирать слова из предложенных. Пока не ясно, когда Google предложит желающим воспользоваться Imagen.
Подписывайтесь на наш Telegram-канал, чтобы быть в курсе всех новостей и событий Рунета.