Google представила генерирующую по текстовому описанию картинки нейросеть

24 мая 2022, Мария Арялина | 👁 21431

Google представила генерирующую по текстовому описанию картинки нейросеть

Она может стать главным конкурентом аналогичной нейросети DALL-E от OpenAI

Google создала нейросеть Imagen, которая способна генерировать изображения на основе текстового описания.

Для распознавания текстового запроса нейросеть использует большие языковые модели, на которых основаны алгоритмы обработки естественной речи. Далее алгоритмы улучшают схематичную картинку размером 64×64 до тех пор, пока искусственный интеллект не решит, что не может сделать его еще более похожим на заданные параметры. После этого размер изображения увеличивается до 256 х 256 пикселей.

В результате изображение уже в высоком качестве доходит до размера 1024×1024. Это происходит не путем масштабирования — суперразрешение AI создает новые детали на картинке, чтобы сделать ее более похожей на текстовый запрос пользователя. Например, в первой версии изображения деталь может иметь ширину лишь 3 пикселя, во второй — 12 пикселей и т.д.

Фото 1 из 8

«Пара роботов ужинает на фоне Эйфелевой башни»

«Мраморная статуя ди-джея Коала перед мраморной статуей проигрывателя. Коала носит большие мраморные наушники»

«Милый корги живет в доме, сделанном из суши»

«Британская короткошерстная кошка в кожаной куртке и ковбойской шляпе катается на велосипеде»

«Сиба-ину в кожаной куртке и шляпке катается на скейтборде»

«Панда в чёрной кожаной куртке и солнечных очках играет на гитаре в парке»

«Картина маслом, на которой енот в красной рубашке и ковбойской шляпе катается на скейтборде на вершине горы»

«Хромированная утка с золотым клювом спорит со злой черепахой в лесу»

В компании утверждают, что ее нейросеть генерирует изображения с «беспрецедентным фотореализмом». Разработчики сравнили Imagen с аналогичной нейросетью DALL-E 2 от OpenAI. По данным Google, тестировщики при сравнении изображений от Imagen и DALL-E 2 чаще отдавали предпочтение изображениям, сгенерированные нейросетью Google.

Imagen пока работает в режиме закрытой бета-версии и недоступна для всех желающих.

«Потенциальные риски неправильного использования вызывают опасения в отношении открытого исходного кода кода и демонстраций. Поэтому мы решили пока не публиковать код и не проводить публичную демонстрацию», — заявили разработчики Imagen.

Сейчас на сайте доступна демо-версия, в которой пользователи не могут сами вводить запросы, а способны лишь выбирать слова из предложенных. Пока не ясно, когда Google предложит желающим воспользоваться Imagen.

Подписывайтесь на наш Telegram-канал, чтобы быть в курсе всех новостей и событий Рунета.

Комментарии 0

Зарегистрируйтесь или , чтобы оставлять комментарии.