Нейросеть DALL-E: что это, примеры изображений, перспективы технологии

Содержание

Друзья, наверняка вы уже слышали о нейросети под название DALL-E (DALL·E, DALLE, Dall E) и даже видели картинки, созданные этим искусственным интеллектом. В этой статье хочу подробно рассказать о данной разработке, а также о том, почему некоторые разочаровываются в возможностях DALL-E после личного опыта. Мол, получается, что на тестовых картинках всё замечательно и красиво, а по факту выходит совсем иное.

Что такое DALL-E? Принцип работы нейросети

DALL-E – нейронная сеть, которая способна создавать уникальные изображения из текстового описания. Работает это так: вы пишете, к примеру «Кот катается на скейтборде в лесу», а нейросеть, анализируя эту информацию, выдает вот такую картинку:

Нейросеть DALL-E: что это, примеры изображений, перспективы технологии

Самое примечательное, что DALLE в своем творчестве (иначе назвать это даже невозможно) использует не только известные ей и нам предметы, но и способна создавать абсолютно новые комбинации, производя на свет несуществующие в природе объекты.

Нейросеть DALL-E: что это, примеры изображений, перспективы технологии

Как видим, не зря разработчики данной нейронки вложили в её алгоритм аж 12 миллиардов различных параметров (комбинаций слов и пикселей) на базе GPT-3 (третье поколение алгоритма обработки естественного языка), которые она способна комбинировать между собой. Кстати, насчет разработчиков…

Создателем DALL-E является американская компания OpenAI, одним из основателей которой является никто не иной как Илон Маск. Данная компания ставит своей задачей разработку революционных технологий в области искусственного интеллекта. Как видим, пока это удаётся ей вполне успешно 🙂 Подробнее работе нейросети можно узнать из блога OpenAI

Технология DALL·E очень сложна. Я прочитал с десяток различных статей на эту тему, и никто так и не смог доходчиво (лично для меня) объяснить как принцип работы этой нейросети. Все в один голос утверждают, что простыми словами объяснить это невозможно, а следовательно, не стоит и пытаться. Мол, это чудо, и воспринимайте его как есть 🙂

Нейросеть DALL-E: что это, примеры изображений, перспективы технологии

Более того, результаты, выдаваемые DALLE, оказались настолько фантастически качественными, что разработчики и сами не ожидали такого от своей нейронки! В какой-то момент времени они даже заметили, что нейросеть создала элементы своего собственного языка, которым пытается общаться с самими разработчиками!

Так, ни с того ни с сего, DALL-E начала выдавать вместе с генерируемыми ею картинками какую-то «тарабарщину» — комбинацию букв и слов, которая не встречается ни в одном языке. Но если разработчики вводили ей эти фразы в качестве исходных данных, то нейросеть их вполне понимала и выдавала логически связанные с ними картинки.

Нейросеть DALL-E: что это, примеры изображений, перспективы технологии

К примеру, словосочетание «Apoploe vesrreaitais» означает птиц, а фраза «Contarra ccetnxniams luryca tanniounons» подразумевает под собой жуков или насекомых-вредителей. При совмещении этих понятий одним предложением в запросе нейросеть выдавала птиц, поедающих насекомых 🙂

DALL-E 2 — эволюция искусственного интеллекта

В 2022 году разработчики из OpenAI анонсировали улучшенную нейросеть DALL-E 2, созданную на основе предшественницы. Эта нейронка способна создавать просто невероятные фотореалистичные изображения всего лишь по заданным фразам и целым предложениям. Только посмотрите на что она способна!

Нейросеть DALL-E: что это, примеры изображений, перспективы технологии

DALL·E 2 может работать в трех режимах:

Генерировать картинку с нуля.
Генерировать новые вариации имеющейся картинки.
Дорисовывать части картинки.

Нейросеть DALL-E: что это, примеры изображений, перспективы технологии

Последний режим в буквально смысле ошарашивает! Только посмотрите как DALLE 2 «додумывает» недостающие фрагменты известных нам картин, создавая таким образом более целостный образ:

Нейросеть DALL-E: что это, примеры изображений, перспективы технологии

Если вы вдруг не поняли, то в приведенных парах сверху будет оригинал, а снизу — работа DALLE-2. Видео, где вы своими глазами увидите другие вариации приведенных выше картин, а также некоторых других:

Кстати фоновая музыка, звучащая в этом ролике, была создана мной буквально за пару минут при помощи сервиса Mubert.

Чем отличается нейросеть DALL-E 2 от DALLE?

Среди преимуществ DALL-E 2 над первой версией нейронки можно выделить следующие:

DALL-E 2 создает гораздо более реалистичные изображения, с лучшим качеством. Финальный результат выдается оператору быстрее.
Может выполнять различные процессы редактирования фотографий на изображении. Например, DALL·E 2 можно использовать для добавления объектов в определенную область изображения с тенями, отражениями и текстурами, уже учтенными искусственным интеллектом.
Лучше понимает глобальные сцены, а также лучше распознает объекты на изображении и их взаимосвязь.
Способна воспроизводить изображения в разных стилях, создавая качественно различные вариации одной и той же картинки.
DALL-E 2 позволяет добавить еще одно изображение к оригиналу, а нейросеть объединит изображения и сгенерирует из них новую вариацию.

Как попробовать DALL-E 2?

Инженеры из OpenAI прекрасно осознают революционность своей разработки и к чему может привести её бесконтрольное применение в массах. Взять, к примеру, ту же технологию дипфейков.

Поэтому, несмотря на то что со временем OpenAI собирается выложить код DALL-E в открытый доступ, сейчас попробовать нейросеть можно только по приглашениям, записавшись в лист ожидания. По состоянию на май 2022 более 600 человек из «простых смертных» имеют доступ к нейросети.

Вы также можете подать заявку на получение доступа к DALL·E 2 по этой ссылке: https://labs.openai.com/waitlist Проверьте сами, а вдруг никакого DALLE 2 не существует, а есть большая команда художников, запертая в душном офисе, которая периодически выкладывает свои творения под видом результата творчества искусственного интеллекта 🙂

Ну а пока доступа у вас нет, рекомендую подписаться на инстаграм openaidalle, где разработчики регулярно делятся классными шедеврами кисти искусственного интеллекта.

Нейросеть DALL-E: что это, примеры изображений, перспективы технологии

Dalle Mini (Dalle Mani) – ИИ с открытым исходным кодом

Dall-E mini — это программа искусственного интеллекта для преобразования текста в изображение, которая получила свое название от оригинального Dall-E. Команда энтузиастов-разработчиков этой мини-версии пытается воспроизвести результаты OpenAI с помощью модели с открытым исходным кодом.

Этот вариант нейросети может попробовать любой желающий по ссылке: https://huggingface.co/spaces/dalle-mini/dalle-mini

Помните, в начале статьи я упомянул, что некоторые ожидали от DALL-E 2 очень многого (судя по картинкам, выдаваемым разработчиками), а по факту немного разочаровались в нейросети? Так вот это благодаря тому, что оригинального DALL·E 2 нет в открытом доступе, а Dall-E mini выдаёт, честно говоря, весьма посредственные результаты.

Нейросеть DALL-E: что это, примеры изображений, перспективы технологии

Общий смысл нейросеть безусловно угадывает, но реализация… Впрочем, будем надеяться, что это всё поправимо в будущем.

Пользуясь Dall-E mini, почти все думают, что это и есть оригинальная разработка OpenAI, но это не так! Что Гугл, что Яндекс почему-то не выдают ссылки на официальный сайт Dall-E 2 по соответствующим запросам, а дают ссылки на Dalle Mini, Dalle Mani, ruDALL-E и прочие аналогичные разработки, которые просто на порядки хуже оригинала по выдаваемому результату.

Поэтому и вы не ждите от DALL-E mini чего-то сверхъестественного. Вот пример того, на что способен его искусственный интеллект:

Нейросеть DALL-E: что это, примеры изображений, перспективы технологии

Запрос для генерации картинки надо вводить на английском языке, время создания изображения может занимать до 5 минут.

Подробно о технологии DALL·E mini и её сравнении с Dall-E 2: https://wandb.ai/dalle-mini/dalle-mini/reports/DALL-E-Mini-Explained—Vmlldzo4NjIxODA

ruDALL-E – DALL·E на русском?

ruDALL-E, как я упомянул ранее, является одной из альтернативных разработок, стремящихся воспроизвести результаты оригинальной нейросети от OpenAI. Прямое участие в ней принимали команды Sber AI, SberDevices, Самарского университета, AIRI и SberCloud.

Плюсом ruDALL-E является возможность вводить текстовый запрос на русском языке. Ну а результат вы можете оценить сами.

Нейросеть DALL-E: что это, примеры изображений, перспективы технологии

В настоящее время в open source доступны четыре модели генератора:

ruDALL-E Malevich (XL),
Sber VQ-GAN,
ruCLIP Small
Super Resolution (Real ESRGAN)

Подробно о ruDALL-E можно прочитать на Хабре в блоге компании Сбер.

Применение нейросети DALL-E

Технология преобразование текста в изображения носит поистине революционный характер, который в прямом смысле перевернет многие области. Возьмем, к примеру, художников-иллюстраторов. Если раньше для создания иллюстраций в художественной книге надо было платить за это художнику, то сейчас это можно делать при помощи нейросети совершенно бесплатно. Просто введите отрывок текста в DALL·E, и нейросеть выдаст вам с десяток прекрасных иллюстраций.

Нейросеть DALL-E: что это, примеры изображений, перспективы технологии

Блогерам, веб-мастерам, периодическим изданиям, СМИ и пр. теперь незачем платить за уникальные картинки на фотостоках к своим статьям и публикациям. Буквально за несколько минут можно сгенерировать с десяток отличных картинок абсолютно на любую тему!

Известный журнал Cosmopolitan в одном из своих свежих номеров использовал для иллюстрации обложки картинку, созданную в DALL-E 2. Это прецедент, который несомненно войдет в тренд и послужит громадным стартом применения нейросетей в массмедиа.

Нейросеть DALL-E: что это, примеры изображений, перспективы технологии