The rich text element allows you to create and format headings, paragraphs, blockquotes, images, and video all in one place instead of having to add and format them individually. Just double-click and easily create content.
The rich text element allows you to create and format headings, paragraphs, blockquotes, images, and video all in one place instead of having to add and format them individually. Just double-click and easily create content.
The rich text element allows you to create and format headings, paragraphs, blockquotes, images, and video all in one place instead of having to add and format them individually. Just double-click and easily create content.
A rich text element can be used with static or dynamic content. For static content, just drop it into any page and begin editing. For dynamic content, add a rich text field to any collection and then connect a rich text element to that field in the settings panel. Voila!
Headings, paragraphs, blockquotes, figures, images, and figure captions can all be styled after a class is added to the rich text element using the "When inside of" nested selector system.
В 2021 году появился уникальный инструмент генеративной графики – нейронная сеть DALL-E. Она основана на GPT-3 - третьем поколении алгоритма обработки естественного языка, а именно, английского. Обучали нейросеть на суперкомпьютере Microsoft Azure AI, загрузив более 600 Гб текстов.
Именно на архитектуре GPT-3 и была создана DALL·E, которая совместила передовую лингвистическую модель с функционалом генерации изображений. В конце 2021 появилась модель, обрабатывающая запросы на русском языке - ruDALL-E.
Нельзя сказать, что иллюстраторы и дизайнеры больше не нужны. Можно сказать, что они получили инструмент, существенно расширяющий их возможности. Вариативность нейросети поражает воображение, и предлагаемые ей "креативы" можно использовать как банк для вдохновения или как экономию времени на "рукотворной" разработке digital-графики.
В апреле 2022 года появилась версия 2 и стала новым прорывом в сфере генераторов изображений. DALL-E 2 может создавать абсолютно новое изображение, которое комбинирует отдельные несвязанные объекты на основе семантического подобия.
Нейросеть может даже трансформировать существующие изображения, создавать вариации изображения с сохранением характерных черт, а также выполнять интерполяцию между двумя заданными изображениями.
Если объяснять с максимальным упрощением работу DALL-E 2, то:
Как DALL-E 2 понимает, что текст «teddy bear» может быть представлен именно так в качестве изображения? И это самый интересный и глубокий вопрос.
В DALL-E 2 применена еще одна разработка компании OpenAI – система искусственного зрения CLIP - Contrastive Language-Image Pre-training (Сравнительная Тексто-Графическая Тренировка).
Система обучается на сотнях миллионов изображений и их описаний, учится различать «насколько» текстовый фрагмент Х соотносится с изображением Х. То есть вместо предсказывания – к какой картинке больше подойдет данное описание, модель искусственного зрения изучает, как именно взаимосвязаны данный текст и данное изображение. Сравнение вместо предсказания позволяют CLIP устанавливать связь между текстовой и визуальной репрезентацией одного и того же смысла. Именно CLIP определяет и создает семантические связи между текстом и изображением.
Хорошо, CLIP учился устанавливать связи между текстом и изображением, создавал пространство репрезентаций (representation space). Наша задача – создать изображение по заданному описанию. И здесь включается в работу следующая модель – GLIDE.
Она учится инвертировать процесс распознавания изображений, чтобы расшифровать алгоритм картирования изображений, сделанный CLIP. Для этого GLID использует диффузную модель, которая впервые была применена для описания принципов термодинамики.
Диффузная модель учится создавать информацию путем инвертирования «шумового процесса». Выглядит это как цепь Маркова, в которой к изображению ступенчато добавляется некоторое количество «шума», искажающего это изображение. В итоге мы получаем чистый гауссовский шум.
Но в модели GLIDE диффузная модель изменена, чтобы учитывать параметры текста в процессе создания изображения. Начинается процесс с произвольной выборки гауссовского шума. И на этом этапе не понятно, как создавать изображения по требуемым параметрам. Например, если Диффузная Модель учится на подборке изображений человеческих лиц, то она может создать реалистичное изображение человеческого лица. Но что, если мы хотим создать лицо со специфическими параметрами – серые глаза или рыжий цвет волос?
Модель GLIDE важна для DALL-E 2, она позволяет создавать изображения, семантически согласованные с кодировкой изображений. Важно отметить, что реверсивный диффузный процесс имеет стохастический, ступенчатый характер, поэтому вариации изображений могут быть легко созданы путем многократного повторения генеративного процесса.
Хорошо, но как мы внедрим параметры текстовой информации в процесс создания финального изображения? DALL-E 2 использует модель кодирования текста под названием «Prior». Она соотносит текстовые кодировки названий изображений с визуальными кодировками этих же изображений. Разработчики экспериментировали с Авторегрессионной моделью и Диффузной. Последняя показала более высокую вычислительную эффективность.
Теперь у нас есть все необходимые компоненты, остается только выстроить их в последовательную цепочку, чтобы создать финальное изображение по заданным параметрам.
Сейчас на рынке есть несколько коммерческих приложений на базе DALL-E, мы пользуемся одним из них. Версия нейросети DALL-E 2 пока в закрытом доступе. Мы будем исследовать эту модель и делиться с вами совместными произведениями. Кроме создания графики на базе текста нейросеть еще умеет трансформировать исходные изображения по заданным параметрам, или совмещать 2 изображения. Мы поиграли немного со стилями и получили несколько интересных изображений обычного икосаэдра.