Содержание
DALL·E: создание изображений из текста
DALL·E — это версия GPT-3 с 12 миллиардами параметров, обученная генерировать изображения из текстовых описаний с использованием набора данных пар текст-изображение. Мы обнаружили, что он обладает разнообразным набором возможностей, включая создание антропоморфных версий животных и объектов, правдоподобное объединение несвязанных концепций, рендеринг текста и применение преобразований к существующим изображениям.
См. также: DALL·E 2 , который создает более реалистичные и точные изображения с 4-кратным разрешением.
Текстовая подсказка
иллюстрация редиски дайкон в балетной пачке, выгуливающей собаку
Изображения, сгенерированные AI
Текстовая подсказка
кресло в форме авокадо. . . .
AI-генерированные изображения
Текстовая подсказка
витрина магазина, на которой написано слово «openai». . . .
Изображения, сгенерированные AI
Текстовая подсказка
точно такой же кот вверху, как эскиз внизу
Изображения, созданные AI
GPT-3 показал, что язык можно использовать для указания большой нейронной сети выполнять различные задачи по генерации текста. Image GPT показал, что тот же тип нейронной сети можно использовать для создания изображений с высокой точностью. Мы расширяем эти выводы, чтобы показать, что манипулирование визуальными понятиями с помощью языка теперь доступно.
Обзор
Как и GPT-3, DALL·E представляет собой языковую модель преобразователя. Он получает и текст, и изображение как единый поток данных, содержащий до 1280 токенов, и обучается с использованием максимальной вероятности для генерации всех токенов один за другим. 9сноска-1]
Эта процедура обучения позволяет DALL·E не только создавать изображение с нуля, но и регенерировать любую прямоугольную область существующего изображения, которая простирается до правого нижнего угла, в соответствии с текстовой подсказкой.
Мы понимаем, что работа, связанная с генеративными моделями, может иметь значительные, широкие социальные последствия. В будущем мы планируем проанализировать, как такие модели, как DALL·E, связаны с социальными проблемами, такими как экономическое влияние на определенные рабочие процессы и профессии, потенциальная систематическая ошибка в результатах модели и долгосрочные этические проблемы, связанные с этой технологией.
Возможности
Мы обнаружили, что DALL·E может создавать правдоподобные образы для самых разных предложений, исследующих композиционную структуру языка. Мы проиллюстрируем это с помощью серии интерактивных изображений в следующем разделе. Образцы, показанные для каждой подписи в визуальных элементах, получены путем выбора 32 лучших из 512 после повторного ранжирования с помощью CLIP, но мы не используем никакого ручного выбора, кроме миниатюр и отдельных изображений, которые появляются снаружи. 9сноска-2]
Управление атрибутами
Мы проверяем способность DALL·E изменять несколько атрибутов объекта, а также количество раз, когда он появляется.
Нажмите, чтобы отредактировать текстовую подсказку или просмотреть больше изображений, созданных ИИ. Например, рассмотрим фразу «ежик в красной шапке, желтых перчатках, синей рубашке и зеленых штанах». Чтобы правильно интерпретировать это предложение, DALL·E должен не только правильно скомпоновать каждый предмет одежды с животным, но и сформировать ассоциации (шапка, красный), (перчатки, желтый), (рубашка, синий) и (штаны, зеленый), не смешивая их 9сноска-3]
Мы проверяем способность DALL·E делать это для относительного позиционирования, укладки объектов и управления несколькими атрибутами.
Хотя DALL·E предлагает некоторый уровень контроля над атрибутами и позициями небольшого числа объектов, вероятность успеха может зависеть от того, как сформулирован заголовок. По мере того, как вводится больше объектов, DALL·E склонен путать ассоциации между объектами и их цветами, и вероятность успеха резко снижается. Мы также отмечаем, что DALL·E хрупок в отношении перефразирования подписи в этих сценариях: альтернативные, семантически эквивалентные подписи часто не дают правильной интерпретации.
Визуализация перспективы и трехмерности
Мы обнаружили, что DALL·E также позволяет управлять точкой обзора сцены и 3D-стилем, в котором сцена визуализируется.
Чтобы продвинуться дальше, мы проверяем способность DALL·E многократно рисовать голову известной фигуры под каждым углом из последовательности равноотстоящих углов и обнаруживаем, что можем восстановить плавную анимацию вращающейся головы.
DALL·E может применять некоторые типы оптических искажений к сценам, как мы видим с параметрами «вид объектива «рыбий глаз»» и «сферическая панорама». Это побудило нас изучить его способность генерировать размышления.
Визуализация внутренней и внешней структуры
Образцы из стилей «крайний крупный план» и «рентген» позволили нам дополнительно изучить способность DALL·E визуализировать внутреннюю структуру с помощью видов поперечного сечения и внешнюю структуру с помощью макрофотографий.
Вывод контекстуальных деталей
Задача преобразования текста в изображения недостаточно конкретизирована: одна подпись обычно соответствует бесконечному количеству правдоподобных изображений, поэтому изображение не определяется однозначно. Например, рассмотрим подпись «картина с изображением капибары, сидящей в поле на восходе солнца». В зависимости от ориентации водосвинки может возникнуть необходимость нарисовать тень, хотя эта деталь никогда не упоминается явно. Мы изучаем способность DALL·E устранять недочеты в трех случаях: изменение стиля, обстановки и времени; рисование одного и того же объекта в различных ситуациях; и создание изображения объекта с написанным на нем определенным текстом.
С различной степенью надежности DALL·E обеспечивает доступ к подмножеству возможностей механизма 3D-рендеринга с помощью естественного языка. Он может независимо контролировать атрибуты небольшого числа объектов и в ограниченной степени, сколько их и как они расположены по отношению друг к другу. Он также может управлять местоположением и углом, с которого визуализируется сцена, и может генерировать известные объекты в соответствии с точными спецификациями угла и условий освещения.
В отличие от механизма 3D-рендеринга, чьи входные данные должны быть указаны однозначно и во всех подробностях, DALL·E часто может «заполнить пробелы», когда заголовок подразумевает, что изображение должно содержать определенную деталь, которая явно не указана.
Применение предыдущих возможностей
Далее мы рассмотрим использование предыдущих возможностей для моды и дизайна интерьера.
Композиционная природа языка позволяет нам объединять концепции для описания как реальных, так и воображаемых вещей. Мы обнаружили, что DALL·E также может комбинировать разрозненные идеи для синтеза объектов, некоторые из которых вряд ли существуют в реальном мире. Мы исследуем эту способность в двух случаях: перенос качеств различных концепций на животных и создание продуктов, черпая вдохновение из несвязанных концепций.
Иллюстрации животных
В предыдущем разделе мы исследовали способность DALL·E комбинировать несвязанные концепции при создании изображений объектов реального мира. Здесь мы исследуем эту способность в контексте искусства для трех видов иллюстраций: антропоморфные версии животных и предметов, химеры животных и смайлики.
Визуальное мышление с нулевым выстрелом
GPT-3 может быть проинструктирован для выполнения многих видов задач исключительно на основе описания и подсказки для получения ответа, предоставленного в его подсказке, без какого-либо дополнительного обучения. Например, на запрос фразы «вот предложение «человек, выгуливающий свою собаку в парке», переведенное на французский язык:», GPT-3 отвечает: «un homme qui promène son chien dans le parc». Эта возможность называется рассуждения с нулевым выстрелом. Мы обнаружили, что DALL·E расширяет эту возможность до визуальной области и может выполнять несколько видов задач преобразования изображения в изображение при правильном запросе.
Мы не ожидали, что эта возможность появится, и не вносили никаких изменений в нейронную сеть или процедуру обучения, чтобы стимулировать ее. Вдохновленные этими результатами, мы измеряем способность ДАЛЛ·И решать задачи на рассуждения по аналогии, проверяя ее на прогрессивных матрицах Равена — визуальном тесте IQ, который широко использовался в 20 веке.
Географические знания
Мы обнаружили, что DALL·E узнал о географических фактах, достопримечательностях и окрестностях. Его знание этих концепций удивительно точно в одних отношениях и ошибочно в других.
Темпоральные знания
Помимо изучения знаний DALL·E о концепциях, которые меняются в пространстве, мы также изучаем его знания о концепциях, которые меняются во времени.
Краткое изложение подхода и предыдущей работы
DALL·E — это простой преобразователь только для декодера, который получает и текст, и изображение как единый поток из 1280 токенов — 256 для текста и 1024 для изображения — и моделирует их все авторегрессивно. Маска внимания на каждом из 64 слоев внутреннего внимания позволяет каждому маркеру изображения уделять внимание всем текстовым маркерам. DALL·E использует стандартную причинно-следственную маску для текстовых токенов и разреженное внимание для токенов изображения со строкой, столбцом или сверточным шаблоном внимания, в зависимости от слоя. Мы предоставляем более подробную информацию об архитектуре и процедуре обучения в нашей статье. 9reference-16] и может существенно повлиять на качество выборки.
Отель и виллы Round Hill
Элегантность вне времени
Карибский бассейн в классическом стиле
Round Hill Hotel & Villas предлагает коллекцию уединенных и элегантно обставленных роскошных вилл, номеров и люксов с видом на океан, скрытно расположенных на сто гектарах пышной зелени и окруженных нетронутыми природными пляжами. Идеально подходит для романтических побегов, семейного отдыха,
свадьбы и большие встречи, наш роскошный карибский курорт предлагает сдержанную роскошь и безупречный сервис с теплым ямайским сердцем. Погрузитесь в тропики и наслаждайтесь простыми удовольствиями места, которое всегда приветствовало легенды, а теперь приветствует вас дома.
Место отдыха звезд с 1953 года
Номера и виллы
Безупречный отдых
Исследуйте комнаты
«Бесконечные дни, солнце и смех, тепло. Щедрое настроение, искренняя любовь и забота действительно любящего персонала.»
Что делает нас уникальными
Оттенки изумруда и бирюзового
Уходящий корнями в историю на уединенном полуострове площадью 110 акров, Round Hill может похвастаться собственным участком нетронутой береговой линии, где морские волны плещутся у ваших ног, а океанский бриз проникает в каждое пространство. Перед вами яркий риф для подводного плавания, простирающийся до более глубоких оттенков бирюзового с оттенками изумруда, насколько может видеть глаз.
Опыт Раунд Хилл
Что делает нас уникальными
Подходит для всей семьи
Round Hill — идеальное место для отдыха для семей всех возрастов. Наш клуб Pineapple для детей от 3 до 6 лет и наш клуб 7-Up для детей от 7 до 12 лет оставят незабываемые впечатления у ваших детей, позволяя им быть творческими, предприимчивыми и активными, одновременно изучая местную культуру. С ежедневной программой мероприятий, организованной нашим теплым, заботливым персоналом, который будет относиться к вашей семье как к своей собственной.
Узнать больше
Что делает нас уникальными
Эхо истории
Настоящая икона среди роскошных карибских курортов. Наследие Round Hill уходит своими корнями в историю и гламур. Пообщайтесь с нашим теплым дружелюбным персоналом, который поделится своими историями из прошлых лет. Проведите некоторое время, изучая нашу галерею старинных фотографий ушедшей эпохи, которая включает в себя причудливые сцены посещения президентов, высокопоставленных лиц, художников, режиссеров, модных и культурных деятелей, всех, кто сделал Раунд-Хилл своим домом вдали от дома.
Исследуйте историю
Что делает нас уникальными
Ваше убежище
Раунд-Хилл занимает уединенный полуостров площадью 110 акров, возвышающийся над Карибским пейзажем. Окруженный пышной тропической растительностью, наш тихий закрытый поместье предлагает контролируемый доступ, ускоренное прибытие и незаметные варианты транспортировки из близлежащего представительского аэропорта для прибывающих частных самолетов и вертолетов.
Что делает нас уникальными
Теплый и заботливый персонал
Что в конечном счете отличает нас от конкурентов в Round Hill, так это наша невероятно талантливая команда. Каждый из наших сотрудников стремится обеспечить высочайший уровень заботы и комфорта для каждого гостя, а также превзойти ожидания своим искренним теплым гостеприимством и исключительным обслуживанием. Это то, что заставляет наших гостей возвращаться в Round Hill из года в год.
Что делает нас уникальными
Захватывающие занятия
В отеле Round Hill гости могут полностью расслабиться на нашем пляже с золотым песком, посетить наш спа-центр, чтобы побаловать себя, или заняться различными видами активного времяпрепровождения, включая подводное плавание, походы, экскурсии в сад, теннис, пиклбол, упражнения и занятия йогой, а также наш открытый фитнес-маршрут, с которого открывается один из лучших видов на Монтего-Бей. Познакомьтесь с богатой культурой острова за пределами собственности с приключениями, которые так и манят испытать, включая туры по поместью, рафтинг и более авантюрный зиплайн.
Исследуйте деятельность
Поднимите каждый опыт на новый уровень
Спа и велнес
Идеальная безмятежность
Наш спа-центр расположен в прекрасно отреставрированном особняке 18 века с видом на Карибское море. Наслаждайтесь ритуалом красоты при свечах или погрузитесь в полное блаженство и выберите расслабляющий ароматерапевтический массаж на открытом воздухе, слушая успокаивающие звуки нежных волн.
Узнать больше
Кулинария
Изысканный обеденный стол
Ресторан
Round Hill отражает вершину изысканности и мастерства ямайской кухни.