Все секреты генерации изображений в ChatGPT

Рекомендуемые курсы:
AI-Коллега
Автор
Злата Понировская
AI Adoption Facilitator. Главный специалист по связям с AI в Пражской медиашколе, опытный продюсер и руководитель образовательных программ.
Subscribe to our newsletter
Read about our privacy policy.
Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.

Генеративная модель Gpt-image-1, пожалуй, самая послушная из всех генераторов изображений, Photoshop здорового человека!  

Модель может получать на вход как текстовые инструкции, так и изображения, прекрасно справляется со стилизациями, редактурой изображений, обладает функцией inpainting, и умеет генерировать объекты на прозрачном фоне.  

Давайте  задействовать  её возможности на полную мощность:

Визуальный прайминг

Исследование изображения

Залог успеха – создать общий язык  с моделью до начала основной генерации. Определиться с названиями артефактов,  объектов,  текстовым описанием картинки-референса (если есть)  и стилем изображения. 

Промпт:

(подгружаем картинку) Пожалуйста, расскажи что здесь изображено,
проанализируй стиль и технику. Предложи односложное название для этого изображения.
Уточни пропорции изображения.

Используйте термины, полученные в результате прайминга для дальнейших инструкций к генерации.

Промпт:

нарисуй Сурка в синей шапке с зеленой кружкой

Кейс: Замена объекта с помощью команд на естественном языке.  

Прайминг - Промпт:

Мы будем работать с данными изображениями.
Пожалуйста, расскажи что  изображено на каждой из картинок, проанализируй стиль и технику.
Уточни пропорции изображений. Предложи односложные названия для каждого.

Промпт:

Замени мужчину-наездника на Сурка

Попробуйте самостоятельно сформулировать промпты для следующих  изображений:

Возможности, особенности  настройки

Генерация текста

Модель прекрасно справляется с генерацией текста на изображении. Если в Midjourney v.6  относительно стабильно можно сгенерировать 2-3 слова, а во Flux целое предложение, GPT-Image-1 может удержать несколько десятков слов практически без ошибок. 

Пропорции изображения

Особенность: модель часто меняет пропорции. Нужно напоминать. 

Например, при замене фона из двух горизонтальных кадров появилась вертикальное изображение.  

Результат: 

 

Промпт:

Помести всадника на фон, сохраняй горизонтальные пропорции 16:9

Палитра 

GPT-Image-1  прекрасно понимает названия цветов - RGB,HSL,HSV and CMYK .

Можно сообщить точные цвета, и собрать палитру.

Промпт:

Замени цветовую гамму фона на следующие цвета:
Color Hex	RGB
#f7cac9	(247,202,201)
#dec2cb	(222,194,203)
#c5b9cd	(197,185,205)
#abb1cf	(171,177,207)
#92a8d1	(146,168,209)

Прозрачность 

Получить .png слой теперь можно при помощи доброго слова! Просто попросите удалить фон и модель сгенерирует изображение заново.*  

В функционале macOS (не следует путать с функционалом модели), чтобы получить объект на прозрачном фоне, откройте изображение кликнув левой кнопкой мыши по картинке. В появившемся меню выберите copy subject  и вы сможете скопировать объект отдельно от фона.

Кисточка / Inpainting 

Инструмент не слишком тонкий, но бывает удобно - можно показать, где именно нужны изменения. 

1. В мобильной версии тапните на сгенерированное изображение (с загруженным не выйдет). И выберите иконку “select”. 

2. На следующем экране отрегулируйте толщину кисти, выделите область, которую собираетесь редактировать и нажмите next 

3. Дайте инструкции обычным промптом, или промптом и картинкой.

Промпт:

Дорисуй травку.

4. Вносите изменения последовательно.

Промпт:

Замени голову на голову личинки Шелкопряда 

PS В браузере это же меню откроется по клику на картинку. 

В дексктопных версиях функционал на данный момент не доступен (Июнь, 2025) 

Общий язык 

Используйте словарь характерный для стиля, в котором работаете. Словарь часто используемых терминов можно запросить все у той же языковой модели. Просите не “промпты” а  термины, которые помогут вам управлять кадром. 

Фотореализм и кинематографичность: 

Например, если вы хотите создавать фотореалистичные сцены или кадры из фильма для последующей анимации,  попросите подсказать термины, которые помогут управлять работой оператора и съемочной группы, выбрать правильные объективы и камеры, дать инструкции актерам и массовке о их месте в кадре. 

Референсы 

Чтобы вы с моделью точно поняли друг друга, можно в новом диалоге добавить референс img_ и  “допросить” модель о технике  съемки или стиле. Но не приносите сам кадр в основной рабочий диалог где создаете изображение,  чтобы артефакты из референса случайно не добавились к вашей генерации. – Не могу объяснить как это точно происходит - но факт.  

Прайминг-промпт + картинка:

Подскажи слова и термины на английском, которые помогут мне воссоздать эту сцену по композиции кадра,
стилю съемки, движению и свойствам, камеры, сценографии, спецэффектам, инструкциям для оператора,
актеров и массовки. Задача, сделать словарь, который поможет воссоздать  сцену. Пиши на английском.

Если  хочется кинематографичной сцены, то язык самых масштабных кинематографических проектов мира в помощь. 

Не просите генерировать промпт! Если вы имеете четкое представление о том, что хотите создать, то получить словарь от модели, предоставив ей референсы – надежнее. На счет промптов к картинкам у языковых моделей не очень много данных, свои, в основном неверные, представления.    

Prompt:   

We are going to use this rider and silkwarm-horse as a reference for cinematic
photorealistic shot. Frontal dynamic composition — a medieval silkwarm-horse
rider galloping at full speed *toward the camera*, bursting through a crowded
market square. Use a wide-angle lens (18–24mm equivalent) for distortion and depth,
low camera position at street level to exaggerate the momentum.  The frame is
centered on the rider, creating one-point perspective with collapsing market
stalls and fleeing merchants on both sides. Foreground debris flying toward
the lens — fruit, baskets, fabrics. Deep background shows stone arches and
medieval buildings. Depth of field: shallow, with creamy background bokeh
	•	Shutter speed: 1/1000s or faster to freeze fast motion
	•	Framerate: 2430 fps (or 120 fps for slo-mo options)
	•	Focus: locked or pulled dynamically on the jockey’s chest or bridle area
Rig & Movement
	•	Tracking method: camera mounted on vehicle (ATV, camera car) or rail dolly
	•	Speed sync: camera vehicle matched to horse’s pace (~5060 km/h)
 Lighting Conditions
	•	Time of day: direct sunlight, early afternoon
	•	White balance: daylight ~5500K
	•	Light direction: mostly overhead, hard shadows under the horse

Последовательность изменений 

Шаг вперед, два шага назад. 

Модель прекрасно понимает промпты с прикрепленными референсами. Вместо тысячи слов достаточно прикрепить картинку и модель сначала “срисует” ее, а потом использует полученное изображение в вашей генерации. Но если при продолжении редактуры возникли сложности, есть пара советов, что стоит делать и один главный -  чего точно делать не стоит:  

Прерывание сессии

Не продолжайте диалог в котором что-то пошло не так. Этот спор - бесполезная трата времени, и шансов, что вы поймете друг друга на новом витке, немного.

Скопировать последний успешный результат, над которым собирались поработать  и перенести его для редактуры в новый чат. Конечно же при этом не помешает уточнить промпт  и сделать прайминг, но главное - завести новый чат. 

Откатиться на шаг назад

Немножко больше внимания от промпт-инженера потребуется,  чтобы вносить  изменения  на стадии согласования картинки - референса.  Строго говоря, правило такое – перед тем, как использовать референс, убедитесь, что он вас  полностью устраивает: по стилю, качеству изображения, деталям итд.

Промпт:

Нанеси всадника на лошади с изображения 1
на зеленую чашку, которую держит Сурок.  

Результат

Модель справилась с задачей - всадник вместе с лошадью перемещен на чашку.

Type image caption here (optional)
живой онлайн курс
Нейрофотография
Продвинутый курс для профессионалов визуального искусства, ведущих дизайнеров и больших художников.
Присоединяйтесь