Ожидания от Sora были высокими. До релиза нам казалось, что создание видео сведётся к тому, чтобы его придумать. Когда дошло до дела, оказалось, что генерации дороги и нестабильны, кадры «прыгают», референсные изображения теряются, стиль не держится. Тут возникло ощущение, что Sora просто уступает другим whatever-to-video моделям, для которых уже сложились не всегда простые, но более или менее надежные рабочие процессы (workflows).
Пример Workflow из курса AI-Movie:
Cначала разрабатываем сториборд в Midjourney, а потом генерируем по готовым кадрам в Runway добавляя инструкции “оператору” в промпт.
В этих процессах изображения и/или текстовые промпты направляют генерацию видео продолжительностью в несколько секунд, которое тут же передается на цифровой монтажный стол. Развить результат практически невозможно — после первых нескольких секунд в видео перестает происходить что-либо новое, а начинается наоборот, постепенная деградация картинки. Однако, когда мы взяли и понесли свои референсы и инструкции в Sora, предварительно внимательно ознакомившись с документацией OpenAi, которая подтвердила, что это правильно, то оказалось, что глупая модель даже с этим не справляется, и мы вернулись к своим прежним инструментам.
На выходных я решила дать ей второй шанс, и, при ближайшем рассмотрении выяснилось, что — Sora да, все-таки делает нечто абсолютно уникальное, а именно — пытается придумать, как соединить два отрезка видео так, чтобы избежать монтажной склейки.
На предыдущем этапе похожим образом влиять на монтаж мы могли только в программах вроде After Effects. C помощью композитинга, который позволяет не просто «монтировать» кадры друг за другом, а создавать совершенно новые сцены, которые невозможно было снять на камеру, достраивая недостающее из подручных средств и избегая монтажных склеек.
В генераторах изображений мы встречаем похожую идею в инструментах inpainting и outpainting, с помощью которых можно заменить деталь в готовом изображении или дорисовать его.
Предлагаю так и называть – нейросеть, которая делает композитинг. К тому же у нее, как и в After Effects есть таймлайн, а значит, можно бесконечно (т.е. без ограничения по таймингу) сводить и смешивать отдельные видеофрагменты.
Концепция, давно знакомая специалистам по медиа, — поиск средств развития нарратива вне “постановочных” сцен, и без применения монтажа — в области генеративного AI совершенно не обсуждалась. А жаль, похоже Sora, поместив композитинг в основу генерации, обращается именно к этой идее.
Проблем на этом пути, конечно же, возникает множество. Так, в частности, склейка выходит органичной, прямо скажем, не всякий раз. Это раздражает, но тут безусловно есть что-то очень человеческое: между кульминационными/яркими моментами жизни всегда находится гигантский объем чего-то не укладывающегося ни в какой последовательный нарратив.
На тот случай, если мне удалось временно хоть немного реабилитировать Sora, вот пара технических советов, по работе с ее (потенциально) бесконечным таймлайном.
1.
Размещайте фрагменты на таймлайне, оставляя между ними пространство (оно же — время и фреймы) для генерации перехода.
В пространство, предназначенное для перехода можно написать короткий промпт, чтобы облегчить модели задачу. Но при этом, во-первых, не стоит полагаться на подсказки, а главное — не нужно вдаваться в детали никогда кроме самой первой генерации. (По мнению OpenAi – нужно, но пока что практика этого не подтверждает.)
2.
Смешивайте видео, используя разные варианты функции Blend — от назначения направляющего видео (Sample) до полного смешения (Mix or Custom).
3.
Наконец, последний совет, не относящийся, на самом деле, к композитингу: всю эту машинерию гораздо проще заставить работать, если у вас есть стилизующий пресет, — что-то вроде системного промпта или, скорее, интегрированного технического задания для оператора, художника-постановщика и осветителей, вместе взятых.
Пошаговый гид для эффективной работы в Sora: превращайте изображения в анимацию, комбинируя разные видео, создавайте плавные и выразительные сцены, используя Storyboard и уникальную функцию Blend.