Google zrobił z Veo 3.1 coś, co twórcy krótkich form od dawna próbują obejść ręcznie: wreszcie da się budować klipy z zachowaniem spójnej postaci i rekwizytów, a do tego od razu w pionie – bez kadrowania, bez walki z uciętymi głowami i bez kompromisów w kompozycji. Aktualizacja najmocniej uderza w dwie bolączki AI-wideo: rozjeżdżającą się ciągłość między ujęciami oraz to, że większość świata ogląda dziś w 9:16.
W praktyce to nie jest jedna funkcja, tylko pakiet zmian: od ulepszonego trybu Ingredients to Video (czyli generowania klipów na bazie obrazów referencyjnych), przez natywny pion 9:16, po nowe opcje podbijania rozdzielczości aż do 4K. Najciekawsze jest jednak to, gdzie to ląduje: w aplikacji Gemini, ale też bezpośrednio w narzędziach dla twórców YouTube Shorts i w YouTube Create.
Ingredients to Video zaczyna trzymać się referencji
Sedno aktualizacji to lepsze pilnowanie materiału wejściowego. Ingredients to Video pozwala budować klip na podstawie maksymalnie trzech obrazów referencyjnych (np. postać, tło, faktura/obiekt), co ma dawać kontrolę nad tym, co w AI-wideo zwykle bywa loterią: wyglądem bohatera, powtarzalnymi elementami scenografii i detalami stylu.
Google akcentuje przede wszystkim spójność: ta sama postać ma wyglądać tak samo w różnych ujęciach i różnych settingach, a obiekty i tła mają się dać ponownie wykorzystywać między scenami. To brzmi jak kosmetyka, ale w świecie krótkich serii, reklam produktowych czy powtarzalnych formatów socialowych to jest różnica między materiałem do wrzucenia a materiałem, który buduje rozpoznawalność.

W tle jest też obietnica bardziej naturalnej dynamiki oraz lepszej narracji (w tym dialogu) – Veo 3.1 od pewnego czasu stawia na generowanie audio, więc poprawa żywotności klipów ma iść w parze z tym, że obraz i dźwięk przestają wyglądać jak dwa osobne światy.
Pion 9:16 w końcu jest natywny, czyli ujęcie powstaje pod Shorts, Reels i TikToka
Drugi wątek to pionowy format, ale nie jako przycięty pejzaż. W Ingredients to Video można teraz wybrać natywny aspekt 9:16, co ma znaczenie praktyczne: kadr jest komponowany od początku pod pion, a nie ratowany po fakcie w edytorze. To upraszcza produkcję i zwyczajnie zmniejsza straty jakościowe wynikające z cropowania.
To też jasny sygnał, gdzie Google widzi realne zastosowania AI-wideo: krótkie formy, szybkie publikacje, iteracje. Jeśli największy ekran świata jest dziś w kieszeni, to model wideo musi przestać udawać, że standardem jest 16:9. I to jest jedna z tych zmian, które brzmią banalnie, dopóki nie spróbujesz zrobić serii klipów w pionie z zachowaniem twarzy, detali i powtarzalnego rekwizytu.

Ważne jest również to, że te możliwości mają trafić bezpośrednio do miejsc, w których pion żyje na co dzień: integracja obejmuje aplikację Gemini, ale też narzędzia YouTube Shorts i YouTube Create (pierwszy raz w tej konfiguracji), a równolegle funkcja jest komunikowana w kontekście Google Vids.
4K (na razie jako upscaling) i walka o jakość, która wygląda profesjonalnie
Trzecia zmiana jest typowo produkcyjna: możliwość podbijania rozdzielczości. Bazowo Veo 3.1 generuje 720p, ale teraz da się podciągnąć wynik do 1080p oraz do 4K. Kluczowe słowo to upscaling – to nie jest magiczny skok do natywnego 4K wygenerowanego od zera, raczej lepsza prezentacja klipu na dużych ekranach i w bardziej wymagających zastosowaniach.
To i tak ma znaczenie, bo w świecie marek i płatnych kampanii jakość wideo jest często pierwszym filtrem wiarygodności. AI-klip może być kreatywny, ale jeśli wygląda miękko, plastikowo albo ma artefakty, to od razu przegrywa z materiałem z telefonu. Podbicie jakości (oraz obiecywane „czystsze” 1080p) to próba domknięcia tej luki.
Równolegle dokumentacja Gemini API opisuje Veo 3.1 jako model generujący klipy 8-sekundowe z opcjami 720p/1080p/4K, co dobrze pasuje do strategii: najpierw krótkie, powtarzalne formaty, potem dopiero ambicje pełnego „filmmakingu” dla mas.
Co się tu naprawdę zmienia: kontrola to nowa jakość AI-wideo?
Najciekawsza rzecz w tej aktualizacji nie jest w samym 9:16 ani w 4K. To przesunięcie ciężaru z jednorazowych fajerwerków na powtarzalność. Jeśli można użyć tych samych elementów (postać, produkt, tło) w kolejnych klipach i one nie rozpadają się wizualnie po trzeciej scenie, AI-wideo zaczyna nadawać się do formatów seryjnych: od brandowych odcinków po cykle Shortsów, które mają wyglądać jak jedna linia.
Widać też wyraźnie, że celem są narzędzia na ścieżce twórcy, a nie tylko demo technologii. Gemini jako szybkie wejście, Shorts i Create jako dystrybucja, Vids jako zastosowania biurowe/produktowe, a Flow i API/Vertex jako półka dla bardziej zaawansowanych. To układ, w którym AI-wideo ma się stać funkcją platform, a nie osobnym światem.
Jeżeli to zadziała tak, jak sugerują przykłady i zapowiedzi, to dla wielu osób największą zmianą będzie tempo pracy: mniej poprawiania, mniej ratowania kadrów, mniej walki o to, żeby bohater w kolejnym klipie nie wyglądał jak kuzyn samego siebie.
