Kilka dni temu Google ponownie przyciągnął uwagę osób interesujących się sztuczną inteligencją, ogłaszając Gemini 1.5 zaledwie tydzień po udostępnieniu potężnego modelu Gemini 1.0 Ultra i zmianie nazwy chatbota Bard na Gemini.
Jednak Open AI nie dało Google nacieszyć się mocną pozycją w dziedzinie AI choćby przez jeden dzień. Twórcy ChataGPT ujawnili jeszcze bardziej ekscytujące rozwiązanie. Sora, generator wideo, który potrafi stworzyć niemal minutowe wideo na podstawie tekstowych wskazówek. Sora od OpenAI zapowiada się jako przełomowe narzędzie mające potencjał do zrewolucjonizowania branży tworzenia treści wideo. Jednak to, co czyni Sorę wyjątkową, to nie tylko jej zdolności techniczne, ale także szeroki zakres potencjalnych zastosowań – od marketingu, przez edukację, po przemysł rozrywkowy i codzienną komunikację. Przyjrzyjmy się, jak Sora zamierza wprowadzić te zmiany i jakie perspektywy otwiera przed biznesem.
Sora od OpenAI – nowa era w tworzeniu treści wideo
Od czasów pierwszych, nieporadnych prób tworzenia wideo dzięki komputerów, przeszliśmy długą drogę. Już teraz widać, iż filmy tworzone przez generatywną sztuczną inteligencję, choćby te sprzed pół roku, wyglądają przy generacjach Sory dość niezgrabnie. Chociaż Sora, zdolna do tworzenia realistycznych scen wideo na podstawie instrukcji tekstowych, jest na razie w fazie eksperymentalnej i nie pozostało dostępna dla publiczności, jej możliwości są oszałamiające.
Sora oferuje szeroki wachlarz zastosowań, które mogą zmienić sposób, w jaki tworzymy i konsumujemy treści wideo. Oto kilka przykładów:
- generowanie – złożonych scen z wieloma postaciami lub obiektami,
- animowanie – już istniejących obrazów,
- edycja – stworzonych filmów,
- łączenie – różnych grafik lub materiałów wideo w jedno.
Przykłady te świadczą o ogromnym postępie w dziedzinie AI. Jednak przede wszystkim otwiera to nam drzwi do nowych możliwości w tworzeniu treści wideo. Aby się o tym przekonać, wystarczy spojrzeć na prezentację filmu w wysokiej rozdzielczości przedstawiającego rozwijający się kwiat.
Źródło: OpenAI (https://cdn.openai.com/sora/videos/flower-bloom”ing.mp4 lub https://youtu.be/UNmqxZoTgsk)
Jak będzie używana Sora?
Czy Sora to tylko zabawka i kolejne narzędzie do tworzenia treści wideo? Nie. Przynajmniej według OpenAI. Jak piszą twórcy Sory:
„Uczymy sztuczną inteligencję rozumienia i symulowania świata fizycznego w ruchu, a celem jest szkolenie modeli, które pomagają ludziom rozwiązywać problemy wymagające interakcji ze światem rzeczywistym”.
Aby trafnie generować wideo, model musi bowiem rozumieć świat na znacznie głębszym poziomie, niż wymaga tego tworzenie tekstu. Chodzi o rozumienie fizyki, przestrzennych zależności między obiektami znajdującymi się na jednym planie, a także relacji między pierwszym planem a tłem.
Sora będzie w stanie generować:
- wideo z tekstu – to pierwsza, najważniejsza innowacja modelu;
- wideo z obrazu – co pozwala na animowanie istniejących generacji stworzonych w DALL·E 3;
- wideo z obrazu i tekstu – dzięki czemu będzie można precyzyjniej tworzyć filmy,
- wideo z wideo – dodając efekty specjalne, wydłużając film, łącząc dwa istniejące nagrania lub zmieniając styl wideo;
- obrazy z tekstu – prawdopodobnie docelowo zastępując DALL·E i oferując generacje o rozdzielczości 2048×2048.
W przyszłości Sora może znaleźć zastosowanie w tworzeniu filmów promocyjnych, treści na media społecznościowe czy prezentacji biznesowych. To narzędzie, które może całkowicie zmienić sposób, w jaki tworzymy i dzielimy się treściami wideo.
Źródło: OpenAI (https://cdn.openai.com/sora/videos/aquarium-nyc.mp4 lub https://youtu.be/3l8wjxjNubE)
Chociaż ten kolosalny krok w rozwoju generatywnej sztucznej inteligencji jest ekscytujący, rodzi również obawy dotyczące ryzyka związanego z deep fake, szczególnie w związku z wyborami prezydenckimi w USA. Zagrożenia związane z używaniem Sory to przede wszystkim:
- Dezinformacja. Deepfake, w tym fotorealistyczne wideo generowane przez Sorę, mogą rozpowszechniać fałszywe wiadomości, które wpływają na opinię publiczną i podważają zasady demokracji. Tworząc sfabrykowane filmy, które wyglądają na prawdziwe, można manipulować i oszukiwać widzów.
- Naruszenie prywatności. Udostępnienie Sory pozwoli każdemu, kto ma komputer i dostęp do internetu, na tworzenie fałszywych treści. Także filmów naruszających prywatność i wykorzystujących dane osobowe bez pozwolenia. Prawdopodobnie z tego powodu minie jeszcze trochę czasu, zanim Sora będzie dostępna szerokiej publiczności. OpenAI musi zadbać o odpowiednie zabezpieczenia.
- Szkodzenie reputacji. Korzystając z Sora, hakerzy mogą podszywać się pod inne osoby, organizacje lub marki by je zniesławiać. Sprawiając wrażenie, iż ktoś mówi lub robi rzeczy, których nigdy nie robił, takie filmy mogą znacząco zaszkodzić reputacji i wiarygodności.
Połączenie technologii deepfake z klonowaniem głosu opartym na sztucznej inteligencji może niestety sprawić, iż powstanie wiele bardzo przekonujących podróbek. W miarę jak zbliżamy się do momentu, w którym odróżnienie podróbki od rzeczywistego nagrania stanie się niezwykle trudne, czujność, świadomość i krytyczne myślenie mają coraz bardziej najważniejsze znaczenie w zwalczaniu potencjalnych szkód powodowanych przez deepfake.
Dlatego, chociaż możliwości Sory są imponujące, musimy zachować ostrożność co do ich wpływu na społeczeństwo, stworzyć regulacje i podjąć dodatkowe kroki w celu minimalizacji ich negatywnych konsekwencji.
Jak korzystać z Sora?
Chociaż na chwilę obecną Sora jest w fazie testów i nie jest dostępna dla szerszego grona użytkowników, korzystanie z niej zapowiada się jako proces prosty i intuicyjny. Użytkownicy będą prawdopodobnie mogli używać jej tak, jak teraz korzystają z DALL·E 3 w ChatGPT Plus. Czyli wpisywać tekstowe polecenia, które Sora przekształci w krótkie klipy wideo. To otwiera nowe perspektywy dla twórców treści, marketerów i edukatorów, umożliwiając im tworzenie angażujących i wysokiej jakości materiałów wideo w krótkim czasie.
Jak rezultaty Sora mają się do innych generatorów wideo?
Jak jednak wygląda porównanie Sora do innych narzędzi generujących video? Na razie możemy tylko domyślać się, jak będzie radzić sobie Sora, jednak bazując na opisie narzędzia dostępnym na stronie OpenAI możemy powiedzieć, iż w porównaniu z:
- Runway – Sora będzie działała podobnie, jednak oferując znacznie wyższy stopień realizmu. Runway umożliwia bowiem tworzenie treści video i obrazów dzięki AI, w tym opcji text-to-video czy image-to-image. Posiada również funkcje usprawniające edycję wideo, takie jak usuwanie tła czy zastępowanie elementów na podstawie poleceń tekstowych;
- Synthesia – platforma z założenia działa inaczej niż Sora, oferuje bowiem tworzenie realistycznych wideo z cyfrowymi awatarami, wspierając przy tym ponad 120 języków i umożliwiając tworzenie własnych awatarów. Nie wiemy jeszcze, jak Sora będzie radzić sobie z połączeniem dźwięku czy generowania mowy z tworzonym materiałem wizualnym;
- HeyGen – jego unikatowość polega na klonowaniu głosu i możliwości stworzenia awatara z własnymi gestami, funkcjonalność różni się zatem znacząco od oferty Sora;
- Stable Video Diffusion – prawdopodobnie najpoważniejszy bezpośredni konkurent Sora, wyróżnia się zdolnością do przekształcania statycznych obrazów w animacje video, skierowany głównie do twórców treści reklamowych i mediów społecznościowych. Jego eksperymentalny charakter, a także to, iż bazuje na modelach w otwartym dostępie, budzi duże nadzieje w kontekście produkcji filmowej i animacji.
Sora wyróżnia się na tle innych narzędzi do generowania wideo większym realizmem i trudnością odróżnienia jej rezultatów od prawdziwych nagrań. Ważna jest tutaj przede wszystkim rozdzielczość. Sora potrafi bowiem tworzyć filmy o rozdzielczości do 1920x1080px.
Model ten, dzięki głębokiemu zrozumieniu języka, precyzyjnie interpretuje polecenia. Open AI wykorzystało tutaj sposób działania sprawdzony w DALL·E 3. Model najpierw interpretuje prosty prompt wpisany przez użytkownika, a następnie na podstawie jego rozbudowanej i szczegółowej wersji generuje treści wizualne. Dzięki temu może tworzyć złożone sceny i generować postaci wyrażające autentyczne emocje.
Źródło: OpenAI (https://cdn.openai.com/sora/videos/closeup-man-in-glasses.mp4 Lub https://youtu.be/pxkfUDoQg5I)
Jak Sora może wpłynąć na branżę kreatywną?
Potencjał Sory do zmiany branży kreatywnej jest ogromny. Dostęp do tego narzędzia dla filmowców i projektantów wnosi nową jakość do tworzenia treści wideo. Sora służy jako fundament dla modeli zdolnych do symulowania świata rzeczywistego, co może być przełomem w osiągnięciu AGI (Artificial General Intelligence – Sztucznej Inteligencji Ogólnej). Tak przynajmniej twierdzą jej twórcy – OpenAI.
Ponieważ Sora tworzy realistyczne ruchome obrazy, podobne do tych sfilmowanych ludzką ręką, może potencjalnie poważnie zmienić dziedzinę tworzenia wideo, od materiałów szkoleniowych po produkcje hollywoodzkie. Sora z pewnością wpłynie na:
- Marketing. Sora może zrewolucjonizować kampanie reklamowe, gwałtownie generując atrakcyjne treści wideo w oparciu o komunikaty marketingowe lub opisy produktów.
- Branżę rozrywkową. Studia filmowe i twórcy treści mogą odnieść korzyść ze zdolności Sory do tworzenia realistycznych scen i postaci, usprawniające procesy produkcyjne.
- Gry. Twórcy gier mogą wykorzystywać Sorę do tworzenia filmów lub zwiastunów w grach, poprawiających doświadczenia graczy.
- Szkolenia. Łatwość tworzenia materiałów edukacyjnych wysokiej jakości, w tym filmów instruktażowych typu “how to”, może bardzo podnieść atrakcyjność szkoleń i kursów.
Źródło: DALL·E 3, prompt: Marta M. Kania (https://www.linkedin.com/in/martamatyldakania/)
Jak firmy mogą skorzystać na realistycznym wideo AI?
Wykorzystanie AI w produkcji wideo oferuje firmom szereg korzyści, takich jak oszczędność czasu i środków, powtarzalna jakość wyników, czy zwiększenie wartości końcowej produkcji. OpenAI podejmuje kroki w kierunku zapewnienia bezpieczeństwa Sory, w tym współpracę z zespołami przeprowadzającymi testy antyadwersyjne oraz rozwijanie klasyfikatora do wykrywania wideo AI.
Sora od OpenAI otwiera przed nami nowe możliwości w tworzeniu i konsumpcji treści wideo. Od rewolucji w branży kreatywnej, przez zmiany w marketingu i edukacji, po wpływ na codzienną komunikację – potencjał jest ogromny. Jako narzędzie, które może całkowicie zmienić zasady gry, Sora zasługuje na szczególną uwagę. Wyczekujemy dalszych informacji od OpenAI, a zwłaszcza na temat tego, kiedy Sora stanie się dostępna dla szerszej publiczności. To początek nowej ery w tworzeniu treści wideo. Kolejny krok to jej integracja z tworzeniem dźwięku, głosu oraz modeli trójwymiarowych, które otworzą szeroko drzwi dometaverse.
Marta Matylda Kania,
Założycielka Superpowered by AI.
Opracowuje dla biznesu procesy tworzenia treści przez generatywną sztuczną inteligencję. Interesuje się przyszłością AI w biznesie, pisze zaawansowane prompty i prowadzi szkolenia z ChataGPT dla firm.