Google Genie — generatywny model AI tworzący w pełni interaktywne światy z obrazów

1 rok temu

Czym jest Google Genie?

Google Genie to podstawowy model świata (foundational world model) opracowany przez DeepMind. Jest to generatywny model AI przeszkolony na ponad 30 000 godzin nagrań gier wideo z gatunku platformówek 2D publicznie dostępnych w internecie. Jego kluczową cechą jest zdolność do generowania w pełni interaktywnych, grywalnych środowisk bezpośrednio z pojedynczych obrazów, zdjęć, a choćby odręcznych szkiców.

Źródło: Genie: Generative Interactive Environments (https://arxiv.org/abs/2402.15391)

Jak to możliwe? Genie wykorzystuje technikę uczenia bez nadzoru, w procesie nabywania umiejętności precyzyjnej kontroli nad środowiskiem wyłącznie na podstawie materiałów wideo, bez konieczności oznaczania akcji przez człowieka. dzięki specjalnego modułu kodowania akcji, wychwytuje subtelne zmiany między kolejnymi klatkami wideo i przypisuje im wewnętrzne reprezentacje ruchów, takie jak skok czy przesunięcie w lewo. Następnie model dynamiki generuje kolejną klatkę sekwencji w oparciu o już zakodowane akcje.

W rezultacie Genie potrafi tworzyć w pełni kontrolowalne, interaktywne środowiska gier z dowolnych danych wizualnych. Każdy ruch gracza powoduje wygenerowanie nowej, unikalnej klatki w czasie rzeczywistym, co tworzy płynną, grywalną sesję. To naprawdę duża innowacja, która sprawia, iż możemy generować całe interaktywne światy z obrazów lub tekstu.

Na czym polega innowacyjność Genie?

Innowacyjność Genie polega na połączeniu kilku kluczowych elementów w jednym modelu:

generatywnych modeli wideo, takich jak Phenaki, TECO czy maskvit, które potrafią przewidywać przyszłe klatki sekwencji na podstawie wejściowych ramek i tekstu, ale nie oferują możliwości aktywnej kontroli;
modeli świata, które koncentrują się na przewidywaniu przyszłych stanów środowiska na podstawie akcji agenta, wymagając jednak danych dostarczanych przez człowieka;
uczenia bez nadzoru, co pozwala Genie uczyć się zarówno dynamiki środowiska, jak i przestrzeni akcji wyłącznie z surowych danych wideo, bez żadnych etykiet akcji od człowieka.

Chociaż każdy z tych obszarów był wcześniej eksplorowany, Genie jest pierwszym modelem łączącym je w celu uczenia się kontrolowalnych środowisk bezpośrednio z materiałów wideo. To bezprecedensowe podejście do uczenia modeli bez nadzoru ludzkiego stanowi kluczową innowację Genie. Otwiera drzwi do wykorzystania ogromnej ilości materiałów wideo dostępnych w internecie jako źródła treningowego dla modeli AI i przełamuje bariery związane z ograniczoną dostępnością etykietowanych danych.

Połączenie generatywnych modeli wideo, modeli świata i uczenia bez nadzoru w jednym rozwiązaniu stanowi fundamentalny postęp w rozwoju sztucznej inteligencji. Genie pokazuje, iż zaawansowane systemy AI są w stanie nauczyć się złożonych zachowań i środowisk bezpośrednio z nieustrukturyzowanych danych, bez konieczności manualnego znakowania. Jest to najważniejszy krok na drodze do osiągnięcia prawdziwej sztucznej ogólnej inteligencji (Artificial General Intelligence, AGI).

Źródło: Google Genie (https://sites.google.com/view/genie-2024/)

Możliwe zastosowania Google Genie

Możliwości Google Genie wykraczają daleko poza generowanie gier wideo. Ten pionierski model AI może znaleźć zastosowanie w wielu dziedzinach:

narzędzie dla animatorów — wystarczy przesłać obraz, szkic lub krótki opis tekstowy, a Genie wygeneruje spójną animację;
nieograniczone źródło treningowe dla agentów AI — dzięki zdolności generalizacji do zupełnie nowych domen Genie oferuje nieskończoną pulę wyzwań, na których mogą się uczyć przyszłe systemy AI. Brak zróżnicowanych środowisk szkoleniowych był dotychczas jedną z kluczowych barier w rozwoju ogólnych agentów AI;
symulacje fizyczne dla robotyki — badania pokazały, iż Genie jest w stanie nie tylko kontrolować wirtualne roboty, ale także realizować fizyczne adekwatności odkształcalnych obiektów. Może to mieć ogromne znaczenie dla rozwoju robotyki i symulacji fizycznych,
zastosowania w branżach kreatywnych — Genie może ułatwić tworzenie interaktywnych instalacji artystycznych, wirtualnych wystaw czy filmów. Wystarczy przesłać szkic, a model wygeneruje w pełni kontrolowalny świat 3D, gotowy do eksploracji.

Nie można jednak zapominać o potencjalnych wyzwaniach i ograniczeniach tej technologii. Na obecnym etapie rozwoju Genie działa najlepiej w wąskich domenach, takich jak gry platformowe 2D. Skalowanie do bardziej złożonych środowisk 3D wymaga dodatkowych badań i optymalizacji. Ponadto istnieje ryzyko niewłaściwego wykorzystania tej technologii do generowania szkodliwych lub niebezpiecznych treści. Dlatego najważniejsze jest opracowanie solidnych ram etycznych i prawnych regulujących rozwój i zastosowanie takich modeli AI.

Źródło: Google Genie (https://sites.google.com/view/genie-2024/)

Podsumowanie i perspektywy

Google Genie, umożliwiając tworzenie w pełni interaktywnych środowisk bezpośrednio z danych wizualnych, bez konieczności manualnego znakowania akcji, stanowi prawdziwy przełom w generatywnej sztucznej inteligencji. Ten fundamentalny model świata daje moc wyrażania wyobrażeń w formie grywalnych wirtualnych rzeczywistości, które mogą być eksplorowane i kontrolowane przez człowieka lub agenta AI.

Potencjał Genie jest ogromny — od narzędzi dla twórców gier, przez nieograniczone źródło danych treningowych dla AI, aż po symulacje fizyczne dla robotyki. To także istotny krok na drodze do AGI. Wraz z postępującym rozwojem modeli takich jak Genie granica między światem rzeczywistym a wirtualnym staje się coraz bardziej płynna.

Idź do oryginalnego materiału