Midjourney v6. Nowości w generowaniu obrazów AI

2 lat temu

Jak wykorzystać w biznesie możliwości Midjourney?

Jeśli chcesz wizualizować swoje pomysły w mgnieniu oka, bez konieczności zatrudniania grafików i czekania na realizację projektów, Midjourney jest jednym z najciekawszych narzędzi AI dostępnych na rynku. Pozwala gwałtownie i sprawnie tworzyć:

prototypy,
wizualizacje produktów,
materiały koncepcyjne.

Jednym z najlepszych przykładów zastosowania Midjourney jest moment, w którym startup technologiczny chce zaprezentować inwestorom wizję swojego przyszłego produktu. Wystarczy kilka dobrze sformułowanych promptów, czyli wskazówek tekstowych dla sztucznej inteligencji, a Midjourney wygeneruje serię obrazów, które pozwolą zobaczyć ideę w całej okazałości.

Inne zastosowanie to tworzenie treści marketingowych i reklamowych. Zamiast polegać na sesjach zdjęciowych, możesz oprzeć komunikację wizualną na unikalnych i przyciągających wzrok obrazach tworzonych bezpośrednio na potrzeby:

kampanii reklamowych,
materiałów promocyjnych,
opakowań produktów.

Midjourney może odegrać istotną rolę w uzgadnianiu z klientem wyglądu produktu. Umożliwia bowiem szybkie eksperymentowanie z różnymi stylami, kompozycjami i technikami w czasie rzeczywistym.

Source: Midjourney, prompt: Marta M. Kania(https://www.linkedin.com/in/martamatyldakania/)

Jak działa Midjourney?

Midjourney tworzy wizualne reprezentacje na podstawie tekstowych instrukcji użytkownika, zwanych „promptami”. Pod spodem kryje się skomplikowana sieć neuronowa, która została wytrenowana na milionach przykładów obrazów i tekstów, dzięki czemu jest w stanie rozpoznawać wzorce i powiązania między słowami a wizualnymi reprezentacjami.

Komunikacja z Midjourney odbywa się za pośrednictwem aplikacji Discord, gdzie użytkownicy przesyłają swoje prompty, a narzędzie generuje odpowiednie obrazy. Modele językowe interpretują znaczenie słów użytkownika i generują obrazy na podstawie tych interpretacji. Typowy proces wygląda następująco:

Użytkownik wprowadza prompt, np. „realistyczny portret starszej kobiety w stylu renesansowym, z uwypuklonymi detalami twarzy i bogatą kolorystyką”.
Midjourney analizuje prompt i generuje cztery początkowe obrazy, zgodnie z instrukcją użytkownika.
Jeśli wyniki nie są w pełni satysfakcjonujące, użytkownik może zmodyfikować prompt lub dodać dodatkowe instrukcje, aby doprecyzować pożądany rezultat.
Midjourney generuje nową serię obrazów, uwzględniając zmodyfikowane instrukcje.
Ten proces jest powtarzany aż do uzyskania zadowalającego rezultatu.

Dzięki, zaawansowanemu procesowi uczenia maszynowego i stale rosnącej bazie danych, Midjourney może tworzyć niezwykle realistyczne i szczegółowe obrazy, które wyglądają jak dzieła tworzone manualnie przez artystów. Co więcej, narzędzie to stale się rozwija, co pozwala mu lepiej rozumieć język i generować coraz lepsze obrazy.

Źródło: Midjourney, prompt: Marta M. Kania (https://www.linkedin.com/in/martamatyldakania/)

Co nowego w Midjourney v6?

Najnowsza wersja Midjourney, oznaczona jako v6, przynosi ze sobą szereg innowacji, które znacząco poprawiają możliwości tego potężnego narzędzia. Najważniejsze nowości to łatwiejsze i bardziej naturalne promptowanie, możliwość tworzenia napisów, jeszcze większy realizm tworzonych obrazów oraz poprawione kompozycje.

Łatwiejsze promptowanie

Jedną z kluczowych zmian w Midjourney v6 jest ulepszony model rozumienia języka naturalnego, który pozwala na bardziej intuicyjne i precyzyjne formułowanie promptów. W poprzednich wersjach czasami trudno było uzyskać pożądane rezultaty, choćby przy użyciu precyzyjnych opisów. Nowa wersja radzi sobie znacznie lepiej z interpretacją złożonych i opisowych promptów, co ułatwia przekazywanie wizji użytkownika.

Przykładowo, prompt „…stary drewniany statek z żaglem w butelce, leżący na drewnianym stole w opuszczonej przystani, z promieniami zachodzącego słońca wpadającymi przez zakurzone okno…” mógł wcześniej sprawić trudność algorytmowi. Jednak v6 Midjourney jest w stanie zrozumieć i uwzględnić wiele szczegółów, takich jak materiały, oświetlenie, perspektywa i nastrój, generując obrazy, które świetnie odzwierciedlają tę opisową instrukcję.

Source: Midjourney, prompt: Marta M. Kania (https://www.linkedin.com/in/martamatyldakania/)

Generowanie napisów

Kolejną kluczową innowacją w Midjourney v6 jest znacznie poprawioną zdolność do tworzenia napisów i integrowania ich z obrazem. W poprzednich wersjach próby wygenerowania tekstu często kończyły się rozmazanym tekstem albo zestawem liter z grubsza przypominającym słowa. Teraz Midjourney może umieszczać czytelne napisy w różnych stylach i ciekawych czcionkach. Otwiera to nowe możliwości w zakresie tworzenia:

logotypów,
reklam,
plakatów i innych materiałów graficznych wykorzystujących tekst.

Jeszcze bardziej realistyczne obrazy

Midjourney v6 wprowadza również udoskonaloną jakość obrazów, która przybliża je do poziomu realizmu fotografii. Ulepszenia obejmują:

bardziej naturalne oświetlenie,
dokładniejsze odwzorowanie tekstur,
lepsze zachowanie proporcji.

Rezultaty wyglądają niezwykle realistycznie, a często trudno odróżnić je od zdjęć.

Lepsza kompozycja

Poza wzrostem realizmu Midjourney v6 obiecuje także poprawę w zakresie kompozycji obrazów. Jedna z częstych bolączek poprzednich wersji polegała na nienaturalnym rozmieszczeniu elementów w scenie, co sprawiało, iż na pierwszy rzut oka było widać, iż coś jest z obrazem „nie tak”. Nowa wersja lepiej radzi sobie z proporcjami i ułożeniem przedmiotów, tworząc bardziej wyważone i estetycznie dopracowane kompozycje.

Ograniczenia Midjourney v6

Czy oznacza to, iż nie ma już sensu zajmować się fotografią i Midjourney v6 osiągnęła doskonałość? Nie do końca. Pomimo licznych zalet i innowacji, Midjourney v6 przez cały czas boryka się z ograniczeniami, które warto mieć na uwadze. Niektóre są natury technicznej, takie jak utrudniony dostęp do narzędzia, ponieważ konieczna jest rejestracja na platformie Discord, gdzie promptuje się obrazy. Inne wiążą się z brakiem możliwości precyzyjnej obróbki rezultatów, czy wstawiania do generowanych obrazów własnych materiałów, na przykład zdjęć produktów.

Konieczność korzystania z Discord

Mimo planów wprowadzenia dedykowanej aplikacji webowej i mobilnej, na chwilę obecną Midjourney przez cały czas działa głównie za pośrednictwem aplikacji Discord. Dla początkujących użytkowników może to stanowić pewną przeszkodę, ponieważ muszą oni opanować obsługę zarówno Discorda, jak i samego narzędzia do generowania obrazów.

Aplikacja webowa Midjourney jest w tej chwili dostępna tylko dla płacących użytkowników, którzy wygenerowali już ponad 1000 obrazów.

Utrudniona praca nad rezultatami

Choć Midjourney v6 radzi sobie lepiej z interpretacją złożonych promptów, przez cały czas może mieć problem z utrzymaniem szczegółów i elementów przy pracy na tym samym obrazie. Po kilku krokach modyfikacji model może zacząć gubić niektóre aspekty obrazu, co utrudnia doprowadzenie go do pożądanego stanu.

Modyfikacje, takie jak zmiana oświetlenia lub dodanie elementów tła, mogą sprawić, iż postaci czy przedmioty zaczną się zmieniać, a kompozycja – rozmywać. Po kilku iteracjach model może zacząć tracić część wcześniejszych detali dotyczących samego portretu, takich jak precyzyjne rysy twarzy czy faktury.

Wysokie koszty dla firm

Choć Midjourney oferuje różne plany subskrypcyjne z rozsądnymi cenami dla indywidualnych użytkowników, koszty mogą gwałtownie wzrosnąć dla firm, które potrzebują generować setki lub tysiące obrazów miesięcznie na potrzeby kampanii marketingowych, czy projektów. Szczególnie w przypadku zaawansowanych zastosowań wymagających maksymalnej rozdzielczości i jakości, cena za obraz może sięgać kilku dolarów, co może stanowić istotny wydatek w skali roku.

Źródło: Midjourney (https://docs.midjourney.com/docs/plans)

Restrykcyjne zasady dotyczące generowania treści

Midjourney, podobnie jak inne narzędzia do generowania obrazów AI, posiada szereg wbudowanych ograniczeń i filtrów, które mają na celu zapobieganie niewłaściwemu wykorzystaniu tej technologii. Przykładowo, istnieją restrykcje dotyczące generowania fałszywych wizerunków znanych osób czy treści o charakterze ekstremistycznym lub przestępczym. Choć te ograniczenia mają uzasadnione przyczyny etyczne i prawne, mogą one również stanowić barierę dla niektórych kreatywnych koncepcji. Szczegółowe zapisy dotyczące polityki prywatności Midjourney możesz znaleźć tutaj: https://docs.midjourney.com/docs/privacy-policy. Natomiast warunki użytkowania, które warto sprawdzać regularnie, szczególnie w przypadku komercyjnego wykorzystywania obrazów generowanych przez Midjourney znajdziesz pod tym adresem: https://docs.midjourney.com/docs/terms-of-service.

Podsumowanie

Midjourney v6 to kolejny krok w stronę generowania obrazów AI nieodróżnialnych od zdjęć. Oferuje szereg innowacji, które podnoszą jakość, realizm i możliwości tego narzędzia. Łatwiejsze i bardziej naturalne promptowanie, zdolność do renderowania czytelnych napisów, zwiększony realizm obrazów oraz lepsza kompozycja to tylko niektóre z kluczowych usprawnień, czyniących tę wersję niezwykle atrakcyjną dla biznesów, artystów i twórców.

Niemniej jednak, jak każda technologia, Midjourney v6 nie jest pozbawiona pewnych ograniczeń. Konieczność korzystania z aplikacji Discord, trudności w precyzyjnej edycji obrazów, okresowe błędy logiczne, wysokie koszty dla firm oraz restrykcyjne zasady dotyczące generowania treści to aspekty, które należy wziąć pod uwagę przed podjęciem decyzji o wykorzystaniu tego narzędzia.

Idź do oryginalnego materiału