Do czego nie nadaje się Midjourney?

2 lat temu

Jak działa Midjourney?

Midjourney tworzy wizualne reprezentacje na podstawie tekstowych instrukcji użytkownika, zwanych promptami. Użytkownik wprowadza prompt, a pod spodem skomplikowana sieć neuronowa — przeszkolona na milionach przykładów obrazów i tekstów — analizuje te słowa i generuje cztery początkowe obrazy zgodne z instrukcją. I choć Midjourney to niezwykle potężne narzędzie, nie jest jednak wszechmocne.

Tak jak każda technologia, posiada pewne ograniczenia i słabe punkty. Przyjrzyjmy się zatem bliżej aspektom, w których Midjourney może zawieść lub nie spełnić naszych oczekiwań. Zdemaskujmy niektóre mity i wyjaśnijmy nieporozumienia, by w pełni docenić możliwości i jednocześnie zrozumieć granice tego narzędzia.

Typowy proces rozpoczyna się od wprowadzenia prompta, czyli instrukcji dla AI:

Użytkownik wpisuje prompt, np. „realistyczny portret starszej kobiety w stylu renesansowym, z uwypuklonymi detalami twarzy i bogatą kolorystyką”.
Midjourney analizuje prompt i generuje cztery początkowe obrazy, zgodnie z instrukcją.
jeżeli wyniki nie są w pełni satysfakcjonujące, użytkownik może:

spróbować ponownie,
wybrać jeden z obrazów i wygenerować nowe wariacje na jego temat,
zmodyfikować prompt,
dodać dodatkowe instrukcje, aby doprecyzować pożądany rezultat,
zmodyfikować wybrany obszar obrazu.

Midjourney generuje nowy obraz lub serię obrazów, uwzględniając zmodyfikowane instrukcje.

Ten proces powtarzamy aż do uzyskania zadowalającego rezultatu.

Co jednak zrobić, jeżeli chcemy pracować w Midjourney z istniejącym zdjęciem?

Źródło: Midjourney, prompt: Marta M. Kania (https://www.linkedin.com/in/martamatyldakania/)

Czy mogę edytować w Midjourney istniejące zdjęcia?

Jedną z kluczowych ograniczeń Midjourney jest brak możliwości bezpośredniej edycji istniejących zdjęć czy obrazów spoza narzędzia. Mogą być one wykorzystywane jako inspiracje po umieszczeniu w prompcie linka do takiego obrazu oraz określeniu jego wagi, czyli tego, jak istotną inspiracją ma być dla generacji nowego obrazu. Służą do tego parametry umieszczane na końcu prompta, między innymi:

–iw, czyli image weight, po którym należy określić wagę obrazu w skali 0-3,
–sref, czyli style reference, po którym należy wkleić link do jednego lub kilku obrazów, których styl ma zostać wykorzystany w tym nowo wygenerowanym.

Midjourney pozwala bezpośrednio pracować wyłącznie na obrazach, które samo wygenerowało na podstawie Twoich promptów tekstowych. Nie ma opcji „wciągnięcia” zewnętrznego zdjęcia i modyfikowania jego części lub stylu.

Jeśli zatem potrzebujesz edytować konkretne zdjęcia lub obrazy, Midjourney może nie być najlepszym wyborem. Zamiast tego lepiej zdecydować się na tradycyjne edytory graficzne, takie jak Adobe Photoshop, Krita czy GIMP, lub specjalistyczne aplikacje do obróbki zdjęć. Niektóre inne narzędzia AI, takie jak Adobe Firefly, umożliwiają edycję i manipulację istniejącymi obrazami ze wsparciem AI.

Czy da się w Midjourney generować zdjęcia konkretnego produktu?

Chociaż Midjourney doskonale radzi sobie z wyobrażeniowymi scenami i koncepcjami, generowanie dokładnych, realistycznych wizualizacji konkretnych produktów może stanowić wyzwanie. Narzędzie to ma możliwość bezpośredniego wykorzystania istniejących zdjęć produktów do inspiracji, a nie jako wzorców. Choć Midjourney v6 radzi sobie lepiej z interpretacją złożonych promptów niż poprzednie wersje, przez cały czas może mieć problem z odwzorowaniem szczegółów i elementów podczas pracy na tym samym obrazie.

Powiedzmy, iż jesteś fotografem produktowym i potrzebujesz serii zdjęć lifestyle’owych przedstawiających określony produkt w użyciu. W tradycyjnym procesie wykorzystałbyś zdjęcia produktu (tzw. packshoty) jako podstawę, a następnie zaaranżowałbyś scenę wokół nich podczas sesji. W Midjourney nie masz jednak takiej możliwości — musisz polegać wyłącznie na opisach słownych i zdolności interpretacyjnych algorytmu do przekształcenia ich w obrazy.

Oczywiście, możesz próbować tworzyć jak najbardziej szczegółowe prompty, takie jak „butelka czerwonego wina Merlot 2021 marki XYZ, ze specyficzną etykietą i kształtem nadrukowanymi na szkle, stojąca na drewnianym blacie w rustykalnej, przytulnej kuchni” oraz dodać do nich kilka zdjęć produktu jako inspiracje z maksymalną wagą (–iw 3). choćby jednak przy największych staraniach, Midjourney nie zagwarantuje 100% zgodności wygenerowanego obrazu z realnym wyglądem produktu.

Po kilku krokach modyfikacji model może zacząć „gubić” niektóre aspekty obrazu, co utrudnia doprowadzenie go do pożądanego stanu. Modyfikacje, takie jak zmiana oświetlenia lub dodanie elementów tła, mogą sprawić, iż przedmioty zaczną się zmieniać.

Aby uzyskać jak najbardziej zbliżone do oczekiwań wizualizacje produktów, warto rozważyć kreatywne obejścia i eksperymenty z promptami. Pomocne może być również łączenie różnych narzędzi lub skorzystanie z aplikacji, takich jak Adobe Firefly, specjalnie przeznaczonych do tego celu.

Dlaczego Midjourney robi błędy podczas generowania długich napisów?

Pewnie zetknęłaś się z entuzjastycznymi nagłówkami głoszącymi, iż Midjourney potrafi już generować napisy? Tak, potrafi. Jest jednak pewne „ale”. Choć Midjourney jest coraz lepsza w generowaniu napisów, może przez cały czas mieć problemy z utrzymaniem spójności i czytelności przy dłuższych tekstach, zwłaszcza w języku innym niż angielski.

Źródło: Midjourney, prompt: Marta M. Kania (https://www.linkedin.com/in/martamatyldakania/)

Dla porównania Ideogram to darmowe, alternatywne narzędzie AI specjalizujące się w generowaniu świetnych napisów i logotypów. Realizm wnętrz i postaci tworzonych w tym narzędziu jest również na bardzo wysokim poziomie. Na przykład obraz według tego samego prompta, którego użyłam do wygenerowania obrazu w Midjourey (powyżej), w wykonaniu Ideogramu wygląda następująco:

Źródło: Ideogram, prompt: Marta M. Kania (https://www.linkedin.com/in/martamatyldakania/)

Czy Midjourney przygotuje mockup według ścisłych wytycznych?

Jednym z kluczowych aspektów osiągnięcia pożądanych rezultatów w Midjourney jest precyzyjne formułowanie promptów tekstowych. Im bardziej szczegółowe i dokładne będą Twoje instrukcje, tym większa szansa na wygenerowanie obrazów zgodnych z oczekiwaniami.

Midjourney najlepiej sprawdza się w tworzeniu obrazów o określonym temacie i stylistyce, jednak bez ustalonych sztywnych ram. Warto pomyśleć o niej raczej jako artystce-portrecistce, pejzażystce czy karykaturzystce niż jak o edytorze graficznym. jeżeli jednak potrzebujesz stworzyć mockup lub prototyp według ściśle określonych wytycznych, takich jak konkretne:

rozmiary,
kolory,
style,
elementy graficzne,

Praca z Midjourney może się okazać bardziej wymagająca niż z innymi narzędziami. Na pewno będzie konieczna duża wprawa w konstruowaniu odpowiednich promptów. Znajdź możliwie ścisłe odniesienia wizualne, eksperymentuj z różnymi sformułowaniami i stopniowo modyfikuj prompty, aby uzyskać pożądany efekt. Bądź jednak przygotowany na wiele prób i niepowodzeń, zanim osiągniesz satysfakcjonujący rezultat.

To może szybkie i precyzyjne edytowanie w Midjourney?

Midjourney oferuje szereg narzędzi do edycji wygenerowanych obrazów, takich jak na przykład:

vary region pozwalające na zmianę części obrazu bez wpływu na resztę,
zoom out — narzędzia do oddalania,
upscale — zwiększenie rozdzielczości zdjęcia umożliwiające na przykład zmianę kadrowania.

Nadal jednak brakuje możliwości precyzyjnej edycji wyników takiej jak w przypadku tradycyjnych edytorów graficznych. Jak już wspomniałam, nie ma także możliwości bezpośredniej edycji zdjęć zaimportowanych do Midjourney.

Podsumowanie

Midjourney to niezwykle potężne i innowacyjne narzędzie AI do generowania obrazów, które zrewolucjonizowało proces tworzenia treści wizualnych. Doskonale sprawdza się w szybkim generowaniu koncepcji wizualnych o niespotykanej jakości fotorealistycznych portretów fikcyjnych postaci i ogólnych wizualizacji. Umożliwia płynne iterowanie i modyfikowanie obrazów poprzez zmianę promptów tekstowych i prosty interfejs, co czyni proces twórczy bardziej wydajnym.

Jeśli jednak Twój projekt wymaga precyzji i zaawansowanych zmian na poziomie pojedynczych pikseli, takich jak retusz, dodawanie elementów brandingu czy dostosowywanie szczegółów, Midjourney może nie sprostać tym wymaganiom. W takich przypadkach lepiej zdecydować się na specjalistyczne oprogramowanie do edycji graficznej zapewniające pełną kontrolę nad każdym detalem obrazu.

Słowem, Midjourney najlepiej wykorzystać do zadań wymagających rozmachu, tworzenia pomysłów i generowania materiałów koncepcyjnych, a następnie dopracowywać je w bardziej zaawansowanych narzędziach, jeżeli zajdzie taka potrzeba.

Idź do oryginalnego materiału