Jeśli nie Midjourney, to co? Test 8 modeli Stable Diffusion

Choćby za sprawą papieża Franciszka w dziwacznych kurtkach. Co jednak, gdy chcemy wyjść poza kanwę Midjourney i pozbyć się jego ograniczeń?

Celuj w konkretny problem

Czas poznać interfejs webowy dla Stable Diffusion. Na windowsie zainstalujesz go, nie pisząc nawet jednego znaku. Jeżeli nie boisz się konsoli i wrzucenia tam kilku poleceń, poradzisz sobie również na Macu.

Za jego pomocą będziesz mógł przy pomocy dosłownie dwóch pól tekstowych i kilkunastu suwaczków, które na dobrą sprawę możesz zostawić na początku w spokoju, zacząć tworzyć swoje grafiki i to bez dostępu do Sieci. To, czego przede wszystkim potrzebujesz, to wytrenowany model, z którego będzie korzystać Stable Diffusion web UI. I właśnie tutaj pojawia się bardziej istotne pytanie.

Jaki model graficzny wybrać?

Wszystko zależy od Twoich wymagań. Naprawdę. Znajdziesz setki modeli pod różne zastosowania, ale… nie ma jednego idealnego. Pewnie do czasu. Nawet taki Midjourney niesie za sobą wiele ograniczeń. Od pewnego czasu mam wrażenie, że choćby proste dodanie do promptu „blurred background” powoduje, że otrzymujemy idealnie, choć o wiele za mocno, wyblurowane tło. Dlaczego? Ludzie to lubią. Dopiero gdy chcemy uzyskać mniej radykalny efekt, zaczynają się schody, które nieraz łatwiej obejść, niż się na nie wdrapać.

Pobrałem 27.5GB modeli

Postanowiłem sprawdzić 8 najciekawiej wyglądających moim zdaniem modeli, które najbardziej przydadzą mi się prawdopodobnie w pracy. Są to przeróżne modele, które starają się w maksymalnie realistyczny sposób oddać ludzkie ciało. Nie tylko ubrane, choć akurat w pracy ta opcja mi się nie przyda.

Porównanie modeli

Portret: mulatka

Zacząłem od dość skomplikowanego promptu:

photo realistic portrait of a gorgeous afro brazilian girl, medium blonde hair, (tropical island environment: 1.2), at sunset, detailed face, intricate, sharp, focused, depth of field, symmetrical face, f/1. 8, 85mm, Nikon Z9, (centered image composition: 1.2)

do którego dodałem również prompt negatywny, czyli listę rzeczy, które na pewno nie chcę, by znalazły się na grafice:

chief,  big breasts, restaurant, suite, hat, asian, ((3d, cartoon, anime, sketches)), (worst quality:2), (low quality:2), (normal quality:2), lowres, normal quality, ((monochrome)), ((grayscale)), bad anatomy, out of view, cut off, ugly, deformed, mutated, EasyNegative, paintings, sketches, (worst quality:2), (low quality:2), (normal quality:2), lowres, normal quality, ((monochrome)), ((grayscale)), skin spots, acnes, skin blemishes, age spot, glans,extra fingers,fewer fingers,, "(ugly eyes, deformed iris, deformed pupils, fused lips and teeth:1.2), (un-detailed skin, semi-realistic, cgi, 3d, render, sketch, cartoon, drawing, anime:1.2), text, close up, cropped, out of frame, worst quality, low quality, jpeg artifacts, ugly, duplicate, morbid, mutilated, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, blurry, dehydrated, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck, illustration, painting, drawing, art, sketch, deformed, ugly, mutilated, disfigured, text, extra limbs, face cut, head cut, extra fingers, extra arms, poorly drawn face, mutation, bad proportions, cropped head, malformed limbs, mutated hands, fused fingers, long neck, chief,  big breasts, restaurant, suite, hat, asian, ((3d, cartoon, anime, sketches)), (worst quality:2), (low quality:2), (normal quality:2), lowres, normal quality, ((monochrome)), ((grayscale)), bad anatomy, out of view, cut off, ugly, deformed, mutated, EasyNegative, paintings, sketches, (worst quality:2), (low quality:2), (normal quality:2), lowres, normal quality, ((monochrome)), ((grayscale)), skin spots, acnes, skin blemishes, age spot, glans,extra fingers,fewer fingers, (ugly eyes, deformed iris, deformed pupils, fused lips and teeth:1.2), (un-detailed skin, semi-realistic, cgi, 3d, render, sketch, cartoon, drawing, anime:1.2), text, close up, cropped, out of frame, worst quality, low quality, jpeg artifacts, ugly, duplicate, morbid, mutilated, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, blurry, dehydrated, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck, illustration, painting, drawing, art, sketch, deformed, ugly, mutilated, disfigured, text, extra limbs, face cut, head cut, extra fingers, extra arms, poorly drawn face, mutation, bad proportions, cropped head, malformed limbs, mutated hands, fused fingers, long neck

Czy zawsze trzeba tworzyć tak skomplikowany prompt negatywny? Możesz skorzystać z mojego i rozszerzyć go (lub skrócić) tak, by był skrojony pod Twoje potrzeby.

Po przygotowaniu promptów wygenerowałem 8 grafik z takimi samymi ustawieniami i jedną w Midjourney starając się oddać to samo zapytanie tak dokładnie oryginału, jak to możliwe. Oto wyniki:

Większość grafik jest w gruncie rzeczy podobnych. Dlaczego? Możliwe, że były trenowane na bardzo podobnej bazie zdjęć. Widać jednak różnice. Pierwsza jest nacechowana seksualnie przez duży dekolt. Ósma trzyma coś, co pewnie miało być aparatem – jest to zapewne efekt tego, że model nie wiedział czym cechuje się obraz ze wskazanego w prompcie Nikona. Czas na kolejną próbę.

Streetwear: Berlin

Rozpoczynamy tradycyjnie od promptu. Tym razem dość prostego i krótkiego:

photo of a (female streetwear:1.3) blogger, in 1925 berlin, photo from 2022, Fullbody color wideangle mediumshot dolly camera 4k 8k 130mm hd detailed

Prompt negatywny został bez zmian.

Efekty?

8 obrazków jest do siebie bardzo zbliżonych. 2, 3, 5, 6, 7, 8 i 9 pokazują podobne otoczenie, a dodatkowo na trzecim w tle widzimy coś podobnego do Berliner Fernsehturm. Czwarte jest o tyle dziwaczne, że pokazuje naprawdę nieciekawą dzielnicę albo… w Berlinie naprawdę stało się niewesoło.

Ilustracja: cyberpunkowy samolot

Wspominałem już, że modele te zostały przygotowane z myślą o ludziach. Nie mogłem jednak powstrzymać się przed wrzuceniem im wyzwania:

a beautiful artwork illustration, concept art sketch of a cyberpunk airplane in a galactic nebula at sunset, volumetric fog, godrays, high contrast, high contrast, high contrast, vibrant colors, vivid colors, high saturation, by Greg Rutkowski and Jesper Ejsing and Raymond Swanland and alena aenami, featured on artstation, wide angle, vertical orientation

Wynik tego porównania są dość ciekawe.

Nie widzę tu typowego cyberpunktowego klimatu, ale np styl Grega Rutkowskiego jest widoczny bardzo mocno w obrazku czwartym, choć ten jest przeciwny AI.

Odkryjmy karty modele

Nie chcę faworyzować żadnej bazy lub strony, dlatego jeśli chcesz pobrać większość z nich, znajdziesz je bez problemu po nazwie korzystając z Google’a. Z czwórką będzie ciężej ?

Czy mój komputer sobie poradzi?

MacBook Pro M1 Max (64GB)

Poradzi. Pytanie jednak ile będziesz czekać na efekty. Moim głównym narzędziem pracy na co dzień jest 16-calowy, MacBook Pro z chipem M1 Max. Ten sam, który posiada specjalny rodzaj procesora (Neural Engine), który umożliwia obsługę zaawansowanych algorytmów uczenia maszynowego, co pozwala na wykorzystanie sztucznej inteligencji w różnych aplikacjach i usługach i… kosztował 20 999zł brutto.

Nieraz jednak wymagam lepszej jakości i request (Steps: 20, Sampler: DPM++ 2M SDE Karras, CFG scale: 10, Size: 768x1080, Model: freshPhotoRealism_v15, Clip skip: 4) zajmuje 2 minuty i 49 sekund.

Postanowiłem porównać, jak poradzi sobie z tym… składak, czyli po prostu PC.