Midjourney – Eine kurze Anleitung

KIs, vor allem ChatGPT, sind gerade in aller Munde und in aller Köpfe. Genau deshalb schreibe ich nichts über ChatGPT, denn stattdessen gibt es jetzt was fürs Auge!
Wer mir auf Mastodon folgt, weiß ja, dass ich gerne die KI Midjourney zur Bildgenerierung verwende. Da ich nun häufiger gefragt wurde, wie das funktioniert, dachte ich mir, ich schreibe euch eine kurze Anleitung, damit ihr auch schnell zu guten Ergebnissen kommt. Für Anfänger kann es enttäuschend sein, wenn man nicht weiß, wie man diese KI bedienen muss, und die ersten eigenen Bilder nicht so aussehen wie jene, die man gerade überall zu Gesicht bekommt.

Der Start

Zwei Dinge braucht ihr. Zum einen Discord. Das ist ein Messenger, den Gamer gerne verwenden. Chat, Audio- oder Videocalls und Streaming sind damit möglich. Wenn ihr das habt, meldet ihr euch bei Midjourney an. Über die Webseite könnt ihr dem Discord-Server von Midjourney beitreten. Ihr bekommt einen Testzugang und habt 50 Prompts frei. Das sind mit den Standardeinstellungen 50x 4 Bilder. Jetzt kann es schon losgehen.

Erste Schritte

Ihr solltet jetzt schon eine Privatnachricht vom Midjourney-Bot bekommen haben. Darin steht eine kurze Anleitung mit Starthilfe und ein paar nützlichen Links. Falls ihr später ein Abo abschließt, könnt ihr mit dem Bot privat schreiben, um eure Bilder zu generieren. Die ersten kostenlosen Testbilder müsst ihr in einem der Newbie-Channels erstellen. Da ist leider immer sehr viel los und man muss seine Bilder im Auge behalten, wenn sie fertig errechnet wurden, sonst scrollen die weg. Der Server von Midjourney ist ziemlich groß (10 Millionen User, Stand Ende Januar 2023) und die Kanäle sind thematisch sortiert. So gibt es beispielsweise Kanäle für Abstraktes, für Landschaften, für Charaktere, das Tagesthema usw.

Was ist ein Prompt? Oder: Wie man die KI ansteuert

Ein Prompt ist die Anweisung an die KI, was sie euch generieren soll. Ihr leitet euren Prompt mit /imagine ein und schreibt das auf, was ihr gerne sehen möchtet: Welches Motiv? Welche Details? Ein bestimmter Stil? Eine bestimmte Epoche? Ein Gemälde? Oder eine Fotografie? Kachelmuster vielleicht?
Versuchen wir das:

/imagine a female mage in a blue dress with magic goggles drinking from a blue potion in a thin crystal vial, fantasy, illustration, magic the gathering style, –ar 3:2 –v 4

–ar 3:2 bedeutet Aspect Ratio. So bekommt man breitere Bilder. Lässt man das weg, bekommt man quadratische Bilder.
–v 4 bedeutet, dass man mit der letzten Version von Midjourney, Version 4, arbeiten will. Bilder mit V3 sahen einfach nochmal anders aus, etwas gröber, nicht ganz so weich und rund. Bei V3 waren aber Bilder im 16:9-Format möglich, aber das kann V4 noch nicht.

Das Ergebnis:

Ihr bekommt grundsätzlich vier Bilder. U bedeutet “upscale”, also das Bild großrechnen lassen. V bedeutet Variation. Wenn mir gar nichts gefällt, drücke ich oben rechts auf den Repeat-Knopf und schaue mir weitere Iterationen an. Ich fand Bild 1 am besten und klickte deshalb auf U1. Das hochgerechnete Ergebnis:

Die Bilder sind aber nicht immer perfekt. Man sieht hier beispielsweise, dass die Brillengläser schlecht generiert wurden. Wahrscheinlich hätte ich die KI anweisen müssen, weniger “kreativ” zu sein (Style: low, siehe Screenshot unten). Ferner hat Midjourney sehr häufig Probleme mit Händen und Fingern. Schriftzüge oder Text gehen auch (noch) nicht, da kommen immer sehr kryptische Symbole dabei heraus. Spätestens jetzt wisst ihr, warum der Schriftzug des Logos im Beitragsbild keinen Sinn ergibt.

Was ist mit dem Abo? Wie geht das?

Ihr könnt mit dem Befehl /subscribe auf ein Abo upgraden, das ca. 11 Euro im Monat kostet. Das ist momentan für mich als Gelegenheitsuser auch das sinnvollste Abomodell. Mit den 11 Euro kauft ihr 200 Minuten Rechenzeit und die generierten Bilder dürft ihr für nicht-kommerzielle Zwecke nutzen. Als grobe Rechnung: Ein Prompt mit der V4-Engine generiert in 30 Sekunden 4 Bilder. Das bedeutet, ihr könnt pro Monat etwa 400 Prompts verwenden. Upscalen geht schneller, etwa 15 Sekunden.
Mit V3 hat alles doppelt so lange gedauert, man bekam also etwa nur halb so viele Bilder für seine 11 Euro. V4 ist nicht nur schneller, sondern sieht auch besser aus.

Die Feinheiten

Über den Befehl /settings kann man seit neuestem ein kleines Menü aufrufen, das einem das häufige Eintippen von Suffixen wie z.B. –v 4 erspart:

Die oberen beiden Reihen sind die verschiedenen “Engines”, bis zu “MJ Test Photo”. Je nachdem, welche Engine man verwendet, fallen die Ergebnisse beim selben Prompt sehr unterschiedlich aus, die verwendete Rechenzeit variiert ebenfalls stark. Ich habe für das nächste Beispiel den Test Photo – Modus genommen und meinen Prompt für die blau gekleidete Magierin eingegeben. Der Bot fügt nun von selbst das Suffix für Test Photo hinzu:

a female mage in a blue dress with magic goggles drinking from a blue potion in a thin crystal vial, fantasy, illustration, magic the gathering style, –ar 3:2 –testp

Das Ergebnis:

Zugegeben, der Prompt war für die Foto-Engine etwas unglücklich, da man damit ja eigentlich Fotos erstellen will. Diese Engine ist leider auch sehr rechenintensiv. Es dauerte etwa eine volle Minute, bis das Bild fertig war. Außerdem bekam ich wegen der vorgegebenen Aspect Ratio nur ein Bild anstatt zwei. Ja, man bekommt in dem Modus nur zwei Bilder. So braucht man seine Rechenzeit viel schneller auf. Entferne ich alle fantasybezogenen Attribute aus dem Prompt, kommen wir einem Foto schon näher, auch wenn es noch sehr schräg aussieht. Ich müsste jetzt an dem Prompt herumfeilen, um ein besseres, fotorealistischeres Ergebnis zu bekommen. Ich kann z.B. das Kameramodell eingeben, die Brennweite, das Objektiv, die Beleuchtung usw., und dann schauen, was die nächste Iteration zutage fördert.

Wie lerne ich, gute Prompts zu schreiben?

Am besten schaut man sich in den offenen Discord-Kanälen von Midjourney um. Da kann man nämlich sehen, welche Prompts verwendet wurden und welche Bilder dabei herauskamen. So kann man sich die Attribute selbst herauspicken, die zum gewünschten Ergebnis führen (können). Dabei sollte man sich aber von manchen ellenlangen Prompts nicht abschrecken lassen. Die sehen vielleicht beeindruckend aus, aber sie führen nicht zwangsläufig zu besseren Ergebnissen.

Welche Tricks gibt es damit noch?

Ihr könnt ein grob gezeichnetes Bild einscannen, es dem Bot auf Discord hochladen und ihm sagen, dass er das Bild fertig malen soll. Dazu klickt ihr auf das hochgeladene Bild, kopiert den Link aus dem Browser, der sich geöffnet hat und fügt ihn hinter den /imagine -Befehl ein. Dann schreibt ihr direkt dazu euren Prompt, also was auf dem Bild zu sehen ist / sein soll.
Ihr könnt aber auch ein Bild von euch selbst hochladen und ein Cartoon, ein Gemälde oder ein stilisiertes Userbild von euch machen. Da müsst ihr aber selber wissen, ob ihr Bilder von euch da hochladen wollt. Aber ihr seid erwachsen, also keine DSGVO-Predigt. Oder ihr verlinkt ein Bild aus dem Internet als Referenz und gebt dann euren Prompt dazu ein.

Außerdem habt ihr auch eine Galerie, damit ihr nicht auf Discord im Privatchat mit dem Bot ellenlang herumscrollen müsst. Dazu loggt ihr euch auf der Webseite von Midjounrey in die “Gallery” ein, gleich oben rechts auf der Webseite, und schon habt ihr eure Iterationen in etwas übersichtlicher Form:

Und wofür verwende ich das?

Ich verwende die generierten Bilder für den Blog, wie ihr ja schon gesehen habt. Zudem generiere ich damit Porträts für meine Rollenspielcharaktere und Bilder für meine Gamification-Klasse: Entweder als Illustrationen für die Storylines, für die NPCs oder für die Karten aus dem Item-Shop.

Aber am besten, ihr probiert einfach herum! Ausprobieren, am Prompt feilen, spicken! Oder habt ihr sogar schon Erfahrung? Wofür verwendet ihr die Bilder? Was macht ihr damit? Lasst es mich gerne wissen und schreibt mir einen Kommentar! Viel Spaß beim Generieren!

PS: In dem Zusammenhang ist auch das Interview mit meinen beiden Kunstlehrern zu Midjourney lesenswert!

Ein Kommentar

Kommentar hinterlassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert