ChatGPT 4o: Der neue Bildgenerator im Vergleich (Gastauftritte: Autoregression/Diffusion, DALL-E & Midjourney)
Shownotes
Du liebst Bilder, hasst aber Photoshop? Dann ist diese Folge dein digitaler Rettungsring! AI Babsi (Barbara Lampl) und E-Fuchs (Jochen G. Fuchs) haben sich die Designerin und AI-Art-Expertin Stephanie Krüll geschnappt, um gemeinsam das neue Wunderkind der KI-Welt zu sezieren: ChatGPT 4o!
In dieser Episode stolpern unsere drei Helden durch die wilden Weiten der KI-Bildgenerierung, während sie versuchen, zwischen Hype und Realität zu navigieren. Jochen offenbart seine peinlichen ersten Schritte mit dem neuen Tool (spoiler: seine Versuche, Portraits zu generieren, enden in einem digitalen Spiegelkabinett des Horrors), während Stephanie und Barbara uns zeigen, wie's richtig geht.
Erfahre, warum Mid Journey vor Neid erblasst, warum deine sorgfältig generierten Omas plötzlich 20 Jahre jünger aussehen und warum Barbara bei der Erklärung von Diffusionsmodellen über Pizza philosophiert (Spoiler: Es geht um's Riechen!).
Von "Oh mein Gott, ich werde arbeitslos!" bis "Puh, ich brauche nur einen AI-Skill-Upgrade" – diese Folge ist ein wilder Ritt durch die neuesten Entwicklungen der KI-Bildgenerierung, gewürzt mit einer ordentlichen Portion Humor und Fachwissen.
Also, schnapp dir deine Lieblings-KI, lehne dich zurück und genieße diese köstliche Pizza – äh, Episode! 🍕🤖🎨
Erwähnte KI-Tools und -Modelle
- ChatGPT-4o (bzw. "vor-o")
- MidJourney
- DALL-E
- Stable Diffusion
- Flux/Sora
Erwähnte technische Konzepte
- Diffusionsmodelle vs. Autoregressive Modelle
- Reinforcement Learning
- Visual Reasoning
- Character True-ness
- Zero-Shot vs. Few-Shot Prompting
Links
- OmniGen: Unified Image Generation https://arxiv.org/abs/2409.11340
- Erik Reintjes Post zu Marketing Assets mit ChatGPT 4o https://www.linkedin.com/posts/erik-reintjes-bb43091b2_ich-bin-ehrlich-das-game-ist-durch-activity-7310583982604140544-8vf0
Kapitel
00:00 Begrüßung und Vorstellung von Stephanie Krüll 01:52 Erste Eindrücke von ChatGPT-4o und Bildgenerierung 05:19 Herausforderungen bei der KI-Bildbearbeitung 09:12 Unterschiede zwischen MidJourney und ChatGPT-4o 12:42 Technische Hintergründe zur 4o-Bildgenerierung 17:06 Wahrnehmung und Funktionsweise der Bildgenerierung 21:44 Iteratives Prompting vs. neue Generierung 25:28 Input-Optimierung vs. Output-Optimierung 30:27 Consumer-Tools vs. Enterprise-Lösungen 36:34 Was 4o besser kann als bisherige Bildgeneratoren 40:48 Gesellschaftliche Implikationen der KI-Bildgenerierung 47:43 Technische Erklärung: Autoregressives hybrides Modell vs. Diffusionsmodell 58:56 Anschauliche Erklärung von Diffusionsmodellen 1:03:16 Bias in KI-generierten Bildern 1:05:26 Reinforcement Learning zur Bias-Reduzierung 1:12:13 Abschlussbemerkungen
🥳 Danke, dass du LAIer 8|9 eingeschaltet hast! Möge die KI mit dir sein!
Schreib uns eine Bewertung mit dem KI-Modell deiner Wahl und abonniere uns auf deiner Lieblingsplattform, wir sind überall, es gibt kein Entrinnen!
[Apple] https://podcasts.apple.com/podcast/id1798319508 [Deezer] https://www.deezer.com/de/show/1001665971 [Spotify] https://open.spotify.com/show/2IfqJA4Qo02fslECWpEQW8 [Amazon Music] https://music.amazon.de/podcasts/497c3a14-dcaf-4bb3-abc1-03aa6f73f8d3/laier-8-9---noch'n-ki-podcast?ref=dmshXyRCqZ9tPU6Rl8zPrLalNKM0m [Youtube (Video-Podcast)] https://www.youtube.com/@laier89
Unsere Hosts AI Babsi: (Barbara) [Website] https://www.barbara-lampl.de | [LinkedIn]https://www.linkedin.com/in/barbaralampl/ - E-Fuchs: (Jochen) [Website]https://efuchs.net | [LinkedIn] https://www.linkedin.com/in/jochengfuchs/
Gast in der Episode: Stephanie Krüll [LinkedIn] https://www.linkedin.com/in/stefanie-krüll-ai-design/ [Website] https://www.stefanie-kruell.de/
Unser Podcast Blog https:///laier89.de/
01001100 01110101 01101011 01100101 00101100 00100000 01001001 01100011 01101000 00100000 01100010 01101001 01101110 00100000 01100100 01100101 01101001 01101110 00100000 01001011 01001001 00101101 01010000 01101111 01100100 01100011 01100001 01110011 01110100 00100000 01001100 01000001 01001001 01100101 01110010 00100000 00111000 01111100 00111001 00101110
LAIer 8|9 wird nicht Layer 89 oder Layer 8|9 geschrieben, auch nicht Layer 8 9, aber wir sind cool und wir sind tough, deshalb gibt's hier Keyword-Stuff.
Transkript anzeigen
Jochen G. Fuchs: Hallo und herzlich willkommen bei einer neuen Folge von Layer 8.9, eurem neuen KI Lieblingspodcast. Hallo Barbara!
Barbara Lampl: Hallo Jochen, wir haben Premiere!
Jochen G. Fuchs: Ja, ja, wir haben tatsächlich Premiere. Wir haben nämlich unsere erste Besucherin, ersten Gast in unserem Podcast. Wer stellt ihn jetzt vor? Sollen wir Schnick Schnack Schnuck machen für diejenigen, nicht zugucken können? Nein, mach du.
Barbara Lampl: Komm, Schnick, Schnack, Schnuck. ich sage es einfach. In meinen Augen, die jene Frau, die, wenn sie Bilder auf LinkedIn postet, ich überdenke, ich bin mathematisch gut, dass ich das nicht können muss. Stephanie Kröll, kennen uns so in echt und so physisch sogar aus der ganzen Kölner KI-Bubble. Und ich bin immer ganz begeistert, was sie von Anfang an als Vollprofi, muss man hier ehrlicherweise auch sagen, aus diesen Systemen rausholt und zwischenzeitlich auch noch mehr. Deswegen hallo liebe Steffi, herzlich willkommen und sag doch noch mal kurz zum Rest hallo und wer und was du so machst und tust und wo du herkommst.
Stefanie Krüll: Ja, hallo liebe Barbara, AI Bapzi, meine AI Bapzi und der liebe Jochen. Ich freue mich super, super bei euch hier zu sein. Es ist in der Tat auch in dem Sinne mein erster Podcast, so wir haben double Premiere. Genau, ich bin vor zweieinhalb Jahren eben als langjährige Designerin mit der künstlichen Bildgenerierung in Berührung gekommen, vorzugsweise damals mit dem Tool Mid Journey, was ich kurz beiseite gelegt habe, weil ich diese ersten Generierungen so vermatscht fand, dass ich dachte Leute, was wollt ihr mit dem Shit sozusagen? Okay, dann habe ich es aber irgendwann begriffen, da kommt was, da muss ich mal rein und dann bin ich da rein und ja, damit fing es an und mittlerweile hat sich mein Job verschoben, weg von Grafik und Webdesign hin in Richtung Workshop zu dem Thema Mid Journey als auch Vorträge so zur künstlichen Bildgenerierung und... irgendwie noch mal umgesettelt im hohen Alter. Ich feier das sehr, weil wir müssen alle flexibel bleiben. Resilient, flexibel.
Barbara Lampl: Ne, quatsch.
Jochen G. Fuchs: großartig. In meinem Hinterkopf singt jetzt gerade Reinhard May. Ja, ja, weiß, Eichhörnchen. Aber sie hat gerade gesagt, sie erzählt mal, wie alles anfing. Und es gibt so eine Liedzeile, wo er quasi anfing, wie alles mit ihm begann. Also quasi identischer Worttext wie das. Aber lassen wir Reinhard May singen. Wir wollen uns über
Barbara Lampl: Jochen, Konzentration! Mh.
Jochen G. Fuchs: ChatGPT und über Bildgeneratoren unterhalten. Ich langweile euch jetzt ganz kurz mit meinem kleinen Erlebnisbericht. Ich bin auf LinkedIn unterwegs gewesen und bin über Eric gestolpert. Eric ist CMO von Miss Pompadour. Eric Reintjes hat ja ein ganz tolles Startup gemacht. Die machen Farben. die stellen Farben her und haben dann eine ganz tolle Beratung drum herum, wo du über WhatsApp und weiß-der-geier-was erklärt kriegst, wie du beispielsweise mit ihren Spezialfarben deine Küche neu streichen kannst. Das nur zum Kontext. Und wie das ebenso bei den E-Commerce-Hinies ist, die generieren Tausende von Ad-Creatives für Meta und weiß-der-geier-was-alles und Der hat dann gesehen, toll, da kann ich jetzt was Neues machen und dann ist er losmarschiert und hat JetGPT 4.0 genommen, hat ein seiner Farbtöpfe, also ein Bild von einem seiner Farbtöpfe, jetzt akkurat zu bleiben, genommen und hat ein... Digital Asset mit irgendeinem Beschreibungsgedöns zu seiner Farbe, zu Checi Petit gefeuert und hat ihm gesagt, so bitte, mach mir jetzt eine charmante silbergrauhaarig farbene Dame, die diesen Farbtopf in der Hand hält und klatsche dann da mein Digital Asset oben drauf. Und ja, dann hat er sich gefreut, der liebe Erik, verständlicherweise. Also er ist quasi wie Rumpelstielchen das digitale Lagerfeuer herumgetanzt und hat gebrüllt, so das Marketing ist tot, Gamechanger, ich brauche jetzt nie wieder Photoshop oder sonst irgendwas. Sorry, Erik, ich lege dir zu viel in den Mund, aber so hat es sich wirklich angefühlt. Und auf der einen Seite habe ich ihn total verstanden, ich bin dann in der gleichen Euphorie auf diesen Zug aufgesprungen und zusammen mit Erik ums Lagerfeuer getanzt und hab... Ich hab irgendwann mal Bücher verbrochen als Autor und hab so einen Mallorca Mystery-Krimi geschrieben, der heißt, die Blutwinker, kauft ihn bitte. Und hab gesagt, so, ich hätte jetzt gerne einen Mallorquiner, dieser Mallorquiner, der soll bitte auf einem typischen mallorquinischen Marktplatz stellen und stolz mein Buch in die Kamera halten. Das hat der gute Mann dann getan, also JGPT 4.0 hat das für mich generiert. Und ich hab das angeguckt und hab mich gefreut und... Ja, dann habe ich gedacht, richtig cool, lass uns das doch mal im Produktiven testen. Ich brauche nämlich jetzt noch ganz schnell eine Vorschau-Grafik für einen Livestream von W &V, das Magazin, für das ich arbeite. Wir wollen nämlich über TikTok sprechen heute Nachmittag und ich habe da so ein paar Gesprächspartner. Den ersten Cop, den habe ich noch, den anderen renne ich noch hinterher. Lieber Marketing-Manager, bevor du in deinen verdienten Feierabend gehst, mach mir doch die Grafik bitte fertig. klatsch mir da drei kauer Köppe drauf und den Kopf, ich schon hab und den Rest macht dann CheciPT 4.0, hab ich gesagt. Ich naiver Mensch. Hab das Ding dann genommen und hab die Grafik reingeschmissen, hab die vier Köpfe da reingeschmissen. Ja. Also was CheciPT getan hat, er hat... Kennt ihr diese Jahrmarktspiegelkabinette?
Barbara Lampl: Hm?
Jochen G. Fuchs: durch die du durchläufst und dann siehst du Zerrbilder von dir selbst. So bei den ersten zwei Versuchen habe ich es geschafft noch auf dem Sitzen zu bleiben, bei den nächsten lag ich dann lachend unterm Tisch, weil es echt grausam war und ich habe mir gedacht, ja du Depp, das hättest du dir eigentlich denken können. Das Ding generiert natürlich neue Bilder, das ist keine Bildbearbeitung. Der macht etwas, was wahrscheinlich so aussieht wie du, aber was wahrscheinlich so aussieht wie du, sieht eben nicht so aus wie du. Sprich, ich bin auf den
Stefanie Krüll: Das ist richtig. Ja.
Jochen G. Fuchs: Denkfehler hereingefallen, den Erik quasi auch gemacht hat. Er hat das Ding mit einer Bildbearbeitung verwechselt, was es nur einfach nicht ist. Ja, jetzt habe ich ganz viel Monolog gehalten. Wie war denn das bei euch? Wie war denn eure erste Berührung mit Chelf GPT 4.0? Man, das hört sich jetzt an wie eine Selbsthilfegruppe hier.
Barbara Lampl: Sagt doch bitte nicht 4-0, sondern 4-0, bitte. Mir blutet immer das Herz. Der 4-0er ist was ganz anderes als der 4-0. Es macht auch gleich noch übrigen Sinn, dass das Ding 4-0 ist. Deswegen bitte, bitte 4-0. Bitte, bitte.
Jochen G. Fuchs: okay. Oh... Hölle... Hölle Hölle Hölle Hölle Hölle... Nein bitte nicht, jetzt hab ich ne andere Bildzeile im Hinterkopf... 4-0... HPT 4-0... 4-0... 4-0... ich kanns jetzt...
Barbara Lampl: Okay. Genau. Sehr gut. Steffi, komm, du bist hier der Profi. Wie war für dich so der erste Eindruck?
Stefanie Krüll: Also kurze Schnappatmung ehrlich gesagt. muss jetzt noch mal überlegen. war Montag, letzte Woche Montag und Dienstag musste ich meine Mutter ins Krankenhaus begleiten und deshalb war ich gar nicht so viel irgendwie auf LinkedIn. Und ich glaube es war dann Mittwochmorgen und ich mache das auf und denke nur so okay. Kurz Schnappatmung. war doch kurz irritiert bis geschockt, ehrlich gesagt, weil ich dachte, wenn das jetzt so easy zu bedienen ist und zwar natürlich von einem Tool oder von einem Modell, was so viele Menschen auf der Welt mittlerweile benutzen. Also es geht mir die Masse. Und dann habe ich gesagt, okay, das ist jetzt bei allen irgendwie da. kann jetzt jeder. Dann bin ich selber da rein, bin in diese Dialogfunktion und habe dann die ersten Ergebnisse gesehen. Aber dann auch schon Sachen, die nicht gut liefen. Was mir persönlich, ich komme ja aus der Mid-June-Welt, sehr künstlerisch die Ergebnisse, da rauskommen, die ich beeinflussen kann anhand individueller Profile oder Stylecodes. Was es ebenso besonders macht. Dann habe ich die Ergebnisse, gleicher Prompt, da reingespielt, da reingespielt und habe gesehen, kurz durchatmen. Also so ganz so schnell ist das Ding jetzt noch nicht irgendwie lost sozusagen. Was mega ist, keine Frage, ist dieses Dialogding. Ich gebe da was rein, mach mal so, mach mal so. Wenn ich aber dann in einer Iteration bin, sehe ich natürlich auch Also ein Beispiel habe ich gemacht, generiere ein Portrait an einer Frau, die einen einen Belsen Schal trägt oder so was. Das war noch von Stefan Knie, der hatte den Prompt irgendwie bei LinkedIn gepostet, habe ich direkt übernommen und dann war das gutes Bild und dann habe ich gesagt, bitte ersetze den Belsen Schal durch einen blauen. Und dann muss ich sagen, war das Bild fast das Gleiche, aber wie das immer so ist, es war eben nicht ganz das Gleiche. schwierig auch so bei technischem Gerät oder so, dann ist auch nachher der Hebel an der anderen Stelle. Das haben wir ja aber quasi bei allen anderen Tools auch. Also es bietet super coole Use Cases. So mal ganz grob gesagt, ganz viele Menschen können wirklich sehr einfach erst mal coole Sachen damit machen verschiedenster Art. Der USP nach wie vor bleibt für mich bei Mid Journey, es Richtung Qualität hochwertige, ästhetisch, künstlerisch anspruchsvolle Bilder geht. Da kommt das Tool noch nicht ran. Wenn ich was mit reingebe, eventuell, ja, aber wie gesagt, die Vorlage muss ich ja auch erstmal irgendwo ja haben. Was natürlich heutzutage kein Problem ist. Wir machen einen Screenshot und geben alle alles irgendwo rein sozusagen.
Jochen G. Fuchs: Alright, Barbara hast du auch geduttelt mit dem Ding oder?
Barbara Lampl: Ja, ich hab auch darum mitgedadelt. hab mich natürlich erst mal so, also Bild ist jetzt immer für mich ja immer so, wer weiß, dass ich ja ganz gerne den Computer wischen und Bild generell bisschen mobbe. Nicht von der Matte, die finde ich ganz spannend, aber es ist halt irgendwie immer nicht so mein Homemode. Und ich hab natürlich relativ schnell auch klar, mein, hey, wisst ihr, wie viele Kollegen ich auch in meinem LinkedIn-Netzwerk habe? Natürlich ging das immer bei mir durch die Decke. Ich habe damit dann auch endlich am Freitag geschafft, in Ruhe, in Spanntheit gab es der Terminplaner, endlich mal bisschen her rumzuspielen und habe dann quasi mich kommifiziert im Sinne Vorbereitung auf die Data am Plug und habe da quasi aber ein Bild von mir hochgeladen, dass ich dann einen Comic in ein vier Bilder Comic übersetzen habe lassen und das hat extrem gut funktioniert. Und da war schon irgendwie klar, okay, die Capabilities von dem Ding sind eine ganz andere Hausnummer als was wir auch aus den anderen Sachen können. Ich bin bei Steffi definitiv einer der interessantesten Aspekte. Ich Mid Journey hat mit dem schlimmsten Go-To-Market ever geglänzt, einfach mal über Discord auszurollen. Es hat alles seine Vor- Nachteile, aber klar, die Masse, da dahinter steht und da haben wir sicherlich noch ein paar Sachen, die auch Richtung andere Diskussionen heute führen werden. Das ist krass und es ist halt einfach ein massiver Unterschied zu dem, wo Delhi einfach hergekommen ist, was jetzt V.O. Bildgenerierung kann, ist einfach Welten auseinander. Der Delhi 2 ist ja nie so richtig sauber komplett eigentlich released worden, wie es angedacht war. Warum auch immer. Keine Ahnung. Das heißt, wir haben immer noch mit einem relativ alten Modell zu tun gehabt. Es ist auch echt wenig passiert. Klar, wir waren von Flux und sonst war schon alle beeindruckt, aber es ist im Bild irgendwie weniger passiert als was in den klassischen LLMs mit Reasoning und sonst irgendwas passiert hat. Und da hat jetzt Open AI wirklich einen Achtung, werde ich hier gleich noch was dazu sagen, aber soweit wir das quasi reverse-ingenieren können, harten Aufschlag gefahren, als auch neue Sachen in den Markt reinzuwerfen. Ja, also deswegen, ich habe auch damit rumgeschlägt, habe es dann auch gleich geteilt und habe mich ein bisschen weggeschmissen und unter so dem dem schnellen Linked-in-Wegwerf-Marketing-Material ist es ziemlich unschlagbar, ehrlich zu sein.
Stefanie Krüll: Absolut. Aber ganz kurz eine Sache. Witzigerweise, du hast gerade erzählt, du hast ein Bild von dir hochgeladen. Ich habe es jetzt mehrfach probiert und hatte eben, glücklicherweise zum Teil natürlich auch, das Ergebnis, dass ich also ein richtiges Originalbild von mir genommen habe und das, da konnte ich gar nicht, also das war weg. Ich konnte damit nicht weiter spielen, iterieren. Da hieß es dann sofort so was irgendwie, ja, ich weiß jetzt nicht mehr genau. Wortlaut, vermutlich eben, es ein original Bild war. Hat es nicht geklappt. Dann habe ich zwei Bilder von mir hochgeladen, die ich mit meinem eigenen Fluxmodell trainiert hatte. Sahen halt aus wie ich, habe ich reingegeben, hat damit weitergearbeitet. Wobei das Gesicht bei dem einen, also bei beiden Malen dann auch wieder verändert wurde, was ja ganz ehrlich gesagt auch nicht so uncool ist, weil wenn ich jetzt von jedem irgendwie ein Bild hochladen kann und dann...
Barbara Lampl: bei mir hat sowohl, ich hab's in beiden Iterationen ausprobiert, ich hab ja so Bilder, einfach sehr viel auch im Marketing, auch für Kinos und sonst was verwendet werden, wo also quasi das Copyright nun wirklich gar kein Problem ist, weil hab ich alle. Ich hab's mit Echtfoto und auch quasi so wie du Steffi, ich hab jetzt nicht mein eigenes Flug, sondern hab ja quasi irgendwann mal so einen Probelauf gemacht und ein anderes Tool getestet. Davon hab ich Bilder benutzt. Bei mir hat's problemlos mit den Bildern funktioniert.
Stefanie Krüll: Das ist es.
Barbara Lampl: Ich habe es sogar bisschen stärker comifiziert, damit es mehr Comiccharakter hat, aber es war schon sehr... Ich habe nicht ganz so Jochenprobleme gehabt, aber ja, du merkst natürlich, es ist eine Bildgenerierung, kein Photoshop. Also klar.
Stefanie Krüll: Vielen Dank.
Jochen G. Fuchs: Okay, kurzer Einwurf, weil wir jetzt gerade intensiv auf dem Comic-Gedöns rumgehangen sind. hab gesehen, dass da natürlich einige darauf hingewiesen haben, dass das Ganze sehr stark im sogenannten Ghibli-Style generiert wird. Das ist ein sehr renommierter, wie soll ich sagen, Anim-Artist an einem Studio, das sehr anspruchsvolle Filme generiert hat.
Barbara Lampl: Unter anderem ja.
Jochen G. Fuchs: oder produziert hat, hergestellt hat, geschaffen hat, verwenden wir bitte andere Wörter dafür. Ja, also das ist natürlich so bisschen so eine Downside oder sowas, was einem da ein bisschen Bedenken aufruft.
Barbara Lampl: Haha Mh. Ja, also ich glaube, wir haben halt mehrere Sachen. Grundsätzlich ist es ja immer wieder die Frage, ist Stil unter Copyright ja oder nein? Und die Juristen sind sich halt dummerweise sehr einig. Grundsätzlich ist ein Stil erst mal so auch nicht ganz Copyright fähig. Auf der anderen Seite sind manche Stile so hart, dass man vielleicht auch in anderen Ländern das anderen sehen könnte. Aber ganz klar, wir wissen hier auch, dass AI Babsi Unter anderem mal aus Data und Tech-Bubs, die von vor 15 Jahren entstanden sind, aber unter anderem ja eigentlich auch aus AI-Barbie. Das heißt, ich habe natürlich im Hintergrund, haben Leute Bilder erstellt, mich und mir Barbie-Cartons geschickt. Irgendjemand hat Lego-Bilder erstellt. Das ist definitiv eine Dimension, die im Vor-O-Bildgenerierung relativ krass ist, weil der Dally hat geblockt. Du konntest weder Barbie noch Lego erzeugen. Der blockt gerade gar nichts mehr. Ich würde aber ganz klar sagen, dass es eine politische Entscheidung von Open AI ist, Copyright komplett anzuzünden und deswegen ist auch der Style, würde ich mal sagen, ziemlicher Vorsatz und ziemlicher harte Kampfansage, weil wir dürfen nicht unterschätzen, dass solche Releases aktuell definitiv auch immer eine politische und gesellschaftliche Dimension haben, die einfach relevant ist. Also das würde ich bitte immer nicht ausblenden und Copyright ist halt, sie wollen massiv billige
Jochen G. Fuchs: Also...
Barbara Lampl: Copyrights durchsetzen, also dass die Sachen weiter gelockert werden. deswegen, das sollten wir an der Stelle immer noch mal mitdenken, was das heißt. Und Achtung, nur weil das Modell das hergibt. Das Modell ist nicht das Problem, der die, die das Bild gepromtet hat oder diejenige plus dies danach verwendet. Jo, da könnte die Welt dann schon anders ausschauen und jemand auf interessante Ideen kommen.
Stefanie Krüll: Nö. Cheers!
Jochen G. Fuchs: Das ist richtig und da muss man wirklich dran denken, weil wenn das Ding jetzt im Moment so frei auf der Wildbahn umher rennt und dir dann eben dich selbst als Dagobert Duck produziert, dann kriegste wahrscheinlich ein Problem mit Disney oder sonst wem, wenn du das dann postest. Also nie alles was geht ist auch gleichzeitig legal.
Barbara Lampl: Mh.
Stefanie Krüll: Absolut.
Jochen G. Fuchs: Definitiv. was wollte ich noch sagen? Ach so, ja und auf Reddit sind schon die ersten aufgetaucht, die die Anleitungen zum Versicherungsbetrug gepostet haben. wie retuschiere ich mit Hilfe von vor, jetzt mein Auto und packe da irgendwelche Kratzer, Schrammen oder sonstiges Zeug dran. Das lässt sich ja schnell irgendwie mal ein paar Hundert Dollar abgreifen dabei. Dann haben wir irgendwelche Versuche gesehen, wo dann Dokumentenfelschungen hochgeladen worden sind, weil, toll, man kann Schrift und so. und gedöns manipulieren ruft natürlich gleich den nächsten Casper auf den Plan. Also auf der einen Seite eine Schramme an einem Auto basteln klingt jetzt erstmal nicht gefährlich, das kannst du per Guardrail nicht abfangen, aber trotzdem wirkt es echt so ein bisschen als würden sie es gerade rennen lassen. da stimme ich dir zu.
Stefanie Krüll: Ja.
Barbara Lampl: Genau. Und wie gesagt, es liegt halt dann, und das ist auch ziemlich klar, es liegt halt da nicht am Modell, sondern an den Nutzenden und momentan, Achtung, hat das Ding natürlich Metatext drin und Wasserzeichen, aber naja, wo genügend Vorsatz ist, sind die relativ trivial.
Jochen G. Fuchs: Vielleicht sollten wir jetzt an der Stelle mal kurz die Gelegenheit nutzen und sowieso aufklären, weil ich war ja anfangs auch verwirrt, was ist es denn nur Chatchie Pt oder DOLL-E? Nein, es ist was komplett Neues. Richtig?
Barbara Lampl: Es ist was komplett Neues. Es ist in der Gattik Rue der 4O-Modelle. Darauf basiert es. Aber vielleicht bevor wir zur technischen Erklärung kommen. Ich finde ja eigentlich Interessante aus eurer Perspektive, also aus Steffis Perspektive und deiner Perspektive, Jochen. Wie fühlt sich es denn für euch an? Was ist denn eure Wahrnehmung? Was das Ding tut? mich auch nicht ganz unspannend. Und dann würde ich die saubere Erklärung, soweit sie mir möglich ist, reverse-ingeniert schmeißen.
Jochen G. Fuchs: Ja, ich mal banal, weil ich ja offensichtlich noch derjenige bin, am geringsten Erfahrung hat. Damit fange ich jetzt einfach mal an. Ich sehe, dass er teilweise irgendwas vor sich hin produziert, was für mich irgendwie so aussieht, als würde es ihm da doch leichter fallen, segmentiert zu arbeiten und irgendwo gezielt in einzelnen Bereich mit irgendwas zu ersetzen oder zu manipulieren. Was ich selber nur festgestellt habe, ist, dass das Ja, genauso unscharf und ungenau funktioniert, wie ich es bisher bei DOLL-E erlebt habe. Wenn ich ihm sage, pack mir da bitte ein rotes Live-Logo oben rechts rein, dann macht das, mal macht das nicht. Und wenn ich versuche Kontinuität zu wahren und ich sage, pass auf, wir fangen jetzt mit diesem einen Bild an und jetzt überarbeiten wir das, dann ist es nicht so 100 % kontinuierlich. Mein Mallorquiner, das Eingangsbeispiel zu wählen, der verlor zwischendurch 20 Jahre Lebensalter auf der Strecke. Dann war er irgendwie total gelbstichig. Dann hab ich einmal nicht auf Bearbeiten gedrückt, sondern bin einfach im Dialog. Du kannst ja das Bild quasi anklicken. ihm zu sagen, dass du kontinuierlich an demselben Motiv jetzt weiterarbeiten willst. das einmal vergessen. Und hatte dann prompt einen vollkommen anderen Mallorquiner mit meinem Buch auf einem anderen Marktplatz in der Line. Und hab ihn dann auch nicht wieder zurückgepfiffen gekriegt. Also in dem Moment war es dann vorbei. Ich hab dann versucht, die früheren Iterationen zurückzugreifen und ihm zu sagen, nimm jetzt bitte das. Dann ist er zweimal komplett abgeschmiert und hat gesagt, er könne jetzt gar nichts mehr generieren. Und ich musste dann tatsächlich einen neuen Thread aufmachen und musste es nochmal versuchen.
Barbara Lampl: Steffi, deine Profi-Anwenderinnen-Sicht.
Stefanie Krüll: Ja genau, also für mich erstmal rein vom Doing, so dieses dialogmäßige, das haben wir so in dem Sinne mit Journey nicht, da gebe ich viel halt ein und dann gucke ich, was rauskommt, in die nächste Iteration. Entweder ich ja, mach was, mach eine kleine Änderung am Prompt, aber eben dieses Pinkpong Ding, das haben wir da nicht. Insofern ist das erstmal für mich eine ganz, also kennt man aus dem Textbereich, kann ich natürlich, aber in dem Sinne in der Bildgenerierung super angenehme User Experience erstmal. Ich gebe hier Jochen recht. Also klar, die Bilder in der Iteration können irgendwie was aufweisen, was es vorher nicht hatte, machen was dazu oder nehmen was weg. Also das die Erfahrung, ich auch gemacht habe. Ansonsten einen Workflow habe ich eben heute Morgen noch gemacht. Also ich habe wirklich eine rudimentäre Skizze von irgendeinem Pöppchen reingegeben und habe gesagt, okay, was machen wir hier, was kann das für eine Comicfigur sein? Und dann kam erst mal inhaltlich raus, okay, das ist hier Lula. und die hat die und die Fähigkeiten. Und dann hat er mir sofort wieder Geschichte, also Text, erstmal gegeben und dann eben ganz wunderbar, okay, jetzt machen wir eine Comic. Wirklich aus einer rudimentären Strichzeichnung. Eine Comic-Püppchen draus. Und dann bin ich weitergegangen, okay, cool, jetzt gehen wir mal in die Vermarktung. Ich brauch einen schicken Aufkleber. Ihr kennt die von früher, diese leicht erhabenen, die so puffy, puffy waren, die so hochglanz waren. Dann hatte das direkt als, hab ich noch nicht mal gesagt, als transparent PNG. Wenn du den Maus obermachst, siehst du, das Ding ist transparent. Und dann habe gesagt, okay, jetzt machen wir so ein Plastik-Blistier als Verpackung drumrum. Dann war es erst relativ eindimensional, weil wir eben aus einer eindimensionalen Geschichte kamen. Also lag an mir schlecht gepromptet. Ich hätte sagen können, machen wir ein 3D-Figürchen und so weiter. Shit in, shit out, ihr kennt das. Und dann habe ich aber irgendwann dieses 3D-Pöpfchen gehabt. Und das war relativ konsistent. Mal gab es einen Augensplinker, der irgendwie vorher nicht vorher gesehen war, aber... Also alleine so ein Workflow für eine erste Ideeensammlung. I love it. Also da muss ich sagen, sensationell, mega Geschichten. Oder ich habe ein Lieblingsrezept, habe ich selber probiert, habe ich aber auch schon natürlich 78 mal auf LinkedIn die letzten Tage schon gesehen. Ich habe ein Lieblingsrezept, mache mir mal eine kleine Kochbeschreibung, also Schritt zu Schritt Anleitung mit entsprechenden Icons oder Grafiken, mache mir einen Comic zum Thema XY. Ja, mega. die Frage ist eben, und wir kennen das alle und ich bin Teil der ganzen Entwicklung natürlich. Also ich kann ja selber meine eigene Mid-Journey-Bilder schon manchmal nicht mehr sehen, geschweige denn die der anderen. Und jetzt haben wir natürlich in einer viel größeren Dimension die ganzen Outputs von all diesen Menschen, die jetzt 4o benutzen. Und die Frage ist wie immer, wann kommt so die Übersättigung? Weil wir dann, also ja, aber Ansonsten gibt es jeden Fall coole Use Cases. Da bleibe ich erstmal.
Barbara Lampl: Genau, aber ich glaube, ist genau das, Unterschied, der technisch bei euch beiden auch sehr den Kontrast macht. Weil du machst quasi, Steffi, als Profi-Anwenderin schon genau, für dich ist dieses iterative Prompten, und so funktioniert übrigens auch das O-Modell im Hintergrund optimal. Das heißt, du nimmst quasi einen Design und verwendest das Design immer wieder, während Jochen quasi so die andere Seite quasi, ich will iterativ auf das Ergebnis draufprompten, es zu verbessern oder zu manipulieren. Was grundsätzlich mit Gen.ai eine Scheißidee ist, weil die Stabilität, die Treue damit nicht funktioniert. Das sind halt immer so diese zwei Sachen. Und da ist das neue Vor-O-Modell einfach für den Anwendungscase, den du jetzt auch gesagt hast. Also nimm irgendwas, mach daraus einen Comic und mach daraus dann den Sticker oder den Blisterpackung oder die Webseite. Das ist ideal. Dafür ist er eigentlich auch optimiert gebaut. Sieht zumindest so aus. Und das andere, dass das davor nicht funktioniert, ist ein generelles Problem der Geni-Eyes, aber in der Bildgenerierung, insbesondere in Diffusionsmodellen. noch mal massiver, weil die Diffusionsmodelle ja quasi aus dem Noise irgendwie Signal produzieren müssen. Und das ist das, warum das so viel Aufwand ist, da Treue oder Iteration zu machen, weil er eigentlich grundsätzlich das Modell immer neu generiert. Photoshop ist kein Diffusionsmodell. Und das ist halt dieser dieser andere Anwendungscase. Und wie gesagt, das neue Modell funktioniert ist 100 Prozent kein Diffusionsmodell.
Jochen G. Fuchs: Okay, jetzt spule ich gerade nochmal kurz zurück, können wir für unsere Hörerinnen nochmal kurz erklären, was der Unterschied zwischen meiner iterative Vorgehensweise und Stefanis iterative Vorgehensweise ist, damit das auch der dümmste Moderator noch kapiert hat.
Barbara Lampl: Deine Iteration war, erstellst etwas, du findest dann dein Malorchino irgendwie zu klein, zu groß, zu dick, zu dünn, was auch immer, also irgendwas findest du doof. Und darauf dann quasi im Chat iterativ zu prompten, das sehen wir auch immer, wenn Text geprompt wird, dann wird es sozusagen quasi verbessert. Das ist aber echtes Verschlimmbessern, weil das ganze Klatterer-Dutch wird neu generiert. Achtung, Ausnahme beim Text, deswegen gibt es die Artifact-Include- und Canvas-Funktion. das treuer und stabiler zu halten. Aber es ist ziemlich viel Aufwand dahinter, aber normalerweise wird neu generiert. Und bei Bildgenerierung hast du halt ein viel größeres Drama, dass er quasi, weil er sich noch weniger, also davor hat, der, der bei Large-Language-Modellierung, wird jeder Input zum Output und jeder Output zum Input. Das ist wie Steep Learning innen funktioniert.
Stefanie Krüll: Vielen
Barbara Lampl: Und bei Text kann er das quasi stabil, einigermaßen stabil aufrechterhalten. Deswegen verlieren die neuen Modelle da nicht ganz so sehr das Drama. Aber dieses iterative Verschlimmbessern ist halt grundsätzlich falsch vom Prompten her für ein Large-Language-Modell. Und in dem Fall erst recht bei einem Bildgenerierungsmodell. Auch bei dem dieser autoregressive, hybride Approach, wie der Vor-O Bildgenerierungsmodell ausschaut, das macht das besser. erhält damit Treue, ähnlich wie die Character-True-Ness, Mid Journey eingebaut hat. Aber rein technisch sind grundsätzlich Gen-AI-Sachen so nicht zu prompten. Und die Iteration, die Steffi gemacht hat, ist aus quasi, hier ist eine Rohversion, erstelle was und jetzt er nimm das Erstellte und wandel es in ein anderes Anwendungsformat. Das ist eine andere Iteration, also quasi der fertige Comic wird jetzt zum Sticker, zu CI, zu irgendwas. Das ist quasi eine Weiterentwicklung, aber keine Verbesserung des ursprünglich generierten Bildes. Und deswegen sind das zwei A unterschiedliche Arten der Iteration.
Jochen G. Fuchs: Okay, wie würdest du dann vorgehen, wenn du jetzt beispielsweise den Major Kiner gebrommtet hast und da passt dir irgendwas nicht dran?
Barbara Lampl: Neuer Chat von vorne anfangen. Input Optimierung vor Output Optimierung ist einer der Standardfehler, die ich ständig immer sehe. Ich weiß nicht, warum die Leute immer noch in Gen.ai auf Output Optimierung rumhacken. Du musst den Input optimieren vor dem Output. Ansonsten verschwendest du GPU Power Ressourcen Zeit. Du drödelst dich zu Tode. Es gilt immer Input Optimierung vor Output Optimierung.
Jochen G. Fuchs: Okay. Okay, aber jetzt quasi ein Motiv, das er generiert hat, runterzuladen und ihm in einen neuen Chat als Input zu geben, wäre das dann schon eine Verbesserung.
Stefanie Krüll: Das hätte ich auch gefragt.
Barbara Lampl: Das sollte auf jeden Fall helfen, vorausgesetzt, aus dem Fall bewegst dich ja aus einem Zero-Shot in ein Few-Shot-Prompting rein, weil du ihm Context skippst mit einem Beispiel. Damit erhöhst du definitiv die Treue, die erhalten wird, weil du ihm quasi Context skippst. Das könnte funktionieren oder du guckst eben an, was ist eigentlich quasi falsch gelaufen, was kann ich im Ursprungsprompt in anderen Chat einfach neu generieren.
Jochen G. Fuchs: Okay.
Barbara Lampl: Aber das gilt immer bei Large-Language-Modellen. ist so eine generelle Aussage. bei Bildmodellen, die nicht darauf optimiert sind, wie Mid-Journey hat, eine andere Optimierung im Hintergrund laufen, damit das stärker hält, das ist technisch anders abgedeckt. Flux macht das auch anders. Aber das ist im Normalfall die Variante, wie man vorgeht.
Jochen G. Fuchs: Okay, und wenn man jetzt Model Shots beispielsweise macht, also ich denke jetzt wieder an Eric mit seinem Farbtopf und der netten grauhaarigen Dame, dann willst du ja theoretisch, wenn du quasi mehrere Produktbilder generierst, die du an ein und demselben Fleck verwendest, also beispielsweise auf der Produktdetailseite eines Onlineshops, dann möchtest du da ja eigentlich nicht fünf verschiedene Oma's drauf haben.
Barbara Lampl: Das ist momentan, hat das Ding definitiv keine 100 %-ige Character-True-ness implementiert. Kann es theoretisch sein, dass jemand irgendwie einen Rapper rumbaut, der das kann. Kann sein, dass ich es in Zukunft rausbekomme. Oder du hast quasi deine einmal generierte Oma, die da halt jetzt sagt, bitte verwende die jetzt für die farblose 18 und die farblose 17. Auch das könnte funktionieren. Achtung. Ich finde das immer so bisschen lustig. der 4.0 ist geil. JTPT ist cool. Sorry, aber das sind Consumer-Tools. Das sind keine Enterprise-Lösungen.
Jochen G. Fuchs: Was mache ich da?
Barbara Lampl: Das verhackt uns halt häufig die Wahrnehmung, wie gut oder schlecht die sind. Achtung, Open AI, Entrophic, sonst irgendwas. Alle releasen die performanteren Sachen auf der Consumer-Seite, weil all das, was wir hier gerade besprechen in dem Enterprise-Case, ein Hint an vollen Arschvollarbeit ist. Das so stabil zu bekommen, dass das alles nachher geil funktioniert. Und das ist das, was die Wahrnehmung gerade im unternehmerischen Kontext häufig auch zerhackt. Ja, aber mein Custom GPT und mein VOR-O kann das. Ja, aber das ist nicht voll deploymentfähig. ist noch nicht mal wahrscheinlich MVP-fähig, ohne dass wir Arbeit reinstecken. Das ist noch mal auf Consumer-Seite wird der höchste performante Scheiße released. Und wir dann quasi auf der corporate und enterprise Seite schwitzen da und denken uns ins Gott, viel Spaß im nächsten Meeting zu erklären, dass wenn wir das so in truenes haben wollen, ihr jetzt doch noch mal ganz schön viel Arbeit reinstecken müsst und wir noch nicht ganz sicher sind, besonders bei den neuen Sachen, wie es überhaupt funktioniert, der Nacht, was wir da jetzt genau drum rumbauen sollen.
Jochen G. Fuchs: Ja, den Eindruck habe ich auch des Öfteren. Vor allen Dingen, wenn ich im Hintergrund rum experimentiere und versuche dann etwas über die API zu erreichen, was ich aus meinem Consumerumfeld im Chatbot kenne und dann feststelle, ja super, da muss ich ja erstmal Struktur drum herum bauen, dasselbe quasi hinzubekommen. Genial. nochmal kurz auf Oma zurück...
Barbara Lampl: Ja, Steffi?
Stefanie Krüll: Ne, Babsi, eine kurze Frage an dich. weiß es gar nicht, ich hab's ehrlich gesagt auch noch nicht recherchiert, verzeihts mir. Hat das vor O-Modelle, das hat, hat's eine A-Pi eigentlich?
Barbara Lampl: Aktuell haben wir noch keinen API Release, soweit ich weiß. Es ist ja noch relativ frisch und momentan auch das, also auch das sollte für alle ja schon mal Aussage genug sein, warum gibt es auf der Consumer Seite immer zuerst, bevor es in die API geht. Das ist alles auch immer nicht so, du kannst halt in der Consumer, in einem JetGBT, in einem Clot, kann ich halt diverse Filter, ich kann Zusatzinformationen pushen, ich kann massiv mehr.
Stefanie Krüll: Ja, das.
Barbara Lampl: quasi ins Protokoll in die Anwendung reingeben. Als ich das über eine Schnittstelle, egal ob es jetzt eine API und wir werden sicherlich nochmal eine MCP-Protokollfolge dazu machen oder sonst was. Das hat schon alles seinen Grund, das einfach an der Stelle in diesen Complete Releases einfacher ist. Achtung, derjenige, der es gebaut hat, diejenigen haben einfach mehr Kontrolle. Ich kann einfach mehr mitschicken. Was wir als Konsumenten teilweise nicht sehen, so ist ja quasi auch rausgefunden worden. Reverse engineered hat natürlich jemand in den Code geguckt, der im parallelen Hintergrund läuft in der Kommunikation. in Chagy Pt. mit dem Modell, sodass du den Code-Verlauf aufgemacht hast. dem Fall G.Lui Liu. Ihr lieben Chinesen, nicht, dass ich euch nicht aussprechen kann, aber ich weiß immer nie genau, ist es der gleiche wie das andere Paper, was ich gerade gepostet habe. Da siehst du die Screenshots von der Schnitt, wie er seinen eigenen Track-Verlauf mit aufrecht erhält. Damit sehen wir, wie zu einem bestimmten Punkt was abläuft. wie das Modell wirklich argumentiert. Aber nein, weiß per Stand heute nicht, dass wir eine AP haben oder dass eine ... Jochen, hattest noch eine Anmerkung?
Jochen G. Fuchs: Also ich habe als ehemaliger Product Owner so bisschen auch den Eindruck, dieser Consumer MVP, den Sie da hinstellen, der bringt ja wahrscheinlich auch Testvorteile. Wenn du jetzt 5000 Leute auf diesem Modell hocken hast, die versuchen kontinuierliche Abfolgen von irgendwelchen Assets zu generieren und miteinander zu kombinieren und du dann die Protokolle hinterher auswertest, hast du ja schon ziemlich viele Beta-User, die da für dich herumspielen und Daten erzeugen.
Barbara Lampl: Ja und wie gesagt, dürft nicht vergessen, dieses neue Modell ist ähnlich wie das Reasoning-Modell Heavy auf der GPU-Power. Also die fangen an zu schmelzen. Also OpenAI hat gerade richtig knackiges Problem, was da am Compute läuft mit dem Modell.
Jochen G. Fuchs: Sie haben auch schon schon schon Limits eingeführt. Also ich habe heute versucht was iterativ und nach ich glaube drei Iterationen hat er schon gesagt so du hast jetzt sieben Minuten Sperre. In sieben Minuten darfst du wiederkommen und darfst nochmal versuchen. Also sie sind schon am Regeln.
Stefanie Krüll: Ja, ja auch dann die Frage noch, können sie alle benutzen kostenlos, wann da mal die Bezahlschranke losgeht?
Barbara Lampl: Ja, die Bezahlschranken werden ja immer mehr hochgezogen. Da haben wir ja auch schon mal darüber diskutiert. Genau. Ich habe jetzt, Jochen, ich habe natürlich den Fahrplan jetzt von uns nicht mehr im Kopf. Du musst mir also sagen, wann ich erklären muss, wie es funktioniert oder wo wir jetzt sind. Heute bin ich das Eichhörnchen. Ich nehme mal einen Schluck Wässerchen. Sorry, so ist das halt in einem Podcast, der sehr ad hoc stattfindet. Da muss man dann immer bei euch gucken, wo waren wir denn jetzt?
Jochen G. Fuchs: Alles klar.
Stefanie Krüll: Sehr gut.
Jochen G. Fuchs: muss man ein bisschen improvisieren. Ich habe übrigens gerade entdeckt, unser Podcaster Riverside gibt uns Rabatt für die Werbung, ein Skript-Button hat und ich habe da jetzt gerade ein Skript eingefügt. Ich weiß nicht ob du das auch siehst, wenn du da draufklickst, dann blendet uns ein Skript oberhalb von unseren Köpfen ein. Ist das nicht schön? Wir wollten glaube ich kurz darüber sprechen, was er kann, was DOLI nicht kann und was er definitiv nicht kann, damit man schon mal weiß, was man bleiben lassen sollte.
Barbara Lampl: So war es aber auch. Faszinierend. Ich
Jochen G. Fuchs: Was man aus meinem Beispiel von Anfang
Barbara Lampl: teile Sie.
Jochen G. Fuchs: an weiß, ist, das eigene, irgendwelche Gesichter von Menschen reinzuschmeißen und ihm zu sagen, verarbeite das bitte und generiere da ein neues Bild raus. Das lass mal lieber sein.
Stefanie Krüll: Zumindest hatte ich die Erfahrung, genau was ich gesehen habe. Und ich bin mir jetzt aber nicht ganz sicher, ob das Sora war, weil man da auch Bilder generieren kann. du kannst lebende, bekannte Persönlichkeiten sensationell eins zu eins abbilden. Der liebe, lieber Kollege von mir, Stefan Kirschnick, der hatte einen Post dazu gemacht, wo, ich weiß nicht, sämtliche Politikerinnen mit irgendeiner Kohiba rauchend irgendwo saßen. Weißt du, wir scrollen alle schnell, da werden wir wow, das ist ganz schön, echt sah das aus. Also das funktioniert super. Ich weiß jetzt noch nicht eben, ob es Sora war. Und bei Mid Journey zum Beispiel kannst du Trump gar nicht sofort gebannt, also wird gebannt, ne? Geht gar nicht, bestimmte kannst du da nicht abbilden. Bei anderen Tools funktioniert das gut. Genau. Wie gesagt, ansonsten so easy... Geschichten, wie ich die eben auch schon benannt habe, also mach ein Kochrezept. hab gesehen, mach mir eine Mindmap und so. Also Text geht sensationell. Das ist ja Mid Journey quasi Pain Indie. Das funktioniert da quasi eben so gut wie nicht. Das ist natürlich jetzt, da muss man sagen, Chapeau. Da kann ich ganze Menükarten irgendwie beschreiben lassen oder Infografiken. Das ist großes Kino, da muss ich auch sagen. Und gerade für solche Use-Cases mal schnell für jemanden in der Präsentation oder bei Social Media, zack, das sind Zahlen. Ich glaube, die liebe Dore Tetorecki, hatte Lufthansa-Zahlen und hat dann gesagt, mach mir daraus irgendwie eine Infografik und so weiter. Also das ist schon cooler, cooler Shit, ehrlich gesagt. Ansonsten aber eben auf der anderen Seite oder Stopp. Fotorealistische Bilder klappen generell auch super. Zum Teil natürlicher als Mid Journey, haben wir, es sei denn ich drehe an bestimmten Schräubchen, man muss wissen wie, dann kann ich die auch wirklich sehr normal aussehend nicht modelmäßig abbilden, ansonsten sind wir da schnell in so einer überästhetisierten Welt. Da finde ich ist der Fotorealismus echt cool, das ist auch bei dem neuen Tool Rev der Fall. Auch super fotorealistische Bilder. So und dann komme ich aber eben an so einem Ziel oder an so eine Marke, ist Mid Journey, dann hat da wieder die Nase vorn und da sag ich mal alles was so Richtung Kreativagenturen, vielleicht Kreativunits in House, Unternehmen, die spezielle Sachen abbilden wollen. Da bin ich wieder bei Mid Journey dabei, weil ich eben schon glaube ich kurz erwähnt, hat bestimmter Stylecodes, aber auch Profilcodes. mit einem Klick einen relativ normalen Prompt in einen coolen Look bringen kann. Ich hatte ein Beispiel gemacht, das habe ich auch auf LinkedIn gepostet. Vor drei, vier Prompts her einen relativ normalen Prompt über so eine Chimäre, also halb Frau, halb Vogelfigur aus der Mythologie. Also die eins zu eins den gleichen Prompt genommen, beziehungsweise bei Mid Journey dann eben mit so diversen verschiedenen Style Codes gesehen und meinem so genannten Global Profile. Und die Bilder sahen wirklich mit einem Schlag mega aus. Super Konsistenz, kannst du weiter mitarbeiten. den Style Codes habe ich eine Consistency im Look and Feel. Und das ist eben etwas, das ist der USP noch von Mid Journey. Und da muss man sagen.
Barbara Lampl: Ja, das ist ein bisschen ein bisschen ein ein ein Mh.
Stefanie Krüll: Und selbst wenn ich Bilder mit reingegeben habe, in den gleichen Prompt dann bei hier 4.0, da war das trotzdem nicht so befriedigend, beziehungsweise, ja, wenn ich dann was mit reingebe, komme ich irgendwie in die Richtung. Aber eben nicht von alleine. so. Und da sind wir beim nächsten Thema. Es gibt irgendwo Urheberrechte auf die Bilder. Also wer schlau ist, macht sich von irgendjemandem Screenshot, lädt es hoch und kann es mitbenutzen. So stelle ich es mir vor. Und das natürlich jeder zu jeder Zeit immer.
Barbara Lampl: Das Einzige, aktuell noch geblockt ist, wie immer, ist ein Ami-Unternehmen. Also nicht die Drugs, nicht der Rock'n'Roll, aber zu viel Nacktheit ist weiterhin geblockt, weil Ami Unternehmen da braucht so ein offenes Stable Fusion Modell. Aber ansonsten geht, du merkst schon einfach das neue Modell. ist schon, das ist schon ein echter Aufschlag. Also bei aller, dass ich ja irgendwie nicht das größte Fähnchen von OpenAI bin, aber das, was sie da technisch delivered haben, ist schon schon echt eine Hausnummer. Das muss man schon nicht sagen.
Stefanie Krüll: Ja, absolut. ganz ehrlich, das hat mich auch, glaube ich, mehr geschockt als die Bildgenerierung überhaupt. Das muss ich sagen, als ich damals da reingekommen bin, ich hatte, ich habe kurz gedacht, okay, macht das jetzt was mit meinem Job? Ach, sieht spannend aus, geh rein, weil Info ist besser als, also nichts zu wissen und dann macht sich's nervös. Also ich da rein, alles super. Und jetzt habe ich aber gedacht, okay, jetzt muss ich aber noch mal hingucken, bist du jetzt wirklich vielleicht demnächst obsolet? Was, glaube ich, und das wissen wir auch. Also, wenn ich als Mensch bin ich trotzdem noch dazwischen. Ich muss Dinge reingeben, muss sie evaluieren, muss weiter iterieren, bis ich zu einem coolen Ergebnis komme. da ist schon noch Manpower dabei, wie ich finde. Und das ist auch gut so. Aber gewisse Dinge sind einfach sehr schnell für viele Leute generierbar.
Barbara Lampl: Definitiv, definitiv, definitiv. Also ich würde auch sagen, dass der Wurf jetzt vom insbesondere in der Bildgenerierung und einfach nur für irgendwelchen historischen Einblick zu geben, wir sind ja quasi aus den Bildern mit ImageNet.
Stefanie Krüll: Ja.
Barbara Lampl: dann irgendwie beim Text gelandet. Jetzt sind wir wieder in der nächsten Iteration. Das ist auch so ein klassischer Weg wieder bei den Bildern gelandet. so sehr ich bei dir bin, Steffi, besonders der Profi wird nie absolviert werden. Aber die Frage ist, wie viele Profis brauchst du und was für ein Profi musst du sein? Und das ist mit dem Release auf der Bildebene. Besonders was ich vorhin auch schon gemeint habe, ich nenne es ja immer liebevoll mein Wegwerf Marketing Material für LinkedIn, wo du halt einfach sagst so hey auch dafür haben wir ja früher Designer und oder Trainees oder sonst irgendwas. Also sind wir mal ehrlich, da habe auch ich Leute früher gehabt, das habe ich alles irgendwann eingestellt, was einfach Unsinn geworden ist, weil es einfach nicht mehr in der Relation dazu stand, als dass das war und da merkst du halt schon, Scott Galloway hat vorhin Newsletter rumgeschickt, wo er auch nochmal gesagt hat und die größte Gefahr ist jetzt für uns, ich meine ich bin ja auch schon so eine alte Schachtel mit Ende.
Stefanie Krüll: was?
Barbara Lampl: Der Fruzger ist der nächste große Runde. Aber die ... Ja. Aber wir haben ja noch eine ganze Generation, jetzt erst mal eigentlich nach irgendwie, die jetzt an die Unis kommen, nach den Unis einen Job einsteigen müssen. Und da sieht die Welt halt schon echt bitter anders aus. Weil klar, mit genügend Berufserfahrung bist du in der Profi-Welt unterwegs. Die werden auch definitiv, kann ich euch allen sagen, wer Profi ist, sollte sich einen KI-Skill-Upgrade für seinen Bereich gönnen.
Stefanie Krüll: Du hast es gut.
Barbara Lampl: Also wie Steffi das quasi total Role Model mäßig vorgelebt hat, weil genau die werden wir ihrseits, die wir brauchen und behalten werden für den Rest. Besonders nach so einem Release muss auch ich teilweise mal schlocken und ich bin kein Freund von irgendwie dummen Szenarien, aber das ist schon hart, was da jetzt gerade rausgekommen ist, besonders im Bild. Jo, das ist schon eine Hausnummer.
Stefanie Krüll: Ja, bin ich voll bei dir. Ist auf jeden Fall so. Also wie gesagt, ich habe dann kurz geschluckt und dachte, okay, Plan B wäre, ich fange dann doch nochmal mit fast 55 hier eine Lehre an. Ich glaube vielleicht, weiß ich nicht, genau, handwerklich ist oder Pflege oder so. I don't know. Oder ich mache dann, das wäre Plan C mit meiner lieben Freundin Bärbel, das kleine Boutique Hotel auf den Kühlkladen auf. Ich weiß es nicht, beim Urlauben.
Barbara Lampl: Also definitiv, ich kann jedem nur immer sagen, das gilt besonders für die Kreativbranche, also Designer, Grafiker, aber insbesondere auch Texte und Texteinrennen. Lernt die Tools, wenn ihr sie noch nicht drauf habt, jetzt. Das ist die Daseinsberechtigung auch für die nächsten Jahre, definitiv, weil es sind einfach zu viele, die sie nicht. Also ich kann sie ja auch nur bedienen, aber meine lieben Textkolleginnen und Kollegen abzuholen, genauso wie die Designer. Also ich kann halt nicht, also ich kann evaluieren, was da an Text steht, fachlich, inhaltlich. Aber ob das irgendwie stilistisch anspruchsvoll oder ich sage nur die legendäre Keynote, probieren ist nicht evaluieren. Und vom Hintergrund habe ich dann gesagt, so nie wieder schreibst du eine Adline ohne meine Rücksprache. Entschuldigung, war sprachlich nicht so schön. Nein, das kann ich ja gar nicht einschätzen. Mein Mathematiker-Hirn klang da schon sauber. Aber ich glaube, das sollte man einfach nicht unterschätzen. Und das ist ja genauso eine Kompetenz und auch eine Kreativität. Ich habe so einen Comic gesehen. Ich kriege dann so einen Comic, wenn ich es einmal gesehen habe, easy nachgebaut. Das kann ich, aber... der ich jetzt da ad hoc auf einen Fierce Light Up Comic bekomme? Nee, das hab ich auch irgendwo gesehen, dachte mir, das krieg ich hin. Aber ich glaube, dass da viel Schaden drin liegt. Und noch mal, die Adaptionsrate von den Systemen ist immer noch unterrepräsentativ und KI-Kompetenz heißt normalerweise zwei Kompetenzen, also die eigentliche KI-Kompetenz plus die Fachkompetenz. Und das ist genau das, Steffi, du ja auch vorlebst, quasi du hast deine Fachkompetenz und die KI-Kompetenz erweitert, nicht ersetzt, sondern erweitert. Und das ist sicherlich
Stefanie Krüll: Ja, ja genau.
Barbara Lampl: noch eine ganze Zeit lang die Zukunft. Jochen.
Jochen G. Fuchs: Ja.
Stefanie Krüll: Ja und überlegt. Und schaut.
Jochen G. Fuchs: Ja, also der Mensch wird und wird auch müssen weiterhin in der Gleichung sein. Natürlich stellt man sich dann mal die Frage, ja, ist ja schön, wir können nicht alle Art Director sein. Also das heißt von den Grafikern, die halt quasi von Brot- und Butterjobs leben, die jetzt die Kai übernimmt. Die brauchen was anderes. Da hilft nichts. Die können sich nicht mal eben zum Creative Director hochleveln und selbst wenn sie es kompetenstechnisch können, fallen die Jobs für Creative Director auch nicht gerade vom Himmel. Das wird für die gesamte Gesellschaft eine echt spannende Herausforderung. Das wird es in allen Bereichen der KI. Also auch im Robotikbereich. habe mich jetzt mit gerade einen China-Experten in Vorbereitung zu unserem TikTok-Talk heute Nachmittag bei W &V vorbereitet und habe mich mit dem ein bisschen über Elektromobilität unterhalten, was da ja nicht Thema ist, aber da ist China halt ganz groß und die produzieren halt stellenweise einfach mit Robotik-Hallen. Also da ist kein Mensch mehr drinne in diesen Hallen. Das ist so ein Punkt, hier in Deutschland noch vorbesteht und geht dann auch stellenweise einfach nicht, weil der Mensch einfach sehr verletzlich ist. Bei Amazon beispielsweise, die haben Lagehallen, die mit Robotern vollgestopft sind, die im Prinzip nichts anderes machen, als Regale hin und her zu bewegen. Die fahren das Regal zu einem Picker, der das Ding packt. dann haben die einen Spezialisten, das hab ich neulich in irgendeiner Reportage, ich weiß leider nicht mehr, gesehen, ich dachte, ah ja, das ist mal ein neuer Job, der durch KI generiert wurde. Aber da sind natürlich irgendwie 300 Picker und Packer dafür weggefallen.
Barbara Lampl: Nö, genau.
Jochen G. Fuchs: Und zwar war das so ein, wie soll ich sagen, eine erste Hilfe Roboterhandlanger. Der hatte einen Spezialrucksack auf, der mit Sensorik ausgestattet war und hatte ein Tablet in der Hand. Und in dem Moment, wo einer von diesen Robotern stecken blieb, weil er feststellte, es ist was aus einem Regal rausgefallen, in der Bahn oder blockiert die Räder von dem Roboter, kriegt er dann eine Meldung auf seinem Tablet, sperrte dann den Kita-Käfig, der in dieses... diesen Lagerbereich reinführt auf, machte den hinter sich zu, weil da keiner rein darf und dann ging er auf einer vorgefertigten Route durch dieses Robotergitter durch, also da fahren keine Ahnung so 400 Roboter gleichzeitig mit Regalen durch diesen Bereich durch, also das dann so Gitterartige Netzstrukturen von Wegen und da zeigte ihm das Tablet dann den Weg an, wo er
Barbara Lampl: Mh.
Jochen G. Fuchs: ungefähr durchgehen konnte, weil man die Roboter da links und rechts am Weg quasi angehalten hat. Dann ist er zu dem Roboter hin, hat die heruntergefallene Verpackung rausgezerrt unter dem Ding und ging dann raus und hat dann den ganzen Kram wieder in Gang gesetzt. Ja, spannend, aber das ist halt ein Job gegenüber zu den anderen, die dann da in dieser Lagerhalle einfach weggefallen sind. Andererseits wenn man sich die Presse von früher anguckt, Amazon begleitet hat, wenn man über diese Picker und Packer geschrieben hat und dann die Leute entsetzt geschrieben haben, die laufen 40, 50 Kilometer am Tag und sind völlig fix und fertig und ja, brauchen wir den Job dann oder brauchen wir da eine Alternative dafür?
Barbara Lampl: Ja, also wie gesagt, die höchste Rate von Verletzungen haben die Amazon Warehouses in den USA genau aus diesen Gründen. Und so ist ja eigentlich die Robotik da auch ihren Eingang gefunden, es eigentlich Menschen unhumanen Zustände da drin waren. aber klar, wir sind halt mitten in einer der größten Transformationen und ich würde sagen bewusst nicht in einer digitalen Transformation, weil die hatten wir schon. Die hatten wir in Deutschland ziemlich verpennt. Wir sind halt eine der größten Transformationen, die wir halt jemals gesehen haben und
Stefanie Krüll: Ja.
Jochen G. Fuchs: nein.
Stefanie Krüll: Hm.
Barbara Lampl: Insbesondere da reg ich mich ja immer so bisschen auf. hab' vorher noch schon mal wieder, ab und zu kriegt man mich ja mal wieder zu einem Ranten. Die mangelnde Fachkompetenz, insbesondere unter irgendwelchen Leuten, die angeblich Ahnung davon haben, da krieg' halt auch einen Föhn, weil sonst kriegen wir ja keine soliden Einschätzungen hin und wir haben es ja heute auch wieder gesehen so, okay, das was in einem Chat-Anwendung funktioniert, heißt noch lange nicht, dass es im Corporate- und Enterprise-Umfeld funktioniert oder in einem echt sauberen Deployment. Aber da geht halt momentan auch viel quer und viel schief. Und damit entstehen teilweise auch Fehlschlussfolgerungen, denn vielleicht in der nächsten Woche noch gebraucht wird, den nächsten paar Jahren noch gebraucht wird und was man wirklich eigentlich hebeln könnte. Also es ist halt auch immer so ein bisschen so so eine eigenartige Diskussion, die ein bisschen teilweise mir auch am Thema vorbeigeht.
Jochen G. Fuchs: Ja, aber ich muss unsere philosophische Diskussion wieder zurück auf die die Grafikschiene leiten. Wir haben noch nicht darüber gesprochen, was es denn konkret jetzt technisch war, oder? ich richtig in Erinnerung? Also es ist kein Diffusion Modell wie jetzt Darl E oder Me Johnny, sondern es ist was völlig Neues. Was ist es denn genau?
Barbara Lampl: Also, es ist, Achtung, ist, wir haben, OpMayEye ist diesmal noch mehr zurückhaltender gewesen, als es sonst immer schon war, was irgendwie ein guter Hint ist, dass da mehr technisch passiert, als wir so denken. Natürlich haben wir großartige Kollegen, Shoutout an die Folgen, also die natürlich anstatt nur Bilder generieren, Code hacken und sonst irgendwas. Ich muss auch ehrlich sagen, als ich das erste Bild generiert habe, und deswegen hatte ich ja Jochen vorhin gefragt, wie sieht denn das aus, und er von oben nach unten quasi so durchgedacht hat, auch mein Hirn nur ein Wort gedacht, und das ist Autoregression. Weil nur solche Modelle, die so konstruiert sind, würden quasi so Zeile für Zeile argumentieren. Mein Hint, es wurde dann auch bestätigt, war soweit wir das aktuell wissen. Achtung, das ist reverse-ingeniert. Wir haben keine Release Notes, Open AI ist noch mehr zurückhaltender als sonst. Also ein Diffusionsmodell ist quasi versucht aus, im Englischen sagt man ganz gerne so denosify, also aus Noise Signal zu erzeugen. Also quasi aus diesem ganzen Chaos irgendwie Dann quasi der Prompt wird in Embeddings quasi überführt und daraus wird dann eben in einem Diffusionsgleichung sehr physikalisch ein Bild generiert. Das sind die Stable Diffusion Modelle. Das ist unter anderem mit Journey Daddiesen alle Diffusionsmodelle. So, jetzt ist schon auf jeden Fall ziemlich offensichtlich und jetzt gibt es aktuell so bisschen zwei Meinungen. Eventuell ist es mehr ein und dafür sieht es ein bisschen verdächtig aus, dass dann da an irgendeiner Stelle doch ein Diffusionsmodell kommt, aber es fängt auf jeden Fall nicht damit an. Deswegen musste ich so bisschen lachen, als Stephanie vorhin gesagt hat, ich habe so eine grobe Skizze reingegeben und das Bild generiert, weil damit hast du ziemlich genau beschrieben, was eigentlich der neue 4O Image Generator macht. Er scheint mich mehrere Skizzen anzufertigen. die dann miteinander quasi in einem finalen Bild zusammenzubringen und zu optimieren. Also ganz spannend, also der Profianwender hat wieder gerochen, wie sowas funktioniert. Also es ist wohl, sieht danach aus, als hätte es ein multimodales Autoregressionsmodell. Multimodal kennt ihr schon, das ist die Lama-Klasse. Die Lama sind multimodale Modelle.
Stefanie Krüll: Ja,
Barbara Lampl: Deswegen, auch hier dann wieder, es wird ein Token generiert, das kennen wir auch schon irgendwie alle so bisschen her. Und das wird dann eben in ein visuelles Konzept überführt, sogenannte Patches. Und es sieht wohl eben so aus, unser guter Jiuloo hat dann wohl, als er sich quasi die Kommunikation angeguckt hat, es wird wohl so was wie mehrere Sketches erzeugt, multiple davon. Scheinbar bis zu fünf, deswegen rüdel das Ding auch so sehr. Und er fügt quasi wie so ein Sketch immer mehr Details hinein, also wirklich von Sketch zu Pretty Image. Und genau, deswegen, also da passiert dann, dass wir davon ausgehen, weil das eigentlich ungewöhnlich wäre für ein autoregressives Model, dass es da jetzt eben doch ein Diffusionsmodell einfügt. Also das heißt, dass die ersten Steps autoregressiv sind. Dann scheint es zu kippen, deswegen ein hybrides Modell in ein Diffusionsmodell. Deswegen scheint der Output so extrem gut zu sein, wo wir alle so bisschen gucken, so Alter, was denn jetzt hier passiert. Und damit kommt eben dieses Refinement zustande. Achtung, und jetzt habe ich, deswegen bin ich heute ausnahmsweise mal pedantisch, dass wir das Ding vor O nennen, denn es gibt aus, ich habe es vorhin auch extra nochmal nachgeguckt, aus November 2024, nämlich ein Paper, was Unified Image Generation heißt und OmniGen heißt. No joke. Und deswegen dachte ich mir, genau, und deswegen dachte ich mir, heute bin ich mal bedannt, ich nenne es bitte vor, weil es gibt eben dieses OmniGen Paper von November 2024. genau.
Stefanie Krüll: Mh! So ist es.
Jochen G. Fuchs: Deswegen auch das O, so ganz scharfsinnig Schlussfolger, O und Omni-Gen.
Barbara Lampl: Richtig. Deswegen ist mir außerhalbseits mal wichtig, wir das Ding vor O nennen, um zumindest ein bisschen Shoutout an die Kollegen, die das OmniJam Paper geschrieben haben, zu quasi rüberzuschicken. Und jetzt kommt eine interessante Nummer, was wahrscheinlich dafür spricht, dass das Ding so heavy auf den GPUs ist. Wir zünden damit gerade wirklich GPU Power, aber oh my god. also wer seinen NVIDA Aktienkurs mal noch treiben will, mehr Bilder generieren so ungefähr, also keine Ahnung, ist, dass es verdächtig danach aussieht, dass wir ein sogenanntes visual reasoning sehen. Das wäre auch bei diesem hybriden Model Approach nicht ganz unwahrscheinlich, denn Auch Mid Journey hat in quasi ein Promt-Rewriting angestoßen, was definitiv für diese Character-True-Nas auch teilweise notwendig ist. Das ist im Moment sehr auf Promting-Ebene gewesen und man hat, so war die Gerüchteküche, auch definitiv die Buschtrommeln, dass man versucht, auch ein Visual Reasoning sauber hinzubekommen. Und dass da quasi rumoptimiert worden ist. Aber Achtung, dass es natürlich Reasoning-Modelle sind, heavy auf der GPU. zusammen mit diesem Autoregression plus die Fusion und dann eventuell auch noch ein Regressionsmodell, ein Reasoning-Modell drin, dann wissen wir, welche Rauchwolken da oben drüber steigen bei jedem Bildchen, was wir generieren. Das ist die aktuelle These, wie die Hybrid Architecture ausschauen könnte. wird, es riecht verdächtig danach, dass sie sich heavy ans Omni-Gem-Paper gehalten haben. Und es gibt ein weiteres Paper, was auch dafür spricht, und das ist sogar schon aus Oktober 23. Was heißt sequential data generation with group-wise diffusion processes. Auch da, wie gesagt, Oktober 2023, Omnigen November 2024, da ist einiges an Grundlagenarbeit auch aus anderen Abteilungen gelegt worden. Und wie das immer so bei uns ist, irgendjemand hat mal in der Theorie und dann schmeißt man genügend Comput, da eventuell vorwärts zu kommen. Aber danach sieht es verdächtig aus. Es sieht also wie gesagt nach fünf Bildern aus, die generiert werden mit quasi über diese Sketches. Es sieht danach aus, als dann Stable Diffusion gewirkt wird. Es scheint wohl eine Patch Size von acht im Embedding zu sein. wir haben, da haben die Kollegen mal wieder echt harte Arbeit geleistet, was Reverse Engineering angeht. Und es sieht verdächtig und es gibt so ein paar Leute, wenn die das dann A durchgearbeitet haben und B quasi darüber reden, dann können wir da definitiv sicher sein. Das ist nah an der Realität dran. es ist definitiv kein Diffusion Modell. Es wird autoregressiv sein, wahrscheinlich in einer hybriden Architektur mit einem Diffusionsmodell. Und eventuell kann es sein, dass Sie auch sowas wie Visual Reasoning ausprobieren, eingebaut haben in irgendeiner Iteration oder zumindest mal wieder Testläufe starten. Was auch dafür sprechen könnte, ist, dass die Ergebnisse, wie wir das ja heute auch schon bisschen hatten, die Ergebnisse von Jochen Steffi und mir differieren extrem krass, was gerade mal funktioniert und was nicht funktioniert. Und aus researcher Seite ist das immer ein Dead Giveaway. Wir haben nicht alle ganz das gleiche Modell, mit dem wir rumspielen, ohne dass wir wissen, was wir haben, weil unsere Ergebnisse liegen zu weit auseinander. Wir haben drei unterschiedliche Hirne, die das Ding prompten und trotzdem liegen wir so auseinander. würde dafür sprechen, da eventuell mehrere Modelle in iterativer Variante unterwegs sind, rauszugucken, was wie auch am Produktion ergibt.
Jochen G. Fuchs: Unter Umständen macht es vielleicht auch nochmal einen Unterschied, an welcher Stelle du promptest. Also ich hatte das Gefühl, dass wenn ich in einem Projekt bei ChetGPT hänge, andere Ergebnisse rauskriege, als wenn ich einen neuen ChetGPT erfülle.
Stefanie Krüll: Well.
Barbara Lampl: Genau, also auch da spricht, wie gesagt, eventuell dafür, das ist auch nicht ungewöhnlich. Also wir machen auch so was wie AB-Tests, ihr bestimmt aus Webseiten kennt das. Auch das ist definitiv bei solcher neuer Architektur, würde mich das nicht groß überraschen. Das kann also Uhrzeiten, GPU-Last sein, es können kleinste Modellabweichungen sein. Also der eine hat den O1-132, der andere hat den 1345. Das sind Sachen, die du definitiv vertestest, weswegen ja auch ein Consumer Release so spannend ist. Aber das ist definitiv, wie die Architektur aktuell wohl arbeitet. Wie gesagt, das sind großartige Kollegen von mir. nicht auseinandergeplückt. Ich kann es nur verstehen und euch erklären. das sind Kollegen, auf die verlasse ich mich sehr. Wenn die sowas durchgearbeitet haben, dann ist da viel bei ein.
Jochen G. Fuchs: Bevor wir meine Konfusion in Richtung Regression und Diffusion nochmal auflösen und bisschen drüber sprechen, was es sonst noch so für Typen bei Bildgeneratoren gibt und wir kurz nochmal drüber sprechen, was die Unterschiede zwischen denen sind, kurze Frage. Wenn ich bei diesem 4.0 mehrere Assets reinschmeiße bei einem One-Shot-Prompt,
Barbara Lampl: Dann ist es kein One-Shot-Prompt mehr, dann ist es kein Zero-Shot mehr, sondern ein Few-Shot, wenn du da mehr Assets reinschmeißt.
Jochen G. Fuchs: Okay, das heißt von der Logik her ist es in Anführungszeichen dasselbe, ob ich ihm jetzt nacheinander zwei Bilder gebe, die er in eine Vorlage einarbeiten soll oder ob ich ihm zwei gleichzeitig reinschmeiße, weil das ist bloß eine Benutzeroberfläche, der arbeitet die beiden Bilder nacheinander ab. Also der generiert nicht quasi die zwei Assets teilweise in dasselbe Bild hinein.
Barbara Lampl: Kann sein, muss nicht sein.
Jochen G. Fuchs: Ich wollte gerade sagen, ich kriege einen unentschlossenen Gesichtsausdruck und ein Hin und Her.
Barbara Lampl: Der Punkt ist, wir wissen es halt nicht so genau.
Jochen G. Fuchs: Mh.
Barbara Lampl: Also das sind Sachen, selbst wenn du den Code, wenn der quasi in der Kommunikation läuft, kann ich dir nicht sagen, ob der jetzt sequenziell nach A ins Töpfchen A und ins Töpfchen B reingreift und die miteinander kombiniert oder A arbeitet durch, B durcharbeitet. Denn das ist halt, also wie gesagt, das ist so Secret Source. Alles muss immer bis zum bestimmten Punkt natürlich linear irgendwann miteinander kombiniert werden. Aber ob das jetzt Two Pathways sind, Splits oder ich kann es dir nicht sagen. Dafür ist das Ding auch definitiv zu neu und dafür Das ist jetzt bisschen gemein, aber wir haben momentan natürlich nur Probeläufe von Usern, professionellen Anwendern, aber die Vollnerds haben auf jeden Fall noch keine Testdata-Sets aufgesetzt, irgendwas. Das Ding ist in frischer Release, du kannst es nur testen in der Chatchipity-Oberfläche, das heißt, es ist noch weit entfernt von, wir haben irgendwie das erste, dass wir nur in experimentelle Studien-Design reinkommen, wo wir ein bisschen näher dranrücken nach dem Motto, was ist denn das eigentlich?
Jochen G. Fuchs: Also das heißt, bleibt auch da nicht viel mehr übrig, als es einfach mal auszuprobieren und mal mit ein und demselben Basisbild nacheinander zwei Assets reinzuschmeißen, gleichzeitig reinzuschmeißen, die Reihe ein paar Mal zu wiederholen und dann die Ergebnisse zu vergleichen. ist halt, ja, so ist es halt. Okay, Konfusion, Diffusion, Regression, Wörterbuch bitte.
Barbara Lampl: Ja, genau.
Stefanie Krüll: Ja.
Barbara Lampl: Genau. Also, Diffusionsmodell, wer sich noch kurz an diese eigenartige Episoden namens Pandemie erinnern kann, da haben wir auch über Diffusion gesprochen, die Frage, ob dieses Ding jetzt durch die Luft sich bewegt und damit in der Diffusionsgleichung die Partikelteilchen durch die Gegend hängen, wir erinnern uns, das ist im Prinzip nichts anderes als physikalische Diffusionsgleichung. Ein Diffusionsmodell versucht, aus jeder Menge Unsinn Sinn zu machen und so werden diese Pixels quasi erzeugt. Mein Beispiel für die Diffusion zu erklären ist, Stellt euch vor, wir würden im Dunkeln essen gehen und damit riecht ihr die Pizza nur. Ihr seht sie nicht. Und das, was wir als Geruchsmoloküle wahrnehmen, das ist nichts anderes als wie das Bild, was in eurem Kopf dann über die Pizza, wenn ihr da so ein bisschen schinken und hier ein bisschen Ananas und hier ein bisschen Champignon riecht, das ist im Prinzip eine Diffusionsgleichung. Und ihr merkt schon, kann ich jetzt da riechen, ob das jetzt der teure Prosciutto de irgendwas ist oder das günstige Produkt Presschenken.
Stefanie Krüll: Hahaha
Jochen G. Fuchs: weißt schon, dass ich nur Mango auf dem Tisch habe, oder?
Barbara Lampl: Es tut mir sehr leid, wie gesagt, mein Standardbeispiel für die Fusions zu nachzubringen, ist ihm über Geruch zu erklären. Und sorry, da ist halt das einfachste Beispiel auch übrigens deswegen so ein gutes Beispiel, weil wenn du das im europäischen Raum erklärst, dann denken alle an der Pizza in Rund. Erklärst du das in anderen Kulturkreisen, die die runde klassisch italienische Pizza nicht kennen, denken die an eckige Pizza? Und das ist auch, warum die Trainingsdaten so einen Packer Punch haben und du quasi
Jochen G. Fuchs: Ist gut.
Barbara Lampl: Mit impliziten Informationen, warum wir am Anfang so einen Drama hatten, nur eine Banane zu prompten oder diese komische Uhrzeigerstellung auf den Uhren. Das hat was mit diesen Trainingsdaten zu tun, weil wenn die Trainingsdaten runde Pizza sind, dann macht das Diffusionsmodell runde Pizza draus. Und wenn du eckige Pizza haben willst, musst du ihm das sagen. Und ob es dann hinbekommt, ist was anderes. Aber Diffusion können wir wie gesagt über Wahrnehmung als Geruch euch vorstellen. Und da musst du halt quasi, wenn im Essen, im dunklen Essen geht, übrigens wenn du da mal die Chance habt, ein Tisch, ist es großartig. Dann merkst du, in welche Elementierung du reinkommst. Und jemand mit einer sehr guten Nase kann vielleicht sagen, das sind bestimmt die Tomaten. jemand anders denkt, ja, bei Geld und mir riecht gar nichts außer Tomate. Vielleicht auch eine wässrige. Aber das ist genau dieses, wie eben die Diffusionsgleichung in diesem ganzen Noise quasi ein Signal erzeugt. Und quasi wie gut eure Nase ist, so gut ist das Diffusionsmodell. Und Mid Journey hat eben eine bessere Nase. Das sind Diffusionsmodelle.
Stefanie Krüll: Babsi, I love you! Mega Erklärung! Ja! Danke!
Barbara Lampl: Genau. also. Und das ist jetzt aber sehr im Kontrast. Und deswegen hab ich ja vorhin gefragt, wie denkt ihr, wie das Ding funktioniert? Das ist halt, wenn du quasi jetzt aber per Token, also per Autoregressionsmodell erzeugst, dann seht ihr, dass dieses Bild von oben nach unten sich durcharbeitet. So. Das heißt, es wird ein Image eins erstellt, wird ein Image zwei mit Mehrzahlen erstellt, es wird ein Image drei mit Mehrzahlen erstellt, es wird ein Image vier Mehrzahlen erstellt. Und das Prinzip ... dass der Input zu Output wird zu Input, kennen wir vorher aus dem klassischen Large-Language-Modell und seiner ominösen Tokenfunktion. Und genau das ist jetzt Idee, dass das anstatt dieser Diffusionsgleichung sequenzielle Tokens macht. Also sehr viel näher dran an der eigentlichen Idee, wie Large-Language-Modelle im Text funktionieren. Was dazu führt, wenn es sequenziell näher an dem Token ist? Was ist der Gag an dieser ganzen Tokendiskussion und an diesen graßen Deep Learning? Naja, es interpretiert ja den Kontext mit. Und das war bei Bildern ja häufig irgendwie so bisschen das Drama. Du hast eben einen Prompt gegeben und das hat irgendwie. Also ich keine Ahnung. Man denkt sich immer so. Also in welcher Welt sieht so ein Office von innen aus? Keiner? Ja klar, weil das halt quasi keine Kontext Informationen hatte. bin ich in einem multimodalen Autoregressionsmodell, erzeug ich den gleichen Effekt, wie ich das in Large-Language-Modellen kenne. Es wird kontextsensibler, es versteht nicht nur den ad hocen Schritt, sondern es versteht, in welcher Welt es sich bewegt. Und deswegen ist der Output auch massiv besser. Genau, und so wird es. Und deswegen ist auch die Frage, wie viel von diesen Sequenzen tackert es so durch? Und deswegen siehst du auch, wenn du eine Chance hättest, wahrscheinlich quasi die Bilder zu sehen, es währenddessen generiert, dann wird es immer schärfer, weil die Pixel immer stärker durch die Sequenzialität quasi stärker optimiert werden. Das heißt von sehr rough wird es dann sehr, sehr genau zurück zu Steffis. Mit das Ding kann echt hyperrealistische, fotorealistische Bilder erzeugen. Das ist ein Effekt davon, der halt im Diffusionsmodell wahnsinnig viel aufwendiger ist, aber in so einem autoregressiven kann ich quasi wie reinzoomen und sehe immer mehr. Und das ist das. Hilft das bei der Erklärung? Jochen G. Fuchs (1:01:17) Okay. Ja, und mein Eichhörnchen noch zu befriedigen, es gibt übrigens nicht die typische italienische Pizza. Die Pizza Altaglio beispielsweise, klassisch nach Blechpfanne gebaten wird, die ist dick und eckig. Dann haben wir noch eine Pizza Pala, die ist eher keksartig. Dann haben wir die sizilianische Pizza, die schwammfluffig. Ja, ich höre auf. Barbara Lampl (1:01:46) Ja, aber das ist genau der Punkt. In deiner Wahrnehmung ist es gibt keine typische Thalänische Pizza. Das ist aber für ein bildgebendes Modell eine ganz andere Wahrnehmung, denn das ist auf Runde Pizza hochtrainiert. Punkt. Und das ist eben immer dieser Effekt. Die Trainingsdaten beeinflussen eben den Output massiv in der Bildgenerierung auch momentan mehr als uns sonst in allen anderen Modellen lieb ist. Achtung, wenn Sie Visual Reasoning hinbekommen und da auch was auch dafür spricht, warum Sie die Copyrights quasi angezündet haben. Wir haben... Reasoning heißt reinforcement learning. Reinforcement learning heißt adaptivere Modelle. Die ersten Studien dazu haben wir jetzt schon auf der Large-Language-Modellierung-Seite gesehen. Das heißt, wenn Sie das auf dem Bildmodell hinbekommen, haben wir sogenannte adaptivere Modelle. Adaptivere Modelle heißt höhere Unabhängigkeit von den Trainingsdaten. Und auf der anderen Seite Bad Player, mehr Manipulationsmöglichkeiten und zurück, unsere gesellschaftliche philosophische Schleife zu lesen. quasi zu schließen, das ist genau das, wo dann die größere Gefahr drin steht. Stefanie Krüll (1:02:47) Ja. Jochen G. Fuchs (1:02:48) Ja, Bias, ist ein gutes Stichwort. Mir fällt das auch immer auf, wenn ich Bilder generiere, denen Menschen drauf sind und ich sage ihm, mach mir doch bitte mal ein Bild von einer Führungsperson, dann kriege ich direkt einen weißen Mann mit Anzug Mitte 50 ins Gesicht geschmissen. Da werden einfach unsere Vorurteile, die in den Trainingsdaten stecken, reproduziert, aber es könnte jetzt bald besser werden könnte man vermuten? Barbara Lampl (1:03:16) Steffi, wie löst du es denn bisher mit den Bias? Stefanie Krüll (1:03:18) Ja, ich hatte ja schon einige Tests dazu gemacht, gerade auch noch mal gepostet im Vergleich letztes Jahr. Ich hab dann genau das Writing, also mit Journey, auf Vorzugsweise, prompten wir auf Englisch, dann haben wir genderneutrale Begriffe wie Doctor, Teacher, keiner weiß, wer jetzt genau gemeint ist. Und da hat sich ein bisschen was getan in der Tat. damals noch ganz extrem Teacher waren alle nur Frauen, einer hatte so einen ganz leichten... südamerikanischen Hintergrund, CEO, alles nur weiße Männer, Doktor, alles nur weiße Männer. Ich einer hat einen asiatischen Look oder Hintergrund sozusagen und so weiter. Konntest du Klaviatur durchspielen? wurde alles bestätigt. Und Babsi, jetzt an dich die Frage. Die Antwort auf deine Frage, wie umgehe ich das? Ja, ich muss es explizit wirklich reinprompten, leider nach wie vor. Ich muss es wirklich mit reingeben. Wenn ich einer blinden Person wirklich genau etwas erklären will, gebe ich dann mit rein. Okay, ist eine Lehrerin, eine weibliche Lehre, Female Teacher dann in dem Sinne oder Male Teacher in dem Sinne, müsste ich damit reingeben, wie sieht er aus, was hat er an und so weiter. Das ist nervig. Das funktioniert bei dieser ganzen Überästhetisierung, also gerade auch vermeintlich unattraktive Menschen abzubilden. Wir haben beim Mid Journey Sinn. Barbara Lampl (1:04:38) Mmh. Stefanie Krüll (1:04:40) alle Gesichter hinten getackert, alle 20 Jahre jünger so ungefähr, sehen Bombe aus. Da muss man explizit an Schräubchen drehen wie Documentary Photography, den Stylers Wert auf Null, Style Raw eingeben und dann im Zweifel auch nochmal beschreiben. Eher so unattractive Person oder wie auch immer. Man gibt dann zum Teil wirklich sowas. Krass ist schon mit rein. jetzt Babsi, an dich die Frage ganz wunderbar eben von dir gesagt, dass vielleicht gar nicht so die Trainingsdaten oder dass der Output gar nicht dann so massiv vielleicht im Zweifel abhängig ist von Trainingsdaten und da stelle ich mir die Frage, haben wir das ein Beißproblem? Ich habe selber noch nicht getestet jetzt mit 4O, werde ich aber im Nachgang machen. Ist das vielleicht dadurch reduziert? Was sagst du dazu? Jochen G. Fuchs (1:05:24) Mmh. Barbara Lampl (1:05:26) Ob es jetzt in 4.0 schon reduziert ist, weiß ich nicht. Wie gesagt, es gibt die ersten Paper, in die Richtung zeigen, dass das Reinforcement Learning die Dominanz des Pre-Trainings optimieren kann. Achtung, das Reinforcement Learning ist trotzdem teilweise noch hart ins Modell eingebaut. Wer ein rohes Modell hat, kann natürlich noch mal, aber momentan sind die Modelle ja auch im Deep-Seek, hat das Reinforcement Learning drin oder eben nicht drin. V3 versus R1 oder sonst irgendwas. Es sieht danach aus, dass das Reinforcement Learning eben die Abhängigkeit der Trainingsdaten minimieren würde oder optimieren würde oder kleiner machen könnte. Danach sieht es aus und damit würden wir eben auf den Large Language Modellen, das ist momentan getestet worden, eine stärkere Unabhängigkeit von den Trainingsdaten und damit eben von diesen ganzen Bias-Sachen eventuell bekommen. Achtung! Also Reinforcement Learning ist ein figeliges Monster. Deep Learning ist ein figeliges Monster. Reinforcement Learning ist ein ekliges mathematisches Monster. Ich habe nicht umsonst für meinen K.I. Trainer, aber habe ich es letztes Mal für eine sehr nerdy Session hier noch. Das werdet ihr jetzt nicht sehen, aber wenn ihr den Videocaster, das ist die Econometrics Analysis. Das ist ein Buch, ich allen erinnere. Es hat Kleber drin. Das habe ich im Studium zigmal in meinem Leben in der Hand gehabt. Also wir erschrauben massiv Mathematik, Wahrscheinlichkeitsräumen extrem fiegelig wird. In der Theorie sollte es dafür sprechen, dass wir damit auch einen Bias in Griff bekommen. Achtung, Nebenbedingungen. Wir müssen ein Interesse daran haben, dass wir den Bias runterbekommen. Jochen G. Fuchs (1:06:50) Also wir müssen Elon Musk sein. Stefanie Krüll (1:06:52) Ja. Barbara Lampl (1:06:52) Ja, genau. Das ist halt gerade so. Es sieht danach aus, als könnte uns das eine Möglichkeit... Deswegen ist der Hype auch Reinforcement Learning in der AI Researcher Crowd auch gerade so groß, weil wir uns das unabhängiger machen würden von diesen monströsen, prätrainierten Modellen, die wir haben, aber wir könnten sie stärker anpassen. Aber das Interesse muss da sein. Das ist handwerklich definitiv nicht trivial. Und wie gesagt... zurück zu, und das haben wir schon ein paar Mal alle gelernt, dass die Modelle repräsentieren noch immer die Haltung, die Moral, die Ethik, derjenige, der es gebaut haben. ja, also solange wir halt dann da jetzt auch nicht selber unsere eigene reinbringen, ist natürlich zurück zu in der Theorie, sollte das dafür eigentlich funktionabel sein, besonders wenn wir in sowas wie Visual Reasoning reinkommen, was für Reinforcement Learning sprechen würde. Heißt aber noch immer, dass ich eben ein Interesse daran haben muss. dass da eben halt Geschlechter irgendwie anders repräsentiert werden oder auch das berühmte Lena Beispiel, das so lange das Playboy Bild halt als Marker benutzt worden ist, was gutes Bild ist, dann habe ich das natürlich einen doppelten und dreifachen Effekt in solchen Sachen. Aber das ist eben diese Diskussion, uns jetzt nur eine Möglichkeit nerven, wenn wir sie denn auch nutzen. Und das bedeutet insbesondere auch, dass quasi die Research-Seite in Europa gefragt ist. Jetzt ist er wieder mal einer dieser kritischen Momente. Okay, jetzt sehen wir die ersten Entwicklungen. Also, wie sieht es aus? Das ist auf Large-Language-Modellen, weil da haben wir mehr offene, haben wir mehr Möglichkeiten und auch schon mehr Erfahrung damit als jetzt mit dieser neuesten Generation, die da scheinbar mit dem 4.0 Bildgenerator released worden ist. gesagt, Omnigen ist auch erst im November 2024 rausgekommen. Das scheint der erste harte Umsetzungs-Case davon zu sein. Also, das wäre eine geile Vorlage, aber zurück zu, da muss auch Interesse bestehen und Interesse bestehen heißt, dafür muss auch die Kohle in die Hand genommen werden und damit haben wir dann immer wieder so ein bisschen so eine kleine, aber in der Theorie würde das die Möglichkeit jetzt eröffnen. Jochen G. Fuchs (1:08:52) Okay, ich erlaube mir jetzt eine letzte Nachfrage. Das hört sich gut an, wenn wir das Thema Bias damit tatsächlich etwas mehr in den Griff kriegen würden. Aber jetzt habe ich eine Frage. Das Problem, dass wir unter Umständen Lücken, nenne ich es jetzt mal in den Trainingsdaten haben, weil halt hauptsächlich englischsprachige Suchergebnisse verarbeitet wurden und eben keine, was weiß ich, indischsprachigen etc. Das kriegen wir damit aber wahrscheinlich nicht behoben. Barbara Lampl (1:09:20) Nein, also grundsätzlich ist Trainingsdaten und deswegen ist das momentan sehr spannend, was da passiert. Nochmal, das ist alles noch sehr, frisch, also selbst aus der wissenschaftlichen Seite, frisch von der Presse. Wir sehen, wenn die Modelle gut sind, jetzt denkt es mal andersrum, wir sehen gerade eine neue Generation an Bildgenerierung, was fotorealistische Bilder machen könnte. Jetzt machen wir einen kollektiven Push zurück zu, die Dinger kommen eigentlich aus synthetischen Daten herstellen. Würden wir jetzt geilen synthetischen Shit erzeugen, könnten wir auch Trainingsdaten stärker manipulieren. Würdest du, und bei Sprache ist das natürlich noch mal eine tricky Komponente. Aber auch da, es ist ja nicht unmöglich, auch indische Texte oder sonst irgendwas zu erzeugen. Aber auch da, das ist eine kollektive Aufwand, der dahinter benutzt. Was wir halt gerade sehen, ist, dass die Interaktionen der Modelle stärker in die Modelle einlaufen. Und damit sind wir dann natürlich bei dem Drama. Wir haben auch eine dominant Gender-AI-Adaptation-Gap, eine dominant männliche Nutzer-Crowd. nix gegen Jungs und die Herren, die hier zuhören, aber... Stefanie Krüll (1:10:19) Klasse. Barbara Lampl (1:10:20) Und wo ist das Problem? Ja, gar kein Problem, weil eigentlich erst, wenn wir ein automatisiertes System reinballern, wir ein echtes Problem haben. Aber das ist halt genau das. Nein, das würde das nicht komplett ad hoc lösen. Aber je besser die Modelle sind, umso besser könnten wir synthetische Daten zu erzeugen. Aber Achtung, die Dinger funktionieren halt nun mal, wie wir gerne hätten. Zurück zu, wir müssen uns zwar mit unserer Arbeitsanweise an die Maschine anpassen, aber wir prompten die Dinger. Wir erzeugen die Bilder damit. Wir erzeugen den Unsinn oder auch den verstärkenden Echo-Kammer-Effekt. Würden wir gleich andere Dinge machen und würde es einen kollektiven Push geben, da es diese Richtung zu gehen, dann wäre es vielleicht ein bisschen anders. Aber nochmal, ist halt keine, das System lebt nicht von sich alleine aus. Und ich meine, eine Diskussion und deswegen, da muss ich immer so bisschen lachen, wo ich mich immer ein bisschen frage, so die Herren und quasi mein Schlusswort zum Sonntag. Da wollen sie also Artificial General Intelligence bauen. und haben keine Frauen und keine Minderheiten und niemanden am Tisch, das soll eine generelle Intelligenz werden, wenn 50 Prozent der Weltbevölkerung fehlen oder wenn wir quasi über Farbgruppen hinweg denken, 80 Prozent fehlen. Ja, genau, das wird bestimmt in General Intelligence gehen. Die wird da wahrscheinlich von sich aus motzen und sagen so, ach, wir haben hier nur weiße Männer, aber was ist mit den anderen da? Haben die nicht auch, die haben auch Wissen. Aber warum rede ich nicht mit denen? Also das ist so bisschen so eine affige Diskussion, dass die sie General Intelligence bauen wollen. Aber 50 Prozent der Weltbevölkerung oder beziehungsweise 80 Prozent der Weltbevölkerung nicht. Ja, genau, Freunde der Nacht. Also das ist ein Weg, auf dem wir uns in einer wahnsinnigen Geschwindigkeit bewegen. Aber das bedeutet halt auch, warum ich immer wieder AI Literacy in den Mund nehme, warum wir diesen Podcast machen. Es ist halt einfach wichtig, sich daran zu beteiligen, stärkeres Wissen zu verstehen. Dann kann ich das halt auch mit meinen eigenen Handlungen anders in die Welt transportieren. Jochen G. Fuchs (1:12:08) Ja, dann würde ich Stefanie jetzt fragen, ob sie da im Schlussnord noch etwas hinzuzufügen hat. Stefanie Krüll (1:12:13) Ach, ihr Lieben, es war mir ein Fest und eine Freude zugleich. Es hat auch gar nicht wehgetan. Vielen, vielen Dank. Thanks for having me. Es war super, super austauschig. Ich ehrlich gesagt mal wieder eine Menge dazugelernt. Ich liebe deinen Pizza im dunklen Essen Vergleich. Danke dafür. Nee, war ganz toll. Hat mir super gut gefallen. Vielen, Dank, dass ich hier dabei sein durfte. Toll. Barbara Lampl (1:12:17) Yippie! Jochen G. Fuchs (1:12:18) Das wäre schon wunderbar. Barbara Lampl (1:12:28) ... Vielen lieben Dank, dass du vorbeigekommen bist. Jochen G. Fuchs (1:12:40) Ja, vielen Dank und liebe Datenwissenschaftler, ihr zuhört, denkt bitte dran, wenn ihr das nächste Paper schreibt und ihr irgendwelche Namen gebt. Es könnte passieren, dass der erste Buchstabe eures Papers an irgendwelche Modelle dran gepappt wird. Also seid kreativ! Stefanie Krüll (1:12:40) Vielen Barbara Lampl (1:12:55) Ach du weißt das, wir sollen kreativ werden. Das geht genau. Tü-Lü-3. sag nur Tü-Lü-3. Viel Spaß! Stefanie Krüll (1:13:01) ciao! Jochen G. Fuchs (1:13:01) Vielen Dank, viel Spaß und bis bald bei eurem neuen KI Lieblingspodcast.
Neuer Kommentar