KI-Hybrid-Modelle und der Problem-Data-Model-Match: Ist einfacher immer besser?
Shownotes
In der neuesten Folge von LAIer 8|9 nehmen Barbara und Jochen die aktuelle Entwicklung von Hybrid-Modellen bei OpenAI und Anthropic unter die Lupe. Du kennst das Gefühl der Entscheidungsparalyse vor der Modell-Auswahl? Die Tech-Giganten versprechen Abhilfe – aber ist das wirklich gut so?
Die AI Babsi und der E-Fuchs diskutieren kritisch, warum der Weg zu mehr Nutzer-Faulheit problematisch ist und welche Fallstricke in der neuen Memory-Funktion lauern. Erfahre, warum das Problem-Data-Model-Match entscheidend ist und wie du die richtigen Modelle für deine Anwendungsfälle auswählst.
Außerdem im Talk:
- Warum du bei komplexen Aufgaben besser auf Englisch promptest
- Die Zukunft der Edge AI und warum kleinere Modelle großes Potenzial haben
- Benchmark-Theater: Wenn Modelle auf Tests optimiert werden
- Neueste Entwicklungen bei DeepSeek, Google AI Co-Scientist und in der Robotik
Eine Episode für alle, die mehr wollen als nur Hype und Buzzwords – mit praktischen Tipps für den professionellen KI-Einsatz und einem kritischen Blick hinter die Marketing-Kulissen der KI-Welt.
- 00:00 Einführung in den KI-Podcast,
- 02:31 Die Herausforderung der Modellwahl,
- 06:39 Das Layer 8 Problem: Nutzerkompetenz und Faulheit,
- 12:15 Die Memory-Funktion und ihre Fallstricke,
- 18:37 Schlussfolgerungen und Empfehlungen,
- 19:28 Problem-Data-Model-Match verstehen,
- 23:11 Sprachliche Herausforderungen bei LLMs,
- 28:45 Prompt-Engineering und seine Bedeutung,
- 32:54 Edge AI und lokale Anwendungen,
- 36:05 Benchmarking von LLMs und deren Relevanz,
- 38:28 Benchmarking und Chatbot-Arenen,
- 40:32 Optimierung und Overfitting in Modellen,
- 44:11 Horizont erweitern: Deep Learning und Machine Learning,
- 46:11 Open Source und geopolitische Entwicklungen,
- 48:06 AI Co-Scientist und neue Forschungsansätze,
- 50:07 Robotik und die Zukunft der Interaktion
🥳 Danke, dass du LAIer 8|9 eingeschaltet hast! Möge die KI mit dir sein!
Schreib uns eine Bewertung mit dem KI-Modell deiner Wahl und abonniere uns auf deiner Lieblingsplattform, wir sind überall, es gibt kein Entrinnen!
Apple Deezer Spotify Amazon Music Youtube (Video-Podcast)
Unsere Hosts AI Babsi: (Barbara) Website | LinkedIn - E-Fuchs: (Jochen) Website | LinkedIn
Unser Podcast Blog https://laier89.de/
01001100 01110101 01101011 01100101 00101100 00100000 01001001 01100011 01101000 00100000 01100010 01101001 01101110 00100000 01100100 01100101 01101001 01101110 00100000 01001011 01001001 00101101 01010000 01101111 01100100 01100011 01100001 01110011 01110100 00100000 01001100 01000001 01001001 01100101 01110010 00100000 00111000 01111100 00111001 00101110
Transkript anzeigen
Der E-Fuchs (Jochen G. Fuchs): Hallo und herzlich willkommen bei LAIer 8.9 einer neuen Folge eures neuen KI Lieblings Podcasts.
Barbara Lampl: Läuft bei uns, wir nehmen uns total ernst. Endlich noch ein weiterer KI-Podcast, der euer neuer Lieblingspodcast ist. Hallo, lieber Jochen!
Der E-Fuchs (Jochen G. Fuchs): Ja hallo liebe Barbara, grüß dich. Ja, ich bin frustriert. Naja, ich... Kennst du das, wenn du im Restaurant sitzt, du sitzt vor der Speisekarte und hast diese Entscheidungsparalyse? Ich glaube, das geht vielen so, wenn sie vor OpenAI...
Barbara Lampl: nein. Warum?
Der E-Fuchs (Jochen G. Fuchs): oder vor dem ein oder anderen dieser Chatbot Menüs, wo du so schön diese Liste aufklappen kannst mit diesen wahnsinnig kreativ benannten LLM Modellen, die alle 0123-Mini-Maxi-Midi-Weiß-der-Geier-was heißen. Und dann sitzt du so da und denkst dir so, was mache ich denn da jetzt, was wähle ich denn jetzt aus, was ist denn jetzt hier bitte das Richtige, kann mir mal jemand die Autobahnausfahrt zeigen. Das ist echt spaßig, aber ich habe was tolles gehört. Ich habe gehört, dass OpenAI und bei Anthropic habe ich es auch gelesen, etwas rausbringen wollen, dass sich, Achtung alle festhalten, damit es euch nicht von den Sitzen haut, Hybridmodell nennt. Also wahrscheinlich kriegen wir danach dann das Hybridmodell Maxi, Midi, Mini, irgendwas, keine Ahnung. Was tun die da eigentlich?
Barbara Lampl: Also, fangen wir vorne an. Die Idee von GPT-5 ist jetzt übrigens nicht mehr OpenAI, sagt jetzt nicht mehr, dass das... Artificial General Intelligence ist, also keine AGI, sondern GPT-5 soll dir die Herausforderung, die Jochen gerade beschrieben hat, abnehmen. Endlich nicht mehr selbst entscheiden, welches Modell. Und Anthrophic hat dann ein paar Tage später auch gesagt, ja, sie bauen auch an einem Hybridmodell, die haben jetzt das Ding Hybridmodell genannt, dass auch dir in Zukunft bei uns wird ja auch die Aufgabe abgenommen. nicht mehr entscheiden welches Modell und du musst auch insbesondere nicht entscheiden und das ist der entscheidende Faktor ob du eine klassische Large-Language-Modellierung Anwendung haben möchtest also GPT-4.0, 3.5 Sony in den Trophic im Mid-Cloat oder eins der schicken Reasoning Modelle die hatten wir ja letzte Woche die ja alle gleich heißen mit Reasoning und Deep Search und Deep Research und sonst irgendwas das sollst du jetzt alles abnehmen und du kannst es dann einfach nur noch nutzen. Das ist die Idee dahinter.
Der E-Fuchs (Jochen G. Fuchs): Okay. Ja, irgendwie schon. Aber ich muss dann ja schon der KI quasi zutrauen, dass sie mich versteht. Ich habe noch nicht so ganz verstanden, wie das funktionieren soll. weil ich weiß ja, wenn ich selber schon, ich weiß ja selber schon nicht welches.
Barbara Lampl: Doch super, wollen sie doch haben, oder? Wie jetzt? Na ja, so wie im Restaurant auch. Der Kellner kommt und sagt, du willst Steak.
Der E-Fuchs (Jochen G. Fuchs): Ich weiß ja selber schon nicht, was ich essen soll, hätte ich jetzt beinahe gesagt, was ich für ein Modell verwenden soll. Wenn ich es nicht weiß, woher weiß denn die KI, was ich für ein Modell brauche?
Barbara Lampl: Das ist jetzt eine gute Frage, so wie der Kellner, du verzweifelt, weißt du, wenn du im Restaurant verzweifelt, vor der Karte sitzt und der Kellner sagt Jochen, gib die Karte her, du willst heute Steak haben und dann schreist du zwar noch hinterher, bin vegan, aber das hilft schon nicht mehr, dein Steak ist schon medium rare auf der Eisenplatte gelandet. Das ist die Frage, die wir fragen, wie das funktionieren soll. Also in der Theorie kann natürlich deine Anfrage, aka der Prompt, analysiert werden und daraus aus diesem Analyseprozess vielleicht rausgeschlossen werden, welches Modell jetzt eine sinnvolle Antwort ist. Oder man könnte es bauen, dass der Prompt in das eine oder das andere Modell läuft, also mehrere parallel. Das macht man übrigens ganz häufig, wenn man quasi Evaluations fährt, also dass du quasi einen Prompt auf mehrere Modelle lässt. Und dann könntest du entweder dir die unterschiedlichen Outputs angucken Oder Sie können schlicht und einfach Gedanken lesen, welches Modell zu deiner Anfrage passt.
Der E-Fuchs (Jochen G. Fuchs): gigantisch also beim prompten also wenn ich mit mit mit mit mit einem Reasonin modell arbeite schreibe ich ja schon einen anderen prompt weil ich gelernt habe ich muss so prompten wie das modell das das das macht irgendwie klingt das ein bisschen ein bisschen nach nach Voodoo ich kann das nicht so ganz
Barbara Lampl: Genau, also es klingt nicht nur so bisschen nach Voodoo, das ist genau das, als quasi zwei Meinungen parallel auf LinkedIn, ja mega, endlich kein Drama mehr, ich muss mein Modell nicht mehr aussuchen und die Profifraktion hier drüben so, Gott, Gott, bitte nicht, wenigstens in der API müssen wir sauber bitte bleiben, ja, also was ihr im Consumer Mist baut, ist mir ja schon fast wurscht, aber bitte doch in der API Schnappatmung. Genau das ist das Problem. Das was jetzt so trivial klingt und ich bin bei dir also wer sich diese depperten Namen ausländlich meint, ist echt so Data-Nerds nichts benennen, ich sag Turing- Institute und Tülu3 fürs Posttraining, bitte wer hat denn wieder gesoffen? Also da frag ich mich jedes mal, das ist egal welche Drogen die falsche Dosierung, zu wenig oder zu viel. Da bin ich völlig bei dir, dass es unübersichtlich ist welche Modelle jetzt in die Frage kommen zu welchem Modell-Match du hast. ist eigentlich relativ obsolet geworden, weil die LLMs alle so nahe aneinander geraten sind. dass sie zwar alle noch unterschiedlich sind und wenn du sie wirklich professionell benutzt und ich meine wirklich professionell heißt du kannst sauber prompten, du hast deine prompt workflows, sonst irgendwas nicht, du ballerst da nur ab und zu mal ein prompt rein, dann wirst du feststellen welches Modell sich zu deiner Aufgabe hervor passend ergibt und die sind aber alle nah zusammengekommen, aber mit dem quasi hochkommen der reasoning Modelle und der reasoning research Modelle, die ja alle gleich heißen, deep research und deep search, haben wir ja doch wieder neue unterschiedliche Klassen. Und jetzt wird es ein bisschen obstruz, weil was du gerade schon sagst, ja so ein Reasoning-Modell und so ein Research-Modell muss sich schlicht und einfach anders prompten als eine klassische LLM-Anwendung. Und jetzt muss irgendjemand etwas bauen, in dem Fall von mir ist OpenAI oder Anthrophic, einen Analyse-Step einzubauen, den, was wir in der Data Science nennen, Problem-Data-Model-Match, nämlich welches Problem wird gefragt, welche Daten, a.k.a. Kontext werden mitgegeben und welches Modell könnte diese Aufgabe besonders gut lösen, irgendwie zu orchestrieren. Also eigentlich noch mehr Compute Power, noch mehr Aufwand, den Konsumenten möglichst faul zu halten. Weil der ist ja überfordert beim Modell auswählen. So, ich hab's jetzt gesagt, das böse Wort mit F. Weil die Konsumenten faul sind und gerne viel Arbeit abgenommen werden, hätten nicht denken wollen müssen.
Der E-Fuchs (Jochen G. Fuchs): sind wir übrigens beim Namen unseres Podcasts angekommen. Das LAIer 8 Problem der User oder das LAIer 9 Problem, die Organisation. Wobei es gab ganz früher war das LAIer 9 Problem war der God LAIer. Irgendwelche seltsamen... Genau, ja.
Barbara Lampl: Ja! Der User. Ja, aber zwischendurch ist definitiv die Org.
Der E-Fuchs (Jochen G. Fuchs): Das ist heikel. Ich habe mich auch gerade mit einem Kollegen darüber unterhalten. Man entwickelt einfach mit der Zeit als Nutzer ein Gefühl dafür, welches Problem ich an welches Modell ran tragen kann. Nur das muss man entwickeln. Man muss eine gewisse Kompetenz dazu entwickeln, das richtig einschätzen zu. kann man da irgendeine Handhabung mitgeben? Kann man da irgendwie versuchen, ein bisschen einzusortieren, als erste Hilfestellung quasi Autobahnschilder aufzustellen? Geht das?
Barbara Lampl: Ja und nein, also das Problem ist so ein bisschen und jetzt müssen wir so ein paar, also unser Podcast ist ja entstanden, weil wir zwei Seiten quasi zusammenbringen wollten. Deine Seite, die ja natürlich ein heavy User ist, guten Background hat, darüber schreibt als Journalist und meine Seite, die ja quasi als Praxis auch noch dafür verantwortlich ist, aus diesem Drama der 6 %-Full-Deployment-Nummer rauszukommen, dass wir die Sachen wirklich in eine echte Orchestrierung reinbekommen. Und da merkt man halt genau diese Herausforderung, weil der insbesondere Konsumenten will natürlich am Ende des Tages irgendwie mit einem Gefühl da dran gehen und wissen, was es ist. Das ist gut, wenn du das oft genug genutzt hast, dann hast du meistens ein Gefühl, aber das ist halt keine Evaluation, was du halt klassischerweise machst und das sage ich auch allen unseren Kunden, egal Prompting Workshops oder Full-Scale Projektierungen. Ihr braucht halt einfach ein paar Standardprompts, die du auf das Modell zuschmeißt und einfach mal guckst, was rauskommt. In einer echten Orchestrierung wird das standardmäßig verorchestriert, also es wirklich harte Testläufe und harte Evaluation. Welche Herausforderungen habe ich da? Weil es fängt ja schon an, promptest du in Deutsch, in Englisch, Französisch oder sonst irgendwas? Promptest du, möchtest du Herausforderungen haben, die im Code sind, im Text sind? Oder willst du irgendwelche Matheprobleme damit lösen oder willst du irgendwelche Paper damit schreiben? Und das ist diese ominöse Definition des Problems. Je nachdem, was dein Problem ist, zusammen mit deiner Sprache, zusammen mit wie viel Kontext gibst du mit hinzu, welcher Oberfläche arbeitest du, all das bestimmt am Ende das bis zum bestimmten Grad mit welches Modell und welche Art der Modelle eigentlich auch in Frage kommen. So, und jetzt kommen wir halt zu diesem Phänomen und das Phänomen kennen wir seit 1966. 1966 kam Eliza raus, der allererste Chatbot. Wenn es einfach ist, ist es einfach und dann wollen die Leute nicht drüber nachdenken, wie die Dinge zu benutzen sind. Diese Kritik gilt 59 Jahre später immer noch und das ist die große Herausforderung, wir haben. Deswegen kann ich deine Position voll nachvollziehen, der Anwenderinnen-Seite, Anwender-Seite zu sagen, ey, das nervt ohne Ende. Und der Profi sagt, es hat aber einen Grund und ich bin mir nicht sicher, ob einfacher machen an der Stelle euch jetzt wirklich hilft, weil ich werde aus der Nummer durch eine Schnittstelle ziemlich sicher rauskommen, weil ansonsten ... Ehrlicherweise, wir haben genügend Modelle, die alle ähnlich sind, dann verwenden wir halt nix von Anthrophic und nix von OpenAI, dann nehmen wir halt ein anderes Modell. Also was soll der Krampf? Also der Profi kommt aus der Nummer einmal raus. Der Anwender ist meine Wahrnehmung, dass der gerade nicht dümmer geschossen werden soll. Das ist nicht die Aussage, aber er soll immer noch fauler werden und wir wissen, was die Konsequenz aus Faulheit irgendwann ist.
Der E-Fuchs (Jochen G. Fuchs): Ja, also wenn ich jetzt zynisch wäre, würde ich sagen, das ist so die Basis des Wachstums der Tech-Industrie. Wir schaffen ständig irgendwelche Apps, Geschäftsmodelle, die auf der Faulheit der Menschen aufbauen. Sachen leichter machen, Sachen schneller erledigen. Da gehören auch Geschäftsmodelle dazu, an die ich nicht glaube, wie beispielsweise QuickCommerce. Keiner braucht eine Flasche Cola innerhalb von 15 Minuten nach Hause geliefert kriegen. Das ist... Im Moment nicht der Fall, aber das Problem ist, dass sich solche Geschäftsmodelle natürlich trotzdem durchsetzen können. In einigen Fällen haben sie es einfach auch.
Barbara Lampl: Genau, und das ist halt gerade, das ist halt eben in dieser sehr technischen Welt, wir, wenn wir ehrlich sind, das Grundverständnis bei den meisten Menschen einfach nicht vorhanden ist. Also das ist halt einfach, und das ist nicht böse gemeint, aber das war ja bis Ende 2022, also für die meisten sind ja in der Welt der AI Ende 2022 mit dem Release von JGBT gelandet. Dass es Leute gibt, die das teilweise davor schon 20 Jahre gemacht haben oder noch länger. Das war nicht in der Wahrnehmung. Das ist auch, wenn wir ehrlich sind, eins der komplexesten Felder. Es ist Mathe in Code. Es sind aus unterschiedlichen Perspektiven, wie das Ding zusammengebaut werden muss. Es ist nicht trivial. Wir ziehen, besonders wenn man sich die Releases von OpenA ein in den letzten Monaten anguckt, mein Schrei als diese depperte Memory-Function eingeführt worden ist und sonst irgendwas, und der Rest laut klatscht und du sagst, super, da merkt sich das doch jetzt. Du denkst, genau. Die memory, echte memory bei large language Funktionen, also echtes Gedächtnis, das ist eine Frontier, die wir noch nicht erreicht haben. Daran bauen wir hier alle und wir gucken, wer das hinbekommt. Und das, was ihr da bekommen habt, ist echter Schrott, weil es euch nur manipulativ faul macht, da... Die Idee, ich wurde böse. Also Shitstorms krieg ich auf LinkedIn nicht, aber ich muss mir schon einiges anhören, warum ich denn das so negativ sehen würde. Ja, weil nicht gut.
Der E-Fuchs (Jochen G. Fuchs): Mit was würdest du denn diese Memory Funktion, die sie uns da gegeben haben, vergleichen?
Barbara Lampl: Mit einer Filterblase, auf der wir sonst alle hart rumhacken. Also es ist halt diese Memory Funktion ist halt eine Filterblase, die injiziert in deinem Prompt ganz bestimmte Informationen, deinen Chatverlauf on track zu halten. Und während wir uns also quasi auf LinkedIn, Social Media und sonst irgendwas die Fingerbunt schreiben, dass wir doch alle hier unsere Blasen aufbrechen müssen, in den Dialog treten müssen, feiern wir es bei der Applikation ohne Ende und keiner denkt es zu Ende. Ja, aber da manipulierst du dich ja selber noch viel mehr und du merkst es ja noch nicht mal, weil du es toll findest. Aber das ist im Prinzip ist es eine Echo-Cup. noch dazu eine Echo-Kammer, die ich nicht weiß, wie sie genau quasi meine Memories da drin injiziert. Also wie viel nimmt sie denn jetzt mit, dass ich da mit dem die ganze Zeit Fotos von meinem Kühlschrank mache, mir beantworten zu lassen, was ich heute Abend koche.
Der E-Fuchs (Jochen G. Fuchs): Da könnte man jetzt den ungeliebten Begriff des stochastischen Papageis, der manchmal gerne kritisch, sarkastisch für LLMs verwendet wird, mit reinbringen und sagen, stell dir vor, du hast einen an Tourette leidenden Papagei auf deiner Schulter sitzen, der dir ständig in der Sprachausgabe deines Promts hineindiktiert. Willkürlich.
Barbara Lampl: Genau, genau. halt, genau, du hast ja quasi zusätzlich ständig jemand, quasi dafür sorgt, dass das, was du davor schon getan hast, garantiert weiterhin valide ist und weiter schön aufrechterhalten wird. Will ich das? Ich weiß nicht so genau. Das kann in einem einzelnen Projekt, deswegen sind ja Projects solche Sachen eine coole Nummer, weil innerhalb von einem Projekt willst du zum Beispiel vielleicht bestimmte Standardinformationen hinterleben, bestimmte Tonfall, Turn of Voice und sonst was. Da macht das alles Sinn. In einem Projekt, wir haben ja hier auch so ein lustiges Projekt für die Vorbereitung von unserem Podcast, klar, da macht das Sinn, da ist der Kontext gleich, die Sprache ist gleich, aber in meinem komplett klarerer Dutch? Das ist nicht zu Ende gedacht. Wie gesagt, aber es zahlt halt auf die Faulheit und diesen Hype ein, weil dann kannst du dir mit dem Ding diese ominöse Frage stellen, was weißt du denn alles über mich?
Der E-Fuchs (Jochen G. Fuchs): Ein einfaches Beispiel, was passiert, wenn man da an Grenzen gelangt ist, wenn ich innerhalb von meinem Projekt, also ... Wer es noch nicht kennt oder noch nicht ausprobiert hat, sowohl OpenAI als auch Claude haben eine sogenannte Projektfunktionalität. Bei dieser Projektfunktionalität gibt es zwei Sachen. Du kannst einmal einen generellen Prompt hinterlegen, indem du den Scope dieses Projektes definierst und sagst, was darin getan werden soll. Und dann gibt es das sogenannte Project Knowledge. Ich weiß gerade auswendig nicht mehr, wie es bei OpenAI heißt, gleich oder ähnlich, whatever.
Barbara Lampl: Glaub gleich!
Der E-Fuchs (Jochen G. Fuchs): Und da lädt man Kontext hoch. Also ich beispielsweise in meiner täglichen Arbeit, ich habe da verschiedene Redaktionsrichtlinien hochgeladen. habe ihm einmal sprachliche Vorgaben hochgeladen, wenn ich Texte produziere, damit er weiß, wie ist unser Tonfall, für welche Zielgruppe schreiben wir. Und dann kommen halt Redaktionsrichtlinien, die genau definieren, wie muss so ein Artikel aussehen, wie muss ein Linked-In-Post aussehen. Und wenn ich dann an meine eigenen Ideen reinkippe,
Barbara Lampl: Das macht total Sinn.
Der E-Fuchs (Jochen G. Fuchs): und dann anfange das so auszuarbeiten, dann will ich dem nicht jedes Mal im Prompt erklären müssen, wie so ein scheiß Artikel bei W &V aussieht oder wie ich mir den vorstelle. Das ist ein Standardraster, das es hinterlegt. Aber, weißt du was passiert, wenn man versucht dann gegen dieses selbst definierte Raster zu verstoßen?
Barbara Lampl: Mhm.
Der E-Fuchs (Jochen G. Fuchs): Ja dann macht das natürlich nicht. Ich habe neulich mit dem Bot der Bilder generiert, an dem ich gerade rum experimentiere, Bilder-CI-Richtlinien zu machen, diskutiert, weil ich eine Richtlinie angelegt hatte für eine Grafik im Paper-Cut-Stil. Das ist so wie wenn du Sachen mit Papier faltest und man abfotografierst und hab dann versucht ihn dazu zu bringen, ein Bild zu generieren, das nicht im Paper-Cut ist. Und ich bin gegen eine Mauer gelaufen. Das Ding hat mir immer wieder gesagt, sorry, du verstößt gegen die Redaktionsrichtlinien. Ich kann dir kein Bild generieren, das nicht im Papercut ist und das ging dann so weit. dass er selbst als ich diese Richtlinie überarbeitet habe, dann angefangen hat das zu verweigern, weil er, ich vermute mal, noch immer halb des Kontextfensters war und nicht mehr ausgebrochen ist aus dieser Linie. Selbst ein neues Eröffnen einer Konversation hat dann wieder dazu geführt, dass seltsame Dinge passiert sind. Erst aus dem Projekt raus, aus dem Scope raus, neue Konversationen starten, dann ging das auf einmal wieder. Und da weiß ich, Wenn ich das sehe, was ist passiert? Ich bin gegen meine eigene Guardrail gelaufen, in Anführungszeichen. Nur wenn du so ein Papagei da sitzen hast, der dir irgendwie so ein Zeug da reinspuckt, weiß ich ja nicht, was der tut. Was gibt der, mit was füttert der den Prompt an? In welche Richtung geht das? Warum kriege ich jetzt das zurück, was ich da kriege? Und unter Umständen bemerke ich es noch nicht mal, weil es ja nicht so eine deterministische Aufgabe ist, wo ich sofort sehe, er führt es falsch aus. Macht das Bild in Rot, er macht es in Grün, sehe ich ja sofort. geht nicht, aber bei so komplexeren Fragestellungen, wo ich in eine Echo-Kammer reinrufe und dann ruft es mir wieder raus, merke ich ja unter Umständen nicht, dass ich da einen Bias aufsitze oder einfach nicht die Möglichkeiten auslote.
Barbara Lampl: und Wie gesagt, selbst wenn du dir quasi diese Memory Funktion anguckst, du kannst die ja mal angucken, in den Tools ist die ja hinterlegt, weißt du aber trotzdem nicht, wie viel von was reinkommt. das ist halt so dieses, das fühlt sich gut an, da scheint das Leben leichter zu machen. Und sorry, der Profi sitzt da und kriegt graue Haare, schreit im Quadrat und sagt so, also wir hatten ganz konkret, jemand hat halt in kleineren Firmen, haben ja meistens eine Toolschlacht, die haben ja keine eigenen Architekturen, mal zu bediskutzt, wie sinnvoll das ist. Und es kam halt genauso. so Ding raus und dann landete das irgendwie, weil ich den Geschäftsführer kenne und ich sehe ja, keine Ahnung, komm mal mal einen Screenshare an und was war es? Natürlich war eine Memory Funktion an und dann konnte das nicht funktionieren. Wenn diese Memory Funktion da ständig querschießt, dann war klar, warum dieses Scheiß Ding nicht funktioniert hat. Das heißt, ich kann kein Troubleshooting und das ist ja das große Missverständnis. bauende seite die die foundation models baut die optimiert ja auf eine bestimmte performance hin während wir auf der praxis seite auf stabilität setzen müssen und diese zwei dinge haben im zweifelsfall erstmal nichts miteinander zu tun also hier diese performance seite was dann irgendwie diese modelle alles tun können aber noch dazu die meisten machen halt quasi auch diese performance im zweifelsfall selbst kaputt durch da sitzt dann wieder der mensch davor im rechner und tut irgendwelche dinge die es nicht tun soll oder nutzt irgendwelche funktionen die dagegen quasi stoßen.
Der E-Fuchs (Jochen G. Fuchs): also das noch kurz zu erwähnen für diejenigen die nicht aus dem IT Bereich sind und nicht so nerdig sind es gibt das OSI Referenzmodell das die Netzwerkkommunikation in unterschiedliche Schichten, also LAIer aufteilt und in der IT hat man irgendwann dieses Referenzmodell scherzhaft erweitert das letzte ist nämlich LAIer 7 und LAIer 8 war dann der Nutzer das Problem das vor dem Bildschirm sitzt und LAIer 9 dann das Gottlayer bzw. heute die Org, die Organisation. Also sprich lange Rede, kurzer Sinn, schaltet die Memoryfunktion einfach ab, wenn ihr wissen wollt, was eure LLM tut und ihr nicht im Zufallsmodus vor euch hinwurschteln wollt. Aber...
Barbara Lampl: Deswegen bin ich auch kein Freund der aktuellen Ansage der Hybridmodelle.
Der E-Fuchs (Jochen G. Fuchs): Okay, aber mal zurück zu diesem Problem-Data-Model-Match. Kann man irgendwas dazu sagen? Kann man irgendwie versuchen exemplarisch so ein bisschen einzusortieren, was mache ich eigentlich am besten mit was? Sodass man sich das so ein bisschen vorstellen kann und die Leute so ein bisschen in die Richtung schubsen kann, wo es hingehen soll.
Barbara Lampl: Relativ einfach. Also, erste Fragestellung, was will ich tun? Habe ich quasi ein sogenanntes Reasoning Thinking Problem, das heißt ein sehr abstraktes Problem, ich vielleicht auch gar nicht so genau weiß, wie quasi das Modell soll selber mal was zusammenstellen, was researchen, was wir quasi in der Folge 1, 2 davor, also die Folge davor hatten schon, dann nehme ich eins dieser sogenannten Reasoning Modelle und nutze auch die Promptarchitekturen dafür. Punkt. Das mal die Seite. Welches davon? Kupfig Sprungen. Ganz klare Ansage. Ehrlicherweise, keinstel Modelle funktioniert gut auf Deutsch zu prompten. Zurück zu, Reasoning Modelle sind wieder dominant auf Englisch zu prompten. Der Deutschmarkt macht Output kaputt. Also da fängt schon gleich der Herausforderung an. Die andere Seite sind klassische LLMs Anwendungen. Und auch hier die Frage, prompte ich auf Deutsch oder auf Englisch? Ist mein Output auf Deutsch oder Englisch? Also grundsätzlich ist es eine Sprachansage. Und auch so bisschen so eine Ansage Die schenken sich nicht mehr so viel. Ich bin eher ein großer Freund von Claude, 3,5 Sonne, für eigentlich fast alles, was ich tue in diesem Bereich, weil das grundsätzlich vom Training her und auch von den Trainingsdaten ein bisschen anders konstruiert ist. Es hat mehr wissenschaftliche PhD-Paper und sonst was drin, das wissen wir auch von Anthrophic. Und Anthrophic ist einfach auch ein ganzes Stückchen transparenter. Es erzählt ja auch mal unten dran, dass dein Chat jetzt gleich zu Ende wird oder zu lang wird oder sonst irgendwas. Es ist mehr, wenn man in diesen Consumer-Anwendungen geht, eher in dieser Variante. Ob May I, der 4.0 ist jetzt nicht so irgendwie der Traum meiner schlaflosen Nächte, muss man aber sagen, wenn man zum Beispiel auf Deutsch hat, hat Claude die Tendenz immer Bullet Points zu liefern, während 4.0 immer schöne Fleece Texte schreiben kann. Kann man lösen, indem man natürlich Prompting Skills hochschraubt und das ist glaube ich am Ende des Tages, ob ihr jetzt JetGPT 4.0 oder Claude 3.5... auf Niveau nutzen könnt, hängt davon ab, wie gut ihr prompten könnt, wie gut ihr quasi die Problembeschreibung hinbekommt und was ihr aus den Modellen rausholt.
Der E-Fuchs (Jochen G. Fuchs): zur Einordnung. 4.0 ist ein Reasoning. Es ist das normale Modell und quasi das Äquivalent dazu. Deswegen haben wir jetzt die beiden hier ist dann 3.5 und auch ein normales Modell. Wir sprechen jetzt noch über normale LLMs.
Barbara Lampl: Ne, 4.0 ist das normale Modell. Genau. ist Claude Sone 3.5, genau. Auch ein normales Modell. Genau, noch über normale LNMs. Wobei, auch da muss man ja sagen, immer mal wieder macht man seinen Chat auf und denkt sich, was tut es da jetzt? Wir hatten bei 3.5 so, kurzsässig sah das so bisschen aus, als hätten wir im Modell was geschraubt und hätten das Hybridmodell schon mal zum Testlauf geschickt. Jetzt läuft er wieder normal, man weiß es nicht so genau. Es ist ja nicht, dass wir jeden Modell Reimplementation immer eine Announcement bekommen, weil die Dinge einfach am Leben erhalten werden müssen. Es können auch normale Monitoring, Schrägstrich Maintenance Läufe sein und dann kann das Modell sich anders verhalten. Es gibt eine Plattform, das ist eine der wenigen Plattformen, die ich an der Stelle ganz sauber halte. Ja, Perplexity macht zwischenzeitlich einen besseren Job, aber wer quasi wirklich mal testlaufen lassen will, wie einprompt sich bei verschiedenen Modellen verhält, ist natürlich bei U.com ganz sauber aufgehoben, weil du da quasi diese unterschiedlichen Modelle mal durchtesten kannst. Sehr rough auch, dass der in UX indiziert wenig. dass das Modell manipuliert wird, das ist relativ sauber gebaut, das ist ganz schick. Achtung, wir auch eine Memory Function, wenn ihr da einen Pro Account habt, bitte ausmachen. Aber grundsätzlich sind die Large Language Modelle alle sehr, sehr nah dran und das ist wirklich eher ein, was will ich denn jetzt mit denen, Text können sie fast alle, Code ist ein bisschen unterschiedlich, da verhalten sich unterschiedlich. Aber zurück zu, im Prinzip musst du halt dein Problem und du musst dein Problem auf einer Meta-Ebene irgendwie abstrahieren können und dann kannst du dir entscheiden, auch in der Anwendung welches Modell es ist. In der Realität läuft es darauf hinaus, die meisten haben nur eine oder zwei Pro-Subscriptions und dann bist du da drin eh gefangen.
Der E-Fuchs (Jochen G. Fuchs): bei mir auch nicht anders. Aber noch mal eine Frage zu den Sprachen. Da ja der größte Teil der Trainingsdaten und auch des Reinforcements auf Englisch stattfindet und nicht auf Deutsch, hat man da natürlich einen Vorteil. Wie geht man denn damit Weil du hast es vorhin schon angedeutet, wenn ich auf Englisch prompte, gerade bei den Reasoning Modellen, versteht das Modell mich besser, ich drücke es jetzt mal mit meinen eigenen Worten aus, du korrigierst mich wenn ich es unscharf erkläre und liefert demnach dann auch ein besseres Ergebnis raus. Also ist es da zum Schluss dann besser erst mal auf Englisch zu arbeiten und wenn ich es dann auf Deutsch brauche, einfach die deutsche Übersetzung zu bitten, damit der Output, die die Daten erstmal in hoher Qualität da sind, ich sie dann einfach ins Deutsche übersetze und wie gehe ich dann vor, wenn ich es andersrum mache? Weil viele von uns sitzen ja, keine Ahnung, beispielsweise von einer Excel-Tabelle mit gefüllten deutschen Daten und du willst da irgendwas automatisieren, da muss ich ja erst hergehen und muss für den Prompt die Input-Daten vom Deutschen ins Englische übertragen. dann den Prompt zusammenbauen, dann den Prompt reinschicken, dann kriege ich das Englische zurück, dann muss ich das Englische zurück ins Deutsche übersetzen und vom Deutschen dann quasi wieder zurück in meine Excel-Tabelle eintragen. Sehe ich das jetzt richtig?
Barbara Lampl: Ja und Nein.
Der E-Fuchs (Jochen G. Fuchs): beruhigt mich.
Barbara Lampl: Die Struktur fängt einst früher an. Erstens sind die Trainingsdaten dominant Englisch. Haken dran. Der Punkt ist auch, dass alle Tokenfunktionen von allen Modellen auf Englisch optimiert sind. Die Tokenfunktion entscheidet also auch, wie effizient dein Prompt ins Modell einfließt. Und die ist halt auf Englisch optimiert. Das Deutsche braucht zwischen 1,6 und 2,7. Jetzt haben wir es teilweise schon 3,8-fache, weil das Deutsche teilweise so komplex ist, mehr Token. Das heißt, je nachdem, wenn du die Token-Funktion aufgrund deiner Anfrage optimiert kann es sein, dass du einen englischen Prompt bauen musst, mit englischem Kontext, weil du dann die Tokenfunktion optimierst und basierend auf den Trainingsdaten optimierst. Achtung, das gilt natürlich nur für komplexe Anwendungen. Das ist das Ja-In an der Stelle. Die meisten können nicht einschätzen, wie trivial ihre Aufgabe ist oder nicht. Bei trivialen Aufgaben brauchst du kein Prompt-Engineering betreiben. Laber mit dem Ding rein da Haken dran. bei nicht trivialen und anspruchsvollen Aufgaben ist mehr Aufwand notwendig. jetzt so eine Excel-Tabelle, wenn da deutsche Daten sind, was glaubst denn, was in diesem Prompt in der Tokenfunktion passiert, wenn du ihm deutsche Sachen gibst? Das arbeitet nicht auf Deutsch, weil das wird so und so übersetzt. deswegen sorry. Bearer of bad news.
Der E-Fuchs (Jochen G. Fuchs): Das ist es.
Barbara Lampl: Das ist eher so eine Herausforderung und deswegen was die meisten, sorry, wenn ich irgendwie manchmal so bisschen klinge, wie als wies eine kaputte Schaltplatte, hier kann man so viel falsch machen. Ich weiß, der Punkt ist halt einfach, also mir geht's am Ende des Tages darum, dass der Output wirklich gering in der Halluzination ist und hart an den Anforderungen ist, die ich reingegeben sind. Diese Anforderungen an besser und gut hat nicht jeder da draußen. Aber das ist im Prinzip, weswegen ich mir Gedanken machen muss, wie die Dinge ausschauen und das fast mal schnell aufzumachen, wenn ihr über Agents diskutiert, dann noch viel mehr. weil dann hängt alles an euren Promzen, euren Promzkonstruktionen. Aber das ist halt genau der punkt ich muss halt wissen trainings daten sind dominant englisch token funktion ist aufs englische optimiert Wenn ich eine sehr komplexe herausforderung habe zum beispiel im reasoning muss ich in englisch gehen und ja ich würde den output dann auf deutsch übersetzen Bin ich jetzt in der klassischen llm welt und da sind die dinge einfach verdammt gut geworden ich kann mich daran erinnern was das für eine brute force war im drei ist an drei ja mal ganz abgesehen mamma mia habe ich gekotzt das ging nur auf englisch da mussten wir danach Übersetzung schleifen laufen also mit gpt 2 und 3 war konstant nur englisch möglich, alles andere war schlimmer als jede chinesisch-deutsch integrierte schwedische Bedienungsanleitung. Und im 3.5. wurde es besser und du konntest quasi mit bestimmten Mirroring-Effekten und sonst was ihnen da schon zu bringen. Im 4. ist es dann final, dass es endlich auch sauberes Deutsch konnte außerhalb der Konstruktion Finanzamt Köln Nord. Zwischenseitig sind die da sehr sehr gut geworden auch wirklich sauberen Output zu generieren, aber ihr müsst euch immer daran denken, wenn ihr deutsch Texte erzeugt, müsst ihr teilweise eure Prompting Skills massiv nach oben schrauben, weil, kleines Beispiel, dass der dominant englische Trainingsdatentokenfunktion das Englische optimiert, führt dazu, dass der euch zum Beispiel meistens US-amerikanische Bilder und Metaphern liefert. Das heißt, Beispiel ihr möchtet irgendwas über Mittelstand haben, dann wird da im Zweifelsfall ein Beispiel drin sein, was Amerikanischen, die übrigens auch viel Mittelstand haben, aber natürlich hat der amerikanische Mittelstand andere Wortmalereien, Bildereien und Herausforderungen als der deutsche Mittelstand. Das heißt, ich muss in einen deutschen Prompt, zum Beispiel geilen Text auf Deutsch zu produzieren, sehr viel mehr Kontext mitliefern, weil das nicht standardmäßig quasi als Hauptinformation im Modell zur Verfügung steht. Und das muss ich halt wissen. Und deswegen ist es eine Jein Antwort, weil... Brauche ich was quick and dirty? Scheiß drauf, einfach tun. Will ich damit saubere, produktive Workflows haben, muss ich einfach mehr durchdenken, was ich davon haben will. Hilft das so ein bisschen?
Der E-Fuchs (Jochen G. Fuchs): Ja, ich denke schon. Also bei mir selber habe ich festgestellt, dass manche Sachen ich mit eigenem Text einfüge. Also wenn ich irgendwelche Bilder oder ähnliches, dann konstruiere ich Artikelgerüste und pack die Bilder mit rein, weil sowas ist mir auch schon aufgefallen, dass das dann eben angelsächsisch rauskommt.
Barbara Lampl: Genau, deswegen, das musst du reinprompten, das ist aber auch machbar, wie gesagt, aber du musst es halt wirklich hochprompten und die meisten sind an der Stelle gar nicht, dass sie das überhaupt auf dem Schirm haben, dass das dann Metaphern, Lautmalereien oder Beispiele sind, die nicht dem deutschen Sprachraum entsprechen. Das ist in allen Sprachen so, das muss dann rein und hochgepromptet werden.
Der E-Fuchs (Jochen G. Fuchs): Okay, das ist auch der Grund dafür, es so Initiativen wie dieses EU-LLM gibt, wo man sagt, wir wollen LLMs auf unsere Sprachen, in unserem Sprachraum optimieren, anscheinend.
Barbara Lampl: Genau, das ist unter anderem einer der Gründe. beziehungsweise ja auch es gibt mehr Initiativen auch wie gesagt das Zeug ist dominant Englisch wir reden die ganze Zeit nur dominant Englisch die Befürchtung ist natürlich auch das Sprachen verloren gehen oder weniger genutzt werden und deswegen gibt es da auch eben andere Initiativen auch für Dialekte für Sprachen eben mehr Schritt eins mehr Daten zu sammeln eben in solche Sachen auch stärker würdest du ein LLM pur auf deutschen Daten und wir reden jetzt wirklich pur deutsche Daten hat es natürlich automatisch dann weiß es schneller wie Faust im Vers 3 klingt so ungefähr also wenn das in dem großen war ist und der Faust da im Zweifelsfall vom armen Goethe in Englisch hinterlegt das anstatt in Deutsch. Das ist genau einer der Gründe warum die Idee von eigenen LLMs auf Sprachen sehr wohl noch immer sinnvoll ist, obwohl sie eigentlich per se keinen unternehmerischen Erstmode haben, also das LLM an sich nicht, aber in der Anwendung können sie dann eben halt einen riesen Unterschied machen, dass du halt bestimmte Herausforderungen nicht hast oder Sachen stabiler laufen.
Der E-Fuchs (Jochen G. Fuchs): Okay, was mir zum Problem Data Model Match noch einfällt ist diese Mini Modelle. Es gibt ja noch diese Miniaturausgaben von dem ganzen. Da muss ich für mich persönlich gestehen, ich hab die noch nie angeklickt. Das fühlt sich immer so an, als würdest du einen Turbo fahren und den Turbo ständig draußen lassen. Und ich hab ehrlich gesagt noch nicht so ganz verstanden, ob es noch einen Vorteil neben den Kosten gibt. der für jemanden, der in so einem Chatbot-Interface sitzt, überhaupt keine Rolle spielen. Nur wenn du eine API hast und du kriegst das Ding halt billiger generiert als sonst, dann spielt's eine Rolle, oder?
Barbara Lampl: Ich ignoriere die. Genau, also das ist halt genau das, wo ich auch dabei bin. Diese ganzen Mini-Dinger, da könnt ihr ausprobieren, sonst was, aber bei euch wird es drauf hinaus laufen. Klassisches LLM oder Reasoning-Modell, haken dran, mehr Entscheidung braucht ihr nicht. Die Mini-Versions sind schlicht und einfach auf den A-Piece und zurück zum Problem-Data-Model-Match. Die Regel ist immer einfache Probleme, einfache Mathe, deswegen sollte man vielleicht auch nicht auf alles an LLM schmeißen, aber mal ganz abgesehen davon. Ich will natürlich Kosten und Probleme optimieren und wenn ich nur eine schnelle, kleine Anfrage habe. Warum soll ich 3 Euro zahlen, wenn ich 30 Cent dafür zahlen kann? Das ist genau die dahinter und macht es da jetzt unbedingt Sinn, dass es in den Chat Applications auch alle dahinterlegt sind. Keine Ahnung, ich habe die da drin auch außer zum Testen noch nie benutzt. Laufen die auf den APIs? Ja, natürlich, aber das ist halt genauso dieses... viel dieser Anwendungen sind halt teilweise ja für den Konsumenten und die Konsumentin gebaut. aber irgendwie gleichzeitig halt auch nicht. Und dann fehlt halt teilweise auch viel Wissen auf der B2C Seite, das jetzt mal so zu formulieren. Und dann sorgt das dafür so ein Chaos. Habt ihr eine kleine, dreckige Anfrage, auch noch schnell durchlaufen soll? Ja, könnt ihr auch den Mini hernehmen. Vielleicht auch aus ökologisch gutem Gewissen, die halt, wenn sie weniger kosten, verbrauchen sie auch weniger Energie. Das ist halt einfach mal so eine Aussage. Und dass man natürlich sieht, wie schlagkräftig diese kleinen Modelle geworden sind, weil viele Sachen willst du halt raus aus den großen Modellen rein, in die kleine Modelle reinziehen. Insbesondere wenn dein Problem-Data-Model-Match stabil ist und du halt eine lokale Lösung oder sowas bauen willst, dann ist dir egal, wie Benchmarks, Zeug irgendwie in der Theorie kann, wenn das Hauptsache es löst ein Problem. Und da kommen diese aber wie gesagt für die Endanwenderinnen, habe ich glaube ich jetzt auch noch nicht gesehen, dass irgendwie ein Mini irgendwie Sinn macht.
Der E-Fuchs (Jochen G. Fuchs): Okay, jetzt hast du schon das Wort Benchmark verwendet, das behalten wir jetzt noch mal ganz kurz im Hinterkopf, weil das wäre jetzt gleich meine nächste Frage. Mir ist gerade noch was eingefallen, wo wir vielleicht noch zwei Sätze zu sagen können und zwar LLM on Edge, sprich wenn du spezielle Modelle baust, die direkt auf Geräten ausgeführt werden sollen. Also bei Apple sieht man sowas ja anscheinend bei Apple Intelligence im Einsatz, die manche Sachen auf dem Gerät ausführen. Was ist das? Was passiert da? Und wie sinnvoll ist das?
Barbara Lampl: Definitiv, definitiv. Das ist einer der wichtigsten Schritte, dass du einfach sagst, die nächste Generation muss klein und performant werden und es muss halt zum Problem-Data-Model-Match passen.
Der E-Fuchs (Jochen G. Fuchs): Ok, also dass du quasi das Modell auf das Gerät passt und das so anpasst, dass es eben zu dem Anwendungszweck im Gerät passt.
Barbara Lampl: Genau, das hat einen schicken Namen bekommen, das nennt sich Edge AI. Und das macht auf jeden Fall Sinn, weil du dann lokale Instanzen hast. Bei lokalen Instanzen, der Punkt ist, du musst nicht nur das Modell, sondern musst ja auch noch die Vektor-Datenbank da irgendwie draufballern, sonst haut das alles nicht so ganz hin, brauchst beides. Aber das sind sehr, coole Anwendungen, weil du dann natürlich in der Theorie alles auf deinem lustigen Telefon hast. Wenn das gerade nicht mit dem Internet verbunden ist, dann ist es natürlich lokal gesichert könnte. Also für den einen oder anderen Anwendungskreis stellt euch vor, ihr habt ein lokal laufendes Edge AI Anwendung. und seit in einem Meeting möchte eine Transkription machen. Wenn ich das lokal laufen lasse, macht das keinen großen Unterschied, ob ich das lokal auf meinem Telefon aufnehme oder handschriftlich mitnotiere, weil ich eine ähnliche Datenschutzkonstruktion bauen kann. Deswegen ist es nicht unspannend. Oder auch LLMs eben in Anwendung von Robotern, sonst irgendwas, wenn die so klein ist in dem Fall bedeutet auch, dass ich sie auf kleine Chips packen kann. Das heißt, ich kann natürlich quasi auch von der wirklichen Hardware-Architektur andere Sachen bauen, als dass ich da weiß Gott noch irgendwie unser armer Roboter noch 15 Batterien mitschleppen muss, damit das komische LLM da drin läuft. Also das sind natürlich, das sind die nächsten Entwicklungsstufen einfach mehr, ob wir jetzt überall eins einbauen sollten, to be discussed, aber natürlich liegt da drin ein bestimmter Charme, bestimmte Schönheit, sowohl unter Datenschutz, Ethik, als auch unter Energienutzung, die Modelle kompakt und kleiner zu bekommen und deswegen ist dieser Problem-Data-Model-Match so eine Relevanz.
Der E-Fuchs (Jochen G. Fuchs): Okay, Eindruck hatte ich nämlich auch ein bisschen. In einer der kommenden Folgen werden wir auch so ein bisschen über KI und gesellschaftliche Implikationen sprechen. Haben wir uns schon Feste vorgenommen und das Thema Energie ist natürlich ein riesen Ding, weil alle kloppen im Moment gefühlt mit riesigen Kanonen auf das Thema drauf. Es muss immer mehr Energie her, muss immer größere Datencenter her und wenn dann irgendwie die Handys auch noch anfangen jeden Scheiß in die Cloud zu ballern und über eine auf einer LLM, das ist so energiehungrig, wenn das auf dem Gerät gemacht wird, spart man sicher zumindest diesen Schritt und hat demnach auch ein bisschen was für die Zukunft unseres Planeten getan.
Barbara Lampl: Yes. Es macht sich der Ressourcentechnik definitiv bewusst aussehen, dass diese Entwicklungsschufe kommt.
Der E-Fuchs (Jochen G. Fuchs): Okay, das ist doch mal schön, das tut mal gut, mal was positives zu hören in diese Richtung. Aber wenn wir schon darüber sprechen, was Modelle auf solchen Geräten leisten können, können wir uns doch gleich darüber unterhalten, was die Modelle überhaupt leisten können. Und da stoßen wir ja immer wieder auf diese Benchmarking-Diskussion. Also jeder haut uns seine Benchmarks die Ohren und sagt, hier guck mal, was ich da tolles... tolles erreicht habe mit meinem modell ich habe in humanities ich sag immer last resort das ist das ist der zifal fantasy autor in mir der gleich ins apokalyptische übergehen will humanities last ist vorbei das ding heißt bei mir humanities last resort und wird es bis zum ende heißen ja was
Barbara Lampl: Last exam, humanities last exam. Ja, last resort. Es hat ähnlich was. Ist okay, können wir mitarbeiten.
Der E-Fuchs (Jochen G. Fuchs): Was geht da ab? Wie sortiert man das ein?
Barbara Lampl: Also grundsätzlich schlagen da auch immer zwei Herzen in meiner Brust. Die eine Seite, ich denke so, ey, was für ein Bullshit mit diesen Benchmarks. Und dann natürlich so eine Researcher-Seite, die sehr wohl weiß, dass das natürlich eine Relevanz hat, wo du sagst einfach, hey, auf Benchmarks hin zu optimieren, und jetzt kommen wir gleich, wir optimieren halt da allen Ernstes drauf hin, ist natürlich wichtig, irgendwie eine einigermaßen vergleichbare Performance von Sachen, die ja komplette Blackbox-Geschichten sind. Und das ist auch so ein bisschen ... Die LLMs mit all ihrer Schönheit sind natürlich Blackbox-Algorithmen. heißt, auch wir wissen nicht so genau, was da drin auf einmal passiert. Deswegen erfinden wir ja ständig lustige neue Namen wie GROCKING. Und weil zwei Erkennungssysteme haben, auf einmal Ausgaben produziert. Was tut es denn da jetzt? Huch, wir brauchen einen neuen Begriff. Also das sind so Geschichten, die sind wichtig. Jetzt muss man aber auch wissen, dass diese Benchmarks seit an Beginn ihrer Zeit nicht angepasst worden sind. Der lustige Gag, ich habe vorhin schon mal Eliza erwähnt, 1966 kam Eliza raus. Das war der erste Chatbot, regelbasiert, aber ein psychologischer Chatbot und der wurde dann den Studenten, dem Psychologiestudenten zur Verfügung gestellt und die mussten danach einschätzen, haben sie jetzt mit einem Menschen oder einer Maschine geredet. Das war der allererste Touring-Test.
Der E-Fuchs (Jochen G. Fuchs): Touringtest.
Barbara Lampl: So, Eliza hat den Touring-Test gleich mal bestanden, weil die Studenten gar nicht auf die Idee kamen, dass sie mit einer Maschine gesprochen haben, worauf man gemeint hat, okay, also der Touring-Test ist vielleicht noch Schrott formuliert, wir brauchen einen neuen Touring-Test-Benchmark. Und das ist auch legitim. Und was wir gerade natürlich sehen und deswegen ist die Benchmark immer so eine hochgezogene Augenbraue, weswegen wir sicherlich eher in die Chatbot-Arenas reingucken, wo dann quasi Nutzer, auch Heavy-Nutzerinnen und Profis bewerten, wie gut diese Modelle zu ihren Problemen und ihren Anfragen passen. Weil in Realität optimierst du natürlich dein Modell-Output und entteilen auch damit deine komplette Konstruktion auf bestimmte Benchmarks. das dass du Trainingsdaten verwendest, die besonders mattelastig sind. Das große Ding, ja durch die Presse ging, ja auch das OpenAI. Ein Foundation-Sponsor ist hinter den harten Matheproblemen und damit Daten bekommen hat, die Mathe-Benchmark zu optimieren. Das ist nicht unbedingt, ich würde nicht unbedingt sagen, das ist Cheaten oder sonst irgendwas, das ist jetzt auch nicht kein harter Betrug oder sonst was, sondern das ist immer schon so gewesen, weil du willst natürlich wissen, du nimmst die Daten und testest ja einfach dagegen. Das ist jetzt kein großes Betrügen. Was Marketing dann daraus macht, ist die andere Hausnummer, dass diese Benchmarks auf Benchmarks optimiert wird, dass wir neue Benchmarks ständig brauchen, weil wir sie davor einfach noch nicht hatten. ich meine, mit einem Modell aus den 90ern musste ich nicht ausprobieren zu coden. Also dass ich deswegen keine Coding Benchmarks hatte, ist nachvollziehbar. Aber auf der anderen Seite, wie gesagt, dann kommt eine dicke LAIer Marketing und Sales oben drüber und ganz viel Snake Oil. Aber grundsätzlich ist Optimieren auf Benchmarks gehört zum Handwerkszeug. die Modelle auch irgendwo in eine Vergleichbarkeit zu schießen. Der wichtigere Punkt sind die Chatbot Arena Rankings und am Ende des Tages hilft nichts. In einer echt professionellen Anwendung muss ich den ominösen Problem-Data-Model-Match irgendwie nachvollziehbar durchtesten, rechnen, wie auch immer ihr das nennen wollt. Und das ist auch okay, aber es gibt eine gute Idee.
Der E-Fuchs (Jochen G. Fuchs): die Chatbot Arena Rankings, wo findet man denn die? Suchen wir einfach nach dem Betriff.
Barbara Lampl: Den wir sehen, entschleunert es unten rein. ist im Prinzip auf verschiedenen Hacking-Faces, hat einen Direktplattring, das heißt wirklich Chatbot Arena LLMs und da siehst du diese Rankings und da kann auch jeder sich beteiligen quasi und mit sagen, wie gut die Modelle oder schlecht die Modelle sind. Wir schicken euch einen Link unten drunter. Das ist auf jeden Fall definitiv die Arena-Rankings, sind auf jeden Fall näher dran als eine klassische Benchmark-Konstruktion.
Der E-Fuchs (Jochen G. Fuchs): ist doch mal ein schöner Ich ziehe das Paper der Woche mal vor, bevor wir zur Überleitung zur nächsten Folge gehen, weil das passt jetzt gerade damit rein. Das Paper heißt Pre-Training on the Test Set is all you need. Wer den Witz nicht verstanden hat, es gibt dieses Paper Attention is all you need, was quasi die Grundlage der modernen LLMs gelegt hat, würde ich jetzt mal so sagen, dieser Attention-Mechanismus.
Barbara Lampl: Ja.
Der E-Fuchs (Jochen G. Fuchs): auch mal irgendwann aufgreifen in einer anderen folge von rylan schaeffler von stanford sale ja lieber rylan ich habe es beim ersten mal gelesen habe 30 sekunden lang geglaubt was du geschrieben hast dann habe ich noch mal unten dran geguckt dann gesehen das ist ein satirisches paper aber er hat schon irgendwie einen punkt
Barbara Lampl: Völlig, das ist genau das, was in dem Paper wird gerade aufgegriffen, was quasi ich gerade gesagt habe. Würdest du jetzt quasi, lass uns sagen, ein paar Researcher kommen zusammen und machen eine Wochenende in Hackathon, vielleicht auch eine gesamte Woche mit ordentlich Compute Power und möchten einen, Zweifelsfall nur auf einer einzigen Benchmark, aber ein Outperforming Modell auf einer Benchmark machen, dann würden wir es genauso tun, wie es dem Paper steht. Wir würden uns Trainingsdatensätze fragen, sonst irgendwas, wir würden genau alles so zusammenstellen, dass wir die eine Benchmark reißen. Yo! das und Outperforming, das ist völlig legitim. gesagt, zurück zu, das ist natürlich ein bestimmter Grad des Handwerkers. Und was natürlich passiert ist, und dieses Paper ist ja vielleicht für die meisten ganz spannend, das ist im September 23 rausgekommen. Das ist also weit bevor wir in die 24er völlige Bullshit-Bingo der Begrifflichkeiten von AGI und sonst irgendwas eingestiegen sind, mal wieder. Das ist ein Running Gag unter Profis nach dem Motto, was hast du hier optimiert? Das kann genau. Wir haben dafür Begriff, das nennt sich Overfitting. Also das ist nichts Neues. Diese Benchmarks fallen alle in diese Sachen und das müssen wir teilweise auch tun. Also stellt euch vor, ihr wollt also wir nehmen jetzt mal was, was hoffentlich die Deutsche Bahn demnächst wieder sauber hinbekommt. Ihr wollt voraus, wir haben, wir drücken uns die Daumen und zwar die Voraussage, wann kommt denn jetzt der Zug? Das passt ganz gut. Die KVB an diesem Tag, wo wir heute quasi diesen Podcast auch in einem Streiktime wieder in Köln. Und hat eine großartige Werbekampagne übrigens gestartet. Wir sind echt demokratisch, wir kommen für alle zu spät. Finde ich toll. Ich liebe die KVB in Köln. sagen wir mal, möchten zum Beispiel ein Prediction Algorithmus dafür bauen, wie stabil unsere Züge sind, dann kann es gut sein, dass ich den hart nur auf dieses eine Ding der KVB trainiere, dass die nur KVB voraussagen kann, damit massiv overfitted, massiv auf eine Benchmark optimiere und dann kann das halt von mir aus die Berliner Verkehrsbetriebe nicht benutzen. Das ist Nummer
Der E-Fuchs (Jochen G. Fuchs): ist legitim, das ist ja der Anwendungsfall.
Barbara Lampl: Genau, das ist völlig normal für uns, weil wir eine bestimmte Performance, eine Modelloptimization fahren müssen. Jetzt kommt Marketing und jetzt macht das daraus irgendwas. Das ist das, wo wir alle regelmäßig da sitzen und denken, okay, gut, ist jetzt nett, aber ich glaube, wir sollten noch mal eine Testchen Tee trinken und mal uns angucken, ob diese Benchmark jetzt wirklich relevant ist. dazu zum Beispiel. Croc 3 hat dann auch nicht alle Benchmarks veröffentlicht, sondern diese, wo sie scheinbar nicht so gut sind, hat unser guter Freund ... Recht der Armproblematik, Maske, nichts dazu gesagt. Wo ich überdenke, ja, also... Aber noch mal, handwerklich ist das sauber, das ist normal. Was dann daraus gemacht wird, ist eine andere Seite. Aber so viel muss man... Deswegen ist die Benchmark-Diskussion hilarious, lustig, macht keinen Sinn, außer in Projekten, wo sie wirklich relevant sein müssen.
Der E-Fuchs (Jochen G. Fuchs): Ja,
Barbara Lampl: Komm, wir sind fast am Ende, die letzten paar Sachen schaffen wir noch. Nein!
Der E-Fuchs (Jochen G. Fuchs): Es gibt noch andere Sachen als ein LLM, habe ich gehört.
Barbara Lampl: bin ich da qualifiziert für? Also meinst ich kann da was zu sagen?
Der E-Fuchs (Jochen G. Fuchs): Weiß ich nicht, erzähl mir nicht, ich muss mir jetzt einen neuen Podcast auswählen.
Barbara Lampl: Ich glaube, ich schaff's grad noch. Ich glaube, hatte ein Leben vor den LLMs, das auch schon data-lastig war. Da war was.
Der E-Fuchs (Jochen G. Fuchs): Stimmt, da haben wir doch was erzählt beim letzten Mal. war doch was. wollen wir kurz in ein bis zwei Sätzen den Horizont noch aufreißen, bevor wir gehen, damit alle neugierig werden. Also Deep Learning, Machine Learning, unterschiedliche Varianten von Machine Learning.
Barbara Lampl: Da war doch was. Ja, mach mal den Horizont auf, ich ergänze ihn. Genau, also im Prinzip machen wir die Front einmal auf. Was gibt es da draußen eigentlich sonst noch? Gen.ai ist eine super kleine Untergruppe von dem, Teil des sogenannten Deep Learnings. Wir haben innerhalb des Deep Learnings, wenn wir eine LAIer drüber gucken, sind das klassische neuronale Netze. Mehr oder minder hidden layers landen wir beim Deep Learning. Und wir haben drei große Kategorien, das Maschinen Learning, supervised, unsupervised und reinforcement. Und bei das reinforcement Learning, ja jetzt mit dem Deep Seek Paper, Quasi ein leichtes Revival. Achtung, 2024 haben alle den Abgesang auf das Reinforcement Learning gesungen. Das war bisschen lustig. Warum betrauen wir jetzt das Reinforcement Learning? Ich glaube, wir brauchen es noch ein paar Mal. Machen wir euch so ein bisschen so einen Einblick in die, da gibt es auch eine sehr lustige legendäre Grafik. glaube, einer meiner meist reichweitenstärksten Posts auf LinkedIn ist diese Nerdy-Grafik, wo ich diese vier Dinge ineinander geballert habe. bisschen in Einblick, was gibt es eigentlich außerhalb und warum. Insbesondere wenn irgendjemand den Begriff KI-Strategie in den Mund nimmt, sollte man wissen, was der Rest ist, weil sonst macht das aus keinen Sinn und deswegen gucken wir uns ein paar dieser Begrifflichkeiten und Ideen in der nächsten Folge an.
Der E-Fuchs (Jochen G. Fuchs): So machen wir das. Dann sind wir jetzt bei den aktuellen News angefangen, da du schon das böse Wort Deepseek in den Mund genommen hast. Die machen gerade was. Die machen eine Open Source Week.
Barbara Lampl: Ja. Ja, sie fahren einen weiteren Frontaleangriff auf die properitären Modelle der USA. Wir verraten euch also nichts und machen eine komplette Open Source Week. Startet, das ist ein gut, da war jetzt Day Zero, heute der Announcement-Post am Freitag. Ich habe keine Ahnung, was jetzt genau losgeht, aber sie wollen alles veröffentlichen, Libraries, Code, Data, woran sie unter dem Aspekt von AGI arbeiten. Ich würde sagen, das ist auf jeden Fall spannend, was da die Ecke kommt. geopolitisch auch. deswegen sieht spannend aus. sind alle so ein bisschen, also die Nerds sind alle ganz aufgeregt. Das sind wir sonst immer nur, wenn Nvidia neue Chips rausbringt. Aber jetzt sind wir ganz aufgeregt, was Deepseek da veröffentlicht und wo wir vielleicht unsere fettigen Finger dran bekommen. Also deswegen, wir sind sehr gespannt.
Der E-Fuchs (Jochen G. Fuchs): Ja, die hatten kürzlich auch wieder irgendwas spannendes veröffentlicht im Paper.
Barbara Lampl: Paper. Genau. Sie hatten in ihren Papern davor, im DeepSeek V3 und im R1, sie eine Wunschliste quasi formuliert an die Chip-Hersteller, was sie eigentlich cool fänden würden, weiter zu optimieren, welche Chip-Architekturen und was sie da so gerne hätten. Und darauf haben sie weiter aufgesetzt und haben jetzt noch mal eine stärkere quasi Architektur- Softwareoptimierung auf Hardware geschrieben. Spannendes Paper, voll Nerdtum, aber ganz spannend dieses Spiel eben zwischen Hardware und Software zu stehen und eben noch mal zu zeigen, der großen Unterschiede momentan zwischen China und USA Entwicklung ist. USA geht weiter mit brute force, mehr Scale hilft mehr und China, egal wie eingeschränkt sie sind, sie sind in Teilen auf jeden Fall eingeschränkt, was die Rechenleistung angeht, geht eben diesen handwerklichen Optimierungsschritt. Wir haben letztes Mal schon gesagt, zusammen macht es am meisten Sinn. Aber da sieht man nochmal gut, wie sowas in der Zukunft ausgucken könnte. Zurück passend eben zu unserer ganzen Edge AI, die Sachen werden wieder kleiner. Das sind nächste Entwicklungssteppe. Die Sachen gehen immer Hand in Hand Handware und Software.
Der E-Fuchs (Jochen G. Fuchs): Ja, es war handwerklich noch nie die sinnvollste Lösung, nur mit Brute Force-Attacken auf irgendwas hochzugehen. Wird's nicht bleiben. Ja, vorletzte News. Der Google AI Co-Scientist wurde gelauncht. What the fuck, was ist denn das jetzt? Hat das was mit Deep Research zu tun?
Barbara Lampl: Nein, war's noch nie und genau. Richtig! Ja, hat was mit Deep Research zu tun, hat aber eine zusätzliche, also wirklich interessante Implementierung. zwar jetzt eine wirklich, wir hatten letztes Mal erklärt, dass wir, stand unseres Wissen in den Research-Geschichten, keine Agent-Konstruktionen drin sind. Jetzt rate mal, was Google am 19. Februar publik gemacht hat. Nämlich genau einen Coscientist. Und das geht's wirklich darum, wissenschaftliche Durchbrüche mit der Hilfe von Gen.ai und einem Multi- Agent-System durchzubrechen. Also die nennen das wirklich ein AI-Coscientist-Multi-Agent-System. Also wo du dann Research Plan Configuration drin hast, einen Reflection Agent, einen Evolution Agent, wir linken euch das Ding unten, dann könnt ihr mal in das Übersichtspaper reinschauen. Superspannend, hot press. Es wurde aber sehr gut angenommen, also die scientific-wissenschaftliche Crowd hat sehr positiv drauf reagiert und wir dürfen ja nicht vergessen, keine Wunder, dass das aus der Feder von Google kommt, denn DeepMind hat ja diesen Hintergrund aus der Genforschung und der Molekularbiologie. Und darauf bauen sie jetzt rund 20 Jahre, weil es sind glaube ich jetzt fast 20 Jahre, 15 Jahre später wieder drauf auf. Sieht auf jeden Fall echt spannend aus. hier, Mutti muss mal gucken, wie sie ihre fettigen Finger da reinbekommt und das ausprobieren kann. Aber ich frage mich wann, also irgendwie hat mein Tag auch noch 24 Stunden, das geht echt so nicht weiter.
Der E-Fuchs (Jochen G. Fuchs): schon das Stichwort für unser Ende. Wir schauen auf unsere letzte News im Thema Robotik tut sich was. Wenn ihr euch noch an Figur und ich glaube Figur One haben sie das Ding genannt erinnert, die hatten mal eine Kooperation mit OpenAI und haben dann mal gezeigt wie der auf dem Tisch einfache Anweisungen befolgt und Zeug in Geschirr-Rack eingeräumt hat und irgendwie ein Apfel gereicht hat, es kurz zusammenzufassen. Und jetzt haben sie zwei dieser Figurroboter mit Helix ausgestattet, einem Vision Action Language Modell, das sie selbst entwickelt haben, also sind weg von OpenAI, die Kooperation scheint beendet, soweit ich das verstanden habe. Und haben gezeigt, wie diese beiden Roboter in Kooperation
Barbara Lampl: haben sie zumindest announced, dass sie damit nicht mehr spielen wollen.
Der E-Fuchs (Jochen G. Fuchs): selbstständig quasi erkennen, was die Aufgabe ist und sie mehr oder weniger gemeinsam ausführen. Als Journalist bin ich immer vorsichtig bei sowas, vor allen Dingen nachdem man bei Tesla bei dieser Präsentationsshow mit ihrem Selbstfahrenden Modell und ihren ferngesteuerten Robotern gelernt hat, dass man sowas mit Vorsicht betrachten muss, habe ich es doch sehr fasziniert betrachtet. Ich glaube das Thema Robotik wird zu Unrecht noch ein bisschen stiefmütterlich behandelt und ist unter Umständen vielleicht sogar noch spannender als Gen-AI.
Barbara Lampl: Definitiv, also ich sehe ja diese Sachen immer nie so limitierend. Das was du sagst, Computer Vision Action Model ist natürlich die nächste Frontier. Du musst dir ja mal vorstellen, wir sitzen da und denken uns Robotik geil, aber das Ding versteht keine komplexen Aufgaben, das kann die Aufgaben nicht anpassen. Das ist die Herausforderung in der Robotik gewesen. heißt, musste regelbasiert, ansonsten das will ja nicht mit der Wahrscheinlichkeitsabrechnung, willst du nicht dein Auto bauen lassen. Das heißt, du warst in dieser Regelnummer wahnsinnig reglementiert. die Herausforderung war, wie gesagt, Wie kann denn der Roboter jetzt irgendwie meine komplexen Wuseligen hier mein Wortsalat verstehen, daraus was Sinnvolles machen und das eventuell mit einem anderen Roboter auch in Kooperation reinbekommen. Und jetzt kommt das Gen-AI, LLM, Agent Structures natürlich ins Spiel, dass das Ganze nicht nur auf unseren Rechnern und wir die Roboter ausführen oder komplett im Hintergrund sind, sondern dass wir das natürlich auch in etwas, was dann noch agiert, also wirklich agiert, visuell agiert und der Roboterarm dann nach vorne greift. Das war eine Frontier, an der gearbeitet worden ist und die jetzt halt möglich geworden ist und das ist halt genauso dieses das ist nicht gegen Gen.ai, es setzt halt genau darauf auf die Grenzen von dem wo wir vorher stuck waren weiter zu treiben, weil die Computer Vision Sachen waren super gut aber Computer Vision to Action und insbesondere in so einer außerhalb einer iterativen Konstruktion waren halt nicht trivial zu leisten dann war die Hardware Pro also du rennst ja in diesen Feldern immer wieder in Grenzen und dann wartest du drauf ob jemand anderes vielleicht was macht und dann hast du da was neu und dann baust du was Neues ein. Und deswegen sollte man diese Sachen einfach nicht so separat voneinander trennen und denken, weil die die hebeln sich alle sehr akut momentan krass miteinander hoch.
Der E-Fuchs (Jochen G. Fuchs): Ja klar, mit den Modellen selber tun sich wieder neue Anwendungsfälle auf. Und die Grenzen, die viele nicht wissen, die sieht man auch im Alltag, wenn man sich diese selbstfahrenden Autos anschaut. Die haben nämlich alle menschliche Command-Centers hinten dran. Wissen nicht viele, auch wenn es mal bei der New York Times und bei anderen in der Berichterstattung drin war. Da sitzen Menschen hinten dran, die jedes Mal, die Computer Vision nicht mehr weiter weiß, Straßenverkehr eingreifen müssen und müssen dann beispielsweise über ein schwer einzusehendes Hindernis hinweg helfen und zeichnen dann quasi am Rechner eine Route ein, der das Auto dann folgen soll und übergeben dann wieder zurück an diesen sogenannten Autopiloten. Also dieses Versprechen quasi, diesen vollautonomen Autopiloten, der uns gefahrlos durch den Straßenverkehr führt, ohne uns und anderen Schaden zuzufügen, das hatten wir bisher eigentlich noch nicht.
Barbara Lampl: Da sind wir einfach noch nicht. Punkt. Da sind wir halt einfach noch nicht. Und es ist ja eigentlich auch lieber besser, da ist noch jemand, sonst haben wir wieder Todesopfer durch Safe-Driving-Cars, hatten wir ja auch schon, wollen wir ja nicht. Aber das ist halt genau der Punkt. haben halt, Human Intelligence ist immer noch ein harter Teil der Artificial Intelligence, aber dazu vielleicht mehr in einer anderen Folge.
Der E-Fuchs (Jochen G. Fuchs): Human in the Loop, den brauchen wir. Und ich glaube es ist ganz gut, dass wir ihn brauchen, dass wir ihn auch zukünftig brauchen werden. Das ist das Schlusswort von LAIer 8 und 9. Wir freuen uns auf euch, wenn ihr beim nächsten Mal wieder mit dabei seid und wir den großen Ausblick geben, was es sonst noch so im Bereich KI gibt.
Barbara Lampl: Yep. Ja, wir gucken auf jeden Fall in die anderen lustigen Sachen rein, die vielleicht weniger buzzwordlastig sind, aber vielleicht mit dem ein oder anderen Buzzword man vielleicht, ich bin jetzt gemein, nichts dazu sagen sollte, wenn man sie nicht kennt. Mutti war wieder böse.
Der E-Fuchs (Jochen G. Fuchs): Und mit diesem Schlusswort, live long and prosper. See you
Barbara Lampl: See you
Neuer Kommentar