Shiny Object Syndrome: Warum dein Lieblingsmodell dich gerade arm macht

Shownotes

KI-Kosten explodieren? Opus 4.7 zerstört deine Workflows? GPT 5.5 braucht neue Prompts? DeepSeek attackiert mit Spottpreisen? Barbara und Jochen packen aus: Warum die meisten User mit Shiny Object Syndrome die Faulheit der Modelle teuer bezahlen — und wie echte KI-Profis ihre Kosten halbieren. Plus: Warum DeepSeeks Attention-Mechanismus eleganter ist als alles, was die Amis gebaut haben, und was das bedeutet, wenn China bald auf Huawei trainiert. Und ja, Babsis Geheimnis ist gelüftet: Sie arbeitet nicht ineffizient — ihr Modell-Matching ist einfach handwerklich sauber.

In dieser Episode besprochen

Kapitelübersicht

[00:01:15] Shiny Object Syndrome: Warum KI-Kosten explodieren
[00:06:48] Modell-Matching: Von klein nach groß skalieren
[00:09:50] Claude Opus 4.7: Was sich wirklich geändert hat
[00:15:25] Task Budgets und Adaptive Thinking
[00:17:50] Problem-Data-Model-Match: Das Grundprinzip
[00:26:25] GPT 5.5: Neues Modell, neuer Prompting Guide
[00:31:45] Modell-Matrix: Wann welches Modell?
[00:37:35] DeepSeek V4: Open Source, Huawei-Chips, Spottpreise
[00:42:55] DeepSeeks Attention-Kompression: Long Context gelöst
[00:53:50] Gemini unterschätzt — Multi-Model sinnvoll?
[00:56:25] Enterprise: Evaluations-Plattformen und KI in Prod

Wichtige Konzepte

Shiny Object Syndrome: Der reflexartige Griff zum größten Modell — verbrennt Token und Geld.
Problem-Data-Model-Match: Das Problem muss zu deinen Daten und zum Modell passen.
Task Budgets (Opus 4.7): Token-Limit pro Task — neu im Opus 4.7, oft übersehen.
Adaptive Thinking: Neuer Thinking Mode im Opus 4.7, drastisch anders als 4.6.
Attention-Kompression (DeepSeek): Alte Information komprimiert, neue priorisiert — macht Long Context praktikabler.

Tools & Ressourcen

🥳 Danke, dass du LAIer 8|9 eingeschaltet hast! Möge die KI mit dir sein!

Schreib uns eine Bewertung mit dem KI-Modell deiner Wahl und abonniere uns auf deiner Lieblingsplattform, wir sind überall, es gibt kein entrinnen!

Unsere Hosts

AI Babsi (Barbara Lampl)
Website | LinkedIn

E-Fuchs (Jochen G. Fuchs)
Website | LinkedIn

Unser Podcast Blog

laier89.de

LAIer 8|9 wird nicht Layer 89 oder Layer 8|9 geschrieben, auch nicht Layer 8 9. Aber wir sind cool und wir sind tough, deshalb gibt's hier Keyword-Stuff.

01001100 01110101 01101011 01100101 00101100 00100000 01001001 01100011 01101000 00100000 01100010 01101001 01101110 00100000 01100100 01100101 01101001 01101110 00100000 01001011 01001001 00101101 01010000 01101111 01100100 01100011 01100001 01110011 01110100 00100000 01001100 01000001 01001001 01100101 01110010 00100000 00111000 01111100 00111001 00101110

Transkript anzeigen

00:00:00: [E-Fuchs] So, hallo und herzlich willkommen zu einer neuen Folge deines KI-Lieblingspodcasts, LAIer 8|9. Hallo Barbara.

00:00:09: [Barbara Lampl] Hallo Jochen.

00:00:10: [E-Fuchs] Da sind wir wieder, und es ist wahnsinnig viel passiert.

00:00:13: [Barbara Lampl] Ja.

00:00:14: [E-Fuchs] Die Zahnfee war bei uns.

00:00:15: [Barbara Lampl] Die Zahnfee war bei euch? Okay. Hä?

00:00:19: [E-Fuchs] Ja, nee, darüber möchte ich natürlich nicht mit dir weiter sprechen, auch wenn ich das immer wieder faszinierend finde. Im letzten Jahr habe ich übrigens

00:00:30: unseren Weihnachtswichtel KI-betrieben gemacht, weil ich beim ständigen abendlichen Briefe-an-die-Kinder-Zurückschreiben den Überblick verloren habe —

00:00:37: was habe ich überhaupt schon erzählt, was hat der Wichtel alles in seiner Personality, bevor ich alles durcheinander bringe.

00:00:46: [E-Fuchs] Habe ich das in ein KI-Projekt überführt. Aber lass uns vom Zahnfee und Weihnachtswichtel zu anderen Wichteln kommen — den Wichteln in den KI-Laboren.

00:01:01: Da hat sich jede Menge getan. Ich bin hauptsächlich auf Claude. Mir ist natürlich Opus 4.7 gleich über den Weg gelaufen.

00:01:15: [E-Fuchs] Was mich im Moment so ein bisschen umtreibt, ist das Thema Kosten. Das ist ein bisschen schwer für mich einzuschätzen, weil ich mehr mache. Dementsprechend

00:01:21: kostet es natürlich auch mehr. Aber er arbeitet auch mehr, er verbraucht mehr Token, und es kostet mehr — wie kann das denn sein? Trotzdem habe ich irgendwie

00:01:28: das Gefühl, dass ich schneller in den Seilen hänge, was die Limits angeht, als es früher der Fall war.

00:01:34: [E-Fuchs] Und nicht nur mit dem neuen 4.7, sondern auch beim alten. Ich musste jetzt Max auf 200 Dollar upgraden, damit ich noch vernünftig arbeiten kann. Ich habe

00:01:44: gesehen, bei Claude haben sie so Schätzungen, die sie in den Docs veröffentlichen. Da sagen sie: „Pass auf, am Entwicklertag kostet euch Claude

00:01:53: bei durchschnittlicher Anwendung 6 Dollar." Stand irgendwie Anfang des Monats noch drin, jetzt stehen gerade 13 US-Dollar drin.

00:02:00: [E-Fuchs] Und man fragt sich natürlich, wenn diese ab... wenn die abgefahren werden — was nutze ich denn jetzt? Was hat sich verändert, und was machen die Brüder bei

00:02:12: diesen Updates eigentlich genau? Weil es geht ja nicht mehr nur darum, jetzt das bessere Modell zu machen und besser zu trainieren, sondern die leben ja alle in

00:02:24: Hochlastszenarien. Egal, ob es jetzt OpenAI ist oder Anthropic, was auch immer.

00:02:30: [E-Fuchs] Ich vermute, und viele andere auf Reddit vermuten es auch, dass da viel an Performance getweakt wird, und das eine oder andere, was früher mal ganz gut

00:02:39: funktioniert hat, jetzt ein bisschen schlechter funktioniert, weil es mehr Token frisst. I don't know. Klär uns doch mal auf.

00:02:46: [Barbara Lampl] Das sind viele Fragen und Erkenntnisse. Womit fangen wir an?

00:02:50: [E-Fuchs] Vielleicht fangen wir mal mit einem Überblick über die Neuerungen in letzter Zeit an, oder? Was ist gerade frisch rausgekommen?

00:02:57: [Barbara Lampl] Okay, ich würde ein bisschen woanders anfangen. Ich glaube, das macht mehr Sinn. Du hast genau das erzählt, was mir momentan alle erzählen: Ich laufe ständig in

00:03:04: meine Limits rein, ich muss meinen Account erhöhen. Ich habe doch mal mit 20 Dollar angefangen, dann habe ich mehr getan, dann brauchte ich den

00:03:12: 100-Dollar-Account, und jetzt bin ich im Limit meines 200-Dollar-Accounts. Ich kann da nicht ganz so relaten.

00:03:17: [E-Fuchs] Du arbeitest zu wenig.

00:03:18: [Barbara Lampl] Wer weiß, vielleicht ist es das. Jetzt ist es raus: Liebe Zuhörergemeinde, Barbara sei eine faule Socke und arbeite gar nicht den ganzen Tag. Ich laufe

00:03:24: trotzdem irgendwie. Vielleicht ist diese These falsch und ich laufe trotzdem nicht die ganze Zeit in Tokenlimits rein. Was ist denn hier los?

00:03:31: [E-Fuchs] Sie arbeitet einfach nur... genau. Verrate uns dein Geheimnis, Barbara.

00:03:36: [Barbara Lampl] Okay, ich verrate euch mein Geheimnis. Ich habe kein Shiny Object Syndrome. Das Shiny Object Syndrome ist schlicht und einfach, dass du, egal in welchem Tool du

00:03:46: arbeitest, das Neueste und immer das scheinbar größte und beste Modell verwenden musst.

00:03:52: [Barbara Lampl] Wenn ich mir Logs ziehe von den Anwendungen unserer Kunden — wo ich übrigens nicht sehe, was geprompted wird, was manchmal ein bisschen nervig ist, weil

00:04:02: meine Analyse natürlich doof ist, wenn ich nicht sehe, was geprompted wird — sehr wohl aber, welche Modelle benutzt worden sind, Anzahl der Input-Token,

00:04:12: Anzahl der Output-Token, ob Reasoning-Tokens für diese Aufgaben benutzt worden sind. Und ab und an kann ich das eine oder andere Gespräch im Nachgang führen:

00:04:22: Was war denn diese Aufgabe, die wir da gestern gemacht haben, die so viel Token gekostet hat?

00:04:30: [Barbara Lampl] Dann sehe ich definitiv das Shiny Object Syndrome. Insbesondere, wenn du die Wahl hast, ein Modell auszusuchen, dann hast du definitiv Shiny Object Syndrome.

00:04:40: Wenn du das neueste Modell hast, das wird immer am meisten Token fressen — besonders in den Accounts, wo du nicht hardcore tokenbasiert abgerechnet bist.

00:04:50: Also alles da, wo ihr 20, 100, 200 Dollar quasi Prepaid-Abo habt, bist du nicht ganz so tokenbasiert wie zum Beispiel im Enterprise-Account, wo du eine Fee für

00:05:02: deinen Sitzplatz hast. Du kaufst dir einen Sitz, und dann werden die Tokens noch zusätzlich abgerechnet. Da hast du auch kein wirkliches Limit, außer die Firma

00:05:13: gibt eins vor.

00:05:15: [Barbara Lampl] Bei diesen Analysen sehe ich immer wieder, und auch wenn wir kleine Vergleiche machen — wie arbeitet die Frau Lampl und wie arbeitet der Rest — dann hat das

00:05:26: damit zu tun, dass ich sehr spezifisch bin, welches Modell ich für was einsetze, wie ich meine Modelle einsetze, welchen Kontext ich verwende, welche Prompts ich

00:05:36: verwende, welche Art des Promptens. Und jetzt sind wir an einem Punkt, wo Shiny Object und mittelmäßig gut dich massiv mehr kostet.

00:05:45: [Barbara Lampl] Die Kosten steigen. Handwerklich sauber gemacht können die Kosten auch steigen, aber damit steigt die Qualität des Outputs und der Output an sich. Das steht

00:05:53: völlig in Relation und nicht in einem „Die Kosten schießen nach oben". Die 6 Dollar am Tag sind jetzt 13 Dollar — das ist ein Preisanstieg. Die Frage ist:

00:06:04: Wenn ich dafür auch wirklich massiv mehr bekomme, wenn eine Codebase 130 Dollar wert ist, dann wäre das relativ egal. Wenn dem nicht so ist, dann habe ich ein

00:06:14: Problem.

00:06:15: [Barbara Lampl] Und wir sind jetzt angesichts der drei großen neuen Modellreleases, die wirklich relevant und interessant sind, an dem Punkt, dass wir sehr viel stärker sehen —

00:06:25: und das wird sich auch in den Bilanzen der Firmen relativ zeitnah niederschlagen: Haben Sie Ihre Hausaufgaben gemacht und wissen Ihre

00:06:33: Mitarbeitenden, was Sie da tun? Oder nutzen die Mitarbeitenden einfach Shiny Object — immer das größte, scheinbar beste Modell für ihre Aufgabe — und brennen

00:06:43: damit Token-Kosten nach oben durch und zünden das Unternehmen an? Definitiv.

00:06:48: [E-Fuchs] Muss man da voll auf die KI-Kompetenz der Mitarbeiter vertrauen, oder gibt es manchmal auch Wege, einfach Modellnutzung vorzugeben? Das habe ich nämlich

00:06:57: persönlich noch gar nicht probiert. Ich überlege gerade — beispielsweise, ein Skill, der eine API-Anbindung als Python-Script enthält und ziemlich spezifische

00:07:07: Anweisungen dazu, wie die Daten zu übertragen sind. Hier muss ich ja nicht mit Opus durchschießen.

00:07:14: [Barbara Lampl] Das kleinste Modell ist Haiku. Das ist genau das. Zum Beispiel in Claude Enterprise oder fast allen Tools kannst du ein Default-Modell voreinstellen.

00:07:21: Dann ist das, was hinterlegt ist. Die Default-Modelle sollten eigentlich immer das kleinste Modell sein. Damit erhöht sich schon mal der Aufwand zu ändern,

00:07:29: beziehungsweise es triggert zumindest schon mal — sowohl bei dir selber als auch bei den Mitarbeitern. Wenn der immer auf dem größten Modell läuft, sollte das

00:07:38: Default-Modell das kleinste sein.

00:07:40: [E-Fuchs] Okay, das heißt, man skaliert von unten hoch. Ich versuche den Task erst mal mit dem kleinsten verfügbaren Modell zu tackeln, wenn das Ergebnis zufriedenstellend

00:07:53: ist. Nein?

00:07:55: [Barbara Lampl] In einem Phasenmodell. Und jetzt kommt es darauf an: Wo ist der Grad der Maturity bei deiner Nutzung? Beim ersten Lauf könntest du erst mal das größte

00:08:04: Modell anwenden, um zu gucken, ob das Ergebnis überhaupt irgendwas liefert. Wenn du gar keine Ahnung hast, würdest du in den ersten Läufen quasi im

00:08:14: Prototyping-POC-Style das Modell größer machen. Das nennen wir „überwerfen" — wir nehmen das größtmögliche Modell, um herauszufinden, ob wir die Aufgabe

00:08:21: überhaupt lösen können. Wir gehen also voll auf Performance.

00:08:25: [Barbara Lampl] Nachdem wir herausgefunden haben, dass die Performance delivert, schrauben wir den Grad immer weiter nach unten und versuchen, auf das kleinstmögliche Modell

00:08:33: zu gehen, weil wir damit auch definitiv mehr Kontrolle haben.

00:08:38: [Barbara Lampl] In Schulungsprogrammen ist es wieder andersrum. In allen unseren Schulungsprogrammen versuchen wir, so weit wie möglich immer auf

00:08:44: kleinstmöglichen Modellen zu trainieren, um das Skillset der Mitarbeitenden wirklich auch echte Skills zu bringen — die dann auf der menschlichen Seite

00:08:53: liegen und nicht auf der technischen, auf der Maschine. Sodass die Maschine weniger deine Defizite ausgleichen kann.

00:09:00: [Barbara Lampl] Aber wenn du wirklich ein Workflow nageln willst, dann nimmst du am Anfang erst mal groß, um es Stück zurückzuschrauben. Sonst ist die Gefahr, dass du eine

00:09:08: Aufgabe hast, die das Modell vielleicht wirklich noch nicht packt, und dann bist du ganz frustriert und denkst, das kann die KI nicht. Dabei war es wirklich nur

00:09:17: ein zu kleines Modell. Deswegen ist es beim ersten Lauf von groß zu klein. Und in Schulungen muss es von kleinstmöglich zu groß sein.

00:09:25: [Barbara Lampl] Auch weil man dann lernt, dass der Mensch einschätzen muss, was eine wirklich komplexe Aufgabe aus Sicht der KI ist. Das ist auch nicht immer ganz so einfach,

00:09:33: und das ist keine Fähigkeit, die klassischerweise Non-Techies mitbringen und einschätzen können — was komplex für die KI ist. Selbst hier müssen wir mal ganz

00:09:41: klar ausprobieren: Ist das jetzt eine komplexe Aufgabe, oder ist das total trivial? Da hat man natürlich über die Jahre eine Lernkurve, aber es würde so

00:09:49: rum funktionieren.

00:09:50: [E-Fuchs] Worüber ich mir so immer Gedanken mache, ist: Wenn man Skills baut — macht man sie sehr detailliert und sehr umfangreich, oder überlässt man dem Modell mehr

00:10:00: Spielraum? Da grübele ich so ein bisschen rum. Was mir aufgefallen ist: Wenn ich sorgfältig ausformulierte Skills habe, da würde eigentlich Haiku oder Sonnet...

00:10:10: Ich muss ehrlich sagen, ich bin gar nicht so viel auf Haiku unterwegs gewesen. Ich glaube, ich muss echt mal ausprobieren, ob die da auch noch laufen. Für mich

00:10:21: war das untere Ende beim täglichen Arbeiten immer Sonnet.

00:10:25: [E-Fuchs] Worauf wollte ich hinaus? Ach so, ja: Wenn ich jetzt hergehe, einen sorgfältig ausformulierten Skill habe und Opus 4.7 draufschmeiße, dann macht das Ding

00:10:35: manchmal komische Sachen. Es fängt quasi an zu denken und findet irgendeinen anderen Weg besser oder sympathischer als das, was ich vorgegeben habe — und

00:10:45: produziert mir dann tatsächlich Probleme im Workflow. Weil der Workflow eigentlich sauber läuft und auf irgendwas ausgerichtet ist, dann auf einmal

00:10:54: driftet.

00:10:55: [Barbara Lampl] Ja. Das haben sie aber auch beim Release vom Opus 4.7 gesagt. Dadurch, dass der Opus 4.7 jetzt anders ist — der hat eine andere Tokenization drin, hat ein

00:11:09: anderes sogenanntes Adaptive Thinking. Diese Veränderungen im Opus 4.7 sind relativ drastisch zum 4.6 in der Claude-Familie.

00:11:18: [Barbara Lampl] Der Effekt ist, dass für Aufgaben, die sehr stark auf Vorgaben basieren, also instruction-based, und die auch noch lastig sind in der Reihenfolge, in der sie

00:11:30: abgearbeitet werden, der Opus 4.7 dazu kreative Eigenleistung beisteuert. Insbesondere, wenn es keine Code-Aufgabe ist. Der Opus 4.7 ist sehr viel mehr

00:11:40: „Hier, das brauche ich, find deinen Weg selber dahin".

00:11:45: [Barbara Lampl] Und das ist auch genau das, warum dieses Gefühl entsteht — und auch realistisch ist —, dass du mehr Kosten hast oder die Preise nach oben gehen. Weil wenn das

00:11:55: Modell den kompletten Weg selber rausfindet, also eine Multiagent-Structure selber aufspinnt, den eigenen Weg sucht, dann braucht es natürlich tief mehr

00:12:03: Token, insbesondere die Reasoning- oder Thinking-Token, die nochmal teurer sind und mehr Rechenleistung ziehen.

00:12:08: [Barbara Lampl] Damit hast du genau diesen Effekt: Du hast Sachen — und das ist genau das, was du beschreibst. Opus 4.7 ist nicht sonderlich gut darin, sich brav an die

00:12:20: Vorgaben zu halten. Das, was im Opus 4.5 oder 4.6 sauber funktioniert hat — dass es sich an die Vorgaben hält —, bricht im 4.7. Das hat aber mit der geänderten

00:12:33: Modellarchitektur zu tun.

00:12:35: [E-Fuchs] Okay. Das habe ich auch schon festgestellt. Wenn ich, keine Ahnung, ein Konzept oder Prototypen entwickle, eine sehr ausführliche Dokumentation, und ich

00:12:43: schmeiße das dann in Sonnet rein und lasse ihn was bauen, dann macht er das relativ der Doku nach, dem Konzept nach. Wenn ich das in Opus reinwerfe, weil

00:12:54: ich denke, naja, vielleicht findet er ja noch coole andere Ideen, die ich in meinem Konzept nicht drin hatte, dann kommen halt auch echt brutale Abweichungen

00:13:03: stellenweise dabei raus.

00:13:05: [Barbara Lampl] Ja, weil Claude — das haben sie insbesondere auf der API eingeführt. Wenn ihr in die Claude-API-Docs reinguckt: Zu jedem Modell gibt es eine System Card. Wer

00:13:14: sich da wirklich tief einarbeiten will, guckt euch bitte mal die System Cards an. Die Dokumentation über die API gibt eigentlich den besten Einblick. Weil in

00:13:24: Claude Code und auch in Claude CoWork arbeitet ihr sehr viel stärker auf einer API.

00:13:30: [Barbara Lampl] In den Chatbot-Anwendungen haben wir normalerweise das komplette — wir nennen das sogenannte Harnesses, also das, was außenrum gebaut ist. Das Tooling herum,

00:13:39: Systemprompt und so weiter, ist in der Chatbot-Anwendung am härtesten. Im CoWork schon weniger, im Code noch weniger, bis du dann eben auf der blanken API

00:13:50: daneben stehst. Deswegen ist die blanke API auch immer noch ganz spannend.

00:13:55: [Barbara Lampl] Sie haben in einem Opus-4.7-Release Task Budget als Beta-Version eingegeben. Das ist, dass du für bestimmte Aufgaben quasi eine Schätzung abgibst, wie viel Token

00:14:05: der Agent für das Abarbeiten dieses Tasks verwenden darf — ein sogenanntes Task Budget. Das soll das Modell limitieren. Und jetzt, wenn ich das wenigstens

00:14:15: erzähle, gucke ich in fragende Gesichter, weil scheinbar keiner die API-Doku durchgelesen hat. So, „Lampl, was sind diese Task Budgets?" Ja, also das ist

00:14:25: genau das. Task Budget ist mit dem Opus-4.7-Release eingeführt worden.

00:14:30: [Barbara Lampl] Das gibt eine Idee, egal, ob ihr das jetzt nutzt oder nicht, dass das ziemlich aus dem Ruder laufen kann. Aber grundsätzlich: Der Opus ist einfach wirklich

00:14:42: anders von der Architektur, anders vom Aufbau. Es gibt zum Beispiel auch kein sogenanntes Extended Thinking mehr im Opus 4.6, sondern es ist jetzt das

00:14:53: sogenannte Adaptive Thinking an. Sie haben beim Opus-4.7-Release relativ hart rumgebaut.

00:14:58: [Barbara Lampl] Das steht aber jetzt im Release-Note nicht drin, insbesondere nicht in der Marketing-Presse-Abteilung. Sondern da: zurück zum glänzenden, schönen Objekt.

00:15:08: Guck mal, ein neues, tolles Modell. Die Umbauten haben sie aus mehreren Gründen getan, weil das Modell besonders bei komplexen Code-Aufgaben wahnsinnig

00:15:19: performant ist — weil es aus einer Anforderungsspezifikation gekommen ist.

00:15:25: [Barbara Lampl] Und jetzt ist was total Witziges passiert. Es gibt ja immer Benchmarking. Bisher war es immer so, dass alle Anthropic-Releases im eigenen Modell-Tooling, also im

00:15:34: eigenen Harness, am besten funktioniert haben. Beim Opus 4.7 merkst du, dass Claude Code überhaupt nicht für den Opus 4.7 optimiert ist, sondern der läuft in

00:15:43: anderen Umgebungen besser als im eigenen Tooling. Auch ein bisschen lustig — wer mit Claude Code arbeitet, denkt sich: Geil, was habt ihr euch denn dabei

00:15:53: gedacht? Im Zweifelsfall nichts.

00:15:55: [Barbara Lampl] Man hat sich dabei schon was gedacht, weil man die anderen Modelle wissend eigentlich die sind, die alle verwenden. Das heißt, die Umgebung ist für die

00:16:05: optimiert. Der 4.7er ist so anders, dass er da nicht reinpasst. Deswegen läuft er in anderem Tooling produktiver, mehr Ergebnisse. Aber Claude Code delivert es

00:16:15: nicht. Heitere Lustigkeiten aus der KI-Welt. Manche vergessen immer: Wir sind eine ganz schöne Nerd-Community. Ihr seid Teil meiner Nerd-Community geworden.

00:16:24: Das sind die Sachen, die wir uns normalerweise angucken, bevor wir irgendwelche Sachen tun.

00:16:30: [Barbara Lampl] Hier einfach mal so der kleine Einblick hinter die Kulissen — und warum der Opus 4.7 zu diesem Effekt wird: Boah, der brennt mir die Token weg. Ja, er ist massiv

00:16:44: anders aufgebaut, hat ganz andere Thinking-Qualitäten im Inneren. Und die Frage, die ich am Anfang mir stellen muss: Warum brauche ich jetzt das Riesenmodell für

00:16:55: meine Pups-Aufgabe? Das sollte ich vielleicht davor noch mal überlegen.

00:17:00: [E-Fuchs] Okay. Und auch wenn ich jetzt denke, ich hätte hier eine riesengroße, komplizierte, komplexe Coding-Aufgabe — ist es besser, mit Opus 4.7 zu

00:17:09: konzipieren und danach in Claude Code auf 4.6 zur Ausführung zu gehen? Weil du jetzt so betont hast, dass...

00:17:18: [Barbara Lampl] Im Zweifelsfall, ja. Ein ganz klassischer Splitter ist Plan versus Execute — das ist immer eine ganz gute Empfehlung. Und auch da: Es gibt halt nicht — ihr kennt

00:17:29: den Spruch von mir schon, wenn ihr schon ein paar Folgen gehört habt, ansonsten hüpft auch mal ein paar Folgen retour, da hört ihr mich folgenden Satz schon

00:17:39: 15.000 Mal sagen: Wir haben in der Data Science das, was wir Problem-Data-Model-Match nennen. Das heißt, das Problem muss zu den Daten und

00:17:48: zum Modell passen.

00:17:50: [Barbara Lampl] Das vergessen die Leute immer ein bisschen, dass es so etwas in euren Chatbots gibt. Das Problem — also das, was du lösen möchtest, übersetzt im Prompt — muss

00:18:00: zu deinen Daten, deinem Kontext passen, und muss dann kombiniert werden, ob das Modell zu diesen beiden Sachen wirklich passt. Das kannst du teilweise einfach

00:18:08: nicht trivial beantworten.

00:18:10: [Barbara Lampl] Ich sage grundsätzlich immer: Je größer das Modell, desto differenzierter wird im Zweifelsfall dein Kontext sein — also zum Beispiel multiple Kontextquellen,

00:18:17: die sich eventuell auch widersprechen. Sprichst du davon, und davon hast du mehrere, sprichst du eher für ein größeres Modell. Wenn du wirklich Dinge hast,

00:18:25: wo du denkst, das ist jetzt für mich schon wahnsinnig komplex zum Durchdenken — wird also auch schwierig sein, dass dir ein Large Language Model folgt. Aber wir

00:18:34: sind halt auch manchmal ein bisschen arrogant und denken, dass wir ein komplexes Problem haben, weil wir nicht wissen, dass jemand anders sich das gar nicht so

00:18:42: komplex ansieht. Da sind wir alle schuldig.

00:18:45: [Barbara Lampl] Aber das führt dazu, warum du dann in Limits, in falsche Anwendungen reinläufst — weil das echt aufwendig ist. Dieses blöde Gehirn will eingesetzt werden.

00:18:56: Völliger Unsinn, also wirklich, ich sag's euch.

00:19:00: [E-Fuchs] Was hat sich noch was verändert beim Opus 4.7, was wir wissen sollten, bevor wir über GPT 5.5 sprechen?

00:19:08: [Barbara Lampl] Definitiv: Wie gesagt, der Tokenizer ist anders. Es gab ein paar Verhaltensveränderungen. Es folgt jetzt Instructions sehr, sehr wörtlich. Tut

00:19:18: es. Es tut es dann aber auch wirklich sehr, sehr wörtlich, was normalerweise der Effekt war. Und das ist genau das, was du beschreibst.

00:19:30: [Barbara Lampl] Du nimmst den Opus 4.7 für — in deiner Welt — eine komplexe Aufgabe. Aus der Welt der KI ist es aber das, was wir „lower effort levels" nennen. Eigentlich

00:19:41: ist es weniger aufwendig aus Sicht des Modells. Und dann fängt das an. Ich kann mich selber beschreiben wie so ein kleiner Autist: Wirklich auf jedes Wort

00:19:51: wirklich sehr ernst zu nehmen, Sarkasmus, Ironie und Metadenken aus.

00:19:55: [Barbara Lampl] Warum ist es so drastisch? Weil wir uns sehr daran gewöhnt haben, dass die Modelle unsere spezifisch unspezifischen Aufgaben generalisiert haben, ohne dass

00:20:04: wir das mitbekommen haben. Und dann die Aufgabe nah dran erfüllt haben — als wir das gemacht haben, weil wir das nie reingemacht haben. Das heißt, dein Prompt,

00:20:15: wenn der zu viele Mini-Fehlstellen hat, dann dreht das durch.

00:20:20: [Barbara Lampl] Davor war das nicht so aufgefallen. Aber bei der neuen Klasse, wo du sie eigentlich designt hast für komplexe Aufgaben, wo das super relevant ist, hast

00:20:29: du nicht mehr diesen harten Effekt, den du mit anderen Modellen — zum Beispiel Opus 4.6 — hast, wo das deine Schlamperei, um es jetzt mal so auszudrücken,

00:20:39: ausgeglichen hat.

00:20:40: [Barbara Lampl] Da steht übrigens — ich kann es euch vorlesen, wir verlinken wie immer in den Show Notes unten. Da steht: „More literal instruction following, particularly at

00:20:51: lower effort levels. The model will not silently generalize an instruction from one item to another and will not infer requests you didn't make." Das steht

00:21:02: explizit in der API-Dokumentation drin. Also kann jetzt keiner sagen: Surprise, surprise.

00:21:08: [Barbara Lampl] Sie haben auch diese wahnsinnige Verbosity ausgeglichen. Das heißt, es gibt jetzt quasi eine Input-Output-Korrelation. Dein Input — ihr merkt schon, es

00:21:16: dreht sich alles um ein Thema: Wie komplex ist die Aufgabe? Denn wenn das Modell denkt, die Aufgabe ist sehr komplex, wird es jetzt länger antworten. Denkt das

00:21:26: Modell, die Aufgabe ist sehr einfach, wird es kürzer antworten. Und nicht immer ist dieser Match von menschlicher Erwartung und Modell gleich.

00:21:35: [Barbara Lampl] Deswegen sind da ein paar Sachen anders, was sie gebaut haben. Relativ viel. Und auch unter anderem, dass weniger Tool-Calls stattfinden. Ihr werdet zum Beispiel

00:21:48: im 4.6er, auch im 4.5er Opus, festgestellt haben, dass egal, was ihr getan habt — das wollte immer ein Word-Dokument schreiben im Artifact-Mode.

00:22:00: [E-Fuchs] Das war eine der ersten Sachen, die ich in Standardanweisungen reingeschrieben habe: Produziere Markdown-Files. Gib mir bloß keine Doc-Files aus, oder ich

00:22:09: schlage dich.

00:22:10: [Barbara Lampl] Genau. Ich bin ja normalerweise nichts, dass ich auf Account-Level schon anfange, was zu ändern, was mich so wahnsinnig gemacht hat. Das ist auch im Opus

00:22:20: 4.7 gefixt worden, dass es weniger Tool-Calls macht. Heißt aber nicht, je nachdem, was ihr für Tool-Calls braucht, dass das auch unbedingt zu eurem

00:22:29: Wunschkonzert passt.

00:22:30: [Barbara Lampl] Lass uns einen Schritt zurückgehen. Der Opus 4.6 ist wohl das Modell, das auch schon einen harten Architektur-Change mitgegangen hat. Ich würde sagen: Im

00:22:40: Vergleich zwischen Opus 4.5, 4.6 und 4.7 ist der Opus 4.6 für geschlampertes Prompten bei halber Vollahnungslosigkeit das beste Modell. Deswegen waren alle

00:22:50: vom 4.6 so begeistert, was das Ding stemmen kann.

00:22:55: [Barbara Lampl] Alle, die davor relativ weit waren, dachten: Ganz geil, aber lange nicht diesen Aha-Effekt. Der 4.7er ist jetzt wieder Brute Force. Wenn du weißt, was du tust:

00:23:06: mega. Wenn nicht: Horror. Und der 4.5er war auch näher dran. Der 4.5er arbeitet die Aufgabe ab — Deepest Reasoning, Feel Thinking. Der 4.6er macht etwas, was

00:23:17: wie ein Subagent-System spannt, das eigene Subagents aufspannt. Diese Subagents haben unsere Unschärfe und unsere Faulheit ausgeglichen.

00:23:25: [Barbara Lampl] Der 4.7er hat das jetzt zurückgerollt und nimmt wieder weniger Subagents. Weil der 4.6er, da er so viele Subagents aufgebrannt hat, wahnsinnig viel Tokens

00:23:35: geballert hat. Was natürlich geil war, insbesondere in den Abos. Da merkst du, dass sie ganz böse die Schraube gedreht haben. Wenn ihr vielleicht mehr

00:23:45: Nerdy-Zuhörer beziehungsweise Foren-, X- und Reddit-Leser seid, dann werdet ihr wissen, dass alle gekotzt haben, dass die Performance vom 4.6 so runtergegangen

00:23:54: ist.

00:23:55: [Barbara Lampl] Ich würde nicht sagen, dass die Performance vom 4.6 runtergegangen ist, sondern sie haben die Anzahl der Subactions, die im Hintergrund aufgesponnen worden ist

00:24:03: für eure Tätigkeiten, an denen ihr geschlampt habt, massiv nach unten gezogen. Das ist das, was viel eher passiert ist. Das schließt mit deiner Frage: Was

00:24:12: machen die denn da eigentlich? Natürlich können sie nach einem Release sehr wohl steuern, wie tief ein Modell arbeitet, wie latent die Inference ist. Du kannst

00:24:22: relativ viel auch nach einem Release noch steuern.

00:24:25: [Barbara Lampl] Das ist sicherlich etwas, was beim 4.6 zu diesem harten Effekt geführt hat: „Der tut ja gar nicht mehr das, was er am Anfang getan hat." Spoiler: Weil anstatt

00:24:37: von 80 Subagents — das ist eine erfundene Zahl —, sind jetzt nur noch 40 im Einsatz, oder nur noch 4. Dann hast du einen massiven gefühlten

00:24:50: Qualitätsverlust. Lag aber eigentlich immer an dir. Altes Layer-8-Problem auch hier.

00:24:55: [E-Fuchs] Ja, klar. Es ist aber so ein Problem, das auch ich noch — in Anführungszeichen, aber wenn man immer da ist —, ich denke so: Wie viele Informationen gebe ich dem

00:25:08: Modell jetzt mit und welche nicht? Wenn ich zu viele Informationen reinballere, gebe ich den Lösungsweg schon so weit vor, dass im Prinzip nichts mehr

00:25:18: verbessert werden kann. Sondern es wird exakt so umgesetzt, wie ich mir das vorgegeben habe.

00:25:25: [E-Fuchs] Deswegen hat man irgendwann mal angefangen, ein bisschen vager zu werden — wenn ich das jetzt mal ganz banal ausdrücke. Weil man wusste, wenn man die

00:25:36: Anweisungen etwas vager hält, kommt mehr Eigenleistung vom Modell dazu. Das ist das, was du jetzt auch beschrieben hast. Wenn die Schwächen in Anführungszeichen

00:25:46: ausgeglichen werden, ja, das ist jetzt halt vollkommen anders.

00:25:50: [Barbara Lampl] Wie gesagt, das ist super spannend. Man muss schon sagen, 4.7 ist eine Bombe. Sie haben echt einen guten Release hingelegt, aber er wird halt auch nicht so

00:26:00: wahrgenommen. Und das werden wir jetzt wahrscheinlich die ganze Zeit wieder sehen. Jedes Mal, wenn Modellreleases sind, die unserer Faulheit und Unfähigkeit

00:26:09: Rechnung tragen, werden wir klatschen. Jedes Mal, wenn Modellreleases kommen, die eigentlich nur für eine sehr ausgebildete — Achtung, ich schmeiße mal einen

00:26:18: ganz coolen Begriff — KI-Elite sind, dann wirst du merken, dass da nicht so viel geklatscht wird.

00:26:25: [E-Fuchs] Ja, kann ich verstehen. Wenn wir Anthropic verlassen und einen Blick auf OpenAI werfen — da hat sich auch was getan. GPT 5.5 ist released worden. Irgendwas, was

00:26:37: ich im Hinterkopf hatte: irgendwie verbesserte Computer-Use-Fähigkeiten, und die Pre-Search hat sich wohl auch irgendwie verändert. Ist es angemessen, jetzt

00:26:46: einen Vergleich zwischen 4.7 und 5.5 herzustellen und zu sagen: So, das sind keine Ahnung — Antworten oder vergleichbare Modelle? Oder sind wir da schon so

00:26:58: weit voneinander entfernt, dass man sich da wirklich komplett mit den Eigenheiten auseinandersetzen muss?

00:27:05: [Barbara Lampl] Sie sind vergleichbar, weil sie auf einem ähnlichen Advanced Level sind, wie weit die Modelle sich weiterentwickelt haben. Sie sind vergleichbar in den

00:27:14: Benchmarks und ihren Capabilities. Aber sie sind völlig unvergleichbar darin, wie OpenAI seine Modelle zwischenzeitlich baut versus wie Anthropic seine

00:27:23: Modelle baut. Die zwei Dinger sind zwischenzeitlich — wir hatten eine ganze Zeit lang, da waren die Modelle, würde ich sagen, auch sehr ähnlich unter der Haube.

00:27:35: [Barbara Lampl] Wirklich so nach dem Motto: Okay, ist irgendwie relativ — ganz am Anfang waren die Trainingsdaten auch noch fast die gleichen. Das haben wir dann als

00:27:45: allererstes verlassen. Aber zwischenzeitlich haben wir sehr starke Architektur-Unterschiede und Differenzen in diesen ganzen Sachen drin. Das ist

00:27:52: definitiv ein großer Unterschied jetzt zwischenzeitlich. Wenn du Opus 4.7 und GPT 5.5 vergleichen willst, dann hast du beides hochperformante Modelle, Closed

00:28:01: Architecture, auch ähnlich gut in den Benchmarks, ähnlich gut in den Aufgaben. Beides im Prinzip für die gleichen Use Cases optimiert, aber zwei völlig

00:28:11: unterschiedliche Ansätze, wie wir in Rom gelandet sind.

00:28:15: [E-Fuchs] Okay. Wenn man jetzt ans praktische Arbeiten denkt: Was muss ich bei 5.5 beachten im Vergleich zu 4.7? Was machen die Brüder da?

00:28:25: [Barbara Lampl] Gar nicht im Vergleich zum 4.7. Das ist gar nicht der Punkt. Sondern OpenAI — auch das für euch in den Show Notes, noch mal ganz lustig: Auf dem Developers

00:28:37: OpenAI Guide hat OpenAI seit langem mal wieder einen GPT-5.5-Prompting Guide rausgegeben, weil sie so rumgebaut haben.

00:28:45: [E-Fuchs] Ein Prompting Guide — den habe ich noch gar nicht gesehen.

00:28:50: [Barbara Lampl] Lese wieder kurz vor — Vorlesestunde heute mit Frau Lampl: „Avoid carrying over every instruction from an older prompt stack. Legacy prompts often over-specify

00:29:02: the process because earlier models needed more help staying on track. With GPT 5.5 that can add noise, narrow the model search space or lead to overly

00:29:16: mechanical answers."

00:29:18: [Barbara Lampl] Ich weiß ja nicht, wie es dir geht — Jochen, hast du die LinkedIn-Diskussion dazu mitbekommen, dass wir die Prompts von GPT 5.4 auf 5.5 alle ändern müssen?

00:29:28: Richtig ist auch nicht. Genau, also total geil. So viel zur fachlichen Validität der KI-Influencer auf LinkedIn — das wäre die relevante Wanda gewesen.

00:29:38: [E-Fuchs] Das ist aber auch scheiß Arbeit, wenn man so eine wertvolle Promptbibliothek mit 100.000 Prompts, die man über zwei Jahre zusammengetragen hat, jetzt auf einmal

00:29:46: alle umschreiben müsste. Also ja, klar, kann man alle in eine KI kippen, aber...

00:29:52: [Barbara Lampl] Hilft nicht so viel, weil du natürlich spezifisch umbauen musst. Es gibt also einen New Prompting Guide — das ist witzigerweise nicht unbedingt im Release von

00:30:03: 4.7 da stattgefunden, aber auch dadurch, dass auch hier die Prompting-Unterschiede ein bisschen lustiger sind.

00:30:10: [Barbara Lampl] Grundsätzlich merkst du: Du musst sauber prompten, musst sauber resultatorientiert arbeiten. GPT 5.5 — auch das ist ein Unterschied zum GPT 5.4

00:30:20: — ist die Frage das gleiche wie beim Opus 4.7 versus Opus 4.6. Und die GPT 5.4 zu 5.5-Diskussion ist: Definitiv brauche ich ein Modell, was mehr Space braucht

00:30:33: — also soll das Modell mehr Arbeit leisten? Eine legitime Variante, besonders bei Research Tasks.

00:30:40: [Barbara Lampl] Beim strategischen Denken, KI als Sparringspartner — mega geil, weil ich weiß ja nicht, was ich nicht weiß. Oder brauche ich eine sehr harte „Hier ist meine

00:30:49: Aufgabe, arbeite die gefälligst ab"? Dann wird es so sein, dass ich auf andere Modelle zugreifen muss. Auch das ist eine Nuancierung, die an der Stelle

00:30:59: relevant ist.

00:31:00: [E-Fuchs] Okay. Was beide dann gemeinsam haben, ist, dass beide Modelle quasi mehr drumherum denken — sowohl der 4.7er als auch der 5.5er.

00:31:15: [Barbara Lampl] Ja, beide Modelle, 4.7er und 5.5er, sind ideal — du musst sie sehr spezifisch prompten. Aber das stimmt gar nicht. Der 4.7er ist eigentlich ideal, wenn du ein

00:31:30: sehr komplexes Problem hast, dir vielleicht noch ein bisschen unsicher über einen Lösungsweg bist, aber eine grobe Idee hast. Das wäre, glaube ich, meine

00:31:42: Variante für einen 4.7er.

00:31:45: [Barbara Lampl] Der 4.6er ist ideal für „Ich habe ein Problem und keinen blassen Schimmer, wie ich hinkomme". Und der 5.5er ist auch eher: Ich habe keine Ahnung, ich kenne das

00:31:55: Problem, aber wie ich die Lösung finde, da würde ich eher auf den 5.5er gehen. Der 5.4er ist ähnlich — würde ich sagen, der GPT 5.4 ist am ehesten vergleichbar

00:32:06: mit dem Opus 4.5. Jetzt kriege ich die Nummern schon auseinander: 5.4 zu 4.5, so ist es in meiner Matrix. Du hast ein Problem, hast auch einen relativ klaren

00:32:17: Plan, wie es abgearbeitet werden soll, willst aber natürlich auf komprimiertes Weltwissen und Ideenformel zurückgreifen — bist aber nicht super darauf

00:32:24: angewiesen.

00:32:25: [E-Fuchs] Okay. Was ich mich gerade frage, ist: Die Skills sollen ja — zumindest zwischen Claude, OpenAI, und ich glaube Google war der Dritte —, dass sie sich diesem

00:32:38: Interoperabilitäts-Coup-Gedönste, von dem ich nicht mehr weiß, wie es heißt, angeschlossen haben — austauschbar sein. Also die Idee ist quasi, dass du deinen

00:32:50: Skill nimmst und ihn woanders hin trägst. Den habe ich noch nie probiert. Werde ich jetzt aber kurz mal probieren.

00:33:00: [E-Fuchs] Weil ich ja so ein Log-System geschrieben habe, ein Backbone, das meine Arbeit lockt. Und jetzt will ich eine Aufgabe an Gemini auslagern, weil das nativ in

00:33:10: Google Workspace stattfindet, und ich es einfach mal instinktiv für besser halte, einen Task, der nativ in Workspace stattfindet, mit Gemini auszuführen,

00:33:18: anstatt mit Claude von außen zuzugreifen. Sondern lieber hergehe und Gemini die Ergebnisse in Richtung Claude liefern lasse.

00:33:25: [E-Fuchs] Dazu muss ich jetzt zum ersten Mal einen Skill portieren von Claude nach Gemini. Bin ich mal gespannt. Auch wenn es da extra ein Konzept dafür gibt, klingt es

00:33:36: ein kleines bisschen verdächtig für mich. Weil die Modelle ja alle ein bisschen anders funktionieren, kann ich ja nicht unbedingt genau das gleiche Ergebnis

00:33:46: erwarten. Ich muss das dann schon ziemlich sorgfältig testen.

00:33:50: [Barbara Lampl] Ja, also das musst du schon sauber evaluieren und testen. Es ist so — auch das in dem heiteren Link auf dem OpenAI Developer Forum — steht auch genau das

00:34:05: drunter: dass Codex die geänderten Sachen in dem OpenAI Skills Repository abbilden kann. Das heißt aber nichts.

00:34:15: [Barbara Lampl] Was das heißt, ist: Du hast einen Prompt, der irgendwo anders gelaufen ist. Wenn du den Skill darüber laufen lässt, dann wird er sicherlich angepasst sein. Das

00:34:25: will ich gar nicht behaupten. Aber ob der jetzt wirklich das Ergebnis liefert, was deinen Qualitätsansprüchen noch entspricht, das kannst du so einfach nicht

00:34:34: sagen.

00:34:35: [Barbara Lampl] Das hat natürlich auch damit zu tun — und das möchte ich an der Stelle, ich muss mich mal kurz selber loben: Ich habe bei allen Kunden und in allen Workshops und

00:34:44: Trainings, in-house wie extern, eine ganz bestimmte Art von Prompt Frameworks und Prompt Templates. Toi, toi, toi. Bis heute halten unsere Templates. Die sind

00:34:52: über die Jahre eigentlich im Prinzip in den Prompting-Ansatz reingefahren, dass unsere Templates wirklich solide halten — das Template hat keine Fehlstellen

00:34:59: oder so was.

00:35:00: [Barbara Lampl] Du kannst aber mit diesem Template dann immer auf dein Modell relativ leicht den Prompt anpassen. Im besten Fall eben in dem Modell, wo du es weiterverwenden

00:35:09: möchtest, das Template anpassen. Und dann hält das wirklich extrem gut. Das ist so der Weg, den ich gefunden habe, indem ich unsere Prompts und die Schulungen

00:35:18: sonst auch sehr templateisiere, sehr mit Frameworks arbeite. Damit hast du eine höhere Stabilität, sodass dieser Skill funktionieren kann.

00:35:25: [Barbara Lampl] Jetzt kommt es aber zu einer Besonderheit, wenn dein Prompt irgendwie ein zusammengezockter Bastel-Prompt ist — im Zweifelsfall ein Kommentar-Prompt, eine

00:35:32: Library runtergeladen, die wiederum jemand anders im Prinzip von jemand anders geklaut, mit der KI aufgeballert hat, und ihr noch drei Sachen ergänzt habt.

00:35:41: Dann hilft dir auch dieser Skill-Transfer das alles nicht. Weil die eigentliche Arbeit, die einen guten Prompt und einen guten Skill ausgemacht hätte, nie

00:35:50: stattgefunden hat. Dann wird dir das irgendwann um die Ohren fliegen.

00:35:55: [Barbara Lampl] Hast du die Templates, dann kannst du Qualität relativ schnell einschätzen, dann kannst du diesen Skill-Transfer drüber laufen lassen und dann gucken, ob das

00:36:03: wirklich solide ist nach vier, fünf Probeläufen. Je nach Aufgabenspezifikation sollte es dann noch fein sein. Dann kann es den Rest durchjagen. Aber ansonsten:

00:36:12: Ja, also das ist da, wo Human in the Loop auch ausnahmsweise mal hingehört — nämlich in die Evaluierung von den Testläufen, damit wir Golden Data erzeugen.

00:36:22: Da gehört Human in the Loop hin.

00:36:25: [E-Fuchs] Okay, ja, spannend. Muss ich mal schauen. Ich habe auf GitHub eine Action konfiguriert, die mir für Skills unterschiedliche Master-Referenzen und

00:36:37: Templates zusammenkopiert. Da liegen so Sachen drin, die ich in allen Skills, die ich baue, immer wieder benutze. Da verändere ich dann das Master, und wenn

00:36:52: ich dann hergehe und Skills neu baue, dann verteilt diese Action das durch.

00:37:00: [E-Fuchs] Ähnlich müsste ich das dann wahrscheinlich machen, wenn ich Skills für einen anderen Agent zu bauen anfange. Weil das Grundgerüst, das per Interoperabilität

00:37:07: gesichert ist, wurde gesagt: Ich messe die Größe von dem Ding, die ist immer gleich, da gibt's eine SKILL.md, da gibt's irgendwelche Ordner, da gibt's was

00:37:15: auch immer — das funktioniert dann immer. Nur die SKILL.md selber, in der die Anweisungen drin sind, die muss man halt auf das Modell anpassen. Und den Rest,

00:37:24: was weiß ich, die Python-Skripts, die zum Beispiel eine API-Anbindung machen, die kann man dann ja einfach weiter mitnehmen. Die funktionieren da genauso wie

00:37:31: hier, das ist ja deterministisch. Da ändert sich nichts dran.

00:37:35: [E-Fuchs] Okay, wir haben außer OpenAI und Anthropic aber natürlich auch noch einen oder mehrere weitere Player. Wir schauen uns aber zumindest einen davon an aus der

00:37:53: östlichen Ecke. DeepSeek V4, V4 Pro, Flash ist rausgekommen.

00:38:00: [Barbara Lampl] Ja, vier — genau. DeepSeek Version 4 ist raus in zwei Varianten. Aber im Gegensatz zu allen bisher genannten ein echtes Open-Source-Modell — kannst du

00:38:11: also auf eigene Hardware zum Laufen bringen. Die anderen sind Closed Models, ist nicht machbar.

00:38:18: [Barbara Lampl] Und ja, aus China kommt momentan genauso wie von allen anderen heute nicht genannten Playern ein Modell-Release nach dem nächsten. Die werden alle immer

00:38:28: besser, schöner, größer — heißt nicht, dass wir sie mobben, sondern die anderen Releases waren alle spannend und interessant, aber sie hatten erstens keine so

00:38:38: architektonisch durchgreifenden Änderungen.

00:38:40: [Barbara Lampl] Man muss ja auch realistisch sein: Wer läuft auf was? Die meisten laufen immer noch auf einer GPT-Welt. Das heißt, der GPT-5.5-Release ist relativ relevant.

00:38:48: Nur für die mehr techy, nerdy Crowd hier — werdet wahrscheinlich alle mehr so wie wir so ein bisschen mehr so Anthropic Fan Girls and Boys sein. Das ist

00:38:59: deswegen für euch Relevanz. Damit kommt eben der DeepSeek-Release noch in die Kette rein — von „Es ist wirklich ein Release gewesen, über den wir sprechen

00:39:08: sollten, warum das relevant ist."

00:39:10: [Barbara Lampl] Es ist auf Seiten der Open-Source-Modelle definitiv — es ist ein bisschen unter... Es hat lange nicht die mediale Wirkung erzeugt wie der R1, also das

00:39:24: erste Reasoning Model. Aber es ist schon in der gleichen Kategorie.

00:39:30: [E-Fuchs] Okay, also ich habe so zwei, drei Sachen, aber ich bin jetzt nicht ganz sicher — weil ich habe mir das stichwortartig notiert und ich bin mir nicht mehr sicher,

00:39:43: ob ich da einen englischen oder einen deutschen Fakt notiert habe: 1,6 Trillion Parameter — war das Trillionen Parameter, also englisch oder deutsch? Trillion,

00:39:54: ne?

00:39:55: [Barbara Lampl] Nee, ich glaube, es müsste Englisch sein. Das ist hochgegangen.

00:40:00: [E-Fuchs] Was ich interessant fand, so aus geopolitischer Sicht, ist: Wenn ich es richtig verstanden habe, läuft DeepSeek jetzt auf Huawei-Ascend-Chips anstatt auf

00:40:09: Nvidia-Chips.

00:40:10: [Barbara Lampl] Richtig. Er ist optimiert für Domestic Chips. Er läuft auf der Huawei Ascend.

00:40:16: [E-Fuchs] Okay, dann hätten wir jetzt ja mal die Frage im Vergleich, ob sich da irgendwas geändert hat. Jetzt mal so banal zu fragen: Das Zeug ist vorher auf Nvidia

00:40:23: gelaufen — was die USA...

00:40:25: [Barbara Lampl] Alles lief, alle trainieren, alle arbeiten auf Nvidia. Richtig. Auch das im Release von GPT 5 — auch noch mal erklärt, auf welcher Nvidia-Architektur die

00:40:35: umgestellt haben. Denn beim GPT 5: kleiner Hinweis, die Inferenz wurde — GPT 5 wurde für Nvidia GB 200 und GB 300 entwickelt. Auch da merkt ihr schon den

00:40:47: Gleichklang mit. Es macht einfach den Unterschied, auf welcher Hardware du entwickelst. Das vergessen die Leute immer.

00:40:55: [Barbara Lampl] Wir wiederholen nochmal: KI ist Mathe in Code auf Hardware. Und die Hardware entscheidet auch einen Teil deiner architektonischen Entscheidung — oder ganz

00:41:04: massive. In dem Fall hat DeepSeek wirklich auf eigener chinesischer Hardware trainiert und gebaut, mit einem Modell, das liefert. Es liefert Aufstand. Es ist

00:41:13: vergleichbar mit allen anderen, die wir gerade diskutiert haben — wirklich eins zu eins vergleichbar. Es ist die gleiche Modell-Cutting-Edge-Frontier — wie auch

00:41:23: immer der Buzzword-Bingo da jetzt genau ist —, wirklich komplett competitive. Mit einer kleinen, sehr interessanten Variante.

00:41:30: [Barbara Lampl] Denn was ein bisschen untergegangen ist, Jochen — das ist gerade schon gesagt: Es gibt einen V4 Pro. Der V4 Pro kostet 1,74575 Dollar für eine Million

00:41:46: Input-Token und 3,48 Dollar für eine Million Output-Token. Das ist massiv günstiger als der Rest.

00:41:55: [E-Fuchs] Ja, entspricht auch, glaube ich, dem Kontext-Window in dem Fall jetzt.

00:42:00: [Barbara Lampl] Auf eine Million Token sind alle Modelle zwischenzeitlich auf eine Maximalanzahl von einer Million Token Input Window optimiert. Noch mal: Es gilt weiterhin,

00:42:11: nicht ausnutzen. Aber das ist mega krass, wie viel günstiger das ist. Der Flash läuft auf 0,14 Dollar Input die Million und 0,28 die Million Output.

00:42:25: [Barbara Lampl] Das ist definitiv — Achtung — und je nachdem, wann ihr diese Folge hört: Falls ihr sie vor dem 5. Mai oder so was hört, gibt es immer 50 Prozent gerade so

00:42:36: Discount drauf. Das ist einfach — darf man an der Stelle nicht vergessen — ein wirklich performantes, total vergleichbares Frontier Model für einen

00:42:44: nachgeschmissenen Preis. Wir würden ablässig sagen: „China billig". Nur leider — das Billige ist hier wirklich nur der Token, nicht die Qualität. Das ist richtig

00:42:53: eine harte Kampfansage.

00:42:55: [E-Fuchs] Ja, das klingt krass. Wo ich gerade innerlich noch kurz dran hängen geblieben bin, ist das mit diesem Kontext-Fenster. Ich bin nämlich neulich über was

00:43:06: gestolpert, was mir nicht bewusst war, und ich nicht so ganz weiß, wie ich es architektonisch einordnen soll. Und zwar ist mir aufgefallen, dass Claude ein

00:43:18: Limit pro Turn hat.

00:43:20: [E-Fuchs] Also ich sitze da, und er schreibt ein Log-File weg. Es war eine mächtige Session, er hat eine Doku ausgespuckt, er hat Code ausgespuckt, er hat noch ein

00:43:29: Dokument dazu ausgespuckt — also das Ding ist relativ groß. Und ich sage ihm jetzt: Machst du bitte noch eine Änderung an dem? Und dann fängt er an zu

00:43:39: stottern und sagt, er muss das jetzt in zwei Stücke reißen, ums hochzuschieben. Nachdem er es in Stücke gerissen hat, mergt er das dann auf der Platte manuell,

00:43:48: macht zwei halbe Dateien, fügt die zwei halben dann als Dateioperation zusammen, anstatt sie durch den Tokenizer laufen zu lassen.

00:43:55: [E-Fuchs] Und ich denke so: What the fuck, was tut er denn da? Er schiebt was auf GitHub hoch — dieses File ist nicht groß genug, um in irgendein Limit zu rennen. Dann

00:44:05: nerve ich rum und suche und frage, und er sagt mir dann: „Ja, aber das sind so und so viele Token pro Turn." Ich glaube, es waren 10.000 oder so, wenn mich

00:44:15: nicht alles täuscht. „Und die hast du überschritten und deswegen muss ich das jetzt in Stücke reißen." Und ich denke so: Ja, super, hab ich gar nicht gewusst.

00:44:25: [Barbara Lampl] Ja, das sind... Genau. Jeder Modellbauer muss seine architektonischen Entscheidungen treffen, wie er mit diesem Riesenkontext umgeht. Irgendwie musst

00:44:33: du eine Möglichkeit finden. Weil in dem Fall hast du ja jetzt schon Input-Token, Output-Token, Input-Token, Output-Token. Du hast also auch noch — jetzt hast du

00:44:46: ja schon jede Menge Kontext. Dein Attention-Mechanismus ist eigentlich schon völlig überfordert und im Arsch. Was machst du jetzt?

00:44:55: [Barbara Lampl] Deswegen ist es unterschiedlich, ob du frisch startest oder tief im Projekt bist. Frischer Start: alles egal. Dann bist du tief im Projekt drin, und auf

00:45:06: einmal fliegt dir die ganze Performance, aber insbesondere die Stabilität, weil dann auf solchen Klotteragsch quasi zurückgegriffen werden muss. Das kannst du

00:45:16: unter Turn-Optimierung machen, du kannst da Token-Limits reinjagen.

00:45:20: [Barbara Lampl] Und jetzt kommt das DeepSeek daher, und ich muss leider mal wieder sagen: Die Chinesen haben in der Vorlesung gut zugehört. Handwerklich exzellent gemacht,

00:45:28: wahnsinnig sauber gebaut. Und zwar haben sie den Attention-Mechanismus mit einer Art Wichtigkeitskonzept versehen. Das heißt, anstatt dass alles, was davor war,

00:45:36: gleich wertvoll ist, was der normale Effekt normalerweise ist, haben sie jetzt gemacht, dass alte Informationen stärker komprimiert werden — weil die

00:45:44: Wahrscheinlichkeit, dass das, was frisch gerade passiert ist, mit einer höheren Wahrscheinlichkeit für den Jochen relevant ist und für mich, als das, was vor

00:45:53: acht Iterationen passiert ist.

00:45:55: [Barbara Lampl] Wenn man sich die Nutzung eines KI-Systems anguckt, entspricht das auch der Realität schön. Das hatte bisher aber keiner gebaut und auch keiner elegant

00:46:03: gebaut und keiner gut gebaut. Deswegen ist der DeepSeek-Release an der Stelle: Chapeau. Das haben sie sehr clever gemacht. Das reduziert die Kosten und auch

00:46:13: die Kosten der großen Long-Context-Windows massiv und sorgt für — aus menschlicher Sicht — eine extrem stabile Performance.

00:46:20: [Barbara Lampl] Weil im Normalfall ist das, was du gerade beschildert hast: Du brauchst jetzt eigentlich nur diesen letzten Scheiß. Dadurch, dass dein armes Modell aber den

00:46:29: ganzen Klotteragsch von vor 20 Minuten noch mitschleppt — also von vor, als ihr die Podcast-Folge mal angefangen habt zu hören —, muss es jetzt irgendeinen Weg

00:46:40: finden. Ich habe das eben unelegant gelöst, und DeepSeek hat das handwerklich extrem elegant gelöst und entschieden: „Naja gut, dann komprimiere ich den alten

00:46:49: Scheiß, den wird der Jochen schon nicht brauchen. Ich nehme den neuen Scheiß und setze meine Attention hart darauf." Und damit ist das sehr viel eleganter

00:46:59: gelöst.

00:47:00: [E-Fuchs] Ja, spannend. Bei Claude versuche ich die Sessions immer so zu dimensionieren, dass ich nicht ins Komprimieren bei CoWork beispielsweise reinlaufe.

00:47:10: [Barbara Lampl] Ja, kann ich auch nur definitiv empfehlen. Es ist auch grundsätzlich unter handwerklichem Arbeiten — nicht nur Shout-out an die Modellbauenden, sondern

00:47:19: handwerkliches Arbeiten ist auch für uns. Data Science: Wir sind sehr viel mehr am Schreinern und am Handwerk dran als an einer Wissenschaft. Manchmal müssen

00:47:30: wir sehr viel beten, und messen müssen wir auch fünfmal.

00:47:35: [Barbara Lampl] Das unterschätzt man, weil die Modelle so gut auf unsere Faulheit und Inkompetenz ausgleichen können — wie das aussieht, wenn der Profi es nutzt.

00:47:45: Kleine Anekdote am Rande: Wir haben eine Session gemacht, Mario Benetimist, liebevoll mein CTO genannt, und ich, wo wir gezeigt haben, wie wir arbeiten.

00:47:55: Weil das konnte sich immer keiner vorstellen, in einem sehr kleinen Rahmen.

00:48:00: [E-Fuchs] Hau da mal aus dem Nähkästchen.

00:48:05: [Barbara Lampl] Der Rahmen war aber, dass alle, die da im Raum saßen, sehr heavy Power User waren und gedacht haben: Was wollen die uns erzählen? Nach so 20 Minuten war

00:48:14: dann der Raum sehr, sehr still. Weil der Output, den wir in kürzester Zeit hochgeprompted und auch gecodet haben — wir haben quasi parallel gearbeitet —,

00:48:23: so anders aussah. Mit so viel kleineren Modellen, mit so viel mehr Speed, mit so viel mehr Stabilität.

00:48:30: [Barbara Lampl] Das unterschätzt man. Kleines Fazit, vielleicht zur Zwischenzeit von der heutigen Session: Modelle sind häufig drauf optimiert, unsere Faulheit und

00:48:43: Inkompetenz auszugleichen. Was Geiles, was aber langfristig sehr teuer wird.

00:48:50: [E-Fuchs] Ja, und es kostet auch Zeit. Ich bin bei mir an einem Punkt angelangt, wo auch Zeit eine Rolle spielt. Selbst wenn ich mit zwei Rechnern gleichzeitig arbeite

00:49:01: und nicht auf irgendwas warten muss, weil das Modell vor sich hin arbeitet, bin ich dann doch irgendwann blockiert. Wenn ich größere Projekte umsetzen will,

00:49:10: frisst das einfach auch mehr Zeit. Deswegen ist es auch einfach wesentlich effizienter, mit einem kleineren, passenderen Modell zu arbeiten, da auf

00:49:19: draufzuklopfen.

00:49:20: [E-Fuchs] Jetzt hatte ich noch irgendwas in Verbindung. Ach ja, genau — ding, ding, ding, die Glühbirne leuchtet: Wenn man sich so eine Arbeitsumgebung eingerichtet

00:49:31: hat... In meinem Fall jetzt beispielsweise: Ich bin häuslich in Claude niedergelassen, mit weiß ich nicht, so... Genau, das ist meine Adresse. Da habe

00:49:43: ich eine ganze Siedlung aus Häusern — Projekte, keine Ahnung, 40 Projekte oder so was. Und dann die ganzen Skills, mit denen ich arbeite. Tralala.

00:49:55: [E-Fuchs] Jetzt habe ich ja vorhin schon erzählt, ich habe so einen Spillover in Richtung Gemini. Ich muss zum ersten Mal irgendwie was im produktiven Workflow von einem

00:50:04: anderen Modell einbauen. Jetzt überlege ich natürlich: Naja, ich könnte auch theoretisch versuchen, mal irgendwie DeepSeek jetzt mal langsam produktiv mit

00:50:12: anzufassen, eine Welt so ein bisschen zu verlassen. Die Schwierigkeit dabei ist natürlich: In meinem Fall jetzt zum Beispiel, mein Backbone Skill, der meine

00:50:21: ganze Arbeit lockt, der funktioniert dann ja auf DeepSeek nicht.

00:50:25: [E-Fuchs] Jetzt bin ich gerade auf die glorreiche Idee gekommen, dass man ja in dem Entwicklermodus von den Entwicklereinstellungen, den ich modus von Claude,

00:50:33: irgendwo einstellen kann, dass der noch andere Modelle reinlässt. Also ich kann da beispielsweise OpenRouter anschließen, und wenn ich OpenRouter anschließe und

00:50:42: da einen Account habe, dann habe ich auf einmal die Modelle, die ich dann über OpenRouter dann freigebe für die Nutzung, drinhängen. Dann kann ich auf meinem

00:50:52: HNS, in Anführungszeichen, DeepSeek drauf loslassen.

00:50:55: [E-Fuchs] Das Erste, was mir da jetzt einfällt, ist: Aber das Ding sitzt dann halt auf lauter Prompts und Skills, die halt eigentlich für Claude...

00:51:05: [Barbara Lampl] Das kann ein bisschen zum Problem werden, es sei denn... Klar, das kann ein bisschen zum Problem werden. Grundsätzlich, wie gesagt: Sind deine Frames,

00:51:13: Prompts, Frameworks, Prompts und deine Skills generell gut strukturiert, ist das Problem eher geringer. Kann aber natürlich — wir haben gerade darüber gesprochen

00:51:21: — manchmal brechen alte Prompts, ist ein bekanntes Problem.

00:51:25: [Barbara Lampl] Was du natürlich trotzdem machen kannst, ist, dass du vielleicht auch sagst: Okay, vielleicht baue ich einfach noch einen Schritt weiter. Ich weiß ja, dass

00:51:32: ich vielleicht irgendwann in irgendwelche Sachen reinlaufe. Vielleicht baue ich aber auch Sachen, die optimiert sind für ein DeepSeek. Vielleicht mache ich

00:51:39: einen Workflow, der vielleicht mehr iterativ ist. DeepSeek ist für mich jetzt so ein Modell, wo ich mir sage: Hä? Das scheint das Modell zu sein, wenn ich

00:51:47: iterativ arbeiten möchte — was ja eine völlig legitime Variante ist, weil ich vielleicht was durchdenken muss, weil ich strategische Vorarbeit aufbauen muss.

00:51:55: [Barbara Lampl] Dann sieht DeepSeek in der Model Description einfach massiv attraktiver aus, weil es meinen historischen Scheiß wegkomprimiert und ich meinen neuen

00:52:04: Klotteragsch drinhabe. Dann würde das eine bestimmte Arbeitsweise reflektieren — von mir aus iteratives Arbeiten. Dann würdest du iteratives Arbeiten über

00:52:13: DeepSeek laufen lassen.

00:52:15: [Barbara Lampl] Ich bin zum Beispiel auch jemand, der sagt: Wenn es schnell gehen muss, nehme ich die kleinen Modelle — Flash, Fast oder Mini, oder wie sie alle heißen —,

00:52:25: weil es muss schnell gehen. Warum soll ich Token brennen, die ich vielleicht in drei Stunden noch für irgendwas anderes brauche, für eine große Aufgabe? Ich

00:52:34: weiß, dass das das hört keiner gerne, aber das macht hinten raus so einen Unterschied.

00:52:40: [Barbara Lampl] Wenn du dann mal verstanden hast: Okay, was haben wir jetzt gelernt über den DeepSeek V4? Naja, also: Super günstig — das könnte eine interessante Variante

00:52:49: sein. Wenn ich irgendjemandem was ballern will, ist es vielleicht einfach interessanter, das über den laufen zu lassen. Da kriege ich ja die Millionen

00:52:57: Token schon mal für einen guten Schnapper.

00:53:00: [Barbara Lampl] Zweitens haben wir gelernt: Es ist anders architektonisch. Das könnte für dich ein Edge sein, aber insbesondere die Kompression im Long Context könnte ein

00:53:08: superspannender Case für iteratives Arbeiten sein. Was haben wir außerdem gelernt? Der Opus 4.7 ist eigentlich — muss ich da für komplexe Aufgaben haben?

00:53:16: Okay, wenn ich riesen komplexe Aufgabe habe, dann nehme ich vielleicht keinen Opus 4.7. Und der 5.5er ist vielleicht irgendwas, wo ich sage: Okay, ich habe

00:53:26: noch nicht so einen richtigen Lösungsweg, dann würde ich den nehmen.

00:53:30: [Barbara Lampl] Das ist halt das, wo man ehrlicherweise sagen muss: Da kommt jetzt Kompetenz über dein eigenes Arbeiten, eigenes Handeln hinein. Dann kannst du die gesamte

00:53:38: Bandbreite ausnutzen. Wir hatten eine Phase, da waren die Modelle alle irgendwie gleich gut und gleich schlecht und viel zu ähnlich in der Architektur, wo es

00:53:47: eigentlich relativ lange völlig wurscht war.

00:53:50: [Barbara Lampl] Übrigens: Der Gemini Thinking ist eines der unterschätzten — also Gemini 3 in Thinking Mode ist eines der besten Research Modelle, die es gibt. Völlig

00:54:00: underrated, wahnsinnig gute Aufgabe von Gemini. Wo du auch solche Sachen hast, wo du sagst: Okay, Pro — hier auch noch ein kleiner Tipp: Gemini 3.1 Pro, wenn

00:54:11: ihr auf multiplen Dokumenten arbeiten müsst. Das Ding ist bei Multi-Source Prompting mega bombengut, massiv teilweise besser als andere Modelle.

00:54:20: [Barbara Lampl] Das muss man alles irgendwo mal wissen, ansonsten kannst du diese Bandbreite, die heute möglich ist, eigentlich nicht ausspielen.

00:54:30: [E-Fuchs] Ja, für mich ist das faszinierend, wenn ich mich an die Anfangsphase, wo ich die ersten kleinen Schritte gemacht habe, zurückerinnere. Da hat man halt alle Tools

00:54:40: aufgemacht. Du hast in jedem Tool irgendwas Neues ausprobiert. Ich habe mit unterschiedlichen Modellen gearbeitet, und je effizienter die Arbeit werden

00:54:48: musste, desto mehr habe ich mich auf Claude konzentriert, weil ich irgendwann keinen Bock mehr hatte, mich ständig mit neuen Besonderheiten von irgendwas

00:54:56: auseinanderzusetzen — und ein und dieselbe Arbeit zu machen.

00:55:00: [E-Fuchs] Nur langsam habe ich das Gefühl, dass ich an den Punkt komme, wo ich darüber nachdenke, einzelne Tasks dann doch mit anderen Modellen zu erledigen. So ein

00:55:09: Punkt, der mir jetzt gerade einfällt, der bei Claude frisst, ist iteratives Arbeiten beim Rapid Prototyping beispielsweise. Wenn ich mich in Richtung eines

00:55:18: Prototypen hinarbeite, dann komme ich irgendwann dahin, und dann fange ich an, dann noch einzelne Punkte davon zu verändern.

00:55:25: [E-Fuchs] Da ist mir egal, wenn er den ganzen Weg bis dahin wegkomprimiert. Wenn wir am Ergebnis weiterarbeiten, da ständig neue Sessions und Session-Übergaben zu

00:55:33: machen — von einer Session zur anderen — ist nervig und kostet Zeit vor allen Dingen. Unterm Strich ist es auch teuer, weil wenn ich so eine Aufgabe lange

00:55:43: laufen lasse, brenne ich da. Bei DeepSeek kommt man da natürlich billiger weg, in Anführungszeichen. Für solche Zwecke könnte man sich dann ja in einem

00:55:52: Claude-Projekt mit DeepSeek-Präfix oder so was hin setzen.

00:55:55: [Barbara Lampl] Genau, Claude — genau das. Du kannst ja wiederfinden genau das. Aber dieser Effekt, den du gerade hast, den hatten wir alle. Noch dazu war die Modelle so

00:56:06: dermaßen — es war wirklich so dermaßen wurscht. Da war halt das am Ende des Tages, wo ich immer sage: Da hat Anthropic auf konstant hoher Qualität geliefert

00:56:17: das, was ich brauche. Was soll ich, mich mit dem anderen Scheiß rumärgern? Jetzt mal ganz pragmatisch praktisch.

00:56:25: [Barbara Lampl] Was wir hier jetzt für euch gerade hoffentlich in dem Podcast näherbringen — wenn wir fünf Meta-Ebenen zurückgehen —, das hat auch, wenn wir es auf

00:56:34: Unternehmensebene verankern, mit dem Maturity-Grad des Unternehmens zu tun. Die meisten Unternehmen sind überhaupt gar nicht an der Stelle dieser Diskussion,

00:56:42: ihr fachlich zu folgen — natürlich schon —, sondern auch: Haben wir eine Evaluations-Plattform gebaut, die unsere Modelle matcht auf unsere Tasks und

00:56:51: Prompts, sodass wir diese Ansagen überhaupt an unsere Mitarbeitenden ausgeben können oder in unseren Agenten-Workflows Kleinstmodell-Optimierung betreiben

00:56:57: können, wissen, wann rolliert worden ist?

00:57:00: [Barbara Lampl] Das ist die produktive Enterprise-Frage, die hinter all dem steht. Die meisten werden jetzt ausgestiegen sein und denken: „Was ist eine Evaluations-Plattform?

00:57:10: Was brauchen wir jetzt für einen Krampf?" Das ist, warum KI in Prod bei den meisten gar nicht liefern kann, weil jetzt definitiv auffällt, was an

00:57:22: Hausaufgaben nicht gemacht worden ist.

00:57:25: [E-Fuchs] Ja, ich kann dir noch folgen. Ich bin vor kurzem auf Eval gestoßen. Ich habe nur, weil ich im Moment so viel Scheiß gleichzeitig laufen lasse und an so

00:57:37: komplexen Sachen einfach arbeite, den Überblick verloren, woher es kam. Ich bin mir nicht mehr sicher, ob es ein Teil des Skill-Creator-Skills ist, oder ob es

00:57:48: was ist, was ich nebenbei irgendwie selber produziert habe — und zwar ein Python-Eval-Script.

00:57:55: [E-Fuchs] Das Script geht her und liest Output. Es lässt einen fertig gebauten Skill ein Beispiel-Input 15 Mal in dem Eval-Script durchlaufen, guckt sich den Output an,

00:58:04: notiert Drift und gibt dann quasi ein Ergebnisprotokoll aus, wo es sagt: Hier so, das hat so und so funktioniert. Wenn man das jetzt auf größer denkt, in

00:58:15: Anführungszeichen, dann würde man sich ja so ein eigenes kleines Harness bauen, sich...

00:58:20: [Barbara Lampl] Streichle klein, streichle klein, groß.

00:58:25: [E-Fuchs] Also eine UI in Anführungszeichen — klein, okay, groß bauen — würde da seine Standard-Prompts aus dem eigenen Arbeitskontext hinterlegen, zum Ausprobieren

00:58:34: halt.

00:58:35: [Barbara Lampl] Also — Barbara verdreht die Augen für diejenigen, die nichts zuschauen, sondern nur zuhören können — okay, bleiben wir beim kleinen Case. Das, was du

00:58:44: beschreibst, ist für dich als Solopreneur in einem kleinen Unternehmen das, was der nächste Evolutionsschritt ist. Ja, Haken dran. In meiner Welt, wo ich auch

00:58:53: im Zweifelsfall die Verantwortung für ein paar Hundert Devs und ein paar Tausend Mitarbeiter habe, funktioniert das so alles nicht. Da müssen wir schon ein paar

00:59:03: andere Entscheidungen treffen.

00:59:05: [Barbara Lampl] Evaluation ist eine AI-Engineering-Aufgabe. Deswegen kommt auch immer dieser Spruch: Human in the Loop ist kein Eval-Konzept. Weil wir genau jetzt — also

00:59:14: lass mich andersrum sagen: Wenn ihr im Unternehmen niemanden habt, der die Antwort sagen kann, für diese Aufgabe, welches Modell soll ich denn jetzt

00:59:23: nehmen, und keiner eine Ad-hoc-Antwort hat, weil es kein Cheatsheet gibt, wo man nachgucken kann, oder irgendjemand das beantworten kann, dann seid ihr an einem

00:59:33: kritischen Punkt eurer KI-Implementierungsstrecke, den ihr dringend angehen müsst, wenn ihr das mit dieser KI-Strategie ernst meint.

00:59:40: [Barbara Lampl] Denn Evaluations-Plattform ist ja das eine. Das, was Jochen gerade beschreibt, ist quasi Chatbot-Arbeit und im CoWork agentic Working. Sobald von euch

00:59:51: irgendjemand auch nur einen einzigen Agenten gebaut hat, dann muss der hart gelockt, geordert und evaluiert werden. Wenn mir da irgendjemand mit mehr als

01:00:03: fünf Mitarbeitern einen Agenten ohne Eval-Plattform ausrollt — das ist eine schlechte Vorstellung.

01:00:10: [E-Fuchs] Ja, also was — in Anführungszeichen — dieses Eval-Script macht, das ähm...

01:00:18: [Barbara Lampl] Das ist ein super hilfreicher und ein super guter erster Schritt. Das ist für kleine Cases super valide, aber das muss sehr viel weiter gedacht werden.

01:00:26: Insbesondere wenn ich mir angucke — auch darüber wird zu wenig geredet. Kleiner Fun Fact: Ich rede da sehr viel drüber, auch schon in 2025. Da merkst du sofort

01:00:35: — ich kann sofort den Maturity-Grad meiner Kunden einschätzen: Wenn die sagen: „Hast du noch da so ein Positionspapier zu Eval-Konzepten in RAG und Agentic

01:00:44: Workflow irgendwann geschrieben, kann ich das mal haben?" Dann weißt du, okay, ich weiß jetzt, was passiert ist.

01:00:50: [E-Fuchs] Verstehe.

01:00:52: [Barbara Lampl] Das stammt aus 2025 und muss dringend angepasst werden. Aber irgendwie — ich bin ja so faul und arbeite ja immer nicht. Jetzt wisst ihr, jetzt ist raus. Ich

01:01:02: komme ja zu nichts, weil ich mich immer so langweile. Das ist heute aufgeflogen, deswegen laufe ich nie in Limits. Es ist endlich aufgeflogen. Die KI soll mal

01:01:13: ein scheiß Paper überarbeiten.

01:01:15: [E-Fuchs] Genau, gib mal Opus 4.7, dann lauf mal ein bisschen Rogue. Ja, spannend. Wenn wir jetzt versuchen, einen Punkt drunter zu machen: China trainiert zunehmend

01:01:26: auf eigenen Chips — das, was ich auf der geopolitischen Ebene für mich festgehalten habe. Sprich, das Einhedgen, was die Amis versucht haben, ist im

01:01:38: Prinzip sinnlos. Das geht den Bach runter. Statt auf Nvidia setzen wir jetzt auf Huawei.

01:01:45: [E-Fuchs] Spannende subversive Frage wäre dann: Wenn sie nicht eingehedgt hätten, hätten sie dann weiter auf Nvidia — was dann wiederum den Wert des amerikanischen

01:01:54: Unternehmens gestützt hätte, statt jetzt zusätzliche Absatzkanäle für Huawei aufzumachen? Aber nun gut.

01:02:00: [Barbara Lampl] Das ist genauso gut wie: Hätten wir das Atomabkommen nicht angezündet? Ich glaube, diese Frage ist offensichtlich. Aber außer anderen philosophischen

01:02:10: Fragen — die klären wir dann in anderen Podcasts.

01:02:15: [E-Fuchs] Ja, definitiv. Was sonst noch gesehen? Extreme Kostenverzerrungen bei chinesischen Modellen haben wir gesehen. Es hat sich viel gewandelt. Alle achten

01:02:25: mehr auf ihre Architekturen und auf den Tokenverbrauch. Kapazität ist im Moment einfach endlich. Bei den Agents bin ich mir noch nicht so ganz sicher — du hast

01:02:39: es vorhin schon erwähnt, dass sie die Anzahl der Agents zurückgebaut haben.

01:02:45: [Barbara Lampl] Das sind die Subagents im Spin im 4.6er und im 4.7er. Das ist eine Multiagent-Architektur, die auf der Architektur des LLMs abläuft. Die haben sie

01:02:56: im Unterschied vom 4.6er zum 4.7er reduziert. Weil das einfach so fucking teuer geworden ist. Weil die Leute halt immer fauler geworden sind. Damit haben sie

01:03:09: immer mehr Agent-Thinking und Reasoning-Inferenzen verbrannt. Das haben sie eingegrenzt. That's it.

01:03:15: [E-Fuchs] Ja, auch eine Performance-Maßnahme. Gut, ja. Haben wir sonst noch irgendwas Spannendes übersehen?

01:03:22: [Barbara Lampl] Nö. Denkt dran: Prompting Guides checken und außerdem richtig lesen.

01:03:30: [E-Fuchs] Dann nehme ich das als Schlusswort. Herzlichen Dank, Barbara, an dich für deine Zeit. Zuhörer, vielen Dank fürs Zuhören. Zuhörer und Zuhörerinnen, wir freuen

01:03:39: uns darauf, wenn ihr beim nächsten Mal wieder bei uns einschaltet. Bis bald, tschüss!

01:03:45: [Barbara Lampl] Bis dann! Bis bald!