Deep Research Mal 3 - oder: Die Reasoning-Modell-Rebellion

Shownotes

Willkommen bei der ersten offiziellen Folge von LAIer 8|9! Barbara "AI Babsi" Lampl und Jochen "E-Fuchs" Fuchs stürzen sich kopfüber in die Welt der KI-Reasoning-Modelle und zeigen dir, warum plötzlich alle von "Deep Research" sprechen (obwohl sie alle etwas anderes meinen).

In dieser Episode erfährst du, wie sich Reasoning-Modelle von klassischen LLMs unterscheiden, warum Deep Research bei Google, OpenAI und Perplexity genau das Gleiche und doch komplett anders ist, und wie du mit diesen neuen Tools tatsächlich arbeiten kannst. Zwischen unterhaltsamen Ablenkungen durch Katzen, Kinder und Eichhörnchen-Gehirne tauchen Barbara und Jochen tief in die technischen Details ein: von Token-Funktionen über Reinforcement Learning bis zu effektivem Prompting.

Und natürlich kommen auch die neuesten KI-News nicht zu kurz – von Elon Musks GROK 3 bis zu den mysteriösen Hybridmodellen, die OpenAI und Anthropic planen (und warum Barbara dabei Schweißperlen auf der Stirn bekommt).

Ein informativer, unterhaltsamer und erfrischend unaufgeregter Blick hinter die Kulissen der KI-Entwicklung – genau das, was der überhitzte Diskurs gerade braucht.

00:00 Einführung in den KI-Podcast 03:34 Vorstellung der Hosts und ihrer Hintergründe 06:43 Die neuesten Entwicklungen in der KI-Forschung 12:29 Unterschiede zwischen klassischen LLMs und Reasoning-Modellen 17:59 Die Architektur von KI-Agenten und deren Funktionsweise 21:23 Die Funktionsweise von KI-gestützten Recherchemodellen 24:04 Effektives Prompting für KI-Modelle 28:58 Der Einfluss von Fachsprache und Kontext 30:51 Unterschiede zwischen Reasoning- und Research-Modellen 34:35 Aktuelle Entwicklungen in der KI-Welt 42:11 Hybridmodelle in der KI: Chancen und Herausforderungen

🥳 Danke, dass du LAIer 8|9 eingeschaltet hast! Möge die KI mit dir sein!

Schreib uns eine Bewertung mit dem KI-Modell deiner Wahl und abonniere uns auf deiner Lieblingsplattform, wir sind überall, es gibt kein Entrinnen!

Apple Deezer Spotify Amazon Music Youtube (Video-Podcast)

Unsere Hosts AI Babsi: (Barbara) Website | LinkedIn - E-Fuchs: (Jochen) Website | LinkedIn

Unser Podcast Blog https://efuchs.net/category/laier89/

01001100 01110101 01101011 01100101 00101100 00100000 01001001 01100011 01101000 00100000 01100010 01101001 01101110 00100000 01100100 01100101 01101001 01101110 00100000 01001011 01001001 00101101 01010000 01101111 01100100 01100011 01100001 01110011 01110100 00100000 01001100 01000001 01001001 01100101 01110010 00100000 00111000 01111100 00111001 00101110

Transkript anzeigen

Der E-Fuchs (Jochen G. Fuchs): Hallo und herzlich willkommen bei der ersten Folge von Layer 8.9. Ja, liebe Barbara, hallo, noch ein KI-Podcast.

Barbara Lampl: Endlich noch einer! hat einfach so einer gefehlt! Glauben wir.

Der E-Fuchs (Jochen G. Fuchs): aber so was von... Wir sind quasi auch auf den Knien angefleht worden von der Welt noch einen KI-Podcast zu gründen und irgendwann haben wir gesagt, ja, wir lassen uns erweichen, jetzt ist es soweit. Ja, Barbara, magst dich unseren Zuschauerinnen oder Zuhörerinnen kurz vorstellen? Wer bist du und was willst du hier?

Barbara Lampl: Gibt's uns ein paar. Ja, das ist eine philosophische Frage. nicht ablenken lassen, liebes Hirn. Barbara, wer mir irgendwo folgt und mitbekommen hat, ich habe einen professionellen Spitznamen, der da lautet AI-Bubsi. Das fasst dann auch mal eine Jobbeschreibung der letzten 20 Jahre zusammen, wobei ich gerne ergänzen würde, dass es ursprünglich mal eine Data-Tech-Bubsi war, aus sehr internen Kreisen, die dann letztes Jahr final zur AI-Bubsi geworden ist. Aber ich mache genau das. Daten und AI-Stars seit 20 Jahren im professionellen Umfeld über alle Varianten, die wir der Modellierung so kennen. Händchen halten bei vielen Projekten und dafür bespaß ich euch hier zusammen mit Jochen ein bisschen Blick. Ja, für mich sind die Praxis hinter die Kulissen Einordnungen mit Humor aber ziemlich unaufgeregt.

Der E-Fuchs (Jochen G. Fuchs): bevor ich das Geheimnis meine Identität lüfte, habe ich noch ein, zwei Sachen, ich über dich weiß und wo ich nochmal kurz nachfrage. Das eine ist, ich weiß, dass du auch tatsächlich KI unterrichtest als

Barbara Lampl: Ja. Frag nach, bevor wir zu dir kommen. Leerauftrags in Data Science seit neun Jahren.

Der E-Fuchs (Jochen G. Fuchs): Das eine als Dozentin und das andere ist, du kommst irgendwie aus der Börsenwelt. Ist das richtig?

Barbara Lampl: Aus dem, was jetzt alle dank Dieb Sie gewissen, was ein Quant ist, da fing meine Berufskarriere mal an. Richtig, also vor vielen, vielen Jahren war ich, heute bin ich es nicht mehr wirklich, ich bin nicht mehr hart der Teil der Quanten-Definance-Welt, aber da komme ich ursprünglich her. Richtig.

Der E-Fuchs (Jochen G. Fuchs): Wollen wir jetzt erklären, was ein Quantfonds ist oder wann dann oben wird die Hirne dann...

Barbara Lampl: Ne, das unterstellen wir jetzt mal nach dem Adip-Sieg. So ein Hype war das, das unterstellen wir. Und ansonsten erklären wir es euch in einer der nächsten Folgen, in dem ihr brav unten drunter kommentiert und was ihr schon immer über uns wissen wolltet in unserem Intro für unseren neuen Podcast. Aber Jochen, wir wissen ja noch gar nicht, wer du bist. Also ich schon, aber der Rest, wer weiß, vielleicht kennt dich ja jemand nicht.

Der E-Fuchs (Jochen G. Fuchs): Jetzt hast du gespoilert, du hast meinen Vornamen gesagt. Gut, aber ich glaube, der steht wahrscheinlich eh im Bildschirm. Irgendjemand hätte mich auch für Wonka halten können. Gott, müssen wir jetzt eigentlich Lizenzrechte zahlen, weil ich... Nein, nichts gehört und gesehen. Zurück zum Fokus. Ich bin Jochen G. Fuchs, auch bekannt als der E-Fuchs in der E-Commerce-Szene. Ich bin Redakteur, genauer gesagt Ressortleiter für KI und Tech bei W &V, dem Marketing...

Barbara Lampl: Gott, sind hier schon wieder abgelenkt. Zurück zum Fokus, zurück zum Thema.

Der E-Fuchs (Jochen G. Fuchs): Das heißt, ich schreibe in meinem Alltag über KI. Sprich, habe mir irgendwann gedacht, wenn du darüber schreibst, solltest du auch mehr darüber wissen. je mehr ich darüber schreibe, desto stärker merke ich, wie wenig ich doch darüber weiß und habe mir dafür dann professionelle Unterstützung geholt mit unserer lieben AI-Babsi. So viel zu mir und auch bei mir gilt, wenn ihr mehr wissen wollt, schreibt es in die Kommentare, dann verrate ich auch mehr über mich. Ja, ansonsten kommen wir doch zum Thema, oder?

Barbara Lampl: ein guter Plan. Ihr merkt schon, haben Eichhörnchen-Gehirne. Wir können manchmal schnell abgelenkt werden. Also wir groover uns hier ein und wir werden aber auch sehr strukturiert, denn heute kommen wir, wir können ständig den gleichen, wir können diese Podcast-Folge nennen. Wir nennen ständig das Gleiche, meinen was anderes, weil KI Foundation Model-Bauchfirmen wahnsinnig kreativ im Benamen ihrer Modelle sind.

Der E-Fuchs (Jochen G. Fuchs): listen! Ja genau das ist das das ist genial also jetzt gerade ist Perplexity Deep Research rausgekommen ein KI-Recherche Feature der KI-Antwortmaschine Perplexity ich nenne sie jetzt mal so wie sie sich selbst in ihrem Marketing Sprech nennen und soll ich aber sagen mir kommt das so vor als hätte ich diesen Begriff Deep Research im gleichen Kontext schon mal gehört kann das sein?

Barbara Lampl: Du kannst jetzt aussuchen, du bei Google gehört hast. Da hatten wir ihn als allererstes vor einigen Wochen oder vor rund zehn Tagen auch bei OpenAI. Die heißen alle Deep Research.

Der E-Fuchs (Jochen G. Fuchs): Stimmt. ich glaube, die Fleißbiene für Kreativität kriegt unser Freund und Kupfer-Sprecher Elon Musk, dessen Team hat nämlich die Recherche-Funktionalität. Pass auf, ich sag die eine Hälfte und du die andere. Dieb! Genial, ja.

Barbara Lampl: Was auch immer. Search! Genau. Ja, also GROG 3 ist rausgekommen, hat auch Search-Funktionalität, hat auch Reasoning-Funktionalität und man nennt es dann da Deep Search. Läuft bei uns. Also, keine Ahnung, ob die jetzt keine LLMs haben oder ob deren LLMs keine Kreativität haben. Man weiß es nicht so genau. Egal.

Der E-Fuchs (Jochen G. Fuchs): Vermutlich, wenn der Produktmanager, der dafür verantwortlich ist, das eingibt, kommt wahrscheinlich als Antwort immer zurück. Tut mir leid, diese Anfrage verstößt gegen die Contentrichtlinien von OpenAI und ich kann dir darauf nicht antworten.

Barbara Lampl: Wir wissen es nicht so genau, aber wie gesagt, alle haben nach dem DeepSeek und jetzt muss man quasi einmal vorgreifen, DeepSeek R1 rausgekommen ist, was eine sehr neue Generation an Reasoning-Modellen angestoßen hat. Übrigens Deep Research von Google war vor dem DeepSeek R1-Hype, das waren deswegen die ersten, aufgebaut auf der Funktionalität vom Notebook LM, was wir davor schon kannten. Haben wir diese Beta-Version und jetzt... was auch immer das jetzt für ein Release ist, schon bisschen länger. Also Google waren die ersten und jetzt ist der ganze Rest obendrauf gesprungen. Alles mit seinen Vor- und Nachteilen, aber das ist jetzt quasi the new shit in town.

Der E-Fuchs (Jochen G. Fuchs): Genau. Für alle, die Notebook LM nicht können, ist dieses Canon, das ist dieses geniale Feature, wo du irgendwas reinschmeißt und hinterher kommen zwei KI-Menschen heraus, die sich locker flockig in einem Podcast, also so wie wir quasi, nur nicht so schön, unterhalten über das Thema. Ja, aber sind die alle in dem gleichen Kontext unterwegs? Also ist das alles, ich fasse es jetzt mal mit dem Stichwort

Barbara Lampl: Richtig. Und nicht so echt. Genau.

Der E-Fuchs (Jochen G. Fuchs): Search meets LLM zusammen.

Barbara Lampl: Ja, sie sind alle sogar noch eine Variante weiter. Es ist in dem Fall nicht nur Search meets LLM, sondern Search meets LLM und Reasoning-Funktionalität oder Thinking-Funktionalität. Übrigens, beide Begriffe werden relativ gleich verwendet, je nachdem, mit wem man redet. Also alle haben irgendwie jetzt, wir durchsuchen irgendwie das Internet nach weiteren Quellen, also die Search-Funktionalität. Alle basieren in ihrer Grundkonstruktion auf einen LLM. Und alle ballern dann noch mal obendrauf eine Reasoning Thinking Funktionalität, diese Recherchen bzw. den Prozess besser zu machen, klarer zu machen, zu vertiefen. alle basieren auf einer gleich ist natürlich schwierig zu sagen, wir haben ja jetzt ja keine Specs oder keine Tech-Doku, wo ich durchgehen kann und sagen, die sind alle gleich gebaut. Aber natürlich sind sie alle irgendwie ähnlich gebaut und sie haben alle ähnliche und gleiche Bestandteile. Alle Modelle sind unterschiedlich trainiert, alle Modelle graufen auf unterschiedliche Varianten. der Search natürlich zu und so weiter, aber in ihrer Grund, nennen wir es mal Architektur, sind die Dinge alle relativ ähnlich gebaut und den gleichen Bestandteilen.

Der E-Fuchs (Jochen G. Fuchs): Okay, das macht es jetzt für mich natürlich nicht leichter, wenn ich mich entscheiden soll, welche von diesen Beestern ich benutzen soll. Hast du persönlich aus der Erfahrung einen Favoriten? Also, die GROG 3-Kram, den ist ja gerade erst gekommen, den können wir noch gar nicht testen, nicht viel dazu erzählen. Ich habe per Plexity Deep Research getestet und auf LinkedIn und auch bei W &V einen Artikel darüber geschrieben, bisschen gepromptet, kleine Promtanleitungen geschrieben.

Barbara Lampl: Können wir ja noch gar nicht testen. Genau.

Der E-Fuchs (Jochen G. Fuchs): Die anderen muss ich zu meiner Schande gestehen, ich noch gar nicht ausprobiert.

Barbara Lampl: Ich habe sowohl angefangen, gleich im Beta Release, quasi wahrscheinlich sogar noch vor dem Beta Release, Google's Deep Research zu nutzen und war ganz ordentlich beeindruckt, was es da so quasi machen kann. Wer weiß, ich bin ja nicht unbedingt der größte Freund von einer, wir fügen lustige Algorithmen zusammen, also Search mit LLM, sind zwei sehr unterschiedliche Architekturen, die ja auch dementsprechend heikel sein können. Das haben sie da aber definitiv schon mal eleganter gelöst. Ich hatte den 01. sowohl in der normalen als in der Pro als Reasoning-Modelle im Einsatz und habe jetzt auch mit dem schon rumgespielt. Ehrlicherweise, die verhalten sich auch als Deep-Sea-Air1 als Reasoning-Modell, alle brav durch. Ich nenne sie mal liebevoll getestet, denn evaluieren, was ja allmich meine Jobbeschreibung wäre, also saubere Evaluationssachen, sind da gerade aktuell noch nicht möglich. Aus ZIGA haben wir noch keine sauberen Frameworks dafür. Und die härteste Herausforderung bei diesen Kombinationen dieser Modelle ist, dass man wirklich auch echt gute Fragen stellen muss, also knifflige Fragen stellen muss, irgendwie eine Benchmark oder sonst was oder irgendeinen Evaluationsprozess laufen zu lassen. Also ja, alle getestet, aber mehr in diesem, okay, ich teste mal ein bisschen random durch die Gegend mit ja, auch den gleichen Fragen in allen Modellen, aber irgendwie kommt immer relativ das Ähnliches raus, alles hat so seine Vor- Nachteile, alle irgendwie relativ, ja, kuppwig sprungen, würde man sagen.

Der E-Fuchs (Jochen G. Fuchs): Ich muss gerade lachen, weil ich im Hintergrund ein Geräusch höre. weiß nicht, ob du das auch hörst, Barbara. Ich habe an alles gedacht, so Frau und Kinder vorgewarnt. Ich nehme den Podcast aus, ich habe meine Tür zum Homeoffice abgeschlossen. Weißt du, an wen ich nicht gedacht habe?

Barbara Lampl: Hund, Katze, Maus.

Der E-Fuchs (Jochen G. Fuchs): Genau, die Maus. Nein, meine Katze. schläft normalerweise hinter mir auf einem Platz und die versucht jetzt gerade verzweifelt reinzukommen und die macht ihre Türen immer selber auf. Die springt hoch, macht die Türklink zu, macht das Mist für die natürlich nicht, macht sie auf und jetzt gerade hüpft sie draußen wie so eine wildgewordene LLM und versucht immer wieder mit dem Kopf gegen die Wand zu rennen und reinzukommen. Ich glaube, sie hat es jetzt aufgegeben. Wir kommen also ohne Störungen weiter.

Barbara Lampl: Sehr gut. Also für euch merkt schon, ist ein Live-Podcast. Wir grooven uns hier noch ein, Folge eins. Also verzeiht uns vielleicht noch ein paar das ein oder andere Ruffe, aber auf der anderen Seite, vielleicht macht es ja auch bisschen charmanter.

Der E-Fuchs (Jochen G. Fuchs): Das ist live. Wer Katzen nicht abkann, meine, Cat Content ist doch sowieso eine heiße Scheiße, oder? Und eine Katze, man nicht sieht, macht doch total, irgendwann muss ich die Katze mal in dem Podcast so zeigen. Okay.

Barbara Lampl: Das ist die ganz neue Form der Halluzination. Zurück zum Thema, raus aus dem Eichhörnchen-Modus.

Der E-Fuchs (Jochen G. Fuchs): Genau. Okay, also richtig abgrenzen. bei Deep Research habe ich jetzt gesehen, das Ding spuckt so zwischen fünf und acht Seiten raus, also 10-12.000 Zeichen mit Leerzeichen habe ich meistens raus gekriegt. Mir scheint mehr macht er nicht. Keine Ahnung ob das dann heißt, dass das Kontextfenster nicht mehr zulässt oder woran es liegt, weiß ich nicht, aber das war das, was ich jetzt so gesehen habe.

Barbara Lampl: Grundsätzlich ist das Kontext Fenster bei OpenAIMO1 und dem Pro ein bisschen größer. Grundsätzlich ist es auch bei Google. Nochmal, das ist aber alles... Ich muss aber so bisschen lachen. In dem Fall heißt größer nicht unbedingt besser und erst recht nicht ob das... Achtung, jetzt wird es noch besser. Ob das Tool mit der vorhandenen Größe des Kontext Windows überhaupt umgehen kann. Es kommt darauf die Technik drauf an. Mann ey, aussagen den Podcast.

Der E-Fuchs (Jochen G. Fuchs): So, Dankeschön. Jetzt können wir einen Altersfreigabesiegel an dieses Podcast machen. Hervorragend. Die Sendenpodcast. Gut, dann lass uns doch mal ein bisschen einen Blick unter die Motorhaube werfen. Das, was die technische Basis von diesem ganzen Deep Research Modi ist, ist ja das Reasoning oder auch

Barbara Lampl: Haha Ja.

Der E-Fuchs (Jochen G. Fuchs): Thinking Modell. Was ist eigentlich jetzt das Reasoning Modell genau und was ist der Unterschied zu einem klassischen LLM?

Barbara Lampl: Also wenn wir irgendwie die klassischen LLMs haben, die kennt ihr jetzt alle. waren so die meisten sind ja von euch so November 2022 mit JGPT in die LLM Welt eingeschalten. Das heißt du hast so einen Prompt, da gibst du aber rein und dann generiert dieses LLM was für dich. Meistens Text, kann aber auch ein paar Bilder, die anderen können ein Videos generieren. Das ist grundsätzlich warum wir das Ganze JNRE einnennen. Und die klassischen LLMs, die heute auch super performant und dicht gepackt und cool geworden sind. Das heißt, da baust du relativ an den Prompt rum, du da was Schickes rausgekommen hast. du hast jetzt nicht irgendwie diese künstliche Ebene drin, die die Reasoning- und Thinking-Modelle haben, die klassischerweise aus dem Reinforcement-Learning kommen. Das ist eine andere Art, wie wir im Maschinen-, also quasi Reinforcement-Learning gehört in die Kategorie des Maschinen-Learnings. LLMs sind aufgebaut auf einer Deep-Learning-Kategorie. Da unterscheiden wir so als technische Über-, als Überbegriffe. zu verankern, welche Algorithmen wir damit meinen. das Reinforcement Learning gehört, wie gesagt, in die Kategorie des Maschinen-Learnings. Und die Reasoning-Modelle verbinden jetzt der aktuelle Status Quo zwei Dinge. Das, was ihr eventuell aus dem Large-Language-Modell klassisch prompting kennt als Chain of Thought oder eventuell Tree of Thought prompt. Darauf sind die witzigerweise entwickelt worden, weil wir die alle so gepromptet haben und dann haben sich die Modellbauer gedacht, das könnte man doch eigentlich auch in einem Model-Assembler zusammenbauen, das ist ja eine coole Technik, könnte das Ganze besser machen. Die aktuelle Generation hat da noch eine Layer Reinforcement Learning reingeknallt oder eine sehr viel elegantere Reinforcement Learning Layer reingeknallt. Und so sind diese Reasoning-Modelle entstanden. Grundsätzlich könnt ihr euch das so vorstellen, deswegen finde ich fast Thinking-Modelle so bisschen den besseren Begriff, es nachzuvollziehen. Ihr gebt dem Ding eine Aufgabe, gebt mir x, y, also ihr promptet auch quasi das LLM, dem gibst du viele Anweisungen und Kontext und was du gerne alles hättest, aber gar nicht so aufs Resultat bezogen. Während du quasi beim Reasoning- oder Thinking-Modell dem sagst, ich hätte gerne diesen Output, von mir ist irgendein Report, und dann organisiert sich das quasi selber, weil es eben halt die Steps dann quasi durchgeht, selber Schritte, die basierend auf den Schritten sich wieder rückbezieht, bist du dann irgendwann ein Ergebnis in Händen hast. Und deswegen ist Thinking-Modell, wie gesagt, es baut seine Schritte auf, es durchdenkt das Ganze, und dann hast du irgendwann den Output, und das ist im Prinzip ein Reasoning-Modell. Wenn es dann noch im Internet suchen kann, dann ist es Deep Research.

Der E-Fuchs (Jochen G. Fuchs): Mir ist was eingefallen. Ich stoße immer mal wieder, gerade so im Kontext der Enterprise-Lösungen, auf die sogenannte Reasoning Engine, ein Marketingbegriff, der meistens für Bilderumgebungen verwendet wird, mit denen du KI-Agenten erstellen kannst. Also ein Beispiel ist, Salesforce hat eine Plattform, heißt AgentForce. Und da erzählen die einem dann immer, wenn es Agent Force geht, dass da zwischendrin eben ihre Reasoning Engine Atlas sitzt. Und man trifft das dann auch bei, was weiß ich, bei HubSpot beispielsweise, da heißt das Beast dann Breeze. Ist das ein in die Plattform angepasstes Reasoning Modell, das so als Entscheidungsinstanz zwischendrin sitzt? Vermutlich...

Barbara Lampl: Ja, also Achtung immer wieder bei solchen Sachen. müsst euch immer wieder vorstellen, wir haben ganz viele Marketing Begriffe, die klingen dann wahnsinnig schick. Wir haben meistens keine Deep Dive Doku oder irgendetwas. Das heißt, viel von dem, was ich auch sage, ist nicht, dass ich es nicht erklären könnte. Aber ich weiß es einfach nicht und zwar nicht, weil ich so dumpf bin, sondern weil es mir keiner sagt und ich es nicht nachschlagen kann. Nur um es mal vorwegzunehmen. Die ja genau das. Also das sind halt zusätzliche Reasoning. Wie gesagt, die Idee des Grundsätzlich war mal kurz vorne an. Large-Language-Modelle sind cool beim Generieren, aber die können nicht so wirklich, also denken die ja nicht richtig, sondern die sind halt nicht so sonderlich stark in logischer Ab-Hintereinander-Reihenfolge. Also wenn du logische Probleme hast, die mehrere Steps erfordern, dann musst du die ja irgendwie sortieren. Also wenn du die Zutaten für deinen Schokokuchen einfach ohne irgendwas mit denen zu tun in den Backofen rein knallst, kommt da kein Schokokuchen raus, sondern die Feuerwehr vorbei, weil du dein Haus abfackelst. Du musst also die Eier schon aufschlagen und sonst irgendwas, einen echten Kuchen backen und der landet dann im Backofen. Was für euch jetzt zu trivial klingt, der ist doch logisch. Ja, das ist für die LLMs nicht ganz so unbedingt und deswegen ist Reasoning and Thinking häufig der Versuch logische Abschlussfolgen irgendwo hintereinander zu organisieren. Da haben wir diverseste Techniken und deswegen weiß ich immer nicht genau, was die tun, weil das kann sogenannt Rule-Base sein, also regelbasiert, Tourschritt 1, 2, 3, 4, 5. Das kann Advanced sein durch LLMs, untereinander quasi auf ihrem davor generierten Output einen neuen Input generieren und den nächsten Schritt zu erzeugen. Das kann eine heitere Mischung daraus sein. Da gibt es so ziemlich alles. Und dann hat das alles den gleichen Namen zurück zu Deep Research hoch drei. Und keiner weiß genau, was jetzt wirklich innen drin hinter dem Marketingbegriff versteckt. Wie gesagt, nicht, weil wir zu doof sind, sondern weil wir wie gesagt, wir können es halt selten nachschlagen. deswegen so entsteht dieses Chaos.

Der E-Fuchs (Jochen G. Fuchs): Ich habe es erklärt bekommen, ich habe es auch irgendwo erklärt, ich kriege die Erklärung jetzt aber nicht so zusammen, dass ich der Sache gerecht werde, deswegen lasse ich es bleiben. Ich erkläre es bloß sinngemäß, es scheint eine Reihe von hintereinander geschalteten modifizierten LLM Modellen zu sein, die dann in so einer Abfolge sich gegenseitig überprüfen.

Barbara Lampl: Tugend. Das ist dann wieder eine Multi-Agent Workflow, das ist wieder was anderes.

Der E-Fuchs (Jochen G. Fuchs): Okay, dann enden wir mal an der Stelle, bevor ich dann auch den Kollegen bei Sales Force Unrecht tue. Wir werden noch eine Folge...

Barbara Lampl: Wenn es euch interessiert, wir eine Special-Folge dazu machen und uns das mal Detail angucken. Zurück zu den aktuellen lustigen Reasoning-Modellen der anderen.

Der E-Fuchs (Jochen G. Fuchs): Eines Genau, Reasoning Modelle Unterschied zu klassischen LLMs. Da waren wir stehen geblieben. Was bei mir aufgetaucht ist und ich auch schon geschrieben habe, weil es andere auch schon so einsortiert haben, ist, und du es jetzt auch gerade erwähnt hast, eine KI-Agentenarchitektur ist jetzt aber eigentlich nicht das, was hier gerade passiert. Also die Research & Co. die basieren nicht auf einer KI-Agentenarchitektur.

Barbara Lampl: LLMs. Also zumindest nicht, dass wir es wissen. Das ist eine Kombination aus einem erweiterten Token, Funktion und Kontext-Window-Funktion zusammen mit Reinforcement Learning. Nach unserem aktuellen Wissenstand sind da keine Agents in Spiel. Das wäre auch ungewöhnlich, weil das einfach nochmal viel, viel a. figgeliger ist, b. noch chaotischer von Computer und sonst irgendwas. Das würde rein vom Bauen her wenig Sinn machen. Das sind wirklich weiterentwickelnde Techniken in der Architektur quasi oder im Assemble. von einem LLM. Definitiv was wir wissen ist, dass quasi die Tokenfunktion angepasst wurde, die Tokenverwendung angepasst worden ist, dass das weitergegeben wird und wie gesagt das Reasoning A auf diesem Idee eines Chain of Thought Promptings aufbaut zusammen eben wie gesagt mit dem Reinforcement Learning. Das Reinforcement Learning, könnt ihr euch vorstellen, eine Belohnungsfunktion, wenn ihr die ominöse Katze, die wir jetzt ja heute schon hatten, trainieren und der sagen, hey das ist hier, hier wenn du das Pfötchen hebst, gibt's ein Guzzi. Hier ist dein Leckerli, das ist im Prinzip Reinforcement Learning, das heißt wir enforceen quasi the good. Es gibt auch Techniken, da kann man auch the bad, aber das ist wie gesagt, wird alles immer ein bisschen komplexer als man sich das so denkt, aber das ist Reinforcement Learning, heißt hier ist das Leckerli, hat du gut gemacht und dann weiß das, davon machen wir jetzt mehr.

Der E-Fuchs (Jochen G. Fuchs): Okay, was ich weiß ist, das ein mehrstufiger Analyseprozess ist. Also ich gehe jetzt mal zu Perplexity, über die ich gerade geschrieben und die ich gerade getestet habe, zurück in einem Deep Research. Wie stelle ich mir das dann vor? wir vermuten alle, es steckt Deep Seek R1 als Basis hintendran. Also wissen wir es nicht, soweit ich weiß.

Barbara Lampl: Ne, wissen tun wir's nicht.

Der E-Fuchs (Jochen G. Fuchs): gibt noch kein Paper dazu und kein Background. Es gibt einen Blogpost und eine Ankündigung vom CEO Srenevas, aber sonst habe ich noch nichts gefunden dazu. Barbara offensichtlich auch nicht.

Barbara Lampl: Nein. Also worauf die jetzt ihr Perplexity aufgebaut haben, es gibt mehrere Möglichkeiten, worauf sie aufgesetzt haben. Die Vermutung ist, dass sie das Deep Seagear One genommen haben und weiterentwickelt haben. Das würde unter vielen Aspekten Sinn machen. Es kann aber auch eins sein, dass sie auf Open Air aufgesetzt haben oder auf Google. No clue. Ich kann es euch nicht sagen. Es ist unwahrscheinlich, dass sie jetzt komplett selbst was gebaut haben, aber irgendwas werden sie weiterentwickelt haben.

Der E-Fuchs (Jochen G. Fuchs): Okay, jetzt ist das ja so, wenn wir mal kurz einfach darüber sprechen, vielleicht was da passiert im Hintergrund. Ich gebe meinen Prompt ein und dann taucht das Ding hier ab. Das ist ein bisschen anders wie bei der normalen Konversation mit so einem LLM. Wenn ich da aus der Konversation raus gehe, bricht er ja in der Regel ab und produziert nicht weiter. Hier produzieren sie aber alle vermute ich mal weiter.

Barbara Lampl: Ja alle.

Der E-Fuchs (Jochen G. Fuchs): Und präsentieren die dann irgendwann das fertige Ergebnis. Wenn man da sitzt und dieser Funktion dabei zuschaut, wie sie arbeitet, dann tut sie etwas, was so aussieht, als würde sie denken. Also sie emuliert quasi die menschliche Recherche und offenbart etwas, was aussieht wie ein Gedankenprozess. Was passiert da jetzt eigentlich tatsächlich im Background?

Barbara Lampl: im Backend passiert und das muss man ein bisschen auseinanderhalten, weil das was nach vorne raus kommuniziert wird, würde ich ein bisschen als heikel definieren, kommen wir nochmal in einer anderen Folge drauf rauf, aber vorne nach außen wird was kommuniziert, was das Ding gerade tut, was es sicher im Hintergrund tut, wissen wir. Das ist genau das, was ich gerade gesagt habe. Du gibst deinen Input ein, mit mache mir ein Report zu XY, also Recherche und Reports erstellen, ist halt so ein Standard-Use-Case mit den Dingern. geht aber auch natürlich für Code oder harte Probleme. Dann nimmt es diesen Input und baut aus dem Input zusammen mit deinem, was du auch sonst noch da in den Prompt oder Kontext reingegeben hast, legt es eben los, macht eine erste Iteration. Basierend auf dieser ersten Iteration versucht es quasi gegen zu checken, darauf aufzusetzen und das macht es in mehreren Iterationsläufen, bis das Ding irgendwie entweder entschieden hat, ich habe genügend Läufe durch, ich bin happy genug, es hat meine eigenen Qualitätsstandards erfüllt. Da wird es jetzt, ihr merkt schon, ein bisschen nebelös. Und dann hast du irgendwann diesen Output. Aber was sicherlich im Hintergrund passiert ist, wie gesagt, dieser Iteration, Prozess. bis du dann deinen Output hast, ob jetzt die Ausgabe nach vorne wirklich repräsentiert, was im Hintergrundgrund gerade abläuft. Und Achtung, das ist keine Unterstellung, dass die da irgendwas erzählen, sondern wir wissen, dass LLMs auch in der Frontausgabe uns gerne mal einem vom Horst erzählen, nennt sich Halluzination. Das kann auch da der Fall sein, aber wie gesagt, im Hintergrund passiert ein iterativer Prozess, basierend auf eben wie gesagt Chain of Thought Ideen, Reasoning Geschichten, Reinforcement Learning in iterativer Nummer. Der nächste Output wird zum nächsten Input und so weiter. Dann hast du irgendwann dein Ergebnis. Wie gesagt, das mit der Variante zusammen mit echten Webquellen oder ohne. Das hängt dann auf, was du gerade riesig pur nutzt oder eben eines der sogenannten Research Modelle, wo die Suchfunktionalität eingebaut ist.

Der E-Fuchs (Jochen G. Fuchs): Okay, spannend. Jetzt funktioniert das ja nicht wie üblich. Man muss da schon ein bisschen darauf achten, was man dem Feature für einen Auftrag gibt und wie man den formuliert. worauf soll man denn da achten? ich habe das mal versucht zu beschreiben, so wie es bei mir gut funktioniert hat. Der erste Punkt war, ich gebe ihm ein Ziel vor. Ich sage, was ich genau wissen möchte und definiere den Output irgendwie. Das heißt, sage, was erwarte ich zurück, was soll zurückkommen. Dann baue ich ein paar Guardrails ein. Ich habe ihm vorsichtshalber, da ich erfahrungsgemäß weiß, dass auch ein Reasoning-Modell vor sich hin hallucinieren kann, gesagt, prüfe bitte, ob das, was von dir wieder zurückgegeben hat, tatsächlich meinen Anforderungen entspricht, ob existiert. Ich hatte reingegeben, ich habe es so getan, wäre ich ein CMO von der Kosmetik-Marke und er sollte für mich mal eine Marktforschung machen und habe dann gesagt, zeig mir mal ein paar Best-Practices. von ein paar Marken und gesagt so pass bitte auf dass es die Marken wirklich gibt, dass die wirklich aus dem Kosmetikbereich sind und dass es auch wirklich best practices sind und nicht irgendeinen Nonsens und dann habe ich ihm einen Kontext mitgegeben, habe gesagt so wer bin ich eben CMO einer Kosmetik Marke bla bla bla was will ich, will ein Produkt launchen für XY, für Zielgruppe junge Leute, tralala das ist mein Kontext Und das war dann so mein Prompt. Ich hab da auch mal bisschen rumgespielt und hab da mehr Kontext, mal ein bisschen mehr, mal seitenweise Kontext reingekippt und hatte zum Schluss das Gefühl je mehr Kontext ich dem Dinge gebe, desto mehr Bullshit produziert das. Wie siehst du das?

Barbara Lampl: Grundsätzlich müssen Reasoning-Modelle mit oder ohne Search-Funktion anders gepromptet werden als klassische LLMs. Beim LLM klassischen Prompting könnt ihr wirklich, da seid ihr der Control-Freak, so bilde ich auch alle aus, dem Prompt ist euer Kontrollinstrument, also echt gutes Prompt-Engineering ist key. Prompt-Engineering aber in Reasoning-Modellen funktioniert ganz anders. Übrigens für die Deutschsprachigen, hier, sprechen ja Deutsch, eine der größten Herausforderungen, ich muss Resultat prompten, das heißt, Ich vorgeben, was das Ergebnis ist. Das ist von unserem deutschen Gehirn ein bisschen komplexer. Vielleicht lässt ein anderes LLM euch helfen, das Resultat zu definieren, was ihr gerne hättet. Role Prompting, ich meine nicht, dass es grundsätzlich angezündet ist, aber das hat überhaupt gar nichts. Dass du ein CMO bist, das CMO-Role ist völlig irrelevant. Es muss alles aufs Resultat zugegeben sein. Das Ergebnis von mir ist eine Marktforschung für Kosmetikmarken in was auch immer Deutschsprachenbereich mit Zielgruppen, Sonst irgendwas, das muss da rein. Guardrails ist auf jeden Fall richtig, denn Guardrails ist weniger, also ja, du kannst sagen, die Quellen und die Marken müssen existieren. Ja, das ist ein Teil der Guardrails, aber das Wichtige ist auch zum Beispiel einzuschränken. quasi die Guardrails sind andersrum als beim Positivprompten der LLMs, wo ich nicht wirklich gut mit Guardrails arbeiten kann, weil dann denkt das nicht an den Rosalelefanten, das läuft dann genauso wie wir uns das vorstellen. In dem Fall schränken wir mit Guardrails insbesondere den Reasoning und den Rechercheraum ein, dass es sich auf etwas funktioniert. Bleiben wir bei deinem Kosmetikmarken Beispiel von Mios für deutschsprachige, also kann in Deutschland erworben werden. Weil nicht jede Kosmetikmarke kann so trivial in Deutschland zum Beispiel kaufen, wenn es dir jetzt da Zickmarken ranbietet, die nur Sephora USA drin sind und ich in Deutschland gar nicht bestellen könnte, dann wäre das ja als die Immo total hinzupacken als Marktrecherchereport. heißt, Guardrails sind die Dinge, wo es nicht hin soll. Das funktioniert bei Reasoning Modellen sehr, sauber. Das wissen wir auch aus Custom GPTs bauen und auf grundsätzlich Chain of Thought Prompting, dass man so mit dem Nichter stärker arbeiten kann. Und Kontext ist so ein bisschen Kontext macht nur in den Reasoning Modellen Sinn, aber selten in den Research Sachen. Also da müsst ihr quasi wieder so bisschen gucken, was ich jetzt nutze. Kontext im Reasoning Modell ja. Im Research geht es ja eigentlich genau darum, Quellen zu finden, die du davor noch nicht kanntest, da macht also die Idee des Kontext gar keinen Sinn. Noch dazu, was ich ja gerade schon erklärt habe, jeder neue Output wird wieder zu einem Input. Das heißt, du bläst die Token-Funktion und damit das Kontext-Window. Token-Kontext-Window. Das heißt, irgendwann ist das Ding am Ende und dann fabuliert ist oder halliziniert ist es noch vor sich her. Das heißt, in einem Reasoning-Modell macht Kontext dazu, liefern häufig Sinn. In einem Research-Modell, ja, du sollst dich recherchieren, meistens nicht, es sei denn du kommst auf die Idee, Research als Quellen-Validierung, ob das jetzt irgendwie der Stein der Weisen ist, to be discussed, zu benutzen. Aber das sind die zwei unterschiedlichen Sachen. Reasoning-Modelle mit Kontext. Research macht Kontext eigentlich. wenig Sinn. Es gilt wie immer, nutzt Fachsprache. Das funktioniert in LLMs und in Reasoning- und Researchmodellen.

Der E-Fuchs (Jochen G. Fuchs): ist ein wichtiger Punkt, dieses Expert-Role-Prompting ist relativ Nonsens, weil das LLM nichts damit anfangen kann, sondern man muss quasi die Fachterminologie recherchieren, die für diesen Anwendungsfall geeignet ist und dann den Prompt in dieser Fachterminologie erstellen, das LLM auf den richtigen Pfad zu schicken. ich das richtig zusammengefasst?

Barbara Lampl: Genau, das hast du richtig geschickt quasi auf die sogenannten Pferde und Notes, wo das Wissen hinterlegt ist und das funktioniert natürlich in einem LM durch Sprache und je mehr die Sprache des Fachbereiches spricht, umso mehr kriegst du quasi, könnt ihr euch vorstellen, wie so push der in diese Richtung reingeht und das sollte man grundsätzlich immer nutzen. Genau, deswegen wenn ihr quasi in Code sprecht, dann wird es auch eher Code antworten als wenn ihr es nicht tut.

Der E-Fuchs (Jochen G. Fuchs): Okay, was mir jetzt gerade einfällt, ich arbeite bei Claude beispielsweise relativ viel mit Projekten. Ich hab da zum Beispiel für für mein Newsletter so einen Projektraum aufgebaut, wo ich eben x Dutzend Redaktionsrichtlinien geschrieben habe, so für jedes Format, ich habe, plus so ein paar generelle Vorgaben, sprachliche Vorgaben für das Formulieren, Zielgruppen, Formulierungen etc. pp. Das ist ja auch Kontext, wenn ich das jetzt mal so leihenhaft ausdrücken kann. Und wenn ich dann mit einem normalen LLM, also mit Claude drinne arbeite, dann verbessert das den Output schon extrem. Das, da rauskommt, ist welten von dem entfernt, was ich mit einem normalen Prompt, wenn ich einfach nur so den Stuff in die LLM kippe rauskriege. Wie ist denn das jetzt mit Deep Research? Also wenn ich jetzt quasi in dieses Ding reingehen würde und würde sagen, ich mache jetzt einen einfachen Deep Research Reasoning Prompt, schieß den ab und hoff dann das Magic, meinen Kontext, den ich da an der Seite rangeführt habe, dass den Output noch irgendwie verbessert. Nein.

Barbara Lampl: hat überhaupt gar keinen Sinn. Der Kontext der in Reasoning und Research Modelle rein muss, ist nicht sprachliche Natur, sondern fachlicher Natur zurück zu die Dinger sollen. müsst, die meisten verstehen die Reasoning und Research Modelle völlig falsch, die benutzen die wie LLMs. Was du völlig recht hast, in den LLM gibst du deine Style Instructions, sonst irgendwas mit dazu. AI kann nur in kleinen Aufgaben denken und in spezialisierten Aufgaben. Wir kommen dann in nächsten Folge nochmal auf meinen berühmt-berüchtigten Problem-Data-Model-Match hinaus. Ihr kommt mir da nicht aus. Grundsätzlich ist es aber so, also in einem Reasoning- in einem Research-Modell, hat die sprachliche Konstruktion, gebe ich ihm vor, indem ich sage, was ich will, von mir ist ein Research-Paper zu konstruieren. Aber das hat er ansonsten, wenn das von mir ist über Data Science oder sonst was geht, dann gibst du fachlichen Zusatzimpuls, dass du von mir ist in, keine Ahnung, RNNs oder eine Foyer-Transformation oder was auch immer. immer euch da gerade interessiert, ha, Mathebegriffe, quasi vertiefen und recherchieren sollen. Da hat sprachliche Konstruktion gar nichts, aber auch gar nichts drin zu suchen. Dadurch, dass du den Output definierst, gibst du eine sprachliche Konstruktion vor. Realistisch, wenn du das Ding fertig hast und sagst, das Ding ist validiert, ich finde das auch schick, dann würdest du sprachlich anpassen können. Aber das da rein, das hat da nichts zu suchen. Weil du damit im Prinzip eigentlich die Fähigkeiten, so ein Chain of Thought, beziehungsweise ein Reasoning hat, nämlich der Fokus auf dem ich nenne, das jetzt einfach mal denken, ob das jetzt denken wir so nicht, da sollen sich andere Leute drüber herum ärgern. Unser Prozess, stellt euch vor, ihr seid Nerd. Ich darf nie in matte Formeln sprechen. Warum? Weil mich keiner versteht. Wenn ich mein Research aber mache, dann denke ich in Matheformeln. Es muss aber außer mir auch niemand verstehen. Und so müsst ihr Research eigentlich verstehen. Ihr seid noch auf der Stufe, dass es nur für you yourself and me oder sowas, also me myself and I is, so ist die Aussage richtig. Und dann würde ich erst das in sprachliche Qualitäten übersetzen. Die Modelle machen es natürlich relativ schick, weil das alles irgendwie immer nachvollziehbar klingt, aber das hat da eigentlich nichts zu suchen.

Der E-Fuchs (Jochen G. Fuchs): Okay, ich meine, du hast vorhin schon mal gesagt, dass der Kontext da nichts zu tun hat. Ich frage es jetzt aber ganz persistent trotzdem nochmal, wenn ich jetzt alle sprachlichen Vorgaben und strukturellen Vorgaben aus so einem Projektraum entferne und packe quasi nur fachlichen Kontext dazu. Also wenn ich jetzt sage, ich beschreibe mein Unternehmen, ich beschreibe meine Werbekampagne, jetzt zu diesem Kosmetikfuzzi wieder zurückzukommen, zu diesem hypothetischen und pack dann vielleicht noch die Werbekampagne rein, pack Produktinformation zu dem Produkt mit rein. Gäbe das dann irgendwie...

Barbara Lampl: Das würde Sinn machen. gesagt, fachlicher Kontext für das Re-Chance-Projekt macht Sinn. Achtung, wie gesagt, es kann immer noch eine Limitierung im Token-Kontext-Window hineinlaufen. Also wenn die Token alle sind, es halt alle. Das ist eine Herausforderung. Das ist einfach so. Aber grundsätzlich ist es fachlicher Zusatz-Input, nicht sprachlicher Zusatz-Input. Es sei natürlich, er schreibt über Sprache. Ja, bitte. Aber ansonsten muss ins Reasoning-Modell fachlicher Kontext dazu. Weil du ja dein Research vertiefen möchtest, nicht deine Sprache über das Research. wenn das so bisschen Sinn gibt. Macht das nachvollziehbar?

Der E-Fuchs (Jochen G. Fuchs): Jetzt muss man doch mal kurz das Mikrofon stumm schalten, weil jetzt kam nach der Katze dann das Kind. Also ihr kriegt so tröpfchenweise kleine persönliche Informationen. Genau, wir schneiden das alles raus oder wir machen irgendwann so ein Best of oder Bullshit-Bullshit-Bingo, wo du dann alle persönlichen Informationen abhaken kannst und wenn du alle zusammen hast, kriegst du einen Kugelschreiber. Gigantisch.

Barbara Lampl: Wir schneiden es nachher alles raus. Wir werden es rausfinden. Best of! Genau.

Der E-Fuchs (Jochen G. Fuchs): Okay, super. Ich glaube, das habe ich verstanden und unsere Zuhörerinnen und unsere Zuschauerinnen hoffentlich auch. An dieser Stelle würde normalerweise jetzt das Paper der Woche kommen, oder? Ja, wir kündigen es...

Barbara Lampl: Ja, also wir haben uns ja so einen Ablauf für unseren Podcast überlegt, der ja noch sehr frisch ist und ihr merkt euch, wir grooven auch noch so bisschen ein und wir müssen noch gucken, dass wir alles immer sortiert halten. Aber wir möchten euch quasi hier an dieser Stelle eigentlich ein Paper der Woche vorstellen. Das haben wir jetzt hier noch nicht gemacht, weil wir dachten, wir nerden heute wahrscheinlich schon genügend aus mit diesem ganzen Reasoninggedönse und sonst irgendwas. Genau, grundsätzlich Paper der Woche. suchen irgendwas Schickes raus, was irgendwie gerade diskutiert wird. Übrigens auch hier zurück, wenn ihr ein schickes Paper gesehen habt, was an der Kategorie reinpasst. Ihr merkt schon, dass mit interaktiv nehmen wir hier sehr ernst. Dann können wir auch das gerne mal aufnehmen. Ansonsten gibt es definitiv ein Paper der Woche aus irgendeinem Bereich, wo irgendwas Spannendes passiert ist, was in diese ganze Gen.AI-Diskussion zwei Falschfall gut reinpasst.

Der E-Fuchs (Jochen G. Fuchs): So werden wir das zukünftig machen. was wir noch zum Abschluss tun wollen ist quasi unsere letzte Kategorie. wo wir so bisschen auf aktuelles KI-Geschehen gucken, so die KI-News der Woche in Anführungszeichen. Was gerade passiert ist, der oberste Freund der Demokratie, unser Freund und Kupferstecher Elon Musk, bei der Anmoderation weiß wahrscheinlich jeder schon von wem die Rolle, von wem die Rede ist, hat GROK 3 released. Also das ist kein Thema drum, so viel weiß ich schon mal.

Barbara Lampl: Croc 3 ist einfach das neueste Modell, was aus XAI, das ist die Kampagne, die Ellen da verantwortet, gerade rausgebracht hat. Angeblich sollte es die smarteste AI der Welt sein. Na gut, ich kann es jetzt nicht selber testen, weil, ne, ich hab noch nicht mal Zugang. Es ist so, dass natürlich andere Leute schon Zugang hatten und Andre hat das ganz cool als Wipe Check, zwei Stunden damit rumgespielt. Also Croc 3 ist raus. Sieht super solide aus. Wir haben vorhin schon den Gag gemacht und euch erklärt, das heißt da jetzt nicht Deep Research, sondern Deep Search. Es sieht sehr in Line aus mit dem, wie wir die ganzen Releases gerade kennen. wird irgendwie, performt sich an irgendeinem Benchmark mal wieder nach oben aus und sonst irgendwas. Ziemlich solide, was definitiv, und da muss man sagen, chapeau, also da kann man bei allem, bei aller Problematik nicht ignorieren, in einer, Geschwindigkeit sie A, den Compute zusammengebaut und gekauft haben. Also chapeau, das in dieser Geschwindigkeit in quasi, ich 130 Tagen oder sowas.

Der E-Fuchs (Jochen G. Fuchs): haben die nicht ihren compute auch gerade verdoppelt für das für das ding oder die waren

Barbara Lampl: Also das war ja so dieser große Move, quasi Elon Musk nochmal eine Fundingrunde und dann ja in kürzester Zeit einen kompletten Computdata Center quasi nochmal hochgestampft hat. Das ist somewhere in the middle of nowhere auf dem Boden und das ist krass. meine, ist wirklich, also wirklich haben wir so davon noch nicht gesehen. Das ist ein super, nicht junges Team im Sinne von ja, dass die meisten da jung sind, sondern auch die sind noch nicht so lange an dem Thema dran. Die Firma ist ja noch gar nicht so alt und die sind von GROG 2 jetzt auf GROG 3 in wirklich ordentlich flotter Geschwindigkeit. Wir reden irgendwas die 120, 90 Tage oder sonst irgendwas weiß ja immer auch keiner so genau. das ist also sorry, das ist definitiv beeindruckend, wenn man weiß, wie viel Arbeit dahinter steckt, das in solchen Läufen zu rechnen, sonst irgendwas. So ein soliden Launch, so sieht es zumindest aus, soweit ich das hier aus der Zweit- und Drittmeinung quasi abextrahieren kann, sieht es echt solide aus. Und das ist schon definitiv beeindruckend. Da sieht man, welche Geschwindigkeit da dahinter liegt. Was echt krass ist. Aber wie gesagt, GROK ist da quasi frisch neu rausgekommen und werden wir bestimmt in Europa und in irgendwelchen weiteren Diskussionen bestimmt auch noch weiter sehen.

Der E-Fuchs (Jochen G. Fuchs): nächste News über die wir sprechen wollten, neues Paper von DeepSeek ist, erlaube ich mir jetzt aber doch noch kurz eine Zwischenfrage, liebe Barbara, der hat da jetzt ja ziemlich viel Compute draufgeschmissen, was jetzt für den Line wieder so wirkt, als würde das dem alten Dogma erfolgen, je mehr Compute, desto besser. Jetzt habe ich aber ja bei DeepSeek das Gefühl gehabt, dass ich gerade gelernt habe, dass das nicht unbedingt so sein muss. Man kriegt auch mit weniger Was zustande Wir ordnigen das jetzt so in ein bis zwei Sätzen ein.

Barbara Lampl: denn beides es war. Also der Punkt ist, der US-amerikanische Weg ist gerade mehr hilft und das ist auch noch wahr. Wir sind noch lange nicht angereizt, bei dem mehr hilft mehr. Auf der anderen Seite hat DeepSeek mit China gezeigt, ey, wenn wir es handwerklich sauber machen und einfach mal die handwerklichen Probleme angehen, dann holen wir auch extrem viel raus. Kombinierst du jetzt beide Ansätze und das wird auch bei GroK sicherlich passiert sein, die haben sich sicherlich davon inspirieren lassen. Also ich meine, DeepSeek hat quasi sehr, viel Paper dazu veröffentlicht, auch schon weiter vor. als alle, diebsig heilig erlegen sind. Das ist genau der Punkt. Hast du quasi Brute Force mit Eleganz, denk quasi ich nicht an Kampfsport, keine Ahnung, Bruce Lee Style, wenn du mehr Kampfsportarten kannst, dann bist du da halt besser für eine Extremsituation gerüstet. Oder wie heißt es jetzt? Hybrid Athletes heißt das, glaube ich. Jetzt habe ich gelernt, in irgendeinem Social Media. Aber das ist halt genau das. Wir sind nicht am Ende des Computs angelangt. Wir sind auf anderen Seite aber noch lange nicht am Ende der Eleganz und der handwerklichen Sauberkeit. Und ja, deswegen ist es weiter eine Brute Force Compute Nummer, weil du brauchst einfach eine bestimmte Grundlage, ansonsten läuft der Kladeradatsch nicht. Also ich kann halt nicht nämlich mit einem Golf bei der Formel 1 mitfahren. Das ist halt einfach ein Problem. Auf der anderen Seite, wenn ich mal weiß, wie ich die Dinge optimieren kann, dann kann ich halt auch, weiß ich nicht, aus einem Golf oder und aus einem Formel 1 Wagen extrem mehr rausholen. Und deswegen sind beide Aussagen wahr. und beide auch noch eine ganze Zeit lang war. Wie es dann weitergehen wird, werden wir irgendwann schlauer sein.

Der E-Fuchs (Jochen G. Fuchs): Okay. Also wir unterhalten uns in einer anderen Folge nochmal genauer über Deep

Barbara Lampl: Ja, ja.

Der E-Fuchs (Jochen G. Fuchs): pumpen und wenn da jetzt einfach irgendjemand daherkommt und sagt so, ach guck mal das geht auch ohne, dann ist ja so das komplette Geschäftsmodell und alles echt extrem bedroht, weil das ja schon, also ist ja böse, ne? Also wenn irgendjemand kommt und sagt doch nicht, ich mach das für, keine Ahnung, ein hundertstel des Preises, wie willst du dann noch rechtfertigen da tausende von Euro für Enterprise-Ruldungen abzurufen? Ist doch schon ein bisschen böse.

Barbara Lampl: ist schon bisschen böse. glaube, da sollten wir aber grundsätzlich noch mal über den Case sprechen. Wo liegt eigentlich Monetarisierung? Ist das realistisch, was die Investoren da jetzt ausgegeben haben? Und wie sieht es in der echten Industrieanwendung aus? Da sind die Perspektiven auch sehr, unterschiedlich. Ich glaube, eins, wenn ihr diese Folge hört, habt ihr schon festgestellt, wir müssen immer sehr pedantisch sein, dass unser Eichhörnchenhörnchen abbiegt. Und zwei, sehr viele Dinge sind gleichzeitig wahr. Das ist ein sehr, sehr komplexes Fachgebiet, was wir hier abdecken. Und damit können teilweise mehrere Dinge gleichzeitig wahr sein. das ist, wir uns ja zusammengerottet, ein bisschen Einblick in diese Standpunkte, die alle gleichzeitig wahr sein können und sehr, unterschiedlich in der Auswirkung sein können. Und das ist halt zum Beispiel bei dem Thema Monetarisierung, Investoren, Hype und sonst irgendwas noch mal eine ganz andere Hausnummer. Auch, wie gesagt, gerade ist momentan sehr viel gleichzeitig wahr.

Der E-Fuchs (Jochen G. Fuchs): Ja, es ist wie immer im Leben. Komplexe Probleme erfordern komplexe Antworten. Wenn einfache Antworten kommen, ist grundsätzlich Misstrauen angebracht. Ja, die letzte News, über die wir noch sprechen wollten, und das ist schon so ein bisschen die Einleitungsglocke für unseren nächsten Podcast, ist, Anthropic bastelt an etwas... an dem auch OpenAI herum bastelt, ein Hybridmodell. Ja, also kleiner Kontext aus meiner Sicht. Es gibt ja so unterschiedliche Modelle, die für unterschiedliche Einsatzzwecke geeignet sind. Und wenn man dann diese Fensterchen aufmacht bei OpenAI und als Anwender sich fragt, Jetzt habe ich hier eine Speisekarte, keine Ahnung, was ich auswählen soll und da kam man jetzt wohl auf die glorreiche Idee zu sagen, ich nehme dir die Entscheidung jetzt irgendwie ab. Ist das das gleiche? Also ist der Ansatz von Anthropic und von OpenAI, die beide in diese Richtung gehen, wobei wir noch nicht wissen, ob Anthropic das quasi einzig macht. Bei Open AI hört es sich so an, als wollten sie den Rest discontinuen und jedes zukünftige Modell, kommt, ist nur noch hybrid. Bei Anthropic wissen wir es nicht, da sind wir noch im Gerüchtestadium unterwegs.

Barbara Lampl: Genau, also das nächste Schweinchen durchs Dorf ist, was GPT-5 quasi jetzt Open AI gesagt hat, dass es eben irgendwie Die wählen dann aus, welches Modell zu deiner Frage passt. Entrophic hat in einem Interview bei TechCrunch ähnliches gesagt, dass sie an einem Hybridmodell arbeiten, diese Herausforderung dem Nutzenden abzunehmen, rauszufinden, welches Modell gut ist. Und ich kriege dann Schweißperlen auf der Stirn, graue Haare und könnte im Büro schreien, weil für mich als Profi-Anwender und damit für alle, die hier im Industriekontext unterwegs sind, ist das der Horror. Und das ist aber mit Hybridmodell aktuell gemeint, glauben wir. Also ihr merkt schon, ich bin da relativ pedantisch zwischen was weiß ich oder was wissen wir und was nehmen wir an. In dem Fall ist zumindest das, was darüber gesprochen wird mit GPT-5 und so genau in diese Richtung. Nix gewiss, wo es man näht. Aber weil wir auch schon im Vorhab diese Diskussion sehr unterschiedlich führen zwischen wie sieht denn das eigentlich der Nutzende, also in dem Fall muss es jetzt unser armer Jochen, herhalten muss und der Profi, denkt so bitte nicht, wir haben da ein grundsätzliches Missverständnis, dachten wir, wäre eine schöne Anschlussfolge euch quasi in dieser Diskussion mitzunehmen, wie wir zu so unterschiedlichen Standpunkten kommen und beim sehr lustigen Speisekarten beispielen.

Der E-Fuchs (Jochen G. Fuchs): Genau, ja, ich glaube damit sind wir auch schon ans Ende gekommen, dann bleibt uns nur noch die eigentlich obligatorische Podcaster, Animations, abonniert den Kanal, haut die Glocke, bimmel, bimmel, keine Ahnung auf welcher Plattform ihr uns gerade anhört, folgt uns gefälligst, Folgebefehl, weil es lohnt sich, uns zuzuhören, vor allen Dingen der Barbara.

Barbara Lampl: Stimmt. Ist ja schon eigentlich spannend, wie bereiten diese Folgen übrigens Deep Dive vor? Nur, dass ihr mal eine Idee bekommt. Aber ja, folgt uns gerne, schreibt Fragen. Ihr merkt schon, wir bauen die Folgen ein bisschen aufeinander auf, für euch so einen Serienaspekt reinzubekommen. ja, wie chaotisch oder unchaotisch unsere Folgen in Zukunft sind, wie sehr sie geschnitten werden oder nicht, hängt so bisschen davon ab von eurer Feedback, ob ihr quasi die Off-Bytes alle drin haben wollt oder wenn Zukunft sagen, die Off-Bytes werden rausgenommen. Ja, ansonsten ist der Podcast... Cooles Konstrukt, machen den für euch. Jochen und ich können noch so nebenbei drüber schnacken. Also in dem Sinne, folgt uns auf allen möglichen und unmöglichen Kanälen. Wir freuen uns.

Der E-Fuchs (Jochen G. Fuchs): Genau und es wird ergänzend, füge ich das noch hinzu, einen Newsletter geben, den könnt ihr auch abonnieren, das ist quasi die Textspur zur Tonspur. Das Transkript ist da auch mit drin. In den Show Notes packen wir auch irgendwie Links zu Gedüllensreihen, über das wir gesprochen haben. Und ja, das war's. Wir entlassen euch jetzt wieder zurück in den Alltag, also in euren Alltag, nicht in unseren.

Barbara Lampl: ein bisschen was mitnehmen konnte, ist etwas unaufgeregter, differenzierter und vielleicht an mancher Stelle komplexer, aber wir hoffen, dass ihr euch gut abholen könnt.

Der E-Fuchs (Jochen G. Fuchs): In diesem Sinne, long and prosper!

Barbara Lampl: Tschüss!

Shownotes

🥳 Danke, dass du LAIer 8|9 eingeschaltet hast! Möge die KI mit dir sein!

Transkript anzeigen

Neuer Kommentar