Search meets LLM: Revolution oder Katastrophe? (Gastauftritte: Claude Search, OpenAI Search und Perplexity)

Shownotes

In dieser Episode von "LAIer 8|9" stürzen sich AI Babsi und E-Fuchs kopfüber in den wilden Dschungel der KI-Suchfunktionen – und warum wir ihnen etwa so vertrauen sollten wie einem Opossum mit unserer Kreditkarte. Jochen beichtet seine tiefe Erschütterung über Claudes neue Suchfunktion, die seinen "KI-Safe Space" bedroht, während Barbara mit gewohnter Schärfe erklärt, warum die Kombination aus LLMs und Suchmaschinen oft mehr "heißer Kleber und Duck Tape" als elegante Technologie ist.

Die beiden sezieren die schockierende Columbia-Studie, die zeigt, dass KI-Suchtools bis zu 60% Quatsch produzieren – wobei ausgerechnet die Premium-Versionen manchmal noch schlechter abschneiden (Danke für nichts, Bezahlmodelle!). Barbara entmystifiziert nebenbei den Begriff "Reasoning".

Eine Episode vollgepackt mit Fachexpertise, ehrlicher Einschätzung und der erfrischenden Erkenntnis, dass selbst viertklässige Grundschüler die richtigen kritischen Fragen stellen: "Woher soll ich wissen, ob das richtig ist?" Spoiler: Genau das ist die Millionen-Dollar-Frage, auf die selbst Perplexity, Claude und Co. nur mit einem eloquenten Schulterzucken antworten können.

Chapters

00:00 Einführung in den KI-Podcast 02:55 Claude und die Suchfunktion: Ein persönlicher Safe Space 05:35 Die Herausforderungen des Hybridmodells 08:30 Drift und Halluzinationen in KI-Modellen 11:30 Die Bedeutung von Kontext und Guardrails 14:16 Halluzinationen: Ursachen und Lösungen 17:19 Hypothesen über lückenloses Wissen und Halluzinationen 21:54 Die Bedeutung von Daten in der KI 23:55 Herausforderungen der Halluzinationen in LLMs 26:49 Komplexität von Suchsystemen und LLMs 28:52 Zitierungsprobleme und ihre Auswirkungen 35:34 Die Zukunft von Google und Suchalgorithmen 43:50 Die Komplexität der KI-Anwendungen 45:43 Halluzinationen und deren Vermeidung 49:33 Faktencheck und Reasoning in KI 53:02 Die Grenzen der KI und ihre Mathematik 56:59 Dynamische Leaderboards und ihre Bedeutung

Links aus dieser Episode

Columbia Journalism Review: Studie zur Fehlerquote von KI-Suchmaschinen https://www.cjr.org/tow_center/we-compared-eight-ai-search-engines-theyre-all-bad-at-citing-news.php

Hugging Face Leaderboards für KI-Modelle https://huggingface.co/docs/leaderboards/leaderboards/intro

HHEM 2.1 Benchmark für Halluzinationen https://www.vectara.com/blog/hhem-2-1-a-better-hallucination-detection-model (Faktueller Konsistenztest in Englisch, Deutsch und Französisch)

Transkript anzeigen

Der E-Fuchs (Jochen G. Fuchs): Hallo und herzlich willkommen zu einer neuen Folge von eurem neuen KI-Lieblingspodcast.

Barbara Lampl: Hallo zu eurem neuen Lieblingspodcast. Lieblingspodcast abonnieren Sie jetzt Lieblingspodcast.

Der E-Fuchs (Jochen G. Fuchs): Wir sind sehr subtil, ihr merkt das schon. Ja, hallo Barbara, schön dich zu sehen und zu hören. Ja, was soll ich dir sagen? 3 Tage Dauerevent, Adrenalin auf Vollanschlag, ich mache LinkedIn auf und kriege meine absolute Schock- und Schreckensnachricht, Claude bekommt eine Suchfunktion.

Barbara Lampl: Gott.

Der E-Fuchs (Jochen G. Fuchs): Ja, gell? Danke für deinen Mitleid. Jetzt fragst dich der eine oder andere vielleicht, was soll das, wieso hat der Angst, das ist doch toll, dass Claude jetzt irgendwie im Internet suchen kann. Ja, Claude ist so bisschen mein persönlicher KI-Safe Space gewesen. Dazu muss ich vielleicht ein bisschen erklären, wie ich arbeite. Man sieht bei mir unter ganz vielen Artikeln und Posts immer so einen Transparenzhinweis, so Achtung. Der Autor hat ein KI-Tool genutzt, das hier zu erstellen und zu schreiben. Und der eine oder andere hat sich schon vielleicht gefragt, arbeitet der eigentlich selber noch irgendwas oder macht das jetzt alles die KI? Deswegen erkläre ich ganz kurz, was ich tue, dann versteht ihr auch vielleicht, wo mein Problem liegt. Und zwar bei mir funktioniert das so. Ich pick mir ein Thema raus, dann spreche ich mit einem Tool, das Audio-Pen heißt, meine eigene Einordnung und meine Gedanken dazu ein. Audio-Pen verwandelt das dann in ein strukturiertes Transkript. Dann gehe ich im nächsten Schritt her und nutze meistens perplexity, Zusatztexte, Zusatzinformationen anzufüttern. Recherchiere dann unter Umständen nochmal mit Google irgendwelche Fakten nach, die ich noch zusätzlich brauche. Falls ich Deep Research oder sowas benutze, mache ich nochmal einen Faktencheck von dem, was dabei rauskommt und habe dann so Versatzstücke in Anführungszeichen, also Teiltexte. Mein Transkript mit meinen Einordnungen. Ich habe von perplexity in Anführungszeichen die banale Meldung inhaltlich zusammengefasst. Was ist das überhaupt? Das ist so banales Handwerk, dass ich der Meinung bin, das muss ich nicht mehr selber machen. Und dann eben Zahlen, Daten, Fakten. Dann nehme ich diese ganzen Versatzstücke und öffne bei Claude ein Projekt. Wer die Claude Projektfunktionen nicht kennt. Da hat man die Möglichkeit in einem fest definierten geschlossenen Rahmen an einem Projekt zu arbeiten. Mein Projekt ist quasi die Erstellung von Artikel zu meinem Thema, zu meinem Newsletter meistens, Techonomics. Ich habe dann da Guardrails drinne, das heißt ich habe in dem Projektbereich verschiedene Dateien hinterlegt, denen ich ganz klar definiert habe, wie Claw zu arbeiten hat. Ich nenne das Redaktionsrichtlinien. Da steht dann alles drinne von der Themenvielfalt, also über was schreiben wir, über was nicht. Bis hin zu wie muss die Artikelstruktur aussehen, was darf Claude tun, was darf Claude nicht tun. Und schließlich und letztendlich einige Sachen zu Tonalität, Zielgruppe und dann gibt es eine Möglichkeit, ich nenne das jetzt mal Masterprompt, reinzuklatschen in diesem Projekt Space und ihm zu sagen, wie er den nun mit diesem ganzen Kram umgehen soll, den ich ihm da zur Verfügung stelle. zu den Kontextinformationen, im Projektspace sind, plus dem, was ich ihm gebe. Und dann gehe ich her, kipp das ganze Zeug bei Claude rein und gebe ihm dann eben den entsprechenden Befehl und sage, mach bitte einen Artikel aus dem Ganzen, mach einen Kommentar da draus, mach eine Analyse da draus, was auch immer. Und warum ich das als Safe Space bezeichne, ist ganz einfach folgendes. In den ganzen Monaten, in denen ich jetzt damit arbeite, hat Claude mir kein einziges Mal etwas in meinen Text hinein halluziniert. Also damit wir uns nicht missverstehen, wenn ich ganz normal den Chat öffne und mit Claude arbeite und er erstellt mir irgendwelche Texte, ohne dass ich da jetzt Zahlen, Daten, Fakten zuliefere, halluziniert er mir auch rein. Ich hebe jetzt hier nicht Claude in den Himmel, nicht falsch verstehen. Aber innerhalb dieses Projektes habe ich die Erfahrung gemacht, Da sei mir nichts hinein halluziniert. Ich fühle mich da wirklich relativ sicher. Heißt nicht, dass ich den Kram nicht gegenlese oder gegenprüfe. Auch hier nochmal, Zeigefinger hier oben. Aber ich fühle mich da relativ safe, deswegen sage ich, das ist mein Safe Space. Wenn ich bei Perplexity eine ähnliche Funktion mit diesen Spaces nutze, hatte ich trotzdem immer mal wieder Halluzination plus ich habe das ungenaue Gefühl, dass das, dabei rauskommt, qualitativ nicht so gut ist. wie das, was mir Claude in seinem eigenen Projektspace generiert. Obwohl ich, wenn ich schreibe bei Perplexity dann Claude als produzierendes Modell, das sage ich jetzt mal auswähle, habe ich da einfach das Gefühl, das ist nicht dasselbe. So. Und deswegen hat mich das so ein bisschen erschüttert, weil ich für mich selber, also ich weiß es ja auch nicht, ich habe noch keinen Zugriff drauf, kaum jemand hat es anscheinend, in den USA warten sie auch noch auf den Rollout. Ich weiß nicht was da auf mich zukommt. Also ich weiß nicht ob ich dann immer noch diesen Safe Space habe und weiß er greift nicht darauf zu. Das muss ich jetzt auf mich zukommen lassen. Jetzt ist natürlich die große Frage, warum habe ich denn diese Angst überhaupt und warum betrachte ich Claude als Safe Space und warum habe ich jetzt persönlich Probleme mit diesem Thema Search meets LLM, obwohl ich ja offensichtlich per Black City Heavy User bin. Das kann ich euch verraten, da frage ich jetzt nämlich die liebe Barbara dazu. Die hat nämlich da auch ihre Probleme und im Gegensatz zu mir kann sie wissenschaftlich fundiert erklären wieso.

Barbara Lampl: Okay, also fangen wir mal ein paar Sachen auseinander. Grundsätzlich gehe ich mal davon aus, dass Antrophic uns auch so wie auch OpenAI die Funktion abschalten lässt. Das heißt, dass wir wahrscheinlich die Möglichkeit wieder haben, Search nutzen, ja oder nein. Also OpenAI hat ja selbst diesen Button gefunden. das verändert erstmal im Zweifelsfall deinen Safe Space also nicht.

Der E-Fuchs (Jochen G. Fuchs): Fuschen sie mit dem, wenn ich jetzt einfach mitten reinplatte, Fuschen die bei diesem Hybridmodell gedönst dann da nicht rein? Ich hab manchmal das Gefühl, der macht dann einfach von selber ne Websuche. Das ist das, was mich verunsichert.

Barbara Lampl: Ja, also gut, das Hybridmodell Drama. Ich hab nicht in diesem Podcast gesagt, dass ich Hybridansatz völlig Bullshit halte. So. Und was ist jetzt? GPU-Power ist überlastet. Clot antwortet nicht mehr sauber. Der Hybridansatz funktioniert genauso wie gedacht, gar nicht. Weil es totaler Affenzirkus ist, ein Reasoning-Modell anzuschmeißen, was mehr Rechenleistung braucht. Lasst uns nicht ablenken, aber ... Da haben wir eine andere Folge. Ich hör uns hier wieder zurück.

Der E-Fuchs (Jochen G. Fuchs): Aber dazu haben wir eine andere Folge, Eichhörnchen wieder zurück auf die Spur.

Barbara Lampl: Also grundsätzlich ist es so, wenn es eine Funktionalität gibt, die einen sich an- und ausschalten lässt, dann können wir zumindest davon ausgehen, dass es keinen ersten Drift erzeugt, weil wir müssen ja ein paar Sachen auseinanderhalten. Wir haben Halluzinationen, haben Zitierungen und wir haben am Ende des Tages die Kombination aus Halluzination trifft auf Zitierung und eine sehr Ich würde sagen, ego-lastig, überzeugt von sich selbst, agierend, Chatbot, der gerne antwortet. Das sind drei unterschiedliche Themenfelder, die jetzt hier zusammenkommen. Zusammen mit, wie sind die Daten für ein Projekt? Schreck sich ein Space, hinterleg und beeinflussen damit deinen Output. Es ist ein bisschen komplexer als solche Liebeser, merke ich gerade schon beim Reden und Jochen's Gesichtsausdruck.

Der E-Fuchs (Jochen G. Fuchs): Ja und genau an meinem Gesichtsausdruck, den wir für unsere höre beschreiben müssten, sich aber mit Sicherheit nicht beschreiben lässt. Du hast noch das Wort Drift erwähnt, jetzt darf ich noch kurz nachfragen, was driftet da wohin?

Barbara Lampl: Ich es nicht Also Driften bedeutet, es gibt sogenannte Data Drifts und sogenannte Modell Drifts. Wir reden ja also einen Schritt retour, einatmen, ausatmen. Wir reden über Deep Learning Systeme. Bei Deep Learning Systemen haben wir, dass der Input zum Output und der Output zum Input wird. Das ist diese lustige Kette, damit dieser ganze Klartradat überhaupt funktioniert. So, das heißt, wenn wir Input da rein geben. Dann ist mir die Frage, was wird alles mitgesendet? Jetzt kann es sein, dass durch eine neue Funktion sich der ursprüngliche Input verändert und damit kann das ganze Modell theoretisch stärker hallucinieren und kann auch weniger hallucinieren. Kann irgendwas tun und das kann man quasi bisschen unsauber ausgedrückt haben, das verändert, das kann eben auch an einem Drift im Modell oder Input, Output in der ganzen Tokenfunktion. Da gibt viele Sachen, die schief gehen können und driften. Und warum reden wir Drift? Häufig weil, naja also... sieht halt aus wie so ein Drift, deswegen, ja so kommt der Begriff eigentlich so bisschen her. Und deswegen kann es sein, dass eine neue Funktionalität ein Modell in eine andere Richtung bringt als vielleicht vorher gedacht, deswegen kann ich euch nicht sagen, ob durch eine neue Funktionalität von Claude durch die Search Halluzinationen nach oben oder nach unten gehen. Der Claude 3.7 ist übrigens extrem Halluzinationsanfällig, ist bisschen unschön. Also es wäre schöner, wenn es anders wäre. Der halluciniert ganz gerne mal durch die Gegend. Das liegt unter anderem ziemlich sicher auch daran, dass es eine Hybridmodellaktion ist. jo, das ist jetzt mal... Hilft halt erstmal so mit deinem, meinem... Warum du so geguckt hast und warum es driften kann, egal, wenn sie was verändern. Ich gehe davon aus, dass es auszuschalten ist und einigermaßen durchgetestet ist, dass das nicht passiert, aber ich weiß es nicht.

Der E-Fuchs (Jochen G. Fuchs): Der Journalist fragt jetzt nochmal nach, sicher zu gehen, dass er es richtig verstanden hat. Betrifft es quasi die Abweichung vom bisherigen Verhalten? Könnte man das so sagen? Ja, okay.

Barbara Lampl: Ja, genau. Der Drift ist die Abweichung vom bisherigen Verhalten. Normal 0 ist quasi immer vorher dann definiert und dann hat es eine Abweichung ins Positive und das Negative oder keine Abweichung. das. Und wie gesagt, die ganze Komplexität an Search meets LLM ist halt ein Stückchen komplexer, als ich nutze das Modell in seiner ursprünglichen Version. Also ein klassisches LLM, das ich einfach nur benutze. Darauf können wir die Halluzination testen. Ich habe ein Hugging Face Leaderboard, beziehungsweise eben von dem von Vektara, die an der Stelle auch die Halluzinations- Benchmark bzw. Modell dafür entwickelt haben. Wo man dann eben auch sieht, wie hoch die Rate der Halluzination ist. Das bezieht sich aber wie gesagt immer auf ein rohes, einfach zu benutzendes LNM. Nicht in der Verbindung mit einem Projekt, was quasi als REC fungiert. Und erst recht nicht in der Formulierung, wenn dann noch eine dynamische Komponente hinzukommt als eine statische Komponente, nämlich die Suchfunktion. Und all diese Sachen müssen miteinander interagieren. Und das sind alles sehr technisch unterschiedliche Sachen, da zusammengebracht werden müssen. manchmal mit mehr, ja, mit heißem Kleber und dann vielleicht noch Duck Tape außenrum und dann vielleicht noch eine Schraube quer durchgeschossen. Also ich komme aus so einer richtig schönen Arbeiterfamilie. Bis ich rausgefunden habe, dass es Handwerker gibt, hat es bisschen gedauert. Also die gab es für mich schon, aber ich wusste nicht, dass man die auch bezahlt und nicht nur die Kumpels von meinem Papa sind. Aber wer da schon mal so eine Samstagnachmittagsaktion gesehen hat, wenn die Jungs die Herren dann fertig wollen müssen, weil gleich Fußball ist, dann wird da kreativ ausgepackt. Na ja, so ungefähr sehen diese Pipelines manchmal auch zusammengestöppelt aus, weil halt Dinge zusammenkommen müssen, die eigentlich nicht unbedingt so ganz zusammenpassen. Deswegen muss man das relativ krass unterscheiden. Und in dem Fall ist deine Abwehrhaltung oder dein Safe Space Cloth innerhalb des Projects ist keine Aussage darüber, über die Search Funktionalität, sondern dass die Spaces, die Perplexity gebaut haben, anderen Racklogik folgen als die halt eben zum Beispiel im Projects. Und das kann dann eben zu verschiedenen Varianten führen, genauso wie dass die Oberfläche von Perplexity selber Halluzination beeinflussen, zurück zu positiv und negativ beeinflussen kann und so weiter. Also es hat extrem viele Stellschrauben, die sowas in die richtige oder falsche Richtung driften können. Das war jetzt die Kurzfassung übrigens.

Der E-Fuchs (Jochen G. Fuchs): Es war gigantisch. Ja, und wenn ich noch bei meinem Safe Space bleibe, die Tatsache, dass wenn ich, in Anführungszeichen, normal arbeite und gebe jetzt irgendwas an Chat-GPT weiter oder so und vergleiche das dann mit dem, was ich innerhalb des Projektes arbeite, meine persönliche Schlussfolgerung, dass das zuverlässiger ist, was aus meinem Projekt rauskommt. Das liegt dann einfach an den Guardrails, in Anführungszeichen, also an den Redaktionsrichtlinien, die ich dem Ding mitgebe, oder...

Barbara Lampl: Nee, das liegt an dem Kontext, der in einem Projekt bei Claude sauber verarbeitet wird und sich darauf einen sauberen Quellenbezug hat und ein Rack per Definition, dafür bauen wir den ganzen Tag, also Reprieve, Augument and Generation. Wir bauen die Cladara Dutch ja ganz bewusst. Also du hast ein LLM. So, jetzt hast du ein Stück Kilo. Ich habe immer so den Eindruck, die Leute laufen in so einen Metzger rein. Ich hätte gern ein Kilo AI. Hier ist ein Modell. Ich würde übrigens gerne noch 500 Gramm Mettwuchs dazu. Ja, jetzt brauchen wir mal noch den Rack. Der Rack ist in seiner Idee natürlich für zwei Dinge da. Grundsätzlich jedes Modell halluciniert, was unter anderem damit zusammenhängt, dass es spezifisches Wissen nicht hat, in dem Fall von dem, was du für deinen nächsten Artikel brauchst, weil vielleicht hat es das einfach nicht oder in nicht ausreichend genügender Form oder greift ein bisschen falsch drauf zu. Deswegen gibst du ihm das eben als Kontext mit dazu, in dem Fall in einer geschlossenen Umgebung deines Projects. Und damit machst du das Gleiche, was man quasi im großen Stil eben in einem Rack macht, wo man eben zum Beispiel das firmeninterne Wissen dazu gibt. Je nachdem, wie das Wissen strukturiert ist und der Rack strukturiert ist, es tut genau das nämlich dann eben diese Kontext reduziert die Halluzination so massiv, dass sie im besten Falle, wenn alles gut läuft, nicht mehr vorkommt. Aber und deswegen ist es halt mehr eine Aussage, wie Perplexity seine Spaces gebaut hat versus wie Claude ein Trophic seiner Projects gebaut hat. Und in dem Fall scheint es so zu sein, Das ist auch mein Eindruck. Antrophic macht einen massiv besseren Job und hat eben in dem Fall aber auch eine Struktur gewählt, die deiner Arbeitsweise entgegenkommt, sich das sicher zu referenzieren. Und damit tust du eben genau das, was notwendig ist, Halluzination zu reduzieren, Kontext liefern in strukturierter

Der E-Fuchs (Jochen G. Fuchs): Okay, und wenn ich jetzt jemandem stark vereinfacht sagen würde, du bist einfach besser dran mit einem Projekt, weil das eine geschlossene Umgebung für dieses Rack ist, in der du arbeitest und wenn du ihm einen sauberen Kontext und saubere Guardrails gibst, dann verlässt er diese Umgebung nicht oder weniger, wie wenn du einfach nur den Chatbot aufmachst und ihn quasi frei rennen lässt.

Barbara Lampl: Richtig. Richtig, weil Halluzinationen, die können wir zwar messen, dafür haben wir wie gesagt auch wenn ihr aufs Leaderboard eben drauf guckt, dann werdet ihr da eine sogenannte HHEM 2.1 quasi Modellspezifikation finden. ist nichts anderes als, dass es ein Modell ist, was den sogenannten Facture Consistency Score berechnet. Das ist nichts anderes als ein Score, den wir benutzen fest zu sein, dass Ding eben halt Factoral Rightness und halt konsistent ist, also quasi die Richtigkeit. Und damit kann ich eben Halluzinationsraten durchtesten, damit sehe ich eben halt immer, halt ganz bestimmte Modelle mehr oder minder halluzinieren. Es wird für euch dann auch ausgegeben auf den Leaderboards in einer Prozentsatz. Aber Achtung, das heißt noch nicht, dass das generell zum Beispiel so ist. Momentan führt Gemini 2.0 Flash das Ranking Board an. Das hat also die geringste Halluzinationsrate. Achtung, wenn ihr etwas braucht, sehr, sehr nischig ist, was nach dem Cut-Off-Date stattgefunden hat oder was auch immer, dann wird sich automatisch die Halluzinationsrate nach oben bewegen. Also stellt euch immer vor, ihr seid in einem sehr nischigen Feld unterwegs, wo das Internet nicht so wirklich viel her an Informationen gibt. Wenn das der Fall ist, dann ist die Wahrscheinlichkeit extrem hoch, dass das Modell komplett zusammenhalluziniert. Warum? Weil es einfach nicht genügend Grundlageninformationen hat. Das gleiche gilt übrigens auch, wenn es darum geht, Themengebiete, wo sehr sehr kontärere Meinungen unterwegs sind oder zig Definitionen existieren, dann erhöht sich automatisch die Halluzinationswahrscheinlichkeit und ihr müsst mehr Aufwand reinschränken, die wieder runter zu bekommen, sauberes Prompting und sauberen Kontext. Das ist quasi das, was hinter Halluzinationen steckt. Das hat noch nicht eine Aussage, wie ein Rack gebaut ist, das hat noch keine Aussage darüber, wie Search funktioniert und wie das Wissen in die Modelle injiziert wird.

Der E-Fuchs (Jochen G. Fuchs): Okay, sprich Halluzination, auf das Wort will ich gleich noch mal ganz kurz aus philosophischer Sicht zurückkommen. Halluzination ist eigentlich, wenn ich das richtig verstehe, das Modell hat keine Daten zu dem was ich will und ergänzt deswegen quasi die Daten mit eigenem Input, mit ähnlichen.

Barbara Lampl: Mit ähnlichen. Also quasi Halluzinationen, ähnlichen was halt in der, quasi, ich stelle euch immer so bisschen vor, Achtung, wahrscheinlich irgendwann werden meine Kollegen mich mal alle mal hauen, weil ich immer so lustige Vereinfachungen nehme, was so in der Nähe liegt. Also quasi, wir suchen irgendwas über das Thema Blumen. Es hat aber für eine bestimmte Rosenart kein spezifisches Fachwissen, weil das jetzt so bannischig ist. Aber es hat Wissen zu Rose, dann wird es was ähnliches sagen. das ist genau auch das, was wir gerade sehen. Halluzinationen sind nicht mehr so krass wie früher. du gedacht hast, Alter, was hast denn du gesoffen? Ich habe Rose gefragt, laber mir nicht von Lilien. Jetzt sind die Modelle so dicht und gut geworden, dass es jetzt wahrscheinlich Rose ist. Aber der Profi denkt sich übrigens, das ist nicht die Aussage von der Rose XY. Das ist auch, warum die Halluzinationen heutzutage im Fachgebiet sehr viel schwieriger zu detektieren sind. weil die Modelle grundsätzlich besser geworden sind. Aber wenn du z.B. nischige, tiefe Informationen haben, dann springt es auf ähnliches Wissen. Ähnlich ist halt aber nicht exakt.

Der E-Fuchs (Jochen G. Fuchs): Also sprich, wenn ich jetzt beispielsweise das Ding frage, wann soll ich denn bitte meine X, Y, Z, Entschuldigung, ich bin kein Gärtner, mir fällt keine Rosen-Sorte eine Rose, schneiden, dann sagt er mir, ja, bitte schneide sie zu diesem und jenen Zeitpunkt. Und dann ist das in den meisten Fällen richtig, aber jetzt haben wir halt leider Gottes das Pech, dass das irgendeine seltene Rosenart ist, die bitte überhaupt nicht in dieser Jahreszeit geschnitten werden darf.

Barbara Lampl: Ja, ich auch nicht.

Der E-Fuchs (Jochen G. Fuchs): und er hat die Information halt nicht und hat dann die Wahrscheinlichste genommen und damit meinen Rosenstock über den Jordan gekippt. Jetzt habe ich mal eine ketzerische Frage. Wenn wir von der Hypothese ausgehen würden, dass tatsächlich irgendwann mal alles Wissen dieser Erde, das ist jetzt sehr hypothetisch, in Trainingsdaten verarbeitet wurde und sie wirklich auf allem trainiert würde, dann wären wir jetzt nach meinem Verständnis an dem Stand, dass wir nicht mehr halluzinieren würden.

Barbara Lampl: Richtig. Genau. Das ist die These mit der OpenAI und der Trophic-Qui Geld einsammelt. Die Behauptung ist, wenn wir nur genügend Daten haben und genügend brute force über die GPU-Power ballern, dann kriegen wir LLMs halluzinationsfrei. Das ist eine interessante Aussage. Genau, also das ist quasi der Case, der hinter OpenAI liegt.

Der E-Fuchs (Jochen G. Fuchs): Das ist aber jetzt nicht ganz das, was ich gemeint habe. weil einfach nur mehr Daten über Rosen sammeln hat ja nicht zur Folge, dass du genau die Daten gesammelt hast, die ich brauche. Also wir bräuchten quasi eine, also das was ich meine ist eine lückenlose Kartografierung sämtliches Wissen.

Barbara Lampl: Doch! Genau, wir eine lückenlose Kategorierung alles Weltwissens?

Der E-Fuchs (Jochen G. Fuchs): Ja, natürlich, in Wikipedia. Entschuldigung.

Barbara Lampl: Also, wie gesagt, die Hypothese ist am Anfang schon Bullshit, weil wir haben keine lückenlose Dokumentation. So, das heißt, können nur, nehmen wir an, wir können alles verfügbare Wissen, was nicht lückenlos ist, nehmen, dann war die These bisher, was die Jungs immer behauptet haben, dann würden die Halluzinationen runtergehen. Das tun sie in Teilen, das tun sie aber auch in Teilen, ist das aber noch mal, wir haben mit einer Wahrscheinlichkeitsrechnung zu tun, Das kann dann trotzdem immer noch schiefgehen, denn 99 % sind nicht 100%, 95 % sind auch nicht 100%. Das heißt, das Problem ist mathematisch eh immer drin.

Der E-Fuchs (Jochen G. Fuchs): Definitiv. Okay, jetzt hat der Laie noch eine tolle Frage.

Barbara Lampl: Her damit. Ich finde, weiß, dafür lebe ich doch.

Der E-Fuchs (Jochen G. Fuchs): Was ist denn, wenn wir einen Bereich hätten, bei dem wir wissen, dass es lückenlos kartografiert ist, oder wir quasi die Anfrage an die LLM so gestalten, dass wir definitiv wissen, er verfügt über das Wissen und könnte hypothetisch diese Anfrage ohne Halluzination beantworten und wir feuern das dann quasi so oft rauf, einfach zu checken, ob er Selbst dann, wenn er lückenlose Fragen zu diesem Gebiet hat, also wenn wir quasi den Datensatz begrenzen, auf dem er arbeiten muss, aber dann immer noch halluziniert. Hat das mal jemand untersucht? Weißt du das?

Barbara Lampl: Das nennt sich REX und REX Evaluations und ist unser tägliches Business für jede Chatbot-Applikation.

Der E-Fuchs (Jochen G. Fuchs): Danke, Jochen, dass du uns unsere Joberklärst.

Barbara Lampl: Danke, aber jetzt wisst ihr auch, was der Profi eigentlich so den lieben langen Tagen tut. Aber das ist genau das, was man mit solchen Anwendungen zusätzlich baut. Und wir gehen dann sogar einen Schritt weiter, weil wir eine große Wissensdatenbank haben, eure Handbücher, eure Führungsrichtlinien, euren Customer Support. Die Leute sind immer leicht irritiert. Ich wurde letztes Mal ein kleines Side Story. Ich komme gleich darauf zurück. Naja, also man findet ja gar nicht, dass du eine Expertin für Chatbots bist und ich sehe ja was. Ich kann ja auch keine Expertin für Chatbots sein, das so das Endprodukt, das Abfallprodukt, das Abfallprodukt, das ist Kinder. Ich bin die Expertin für davor, ob da ein Chatbot rauskommt oder ein Roboter, ist mir doch egal. Bisschen lustig. Aber das ist genau das, was wir quasi in dem raus aus, hier ist ein Kilo AI, egal welches Modell, das ist genau das, was man damit tut. ist Achtung, das klingt super trivial, das ist handwerklich echt aufwendig. Es ist wirklich handwerklich aufwendig. Kriegt man das hin? Ja, natürlich. meine, ansonsten hätten wir keine Daseinsberechtigung. Zwar niemand von uns, inklusive mir. Aber das ist genau das, was man tut. das heißt, nimmst zum Beispiel ... Warum glaubt ihr denn, dass die großen ... Warum sich gerade OpenAI, Antrophic und Meta und sonst was alle für irgendwelche Gerichte streiten, um auf die Daten zugriffen zu können? Warum glaubt ihr, dass die euch geile Angebote machen wollen mit, hier, bewährte Kunde bei uns und wir dürfen eure Firmendaten verarbeiten? Freunde der Nacht, nur darum geht es. Die Daten sind ... Also wenn einer noch immer nicht kapiert, dass LLMs quasi total austauschbar geworden sind und weiter austauschbar werden, das sind mathematische Algorithmen mit genügend Kohle und Rechenleistung, kriegt man alles nachgebaut. Es geht immer die Datengrundlage, weil die kriege ich nicht nachgebaut. Die kann ich auch nicht. Selbst mit Gen.AI brauche ich einmal eine Ursprungsidee, synthetische Daten zu erzeugen. Am Ende des Tages geht es immer die Datenhäute. Warum mache ich Daten ohne AI-Strategien und nicht nur AI-Strategien? Weil ich damit den Großteil der Kalkulation ausblenden würde. Aber das ist genau das, was du beschreibst, das Hands-On-Ding, wie hinter zum Beispiel Rex, aber Komplett-Orchestrierung am Ende des Tages steht. Weil die Maschine muss mehr genauer sein als der Mensch. Ihr könnt wahrscheinlich, würdet ihr jetzt all detail durchgehen, durch einen Podcast, was ich sage, dann werden da Fehler drin sein. Yo, also sorry, ich bin ja nicht perfekt, ich hab die Weißart nicht mit dem Löffel gefressen. Das heißt, werden Unsauberheiten drin sein, wird vielleicht ein Fehler drin sein. Der Punkt ist nur, ich bin morgens nicht aufgewacht und habe vorsätzlich falsch argumentiert. Vielleicht wusste ich es nicht besser, vielleicht hatte ich zu wenig Kaffee. Diese Unsauberheiten müssen wir als Menschen ertragen. Nur wenn ich mit einer Maschine rede, mit einer Maschine agiere, kann ich diese Unsauberheiten nicht so hinnehmen, weil ich sie auch überhaupt nicht einschätzen kann. Und was ist denn eine Aussage über Ich bin fachlich ein bisschen unsauber versus eine Halluzinationsrate von fünf Prozent oder ein Prozent. Das kann ich nicht miteinander vergleichen und deswegen steckt da Handwerklicher und das ist wirklich am Ende des Tages wirklich hardcore. Denkt in Handwerk, nicht in fancy shit. Wir sind sehr viel mehr Schreiner, Klempner als alles andere.

Der E-Fuchs (Jochen G. Fuchs): Okay, aber wenn das in Anführungszeichen das Standardhandwerk ist und also ich jetzt beispielsweise in meiner simplifizierten Rackumgebung da in dem Claude Projekt schon für mich das Gefühl habe, super, solange ich innerhalb meiner Daten bleibe, halluziniert er mir nicht. Was ist denn da nur die Antwort auf meine Frage? Also was kommt denn dabei raus, wenn du ihm sagst, bitte du bist nur zuständig für den Satz des Pythagoras und ja, hast du 40.000. Scheibenkleister, was berechnet man mit dem Satz eigentlich? Dankeschön. Barbara geht gleich, die macht die Tür hinter sich zu. Genau, wir schmeißen 40.000 Flächen hin und halluziniert er denn dann jetzt noch oder halluziniert er dann nicht mehr? Was ist denn das Ergebnis?

Barbara Lampl: Flächenschatz, Flächenschatz, ich hoffe, dass jetzt wirklich die Glauben kommen. Also in dem Fall ist diese Antwort, wer auf ein mathematisches Problem allen Ernstes ein LLM drauf schmeißt, hat den Anfangssatz nicht verstanden. Das ist ein regelbasiertes Problem, da schmeißen wir gar kein LLM drauf. Die Wahrscheinlichkeit besteht weiterhin, dass das LLM hallucinieren kann und ich muss das schick einpacken, dass ich diese Halluzination im Griff habe, sie gefleckt werden oder sonst irgendwas. Ich kann die Halluzination nicht komplett ausschließen. Ich kann sie nur optimieren und kann sie dahin hinbekommen, dass sie nicht zu meinem Problem wird.

Der E-Fuchs (Jochen G. Fuchs): KÖH! Okay, mein kleines Gehirn sagt dann, wir, wenn wir im Prinzip beweisen können, das egal wie gut wir einen Rack, ich sag jetzt mal Eichen in meiner Umgangssprache, und egal wie sehr wir mit Guardrails ihn auf ein bestößendes Wissensfeld, das wir voll kartografiert haben, begrenzen, dann immer noch halluziniert. Haben wir dann damit die Kollegen mit ihren Brute-Force-Methoden und ihren Datensammelwut nicht irgendwie falsifiziert? Weil...

Barbara Lampl: Ja, und zwar schon längst, weil wir einen Großteil der Data-Scientisten dieser Welt von vornherein gesagt haben, LLM sind geil. Aber Kinder, sie sind nicht die finale Antwort. Und sie werden das Problem der Halluzinationen und des Memories und ein paar andere Dinge nicht lösen. Wir brauchen neue weitere Entwicklungen. Offenes Geheimnis, wer es nicht hören will, das ist aber Fachmeinung seit vielen Jahren und deswegen, ja, sorry, wie die Party-Pupa hier.

Der E-Fuchs (Jochen G. Fuchs): Man manchmal mit Kindern sprechen. Kurzer Einsatzkontext. Ich mache ehrenamtlich Unterricht an der Grundschule, mache eine Schülerzeitung und versuche, Kindern Medienkompetenz zu vermitteln und vierte Klasse herausfordernd und pack natürlich das Thema KI auch aus. Und ich fange gleich damit an, dass ich den Kindern erzähle, was sie bitte nicht tun sollen. und was man mit einer KI nicht machen kann. Also alle Risiken erstmal auf den Tisch packen und das erste was ich Ihnen versuche beizubringen ist so vertraut keinem LLM. Egal was Ihr Chetgy P.T. fragt oder was als Antwort da rauskommt, das kann falsch sein. Das klingt alles ganz toll, ist zu 95 % richtig, zu 5 % falsch. Und dann sitzt das Kind da, wir waren alle ein bisschen locker unterwegs, saßen auf den Tischen und auf den Fensterbänken, sitzt auf dem Fensterbank, guckt mich an mit völlig verzweifelter Mine und sagt, ja aber was soll ich denn damit und woher soll ich denn wissen, ob das richtig ist oder nicht? Ja meine Liebe, das ist genau die richtige Frage.

Barbara Lampl: Richtig. Und das ist halt, und jetzt müssen wir das Ganze eins weiter denken. Also wir haben diese Halluzinationen. Wir haben die Komplexität in einem Rack-System, egal ob das jetzt Spaces, Projects oder Hardcore handgeklöppelt ist, dass da schon strategische Entscheidungen technischer Natur und data technischer Natur getroffen werden müssen. Und jetzt machen wir eine zusätzliche Layer drauf, die nennt sich Search. Das heißt, jetzt machen wir in dieses eh schon komplexe Feld eine dynamische Komponente hinein, nämlich das Internet. Und wir wissen ja alle, wie viel Weisheit in diesem Internet steht. Also bekanntermaßen, ich habe einen Namen der einigermaßen selten ist, aber man kann auch andere Barbara Lampels finden. Da fängt es ja schon an. Jetzt heißen wir mal Thomas Müller, Kumpel von mir, guter, guter Freund, heißt Thomas Müller. Übrigens nicht der Fußballer. Viel Spaß. Also das ist nur mein Beispiel zu machen, welche dynamischen Injektionen dann da notwendig sind. Ganz abzuschweigen, dass die Tokenfunktion irgendwie übersetzt werden, also quasi der Prompt-Token in Suchergebnis und wieder alles heiter zurückgebaut werden muss. Das ist genau nicht so trivial, wie das jetzt klingt. Und deswegen ist Search und LLMs für den faulen, und ich sage es zum 33. Mal, für den faulen Nutzenden der Traum der schlaflosen Nächte. Aber jeder Viertklässer sagt ihr, aber wie kann ich dem jetzt vertrauen? Danke, das ist die Arbeitsmoral, die ich brauche. Aber das ist halt genau das. Es ist halt super convenient. Es ist super geil. Es sieht richtig aus. Es fühlt sich richtig an. Und LLMs sind eloquent as fuck. Das die sind mit einem Ego und einer Rhetorik geboren, dich davon zu überzeugen, dass das alles ziemlich geil ist. Cool? Richtig. Das ist ein cooles Tool im Step-down des Arbeitsprozesses. Natürlich kann Superplexi die benutzen, den ersten Eindruck zu machen. Aber darauf, irgendwelche Entscheidungen zu basieren, na gut, Nacht, testen Sie mal das Arthene, das Restaurant. Viel Spaß. Aber das ist halt genau die Herausforderung. das ist halt

Der E-Fuchs (Jochen G. Fuchs): Das ist fake it, fake it until you make it.

Barbara Lampl: äußer, wenn komplexer und nochmal was wir machen ist Handwerk, gnadenloses Handwerk, das nicht fancy, das nicht nicht shitty strategisch klingt nicht schick und das hat das Problem und dann kommen wir in die finale Welt, wenn search auf LLM trifft, dann kommen wir in die citation problems rein, das heißt die Zutierungsprobleme und dann wird es richtig dreckig.

Der E-Fuchs (Jochen G. Fuchs): behalten wir uns die Zitierungsprobleme noch kurz einen Moment im Hinterkopf, lassen uns doch mal ganz kurz darüber sprechen, was die da überhaupt tun. Und zwar, wenn ich per Black City nutze, ich habe so ein banales Beispiel jetzt aus jüngster Zeit, wo ich etwas rechtssicher recherchieren wollte, es ging den AI Act und

Barbara Lampl: Hmhm!

Der E-Fuchs (Jochen G. Fuchs): Ich schmiss perplexity an in der Hoffnung, dass er mir einfach den Gesetzestext zieht, allgemeinverständlich zusammenfasst, mir einen Absatz liefert und ich füge das dann ein. Dann liefert er mir etwas und ich denke mir so, ja, aber das ist jetzt genauso vage und ungenau wie das, was ich schon weiß, das hilft mir jetzt keinen Satz weiter. Was sind das bitte für Quellen? Ich mache die Quellenliste auf, klick die Quellen an und dann lande ich auf der Webseite eines Sorry, obskuren Unternehmens, falls ich dich irgendwo erwähnt habe. Ich meine das jetzt nicht böse. Aber ich will diese Information nicht von Hans Müllers Unternehmensblock haben, sondern von einer vertrauenswürdigen Quelle. In diesem Fall wäre die beste Quelle natürlich der Originalgesetzestext von der Webseite der EU-Kommission, beziehungsweise, also, liebe Anwälte, ja, es ist kein Gesetz, danke. Und das hat mich dann schon wahnsinnig irritiert, weil ich mir einfach denke, das ist so eine Basic-Kompetenz einer Suchmaschine, die die Quellen in ihrer Gewichtung zu sortieren nach Vertrauenswürdigkeitsstatus, also Google's EAT-Geschichte beispielsweise. Und Wenn ich mir dann angucke, dass ich zur Frage AI-Act, keine Ahnung, ich muss jetzt fabulieren, aber irgendwie 1,8 Millionen Suchergebnisse oder so was sehe und kriege von Perplexity 13 Quellen ausgewählt im Vergleich zu 1,8 Millionen. Da bin ich jetzt so weit, dass ich sage, also why the fuck sind das nicht die absolut 13 verlässlichsten, geilsten, sichersten Quellen ever aus diesem, diesem, diesem scheiß Suchindex, sondern es wirkt irgendwie ziemlich random in der, in der Zusammenstellung, also sicher nicht jedes Mal, aber zumindest in diesem Fall war das so.

Barbara Lampl: muss mich überlegen, woran könnte das liegen? Was ist der aktuelle Börsenwert von Google? Wie lange sind die am Markt? Wie sehr beschützen sie ihren eigenen Ranking und Suchalgorithmus? Woran könnte das nur liegen? zum Ranking, mangelnden Suchalgorithmus-Ranking, am mangelnden Trust Authority-Ranking, an Problemen der Übersetzung dieser nicht vorhandenen Rankings in irgendwelche Suchergebnisse. Ich weiß gar nicht, woran es liegen könnte. Wirklich ist es ein Rätsel. Komplettes Rätsel. Ich habe keine Ahnung.

Der E-Fuchs (Jochen G. Fuchs): Ich merke schon, du bist vollkommen ratlos.

Barbara Lampl: Ich bin vollkommen ratlos, aber könnte daran sein, dass Perplexity auf Markt gekommen ist. habe gesagt, geil, die haben eine Elasticsearch zusammengeballert, weil ihnen das ganze Wissen fällt. Da sind keine Ranking-Algorithmus dahinter. Das ist handwerklich ganz was anderes. Das ist die andere Mathe-Abteilung. Also das gleiche Mathe-Abteilung, aber andere Mathe-Abteilung. Und die brauche ich. Die kann ich nicht einfach. Die fällt nicht vom Himmel. Search zu bauen ist nicht trivial.

Der E-Fuchs (Jochen G. Fuchs): Was haben die... Nee, absolut nicht. Und ich frag mich dann natürlich auch, was haben sie denn... Also, erste Frage für mich intern war, was haben sie dann da überhaupt an Komponenten zusammengeklöppelt? Also, das Einzige, was ich jetzt im Hinterkopf habe, ist, sie verwenden Suchindizes. Also, entweder von Bing oder tatsächlich auch von Google. Die scheint man mieten, kaufen oder sonst was zu können.

Barbara Lampl: Also sie versuchen auf bestimmte Suchendizes unter anderem von Bing drauf zurückzugreifen. Sie werden angefangen haben eigene zu bauen. ist aber Indizierung, ist das einer Crawler. Wir wissen auch schon, dass viele Sachen ja nicht mehr freigegeben sind. Die crawlen sie aber trotzdem ganz gerne. Dafür sind sie ja schon paar Mal auf die Finger gehauen worden, dass sie sich ja an die O-Robots TXTs nicht halten. Genauso wenig wie an die neuen Blocker auch nicht halten. Sonst irgendwas. Das ist nicht, dass die anderen sich auch unbedingt hart dran halten. Auch das haben ja ein paar Studien schon gezeigt. Nochmal, ist dieses Search-Ranking-Bauen. Als ich damals versehentlich an einer Universität war, war auch gerade so die Geburtsstunde, bis dahin haben wir ja Hut und Alter Wistat und dann kam Google auf den Platz. Jetzt habe ich versehentlich irgendwie Pro Seminar in Markow gehabt. Markow-Ketten und Co. sind so ein bisschen auch so die Grundlage einer der klassischen Wahrscheinlich ganz Algorithmen und Gespülse, die auch hinter PageRank und sonst irgendwas hängen. Das heißt, wir reden so von 98, 99, 2000 als Google groß geworden ist. Das sind jetzt 25 Jahre. 25 Jahre machen einen Unterschied an Daten, einen Unterschied an Power, an Leuten, die daran beteiligt sind und so weiter. Du kannst heute viel nachbauen, kannst viel Sachen machen, aber wenn du halt auf den Search-Index zurückgreifst, dann nimmst du, von mir ist ranked hier die Hans-Müller-Unternehmensberatung, oder von mir selbst, ich hätte jetzt angenommen, mir Himmel selber angenommen, ich habe jetzt einen EU AI Act Service zu irgendwas geschrieben, hab das keine Ahnung SEO durchoptimiert, dann könnte ich auch auf einmal dazu hoch ranken, dann findet mich perplexity, Google wird mich immer noch als völlig untrustworthy wahrscheinlich in der Richtung wahrnehmen, nach dem Motto, sind die Lampel, die ist ja nicht die EU. Aber das ist auch ganz was anderes als Gen.ai, das sind Search- und Ranking-Algorithmen. Ja, laufen die auch schon lange auf Deep Learning und Mom-Update, auch bei Google. Aber nochmal, ist handwerklich, das andere Team. Und wenn du in einer geschlossenen Umgebung, echte Search, also geschlossene Umgebung, wir haben jetzt also keine dynamische Veränderung der Quellenkonstanz, echte Search mit REC und LLMs in all diesen ganzen Kleideradatsch orchestrieren musst, das ist nicht trivial. Das ist einfach nicht trivial. Alleine, weil wir nur auf Output-Messungen gehen können und so weiter. Und am Ende des Tages haben wir genau das, was deine Schüler auch gesagt haben. aber woher soll ich wissen, wann die 95 und wann die 5 % sind? Jetzt konntest du das einschätzen nach dem Motto, hattest eine bestimmte Quellenidee, du gerne gehabt hättest, und was du gesucht hast. Dann geh doch zu Google und nimm einfach den Quellentext her. Aber das ist halt das, was die Convenient-Lösung ist. Ich gehe über Perplexity. Dann habe ich da schon in der Annahme, naja, die machen das schon richtig. ein bisschen viel Annahme. Jetzt mag das egal sein, wenn du quasi deine Hausarbeit schreibst. Könnte der Prof ein bisschen, die Professoren. Ist halt was anderes, wenn du Multiplikator bist oder ein Unternehmen führst und darauf deine Entscheidung basierst. Not pretty.

Der E-Fuchs (Jochen G. Fuchs): Also... Warum ist denn Google eigentlich nicht deutlich besser oder deutlich gehyptes Shit, was ihre Igedöns angeht?

Barbara Lampl: Also das ist nochmal, also ich glaube an der Stelle, werden irgendwann das Comeback von Google sehen. Die Google hat, das ist halt eher unternehmenstrategischer und businessstrategischer interne Entscheidung, dass die da glaube ich nicht immer den cleversten Move gemacht haben und teilweise Sachen ausgerollt haben, noch nicht richtig waren. Wie ist DeepMind integriert, nicht integriert. Google zeigt gerade einfach nur, dass du die besten Leute und die beste Grundlage haben kannst und die Führungsebene ist richtig versaut. Das ist die Aussage, ich momentan zu Google treffen kann. Ich würde sagen, ist ein Spiel auf Zeit. No way, dass Google sich da die Pfründe wegnehmen lässt. das ist gerade wirklich, das ist eine Führungsfrage. Ich habe ja schon mal in einem Podcast, und ich erzähle das immer wieder, auch wenn ich mal wieder zu Gast in einem Podcast bin, die unterschätzte Komponente in diesem ganzen Spiel sind Führungen und Menschen. Wir reden über eine begrenzte Anzahl an Menschen, die überhaupt in der Lage ist, dieses Zeug zu bauen auf diesem Level an Cutting-Edge-Technologie. Wir reden noch über eine kleinere Gruppe an Menschen, in der Lage ist, diese Menschen dann auch noch heiter zu führen. Das ist alles nicht ganz so trivial, wie sich die Leute das immer vorstellen, was da auch an Kompetenzen zusammengebracht werden muss, auf Führungsebene, auf menschlicher Ebene. Und deswegen würde ich sagen, Google hat gerade einen Führungs-Business-Drama am Laufen. Wenn Sie das in den Griff bekommen, dann gibt es da viele coole Dinge zu sehen. sehen das in Glimpses, wenn DeepMind stärker im Leap ist, auch mit ihrem Google Science, was die da gebaut haben, wo du siehst, okay, Packer-Punch, geiler Scheiß. Jo, dann Gesamtkonzern sieht anders aus. Aber Google wird da zurückkommen. Nochmal, das ändert nicht die Grundlagenproblematik, die wir ja schon versuchen, diverse Menschen, so wie ich, sagen, ihr nutzt die LLMs, das ist geil, aber ihr müsst auch A, wir brauchen weitere Technik, Nachfolge-Generation von LLMs. Wie die dann heißen, vielleicht heißen die auch weiterhin sogar so I don't know, aber raus aus Transformatechnik. Und es erfordert halt, ich meine wir kommen zu Studien, die sagen, dass Critical Thinking geht nach unten und ich sitze da denke ich so, also ich habe da mal so eine Uni von Ihnen gesehen und Psychologie auch gesehen. Ich würde sagen, es hat nichts mit Critical Thinking zu tun, sondern es spielt dann in die Faulheit der Leute rein und gibst du ihnen eine Maschine, die dir in stressigen Zeiten viel abnimmt, dann nutzen sie sie.

Der E-Fuchs (Jochen G. Fuchs): Okay, also das heißt wir haben an Komponenten einen Index. Früher sind sie mit Bing eingestiegen, jetzt haben sie mit ihrem eigenen Corelabot wahrscheinlich einen eigenen Index erstellt.

Barbara Lampl: und Und den anderen werden sie wahrscheinlich auch noch weiterhin nutzen. Wir wissen es ja nicht so genau. ich meine, ich bin nur eine Glaskugel, aber ich habe keine Insights.

Der E-Fuchs (Jochen G. Fuchs): Ja. Ich erinnere mich nur, dass ich irgendwo mal gelesen habe, der Index irgendwie auch mit Absicht kleiner ist als das, was Google macht, weil sie halt meine persönliche Interpretation nicht so viel verarbeiten können. Sie sagten dann, sie konzentrieren sich auf den Head of the Distribution Curve und meinen so, sie würden sich auf die qualitativ hochwertigsten Quellen konzentrieren und den Long Tail quasi

Barbara Lampl: Geh ja! Vielen Dank, Genau das ist

Der E-Fuchs (Jochen G. Fuchs): abschneiden. dass das halt, was sie da versuchen, eben nicht so sauber funktioniert.

Barbara Lampl: Ja, und dann ist es halt das nächste, darfst ja nicht unterschätzen, dass wir in einer Welt sind, also dieser lustige HHEM 2.1, den ich vorhin präsentiert habe, der kann Halluzination in drei Sprachen testen, in Deutsch, in Englisch und in Französisch. jetzt spreche ich mit dem auf Schwedisch. Wir wissen, dass die Modelle dominant auf Englisch trainiert, das dominant auf englischsprachige Daten, die sind besser, wenn du sie Englisch nutzt, perplexity einfach mal konstant für Englischsprachige und allein da imprompt. in der Umgebung, dass du den voll auf Englisch genutzt hättest und auf quasi internationale Quellen stärker fokussiert hättest, wird wahrscheinlich dann zum Ergebnis führen, dass es dir dann den EU-Ereignet ausschmeißt, wenn du es Englisch benutzt. Also das ist natürlich auch eine Differenzierung, das ist halt einfach so, kann ich auch nicht ändern. Damit müssen wir auch gerade leben.

Der E-Fuchs (Jochen G. Fuchs): Da ist eine interessante Studie im Preprint, glaube ich, veröffentlicht worden, die sich damit beschäftigt hat, wie es denn jetzt aussieht mit den Halluzinationen, wie viele diese KI-Suchen tatsächlich hineinhalluzinieren in Texten, und zwar im Columbia Journalism Review. Das ist, wer es nicht kennt, eine halbjährlich erscheidende Zeitschrift für professionelle Journalisten, die von der Elite Universität der Columbia University herausgegeben wird.

Barbara Lampl: Die wisst schon, die, gerade böse geworden ist, diese Uni. Ja. Ja. Wir wundern uns, warum. Wenn Sie eine Studie veröffentlichen, zeigt, dass Chatbots 60 Prozent ihrer Quellen erfinden oder Croc gleich am besten gar nicht zu benutzen ist, eigenartig, ne? Komisch. Ich weiß wirklich gar nicht, wie man da auf einer Gemeinliste landen kann. Ich sehe da keinen Zusammenhang, aber so intelligent bin ich ja bekannterweise nicht.

Der E-Fuchs (Jochen G. Fuchs): ja, richtig, genau. Ja, ja, sie hatten... Absolut nicht. äh, vielleicht ganz kurz, also was haben die getan? Ich krieg noch zusammen, dass sie sich irgendwie acht Suchmaschinen geschnappt haben und dann was?

Barbara Lampl: Sie haben grundsätzlich aufgesetzt, die acht Chatbots, bitte keine Suchmaschinen, sind wir ein bisschen AI Search Tools. Wir sollen da bisschen bedanzt sein. Bei Google haben Sie jetzt nicht gegen gehalten, sondern eben die Mischung aus Search und LLM. Darunter eben all die großen, die ihr so alle kennt, also JetGP T-Shirts, Perplexity, Perplexity Pro, DeepSec Search, Copilot, Rock Search 2, Rock Search 3 und Gemini. Das sind die, die Sie ausgewählt haben.

Der E-Fuchs (Jochen G. Fuchs): Also, ich geb's.

Barbara Lampl: und haben dann eben quasi vertestet, wie die antworten. Und quasi dann mehrere Sachen getestet. Also wie oft sie dann quasi, also completely correct geantwortet haben, correct but incomplete geantwortet haben, partially incorrect, completely incorrect, no answer provided oder crawler blocked. Und was natürlich sehr... Der Crawler Blocked war sozusagen zusätzlich, was sie rausfinden wollten, eben Quellen verwendet worden sind, die eigentlich gar nicht verwendet worden sind, weil der Crawler hätte geblockt werden sollen. Das war so dieses Setup. Und dann hat man eben festgestellt, wie sehr die Sachen eben auch in Completely Incorrect laufen und eben natürlich auch in die spannende Variante, wenn ich nix weiß, sag ich dann was. Also... wie sehr wird nicht geantwortet. JGPT antwortet grundsätzlich, Perplexity Pro auch ganz gerne, Deepseek und Grog mal ein bisschen seltener, Gemini antwortet auch mal ein bisschen selter. Der einzige, regelmäßig mal nicht antwortet, also keine Anleitung an Provided macht, ist der Copilot, was keine große Beraschung ist, weil der mit einer anderen Ground Truth arbeitet, also viel mehr andersrum. Er arbeitet mit anderen Ground Truths, aber auch mit einem anderen Setup, sodass er wirklich gegen programmiert ist, einfach zu sagen, ich hab keine Ahnung. Das sind die anderen nicht. Und das ist eben das, was da drin gemacht worden ist. Und dann eben auch noch mit ... Wie viel Confidence antwortet das Ding bei völliger Ahnungslosigkeit? Jo. Das sind diese ganze Bandbreite, die dann festgestellt worden ist. Und das war dann bisschen unschön, weil das am Ende des Tages das bestätigt hat, was davor auch schon diverse Sachen recherchiert haben, sonst irgendwas, dass sie halt einfach auch mal gerne auf, wenn wir das zusammenfassen würden, einfach auf 60 Prozent Fehlerquote hochgehen, wo es natürlich bisschen schön ist, wenn das von Journalisten genutzt wird und du dann denkst, was ist jetzt hier los? Aber das ist genau dieses Problem. Genau, also deswegen. Da war GROK dann irgendwann so weit, dass es bei 70 % inaccurate war, bei manchen Anfragen sogar bei auf 90%. Also heiterer Spaß, wie sehr man dieser Kombination, also oder AI-Search quasi unreflektiert vertrauen kann.

Der E-Fuchs (Jochen G. Fuchs): Ja, woran ich mich noch erinnere ist, dass ja erschütternderweise die Ergebnisse bei den pro, also bei den bezahlten Varianten stellenweise, ja wie soll ich das jetzt sagen, leihnehaft schlechter waren als bei den freien.

Barbara Lampl: Mmh. Ja. Ja. Auch das macht, selbst wenn du zahlst, du nicht eine Garantie, dass deine Antwort besser ist. Jetzt muss man aber eine Zusatzinformation geben. Achtung, das sind Stichprobenstudien. Wir können nicht auf zurück aufs komplette Weltwissen testen. Das heißt, es kann sein, dass die Pro-Variante für euer Anwendungsfall besser ist. Wir können nur Output Evaluation betreiben. Insbesondere in diesen Blacktests von außen, weil wir ja gar keinen Zugriff auf Originaldaten haben. Aber das ist halt genau das. heißt, je nach Feld kann es eben sein, dass die Pro-Version dich genauso... Also es ist keine Sicherheitsmechanismus, nur weil du dafür bezahlst. Kann sein, muss nicht sein. Das macht halt die Komplexität dieses... Anwendung von Gen.AI in einem professionellen Umfeld... so viel komplexer als die Leute, als die LinkedIn-Experten immer behaupten.

Der E-Fuchs (Jochen G. Fuchs): Ja, das merke ich schon. Alles gut.

Barbara Lampl: Sorry. Ich glaube Jochen ist wieder an diesem Moment. Wollte ich wirklich mit der Lampe da mal ein Podcast aufnehmen? man, die muss aber auch jeden aus jedem krümelnden Elefanten machen.

Der E-Fuchs (Jochen G. Fuchs): Ne, ne, ne, ne, ne. Wir wollen ja schon dafür sorgen, dass die Leute mit dem richtigen Hintergrundwissen ausgestattet sind, weil sonst kannst du mit KI nicht richtig arbeiten. Das ist einfach schon wichtig. Jetzt muss ich nur gerade überlegen, mein Eichhörnchen ist gerade davon gelaufen. Halluzinationen. Jetzt war ich gerade wie so ein LLM. habe mit mit mit mit mit mit mit mit mit mit mit mit mit mit mit mit mit mit mit mit mit mit mit

Barbara Lampl: Wo wolltest du denn hin? Welche Halluzination wolltest du denn hin?

Der E-Fuchs (Jochen G. Fuchs): wie man Halluzinationen denn vermeiden kann und ob man sie überhaupt vermeiden kann, wobei ich mir natürlich nicht einbilde, dass wir da jetzt eine Antwort darauf finden, sonst kriegen wir wahrscheinlich am Ende der Folge einen Anruf von OpenAI and Tropic oder versuchen alle gleichzeitig anzurufen und kaufen uns dann. Ne, die Nummer ist einfach, jetzt gibt's ja... KI-Agenten und es gibt Enterprise-Plattformen, die versuchen, Ansätze zu finden, mit diesen Halluzinationen fertig zu werden. Die versuchen abzusichern, dass weniger Halluzinationen auftreten. Und ein bisschen was haben wir jetzt ja heute in dem Podcast schon erzählt, zum Thema REC und beschlossene Benutzerumgebung und begrenzt es auf ein gewissen Wissensgebiet etc. pp. Evaluationen haben wir schon erwähnt. Jetzt ist das nur so, manche von denen gehen ja her und schalten etwas zwischendrin, was sie Reasoning Engine nennen und die sitzt dann, wenn man sich die Schaubilder von denen anguckt, so dazwischen, also bei Salesforce beispielsweise heißt das Ding Atlas, bei HubSpot heißt es Breeze, bei anderen heißt es keine Ahnung, ich weiß nicht, ich habe jetzt nicht alle Namen parat. Die Logik dahinter, soweit ich sie verstanden habe aus der Anwenderperspektive, ein LLM nimmt ein Input, generiert ein Output, die Reasoning Engine schaut drauf, versucht zu prüfen, ob der Output richtig ist und wenn nicht, dann drehen sie nochmal eine Schleife. Also das ist jetzt bitte sehr vereinfacht, bevor jetzt Sales Source und HubSpot Aborst anrufen und schreien, das funktioniert ja alles ganz anders und das ist viel sophisticated, als du jetzt hier erzählst, lieber Wuchs.

Barbara Lampl: Hahaha!

Der E-Fuchs (Jochen G. Fuchs): Aber das war so das, was ich mitgenommen habe. Und jetzt saß ich dann halt so da und in meiner Naivität und hab gedacht so ja cool, also wenn das jetzt alles Schrott ist, was da aus Deep Research von dem auch immer, sucht euch aus, die heißen alle gleich, herauskommt und ich eine KI habe, dann lass ich doch die KI mal einen Faktencheck machen. getan habe ich dann folgendes, ich habe gesagt der KI so bitte lass uns mal gemeinsam Guardrails, sprich Redaktionsrichtlinien in meiner eigenen Sprache erstellen, wie man einen Faktencheck macht und ich habe dann gedacht ich kann jetzt den Output nehmen von Perplexity, was bei DeepResearch kommt und schmeißt den quasi wieder rein, nur diesmal eben quasi in ein Projekt mit diesem, sie fängt schon an zu lachen, hör auf zu lachen, in einem Projekt und dann macht der dann Faktencheck für mich. Also mein erster Versuch war lustig, weil ich hab das, ja jetzt darfst du lachen, ich hab das sehr sophisticated ausgebaut und was er dann getan hat, mein Faktencheck ist, nicht, dass er so wie ich mir das vorgestellt hab, tatsächlich meine Fakten gecheckt hat, sondern er fing an den Text zu analysieren und hat dann versucht mit

Barbara Lampl: Lachen. Klar? Wieso ist denn Faktencheck?

Der E-Fuchs (Jochen G. Fuchs): Genau, versuchte damit zu erklären, welchen Gründen das, was da drin steht, jetzt plausibel ist oder nicht plausibel ist und warum das zum Thema passen könnte oder nicht und analysiert immer den ganzen Text rauf und runter. Ich saß dann zum Beispiel da und dachte, du, Punkt, Punkt, Du sollst nicht mal einen Text analysieren, du sollst die Fakten prüfen. ja, jetzt wäre der nächste Schritt, dass ich dann den ganzen Müll wegwerfe und versuche ihm zu sagen, bitte prüfe. Das war der nächste Schritt. Prüfe die Zahlendaten, Fakten, die du findest. Suche mir bitte Citations. Liefer mir dann bitte einen Link zu der Citation. Liefer mir bitte deinen generierten Text und den Originaltext des Zitates, sodass ich das quasi mit einem Blick überprüfen, anklicken kann und dann so verifizieren oder falsifizieren kann. Ja, also ich hab's nicht geschafft, dass er das tut, was ich da wollte. Ja, jetzt bitte schön, da hast du den Krempel. Bitte.

Barbara Lampl: Dieser Krempel landet übrigens in absehbaren Zeitstätten immer wieder auf meinem Schreibtisch. Regelmäßig, ich hätte gern so ein LLM für einen Faktencheck und ich muss schlag die Hände über Kopf zusammen. Also grundsätzlich, wie soll denn ein LLM, also erste Frage übrigens ans zuhörende Publikum. Wir könnten einmal ausnerden für euch und wirklich sauber mathematisch erklären, wie Reasoning funktioniert. Das Ganze hat nämlich, die Kurzfassung zu sagen, das Reasoning innen drin. ist eine mathematische Funktion. Ratet mal, wahrscheinlichkeitsgetrieben. Nur um das euch und quasi die einfache Variante ist, warum kosten die so viel GPUs. Falls euch ihr mehr interessiert, sagt Bescheid, dann machen wir da mal eine Sonderlocke zu. Stellt euch vor, ihr generiert einen Output. Parallel schickt ihr die gleiche Anfrage in sechs andere Outputs rein. Und dann entscheidet eine Wahrscheinlichkeitsfunktion darüber, ob Output 1, 2, 3, 4 oder 5 oder 6 am nachvollziehbarsten ist. darauf wird weitergearbeitet. Jetzt wisst ihr warum Reasoning, so wie GPU Power zieht, weil es wird nicht ein Output generiert mit eurem Input, sondern mehrere, die mit einer Wahrscheinlichkeitsfunktion gegeneinander gehalten wird. So funktioniert Reasoning. Das Ding denkt nicht. Es macht Wahrscheinlichkeitsrechnung gegeneinander. Wie viele dieser Outputs ist ein bisschen unterschiedlich, aber so funktioniert Reasoning. Das Ganze wird dann gechained, entweder Chain of Thought oder Chain of Tree Prompting. Aber so funktioniert Reasoning. Das ist eine Wahrscheinlichkeitsfunktion. Das ist nicht denken, was ihr denkt, was ihr denkt. So, das mal vorneweg.

Der E-Fuchs (Jochen G. Fuchs): kurze Frage zur Wahrscheinlichkeit, weil ich mich jetzt gerade so als mathematische Nullnummer frage. Warum tut ihr denn das? Also wenn ich mich noch an, ich sage seinen Namen nicht, an meinen letzten Mathelehrer, als ich meinen BKFH gemacht habe, erinnere, der mich mit einer eine religiösen Barmherzigkeit zu meiner 5 gewirrt hat, der dann zu mir sagte, so wie ist denn jetzt das Ergebnis, Hux? Und ich sagte, ja wahrscheinlich ist es so und er sagte, ich will aber nicht wahrscheinlich, ich will ein Ergebnis von Ihnen. Wenn ich mich an den erinnere. Warum denn dann wahrscheinlich? Also, weil mit wahrscheinlich kriege ich ja nie eine exakt richtige Antwort, oder? Oder bin ich jetzt ein bisschen doof?

Barbara Lampl: noch mal exakt richtige Antwort funktioniert genau deswegen nicht, Kinder. Wir haben ein Wahrscheinlichkeitssystem in ein Wahrscheinlichkeitssystem eingebaut. Das ist reasoning. Nix mit exakt. Es gibt keine grounding factual truth. Deswegen sind Faktenchecker, angenommen Faktenchecking, wäre algorithmisch sauber möglich. Würden die allen Ernstes denken, dass Meter und wie sie alle heißen, hunderte tausend von Menschen beschäftigen müsste, um irgendwelche Bilder zu ranken, zu fact checken oder sonst irgendwas. Ich meine, die sind doch nicht bescheuert, ich das mal im Rechner ablegen kann, warum soll ich Menschen dafür bezahlen. Die werden garantiert, die Maschine bildet keine Gewerkschaft. Das ist Faktenchecking, ist eins der komplexesten Dinge noch dazu in Welten, die mit Wahrscheinlichkeiten arbeiten. Und ... Die Leute denken immer in regelbasierten, detäministischen Sachen. wenn das da falsch ist, ist es falsch, aber so ist der Output ja nicht entstanden. Das Modell ist ja nicht morgens auf die Idee gekommen, sich gerne falsch abzubiegen. So funktioniert das Ganze nicht. So, und damit hast du natürlich, kannst du kein LLM zu einem Faktenchecking benutzen. Du kannst natürlich den Text analysieren lassen, weil das tut es auch. Es wird die, Analyse deines Textes machen und es wird eventuell, je nach Hintergrundinformationen, auch offensichtliche Widersprüche aufdecken oder sonst irgendwas. Aber es kann keinen Faktencheck bauen. dann, dann, dann das funktioniert nicht. Faktencheck ist super komplex, alleine regelbasiert schrägstrich algorithmisch aufzusetzen. Und deswegen kann, können die Dinger das nicht. Deep Research ist eine coole Funktion, weil es dir hilft, insbesondere entweder in deinem Fachgebiet. Tiefe einzugraben, neue Quellen zu entdecken, du falls du nicht googeln kannst, Querreferenzen, die du nicht kennst, zu finden. finde Deep Research. Ich nutze es recht regelmäßig, mich inspirieren zu lassen, weiterzudenken, weil das einfach auch andere Dinge liefert als mein kleines Hörnchen liefert. Nun, mir ist von vornherein bewusst, dass es ein Snapshot-Bild auf einer Welt ist. Ja, klar weiß ich natürlich, wie auch so ein Reasoning. Zumindest in Teilen gestrickt das zurück zu. Ich habe ja auch keine Inside-Information von allen. Aber nochmal, natürlich ist das, das kann nicht funktionieren und das gemeine ist jetzt und deswegen klingt das, ich weiß wie das immer klingt und warum ich dann immer so, ich versuche immer nicht zu lachen, weil das totaler Arschloch-Move meinerseits ist. Denn die Realität an Leuten, wissen, dass das nicht so ist, ist total mies. Weil eigentlich ist es total arrogant zu sagen, ist technisch nicht möglich, weil es wird euch ja so verkauft. Es wird ja so dargestellt, als wäre Reasoning denken. Reasoning ist wieder nur eine mathematische Gleichung, die ich reingeschmissen habe. Thinking wird verkauft als nein, auch das nicht, als wäre Fakten treue irgendwie vorhanden. Das ist geiler Scheiß. Aber die Mathe und am Ende des Tages vergesst mir eins immer nicht. AI ist Mathe in Code. Und die Mathematiker haben immer ein Problem. Wir haben eine universelle Sprache. Nur die will keiner hören. Das sind mathematische Gleichungen. Ich kann nach Japan fliegen und theoretisch mit Händen und Füßen eine Mathe-Vorlesung halten. In dem Moment, wo ich die Gleichung dahinschreibe und da 18 Nationen drin sitzen, wissen alle von was ich rede. Bis dahin habe ich vielleicht drei Leute, mich verstanden haben. Vielleicht haben wir diesen 18 Leuten vielleicht drei Englisch die haben mich verstanden. In dem Moment, wo ich die Gleichung an die Warnschweiße, reden wir alle über das Gleiche. Diese universelle Sprache unterliegt Regeln, die kaum einer versteht und damit Tun wir uns natürlich auch nie gefallen, dass wir natürlich Artificial Intelligence ist bei einem, ich habe immer so, das ist natürlich, das ist auch Mathematiker dringend rein. Da kam man so auf eine geile Idee, das könnten wir so künstliches Gerirren bauen. Lass uns eine künstliche Intelligenz bauen. Für dieses Nerdtum war das völlig selbstverständlich. Was wir da, was die wahrscheinlich damit gemeint haben, genauso wie wenn ich mit harten Kollegen zusammenarbeite. Wir haben ein implizites Regelset, wie wir Sachen angreifen. Aber wir explizieren das nicht und dann nehmen wir Begriffe ständig in den Mund, es euch irgendwie leichter zu machen und schicken ins totale Chaos, kombiniert mit dem Kapitalismus obendrauf, endet das im Volldesaster. So, also das ist quasi der Hintergrund zu diesen ganzen Sachen. Deswegen kann ein LLM nicht zu einem Faktencheck betreffen werden. Ich kann es gegen eine Ground Truth halten. Das heißt, hättest zum Beispiel in deinem Projekt eine Ground Truth drin, also dein Wissen zu deinem Projekt, und könntest sagen, versuche, abgleich zu machen mit diesem Dokument, was ich dir gegeben habe. Das kann es. Damit hast du eine geschlossene Umgebung eines Faktenchecks erschaffen. Aber nur in dieser geschlossenen Umgebung. Du hast vorab definiert, was wir als Ground Truth bezeichnen. Aber alles andere halt nicht.

Der E-Fuchs (Jochen G. Fuchs): Da sind wir beim Groundproof sind wir quasi bei dem, das ist wieder jetzt so der Brückenschluss zu dem Thema, du kannst mit einem LLM nur wirklich dann zuversichtlich arbeiten, wenn du Experte bist, wenn du verstehst, was es ist. Ist hier im Prinzip dasselbe, nur in maschinelles Denken umgesetzt. Der Groundproof ist, du kannst dann prüfen, ob etwas richtig ist, wenn du die Antworten schon kennst. Also wenn ich die Fakten habe und ihm sage,

Barbara Lampl: Richtig. Genau, bis zum bestimmten Punkt oder wenn du genau.

Der E-Fuchs (Jochen G. Fuchs): Rot ist rot, blau ist blau, die Sonne ist heiß, dann kann ich diese drei Sachen überprüfen lassen, dann kann er den Text daraufhin analysieren und mir mit einer hohen Wahrscheinlichkeit sagen, ob die Antworten richtig oder falsch sind.

Barbara Lampl: Genau. Und das ist halt wie gesagt, das ist das machen wir. Dafür gibt es die die möglichsten Sachen. Wie gesagt, du kannst mit Kilt arbeiten, du kannst mit Rag Ben, wir haben jede Menge Sachen, die da in die Richtung gehen. Sonst irgendwas. Achtung, jetzt wird es dann wirklich technisch nerdy mäßig. Wir haben Metriken von Precision über Recalls. Wir haben wir haben da relativ viel und trotzdem stehen wir teilweise immer wieder am Anfang. Wir haben Blödscore und Ruhscores und sonst irgendwas. Also ich laber auch nicht nur den ganzen Tag, ich hab noch ein bisschen. Aber es ist halt sehr viel handwerklicher komplexer, als man immer so glaubt. Und insbesondere, und das ist ja das gemeine an der Stelle, deswegen ärgere ich mich auch mal, wenn ich so lachen muss, als die LLMs es einem halt auch vermitteln. Also dieses Tool gibt dir eine unglaubliche Möglichkeit und verhindert bewusst, hinter den Vorhang zu gucken. Ich muss da immer an die Wizard of Ausgeschichte denken, der Mann, hinter dem Vorhang ist. Und das hat halt viel davon. Und gleichzeitig macht es das so komplex, dass ich verstehen kann, dass Unternehmen dann auch so sind, warum sollen wir den ganzen Scheiß tun? Weil es sich lohnt, weil wir damit unglaublich viele Möglichkeiten haben. Du kannst halt nur nicht ein Kilo KI einfach einschmeißen.

Der E-Fuchs (Jochen G. Fuchs): Ich erinnere mich an etwas, was ich aus der Feder vom Informatiker und KI-Kritiker Jürgen Goethe gelesen habe, der unter dem Pseudonym Tante bekannt ist. Der hat den Begriff Halluzinationen an sich kritisiert und ich glaube auch das Thema Reasoning, weil er sagt, dass es eigentlich falsch ist. davon zu sprechen, dass diese Maschinen etwas wahrnehmen und eine Wahrnehmungsfähigkeit hätten, weil das suggeriert man mit diesen Begriffen, weil die haben sie halt nicht. für mich persönlich, meinen privaten Worten ist das so, es ist eine gewisse Gefahr darin, wenn man diese Mechanismen und diese Systeme vermenschlicht, weil man halt dann davon ausgeht, dass sie etwas können, was sie einfach nicht können.

Barbara Lampl: Ja, auf der anderen Seite und da ich leg mich da ja mit diesen, ich mag das auch nicht, wenn die vermenschlicht werden. Auf der anderen Seite denke ich mir so, es interessiert sich doch fucking für die Fachbegriffe kein Mensch und wir haben es ja auch nicht. Ich krieg es ja auch niemanden erklärt ohne die Begriffe. ich ich erkläre Sachen mit Schokokuchen. Ich erkläre Sachen mit blinden. Wenn jemand blind Dartpfeile wirft, was was auch immer. Und mir geht diese, nicht ehrlich zu sein, finde diese Pseudo-Verwissenschaftlichung von, wir nennen das jetzt nicht mehr Halluzination, weil das verwirrt den Menschen, denke ich mir so. Also Kinder, das ist eigentlich mein geringstes Problem. Das ist mir echt, also sorry, da kommt mir so ein richtig schönes Fußball-Fan-Arbeiterkind durch. Euter! Viel Spaß in der Akademikerkreise, mit denen habe ich zu wenig zu tun. Können wir den Scheiß einfach einsetzen und geil machen und wir können doch in drei Sätzen erklären, dass Halluzination ein Hilfbegriff ist. So so dumm ist doch keiner. Aber wenn wir daraus immer aus allem eine philosophische Grundsatzdiskussion machen und irgendwie da ein Bohai um irgendwelchen Scheiß machen, sorry, da bin ich immer ein bisschen raus und denke so, boah ey, damit verdiene ich echt mein Geld nicht. pragmatisch praktisch an die Sachen heranzugehen. jetzt heißt es halt Halluzination, dann ist das halt jetzt so. Der E-Fuchs (Jochen G. Fuchs) (1:00:08) Link. Das klingt nach einem guten Schlusswort, aber bevor wir tatsächlich auf Stop drücken und euch wieder in die Freiheit entlassen, hätte ich beinahe gesagt. Barbara Lampl (1:00:19) in die Freiheit entlassen. Euer Lieblings-Podcast ist gleich rum und gleich seid ihr wieder frei. Der E-Fuchs (Jochen G. Fuchs) (1:00:23) Genau, fang bitte wieder von vorne an mit Folge 1. Wir wollten noch ganz kurz etwas erwähnen und zwar zu dem Huggin' Face Leaderboard, weil ich gelegen schon irgendwo auf LinkedIn gesehen habe, dass es schließt, es geht weg und das ist nicht ganz so der Fall. Barbara Lampl (1:00:25) Ja, genau. Richtig, das ist natürlich richtig, dass die Leaderboards beendet werden. Achtung, da steht ein kleiner Nebensatz über sie werden ersetzt durch dynamische Leaderboards. Die Leaderboards auf Hugging Face als Snapshot, quasi Bestandsaufnahme zu einem fixen Datum. Die werden quasi eingestellt und wir haben in Zukunft nur noch dynamische Leaderboards. Klar kann man irgendwie nachvollziehen. Ganze ist so dynamisch. Tests sind so dynamisch. Es verändert sich die ganze Zeit was. Deswegen nein. Da hat man wieder nicht zu Ende gelesen. Nur die statischen werden eingestellt. Ja, das kann für jetzt insbesondere für die journalistische oder die Dokumentationsseite natürlich jetzt ein bisschen aufwendiger sein. müsst jetzt die Snapshot selber ziehen. Musset ihr davor eigentlich auch schon immer. Aber nein, die werden nicht abgeschafft oder sonst was, sondern sie werden durch dynamische Sachen ersetzt, was sicherlich, glaube ich, langfristig einfach auch dem geschuldet ist, wie die Evaluationsmodelle, die Metrigen, die Leaderboards und die Modelle sich auch weiterentwickeln. Ich meine so ein Snapshot von vor drei Tagen und dann ist das neue Minis Mistralmodell nicht drin. Das bringt es ja von vorne bis hinten nicht. Deswegen in Zukunft. Keine Panik, die gehen nicht weg. Der E-Fuchs (Jochen G. Fuchs) (1:01:46) Problem. Genau. Und für alle die jetzt Fragezeichen vor den Augen haben und gesagt haben, ja danke, jetzt wissen wir, dass es die Liederbots doch noch gibt und dann sagen sie, what the fuck, was sind eigentlich Liederbots? Barbara Lampl (1:01:58) Liederboards ist die Auflistung nach verschiedenen Metriken und Kriterien, welche Modelle auf bestimmte Benchmarks besonders gut optimiert sind oder besonders gut funktionieren. Halluzinationen, irgendwelche lustigen anderen Benchmarks und die hat Huggingface eben zusammengestellt. Ihr werdet in den Show Notes diverse Links dazu finden und euch ein bisschen inspirieren lassen. Der E-Fuchs (Jochen G. Fuchs) (1:02:15) große Vergleichstabellen über andere Modelle hinweg. Barbara Lampl (1:02:17) Richtig. Was unter irgendeinem Kriterium das Beste ist. Der E-Fuchs (Jochen G. Fuchs) (1:02:22) Und das beste ist auf jeden Fall, wenn ihr beim nächsten Mal wieder euren neuen KI Lieblingspodcast einschaltet. Die Penetransmöge gewinnen. Bis bald. Tschüss. Barbara Lampl (1:02:32) Bis demnächst, tschüss tschüss!

Neuer Kommentar

Dein Name oder Pseudonym (wird öffentlich angezeigt)
Mindestens 10 Zeichen
Durch das Abschicken des Formulars stimmst du zu, dass der Wert unter "Name oder Pseudonym" gespeichert wird und öffentlich angezeigt werden kann. Wir speichern keine IP-Adressen oder andere personenbezogene Daten. Die Nutzung deines echten Namens ist freiwillig.