KI und Peak LLM: Der Weg zur Allgemeinen Intelligenz

Shownotes

Über die Diskussion zwischen Yann LeCun von Meta und Adam Brown von Googles Deepmind

Wer hat Recht im Kampf um die Zukunft der KI? Yann LeCun von Meta und Adam Brown von DeepMind streiten darüber, ob Large Language Models uns zur Allgemeinen Intelligenz führen können – oder ob wir komplett neue Architekturen brauchen. Spoiler: Beide haben verdammt gute Argumente, und wir sortieren für euch den Hype vom Bullshit.

In dieser Episode tauchen wir tief ein in die spannendste Debatte der KI-Forschung: Kann Skalierung allein zu AGI führen, oder brauchen wir Weltmodelle und physikalisches Verständnis? Barbara erklärt, warum ein vierjähriges Kind nicht so intelligent wie ein LLM ist (auch wenn beide gleich viele Daten gesehen haben), und Jochen fragt die Fragen, die wir uns alle stellen: Was zur Hölle ist eigentlich "emergentes Verständnis"?

Wir klären auf, warum diskrete Token und kontinuierliche Daten nicht dasselbe sind, was Gary Marcus mit Papageien zu tun hat (und warum selbst er das nicht mehr sagt), und ob uns wirklich eine Büroklammer-produzierende KI vernichten wird. Spoiler: Die echte Gefahr liegt woanders – und sie ist schon da.

🔗 LINKS & QUELLEN

Hauptartikel zur Episode:

The Decoder: Yann LeCun und DeepMind-Forscher streiten über LLMs als Weg zur AGI https://the-decoder.de/yann-lecun-und-deepmind-forscher-streiten-ueber-llms-als-weg-zur-allgemeinen-intelligenz/

Erwähnte Personen:

Yann LeCun (Meta - Chief AI Scientist):

Meta AI Profil: https://ai.meta.com/people/396469589677838/yann-lecun/
LinkedIn: https://www.linkedin.com/in/yann-lecun/
Personal Website: http://yann.lecun.com/
Wikipedia: https://de.wikipedia.org/wiki/Yann_LeCun

Adam Brown (Google DeepMind - Blueshift Team):

Google Research Profil: https://research.google/people/108351/
Stanford Affiliation: https://physics.stanford.edu/events/applied-physicsphysics-colloquium-adam-brown-artificial-general-intelligence-and-future
Dwarkesh Podcast Interview: https://www.dwarkesh.com/p/adam-brown

Gary Marcus (Kognitionswissenschaftler und KI-Kritiker):

Substack "Marcus on AI": https://garymarcus.substack.com/
Wikipedia: https://de.wikipedia.org/wiki/Gary_Marcus
IEEE Spectrum Interview: https://spectrum.ieee.org/gary-marcus
MIT Technology Review: https://www.technologyreview.com/2024/02/20/1088701/i-went-for-a-walk-with-gary-marcus-ais-loudest-critic/

Erwähnte Technologien & Demos:

OpenAI Figure 01 Roboter-Demo (März 2024):

New Atlas Report: https://newatlas.com/robotics/figure-01-openai-humanoid-robot-real-time-conversations/
VentureBeat Coverage: https://venturebeat.com/ai/openai-powers-a-robot-that-can-hand-people-food-pick-up-trash-put-away-dishes-and-more/
HotHardware: https://hothardware.com/news/openais-figure-01-robot-demo

JEPA (Joint Embedding Predictive Architecture):

Meta AI Blog - I-JEPA: https://ai.meta.com/blog/yann-lecun-ai-model-i-jepa/
Meta AI Blog - V-JEPA: https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/
I-JEPA Paper (arXiv): https://arxiv.org/abs/2301.08243
MC-JEPA Paper (arXiv): https://arxiv.org/abs/2307.12698
Turing Post Explainer: https://www.turingpost.com/p/jepa
Deep Dive: https://rohitbandaru.github.io/blog/JEPA-Deep-Dive/

Weitere Ressourcen:

Anthropic Constitutional AI - Ethik & Moral in KI-Systemen
ImageNet - Historischer Durchbruch im Deep Learning

📚 KAPITELMARKER

00:00:00 Einleitung und Begrüßung 00:01:20 Die aktuelle AGI-Debatte zwischen LeCun und Brown 00:02:50 Wie hat sich die AGI-Diskussion verändert? 00:04:03 Browns Position: Skalierung führt zu AGI 00:05:09 Emergentes Verständnis als Schlüsselfrage 00:07:43 Mathematik-Benchmarks als Beweis? 00:09:00 Skalierung: Sättigung oder Hockeystick? 00:12:52 LeCuns Gegenposition: Fehlende physikalische Realität 00:13:19 Diskret vs. Kontinuierlich: Der zentrale Unterschied 00:14:58 Prädiktive Algorithmen vs. Prädiktive Modelle 00:20:55 Weltmodelle und physikalisches Verständnis 00:23:35 Narrow AI vs. General Intelligence 00:26:43 Das Missverständnis mit dem vierjährigen Kind 00:28:21 Gary Marcus und der Papagei 00:30:01 JEPA im Detail 00:32:15 Symbolische KI und Neuro-Symbolik 00:37:02 Bewusstsein und Moral in Maschinen 00:43:31 Das Büroklammerproblem 00:46:27 Die reale Gefahr: Monopolisierung 00:49:34 Schlusswort: KI-Kompetenz und Open Source 00:50:31 Verabschiedung

💡 KERNAUSSAGEN DIESER EPISODE

• LLMs haben so viele Daten verarbeitet wie ein vierjähriges Kind - aber ohne dessen physikalisches Verständnis • "Emergentes Verständnis" bedeutet: Wirklich Neues schaffen, nicht nur reproduzieren • Der Streit: Reicht Skalierung (Brown) oder brauchen wir neue Architekturen wie JEPA (LeCun)? • Diskrete Token vs. kontinuierliche Realität - warum LLMs die physische Welt nicht "verstehen" • Die echte Gefahr heute: Monopolisierung der KI-Entwicklung, nicht Skynet • KI-Kompetenz in der Bevölkerung ist wichtiger als ein paar Nerds, die Gegenmodelle bauen

🎯 ZITATE DER EPISODE

"Wir haben 80 Millionen Bundestrainer - jeder hat jetzt eine Meinung zu AI." - Barbara

"Wenn das Ding morgens aufwacht und uns alle töten will, dann hat der Mensch ihm das als Zielsetzung vorgegeben." - Barbara

"Die größere Bedrohung ist dieser komische Zweibeiner aus Kohlenstoff, nicht das Silizium." - Barbara über KI-Alarmismus

"Wir bringen uns schon noch schön alle um, bevor die Maschine uns umbringt." - Barbara

"Die Monopolisierung haben wir jetzt schon. Da müssen wir jetzt gucken, dass wir aus der Nummer rauskommen." - Barbara

🧠 FÜR NERDS & DEEP-DIVES

Wenn ihr mehr über die technischen Hintergründe erfahren wollt:

Schaut euch unsere Basisfolge zum "KI-Bauchladen" an - dort erklären wir verschiedene KI-Typen jenseits von LLMs
Folgt Yann LeCun und Gary Marcus auf LinkedIn - die Diskussion geht dort weiter
Lest Papers zu JEPA und Self-Supervised Learning
Beschäftigt euch mit dem Konzept der symbolischen KI - das ist älter als die meisten denken

===============================================================================

🥳 Danke, dass du LAIer 8|9 eingeschaltet hast! Möge die KI mit dir sein!

Schreib uns eine Bewertung mit dem KI-Modell deiner Wahl und abonniere uns auf deiner Lieblingsplattform, wir sind überall, es gibt kein Entrinnen!

[Apple] https://podcasts.apple.com/podcast/id1798319508
[Deezer] https://www.deezer.com/de/show/1001665971
[Spotify] https://open.spotify.com/show/2IfqJA4Qo02fslECWpEQW8
[Amazon Music] https://music.amazon.de/podcasts/497c3a14-dcaf-4bb3-abc1-03aa6f73f8d3/laier-8-9---noch'n-ki-podcast
[Youtube Video-Podcast] https://www.youtube.com/@laier89

Unsere Hosts AI Babsi (Barbara): [Website] https://www.barbara-lampl.de | [LinkedIn] https://www.linkedin.com/in/barbaralampl/ E-Fuchs (Jochen): [Website] https://efuchs.net | [LinkedIn] https://www.linkedin.com/in/jochengfuchs/

Unser Podcast Blog https://www.laier89.de/

01001100 01110101 01101011 01100101 00101100 00100000 01001001 01100011 01101000 00100000 01100010 01101001 01101110 00100000 01100100 01100101 01101001 01101110 00100000 01001011 01001001 00101101 01010000 01101111 01100100 01100011 01100001 01110011 01110100 00100000 01001100 01000001 01001001 01100101 01110010 00100000 00111000 01111100 00111001 00101110

LAIer 8|9 wird nicht Layer 89 oder Layer 8|9 geschrieben, auch nicht Layer 8 9, aber wir sind cool und wir sind tough, deshalb gibt's hier Keyword-Stuff.

Transkript anzeigen

**Jochen G. Fuchs: ** Willkommen bei einer neuen Folge deines KI-Lieblingspodcasts, LAIer 8|9. Hallo Barbara!

**Barbara Lampl: ** Hallo Jochen und hallo liebe Zuhörerinnen und Zuhörer, da sind wir wieder.

**Jochen G. Fuchs: ** Ich finde die Diskrepanz zwischen unseren Intonierungen immer wieder lustig. Ich sage jetzt nicht, woran mich das eine und das andere erinnert. Ich bin übrigens auch wahnsinnig froh, dass unser Podcast heute auf Deutsch ist und nicht auf Englisch. Ich habe nämlich heute Morgen zum Zeitvertreib, während ich irgendwelchen bürokratischen Bullshit erledigt habe, die letzten drei oder vier Netflix Comedy Specials von Ricky Gervais laufen lassen. Ich habe früher mal Stand-up Comedy gemacht und wenn ich das dann irgendwie so drei, vier Stunden serviert kriege, dann neige ich dazu irgendwann in diese Schiene abzudriften. Ja, Gervais ist jetzt nicht so ganz…

**Barbara Lampl: ** Okay, ich glaube, das müssen wir schneiden. Flach, flacher geht’s nicht, Jochen, heute. Liebe Zuhörer, wir kommen gleich zum Punkt. Der Jochen hat sich auch gleich gefangen.

**Jochen G. Fuchs: ** Genau, ich schicke das… Erinnere mich daran, dass ich nachher Ricky Gervais einen Tweet schicke mit einem Link zu unserer Folge. Ich muss die vorher übersetzen lassen. Nee, bringt nichts. ## Die aktuelle AGI-Debatte

**Jochen G. Fuchs: ** Im Moment diskutieren gerade Yann LeCun von Meta und Adam Brown von DeepMind über den Weg zur Allgemeinen Intelligenz. Die Diskussion ist jetzt nicht unbedingt neu, aber sie gewinnt im Moment einfach irgendwie sehr viel Aufmerksamkeit. Ja, weil wir halt auch irgendwie alle darüber diskutieren. Ist das LLM jetzt der richtige Weg zu dieser vermuteten allgemeinen Intelligenz oder ist es nicht?

**Barbara Lampl: ** Ja, und weil wir halt auch technologisch in kürzester Zeit extreme Fortschritte gemacht haben, sodass die Diskussion einfach eine andere Visibilität, aber auch ein anderes Grounding, eine andere Nachvollziehbarkeit und eine andere zeitliche Brisanz vielleicht sogar bekommen hat. Sachen, die früher eben doch noch weit weg erschienen, sind zwischenzeitlich halt einfach auch erreichbar oder bereits erreicht. Deswegen sind manche Sachen einfach näher gerückt, andere Sachen haben wir aber auch schon gepackt. Deswegen würde ich sagen, dass die Diskussion aktuell noch mal eine Veränderung erfahren hat und definitiv konstanter geführt wird.

**Jochen G. Fuchs: ** Wie hat sie sich denn verändert im Vergleich zur vorherigen?

**Barbara Lampl: ** Also natürlich an der Anzahl der Beteiligten, die sich an dieser Diskussion versuchen einzubringen. Wir sind konstant in einer Fußballweltmeisterschaft. Wir nennen das AI. Denn wir haben auf jeden Fall 80 Millionen Bundestrainer. Also jeder hat jetzt irgendwie eine Meinung dazu. Das hat sich sicherlich verändert. Die Anzahl derer, die mitdiskutieren aus mehr oder minder fachlicher Perspektive, hat sich verändert. Und was sich verändert hat, ist sicherlich wo wir halt realistisch jetzt auf Ende 2025 stehen, sodass manche Thesen, die man davor hatte… Auch ich bin ja bekanntermaßen klassischerweise Team Yann LeCun, auch Team von „das Ding hat kein Weltmodell”. Aber auf der anderen Seite kann ich immer mehr, ohne dass ich mich wirklich bisher in die Richtung bewegt habe, der Position, die Adam Brown auch verfolgt, immer mehr ein bisschen abgewinnen. Auch wenn ich sie immer noch für sehr unwahrscheinlich halte, während ich früher definitiv gesagt habe, es ist völlig abstrus, bin ich jetzt bei „naja, eher sehr unwahrscheinlich”. Und das ist für eine Mathematikerin schon ein… Da habe ich mich aber schon weit weg von meiner ursprünglichen Position bewegt. ## Browns Position: Skalierung führt zu AGI

**Jochen G. Fuchs: ** Das ist in gewaltiger Sprung, in Anführungszeichen. Vielleicht versuchen wir mal, beide entgegengesetzten oder gegensätzlichen Positionen ein bisschen zu erklären. Also, so wie ich das verstehe, geht es ja eigentlich um den Begriff des Verständnisses. Was ist Verständnis und versteht jetzt das LLM tatsächlich, was es da ausgibt oder nicht? Bei Brown hatte ich gehört, dass er das vergleicht mit der biologischen Evolution. Dass er irgendwie sagt, dass das LLM das nächste Token vorhersagt, also Wort- oder Wortbestandteil, und vergleicht das dann damit, dass die Maximierung, was danach kommen kann, beziehungsweise Minimierung des Vorhersagefehlers durch diese massive Skalierung eine so große Komplexität entsteht, die man schon als Verständnis bezeichnen könnte. Das ist so irgendwie das, was ich jetzt so zum Thema Verständnis aus dem Ganzen mitgenommen habe. ## Emergentes Verständnis als Schlüsselfrage

**Barbara Lampl: ** Nein, also es geht um mehrere Dinge. Zum einen, und das ist auch warum meine Position von „was für ein Schmarrn” zu „völlig unwahrscheinlich” gewandert ist… Die Tiefenneuronalen Netze, also Deep Learning Architekturen, haben mit den Transformern noch mal zusätzlich im Laufe der Jahre gezeigt, dass Emergenz, mathematische Emergenz, möglich ist. Aus zwei Bilderkennungssystemen wird Bildgenerierung. Aus zwei Texterkennungssystemen wurde Textgenerierung. Das ist per Definition Emergenz. Emergentes Verhalten, wenn zwei mal das Gleiche zusammen oder zwei sehr ähnliche Sachen zusammengeschmissen werden und was Neues entsteht. Die Diskussion geht nicht darum, ob ein KI-Modell irgendeiner Art, irgendeiner Algorithmik Verständnis hat, sondern ob es zu emergentem Verständnis fähig ist, Neues zu generieren. Also die Frage: Kann ein LLM irgendwie was Neues generieren? Also neue mathematische Beweise, weil da ist es am leichtesten „neu” zu definieren. Ein neuer Text ist wahnsinnig schwierig zu sagen, ob das wirklich neuer Text ist, weil es könnte ja auch einfach nur sein, dass Jochen, du und ich ihn nicht gelesen haben. Der Korpus an mathematischen Beweisen ist sehr viel überschaubarer. Das heißt, die Vergleichsmasse an ungelösten Matheproblemen zu gelösten Matheproblemen ist sehr viel endlicher und damit kann man da eben… Deswegen ist die Mathematik auch immer das, warum das emergente Verständnis, um das es am Ende des Tages geht, immer auch wieder als Benchmark herangezogen wird. Die Frage ist eben an der Stelle: Brown ist eben Team LLM. Brown sagt eben, okay, wir sind Team LLM, wenn wir das Zeug einfach nur weiter skalieren, weiter damit arbeiten, dann schaffen wir es, dass LLMs echtes emergentes Verständnis entwickeln. Unsere Beweisführung ist, dass es eben zwischenzeitlich sehr gut auf diesen verschiedenen Mathe-Benchmarks geworden ist und deswegen eher die These hat, okay, das kann funktionieren mit diesem emergenten Verständnis. Es geht nicht nur um pures Verständnis, sondern es geht wirklich um den nächsten Schritt des emergenten Verständnisses. Und das sind die zwei Sachen, denn ohne emergentes Verständnis wäre der Begriff der allgemeinen künstlichen Intelligenz falsch, weil Intelligenz ja nicht nur Reproduktion ist, sondern auch wirklich emergent, also wirklich messbar irgendwie Neues zu generieren. Das ist, worum es am Ende des Tages im Kernargument immer geht: dieses Neue. Ansonsten hätten wir keine allgemeine Intelligenz. ## Mathematik-Benchmarks als Beweis?

**Jochen G. Fuchs: ** Ja, okay. Also er bezieht sich auch irgendwie so auf die Aufgaben in diesen Mathematik-Olympiaden, die sie dann lösen, aber die Aufgaben sind anscheinend nachweisbar nicht in den Trainingsdaten enthalten.

**Barbara Lampl: ** Ja, also davon geht man zumindest aus, genau. Weil es gibt die sogenannten Mathe-Olympiaden und die Mathe-Benchmarks, wo wiederum Mathematiker und Physiker dran sind, wirklich sich neue Aufgaben auszudenken. Wahnsinnig aufwendig, dafür muss man supergut in diesem Gebiet sein. Allein Probleme, quasi Matheaufgaben zu finden, die bisher noch nicht gelöst wurden, das ist eine sehr interessante eigene Disziplin. Das sind wirklich gute Leute in dem Feld und die sind… Da gab es auch ein bisschen Diskussionen drum, dass manche der Sachen eben dann doch geleakt worden sind oder Teil des Trainingsdatensatzes geworden sind. Achtung, nicht bei Google, sondern OpenAI ist da ziemlich angezählt worden. Aber grundsätzlich kann man nicht mehr darüber diskutieren, dass die LLMs in der Lage sind, einen Teil dieser Aufgaben auch wirklich, ohne dass sie in den Trainingsdaten vorhanden sind, zu lösen. Und das wird immer wieder herangezogen als einer der Punkte, nicht als der Beweis, sondern als einer der Versatzpunkte, dass man mit LLMs eben die General Intelligence hebeln kann, beziehungsweise eben das emergente Verständnis, was dahinter steckt. ## Skalierung: Sättigung oder Hockeystick?

**Jochen G. Fuchs: ** Okay. Bei Brown, seinen Punkt vielleicht noch abzuschließen, geht es ja auch so ein bisschen darum, dass er an dieses Prinzip der Skalierung und den weiteren größeren Effekten durch weitere größere Skalierung festhält. Wo ja viele im Moment gemeint haben, so die ganzen Frontier-Modelle, da geht zwar noch ein bisschen was, aber sie sind alle so jetzt langsam in einem Sättigungsbereich angekommen. Und er sagt von sich aus, er sehe keine Anzeichen für die Sättigung dieser Fähigkeiten und prognostiziert quasi mit mehr Daten und mehr Rechenleistung, würde diese Kurve noch weiter nach oben steigen. Die Frage ist, wenn man es als Hockeystick-Kurve bezeichnet, ist das Ende der Hockeystick-Kurve jetzt erreicht oder ist es nicht? Und er sagt eben, ist es nicht.

**Barbara Lampl: ** Richtig. Genau. Also, sehen wir Sättigung? Nein. Sehen wir irgendwie eine Verflachung? Ja, aber… Grundsätzlich ist es so, dass wenn du dir wirklich anguckst, wie die Fähigkeiten aktuell in Large Language Modellen sind, dann sehen wir keine Sättigung. Der Punkt ist, dass es sich trotzdem teilweise flacher anfühlt, wenn du das Ganze nicht zeitbereinigt ansiehst, dann sieht es nicht mehr so steil aus, wie es war. Auf der anderen Seite haben wir jetzt, ich nenne das immer liebevoll „Flavor of the Week”. Was ist denn unser Modell der Woche? Unser Special diese Woche ist irgendein GPT 5.2. Angeblich kommt das neue Google Open Source Modell diese Woche raus, dann wäre das Flavor of the Week. Also ich habe immer so die Idee: das Special der Woche. Realistisch schlägt jedes Modell wieder die nächste Benchmark und zwar eigentlich auch mit genügend Ausschlag. Das heißt, diese These, dass wir Sättigungen sehen, ist nicht wirklich vorhanden. Wir haben ein paar andere Probleme, die man diskutieren kann an der Stelle, aber diese Sättigungsthese ist per Status quo nicht erreicht. Das heißt, diese Verflachung findet, wenn man es richtig anguckt, nicht wirklich statt. Deswegen ist seine Hockeystick-These, die hält. Und aus der leitet er eben ab, dass es weitergeht. Und ich sage halt auch, das ist auch das, was ich eben… Wo ich vorhin gemeint habe: Ja, ich habe mich da auch so ein bisschen… Ich bin doch sehr beeindruckt, dass eben keine Sättigung eintritt. Finde ich auch einen großen Shoutout wert. Ich weiß, wie viel Aufwand dahinter liegt. Was da an Technik und Engineering-Kunstgriffe auch wirklich nötig ist, um zu skalieren. Das ist schon ziemlich beeindruckend. Ob daraus jetzt… Da bin ich immer noch nicht von überzeugt und kann dem auch immer noch nicht wirklich folgen. Daraus ableiten soll, dass nur weil die Sättigung nicht erreicht ist oder wir noch kein Abflachen der Sättigung haben, dass daraus der nächste Punkt kommt, dass die Skalierung uns in die General Intelligence führt. Diesen Sprung kann ich nicht mitgehen. Also dieser Transfer, dieser Sprung, den Brown an der Stelle macht, das als Beweis zu sehen, den kann ich nicht mitgehen. Das heißt aber nicht, dass an seinem Punkt nicht auch was total dran sein kann. Das mal ganz klar zu sagen. Aber wie gesagt, ich komme mehr aus der klassischen… Ich darf nicht vergessen, ich bin natürlich, ich bin ja so alt, dass ich eigentlich aus der klassischen Data Science komme und deswegen eben stärker auf diesem Team bin: Na ja gut, wir haben kein Weltmodell, wir haben keine physikalischen Insights, wir haben keine Kontextualisierung. Ich sehe nicht, dass die Skalierung an der Stelle die Probleme ausgleicht aus der Algorithmik heraus. Zumindest nicht auf der aktuellen Architektur. Das könnte sein, dass LLMs noch mal einen Architekturschub haben, dann könnte die Diskussion anders sein. Deswegen ist es momentan ein sehr fluides Feld. Selbst Yann LeCun ist über die letzten 1,5 Jahre ein bisschen defensiver geworden als er die Jahre davor war. Was auch ein Zeichen ist, dass wir alle… Ich möchte mich jetzt nicht um Gottes Willen auf eine Stufe mit Brown und LeCun stellen. Alter Schwede, diesen Eindruck dürft ihr bitte nicht ziehen. Aber Leute, die lange in diesem Gebiet unterwegs sind, wir alle müssen, auch wirklich mit fachlich tiefer Erfahrung, uns denken: Das ist schon ziemlich krass. Wir haben nicht ganz so geglaubt, dass das so stabil auch der Scale-Case wirklich hält. Sehr beeindruckend. ## LeCuns Gegenposition: Fehlende physikalische Realität

**Jochen G. Fuchs: ** Ja, wenn wir schon bei LeCun sind, dann lass uns auch noch ein bisschen irgendwie über seine Position sprechen, bevor wir das Ganze dann noch weiter einordnen. So wie ich es verstanden habe, wobei ich nebenbei bemerkt nicht so ganz verstehe, was an der Vorhersage diskret ist, aber da kommen wir vielleicht noch dazu. Die autoregressive Vorhersage diskreter Token. Bitte die Hand heben, wenn ihr das genauso gut versteht wie ich.

**Barbara Lampl: ** Mhm.

**Jochen G. Fuchs: ** Ihm geht es wohl darum, wenn ich das laienhaft ausdrücke, dass sich die LLMs hauptsächlich auf die Textform beschränken und da, in Anführungszeichen, ein übermenschliches Wissen haben, aber ihnen fehlt das Verständnis der physischen Realität. Und er sagt dann halt, okay, das funktioniert bei LLMs so einfach, weil die Anzahl von Wörtern endlich ist in einem Wörterbuch, in Anführungszeichen. Wenn du dann versuchst, das auf die reale Welt zu übertragen, etwa auf Videodaten, dann sei das eben nicht mehr diskret, sondern kontinuierlich und über verschiedene, also hochdimensional über verschiedene Dimensionen verteilt. Und dann wird es schwierig vorherzusagen, was in der Zukunft passieren kann, weil es dann eben eine unendliche Liste von Möglichkeiten gibt. Bei Texten und Wörtern gibt es eben keine unendliche Liste von Möglichkeiten. Und er stellt das dann so gegenüber und sagt so: Pass auf, schauen wir doch mal, wie effizient das LLM eigentlich ist. Weil das zwar geil ist, dass es eine übermenschliche Menge von Textwissen hat, auf die es zugreifen kann, aber der Mensch hat ein deutlich besseres Verständnis. Sein Gehirn, ich sag’s jetzt mal laienhaft… Der bräuchte für diese Textmenge, die das LLM zur Verfügung hat, um etwas Menschenähnliches auszuspucken, bräuchte der eine halbe Million Jahre, den Kram zu lesen. Also das Ding muss eine halbe Million Jahre quasi lesen, um das noch nicht zu erreichen, was der Mensch eigentlich kann. Das ist so seine… Ich vereinfache das jetzt sehr, sehr stark, seine Aussage in diesem Punkt. Und ich steige dann schon so ein bisschen aus, weil ich überlege, okay, was meint er denn jetzt eigentlich damit? Also ich meine, wir haben jetzt ja so Dinger wie Sora und Co., dem kannst du ja irgendwie sagen, mach irgendwas, und dann sagt er ja vorher, wie der nächste Pixel aussehen soll, Hilfe. ## Diskret vs. Kontinuierlich: Der zentrale Unterschied

**Barbara Lampl: ** Genau, also… Langsam, langsam, langsam. Einatmen, ausatmen. Ein Gen-AI-Modell ist kein prädiktives Modell, sondern ist mit einem prädiktiven Algorithmus gebaut. Ein prädiktives Modell sagt das Wetter voraus. Okay? Das ist ein prädiktives Modell. Ein präskriptives Modell tut etwas, das Gen-AI, und erzeugt einen Text. Der Algorithmus innen drin ist ein Prediction-Algorithmus. Das ist der feine Unterschied, und das wird ganz gerne vertauscht. Das Wetter… Also du kannst mich nicht… Du kannst jetzt, lieber Jochen, du kannst jetzt vor die Tür gehen. Da kannst du jetzt einen Regentanz aufführen. Regnet’s dann?

**Jochen G. Fuchs: ** Äh… Abhängig davon, ob ich mich auf der Britischen Insel befinde oder nicht, aber wahrscheinlich nein.

**Barbara Lampl: ** Nein, aber das ist genau der Punkt. Keiner von uns kann das Wetter beeinflussen. Wäre aber Wetter ein Gen-AI-Algorithmus, dann würdest du jetzt mit dem Regentanz den Regen beeinflussen. Dann würde es halt einfach regnen. Okay? Ein prädiktiver Algorithmus ist die Klassifizierung, dass ein Algorithmus eben zum Beispiel auf einer Next-Token-Prediction arbeitet. Das sagt aber nicht das Wetter voraus. Du kannst ein Gen-AI-Modell… Du kannst ja nicht dein GPT fragen, wie das Wetter morgen wird. Wie soll denn das funktionieren? Das ist nur sehr irritierend für die Menschen, weil sie natürlich über Prädiktionsmodelle reden, damit den innenliegenden Algorithmus meinen, aber nicht das, was das Modell als Output generiert. Das ist nämlich kein Output vom Wetter. So, da fängt schon mal das erste Chaos an. Das Zweite ist das fehlende Verständnis zwischen diskreten Daten und kontinuierlichen Daten. Wir haben es mit einer Next-Token-Prediction zu tun, die diskret ist. Warum? Weil Token in sich geschlossen sind. Also abzählbar viele, aber viele, viele, aber abzählbar viele versus kontinuierliche Daten. Ich bleibe bei meinem Wetter. Wetter ist kontinuierlich. Egal ob du es jetzt willst oder nicht, das Wetter passiert überall auf der Welt synchron. Deswegen sind das kontinuierliche Daten und deswegen ist die Voraussage vom Wetter so unglaublich komplex. Und die berühmten Beispiele mit dem Schmetterlingsflügelschlag, der den Tornado, den Tsunami, was auch immer verursacht – das ist genau das, was er damit meint. In kontinuierlichen Daten können kleinste Abweichungen zu extremen Auswirkungen führen, die wir aber gar nicht wirklich erfassen können, außer ab und zu im Rückblick, dass du manchmal denkst: So, ah ja, so bin ich da eigentlich gelandet an dem Tag, wo ich von mir aus einmal falsch rumgegangen bin. Also hier kleiner privater Einwurf: Es gab vor vielen Jahren einen sehr dramatischen Bombenanschlag, genau genommen 1980, auf dem Oktoberfest. Meine Eltern haben sich aus unerklärlichen Gründen an diesem Tag entschieden, anstatt an ihrem Standardplatz sich gemeinschaftlich nach der Arbeit zu treffen, woanders zu treffen. Und deswegen waren meine Eltern nicht Teil des Oktoberfestbombenanschlags. Das ist gemeint mit kontinuierlichen Rahmendaten und der fehlenden Kontextualisierung der Welt. Weil unsere Realität so viel größer ist als die Masse auch an Daten, die heute in einem LLM drin sind. Das ist genau das. Was aber General Intelligence irgendwo ausmachen würde: eine Intuition, ein Irgendwas, eine Wahrnehmung für eine physikalische Welt. Wenn du heute… Achtung, wenn ihr vor die Tür geht, wir haben jetzt ja Winter, mein Büro ist relativ kuschelig warm und ich hab aus unerklärlichen Gründen, weil der Podcast natürlich so gut ist und ihr euch so gerne anhört, habt ihr vergessen, dass da draußen Winter ist und geht ohne Jacke raus. Dann merkt ihr das. Ist ganz schön frisch ums Knie. Das LLM müsste jetzt erst mal ganz schön lange rechnen, um festzustellen, was hier schiefgegangen ist, und würde es im Zweifelsfall nicht merken. Weil eben diese Wahrnehmung der physikalischen Welt an der Stelle irgendwie fehlt. Und das ist gemeint mit fehlenden Weltmodellen, mit „das ganze Ding basiert auf einer diskreten Tokenfunktion”, die ist immer noch diskret, weil sie abzählbar ist und in sich geschlossen ist. Achtung, kurz einatmen, ausatmen. Matheunterricht. Wir kennen verschiedene Zahlentypen. Die ganzen Zahlen: 1, 2, 3. Und dann füllen wir irgendwann diese Kommazahlen ein, die ihr fürs Wurzelrechnen braucht, die Wurzel aus 2 zu rechnen. Und das sind diese unendlich langen Nachkommastellen. Das ist quasi eure beste Idee, was der Unterschied zwischen diskreten, also ganzen Zahlen, in dem Fall von mir mal als Denkmodell, und diesen kontinuierlichen Zahlen ist. Die gehen ganz unendlich wie Nachkommastellen. Das ist kontinuierliche Zahlen, das mal so als Datenmenge abzugleichen. Das sind genau diese Herausforderungen, die wir aktuell immer wieder diskutieren: Ob die aktuelle Architektur von Large Language Modellen diese Probleme lösen kann. Es ist eine diskrete Funktion. Kann die durch emergentes Verständnis in eine kontinuierliche Funktion übergehen? Ist das überhaupt möglich? Und Yann LeCun sagt: Nein, wir brauchen eine andere Architektur. ## JEPA: Eine alternative Architektur Eine seiner großen Dinge ist das sogenannte JEPA-Modell, eben abstrakte Weltmodelle zu lernen. Auch da, Achtung: Weltmodelle, nicht das Weltmodell. Also wir sind jetzt hier nicht bei den Physikern und der Weltformel. Wenn das einer packt, auch eine gute Variante. Übrigens immer mal wieder ein gutes Buch, das man öfters in die Hand nehmen sollte, weil es passt sehr gut zur aktuellen Diskussion. Und das ist eben genau diese Diskussion, die immer wieder stattfindet bei der Frage: Gibt es Möglichkeiten, dass wir uns General Intelligence annähern? Und wenn ja, mit welcher Technik eigentlich? Oder ist es eh so, dass alle kollektiv an was Unterschiedlichem bauen und dann werden wir sehen, wer die Battle gewinnt? Das sind aktuell die Diskussionen. Oder ist es das, was wir auch schon ganz häufig gesehen haben: Nehme von einem eine Prise davon, nehme historisch noch mal einen Algorithmus aus 1982, schraube jede Menge Brute Force Rechenleistung oben drauf und eine Prise neue Mathe oben drauf und zack, dann vielleicht haben wir es dann aufgepackt. ## Weltmodelle und physikalisches Verständnis

**Jochen G. Fuchs: ** Okay, bevor ich da jetzt noch mal explizit nachfrage, habe ich noch mal eine Frage. Und zwar: Hier ist ja ein großer Teil der Diskussion basiert, stürzt sich auf diesen Fakt, dass eben das Verständnis der physikalischen Welt fehlt. Und das JEPA, was du genannt hast, ist eine neue Architektur, ist also kein Modell, das auf Transformern basiert, sondern eben komplett neu. Und das Ding sagt nicht jeden Pixel in Anführungszeichen voraus, sondern das Ding soll lernen, den Zustand der Welt irgendwie abstrakt zu sehen, zu modellieren und dann Vorhersagen in diesen Repräsentationsraum zu treffen. Und okay, also wir haben jetzt gelernt, die Biester können das nicht. Und LeCun hat da auch ein Beispiel, um zu verdeutlichen, wie viel Daten so ein Mensch in einem relativ kurzen Zeitraum lernt und wie viel Daten dann quasi das LLM verarbeiten müsste, um ein ähnliches Verständnis zu erreichen. Und die Kollegen von The Decoder hier, ich zitiere die mal kurz, die sagen: Ein vierjähriges Kind hat in seinem kurzen Leben zwar weniger Text als das LLM gelesen, aber durch den visuellen Input über den Sehnerv, circa 20 Megabyte pro Sekunde nehmen wir da an Daten anscheinend auf, insgesamt rund 10 hoch 14 Byte an Daten verarbeitet. So, das ist so eine große Menge an Daten, dass mein Gehirn jetzt gerade eben ausgestiegen ist. Ich kann mir das gar nicht vorstellen. Und das entspricht der Datenmenge, mit der die größten LLMs trainiert werden. Also sprich das vierjährige Kind…

**Barbara Lampl: ** Keiner von uns.

**Jochen G. Fuchs: ** So, vierjähriges Kind, LLM, das ist die…

**Barbara Lampl: ** Das, dazu kommt auch Yann LeCuns Satz immer zusammen: Das ist auf dem Niveau eines vierjährigen Kindes.

**Jochen G. Fuchs: ** Genau. Aber während eben dieses Kind in diesen wenigen Monaten auch intuitiv Physik, also wenn ich was fallen lasse, fällt es auf den Boden, lernen konnte – Schwerkraft, Objektpermanenz, tra la la – scheitern LLMs an diesen einfachen physischen Aufgaben im Haushalt. Und LeCun sagt dann wörtlich: Wir haben immer noch keinen Roboter, der den Tisch abräumen oder den Geschirrspüler einräumen kann. So, jetzt hab ich so ein kleines Männchen bei mir im Hinterkopf, das zerrt gerade ein YouTube-Video aus dem Nirvana, nämlich dieses OpenAI-Figure-1-Gedöns, wo die uns… Wann war denn das eigentlich? Mein Gott, da passiert so viel, das war 24, das war letztes Jahr. Ist auch egal, googelt es. Vielleicht machen wir auch einen Link in die Show Notes.

**Barbara Lampl: ** Ich glaube, dass es 24 war. Ich weiß nicht mehr so genau. Ich glaub, so nett sind wir, wenn du googlest, machen wir die Show Notes.

**Jochen G. Fuchs: ** Also, die haben uns mal so ein Ding gezeigt, das den Tisch abgeräumt und den Geschirrspüler eingeräumt hat. Was zum Teufel haben denn die dann da getrieben? ## Narrow AI vs. General Intelligence

**Barbara Lampl: ** Ja. Okay. Okay, also jetzt nur zwei Dinge auseinanderhalten. Können wir spezialisierte Roboter aufbauen, die zum Beispiel vielleicht den Tisch ausräumen und die Spülmaschine ausräumen? Aber jetzt ist der spezialisierte Roboter, der könnte jetzt in deiner Wohnung schon erfolgreich sein, würde das in meiner Wohnung überfordert sein. Was weiß ich, bei mir liegt mehr Krempel rum.

**Jochen G. Fuchs: ** Das hängt mit so Sachen zusammen wie Kartografierung der Standorte von Möbeln, von Elektrogeräten, Gedöns, irgendwas.

**Barbara Lampl: ** Richtig, genau, all solche Sachen. Das… Genau, das Nächste ist: Jetzt kann der Roboter den Tisch abräumen und die Geschirrspülmaschine ausräumen bei dir und bei mir. Aber nicht die Wäsche machen, dafür ist er auch noch nicht trainiert. Das heißt, was du immer wieder in diesen Cases siehst, sind Spezialeinsatzgebiete. Ich habe nichts, aber wir diskutieren halt… Die Frage ist: Kommen wir aus der Welt? Wir sind ja immer noch in Narrow AI. Wir haben Narrow AI noch nicht ausgesetzt. Kommen wir von Narrow AI in Broad AI und damit in General Intelligence hinein? Weil in einer Welt von General Intelligence würdest du einen Roboter zu Hause haben, der geht dir auf den Senkel, dann setzt du den bei mir vor der Haustür aus, dann ist der erst mal sehr traurig, weil er die emotionale Intelligenz auch noch gelernt hat. Aber er würde sich relativ schnell bei mir zurechtfinden. Weil dir, lieber Jochen, wenn du bei mir vorbeikommst, muss ich nicht erklären, wie du den Tisch abzuräumen hast. Und du wirst wahrscheinlich binnen drei Sekunden identifizieren, an welchen zwei möglichen Varianten die Spülmaschine ist. Und wirst dann entweder nach links gehen und feststellen: Moment, da ist die Waschmaschine. Und dann wirst du die andere Tür aufmachen und wirst feststellen: Da ist die Spülmaschine. Das genau sind Prozesse, zu denen der Mensch durch das sogenannte Transfer Learning, also die Transferleistung aus seinen eigenen Erfahrungen in die Erfahrungsräume von anderen Menschen hinein, superschnell in der Lage ist. Das ist auch der Unterschied, warum Yann LeCun immer sagt, okay… Und das ist ein sehr großes Missverständnis: Ein Large Language Modell ist auf dem Niveau von einem Vierjährigen. Was natürlich totaler Schmarrn ist, sondern es hat so viele Daten verarbeitet gesehen wie ein vierjähriges Kind. Dummerweise bei einem IQ von teilweise 500 in manchen Fachgebieten, manchmal auch nur 3 in anderen. Und das ist eben, wie gesagt, würde es jetzt eben zum Meeting eingeladen werden und würde es eine physikalische Form haben, dann würde es im Zweifelsfall nackt erscheinen, weil in der Einladung stand nicht drin, dass wir bekleidet im Meeting rumsitzen. Das sind diese Limitierungen, die wir haben. Aber das sorgt halt immer wieder, mein Lieblingswort, mein Lieblingswort in 2025, „differenzierter Blick auf die Welt” so ungefähr, ist das halt ein bisschen komplexer. Aber das ist genau das, was halt quasi dahinter steht. Die aktuellen LLMs haben die Masse an Daten verarbeitet, die ein vierjähriges Kind bis zu seinem Leben gesehen hat, ohne dass es in der Lage ist, quasi weitere Sachen, die es währenddessen gelernt hat an der Informationsverarbeitung, irgendwie weiter zu verarbeiten, eine physikalische Welt oder auch in bestimmte Kontexte zu stellen. Denn das LLM weiß zwar, dass es ein Konzept wie Eltern gibt, aber hat natürlich keine Idee, was Eltern sind in der Realität. Und das ist so ein bisschen das, worum es die ganze Zeit in der Diskussion halt einfach geht.

**Jochen G. Fuchs: ** Okay, ja, darf man nicht verwechseln. Es geht nicht darum, dass das LLM quasi nur so intelligent wie ein Vierjähriger ist, sondern das ist eine Kenngröße. Man hat einfach gesagt, das hat so und so viel Daten verarbeitet in…

**Barbara Lampl: ** Das sind die Daten, die es aktuell gesehen hat. Das war übrigens vor 1,5 bis 2 Jahren noch ein dreijähriges Kind. Dann haben wir so viele Trainingsdaten, so viel Brute Force, so viel Skalierung geschrubbt, dass wir jetzt bei einem vierjährigen Kind sind. Wahrscheinlich sind wir 2026 vielleicht bei einem fünfjährigen. Aber da geht es nur um die Masse an Daten, die verarbeitet sind, und keinerlei Rückschlüsse darüber, intelligent, nicht intelligent oder was auch immer das heißt. Weil das Problem mit dem vierjährigen Kind, und das kennen wir ja auch: Weißt du noch, was du vor zwei Wochen zu Mittag gegessen hast?

**Jochen G. Fuchs: ** Nein.

**Barbara Lampl: ** Ja, ich auch nicht. Genau. Das heißt, wir sind in unserer auch Erinnerung natürlich bis zu einem bestimmten Punkt anders flexibel. Und das ist auch dieser Punkt, den Yann LeCun halt immer wieder in der Architektur von LLMs ankreidet: Das ist mega ineffizient, insbesondere was Energieressourcen anspricht, wie unser Gehirn funktioniert. Weil wir müssen uns ja nicht ständig in die Steckdose stecken. Okay, wir müssen schlafen. Deswegen auch da vielleicht mal hinkt der Vergleich auch ein bisschen. Aber es ist halt einfach sehr weit von der Effizienz, wie das effizienteste Informationsverarbeitungsding, was wir kennen, unser Gehirn. Und so kommt es auch zu seiner Aussage, sagt er, sie sind schrecklich ineffizient. Was ich definitiv unterschreibe. Was auch übrigens Brown nicht mit ihm diskutiert. Also Brown ist genauso wenig in dem Team, also dass LLMs ineffizient sind. Also wenn wir uns mal mit eins einig sind, die komplette Branche, dann das: Ineffizienz ist es definitiv, das unterschreiben wir alle. Da argumentiert auch Brown nicht dagegen. ## Gary Marcus und der Papagei

**Jochen G. Fuchs: ** Ja, es gibt da noch mehr, die da unterwegs sind und auch kritisch generell beim Einsatz von LLMs sind. Da gibt es noch den Kognitionswissenschaftler Gary Marcus, der da auch schon seit Jahren in der Gegend herumspringt. Und das geht für mich immer so ein bisschen, also gerade bei Marcus, weil Marcus ja pointiert ist, immer so in diese Papageien-Ecke rein. Also in den…

**Barbara Lampl: ** Ja, großartig. Ja, also dieser Papagei verfolgt uns. Selbst Marcus benutzt ja den Papageien nicht mehr. Das ist wirklich ein überaltertes Bild. Also der Papagei war von mir noch auf einem GPT-3 und von mir aus auf einem GPT-3.5, lasse ich mir den Papagei ja irgendwie noch eingehen. Und dem Einzigen, dem ich den Papagei ab und zu noch verzeihen kann, ist Gary Marcus, noch dazu, weil er auch die Kunst kann: Pointiert in Worten bei totaler solider Fachlichkeit. Wer den mal länger als nur seine Kolumne erlebt hat oder auch einen persönlichen Austausch, der Typ kann sein Job wirklich. Aber er kann halt das… Also ich bin noch zurück, ich möchte mich auch nicht auf diese Stufe stellen, Gottes Willen. Aber ich kenne das ja auch, dass mir ganz gerne vorgeworfen wird, dass ich mich sehr, sehr casual ausdrücke. Liebevoll habe ich ja schon mal den Begriff geschenkt bekommen vom „Stadion Deutsch”. Und man ist dann ganz überrascht, dass ich fachlich so fundiert antworten kann. Kinder, das ist hart antrainiert, wir holen euch sonst nicht ab. Und deswegen schätze ich Gary Marcus an der Stelle sehr. Er hat eine unglaublich tiefe Fachlichkeit. Und er ist der Einzige, dem ich den Papagei durchgehen lasse. Und selbst er verwendet ihn sehr viel seltener zwischenzeitlich, weil auch er anerkennen muss, und das tut er übrigens auch, wie krass weit wir gekommen sind bei all den Defiziten, die diese Technologie hat. ## JEPA im Detail

**Jochen G. Fuchs: ** Okay. Jetzt habe ich von LeCun die JEPA-Architektur mal gehört. Was ist denn der wesentliche Unterschied bei so einer Architektur im Vergleich zu Transformern? Kann man das vereinfacht erklären oder?

**Barbara Lampl: ** Ich hab mich ehrlicherweise, muss ich mich outen, hab mich noch nicht tief nerdy in seine neueste JEPA-Variante eingearbeitet, weil er momentan noch nicht so viel dazu veröffentlicht hat, ich ehrlicherweise zugeben muss. Ich bin auf jeden Fall gespannt, was seine neue Company tun wird, was ja Advanced Machine Intelligence ist. Ich denke, er wird sicherlich in der Tradition weiterhin von Sukh, an dem er damals auch mit Lennart gearbeitet hat, quasi stehen, das weiter voranzutreiben. Aber mir jetzt genau seine Architektur… Auch ich erlebe, dass selbst ich noch keine Zeit gehabt habe. Was dazu bisher rauskam, war noch nicht so ganz viel, was von dem, was mir bekommen habe, dass ich mich da einzuarbeiten, mache ich demnächst, aber bestimmt auch nochmal. Wie gesagt, von dem, was am Ende des Tages… Und da nochmal die Schleife zu drehen: Es geht definitiv, er möchte eine sogenannte objektorientierte und zielgesteuerte Intelligenz aufbauen. Und die, wie gesagt, an der Stelle ist es eben halt: Während Gary Marcus über die symbolische AI kommt, das ist so sein Steckenpferd, kommt LeCun eben über diese physikalischen, über diese Weltmodellkonstruktionen. Ich würde fast die Hand dafür ins Feuer legen, da könnt ihr mich jetzt wahrscheinlich in zwölf, in zehn Jahren dann festen hacken oder wann auch immer: Ich würde sagen, es wird eine heitere Mischung aus allem sein. Und es klingt jetzt doof, aber so wie ich diese Leute kenne, bitte in Anführungszeichen zu sehen, aber ich kenne sie halt in Teilen, durfte sie schon persönlich kennenlernen, und auf der anderen Seite verfolge ich ihre Arbeit auch seit vielen Jahren. Was da so rigide klingt, als würde da jemand nur seinen eigenen Stiefel durchziehen – das sind die allerletzten, die am Ende des Tages nicht nur einen verdammt guten Cocktail zusammenmixen. Sie denken: Okay, wir nehmen das aus dem Bereich, wenn wir es dann gehebelt bekommen. Und das ist so bisschen diese Symbolik mit dem, was insbesondere LeCun gerne zusammenbringt, das haut aktuell noch nicht richtig hin. Das heißt aber nichts, dass das nicht vielleicht in zwei, drei Jahren alles schick miteinander untereinander arbeiten kann. ## Symbolische KI und Neuro-Symbolik

**Jochen G. Fuchs: ** Ja, da habe ich nur mal ganz kurz nachgehakt. Also LeCun geht in diese Richtung lernfähige Architektur, JEPA. Vielleicht könnte man trotzdem kurz in zwei Sätzen nochmal erklären, was das überhaupt ist irgendwie. Und das Andere ist, Marcus kommt dann eben anscheinend, so wie ich das gelesen habe, in eine andere Richtung, dass er sagt, man muss neuronale Netzwerke mit symbolischer KI kombinieren, so Neuro-Symbolik-AI. Was ist denn damit gemeint dann?

**Barbara Lampl: ** Also die symbolische AI ist wieder… Also fangen wir mal ein bisschen vorne an. Das, was die meisten ja immer mit AI assoziieren, ist ja viel zu klein, weil wir haben ja natürlich sehr viel mehr Algorithmen als grundsätzlich überhaupt die Leute immer denken. Also ihr habt schon mal, ihr kennt vielleicht die Erklärepisode, wo wir mal so ein bisschen quasi erklärt haben, was Machine Learning, solche Geschichten sind. Und symbolische AI ist lustigerweise sehr, sehr viel früher an der Stelle. Und Symbolik ist viel über Logik und Rules. Deswegen sind sich symbolische AI und die Idee, die hinter der JEPA-Architektur auch steckt, gar nicht so unheimlich weit auseinander, weil sie sich im Kern ein bisschen näher sind, weil sie alle auch wieder auf diesen Kern der Regeln bis zu einem bestimmten Punkt zusammenkommen. Und auch wieder quasi da auch wieder ihre Überschneidungspunkte haben. Das ist aber, es vorab zu sehen, wirklich, wirklich deep nerdy Algorithmik-Diskussionen, wo, wenn du das letzte Paper nicht gelesen hast, was dazu rausgekommen ist, selbst ich als kleiner Nerd im Paper nachgucken muss, weil das wirklich teilweise Differenzierungen sind, die an der Stelle nicht ganz easy sind. Also grundsätzlich die symbolische AI ist eben das, was ich vorhin schon meinte, was mit Sukh und Lennart in der Tradition steht, dass wir Symbole haben, Repräsentanzen haben, regelbasierte Algorithmen. Und das gibt es eben die Neuro-Symbolik. Das sind dann die neueren, und in der Tradition ist so ein bisschen Gary Marcus unterwegs. Dann hast du diese JEPA-Architektur, die eben im Kern ein Self-Supervised Learning ist, was eben Yann LeCun angefangen hat, quasi zu designen. Und das ist ein sogenanntes Joint Embedding Predictive Architecture. Das heißt, du hast eben das, was ihr schon aus den LLMs kennt, diese bestimmten Embeddings. Ihr habt quasi eine Predictive Architecture. Und jetzt kommt eben der Unterschied: Es geht jetzt wirklich um die Voraussage, und zwar das Ergebnis und nicht nur das nächste Token. Das ist ja so ein bisschen auch der Unterschied. Das LLM sagt das nächste Token im Kontext der Anfrage voraus, nicht eine Gesamtprädiktion des Outputs. Und das ist, wo JEPA, oder JEPA, ich weiß gar nicht, wie man es ausspricht, ich glaube JEPA, quasi einen nächsten Schritt stärker vorangeht. Und der große Unterschied. Und auch deswegen kann es gut sein, dass JEPA einen coolen nächsten Move ist. Die LLMs sind ja auch erst mal auf Bildern gebaut worden, bevor wir sie auf Text umziehen konnten. ImageNet war ja der eigentlich große Durchbruch. Und JEPA ist auch wiederum eine Image-Architektur. Also er hat das sehr stark auf Bildern wiederum aufgebaut. Also das ist all das, was dahinter abgeht. Aber ehrlicherweise würde ich jetzt annehmen, ich müsste mich, nicht nur in einem Podcast, wo wir ein bisschen über die Zukunft sprechen, sondern wirklich im Deep Nerdy Style über den Unterschied im Detail der Architekturen, muss auch ich in aller Ehrlichkeit, weil das einfach nicht das ist, mit dem wir tagtäglich jeder von uns zu tun hat, definitiv das letzte Paper noch mal lesen und noch mal gucken, wo jetzt die Differenzierung ist, wo Möglichkeiten des Überschneidens sind. Und ich glaube, das ist das, was die Leute einfach immer wieder unterschätzen. Wir reden hier wirklich teilweise über hochkomplexe Konstrukte. Wie die dann auch noch mal raus aus dem Prototypen rein in die reale Welt, also in Produktion und Scale kommen, noch mal eine andere Diskussion. Und wie gesagt, von mir… Ja, definitiv nicht intelligent genug bin, mir solche Sachen auszudenken. Ich sehe halt häufig eher auch die Gemeinsamkeiten, also hinter so einer JEPA, hinter dem Symbolic AI, den Rule-Based Approaches, einfach weil mein Job ja immer ist, ich darf ja gar nichts Theoretisches entwickeln, sondern ich muss ja ein Businessproblem lösen. Und wir als Business Data Scientists, wir machen ja ständig Frankensteins. Das heißt, wir basteln ja alles heiter zusammen. Das wird sicherlich nicht auf dem Level jemand sein, dass daraus ein Produkt werden kann, wie jetzt das LLM geworden ist. Aber deswegen würde ich noch mal sagen, es ist nicht groß überraschend, dass wir ein Nähe, ein Zusammenkommen der verschiedenen Disziplinen für den nächsten Schub sehen. ## Bewusstsein und Moral in Maschinen

**Jochen G. Fuchs: ** Wir haben bei der Diskussion den Punkt mit dem Bewusstsein in Anführungszeichen mal erreicht. Da gibt es unterschiedliche Aspekte, wo man auf der einen Seite auf einer, wie soll ich sagen, biologischen Ebene diskutiert, also wo man sagt, okay, liegt es an der Informationsverarbeitung, also muss diese auf Kohlenstoff oder auf Silizium basieren, also sprich muss es biologisch menschlich sein oder kann auch ein Computerchip das erreichen, in Anführungszeichen? Und Brown geht da so in den Bereich rein, wo er denkt, dass es in zehn Jahren irgendwie passieren könnte, dass die Systeme ein Bewusstsein entwickeln. Er ist kein Anhänger dieser Theorie, dass es an biologische Materie gebunden ist, sondern er denkt, dass das eine Folge der Informationsverarbeitung in Anführungszeichen ist. Ja, ich bin nicht so ganz sicher, wie ich LeCun einordnen soll. So was ich für mich nur verstanden habe, ist, dass LeCun nicht zu diesen Alarmisten gehört, die davon ausgehen, dass das, was wir aktuell haben, was ja größtenteils LLM-Transformer-Architektur ist, tatsächlich so gefährlich werden könnte, dass sie uns gefährlich werden, in Anführungszeichen. Er geht allerdings trotzdem irgendwie davon aus, dass Maschinen zukünftig eine Form von Moral entwickeln könnten, wenn sie eine Vorhersage über Weltmodelle haben und einschätzen können, ob eine Handlung dann das Erreichen des Ziels befördert oder nicht, und dann auch irgendwie anscheinend einsortieren könnten, wie sich das auswirkt. Aber auch wenn er nicht von einem Weltuntergang ausgeht, geht er doch davon aus, dass vieles davon abhängt, wie wir Menschen die Ziele und die Leitplanken dieser KI einrichten und was wir ihr mitgeben. Also grundsätzlich ist es wohl so, dass man überhaupt erst über diese Idee nachdenken muss, wenn die Systeme autonomer werden. Und wenn sie autonomer werden, geht LeCun davon aus, dass das, was die jetzt aktuell können, nicht existenzbedrohend für uns sein kann. Aber für zukünftig intelligente Systeme spricht er von so einer objective-driven Programmierung.

**Barbara Lampl: ** Genau, ist das, die ganze JEPA-Architektur auch spiegelt, ist diese Object-Driven-Prediction. Grundsätzlich müssen wir ein paar Sachen auseinanderhalten. Es gibt eine große Diskussion: Was ist Intelligenz, was ist Bewusstsein? Und die Frage immer, das ist das, was immer so schön ist: Muss es der Kohlenstoff sein oder darf es auch das Silizium sein? Weil der Kohlenstoff wäre in der Ecke, also Team Mensch, kann nur Bewusstsein und Intelligenz haben. Wenn es auch das Silizium ist, dann wäre das halt das, was ja eigentlich mal unter dem Begriff die Idee, die hinter Artificial Intelligence steht, nämlich eine echte künstliche Intelligenz. Nicht eine Intelligenz, die der Mensch ist, sondern es gibt eine zusätzliche Klasse an Intelligenz. So ist ja die Idee der Artificial Intelligence eigentlich mal geboren worden. Und Brown ist da halt so ein bisschen an der Stelle: Okay, ist das jetzt wirklich relevant? Ist es jetzt relevant, ob das Ding einatmet, ausatmet oder ob es Stromversorgung braucht? Das ist so ein bisschen dieses Team. Da sind wir an der Stelle, dass es da philosophisch sehr unterschiedliche Driftweisungen gibt, meistens deswegen, weil dahinter die Frage steht: Was macht den Menschen zum Menschen? Also es geht gar nicht bei dieser Diskussion häufig darum, was Intelligenz oder Bewusstsein ist, sondern was unterscheidet den Menschen dann noch von der Maschine? Das ist die eigentliche Frage und die wird häufig in dem Zuge nicht diskutiert, weil dann kommen wir nämlich jetzt genau zu diesem Punkt: Der Mensch, wissen wir auch, kann definitiv Moral und Ethik voll über Bord werfen. Und das ist auch, warum auch Yann LeCun und viele einfach sagen: Der Alarmismus, der da gerade auch herrscht, ist einfach ein bisschen affig, denn die größere Bedrohung ist sicherlich dieser komische Zweibeiner, der aus Kohlenstoff durch die Gegend schubst, nicht das Silizium. So, eine andere Stufe ist die nächste, und das ist halt aktuell: Wir haben keine autonomen Systeme. Und autonome Systeme… Und jetzt kommt halt die Grundidee: Wenn eine Maschine Unsinn baut und uns alle töten will, dann sind wir aktuell, dass das nicht morgens aufwacht und auf diese Idee kommt, sondern dass der Mensch ihnen das bis zu einem bestimmten Grad als Leitplanken, Zielsetzung und Guardrails vorgegeben hat, dass das überhaupt möglich ist. Das heißt, der Mensch ist sehr, sehr viel involvierter, als dass die Maschine morgens aufschaut und denkt sich: Also diese Zweibeiner sind ja doof. Deswegen ist der Alarmismus, den viele begründen, halt nicht so hoch, weil am Ende des Tages ist das ein Ausdruck, wie Menschen Maschinen bauen, nicht über die Maschine selbst. Und das ist quasi Yann LeCun, der halt sagt: Okay, wenn wir da… Da müssen wir irgendwann mal Gedanken machen. Und das macht man sich übrigens, das müssen wir uns nicht irgendwann machen. Das passiert aktuell schon sehr hart. Das ist zum Beispiel das Anthropic Constitutional AI. Anthropic hat eigene Philosophinnen und Philosophen im Team hat, eigene Ethikforscher im Team hat, um den Begriff, den habt ihr alle schon mal gehört, zu erzeugen, diese Sachen auch in den aktuellen Large Language Modellen schon sauber zu verankern. Und die Frage: Braucht es das überhaupt? Ja, weil wir natürlich möchten, dass es eine bestimmte Moral und Ethik in der Ausgabe widerspiegelt. Weniger, dass das System Moral und Ethik braucht. Wird die Grundlagentechnologie aber größer und quasi mächtiger, dann muss ja auch das System Ethik und Moral und Haltung und Werte haben. Und das ist das, woran aber auch aktuell schon sehr stark geforscht wird. Und diese Position ist eher eben, dass sich das eben durch menschliche Leitplanken ergeben wird. Und die anderen sagen eben: Nein, entweder jetzt oder morgen haben wir so emergente Maschinen, also so viel emergentes Verständnis, dass sie dann sich selbst eine Moral und Ethik geben oder uns alle umbringen. Meistens sind sie dann meistens als Fiction-Team „alle umbringen”. Und das ist so diese Tiefe quasi vom Verständnis eigentlich unter der Frage: Was macht den Menschen zum Menschen? Und wie drückt der Mensch sein Menschsein eigentlich aus, wenn er die Maschine baut? Das ist die Frage, die wir uns gerade eher stellen müssen. Und da besteht die eigentliche Gefahr. Wir bringen uns schon noch schön alle um, bevor die Maschine uns umbringt. Aber warum wir uns gar keine Sorgen machen? Also wenn, versauen wir das noch ganz lange selbst, bevor irgendeine Maschine auf komische Ideen kommt. ## Das Büroklammerproblem

**Jochen G. Fuchs: ** So sehr schön, wie komme ich jetzt aus dieser Stimmung wieder raus?

**Barbara Lampl: ** Du, eigentlich sind’s nur die Menschen. Mit denen ärgern wir uns schon seit ein paar Jahrzehnten rum.

**Jochen G. Fuchs: ** Ja, definitiv. Okay. Das autonome Modell, das von sich aus auf die Idee kommt: So, Scheiß-Menschheit, Todesstrahl, auslöschen, das ist sehr weit weg. Aber da gibt’s ja noch dieses Ding mit dem Büroklammerproblem. Ich weiß gar nicht, ob ich das von dir habe oder wo das herkommt. Die KI, die den Auftrag bekommt, Büroklammern zu produzieren.

**Barbara Lampl: ** Ja, das ist sehr weit weg. Das ist sehr weit weg. Ja.

**Jochen G. Fuchs: ** Und der Auftrag halt so formuliert ist, dass sie Büroklammern produzieren soll und niemand hat dran gedacht, dem Beast zu sagen, wann es aufhören soll Büroklammern zu produzieren. Und das könnte dann irgendwann, so war dieses philosophische Gedankenspiel, gefährlich für die Menschheit werden, weil das Ding produziert halt Büroklammern. Es produziert Büroklammern und produziert Büroklammern, irgendwann hat es keine Rohstoffe mehr, das heißt es fängt an, dann Rohstoffe zu suchen und zu sammeln. Irgendwann gibt es keine Rohstoffe mehr, also zumindest keine kohlenstoffbasierenden, außer irgendwelchen herumlaufenden, lebenden Rohstoffen. Und dann fängt es eben an, diese Rohstoffe einzusammeln, weil das muss ja weiter Büroklammern produzieren. Das scheint mir dann eher ein etwas realistisches Problem zu sein als die KI, die tatsächlich denkt: Scheiß Menschheit, auslöschen, sondern einfach, dass wir uns versehentlich selbst auslöschen.

**Barbara Lampl: ** Genau, wobei wir uns nicht mehr in der Büroklammermaschine… Die wird nicht auf die Idee kommen: Ich fresse jetzt Menschen, um weitere Büroklammern zu produzieren. Da sehe ich nämlich so ein kleines technisches Problem. Ich finde ja philosophische Gedankenspiele immer ganz niedlich, aber irgendwie finde ich es immer ein bisschen affig, wenn ich mir denke: Wir können doch einfach einen Stecker ziehen. Hat das Ding jetzt seine autonome Stromversorgung gelöst, dann würde ich diese Lösung gerne haben. Also bei aller philosophischer Denkerei über Technik, manchmal finde ich es ein bisschen abstrus. Also ich finde philosophische Probleme in der Technik ja super spannend. Also ich lese sehr viel und bin ein guter Freund des philosophischen Buchs zu später Stunde. Manche Beispiele davon finde ich extrem abstrus, insbesondere weil das ja jetzt so eine Narrow AI ist, der dann also in meiner Welt dann eine Reward-Funktion reingehen muss, dass das Ziel des Büroklammern-Produzierens so viel wichtiger ist als alles andere, damit sie dann das Stromsystem kapern müsste.

**Jochen G. Fuchs: ** Ziemlich viele Events.

**Barbara Lampl: ** Also wenn das so einfach wäre, dann wäre ich schon längst Billionär. Also keine Ahnung. So genau. Der Punkt ist, was eher wichtig ist und das ist quasi natürlich eben: Wir, wir Menschen bauen diese Maschinen. Und diese, die Large Language Modelle, die KI repräsentiert unser Weltbild halt einfach. Und das siehst du selbst an Large Language Modellen in manchen Parametrisierungen, oder sagst du: Ja, also da haben wir ein bisschen mehr auf Kapitalismus gesetzt oder Ähnliches. Das ist die eigentliche Herausforderung. Der menschliche Faktor, ich wiederhole mich da, weil das, glaube ich, sage ich auch ungefähr 15 Mal am Tag: Data und AI hat keinen Modus. Es sind die Menschen, die es bauen. Und an dem Punkt sind wir gerade noch massiv lange. ## Die reale Gefahr: Monopolisierung

**Jochen G. Fuchs: ** Ja, definitiv. Und was in der, ich glaube, beziehungsweise vermute, gegen Ende der Diskussion einfach dann auch von LeCun noch mal betont wurde, ist, dass eine tatsächlich reell existierende Gefahr, mit der wir uns jetzt und heute auseinandersetzen müssen, einfach die Monopolisierung der KI-Entwicklung ist. Wenn man zum Schluss irgendwie nur noch drei, vier Anbieter in den USA und in China hat, die das Ganze in der Hand halten, hat man halt keine richtige Vielfalt mehr, was so eine Bedrohung für die Demokratie an sich einfach schon werden könnte. Und ich vermute oder unterstelle einfach mal, dass das auch mit ein Grund dafür war, dass er auch seine Position bei Meta aufgibt, weil das steht natürlich auch in einem Spannungsfeld. Also die sind darauf bedacht, das Ganze ein bisschen geschlossener zu betrachten, sind sehr wettbewerbsorientiert logischerweise unterwegs und möchten natürlich gerne diese Position erreichen, dass sie eine von vier oder fünf Anbietern sind, die auf eine Infrastruktur setzen, die die zukünftige IT-Welt betreibt oder den zukünftigen Bedarf an IT unserer Welt zur Verfügung stellt. Das ist ja auch eine betriebswirtschaftliche Wette in Anführungszeichen, die wir da haben. Und das ist ein tatsächliches und reell existierendes Problem, oder?

**Barbara Lampl: ** Die Monopolisierung haben wir jetzt schon. Wir haben aber noch genügend Open-Source-Modelle. Ich sehe es eine Stufe drastischer als Yann LeCun an der Stelle und sage: Gehen wir davon aus, wir haben das Monopol schon. Weil ist so. Also ohne NVIDIA-Chips… Hast du mal geguckt, was die DDR5-RAM-Module kosten? Sind dann um 300 bis 400 Prozent im Preis gestiegen. Die nächste Modellgeneration der Handys, also ich hab dieses Jahr ein neues Telefon geholt. Das muss jetzt auch wirklich die zwei Jahre halten, weil in den nächsten Jahren soll nicht mehr… Es sollen nicht mehr 16 GB RAM oder mehr in meinem Telefon verbaut werden, sondern nur noch vier, weil uns die Chips ausgehen. Aufgrund der aktuellen Unsicherheit, insbesondere in den USA, ist die nächste Chips-Generation nicht geliefert worden, was einfach nur Arbeitsspeicher angeht, also ganz klassischen Arbeitsspeicher, ganz klassischen RAM. Nehmen wir mal, der Punkt ist, und das ist halt eher so: Ich würde aktuell sagen, die Monopolisierung haben wir schon. Da müssen wir jetzt gucken, dass wir da irgendwie aus der Nummer rauskommen. Stichwort europäische Souveränität und warum wir echt Geschwindigkeit aufnehmen müssen. Auf der anderen Seite, und ich meine, deswegen machen wir auch diesen Podcast: Wir haben halt noch viel mehr Monopolisierung, was das Wissen angeht. Wir haben halt immer mehr Leute, die wir verlieren und die sich gar nicht bewusst sind, was da gerade passiert. Das würde ich sagen, ist sogar noch das akut größere Problem. Denn ein paar Nerds, die vielleicht mit genügend Kohle was gegenbauen, kriegen wir schon noch immer zusammen. Aber wie sieht’s mit den restlichen 90 Prozent der Bevölkerung aus? ## Schlusswort

**Jochen G. Fuchs: ** Ja, klingt schon fast nach einem guten Schlusswort in Anführungszeichen. Plädoyer für KI-Kompetenz passt wunderbar zu unserem Thema und natürlich auch mal die Augen aufhalten, was die Open Source Welt angeht.

**Barbara Lampl: ** Genau, Open Source ist cool und halt einfach dieses Nicht-Doomertum. Und die Diskussion, die gerade stattfindet, das ist natürlich super spannend. Da sitzen also zwei der weltbesten Forscher zusammen, vielleicht dann ab und zu mit einem Philosophen, und entscheiden im Prinzip sehr krass, wie unsere eigene Welt weitergeht. Denen sollten wir vielleicht schon ein bisschen mehr genauer zuhören und verstehen, aus welchen Positionen sie kommen, als nur: Naja, die sagen jetzt dann 2030, 2036, 20 irgendwas, Hauptsache General Intelligence. Das ist die falsche Diskussion, sondern was die Schritte dahin sind, das ist der entscheidende Punkt. Die Jahreszahl ist völlig irrelevant. Den Weg dahin, den gehen wir alle gemeinschaftlich.

**Jochen G. Fuchs: ** Da würde ich sagen, freuen wir uns darauf, wenn ihr das nächste Mal wieder einschaltet. Wir haben eine wunderbare Basisfolge, wo wir ein bisschen so den Bauchladen der KI aufmachen. Könnt ihr gerne auch mal reinhören, wenn ihr da schauen möchtet, was es denn sonst noch gibt außer dem LLM und der Transformer-Architektur. Und wir freuen uns, wenn ihr wieder einschaltet in euren neuen KI-Lieblingspodcast. Und bis zum nächsten Mal. Tschüss!

**Barbara Lampl: ** Tschüss!