Local AI zwischen Hardware-Hype und Realität – Was kannst du wirklich erwarten?

Shownotes

Wenn du glaubst, lokale KI-Modelle seien nur etwas für Hardcores-Entwickler mit Serverraum-Phobie, dann solltest du dringend auf die Playlist hören. Jochen erklärt, warum man mit ein bisschen Hardware und Know-how fast alles zum Laufen kriegt – von Chatbots über Word-Dokumente bis hin zu Code-Assistenz, und das ganz ohne Token-Kosten. Barbara warnt vor der wilden Hardware-Welt: Erwartungen, Wirklichkeit und die DSGVO im Griff zu behalten sind der Schlüssel, um nicht im KI-Dschungel zu versinken. Zwischen Hype und Weltuntergang finden wir die richtige Mitte: Eine fundierte, Tiefen- und Praxisorientierte Einordung für alle, die smarter statt blinder Hoffnung vorgehen wollen – inklusive humorvoller Rüttler für den Kopf.

Kapitelmarken

[00:00:00] Begrüßung und das teure Tamagotchi-Problem [00:04:30] Was ist eigentlich Local AI? Definitionen, Missverständnisse und Barbaras Ordnungsruf [00:11:00] Erwartungsmanagement: Consumer-Hardware vs. Frontier-Modelle [00:14:00] CPU, GPU, RAM – was deine Hardware können muss [00:16:30] Welches Modell passt zu welcher Hardware? [00:18:00] Was kann ein lokales LLM eigentlich? Tools, Skills und die nackte Wahrheit [00:20:30] Einstieg leicht gemacht: LM Studio, Jan.ai und andere Oberflächen [00:23:30] Systemlast und Nebenwirkungen: Wenn der Laptop in die Knie geht [00:25:30] Bibliotheken, Tool-Calls und Internet-Zugang beim lokalen Modell [00:29:30] Vibe Coding lokal? Geht – aber mit Einschränkungen [00:35:00] Geschwindigkeit vs. Qualität: Wer KI in Zeit misst, soll sechs Setzen [00:39:50] Local AI im Unternehmen: Server, Strategie und warum es Personal braucht [00:43:00] Alignment, Guardrails und warum das rohe Modell alles ausspuckt [00:48:00] Edge AI: Die unterschätzte Rechenpower in eurer Hosentasche [00:50:30] Fazit und Verabschiedung

Links und Erwähnungen

Local AI Tools & Oberflächen:

LM Studio – Lokale LLM-Oberfläche: https://lmstudio.ai/
Jan.ai – Open-Source Local AI Interface: https://www.jan.ai/
Ollama – Lokale LLM-Umgebung: https://ollama.com/
llama.cpp – LLM-Inference auf Consumer-Hardware: https://github.com/ggml-org/llama.cpp

Modelle & Modell-Plattformen:

Hugging Face – Modell-Downloads & Community: https://huggingface.co
Meta Llama Modelle: https://huggingface.co/meta-llama
Qwen (Alibaba) Modelle: https://huggingface.co/Qwen
DeepSeek Modelle: https://huggingface.co/deepseek-ai

Anthropic / Claude:

Claude Cowork: https://claude.ai
Claude Code: https://docs.anthropic.com/en/docs/claude-code

🥳 Danke, dass du LAIer 8|9 eingeschaltet hast! Möge die KI mit dir sein!

Schreib uns eine Bewertung mit dem KI-Modell deiner Wahl und abonniere uns auf deiner Lieblingsplattform, wir sind überall, es gibt kein entrinnen!

[Apple] https://podcasts.apple.com/podcast/id1798319508
[Deezer] https://www.deezer.com/de/show/1001665971
[Spotify] https://open.spotify.com/show/2IfqJA4Qo02fslECWpEQW8
[Amazon Music] https://music.amazon.de/podcasts/497c3a14-dcaf-4bb3-abc1-03aa6f73f8d3/laier-8-9---noch'n-ki-podcast
[Youtube Video-Podcast] https://www.youtube.com/@laier89

Unsere Hosts AI Babsi: (Barbara) [Website] https://www.barbara-lampl.de | [LinkedIn] https://www.linkedin.com/in/barbaralampl/ - E-Fuchs: (Jochen) [Website] https://efuchs.net | [LinkedIn] https://www.linkedin.com/in/jochengfuchs/

Unser Podcast Blog https:///www.laier89.de/

01001100 01110101 01101011 01100101 00101100 00100000 01001001 01100011 01101000 00100000 01100010 01101001 01101110 00100000 01100100 01100101 01101001 01101110 00100000 01001011 01001001 00101101 01010000 01101111 01100100 01100011 01100001 01110011 01110100 00100000 01001100 01000001 01001001 01100101 01110010 00100000 00111000 01111100 00111001 00101110

LAIer 8|9 wird nicht Layer 89 oder Layer 8|9 geschrieben, auch nicht Layer 8 9, aber wir sind cool und wir sind tough, deshalb gibt's hier Keyword-Stuff.

Transkript anzeigen

Jochen G. Fuchs: Hallo und herzlich willkommen bei einer neuen Folge deines KI Lieblings Podcasts, Layer 8.9. Hallihallo, liebe Barbara.

Barbara Lampl: Hallo Jochen, da sind wir wieder. Und hallo und herzlich willkommen, liebe Zuhörer. Oder, falls ihr zum ersten Mal dabei seid, hallo und herzlich willkommen, liebe Zuhörer und Zuhörerinnen.

Jochen G. Fuchs: Ja, ich habe hier ein klitzekleines Problem, liebe Barbara. Ich habe monatliche Kosten in schmerzhafter Höhe und ein nicht geringer Teil davon fressen Trogens auf und jetzt habe ich mir gedacht, es wäre doch mal im Zukunft meiner KI-Kompetenzverbesserung in diesem Podcast eigentlich eine ganz geschickte Idee mal mit einer lokalen KI zu experimentieren, weil angeblich kosten die Dinger ja nichts, das heißt ich kriege meine Tokens gratis generiert. Nur ich habe ganz

Barbara Lampl: Das ist so weit theoretisch erstmal richtig. Es hat ein paar Nebenbedingungen. Aber ansonsten ja, erzählen wir weiter.

Jochen G. Fuchs: Falls ihr gerade komische Trinkgeräusche hört, ich trinke einen Eiskaffee nebenbei aus einem Hamilton Becher. Damit auch die Zuhörer das Bild noch verstehen. Mein letzter USA Besuch führte mich ins Musical Hamilton. Nebenwirkungen sagtest du?

Barbara Lampl: Ja, also ich mein, du willst jetzt also lokale II, weil du hast so bisschen ganz teure Tamagotchis hier gebaut und die futtern jetzt ganz viel Token und die wollen regelmäßig gefüttert werden mit Token und dann kriegst du wahrscheinlich so liebevolle Nachrichten. Hallo lieber Jochen, du hast deine Clot Pro-Lizenz ausgenutzt. Möchtest du auf 100 Dollar upgraden oder möchtest du Vollmax gehen mit 200 Dollar? Schreiben sie dir solche lieben Nachrichten.

Jochen G. Fuchs: Ja, ich bin schon in Max, nur ich möchte natürlich irgendwie auch mal aus dieser... Ich bin schon gemaxed. Ich möchte aber natürlich mal aus dieser Oberfläche raus und irgendwie mal direkt ansprechen und ab dem Moment bin ich ja auf der...

Barbara Lampl:

Jochen G. Fuchs: API und musste meine Kreditkarte reinfüttern und muss Guthaben nachladen und da kannst du eigentlich dabei zuschauen. Ich habe gerade einen Bekannten auf LinkedIn gesehen, der sich eine Software gebastelt hat. Ich weiß nicht mehr genau was, er hat sich eine Banking Software gebastelt, die irgendwas tut. Ich kann nicht mehr genau sagen, was er machte, auf jeden Fall kündete er stolz. Und wenn ich ihn sehe, ich ihn fragen, ob das jetzt Satire war oder sein Ernst, dass er sonst 200 Euro im Jahr für diese Software ausgegeben hat. Und das muss er jetzt nicht mehr. Er hat einfach 1500 Euro in Tokens investiert und hat die Software selber entwickelt. Ich hab's zweimal gelesen. Ich bin mir bis jetzt nicht sicher. Es klang alles sehr, ernst und er hat sich sehr darüber gefreut und ich hab mir gedacht, so what the fuck, da ist jetzt schief gelaufen weil ja keine ahnung ich fand es nicht so sinnvoll jetzt die 1500 Euro Tokens für die 200 Euro SaaS Subscription einzutauschen weil man weiß ja nie wie lange der Scheiß läuft, vor allen Dingen wenn das Banking Software ist keine Ahnung was er da tut irgendwann muss er das Ding wieder aktualisieren, updaten wenn das dann wieder 1500 Euro Tokens kostet also wahrscheinlich nicht die Basis ist ja schon da aber I don't know auf jeden Fall war das so Moment

Barbara Lampl: Ja, also ich würde sagen, gut, ist das ist noch mal ein ganz anderes Fass, was man, was man aufmachen kann.

Jochen G. Fuchs: Ja genau, auf jeden Fall hätte ich ihm dann ganz gerne gesagt, so, vielleicht hättest du das mal lieber mit einem lokalen KI gemacht. Und da ich moment gerade dran sitze, mir so eine Art Redaktionscockpit zu entwickeln, dass sehr, viele Dinge, die ich moment über Claude Assistenten mache, vielleicht mal ein bisschen zentralisiert an einer Stelle bündelt, habe ich mir gedacht, bevor wir jetzt richtig mit Claude Code anfangen und in der Entwicklung mal überlegen, ob wir vielleicht auch lokal ein bisschen rumspielen können. Ich bin auch ehrenamtlich an der Schule, in der Grundschule engagiert und da hast du dann wieder so Datenschutzprobleme. Wenn du da anfängst, du willst irgendwie jetzt hier lauter Clot-Konten für jeden Schüler 1 einrichten, dann gehst du durch die DSGVO-Hölle beziehungsweise durch das, was irgendwelche Menschen für die DSGVO-Hölle halten, weil sie nicht wissen, was...

Barbara Lampl: halten.

Jochen G. Fuchs: Auf jeden Fall hast du keinen Bock drauf und es wäre wesentlich einfacher, wenn du einfach eine Maschine hinstellen könntest. wir schießen da 1000 Fragen durch den Kopf. Also die erste Frage, die ich mir stelle ist, kann ich das überhaupt als 0815 Anwender in der gleichen Qualität in Anführungszeichen umsetzen wie das?

Barbara Lampl: Also lokale AI.

Jochen G. Fuchs: was mir jetzt beispielsweise ein Frontiermodell wie Claude läuft und vor allen Dingen, auf was muss ich mich einrichten, was die Geschwindigkeit angeht. Also das erste wäre vielleicht mal so Erwartungsmanagement, weißt du, was kann ich damit eigentlich wirklich erreichen, wenn ich es mit dem vergleiche, was ich vielleicht jetzt von einem Chatbot kenne.

Barbara Lampl: Okay, also Erwartungsmanagement. Fangen wir ganz vorne an. Ich gehe mal davon aus, dass du jetzt deine Tokenkosten nicht gegen das Heavy Investment eines harten Hardware Upgrades, wenn du denn es überhaupt bekommst, hinstellen möchtest. Das heißt, du möchtest wahrscheinlich auf Consumer Hardware oder auf deiner bestehenden vorhandenen Hardware Sachen zum Laufen bekommen.

Jochen G. Fuchs: Ja, also da ist ja die erste Frage schon, nehme ich am besten eine dedizierte Hardware dazu? Nehme ich mir einen alten Laptop? Also ich hätte hier einen Mac Mini, ich theoretisch dafür dediziert einsetzen könnte, also letzte Version.

Barbara Lampl: Achtung, jetzt müssen wir ein paar Sachen auseinanderhalten, lieber Jochen. Also, liebe Zuhörerinnen und Zuhörer der Jochen, ich muss jetzt bisschen Gedanken und Ordnung in Jochen seine Sachen reinbringen, denn ich glaube, wir vermischen hier ein paar Dinge. wir hatten hier eine Folge, von der ihr sie nicht gehört habt. Unsere letzte Folge ging die ganze Open-Claw-Diskussion und wo ich ja ganz klar gesagt habe, eigentlich sollte niemand ohne harten Def-Hintergrund Open-Claw installieren. Wenn man es dann aber tut, dann bitte auf irgendwelcher alten Hardware. Jetzt muss man ein bisschen aufpassen.

Jochen G. Fuchs: Mach mal.

Barbara Lampl: Und das passiert jetzt heute im Frühjahr 2026 passieren jetzt ein paar Vermischungen von möchte ich komplett lokal agieren? Das heißt, soll die quasi das LLM wirklich bei mir auf dem Rechner laufen oder möchte ich lokal arbeiten, indem ich zum Beispiel meine lokalen Daten, die in einem Mac Mini liegen, mit einer Schnittstelle verarbeitet? Das sind schon mal zwei komplett unterschiedliche Ansätze, was Leute unter Local AI wir gerade aktuell verstehen könnten oder können. Lieber Jochen, was möchtest du?

Jochen G. Fuchs: Okay, ne, also ich hätte jetzt tatsächlich gedacht, also das was du jetzt meinst ist dann ja in die Richtung von Claude Cowork. Da kann ich dem Ding Zugriff auf meinen lokalen Speicher geben, ich kann eine Arbeitsumgebung einrichten und er arbeitet dann, der bringt ja so eine Art VM mit, mit Zugriff auf diese lokalen Dateistrukturen, die ich ihm gebe und fuhrwerk da lokal da rum herum.

Barbara Lampl: Richtig?

Barbara Lampl: Mhm.

Barbara Lampl: Genau. Mhm. Mhm.

Jochen G. Fuchs: Das abgesehen jetzt, ohne jetzt das komplette Konzept Cloud Cowork zu erklären, ist da ja auch ein großer Vorteil an Geschwindigkeitsgewinn. Aus meiner Sicht jetzt. Ich muss nicht jeden Scheiß in die Cloud hochladen. Das Zeug liegt lokal. Du hast einen größeren Kontext. Genau.

Barbara Lampl: Genau, dein Arbeitsworkflow ist einfach eine andere. Genau, aber das ist, wie gesagt, nochmal, auch das wird gerade bereits als Local AI verstanden. Zurück zu, dann möchtest du ja nicht das, was wir letzte Woche schon diskutiert haben, sondern du möchtest wirklich, dass das LLM auf deinem Rechner wohnt. Richtig?

Jochen G. Fuchs: Okay, hätte ich jetzt nicht.

Jochen G. Fuchs: Ja, Frage, also dass das so verstanden wird, also ist das richtig? manchmal ist es ein bisschen witzig, weil wenn man dann jetzt anfängt über wissenschaftliche Definitionen zu streiten, geht es oft an der Realität vorbei. Ich hatte kürzlich einen sehr geschätzten... Ja, nein, ich... Mach mal!

Barbara Lampl: Jein, also ich... Ja. Genau, also das ist genau mein Problem.

Barbara Lampl: Danke. also grundsätzlich. Nein, natürlich würden wir unter Local AI nicht nur arbeiten mit den Daten auf unserem Rechner. Aber es ist auch nicht komplett falsch, weil in dem Moment, wo ich ja über auf meinen Daten, die auf meinem Rechner sind, mit einer Schnittstelle arbeite, wo ich eine AVV und sowas habe, habe ich nochmal wieder eine andere, du hast das unsägliche Wort schon in den Mund genommen, DSGVO-Betrachtung. Und auch das kann eine Relevante sein. Ist das das, man eigentlich, bis wir diese ganzen Agent-Frameworks oder agentischen Workplattformen, die wir bisher nicht als quasi Standalone-Lösungen bis Ende letzten Jahres hatten, war Local AI relativ sauber definiert. Und das ist die Idee. Du lädst dir ein LLM runter, lässt es auf deinem Rechner wirklich alles laufen. Das heißt, du kannst das ganze Ding bedienen, ohne nach dem Download des LLMs irgendeine Internet-Connection zu haben. Das ist die Idee von Grundsätzlich, die wir historisch von Local AI haben. Das andere ist nicht komplett off, aber ich habe ich führe keine Grundstandsdiskussion über Definitionen mehr, wenn mir die dermaßen von den falschen Leuten auf LinkedIn, auf gut Deutsch in allen Ohren zu den Ohren rauskommen und mir denke, ihr habt bei völliger Ahnungslosigkeit definiert ihr irgendwas, weil ihr irgendwas gelesen habt. Könnten wir das bitte aufhören? Könnten wir einfach nur klären, was du darunter verstehst?

Jochen G. Fuchs: ist.

Jochen G. Fuchs: Genau, es führt auch ganz oft einfach ins Abseits über Definitionen zu diskutieren, weil darum geht es ja eigentlich nicht. Das ist so bisschen Korinthenkackerei in Anführungszeichen. Wir sind nicht in einem Uni-Kurs, wo wir exakte Definitionen nachher in einem Test abfragen müssen. Wir befinden uns im normalen Arbeitsleben. Aber die erste Frage, die mir jetzt schon in den Kopf geschossen ist, weil du das jetzt so erwähnt hast, das hätte ich mir nämlich jetzt gar nicht zugetraut.

Barbara Lampl: Ja, genau. Ja.

Jochen G. Fuchs: irgendwie zu bewerten oder einzustufen. Wenn ich mit Claude Coback mit lokalen Dateien arbeite, hätte ich jetzt persönlich fast vermutet, dass der sich gelegentlich Zeug dann einfach selber in die Cloud lädt, es zu bearbeiten und mir dann wieder ausspuckt. Ist da tatsächlich DSG-VO technisch irgendein Vorteil drinne in so einem Setup?

Barbara Lampl: Nein, das ja natürlich. Das kann schon so sein. Das kommt auf Setup drauf an. Das ist ein Fass, was wir jetzt auch nicht aufmachen. Sonst kommen wir vom Hölzchen auf Stöckchen und haben heute 180.000 Eichhörnchen und Sonderlocken, die wir betrachten. Und ich möchte hier die oberste Regel der Data Science und der AI Welt. Wenn wir nicht über einen 80 % Case reden, können wir 100.000 Jahre über Edge Cases reden und sind morgen noch nicht fertig. Zurück, was mich auch nervt.

Jochen G. Fuchs: Okay, alles klar.

Barbara Lampl: Also könnten wir uns erst mal daran halten. Wir sind jetzt auf Minute 10. Über was wollen wir jetzt genau die Venture-Heit aufklären? Möchtest du ein LLM-Lokal auf deiner Rechenmaschine namens Computer zum Laufen bringen? Ja oder nein, lieber Jochen?

Jochen G. Fuchs: Ja, ich bin an Bord. möchte genau das. Also keine halben Lösungen, nichts was noch hinten dran hängt, sondern das soll wirklich komplett, naja, autark würde ich jetzt nicht unbedingt als Zieldefinition rausgeben, sondern Definition of Done ist, ich zahl nix mehr für meine Tokens. Ich machs jetzt mal ganz banal.

Barbara Lampl: Gut, Also, wenn du nichts mehr für deine Token zahlen möchtest, dann muss das LLM lokal auf deinem Rechner laufen, ansonsten API sind auch Tokenkosten. Ende Banane, wie sie abgerechnet werden. Und jetzt kommen wir zu deiner anderen Frage. Du hast nämlich, als du gesagt hast, und Management der Erwartungshaltung oder Frage der Erwartungshaltung, wenn ich so ein lokales Modell bei mir auf dem Rechner zum Laufen bringe, Ist es dann genauso gut, und zwar hast du gefragt, genauso schnell? Schnell ist die falsche Frage. Genauso gut wie ein aktuelles Frontier-Modell. Also zum Beispiel Clot Opus 4.6. Woraufhin ich dich dann frage, wie viel möchtest du in Hardware investieren? Denn nein, das wird nicht funktionieren, außer du bist bereit, sehr viel Geld für die Hardware in die Hand zu nehmen. Wer, erste, erste ...

Jochen G. Fuchs: Ich habe es befürchtet. Dann bin ich ja so wie der mit seinen 1500 Euro für die Token. Wenn ich jetzt 150.000 Euro für Hardware und einen Serverraum ausgebe...

Barbara Lampl: Außer dass du da jetzt mal so 1500 Euro ... Ich würde sagen, hängst du zwei Nullen mindestens dran.

Jochen G. Fuchs: Okay, wäre vielleicht ein Case für irgendein Großunternehmen, aber jetzt nicht für mich.

Barbara Lampl: So, also...

Barbara Lampl: Genau, natürlich grundsätzlich lässt sich, also in dem Fall wird es so bisschen herausfordernd, dass du Opus 4.6 wirklich runtergeladen bekommst. Dafür musst du eine Sondervereinbarung mit Entrophic abschließen. Aber grundsätzlich, ganz klar, Lokal AI oder Local AI ist definitiv ein guter solider Use Case für ganz bestimmte Anwendungen und insbesondere, wenn man aus der Tokenfresserei rauskommen will. Und nur die Frage ist, welche Erwartungshaltung legt man daran an? Und das hängt jetzt definitiv an der zu verwendeten Hardware. Grundsätzlich kann man euch mal, könnt ihr euch so ein bisschen grundsätzlich merken, theoretisch habt ihr eine, Komponenten. Ihr braucht halt einfach einen Laptop, der auf gar keinen Fall älter ist als vier, fünf Jahre. Und jetzt wird es ein bisschen dramatisch. Im ersten Moment kann man erst mal, wenn du es nur auf dem Desktop rechnen willst, dann brauchst du in erster Linie CPU-Power, nicht GPU-Power. Das heißt, du brauchst die berühmten RAM-Blöcke gerade, die so wahnsinnig schwer und so teuer geworden sind. Jetzt merkt ihr auch, die, vielleicht habt ihr euch gefragt, warum sind denn eigentlich neben GPUs, also Grafikkarten, so teuer geworden, eigentlich auch die ganzen... RAMs so teuer geworden, na ja, weil für die lokale Verarbeitung in erster Linie ist es immer CPU plus GPU, aber für die kleinen Modelle hast du halt erstmal in erster Linie, wie viel Power hast du an der Stelle auf deiner CPU drauflegen und das kann ich euch natürlich jetzt ad hoc nicht beantworten. Es gibt so Minimum Requirements, die reden da immer von 8 GB RAM. Von der Nacht, das habe ich noch nicht gesehen, dass das stabil oder spaßig läuft. Ich würde mal sagen, die Untergrenze sind eher realistisch 16, 32. Damit du überhaupt irgendwie was größer als 13, also 13b Parameter Model laden musst, wirst du wahrscheinlich eher so auf die 64 bis 128 Gramm Rahmenregel laufen müssen. Es geht geringer, aber hängt deine Rechenleistung, wie gesagt deine Hardware Power direkt davon ab, wie hoch es wird, dass du

Barbara Lampl: die Größe des Modells, du quasi auf deinem Desktop, auf deinem Laptop ausführen kannst. Das heißt, wenn du jetzt sagst, ich möchte einen alten Laptop verwenden und das Ganze hat irgendwie, keine Ahnung, 8 GB RAM, dann ist das garantiert eine ganz nette Variante, wenn du es zum ersten Mal zum Laufen bringen möchtest, einfach zu gucken, was passiert denn da überhaupt und kriege ich das überhaupt zum Laufen? Dafür gibt es verschiedene Varianten, die man machen kann. Oder sagt man eben, nee, für mich ist das nicht nur ein Test Case, ich möchte da wirklich mehr machen. Dann kommen wir auch in diese Variante rein, dass wir dann eben aus der GPU, auch in die, also aus der CPU, in die GPU-Überlegungen reingehen müssen. Aber das ist immer so die Grundkategorisierung. Und Achtung, ihr lasst dann kleine Modelle laufen. Diese kleinen Modelle sind auch schon im Vergleich zu ganz historischen Sachen ziemlich große Modelle. Aber im Vergleich zu dem, was die Frontier Models gerade der großen Labs sind, quasi ist das eine ganz andere Hausnummer.

Jochen G. Fuchs: Okay, also sprich, es kann eine alte Hardware sein?

Barbara Lampl: Da muss man einfach, wie gesagt, das hängt an erster Linie, also nicht an deiner GPU, sondern auch insbesondere an deiner CPU-Power. Ansonsten ist natürlich am Ende des Tages beides miteinander. Wenn ich größer wäre, also wie gesagt, wenn ich die ganz kleinen Modelle verlasse, dann bin ich automatisch auch in einer Welt, dass ich GPUs brauche. Die ganz kleinen Modelle können auch theoretisch dann quasi mal nur über die CPU gepusht werden, aber Da müsst ihr schon ein bisschen mehr an der Hardware investieren. Aber denkt immer dran, ihr braucht beides, CPU und GPU Power, sonst wird es ein unschöner Spaß.

Jochen G. Fuchs: Ja, jetzt ist es ja so, wir in den ersten Folgen unseres Podcasts ja auch immer mal bisschen drüber gesprochen haben, welches Modell verwende ich denn jetzt für welchen Anwendungszweck stehe ich da dann von einer ähnlichen Situation, dass ich mich darauf einstellen muss, ich müsste mir mehrere Modelle installieren in irgendeiner Form.

Barbara Lampl: Mhm.

Barbara Lampl: Mhm. Nein, realistisch, also grundsätzlich musst du halt einfach sagen, wenn du jetzt dich mit Loclay Eye Models beschäftigst, musst du halt, also die sind schon alle irgendwo fähig, wie gesagt, die sind schon alle irgendwo in der Welt, wenn deine Hardware das hält, dass das schon kann, aber du kannst halt nicht davon ausgehen, dass sie auf den Frontier Labs sind. Das heißt, auch da musst du zweifel-zweig gucken, welches du jetzt willst. und welches du da so runterladest. Das sind die Lama-Modelle, das sind aber auch die Quen-Modelle. Also wie gesagt, die Chinesen, würde ich jetzt mal sagen, sind die besten Modelle, die man so runterladen kann. Da gibt es verschiedene Seiten, klassischerweise natürlich auch Hugging Face. Und dann kannst du, an erster Stelle musst du die Entscheidung treffen, welches Modell passt zu deiner Hardware, also was verkraftet die, ohne dass die quasi in die Knie geht. Und dann hast du natürlich, dass die verschiedenen Modelle, insbesondere wenn sie kleiner sind als die als die Frontier Modelle, dass du natürlich eben zweifelsfall noch mal einen viel härteren Model Data mit Max hast, quasi an der Stelle.

Jochen G. Fuchs: Was kann ich denn danach mit diesem lokal installierten Modell tun? mein momentaner Kenntnisstand ist ja, wenn ich mit einem Chatbot arbeite, dass das Modell selber ja in Anführungszeichen eher so das Gehirn ist, was die ganzen Funktionalitäten startet, weil Das sieht man mittlerweile ja auch als Endanwender, wenn man mit Cloud beispielsweise arbeitet. teilt einem dann ja zwischendurch mit, ich muss mir jetzt noch irgendeine Library installieren, ich muss irgendeine Anweisung, wie man ein Wortdokument erstellt oder sowas mir angucken, mir einen Skill durchlesen. Wenn ich den Skill gelesen habe, führe ich das aus, dann fängt er an mit Pipen rum zu basteln und macht der Geier weiß ich was. Was krieg ich denn da eigentlich? Ich krieg doch wahrscheinlich erstmal nur das Modell, was ich da runterlade, oder? Also das Gehirn in Anführungszeichen.

Barbara Lampl: Genau, also wenn du in der einfachsten Welt aller Varianten, und das ist dann von mir wie LM Studio, Olamas, die LL Lamas, CPP oder auch sowas wie jan.ai, das ist super basic. Das ist einfach mal quasi das rohe LLM. Und zurück zu, dann kommt das, das rohe LLM, im Zweifelsfall natürlich eben zurück zu unserer Folge von letzter Woche oder zu den Varianten. Du kannst ja auch Code Code, das lädt sich ja auch schlicht und einfach runter. Also auch das ist so eine Art Harness-Agent-Framework, was du im Zweifelsfall auch schon quasi da zum Implementieren bekommst. Und dann ist eben die Frage, dass du halt dieses ganze Skill-Klattradarad, besonders wenn du keine weitere Verbindung zum Internet oder sonst was zulässt, dann musst du das theoretisch, also wenn du komplett autark agieren willst und da nur quasi in der Wi-Fi-freien Zone unterwegs sein musst, dann musst du das alles vorbereiten. Oder eben du baust Varianten ein, dass sich das Ding eben so ähnlich verhält. wie eben deine gewohnte Code oder Cowork Oberfläche. Achtung, dann braucht es da das passende GitHub Repo, was du zum Laufen bringen musst und so weiter. Nicht unmöglich. Aber dann gehen wir in eine Welt hinein, wo dann doch ein bisschen mehr Developer Skills wieder notwendig sind. Also dafür muss ich mir dann zumindest die passenden paar YouTube Videos in ein paar Stunden reinziehen und mitklicken und umbauen und sonst irgendwas. Das ist dann nicht ganz so trivial wie quasi andere Sachen an der Stelle.

Jochen G. Fuchs: Okay, also sprich zur Einordnung. diesen ersten Schritt mit die Umgebung für das LLM und das LLM runterladen, das kriegt wahrscheinlich in Anführungszeichen jeder noch hin, der ...

Barbara Lampl: Und genau.

Barbara Lampl: Genau. Das kriegt ihr alles hin. ist relativ. Das kriegt man. Also wer schon mal auf GitHub war, schafft das. Beziehungsweise gibt es auch Webseiten für. Also da kannst du es runterladen, das Schritt eins und dann lädst du als nächstes ein Modell runter und dann erklärt es dir im Prinzip, wie du die zwei Sachen miteinander verbinden musst. Ist nicht so wahnsinnig komplex.

Jochen G. Fuchs: Okay, ja gut, also ich war mal vor, weiß ich nicht wie viele Jahren, Entwickler, war mal Product Owner, ich kann mit dem GitHub Zeug einchecken und auschecken und...

Barbara Lampl: Das kriegste hin. Dieses Skillset sollte ausreichend sein, das problemlos zum Laufen zu bekommen.

Jochen G. Fuchs: Okay und jetzt jemand der bei Github sagt so Gottes Willen keine Ahnung ich hab sowieso schon Angst vor der Kommandozeile kriegt er dann das LLM überhaupt zum Laufen oder?

Barbara Lampl: Ja, also wer Angst vor der Kommandozeile hat. Dann ja, also dann gibt es so Oberflächen. Eine der bekanntesten ist Jan. Das ist keine harte Empfehlung, weil ich ich selber habe damit noch nie gearbeitet. ehrlich zu sein, ich kenne das nur aus anderen Empfehlungen und möchte es jetzt mal aussprechen. Achtung, dies ist eine ungetestete Empfehlung. Bitte bitte mit dem notwendigen Security Check. Aber zumindestens könnt ihr es euch mal angucken. Und das ist im Prinzip auch, und davon gibt es noch, wie gesagt, auch LM Studio ist in der Richtung das Gleiche. Das ist eine Art Open Source Software, die dich dann quasi in so einen Drag-and-Drop-Visual-World einnimmt, damit du das zum Laufen bekommst, wenn du noch nie eben mit der Kommandozeile und was zum Teufel das GitHub gearbeitet ist. gesagt, sind so diese, also ich gehe jetzt mal, das ist so die Abteilung, findet man oben auf Google. LM Studio ist das gleiche in grün. Das ist sicherlich noch mal bisschen die bekanntere Variante. Aber das sind so Varianten, wo man sagen kann, das ist Local on AI on your Computer. Das quasi ein bisschen mehr die, ja, die mehr visuelle Variante. Also auch da gibt es, Local AI zum Laufen zu bekommen, gibt es die ganz harte Variante, geh auf ein paar GitHub Repos, bring die Repos zum Laufen, connect die Dinger. Zur Hugging Face Tester, deine Modelle durch, lad die Modelle von Hugging Face runter und you're ready to go. Bis hin zu mehr Händchen halten, bis hin zu einer quasi von jemand andres Open Source vorgebauten Plattform oder Oberfläche. Das ist zum Beispiel eins dieser Beispiele, eben dieses Yanne AI. Und dann kannst du da sind auch schon quasi Plug and Play Modelle quasi hinterlegt. Meistens brauchen die Modelle so zwischen anderthalb bis vielleicht so die größeren Modelle. Manche Modelle da nochmal 5, 6, 8 Gigabyte Speicherplatz zurück zu, deswegen auch die Größe der CPU schon entscheidend. dann hast du in dem Fall hast du dann auch, weil das ist das nächste, wer Angst vor der Kommandezeile hat, sollte eher auf diese Prebuild Open Source Lösungen zurückgehen. Dann sieht das halt auch so bisschen aus wie so die ganz klassische Chat Interface Variante und das könnt ihr dann egal ob auf Windows, Mac oder Linux überall zum Laufen bekommen. Das ist eigentlich so bisschen so der Klassiker an der Stelle. Genau.

Barbara Lampl: Und deswegen wenn ihr quasi was anderes machen wollt. Also das ist sicherlich eine der Einschränkungen, dass die, wenn ihr die zum Laufen bekommt, also anders jetzt zum Beispiel, also wenn ihr in irgendeinem Tool arbeitet, welches eure Wahl auch immer, dann kannst du nebenbei mit deinem Rechner natürlich noch andere Sachen machen, wenn ihr mit Local AI arbeitet und das auf einem klassischen Arbeitsrechner benutzt.

Jochen G. Fuchs: Okay.

Barbara Lampl: Dann kann es schon mal sein, dass ihr nebenbei jetzt nicht noch 15 andere Dinge machen könnt oder einen Zoom-Call nebenbei machen könnt, weil es bringt einfach echt Last auf die Systeme zurück. Es läuft dann halt auf eurer Hardware. Das muss euch klar sein.

Jochen G. Fuchs: Ja, aber das Gefühl habe ich ehrlich gesagt auch bei Cowork auch schon. Ganz sicher nicht in dem Ausmaß, aber ich habe schon Cowork auf meinem MacBook laufen lassen und nebenbei eine Podcastaufnahme gemacht und dann leckt beides einfach. Und seitdem bin ich ja gegangen, habe Cowork jetzt auf den einzelnen Rechner gesetzt und alles was ein bisschen lastintensiver ist, lasse ich dann auf dem einzelnen laufen.

Barbara Lampl: Ja, ja, genau.

Barbara Lampl: Genau. Also wie gesagt, diese diese Systeme, also ich meine, ich hänge hier jetzt bei 256 GB RAM. Da hast du nicht so schnell so viel Drama am Laufen. Aber das ist, würde ich jetzt mal sagen, auch nicht unbedingt der klassische Arbeitsrechner, weder von der CPU noch von der GPU, der bei mir hier so rumsteht.

Jochen G. Fuchs: Ja, manchmal kann man es ja auch gar nicht so richtig kontrollieren. Also du hast dann zwar ein Mega-RAM, aber dann startest du oder läuft im Hintergrund ein Programm, das aus irgendwelchen absurden Gründen auf einmal anfängt, Last zu ziehen, wo du dir denkst, was zum Teufel tust du da gerade eigentlich. Dann guckst du in den Monitor rein und der macht irgendeinen Scheiß und hat eigentlich gar nichts zu tun. Da hilft mir dann manchmal, also ich bin eigentlich mit dem RAM zufrieden gewesen hier, aber trotzdem.

Barbara Lampl: Nee, das ist das nächste.

Barbara Lampl: Ja.

Jochen G. Fuchs: Okay, wir wissen jetzt, wir können das installieren. Eine kurze Frage noch, so einen kleinen Abstecher in die Tiefe zu machen. Wenn ich bei Claude beispielsweise sage, hier, mir jetzt ein Word-File, dann fängt er ja an, nach irgendwelchen Bibliotheken zu suchen und irgendwas. Wie stelle ich mir das denn vor? Also ich werde es natürlich ausprobieren, aber ich habe jetzt noch keine Vorstellung davon. Wenn ich dieses LMM lokal installiert habe und ich gebe ihm eine Aufgabe, die er alleine nicht lösen kann.

Barbara Lampl: Genau.

Jochen G. Fuchs: Kommt dann irgendwas? Sagt er dann auch, also ich bräuchte jetzt irgendeine Bibliothek und ich suche dann für ihn die Bibliothek raus und installiere die oder wie stelle ich mir das vor?

Barbara Lampl: Das kommt drauf an, welche Modelle du verwendest und wie deine weiteren Konfigurationen sind. Würdest du jetzt ein und auch welche Freigaben du hast, also wie gesagt zurück zu von ist überhaupt installiert, ist das Ding hat das eine Research Internet Capability, was du da aufgesetzt hast. Ja oder nein, das kommt drauf an, wie du es aufsetzen und was du da machst. Also es ist quasi Nebenbedingungen, ob du eben dem halt zum Beispiel zulässt, dass also A brauchst du Modell, wenn du eins der größeren modernen von von den Chinesen nimmst, dann kriegst du das sicherlich. Aber das musst du definitiv vorbauen oder eben je nachdem, auf welcher Oberfläche du das Ganze, also die Interference vorgebaut hast oder auch deine Open Source Rapper und Repost, die du da integrierst, ob diese Capabilities irgendwo hinterlegt sind, ob du die quasi dir das genau, wenn du sagst, okay, hat irgendjemand sowas schon vorgebaut, gibt es dafür irgendwelche Sachen, wie ich das zusammenstellen muss, sodass er dann eben halt quasi feststellt, okay, Moment, da muss ich jetzt ein Tool Call ausführen und muss jetzt mal das Netz durchsuchen. Das funktioniert natürlich schon alles. Also nur Achtung an der Stelle darf man natürlich eins jetzt nicht unterschätzen. Also ich empfehle immer bringt eure Sachen lokal zum Laufen. Das ist auch ein cooler Stuff, besonders wer ein bisschen Dev-Erfahrung hat oder einfach mal in die Tiefen da wieder einsteigen will. Vielleicht auch historische Dev-Erfahrungen. Also das ist kein Riesenhexenwerk. Für jemand, der Angst vor der Kommandozeile hat, na gut, ihr solltet euch vielleicht dann jemand zum Spielen suchen. oder mehr YouTube Videos oder sonst irgendwas gucken oder die Arbeitsgruppe Vibe Coding mal besuchen und wie man sowas lokal zum Laufen bekommt. Also da gibt es ganz, ganz viele Möglichkeiten und auch ganz großartige Selbsthilfegruppen und online und gratis bis bezahlt Ressourcen. Aber Achtung, und das ist, glaube ich, so ein wichtiger Punkt. Man muss immer so bisschen grundsätzlich momentan mit der Erwartungshaltung arbeiten.

Jochen G. Fuchs: Das ist Psilvergruppe.

Barbara Lampl: wo man steht. Ich mach mal ein anderes Beispiel auf. Ich weiß nicht, wer von euch noch immer einen Chat-GPT erkauft. Also OpenAI, der Chat-GPT-Account. Ich habe immer noch einen, aber auch nur, weil ich weiterhin Prompting-Workshops gebe, weil andere Leute das Nutzen und Teilen meines Jobs nun mal ist, dass ich selbst diese Consumer-Tools testen und ausprobieren muss. Ansonsten frage ich mich immer so genau, wozu habe ich eigentlich einen depperten Chat-GPT-Account? Weil ich mir manchmal auch denke, es kann überhaupt nicht das, was ich jetzt gerade möchte. Dann gehe ich wieder rüber zu meinem Clodinchen und bin ganz happy und denke mir, guck mal, was mein Clodcode und mein Cowork oder auch mein genereller Clod-Account alles so schönes können. Das heißt, die Erwartungshaltung, die heute von den Frontier Labs ausgespielt wird und zwar insbesondere auch in wie gut sind diese ganzen Harnesses, Filteradjustierungen abgestimmt und handgebaut auf das darunter liegende LLM. Also warum eben funktionieren ganz bestimmte Harness Konstruktionen, die ja nicht nur zur Sicherheit dienen, sondern auch im Zweifelsfall zur Performance Optimierung so wahnsinnig viel besser oder das andere Beispiel, warum ist der Microsoft Copilot immer nur so ein Drama und Falls ein Unternehmen immer noch denkt, dass Microsoft Copilot ausrollende KI-Strategie ist, wir haben da eine Selbsthilfenummer oder genau genommen eine E-Mail-Adresse, ihr dürft uns Nachrichten schreiben. Ihr kommt dann in die Selbsthilfegruppe für, üben das nochmal mit der KI-Strategie, aber man muss es langsam ja echt so hart ausdrücken. Dann merkt man ja genau, wer sich durch den Microsoft Copilot quälen muss, der weiß ganz genau, Moment mal, was ist denn das für ein Krampf? Warum funktioniert denn das alles nicht? Und das nächste ist... dass je nachdem eure Aufgabe, was ihr damit machen wollt, also Texte schreiben können, fast alle solide, aber und auch irgendwie, wenn du genügend Rechenpower hast, kannst du mit dem Zeug auch Local Code generieren. Das ist alles nicht so das große Drama. Aber es muss schon klar sein, dass ihr von der Erwartungshaltung in andere Grenzen reinläuft, in andere Herausforderungen, die total cool sein können, wenn man da Zeit, und sonst irgendwas drauf hat.

Barbara Lampl: weil das einfach auch ein Experimentierfeld ist, was großartig ist. Aber wenn du Zeit gegen Token, gegen sonst irgendwas rechnest, könnte sein, dass sich das nicht unbedingt rechnet, wenn du dich selbst wirklich an Productivity selbst erhöhen möchtest, weil dann wirst du da ein paar Stunden und deines Lebens, wenn du es richtig geil machen willst, beschäftigt sein, wenn du nur mal bisschen rumspielst, bist du mit drei, vier Stunden happy und hast auch was ganz Cooles zusammengebaut. Das kann für manche Use Cases genügend sein. Für mehr so professionelle Anwendungen wird man mehr Zeit und Aufwand investieren müssen.

Jochen G. Fuchs: Okay, sprechen wir jetzt, wahrscheinlich sprichst du von beiden, du sprichst sowohl von dem Aufwand das Setup herzustellen, also die Umgebung des LLM als auch den eigentlichen Zeitaufwand um deinen Task abzuarbeiten in dem LLM. Also nehmen wir mal meinen Bekannten mit seinen 1500 Euro Token, der sich eine Banking Software nehmt mich da nicht genau fürs Wort, ich weiß nicht, was er sich da exakt gebaut hat, das hatte irgendwas mit Banking und Finanzen zu tun, weil sonst kommt jetzt gleich irgendjemand mit der Regulierungskäule die Ecke. Wenn du so eine Endanwender-App entwickeln willst, wirst du wahrscheinlich auf einer lokalen Konsumer-Hardware extrem lange brauchen, bis du dieses Ergebnis erreichst, dass der mit 1500 Euro Token verbrannt in keine Ahnung drei Tagen erreicht. Also das heißt, saß drei Tage Vibe-Codend an diesem Ding da, hat anscheinend 1500 Euro verbrannt und dann hatte er eine fertige App, die nach seinem Bekunden so professionell aussah und sich verhalten hat, wie das, was sonst aus der Fintech-Ecke rauskommt. Wenn ich sowas versuche, mit lokaler LLM zu machen, dann habe ich überzogene Erwartungen.

Barbara Lampl: Ja.

Barbara Lampl: abhängig davon, deine Hardware hergibt. Das kann sein, dass du das irgendwie heiter... Da wirst du dann aber definitiv, da sind wir jetzt in der GPU-Power-Welt, weil da wirst du jetzt schon richtig böse auch GPU-Power ein bisschen brauchen, damit du da quasi wirklich das sauber und solide, weil da wirst du für... Ich will mal sagen, da wirst du ein 70B-Model als Grenze schon brauchen. Also ich glaube, da wirst du noch nicht sonderlich happy werden, dass du nur mit einem 30B-Model arbeiten kannst. Lokal ohne viel Aufwand kriegst du ungefähr 13 Milliarden Token, also 13 Milliarden, also ein 13B Model zum Laufen. Alles drüber brauchst du dann schon ein bisschen mehr Power, damit du da auch wirklich auf dem Code Level bist, wenn du Swipe Codes, wenn du viel Ahnung hast und das mehr als Code Unterstützung siehst. Also du weißt, im Prinzip bist du eigentlich ein guter Dev und willst eigentlich mehr so deinen Dev Prozess beschleunigen. Was heißt, du brauchst eigentlich wirklich mehr so die Fähigkeit, dass eine AI Code produziert und dir nicht bei der Architektur oder sonst irgendwas hilft, dann könnte es sogar hinhauen, dass du das lokal hinbekommst. Aber ich würde sagen, bei Local AI darf man einzig verstehen, dass da noch mal definitiv mehr Kompetenz reinkommt an der Stelle von wer nutzt das? Also nicht nur beim Setup, sondern welche Fähigkeiten kannst du da rausholen mit einer lokalen AI? in einer Welt von Konsumenten-Hardware ist einfach schon nochmal eine andere Hausnummer als jetzt nur, wenn du halt sagst, okay, klar, da, da, ich brenne das mal auf der vollen Frontier Lab API durch. Das ist nochmal so ein bisschen so eine andere Hausnummer. Weil wenn wir uns dann da angucken, wenn du die meisten gehen davon aus, dass du für einen 70 B-Model, was du zum Laufen bringen möchtest, Bist du schon fast bei einer RTX 6000, wenn ich das richtig im Kopf habe? Eine RTX 6000 liegt momentan sicherlich, da sind wir dann schon bei einem Preis vor, je nachdem, wo ihr die bekommt und wie man die bekommt, vielleicht bis, ob wir mal so um die 7.000 bis 8.000 Euro, im Zweifelsfall noch höher. Also da oder halt eben in der eins drunter in der Kategorie, wo die meisten sich wahrscheinlich so bewegen.

Barbara Lampl: für Ihre lokalen KI-Anwendungen, du dann bei einer GeForce RTX 4090 bist, aber selbst bei einer 4090 bist du ja auch schon bei rund 3000 Euro bei der GPU. Deswegen muss man das alles halt immer so ein bisschen, wenn du sagst, du machst das jeden Tag, dann stehen vielleicht auch die Tokenkosten nicht mehr in Relation oder sonst was, aber das muss man halt so ein bisschen immer abschätzen. in welcher Welt man sich da bewegt. Achtung, daran reden wir auch wirklich schon von quantisierten, also kompressierten, quantisierten, großen Modellen, die klein gepresst worden sind, damit du da wirklich auf high level agieren kannst. Und nicht nur auf, okay, ich nehme jetzt einfach mal mein Gaming-PC oder sonst was. Aber das ist halt, gesagt, besonders weil Hardware einfach auch verdammt teuer geworden ist in den letzten Monaten. Das war vielleicht vor einem halben Jahr. Die RAM-Preise sind völlig durch die Decke gegangen. Also gefühlt ist jetzt RAM noch mal teurer als ... als ... als ... als die GPUs. Also, yo.

Jochen G. Fuchs: Ja also bevor ich jetzt eine frage stelle die in richtung firmen nutzung gehe Frag ich noch mal kurz abschließend wenn ich als als entanwender so mit diesem einfachen setup wie wir das vorab beschrieben haben vielleicht habe ich ein bisschen deffkenntnisse vielleicht nicht habe meine eigene hardware ist einigermaßen aktuell das ding läuft drauf Dann kann ich damit erwarten dass ich quasi kleinere Aufgaben erledigen kann, ich auch im Chatbot machen kann. Texte generieren, wenn ich irgendwelche Skills mit rein packe, da auch mal ein Word-Dokument oder sowas raus. Das kann ich erreichen. Bildgenerierung... code auch...

Barbara Lampl: Definitiv. Ja ja. Ja, Alles gut. Und wie gesagt, es code auch solide. Genau. Also Code-Generierung ja. Also die pure Code-Generierung ja. Das ganze Designs kribbelt und es soll dir bei der Architektur helfen. Jetzt könnte es bisschen tricky werden. Je nachdem, gesagt, das ist halt wirklich die Frage, codest du mit dem Ding oder hast du keine Ahnung und du wipecodes? Beim wipecoden könnte es eher in seine Grenzen reinlaufen. Aber wenn du quasi sagst, okay, das sollen wir beide, ich habe Ahnung und soll ich beim Code-Generieren unterstützen? Das ist easy machbar. Die Wipecoded Nummer sieht ein bisschen komplexer aus, weil da mehr Reasoning-Fähigkeiten Reasoning ist tokenintensiv, ist GPU- und CPU-powerintensiv.

Jochen G. Fuchs: und

Jochen G. Fuchs: Okay und was erwarte ich da von der Geschwindigkeit her? Also wenn ich im Moment hergehe und gebe Claude einen langen Rechercheauftrag und lasse ihm danach ein Wortdokument machen, dann schafft er das ja meistens in irgendeiner Zeit zwischen, keine Ahnung, also lass mal vielleicht mal die Recherche weg. Sagen wir mal, wir haben ein fertiges Dokument, wir haben irgendeinen 20 Seiten, wo wir sagen hier, destillier mir da bitte einen schönen Text raus und den fertigen Text kippst du mir dann in ein Word-Dokument. Dann kriegt das Cloud ja normalerweise in unter einer Minute oder so was hin. Ist das deine Erwartungshaltung, die ich da auch machen kann oder warte ich da eher 10 Minuten drauf?

Barbara Lampl: Das wird nicht, also diese Aufgabe ist, nee, also der Punkt ist, dass die Geschwindigkeit von den Dingern nicht unbedingt wahnsinnig viel langsamer ist. Das kannst du so nicht unbedingt sagen. Geschwindigkeit an der Stelle ist gar nicht so die Frage. Das wird das Ding schon ähnlich schnell, vielleicht, das ist zwei Minuten dreißig dauern. Die Frage ist, welche Qualität entsteht daraus, dass du ein kleineres Modell benutzt. Das ist immer so diese Fehlleistung, die mich ja auch persönlich und beruflich und fachlich regelmäßig aufregt.

Jochen G. Fuchs: okay.

Barbara Lampl: Wer AI in Zeit misst, soll nochmal sechs Sätze und von vorne anfangen. Slop zu erzeugen, dauert 0,003 Sekunden. Qualität zu erzeugen, kann auch eine Stunde dauern, wenn die Vergleichsaufgabe davor eine Woche gedauert hat. Alle haben alle gewonnen. Aber diese Frage von, also das ist für mich etwas auch, wir hatten das auch erstes Mal in einem Projekt, aber die Antwortgenerierung hat ja, ich habe auf die Uhr geguckt, es hat 45 Sekunden gedauert. In der Zeit hast du vor deinen scheiß Kollegen früher noch nicht mal angerufen. Aber jetzt ist 45 Sekunden falsch. Also Freunde, wer AI in Zeit misst? Sechs Sätzen.

Jochen G. Fuchs: Ja.

Jochen G. Fuchs: Ich glaube, das kommt daher, weil ganz oft die Produktivität auch in Zeit gemessen wird. wenn jetzt irgendwer herkommt und das sind Sachen, die du 4.000 mal am Tag gefühlt liest, auch in Papern, wenn es um Produktivitätsstudien geht und man sagt, ja das ist eine Arbeitsaufgabe für die hätte ein Mensch drei Tage gebraucht und

Barbara Lampl: Es geht die Qualität.

Barbara Lampl: Klar?

Jochen G. Fuchs: Die KI hat sie in 30 Minuten erledigt und dann hast Du halt den Eindruck, dass die Produktivität da in Zeit gemessen wird und hängst auf dieser Schiene.

Barbara Lampl: Ja, tut sie auch. Produktivität wird am Celle auch immer noch. Natürlich ist Produktivität auch immer eine Zeitaufgabe. Aber in einer Zeit, wart ihr schon mal auf LinkedIn heute? Wenn ihr diesen Podcast hört, war die heute schon auf LinkedIn? Habt ihr den AI Slop schon gesehen? Das ist in 0,3 Sekunden generiert, aber es ist total irrelevant. Und als Unternehmen zu glauben, dass ich Produktivität erzeuge, indem ich Zeit beschleunige,

Jochen G. Fuchs: Also dass die KI an der Zeit bemissen wird.

Barbara Lampl: ohne dabei die Qualität zu messen, kann man machen, kostet aber dann hinten raus Faktor 10 bis Faktor 100, weil das ist viel Spaß beim Fixen.

Jochen G. Fuchs: Ja, und es ist auch tatsächlich absurd darüber nachzudenken, ob ein Task 45 Sekunden oder zwei Minuten dauert, für den du sonst einen halben Nachmittag gebraucht hast, oder einen ganzen Nachmittag, oder einen Tag. Who knows? Dann habe ich jetzt noch zwei Fragen übrig. Die eine Frage wäre dann noch, wenn ich jetzt als Unternehmen aus irgendwelchen Gründen, aus Gründen der Souveränität, aus Gründen des Datenschutzes

Barbara Lampl: Richtig. Genau das. Genau das.

Jochen G. Fuchs: Aus Gründen dass ich will genauso wie Jochen gerade eben einfach Tokenkosten sparen Auf die Idee komme zu sagen ich mache das jetzt auch so wie wir das besprochen haben und stell mir so wie früher einfach in meinen eventuell noch vorhandenen Serverraum einfach noch einen zusätzlichen Server rein und das ist dann unser KI Server und da installieren wir jetzt irgendwas drauf und anstatt das dann zu machen machen wir das jetzt mit mit Openweight Kram Ist das eine eine plausiblen Strategie, oder kann das der Beginn einer plausiblen Strategie sein? Krieg ich da als Unternehmen was zusammen oder?

Barbara Lampl: Es ist ein taktischer Punkt. Es ist sicherlich weder eine KI-Strategie noch ist es eine Datenstrategie. Es ist einfach nur eine taktische Variante, eine hoffentlich gut definierte KI-Strategie in die Umsetzung zu bekommen. Und wenn wir schon Tokenkosten sparen wollen, dann investieren wir das hoffentlich großzügig in einen hoch qualifizierten Menschen, der dieses System mit all seinen Vor- und Nachteilen bedient und eine gut bezahrte Vollzeitstelle hat, das ganze System zu verwalten. im Zweifelsfall noch ein, zwei, drei Hände zu haben, je nach Größe des Unternehmens auch noch ein paar Teammitglieder zu haben. Denn wer glaubt, ich stell mir das Ding einfach in den Keller und dann ist fertig und dann spare ich mir die Tokenkosten? Ja, nein. Nur weil du, ich oder mein CTO sowas nebenbei aufsetzen können, funktioniert das nicht in der Realität.

Jochen G. Fuchs: Das sollten...

Jochen G. Fuchs: Ja, manchmal denke ich mir sowas an und für sich Standardbasiswissen, aber ich vergesse manchmal, dass ich früher Systemadministrator war, dass ich aus einer Zeit kam, in der man statt Cloud noch Serverräume hatte. Ich habe selber noch Kabelkanäle verlegt und einen Serverraum eingerichtet mit brandfesten Inventar.

Barbara Lampl: Naja, und du darfst halt an der Stelle nicht... Genau, also du hast dann an der Stelle nicht nur die Infrastruktur, die du da betreuen musst rein händisch, sondern du hast natürlich auch mit einem Modell zu tun. Dieses Modell wird dann produktiv im Unternehmen eingesetzt. Dieses Modell muss dann eventuell geändert werden. Also es muss ein größeres Modell runtergeladen werden. Dieses runterladen muss dann auf Cybersecurity Breaches und dass du das sauber Modell runtergeladen hast. Während das Modell runtergeladen ist, muss das Modell durchgetestet werden. ob es produktiv in allen Anwendungen so rolliert werden kann und eingeführt werden kann. Dann wird rolliert, währenddessen müssen dann Monitoring und Maintenance Systeme überwacht werden. Du musst da Lastmanagement im Griff haben. Das ist nicht ein Stück Software, die du einfach nur auf einem Rechner zum Laufen bringst und dann hoffst dass irgendwann ein Update kommt. Das funktioniert so nicht.

Jochen G. Fuchs: ein KI-Systemadministrator an Anführungszeichen wenn du eigenen Serveradministrator mehr hast. brauchst manpower und know-how. Okay letzte Frage. Ja in der Tat. Letzte Frage wo wir schon gerade in diese Richtung unterwegs waren. Wenn ich jetzt

Barbara Lampl: Genau, also brauchst das nochmal und das ist ein sehr spezielles Skillset.

Jochen G. Fuchs: Die Chinesen sind ganz gut bei diesen ganzen Open-Weight-Models, das was man runterladen kann. Das heißt unter Umständen könnte der eine oder andere zu Quan oder Ähnlichem greifen. Wenn man mit DeepSeek oder Ähnlichem über deren Infrastruktur spricht und man fragt die nach bestimmten kritischen chinesischen Punkten wie den Tiananmen-Mainplatz, das Massaker und was da alles kommt, kriegt man auf deren Infrastruktur

Barbara Lampl: Ja.

Jochen G. Fuchs: keine vernünftige Antwort. Man liest aber im Netz immer wieder, wenn man diese Modelle selbst betreibt, man dann eine vernünftige Antwort kriegt. ich ziele jetzt auf das Thema Alignment ab. Schon nicht mehr, okay. Wo hängt denn zum technischen Verständnis quasi dieses Alignment? Das hängt ja eigentlich, wenn ich das Modell runter lade,

Barbara Lampl: kriegst schon auf der API hast du das Problem schon nicht mehr. Also du hast es schon auf der API nicht mehr. Das hast du schon auf der API nicht mehr.

Jochen G. Fuchs: Haben die ein anderes Modell auf ihren Saas-Plattformen laufen oder ist das Alignment drum herum? Also da schwimme ich jetzt etwas.

Barbara Lampl: Langsam, langsam, Moment mal, ganz, ganz, ganz langsam. Alignment ist ein großer Begriff und Alignment ist nicht nur das, was im Training und Posttraining passiert, sondern ein Teil des Alignments können auch alle Guardrails sein, Input Guardrails, Output Guardrails, Filterfunktionen, Blocking Functions. Auch das kann ein Teil eines Alignments sein. Ein Teil des Alignments ist also Teil des LLMs. Das heißt ganz bestimmte Sachen und du kannst mit dem LLM in einer Rohversion nicht sagen, es sollte Felix daran nicht antworten, das wird immer antworten. Aber du kannst es in die sogenannten Käfig, Harnesses, Rapper, wie du das auch mal nennen möchtest, jetzt sind wir alle auf den Zug auf, dass wir das nur noch Harnes nennen. Oder eben diese ganzen Komponenten, die dazugehören, die ja das, was du quasi gerne auch haben möchtest, vielleicht auch möchtest oder sind wir noch nicht mal beim Fine-Tuning von dem Modell. Das ist quasi, wenn du mit einer Chat-Funktionalität arbeitest, dann hast du da ja sehr, sehr viel mehr Layers, die auch aus dem Software Engineering bekannte Layers sind, die dann aber auch in Promt-Layers übersetzt werden und auch in weitere Varianten übersetzt werden können. Wieso du dann? Und das kann eben auch Teil des Alignments sein. Das fällt meistens auch unter die Security-Feature. Aber das grundsätzliche Alignment kann zu versuchen, dass es eine bestimmte politische Richtung hat. Aber dass jetzt sobald es die Informationen irgendwie mal versehentlich gesehen hast, wirst du das nicht rausbekommen. Und dadurch, dass alle großen chinesischen Modelle auch noch Distill Modelle sind, findet da halt auch all das statt, was in den amerikanischen Modellen stattgefunden hat. Das heißt, es gab eine Revolution und das hast du aber schon, wie gesagt, auf der API nicht mehr, weil das eben in erster Linie die Konstrukte sind, die in den Chat Applikationen außenrum gebaut worden sind. gesagt. Der Begriff Alignment ist unter der heutigen Definitionsliste. Das ist nicht nur die Post Training Alignment, sondern das Alignment kann und ist in Teilen auch all das, was außen rumläuft.

Jochen G. Fuchs: Und das was außen rum läuft, das zum Verständnis jetzt, sowohl für diejenigen die es privat als auch im Unternehmen einsetzen wollen, das ist ja das was ich nicht automatisch mitgeliefert kriege. Das ist ja das was JetGPT und Anthropic drum herum bauen und wenn ich mir dieses Modell runter lade in meine Umgebung habe, dann habe ich ja diese Guardrails unter Umständen nicht. Sprich wenn ich als beispielsweise

Barbara Lampl: Genau.

Barbara Lampl: Das ist, was die Tools ausmacht.

Barbara Lampl: Genau.

Jochen G. Fuchs: ... Vater mein Kind daran setzen würde und sich das, was weiß ich, ... irgendwas, eine dumme Frage stellt und kriegt eine schädliche Antwort, ... weil der entsprechende Guardrail nicht da ist, dann bin ich das Guardrail und muss nebendran sitzen. Und wenn ich ein Unternehmen habe, dann muss ich eben selbst als Teil ... System-Administration wissen, der ...

Barbara Lampl: Richtig.

Barbara Lampl: Ja.

Jochen G. Fuchs: Teil der Datenstrategie muss sein, entsprechenden Guardrails einzubauen, damit meine Mitarbeiter mit dem Ding auf meiner Infrastruktur nicht irgendwelchen Bullshit bauen.

Barbara Lampl: Ja, genau das. Also wie gesagt, nicht nur das, sondern du musst halt die Funktionalitäten, du hast eine rohe Nummer. Das ist, warum eben halt auch rohe Modelle, besonders in der Bildgenerierung zum Beispiel von der Pornoindustrie benutzt werden können, weil die rohe Modelle das im Zweifelsfall können, aber die Modelle, die du über irgendwie eine Paid-Subscription bekommst, halt eben nicht. Das ist zum Beispiel solche unterschiedlichen Varianten. sieht man sich, finde in der Bildgenerierung ist das noch mal einfacher nachzuvollziehen. Wenn du JGBT da fragst, dann wird es da keine Bilder rausgeben. Also zumindest aktuell nicht, es sei denn, haben jetzt endlich die, wollen Sie ja doch noch die U18-Variante releasen, dann sieht die Welt vielleicht anders aus. Aber grundsätzlich würde das da nicht funktionieren. Nimmst du aber ein rohes, also ganz normales Open-Way-Modell auch aus der Bild-Galerierung, dann ist das sehr wohl möglich.

Jochen G. Fuchs: Ja, ist klar. Also mir sind jetzt ehrlich gesagt die Fragen erstmal ausgegangen. Ich müsste jetzt ins Tun übergehen, wenn ich jetzt nicht gerade an der Gründung ein...

Barbara Lampl: Das ist doch ein Traum. Und dann kann es jetzt loslegen und uns...

Jochen G. Fuchs: Ja genau, wenn ich jetzt nicht gerade an der Gründung eines Medienunternehmens sitzen würde, würde ich mit installieren anfangen, aber ich muss mich noch ein bisschen damit gedulden. So viel zu tun einfach. Habe ich irgendeine Frage vielleicht übersehen, irgendwas was wir in diesem Kontext noch erwähnen sollten?

Barbara Lampl: Genau.

Barbara Lampl: Vielleicht noch der kleine Hinweis, wenn ihr Local AI in kleinen Modellen zum Laufen bekommt, dann gibt es da einen separaten Begriff, den ich noch gerne erwähnen würde. Und der kleine Hinweis, vielleicht benutzt ihr nicht alte Laptops, sondern Dinge, die so ausschauen wie Handys. Ich halte gerade mein Handy in die Luft. Die Dinger sind teilweise mit am performantesten, denn man darf nicht unterschätzen, wie viel Power in unseren mobilen Endgeräten drinstecken, aka Handys. Das heißt, das kann eine ganz interessante Variante sein und dann nennt sich das ganze Edge AI witzigerweise. mal die Modelle eben Edge kleiner sind, Edge-Batch, nein natürlich, da kommt die Tätigung nicht her. Aber Edge-AI ist der Begriff, wenn wirklich kleinere Modelle auch auf lokalen

Jochen G. Fuchs: Jetzt habe ich den erst verstanden.

Barbara Lampl: Gott. Also Jochen braucht heute ein bisschen mehr Kaffee. Meine schlechten Witze. Genau, dann mach ich schon mal einen schlechten Witz und dann sowas. Also Edge AI ist der Begriff, wenn ihr da noch mal ein bisschen die Google-Maschine oder eure Lieblings-KI anschmeißen möchtet. Da geht es dann darum, eben sehr lokal verfügbare Varianten zum Laufen zu bekommen. Auf euren Telefonen zum Beispiel. Und das ist definitiv eine coole Nummer, weil die haben ganz schön viel Rechenpower. Also vielleicht anstatt den alten Laptop rauszusuchen.

Jochen G. Fuchs: länger bis... genau.

Barbara Lampl: sucht ihr vielleicht ein altes Handy raus, ist auch ganz gute Variante. liegt mal unterschätzte Rechenpower zu Hause rum.

Jochen G. Fuchs: Okay, dann da jetzt doch noch eine letzte Nachfrage bevor ich dich hier laufen lasse. Entlasse hätte ich jetzt beinahe gesagt. Ist das dann eher so ein bisschen eine Konsumer-tauglichere oder für den Dummi geeignete Variante? Weil, also ich stecke jetzt in der iOS-Welt fest. Bei Android ist es ja alles ein bisschen offener, aber bei iOS könnte ich mir jetzt eine App runterladen und in der App dann irgendwas runterladen und dann bin ich eigentlich auch schon raus. Viel mehr kannst du da ja nicht machen, ne?

Barbara Lampl:

Barbara Lampl: Im Zweifelsfall. Genau, also wie gesagt, dafür zurück zu, auch da gibt es wir die ganzen Varianten abhängen vom Betriebssystem, von sehr fancy, du brauchst irgendwie einen Developer Stack hinzu, sie laden sich bitte eine App runter. Also es gibt alles, wie gesagt, wir sind in 2026, gibt es viele Möglichkeiten, sich da halt herumzuspielen und ich empfehle immer, rumspielen heißt, Security by Design denken heißt, nehmt alte Endgeräte, wo keine sensiblen Daten drauf sind. keine privaten Bilder drauf sind, keine privaten Daten drauf sind, dann kann man damit auch halt auch rumspielen. Aber nehmt bitte Hardware und Konfigurationen, wo nicht euer Leben dranhängt, wo keine Bankdaten da sind, keine privaten Daten da sind, wo wenn worst case worst euch jemand hackt oder ihr euch selber hackt, außer Reset drücken, nichts passiert.

Jochen G. Fuchs: Vielen Dank, liebe Barbara. Wir sind jetzt alle ein Stück schlauer. Vielen Dank an Euch fürs Zuhören und ich hoffe, Ihr schaltet in Kürze wieder Euren neuen KI-Lieblingspodcast ein. Tschüss, macht's gut, bis bald, tschüss Barbara.

Barbara Lampl: Das werden wir doch hoffen.

Barbara Lampl: Tschö Jochen!

Shownotes

Kapitelmarken

Links und Erwähnungen

🥳 Danke, dass du LAIer 8|9 eingeschaltet hast! Möge die KI mit dir sein!

Transkript anzeigen

Neuer Kommentar