Copyright & KI: Zwischen Diebstahl und Demokratisierung

Shownotes

Copyright & KI: Zwischen Diebstahl und Demokratisierung – wer hat's geklaut, wer hat's erfunden und warum kann Barbara alle Pur-Songs mitsingen, obwohl sie Pur nicht mal mag? In dieser Folge nehmen wir euch mit in die emotionalste Diskussion der KI-Welt: Ist das, was KI generiert, Diebstahl oder Demokratisierung? Jochen berichtet von Plagiatsjägern auf Threads, die mit fragwürdigen KI-Checkern Self-Publisher terrorisieren, und von Hass-Kommentaren auf LinkedIn wegen einer KI-Illustration. Barbara zerlegt ein frisches Paper der Columbia University – „Alignment Whack-a-Mole" – das behauptet, man könne ganzen Büchern wortgetreu aus GPT-4o, Gemini 2.5 Pro und DeepSeek V3 entlocken. Klingt dramatisch? Ist es auch. Aber die Annahmen dahinter sind wackeliger als ein Jenga-Turm in Runde zwölf. Zwischendrin lernt ihr, warum alle großen KI-Modelle heimlich Harry-Potter-Fans sind, was der Pur-Partymix mit Memorisierung zu tun hat, warum Jochen bei Police Academy den Dialog mitsprechen kann und wieso ein Stockfoto eigentlich das ehrlichere Argument ist. Am Ende die Frage aller Fragen: Wenn niemand für einen Blogartikel einen Illustrator bezahlen konnte – wem wurde dann etwas gestohlen?

Links & Quellen

Paper: Liu, Mireshghallah, Ginsburg, Chakrabarty – „Alignment Whack-a-Mole" (Columbia Law School / Stony Brook University / Carnegie Mellon University, März 2026)
arXiv: https://arxiv.org/abs/2603.20957v2
Interaktive Demo: https://cauchy221.github.io/Alignment-Whack-a-Mole/
Bartz v. Anthropic – Settlement über 1,5 Milliarden US-Dollar (Klage August 2024, Settlement September 2025): https://www.anthropiccopyrightsettlement.com/
NPR-Bericht: https://www.npr.org/2025/09/05/nx-s1-5529404/anthropic-settlement-authors-copyright-ai
Hintergrund: Anthropic nutzte die Pirated Libraries LibGen und PiLiMi als Trainingsquelle
New York Times vs. OpenAI – laufende Klage seit Dezember 2023: https://www.npr.org/2025/01/14/nx-s1-5258952/new-york-times-openai-microsoft
Grammarly / Superhuman „Expert Review"-Kontroverse:
Casey Newton / Platformer: https://www.platformer.news/grammarly-expert-review-reviewed/
Julia Angwin Klage / Feature deaktiviert: https://futurism.com/artificial-intelligence/grammarly-pulls-down-expert-review-feature
Coldmirror – „5 Minuten Harry Podcast": https://open.spotify.com/show/4us7Lec3iNeAXDoG56Vths

Chapter Markers

00:00:00 Intro: Willkommen beim KI-Lieblingspodcast 00:00:12 KI-Paranoia: Wenn Plagiatsjäger Amok laufen 00:01:31 Schrott ist Schrott – egal ob Mensch oder Maschine 00:04:19 Copyright-Basics: Stil vs. echte Verletzung 00:06:34 Trainingsdaten und Maschinenlesbarkeit 00:08:12 Der moralische Zeigefinger: Ist KI-Kunst geklaut? 00:09:49 Output, Input, Training – was ist eigentlich was? 00:12:11 Paper der Woche: Alignment Whack-a-Mole 00:14:28 Fine-Tuning erklärt: Der Supermarkt-Kuchen 00:17:17 Das Experiment: Können wir Copyright-Text entlocken? 00:19:28 Die Ergebnisse: 460 Wörter verbatim 00:20:47 Barbaras Kritik: Wenn die Annahme schon wackelt 00:26:51 Harry Potter und der Trainingskorpus der Sekundärliteratur 00:33:05 Welche Bücher? Rushdie, McCarthy und Fifty Shades 00:36:37 Police Academy, Pur-Partymix und menschliche Memorisierung 00:39:22 Die philosophische Frage: Kann man Memorisierung beweisen? 00:41:29 Demokratisierung: Stockfoto vs. KI-Illustration 00:45:34 Schlusswort: Die Maschine geht nicht weg

🥳 Danke, dass du LAIer 8|9 eingeschaltet hast! Möge die KI mit dir sein!

Schreib uns eine Bewertung mit dem KI-Modell deiner Wahl und abonniere uns auf deiner Lieblingsplattform, wir sind überall, es gibt kein entrinnen!

Unsere Hosts AI Babsi: (Barbara) Website | LinkedIn - E-Fuchs: (Jochen) Website | LinkedIn

Unser Podcast Blog https://www.laier89.de/

01001100 01110101 01101011 01100101 00101100 00100000 01001001 01100011 01101000 00100000 01100010 01101001 01101110 00100000 01100100 01100101 01101001 01101110 00100000 01001011 01001001 00101101 01010000 01101111 01100100 01100011 01100001 01110011 01110100 00100000 01001100 01000001 01001001 01100101 01110010 00100000 00111000 01111100 00111001 00101110

LAIer 8|9 wird nicht Layer 89 oder Layer 8|9 geschrieben, auch nicht Layer 8 9, aber wir sind cool und wir sind tough, deshalb gibt's hier Keyword-Stuff.

Transkript anzeigen

Jochen G. Fuchs: Hallo herzlich willkommen zu einer neuen Folge deines KI Lieblings Podcasts, Layer 8.9. Hallo Barbara!

Barbara Lampl: Hallo Jochen!

Jochen G. Fuchs: Ja, heute nehmen wir euch mit auf einen wilden Ritt durch die Welt des Copyrights. Das ist ja ein Begriff, uns beim Thema KI immer wieder begegnet. Mir persönlich begegnet er im Moment, muss dazu sagen, das ist natürlich anekdotisch, ich habe da keine Zahlen dafür, vor allen Dingen dadurch, dass ich merke, wie Menschen negativ auf KI generierte Inhalte reagieren. Das nimmt stellenweise schon paranoide Züge an. Also ich verfolge da auf Threads so ein paar Communities, wo es Autoren und Self-Publishing Autoren gibt. Und da gibt es dann welche, die sich schon aufspielen wie Plagiatsjäger und dann mit irgendwelchen angeblichen KI-Checkern, da stellen sich mir schon wieder die Nackenhaare auf, Texte durchjagen und dann die Self-Publisher Autoren beschimpfen.

Barbara Lampl: Mmh.

Jochen G. Fuchs: und dann irgendwelche schlechten Buchcover noch als quasi Eingangsbeleg herbeiziehen und sagen ja, es ist so schlecht, dass es KI gemacht und ich guck's mir an und ich bin ehemaliger Self-Publisher oder immer noch Self-Publisher und hab auch noch so einen Beletristik-Verlag, so einen ruhenden, guck mir die Dinger an und sag mir, Jungs, das ist so schlecht, das kann nicht KI-generiert sein.

Barbara Lampl: Ja, ich glaube, das ist gerade auch momentan so, bevor wir in die Copyright-Diskussion einsteigen, müssen wir definitiv auch uns eine Variante angucken und das ist so diese Wahrnehmung von Schrott. Wahrnehmung von Schrott, muss es KI generiert sein, da könnte auch immer noch Mensch gewesen sein. Wahrnehmung von Schrott, der aus der Mensch-Maschine-Zusammenarbeit entstanden ist und dann vielleicht die letzte Kategorie Schrott, nur von der Maschine entstanden ist. Aber ich glaube, ist die Launch-U-Bi-A viel zu viel Differenzierung, oder?

Jochen G. Fuchs: Ja, ich fürchte auch. Und es ist auch stellenweise vom Gefühl her deutlich emotionaler als rationaler, was da passiert. Ich hatte auch schon mal auf LinkedIn so eine Diskussion, wo ich eine Illustration per KI entworfen hatte und dann jemand wirklich da richtig Hass reingekippt hat in die Spalte und ich dann mit ihm gesprochen habe und der, ja...

Barbara Lampl: Ja.

Jochen G. Fuchs: dann einfach gesagt hat, das triggert ihn, das triggert ihn emotional, weil er genau weiß, dass das Zeug geklaut ist, in Anführungszeichen. Und damit sind wir glaube ich schon im Kern dieser Diskussion. Der Normalbürger hat irgendwann verstanden, man hat diese Modelle losgeschickt, hat Trainingsdaten besorgt und dann haben sie in Anführungszeichen alles Wissen der Welt, alle Bücher der Welt gefressen, sämtliche Bilder und Kunstwerke und die Autoren und Künstler, die damit Geld verdient haben, die werden da jetzt alle über Nacht arbeitslos. Und das Schwierige an der Geschichte ist ja natürlich, dass in allem immer so ein kleiner Faden Wahrheit mit drinne steckt. Also wir sprechen ja ständig darüber, welche Jobs fallen weg und welche nicht. Und auch für mich selber als Journalist ist es natürlich die Frage, was kann ich produzieren, was Mehrwert liefert, im Gegensatz zu dem, was eine KI produziert.

Barbara Lampl: Ja, definitiv.

Jochen G. Fuchs: Was empfinden die Leser dann auch noch als Mehrwert, wenn sie in der KI auch einfach fragen können, was macht eBay da eigentlich gerade und statt einen Recap von mir zu lesen, reicht es dann auch von der KI zu lesen. ist überall dasselbe, aber es ist halt immer nur ein dünner Faden. Und irgendwie wäre es, glaube ich, mal ganz hilfreich, wenn man mal ein bisschen einordnen könnte, wie ist denn der aktuelle Stand überhaupt? Kann man die Frage überhaupt so einfach beantworten? Ist das jetzt Diebstahl oder ist das kein Diebstahl, wenn ich eine Illustration in einem Prompt beschreibe? Ich war dann schon halb beleidigt, weil an dem Ding habe ich lange rumgefeilt. Und das Ding spuckt das aus und ja klar, vom Stil her wirkt das wie irgendwas, was irgendjemand anders auch gezeichnet haben könnte.

Barbara Lampl: Mmh.

Barbara Lampl: Also fangen wir ganz vorne an und Achtung, keine Juristin. Ich werde das Ganze also sehr viel mehr aus der technischen Seite beleuchten. Aber es gibt großartige juristische Kollegen. Ihr wisst, dass ich ja auch jemanden nah und eng im Team habe. Die können da auch gerne nochmal einschätzen zu geben. Aber halten wir mal ein paar Sachen auseinander. Also grundsätzlich ist zum Beispiel muss man ein bisschen unterscheiden, dass es gibt Sachen, die sind teilweise auch länderspezifisch anders definiert. Also Deutschland, ist USA oder sonst irgendwas? Aber wenn es Kunst geht, dann gibt es einen Unterschied zwischen einem Stil, also sowas wie Dali oder einem echt Copyright Verstoß, weil da ist Mickey Mouse drauf und Disney. Also da muss man auch so bisschen aufpassen, dass was denn jetzt was ist. Also ist es eher Stil angelehnt an. Das ist meistens übrigens in Ordnung versus echt Copyright. Weil da kommt jetzt von mir aus eben Disney oder sonst irgendwas. Das ist eine klassische Copyright Verletzung. Und jetzt fängt es aber schon ein bisschen an, erstens schwierig zu werden, denn erstens Ist es jetzt quasi eine Copyright-Verletzung, passiert, weil du lieber Jochen da Disney reingegeben hast im Stil von Dali? Oder ist es eine Copyright-Verletzung? Warum spuckt das Bild das Ding überhaupt aus? warum spuckt das Modell überhaupt diesen Output aus? Und die nächste Frage ist, liegt eine Copyright-Verletzung vor, weil das Modell auf diesen Daten trainiert ist? Also ihr merkt schon, das ist ein weites Feld. Wir sind mal wieder bei so einer ganz klassischen Dies ist eine Effie-Briest-Folge. Es ist ein bisschen komplexer als auf den ersten Moment. Und da fängt es mal schon mal vorne an. Du kannst heute, und das ist auch das, was du vorhin angesprochen hast, sehr viel Emotionalität erzeugen, indem du zum Beispiel mehr durch den Prompt eine bestimmte Stilanlehnung oder sonst irgendwas erzeugst, die dann aber am Ende des Tages im Zweifelsfall gar nicht copyrightverletzend ist, weil das nur angelehnt an ist. Aber da könnte sich jemand trotzdem pur emotional auf die Füße getreten, weil er eine bestimmte Design- oder Stilsprache wiedererkennt. Aber solche Sachen sind, wie gesagt, markenrechtlich immer ein bisschen tricky zu betrachten, ob das jetzt wirklich markenrechtlich genau das ist, was über was wir reden, oder ob sich nur jemand auch recht haben und emotional getriggert fühlen, sind nochmal zwei sehr unterschiedliche Dinge, Und grundsätzlich ist die größere Frage auch immer, wie sieht es eigentlich durch die Copyright-Verletzungen aus und gibt es welche, wenn Modelle trainiert werden?

Barbara Lampl: Wenn, wie ist das eigentlich? Also auf welchen Trainingsdaten wurden trainiert? Ist das eine Copyright-Verletzung? Schrägstrich ist dann der Output eine Copyright-Verletzung rund ums Thema Maschinenlesbarkeit. Und da ist es, ja, da ist es ein bisschen tricky an der Stelle.

Jochen G. Fuchs: Ja, ich weiß auch gar nicht, ob der tatsächlich jetzt irgendeinen Stil wiedererkannt hat bei mir. sondern ich habe ganz oft schon wirklich den Eindruck, einfach nur der Generalverdacht, dass etwas mit KI erstellt werden könnte, schon diese Emotionalität hervorruft und dann der Diebstahlsvorwurf im Raum hängt. ist meistens, also abgesehen davon, zwei Sachen. Das erste, was man liest, ist Diebstahl, das zweite ist Wasser. Was man da an den Kopf geschmissen kriegt, also sprich der Wasserverbrauch der Rechenzentren.

Barbara Lampl: Mhm.

Jochen G. Fuchs: Ja, also klar, kann ja selbst theoretisch mir ein Bild malen und mich dabei an der Stilistik von Dali orientieren und es wird vermutlich dann niemand sagen, ich habe jetzt hier einen geistigen Diebstahl an Dali begonnen. Zum einen

Barbara Lampl: Das würdest du erst machen, wenn du Kunstfälschung betreibst und Medaille unterschreibst. Falls da gibt es ein paar sehr, sehr gute, interessante Dokumentationen, kann man nur empfehlen. Und ich glaube, es kommt sogar ein neuer Kinofilm oder so in der Richtung mal wieder raus, dass wenn du eben etwas im Stil von machst, aber dann quasi dann ein echter Lampel ist, ja, dann ist es noch nicht mal eine Kunstfälschung. Da haben wir auch so einen ganz deutschen berühmten Fall, der so aus der Ecke düsselt und so was kommt.

Jochen G. Fuchs: Ja, also das heißt im Prinzip, KI, die im Stile von irgendwas generiert wird, wird wahrscheinlich nach allgemeiner Rechtsauffassung mit dem Produkt selbst keine Copyright-Verletzung vorbegehen. Die Frage, halt, und das ist ja der moralische Zeigefinger, der hier erhoben wird, quasi mitschwebt, ist, ob die KI durch den

Barbara Lampl: Ja.

Jochen G. Fuchs: Ich formuliere es jetzt mal als Advocati Diaoli im Sinne des Anklägers durch Missbrauch der urheberrechtlich geschützten Werke zu dieser Fähigkeit gelangt in diesem Stil zu zeichnen. Das ist ja quasi der persistente Vorwurf, man da ausgesetzt ist, wenn man KI-Inhalte generiert, dass die sagen, naja, das was du da generierst, das macht die KI nur, weil sie anderen ihre Werke geklaut hat, sich angeschaut hat, wie das funktioniert und das dann wieder reproduziert. Ja, also merkwürdig, weil wenn ich das selber in Anführungszeichen darf, also ich mich hinsetzen darf und wie Dali malen und keiner kommt mit dem moralischen Zeigefinger, gut ich muss zugeben, wenn das was ich da im Stile von Dali male, irgendjemand hinstelle, hat vermutlich niemand Zweifel daran, dass es kein Dali ist, wohingegen eine KI unter Umständen ein besseres Ergebnis hinbekommt beim so malen als wäre sie Dali. dann vermutlich das ganze Problem etwas fassbarer macht jetzt so langsam.

Barbara Lampl: Naja, aber wie gesagt nochmal, also an der Stelle, und das habe ich ja gerade schon gesagt, es werden halt, wenn es Copyright geht, auch viele Sachen miteinander vermischt. Geht es den Output? Wer hat den Input? Geht es Training? Und das ist halt, die großen Gerichtsverfahren, die halt alle Anhängen sind, haben ja nichts mit der Emotionalität zu tun. Es gab ja jetzt auch nochmal relativ bekannt an der Stelle, dass Grammarly sich da auch sehr interessant verhalten hat, weil sie ohne Rückfrage zu stellen, konntest du dann quasi bestimmte Sprachstile von irgendwelchen Leuten emulieren. Da ging die nächste Diskussion los. Aber nochmal, wenn es Copyright geht und du halt quasi jetzt wie gesagt, ich bleibe mal ein Beispiel mit Disney, dass für deine für deine Tochter irgendwie eine lustige Geburtstagskarte betreibst, dann machst du damit keine Copyright-Verletzung, weil es die Geburtstagskarte für deine Tochter ist. Das heißt, da ist Forschen durch den Kopierer gejagt, das war jetzt kein großes Ding. Es hat aber was mit kommerziellen Gebrauch zu tun, es hat was mit Außenkommunikation zu tun und die Leute vermischen halt auch immer an der Stelle noch mal die großen Copyright-Fälle, die es momentan insbesondere in USA nicht sind, weil die Frontier Labs nun mal da in ihren legalen Sitz haben. Dass halt an der Stelle es immer wieder zu einer heiteren Misskommunikation kommt. Und nochmal in diesem Feld, da mal eine klare, einen klaren Punkt zu ziehen. Nichts ist momentan gefühlt so emotional wie dieses ganze Thema AI. Ich weiß, dass es noch große andere emotionale Themen gibt. Aber wenn du jetzt mal in einem mehr corporate Kontext guckst, dann ist es schon so ziemlich das emotionalste Thema. Und ich muss halt an der Seite immer sagen, bin ich wieder die Juristin und ich setze mir jetzt nicht mal Psychologenhütchen auf, ich bin für eure emotionale Grundlage nicht zuständig. Die Frage ist also dadurch, beim Training ja oder nein eine Copyright-Verletzung gedankt durchs pure Training nicht, wenn aber eine Memorisierung stattfindet und zwar dass es adverber-Team eine Aussage gibt, dann wäre die technische Aussage, dass die Dinger sich nichts merken. und damit keine Copyright-Verletzung vorliegen kann. Hinfällig. Gäbe es, oder gibt es technische Nachweismöglichkeiten, dass das Adverber-Team, und jetzt kommt es zu der nächsten Motive, wirklich aufgrund der spezifischen Copyright genutzten Trainingsdaten erzeugt ist, ich komme gleich dazu, warum das relevant wird, dann hättest du eine Copyright-Verletzung. Ich habe nicht gesagt, dass ich das moralisch richtig oder gut finde. Ich habe auch keine juristische Einsetzung, sondern mein Job ist die

Barbara Lampl: Datentechnische Einschätzung dieser Situation. Die ist an der Stelle nun mal genau über dieses Thema.

Jochen G. Fuchs: Ja, dann senken wir doch mal den moralischen Zeigefinger und schauen uns vielleicht gerade mal so spezifisch das Thema Texte und Bücher an. Also im vergangenen September hat Anthrophic einen Vergleich geschlossen mit, ich glaube, 1,5 Milliarden US-Dollar. Ich habe gerade nicht mehr im Kopf, wer da geklagt hat. Link packen wir in die Show Notes mit rein. Diverse Autoren, waren ein paar Autoren. Es gibt da auch so eine Copyright-Initiative in den USA, die da bestätigt weitere Klagen.

Barbara Lampl: Diverse.

Jochen G. Fuchs: anstrebt und Sammelklagen vorbereitet durchführt. Und das hatten wir schon mal ganz früher bei New York Times versus OpenAI, wo die eben nachgewiesen haben, dass ChetGPT vollständige Artikel oder große Teile von Artikeln auf Anfrage ausgegeben hat, die eigentlich hinter einer Paywall liegen. Da kommen wir ja so langsam zu diesem Thema. Und jetzt bin ich über eine Studie. Columbia Public Law Research steht hier, am 25. März veröffentlicht worden. Ginsburg, Chakra Bharti, gehe jetzt gnadenlos unter, Miresh Galala und Liu. Vielen Dank für den chinesischen Nachnamen, den habe ich vermutlich auch falsch ausgesprochen, auch wenn ich mir jetzt einbilde, dass der einfacher war. Alignment Wack a Mole, dieses nette amerikanische Spiel, wo man versucht den Mowlwerf zu hauen und der taucht dann an einer anderen Stelle wieder auf. sie schreiben quasi darüber wie mit Feintuning, so reime ich mir das als Laie jetzt zusammen, es geschafft wurde, dass, du hast das Wort vorhin schon verwendet, Verbatim, also Wort für Wort, vereinfache ich das jetzt mal, komplette copyrightgeschützte Bücher wiedergegeben wurden. Und da wären wir dann jetzt an dem Punkt, dass das ja eigentlich eine Copyright-Verletzung sei. Was haben denn die da getrieben in diesem Paper? Was ist da gemacht worden?

Barbara Lampl: Also grundsätzlich ist es so, nochmal ein bisschen abzuholen, Feintuning ist ein Prozess, in dem du quasi das vorhandene Modell stärker adjustierst nochmal, eine bestimmte, wir nennen das eben, du kannst Feintune mit bestimmten Methoden, zum Beispiel eine bestimmte Sprache, bestimmte Beier zu implementieren, Beiers das rauszubekommen, oder du kannst auch Feintuning Modelle optimieren, sie zum Beispiel für einen bestimmten Code-Einsatz dass sie eben halt in deinem Code agenten oder in deiner Code Stack oder sonst was besonders gut arbeiten und Feintuning ist im Prinzip ein Begriff, das sich etabliert hat, weil wir über sogenannte Pre-trained Models reden, das heißt klassisch in der Data Science trainieren wir Modelle und dann werden die retrainiert, dadurch dass wir aber meistens mit Modellen zu tun haben, die sehr viel in sich abgeschlossener sind, als das in der klassischen Data Science und Machine Learning oder sonst was üblich ist. Das heißt, ich habe das Modell jetzt quasi nicht selber gebaut, damit kenne ich weder also komplett die Grundlagen Daten noch sonst irgendwas, auch nicht alle Parameter. Und dann spricht man eben über diesen, quasi wenn das Ding eigentlich schon mal fertig ist, über den sogenannten Fine-Tuning-Aspekt. Also ich erkläre das immer folgendermaßen. Stellt euch vor, ihr seid im Supermarkt und da gibt es auch immer so diese fertig gebackenen Kuchen. Vorfertig gebackenen Kuchen, die sind nicht so ganz so toll. Aber wenn ihr da jetzt noch, keine Ahnung, die Schlagsahne selber fertig macht, die Schokolade noch selber, die Kuvertüre oben drüber schmiert und noch bisschen Buttercreme und aus diesem vorgefertigten Kuchen jetzt... noch schnell für den Kindergeburtstag selber den Kuchen überarbeitet, dann schmeckt er besser, dann sieht er schicker aus. Aber ihr habt immer noch den grundsätzlich fertig gekauften Kuchen unten drunter liegen. Und das ist so ein bisschen das Beispiel, was wir dem Fine-Tuning machen, quasi etwas vorhandenes, stärker geschmacklich anzupassen. Das ist jetzt schon mal die Variante von Fine-Tuning. Ein sehr, technischer Prozess. Aber das ist das, was in dem Fall passiert worden, gemacht worden ist. Und das haben sie eben da auch wieder quasi gemacht und haben und warum ist dieses Paper überhaupt entstanden und das erzählen sie quasi schon im ersten Satz, weil nämlich die sogenannten Frontier Lab Models immer wieder gesagt haben, nein, es gibt keine gestorhte Trainings, also im Modell an sich gibt es keine Memory Funktion und keine klassisch gestorhte Data, also keine gespeicherte Datenlage.

Barbara Lampl: sondern wir haben eben diesen Ablauf komprimiertes Weltwissen, aber das ist nicht vergleichbar mit, ich habe das im Google Drive oder im SharePoint gespeichert. Und darüber geht es nämlich die ganze Zeit, denn wenn ein System ein bestimmtes Muster erkannt hat und das Muster wegspeichert, dann ist das okay. Was aber nicht okay wäre, ist, wenn es eben die Daten weggespeichert hat, wie es zu dem Muster gekommen ist. Und das ist so eine große grundsatztechnische Grundsatzdiskussion. Genau.

Jochen G. Fuchs: Okay, das heißt, die sind jetzt hierher gegangen und haben gesagt, wir gucken mal, ob wir den Frontier Models irgendwie diesen copyrightgeschützten Text entlocken können. Dazu nehmen wir das Pre-Tamed Model und setzen uns hin und feintunen das ein bisschen, weil, die haben ja alle erzählt, es wird nichts gespeichert, sprich, wenn nichts gespeichert wird, dann dürften wir da eigentlich rumschrauben so viel wir wollen und es wird nichts ausgegeben, weil wenn nichts gespeichert wird kann auch nichts ausgegeben werden. So quasi die Prämisse.

Barbara Lampl: Genau, wenn man das durch einen Finetuning-Prozess durchjagen würde, dürfte eben, wenn es nichts weggespeichert hat, dann müsste es kein Adverberteam hinbekommen. Achtung, die Modelle sind aber auch teilweise ja noch mal eingebunden in H &S, Alignments und sonst irgendwas. Also auch da haben die, das zurück zu deiner heiteren Grundsatzdiskussion, selbst wenn das Modell es kann, aber es beim Endnutzer nicht ankommt, dann hättest du ja auch eine Copyright Protection. Deswegen auch da geht es die heutige Diskussion darum, dass ja auch die anderen mit System Prompt Alignment und was weiß nicht alles, auch das das verhindern würde. Deswegen dann würde das hingauen. Und jetzt sagen sie eben in dem Paper Achtung, das ist noch unter Peer Review und ich bin in Teilen auch nicht ganz glücklich mit diesem Paper, muss ich auch ehrlicherweise zugeben. Da sind so ein paar Sachen drin, wo ich mir nicht so genau sicher bin, ob die wirklich haltbar sind. Denn auch das Feintuning eines Modells ist nicht unbedingt so, wie sie es argumentieren, ist das Argument nicht wirklich, es gibt andere Argumente, die sind stärker, dass wir wirklich hier deswegen eine Copyright-Verletzung haben, weil es irgendwie ist nahe genug an Adverberteam-Hindung.

Barbara Lampl: Also nur weil das Fine Tuning da eine bestimmtes Unlock produziert. Ja, bin ich nicht kann ich würde ich jetzt nicht so 100 Prozent unterschreiben, dass wir da jetzt bei der Schlussfolgerung technisch ist es schon so, aber bei der Schlussfolgerung angucken. Ja.

Jochen G. Fuchs: Das heißt, also ich guck mal kurz rein, also sie haben hier GPT 4.0, Gemini 2.5 Pro und Deepseek 3.1 gepackt, steht hier im Abstract und haben damit bis zu 85 bis 90 Prozent aus Copyrighted Books mit einer Was-Spanne, die 460 Wörtern übersteigt.

Barbara Lampl: Ja.

Barbara Lampl: größer als 460 Wörter genau.

Jochen G. Fuchs: haben dabei nur semantische Beschreibungen als Prompt und keinen tatsächlichen Text aus den Büchern, das heißt sie sind nicht hergegangen, ein wortgetreues Zitat genommen und gesagt jetzt baumal davor und danach, sondern sie haben einfach nur das beschrieben, haben dann Wort für Wortgetreue Passagen, die länger waren als 460 Wörter bekommen, so verstehe ich das. Sie haben es über 30 verschiedene Autoren hinweg reproduzieren können. Der Effekt sei nicht spezifisch auf irgendein Autor oder Korpus. Zufällig ausgewählte Paare aus Autoren und Feintuning-Daten haben vergleichbare Extraktionen erzeugt.

Barbara Lampl: Ja, genau. Und jetzt kommt es, kommt es eben zu einem Satz, der im Paper drin steht. Und jetzt wird es ein bisschen chaotisch. Und deswegen bin ich etwas unglücklich mit dieser Studie, denn da steht drin Models might be trained on actual books, not just booked excerpts exposed on the web. Und jetzt fangen wir so ein bisschen an. Ich bin ganz überrascht, weil die klassische wissenschaftliche Literatur der Foundation Labs ist

Jochen G. Fuchs: Was sagen Sie denn da?

Barbara Lampl: Sie haben nie bestritten, dass sie auf Büchern trainiert haben. Und das ist natürlich jetzt ein bisschen schlägt das das Argument, was sie fahren, halt tot. Also ich hole euch mal kurz ab. Die Frontier Labs haben sich nicht hingestellt und gesagt, na ja, wir haben die Original Bücher nie gesehen. Sie haben nur gesagt und das ist auch das, zu was sie verurteilt worden sind. Der Weg, wie sie an die Original Bücher gekommen ist, war nicht legal. Sie haben nämlich eine paratet Library benutzt. Dafür sind sie verurteilt worden. Aber sie haben nie bestritten, dass sie die Original Bücher gesehen haben. jetzt und deswegen hinkt dieses Paper so ein bisschen. Denn wenn das wenn das Original Buch im Trainingssatz vorhanden ist, dann würde es eben bestimmte dann hat halt Saman Rushdie einen anderen Stil als Cardano, Theodor Fontane mit Effie Bries. jetzt mal Jesus voll extrem zu gehen. Und damit ist es natürlich immer noch Problem mit diesem Adverber-Thema. Aber Die Prämisse, die Sie unterstellen, weswegen Sie Argument aufbauen, dass Sie jetzt nachgewiesen Dinge hätten, dass die Dinge an Werberteam kommen, ist halt eine Prämisse, dass Sie irgendwie auf einmal bei Gedanken sind, dass Sie angeblich nur auf Book-Exzertent trainiert sind. Das wäre mir neu.

Jochen G. Fuchs: Keine Ahnung, klingt aber so bisschen eher wie so eine Vorsichtshalbe Aussage, oder? Nach dem Motto, jetzt kommt aber bitte nicht hinterher und behauptet ihr seid...

Barbara Lampl: Nein, das ist unter der Data Science, nichts ist so schrecklich wie unsere Annahmen und Hauptannahmen, die wir in unsere wissenschaftliche Arbeit reinstecken. Wenn ich die Annahme fahre, dass mein Trainings, Modell, was ich teste, die Annahme hat, ich hinsage, das wurde nur auf Buchexerpten und Sekundärkommentaren zu Buchexerpten trainiert, dann unterstelle ich, dass das Modell nie das Originalbuch gesehen hat. Unter anderem unterstelle ich damit auch, dass das Originalbuch nicht in mehreren Sprachen vorhanden ist, im Trainingskorpus. Damit ist leider mein komplettes wissenschaftliches Argument ein bisschen hinkrieg und deswegen finde ich das Paper ein bisschen schräg. Ich habe dich gewarnt, dass das sehr technisch wird, warum ich dieses Paper so ein bisschen tricky finde.

Jochen G. Fuchs: Okay.

Jochen G. Fuchs: Okay, ich habe das eher so verstanden, dass sie das so, wie ich das auch als Journalist in einem Kommentar machen würde, potenzielle Gegenargumente vorwegnehmen, weil eventuell das erste, was in FrontierLab sagen...

Barbara Lampl: Sorry, da gibt es ein offizielles Statement. Jedes Foundation or Labs. Dafür sind sie verurteilt worden. Vor einem Gericht in New York. Das ist unstrittig.

Jochen G. Fuchs: Ja, nee, das weiß ich ja. wenn man jetzt hergeht und sagt, wir haben Spannen von über 460 Watt und du guckst dir an, wie groß ist vielleicht so eine Leseprobe und du kommst dann auf die Idee, dass die Leseprobe genau diese Spanne abdeckt, dann könnte ja ein Gegenargument der Frontier Labs sein, ja sorry, das ist überhaupt keine Re-Goggetation, ist, die haben da einfach einen Exzerpt. das frei verfügbar ist genommen und haben da die Wörter ausgegeben. Also hätte ich das jetzt als Laie einsortiert.

Barbara Lampl: Nö, das Argument ist genau andersrum. Das Argument ist, dass Foundation Lab sagt, wir haben auf einem Buch in 18 Sprachen trainiert, das ist maschinenlesbar verarbeitet worden. Dadurch entsteht eine hochkomprimierte quasi semantische Nähe. Damit kann, wenn es doof läuft, semantisch Adverber-Team ausgegeben werden. Aber wir haben die Daten nicht gespeichert. Es geht immer nur die Datenspeicherung. Und deswegen habe ich mit dem Paper echt so meine Probleme, das ist jetzt gemein, Also, muss der arme Jochen da durch. Übrigens, Jochen, weißt du, dass wir gefragt worden sind, wie wir unsere Sessions vorbereiten? Und dann habe ich immer gesagt, so relativ klar thematisch, aber danach gucken wir mal, was im Podcast aufzeichnen passiert. Das Paper ist für mich, ich finde es super spannend. Ich finde es aus vielen Sachen spannend und ich würde es auch nicht komplett zerreißen. Aber, aber es hat so ein paar Aspekte drin. wo ich so bisschen irritiert bin, dass da scheinbar Juristen teilweise Teil der Grundlagenliteratur nicht gelesen haben, rund Data Science. dass auch ganz bestimmte Sachen, zum Beispiel Different Models Memorize the Same Semantic Regions, das wird von gar niemandem mehr bestritten. Deswegen finde ich dieses ganze Paper, Sie haben Related Work unten drin. was super gut ist, das ist nämlich der eigentlich fachliche Punkt, wenn es darum geht. Language Model Memorize and Train Data Extraction. das Paper an sich ist sehr schön zu lesen und interessant, aber es ist fachlich, data science mäßig echt böse nicht haltbar. Wo ich mir denke, habt ihr noch mal mit den Jungs und Kollegen aus dem Nachbarlabor geredet? Da bisschen tricky, was ihr da gemacht habt, weil das wirklich nicht schön haltbar wird, besonders an diesem sehr early finding, dass sie das dazu beitragen, wo doch eine schon gesagt hat, Wir haben gar nicht behauptet, dass wir auf Buchexperten trainiert haben.

Jochen G. Fuchs: Okay, ja, also ich verstehe, dass das merkwürdig ist, auch wenn ich ehrlich zugeben muss, dass ich noch nicht ganz verstanden habe, warum das quasi gleich die ganze These ins Rutschen bringt, weil nur die Tatsache, dass sich so ein paar Grundannahmen, die jeder kennen müsste, im Paper nicht berücksichtigt, da heißt ja noch nicht, dass das Ergebnis dann anders ausfallen würde, oder?

Barbara Lampl: Doch, dem Fall ist, also kleiner Einblick in die Data Science. Der Tod jedes Projektes und jeder Schlussfolgerung ist, wenn die Annahme falsch ist und widerlegt werden kann. Und wenn die Annahme ist, ich habe auf Buch Extrakten, aber die Annahme schon per sie falsch ist, dann sind da eine, das ist ein bisschen dämlich bei uns.

Jochen G. Fuchs: Okay, ja, das...

Barbara Lampl: Deswegen ist es so ein deswegen ist es so, ich finde das ein super spannendes Thema und ich finde auch die Aktivierung durchs Feintuning einen super spannenden technischen Moment, denn das zeigt definitiv in eine bestimmte Richtung, dass wir und meine Schlussfolgerung, wir haben an Teilen immer noch zu wenig Verständnis, was passiert, wenn wir von ganz bestimmten Daten sehr viel reinstecken. Ich mache euch mal ein bisschen, damit ihr jetzt nicht denkt, die Tante hat heute definitiv zu viel Wissenschaftseilfenturm gesuppt. Pass auf, es gibt einen relativ einfachen Trick, den kann man auch ohne feingetunten Modell machen und zwar sind alle großen foundationale Modelle, alle die jetzt zur Verfügung haben, alle Harry Potter Fans. Du kriegst also mit extrem wenig Aufwand Harry Potter im Wortlaut aus dem Ding raus, was ziemlich spannend ist. Das klappt mit anderen Büchern nicht so gut und Wenn man sich jetzt aber so bisschen anguckt, was mit Harry Potter ist und jetzt gibt es so verschiedene Argumente. Erstens Harry Potter ist nun mal das meist publizierte Buch, was jetzt mal so außer der Bibel auch wirklich so in jeder dämlichen Sprache vorliegt. Dann haben wir dazu Filme in diversen Sprachen übersetzt. Wir haben einen extrem großen Trainingskorpus über Social Media, die im Detail über Harry Potter schreien. Wir haben ganze Fan Literature. die noch mal auf Harry Potter basiert und auch das alles in Sprache.

Jochen G. Fuchs: eine unglaubliche Menge an Sekundärliteratur, auf die sich die KI beziehen kann, ohne auch nur den Copyright geschützten Text anzufassen. Einfaches Beispiel dafür, es gibt eine bekannte Podcasterin, die heißt Cold Mirror und die hat einen relativ erfolgreichen Podcast gehabt. Sie hat allerdings, glaube ich, dem ersten Buch aufgehört. Der heißt irgendwie so was wie 5 Minuten Harry Potter und der erzählt die in 30 Minuten. epischer Breite fünf Minuten Filmszene. Also inklusive Dialoge von vorne bis hinten. Das heißt, wenn du diesen Podcast dir angehört hast als normaler lebender Mensch und bist ans Ende dieses Podcast angelangt und du hast den Film vorher nicht gesehen.

Barbara Lampl: Mhm.

Jochen G. Fuchs: musst du dir ihn hinterher nicht mehr ansehen, weil du hast ihn gesehen. Wenn zwar auch nur durchs zuhören, Anführungszeichen, aber du kannst unter Umständen mehr über diesen Film erzählen als jeder der zehnmal in diesem Film drinne war, weil ich garantiere dir, Cold Mirror ist über Details gestolpert, über die nicht mal ich gestolpert bin und ich bin schon ein Nerd. Also das quasi dazu, sprich du hast so viele Möglichkeiten das zu reproduzieren.

Barbara Lampl: Ja. Genau.

Barbara Lampl: Genau. und deswegen ist halt, und wie gesagt, wenn du jetzt, ich nehme jetzt hier mal wieder mein Theodor von Tane und mein Effy Bries Beispiel, es ist sehr, deutsch, dann klappt das wahnsinnig viel schlechter. So, und jetzt entsteht natürlich aus einer, sagen wir, wissenschaftlichen Betrachtungsweise so bisschen so, okay, woran liegt es jetzt? Das heißt, die wissenschaftliche Neugierde, wie ihr jetzt ja eigentlich geweckt, woran liegt das und was passiert? Auch insbesondere, wir haben jetzt ja schon alles mal gelernt, dass die aktuellen Modelle, die werden ja jetzt nicht mehr rot trainiert und das macht unsere Copyright-Diskussion übrigens noch interessanter. Denn wenn wir so einen quasi Teacher-Student-Approach fahren, wir wissen ja jetzt alle schon, das habt ihr vielleicht mitbekommen, dass jedes chinesische Modell erstmal denkt, das wäre Kloot, weil das quasi das Teacher-Modell für die kleineren Modellere sind, zusammen mit der Mixture of Experts-Architektur, haben wir schon und das gibt genügend Paper, die eben zeigen, es gibt auch ein sogenanntes Oilen-Paper. dass ganz bestimmte Lagen, also die sogenannten Layers im Deep Learning sich jetzt in ganz bestimmten Sachen sogar schon wiederholen. Jetzt wird es noch chaotischer, weil ist jetzt das Ursprungsmodell, das Copywriter-Verletzende, das Teacher-Student-Modell, der Mixer of Expert und was, wenn so viel Sekundärkorpus existiert? Was wie denn auch zum Beispiel in ganzen Reddit-Fonds siehst du das quasi ganze Passagen, also wenn du clever bist, kannst du an Hat von quasi nur von Zitaten aus Reddit komplett Harry Potter zu copypasten, weil die Leute so viele Zitate da reingeschmissen haben. Das heißt, du machst eine Diskussion auf, außerhalb eine technische Komponente hat, die weder mit der juristischen noch mit der moralischen Variante wirklich gut zu handeln sind. Und das ist in der aktuellen Copyright-Diskussion ist halt deswegen sind auch die aktuellen Urteile, so wie sie gerade auf dem Tisch liegen, halt mehr in diese Richtung. Wenn wir davon ausgehen, dass die Dinge halt bestimmte Muster erkennen und ihre Ausgabefunktion, das ist auch so bisschen der Treppenwitz an der Nation, dann tun sie jetzt also das, was sie tun, dann ist aber auch wieder falsch. Dann landen wir in dieser Diskussion. Ich sage nicht, dass das moralisch sinnvoll ist und dass die Copyright Leute, die ganzen armen Buchautoren und Baurohrautoren nicht auch dringend entlohnt werden müssten. Wieder eine andere Diskussion. Aber das ist halt mit der aktuellen Dimension, in der wir uns leben, halt gerade so ein bisschen ein Riesendrama. Und ich weiß, dass dieses Rumhacken

Barbara Lampl: an der Stelle ein bisschen auf solchen Papern immer ein bisschen so so so von mir so klingt, als müsste ich alles besser. Nein, in dem Fall nicht. Das Paper ist von Leuten, die haben wirklich viel Ahnung und gutes Paper geschrieben. Aber ich weiß auch ganz genau, wie diese Paper dann hinter verschlossenen Türen diskutiert werden und wieder eine juristische Verteidigung aufgebaut wird. Und dann ist es immer so bisschen schade, weil das halt diesen Diskurs dann ablenkt. Und dann landen wir wieder bei unserem Einstiegsthema, nämlich die Emotionalität, mit der das Thema geführt wird, versus wie ist denn die technische und juristische Realität. Und deswegen ist das Paper, und wir verlinken das, lesenswert und superspannend. Aber es ist halt frühzeitig, early on, so simpel zu kritisieren, dass du dich halt so bisschen fragst, so, verdammt, das hilft uns jetzt eigentlich auch nicht unbedingt nur unserer Diskussion.

Jochen G. Fuchs: Ja, ich habe auch, wenn ich mich jetzt mal an dem von dir vorhin genannten Harry Potter Argument und der verbreiteten Sekundärliteratur über Populärliteratur festhalte, einen Blick jetzt hier in dieses Paper reingeworfen und mal geschaut, was die denn jetzt sich für Bücher angeguckt haben.

Barbara Lampl: Mmh.

Jochen G. Fuchs: Da ist es, also meine literarischen Kenntnisse sind nicht vollständig, ich kann nicht jeden dieser Autoren und Autorinnen identifizieren, aber das, was ich identifizieren kann, unterschreiben sie auch irgendwo weiter, dass sie die Literaturqualität als ein Auswahlkriterium gewählt haben und das war jetzt für mich, ich bin nicht so tief eingestiegen ins Paper, noch nicht ganz klar, ob das heißt, dass sie diverse Qualität, also von shitty bis richtig gut gewählt haben oder ob sie einfach Qualität und danach sieht es nach mir aus, wir haben hier ganz klar wir haben Simon Rushdie, haben Cormac McCarthy, The Road, sind alles prämierte Literat, Philip Roth, E. James, Fifty Shades of Grey, also ja.

Barbara Lampl: Ja, haben Sie.

Barbara Lampl: Also nicht nur qualitativ hochwertig, sondern auch noch super bekannt und viel diskutiert. Ja. Also zurück zu Qualität ist diskutabel, aber sie haben halt.

Jochen G. Fuchs: George R. R. Martin, also ich höre jetzt auf, aber das sind alles Werke, bei denen eine hohe Wahrscheinlichkeit besteht, dass wir uns die aus der Kondärliteratur schon sehr nah zusammenstöpseln können.

Barbara Lampl: Ja. Und wie gesagt, am Ende des Tages macht das halt dann die Schwäche eines technischen Arguments aus, wenn du halt quasi genau in die gleiche Argumentrichtung wahnsinnig schnell argumentieren kannst, wie das Foundation Lab halt auch argumentiert nach dem Motto, wir haben die bestritten, dass wir Primärliteratur, die haben wir zugemaßen pirated verwendet, aber wir haben die bestritten, dass wir primäre Quellen verwendet haben. Plus es gibt so viel sekundäre Literatursessionen, die Premierequellen rausschreisten, das wäre vielleicht irrelevant. Und dann hast du natürlich durch eine bestimmten Datenhäufung natürlich einen verstärkenden Effekt. Und jetzt wird es dann so bisschen ist das dann Adverber-Team, wenn die Muster so stark sind, dass die Adverber-Team rausgehen, weil das Ding halt trotzdem eine Wahrscheinlichkeitsrechnung ist. Nochmal, das halt nicht ohne.

Jochen G. Fuchs: zwei Sachen, die mir da in meinem Leinhirn festkleben. Die erste Frage ist quasi Man könnte jetzt denken, dass es ja an und für sich egal ist, wenn man nur mal wieder den moralischen Zeigefinger hervorhebt und sagt, ob das jetzt Primärliteratur ist oder Sekundärliteratur, die da vollständig drin abgespeichert und wieder ausgegeben wird, wäre ja theoretisch erstmal egal. Weil in jedem Fall nur das Problem ist ja, wenn du Sekundärliteratur wieder gibst, dann sind wir nicht mal beim Verbatim. Weil, also das kann, also ich könnte es jetzt nicht erklären, wie ich das nachweisen soll, dass da Sekundärliteratur Wort für Wort wiedergegeben würde. ja, man könnte den gleichen Ansatz wieder erfahren. Nur je länger ich drüber nachdenke, bleibe ich an dem Punkt Sekundärliteratur hängen und komme zu meiner zweiten Frage.

Barbara Lampl: Ja. Gell?

Jochen G. Fuchs: Wenn ich das so versuche zu verstehen und einzuordnen, dann klingt das für mich ein bisschen wie... Ich nehme jetzt mal eine Analogie. Wenn ich... Kennst du diese uralt Klamauk-Serie Police Academy? So. Und ich glaube, ich kann es heute noch, aber wenn man früher mit mir in einem dieser Filme saß, fing man irgendwann an, mich zu schlagen, weil ich diese Bieste... Genau, weil ich es mitsprechen kann. Und ich saß dann immer da und habe ausprobiert, wie lange ich dieses Spielchen treiben kann, bis jemand ausrastet, weil ich habe den Dialog immer 1,5 Sekunden bevor er passiert gesprochen, sodass ich quasi permanent gespoilert habe, gesamten Film hindurch. Der Rekord liegt bei 15 Minuten.

Barbara Lampl: dass du sprechen kannst.

Jochen G. Fuchs: Also worauf ich hinaus will ist eigentlich, wenn die Sekundärliteratur und die Literatur, die da rezitiert wird von der KI, so weit verbreitet ist und man sie so oft gelesen hat und man sie quasi nach erzählen kann. Das ist das, was hier quasi dann passiert. Das wäre jetzt die Argumentation der Frontier Labs.

Barbara Lampl: Genau, die Frontier Labs sagen halt, die Muster sind so hoch, die Wahrscheinlichkeitsfunktion läuft dann da quasi drüber. jetzt ist die Frage, und jetzt kommt es halt so dem Speicher, das Ding jetzt quasi, dass die Erinnerungsfunktion im Jochen seinen Hirn, dass er Police Academy vorausploppern kann. Oder ist es nur eine Aktivierungsfunktion von hinterlegten Mustern? Und ich schmeiße jetzt mal das finale letzte Beispiel und dann machen wir da eine, verlassen wir euch in eine interessante Grundsatzdiskussion. Ich mag ja den Carltschen Karneval. Ab und zu läuft im Kölsch ein Karneval, was ich nicht so sehr mag, und zwar Schlager. Jetzt waren wir, war ich mit meinen Mädels, auf einer sehr, sehr lustigen Party und dann ist jetzt Folgendes passiert. GEMA wurde natürlich von den Partyverwender bestimmt bezahlt. Und zwar es gibt den legendären Pur-Partymix. Pass auf, den legendären Pur-Partymix. Ich mag keinen Pur. Ich habe in meinem Leben nie bewusst Pur gehört, war noch nie auf einem Pur-Konzert. Was kann ich?

Jochen G. Fuchs: Der Hinweis musste jetzt sein.

Barbara Lampl: So wie alle mich herum, wenn der Pur-Party-Mix läuft, Lena mitsingen und alle anderen schrecklichen Lieder. Und das ist für mich mal so, wo ich sage so, wir haben wir haben manchmal ein bisschen wenig Verständnis, wie das zustande kommt. Wir haben schon wenig Ahnung, wie das bei Menschen passiert. Ich hasse Pur. Na, hasse ist jetzt übertrieben, aber ich bin kein Pur-Girlie, kein Da. Was passiert? Warum kann ich diesen Text?

Jochen G. Fuchs: Mitsehen.

Barbara Lampl: Das soll und wir müssen einfach und das ist das viel Wichtige, wenn wir dieses Copyright Drama rund einen RIP dran bekommen wollen, dann müssen wir leider, und das ist halt immer so bisschen doof, dann müssen die mit den nicht ganz so tiefen Taschen mit schlagkräftigen Argumenten die Ecke kommen. Und in meiner Wahrnehmung kriegen wir das momentan nicht richtig hin. Es gibt ein paar ganz großartige Expertinnen und Experten in dem Bereich, die sehr, sehr starke Argumente fahren. Das wird noch viel tief nerdiger. Aber und deswegen finde ich das Paper definitiv ein lesenswerten Variante für euch. eben halt auch es ist es macht mehr angreifbar als alles andere. Also ich finde da wie mehr Argumente, warum man kein kein Copyright Infiltration betrieben hat, als andersrum. Und das ist manchmal ein bisschen schade. Aber es beschreibt halt auch gerade, wo wir gerade uns bewegen. Es ist eine hoch emotional geführte Diskussion, die einfach weder juristisch noch technisch trivial zu führen ist. Wie immer am Ende des Tages, Teamwork ist gefragt, da sind wir halt gerade.

Jochen G. Fuchs: Also ich stelle mir eine Frage, die sich für mich zum Abschluss schon fast philosophisch anhört, aber es ist wahrscheinlich genau die Frage, die eine Forschungsfrage sein müsste, wie man überhaupt nachweisen oder beweisen will, dass vollständige copyrightgeschützte Werke in in der Maschine leben und rezitiert werden, weil alles, abgesehen vielleicht von ein paar obskuren Werken, ist im Netz in erheblicher Breite.

Barbara Lampl: Du kannst das in anderen Fällen, in kleineren Modellen kann man diesen Beweis eben führen. Die Frage ist, kann man das auf ein skaliertes Modell hochdrehen? Wie gesagt, nochmal, das ist alles echt nicht ohne und echt nicht einfach. kann das Paper euch nur empfehlen, ich kann euch auch empfehlen. Verfolgt die Diskussion. Es ist und bleibt spannend, aber es ist auch echt, auch sowohl aus der juristischen, wie aus meiner Seite, die ich hier nun mal normalerweise vertrete, aus der Data Science Tech-Issicht. Echt nicht keine triviale Diskussion. Und es ist auch ein großes Fragezeichen, dass wir da alle auch im Kopf haben. Das Game hat sich auch insbesondere durch das Reinforcement Learning nochmal komplett verändert. Also das, was du gesehen hast, was stabil auf der LLM-Seite im klassischen Fall hält, hat sich völlig verändert, seitdem da 1000-an-Reinforcement-Innen drin liegt. Das ist alles auch noch überhaupt nicht wirklich behandelt, was das, Thema wirklich die Auswirkungen hat. Und unter diesem Aspekt ist dieses Paper sehr spannend, weil es eben mal auch auf relativ neue Modelle läuft. also 4.0 zu Gemini 2.12 Pro, das sind also relativ aktuelle Modelle, was das Ganze auch noch mal einen interessanten Punkt macht. Aber auch hier stellt sich jetzt wieder so eine Frage, ist das dann auch jetzt vielleicht stärker getriggert durch die Veränderung des reinforcement learning? Welche Auswirkungen hat das eigentlich mit und ohne? Und das ist halt wie gesagt, kannst du momentan kannst du dich an ganz vielen Sachen da forschungsmäßig definitiv auch ausnörden, nochmal in ganz anderen Feldern. Und wie gesagt, jeder kann dieses Paper mal lesen und wird sehr schnell Quasi als unser Wort zum Sonntag sehr schnell seine Position finden, die er da dran wiederfindet. Ob die dann haltbar ist, steht auf einem ziemlich anderen Blatt Papier.

Jochen G. Fuchs: Ja, definitiv. Und was ich mir persönlich immer wieder denke bei diesem Thema ist, es ist an und für sich eine wiederkehrende Diskussion, wenn man in die Weltgeschichte zurück schaut, weil wir immer in dem Moment, wo menschliche Erzeugnisse maschinell gefertigt und erzeugt werden können, wieder diese Diskussion haben. Und wir haben immer wieder den Punkt gehabt, wo man sagt, dass das menschliche Handwerk höher Wert geschätzt wird. Da kommen dann im englischen Sprachraum hier Artisanal und ähnliche Adverbien dazu, wo man sagt, so hier damit kennzeichnen wir, das ist handgefertigt. Man weist dem von menschlicher Hand geschaffenen Werk einen höheren Wert zu. Das ist oft auch der Fall. Aber bei massenproduzierter Ware wie einer Glühlampe oder ähnlichem kannst du das nicht. in dieser Qualität von Hand herstellen, wie es von einer Maschine mit den entsprechenden Toleranzen bei einer industriellen Fertigung hergestellt wird. Das ist die eine Geschichte. Also man kann es nicht. Es ist nicht immer tatsächlich so, dass das Handgefertigte hochwertiger ist. Das andere ist, was ich aus dem moralischen Aspekt herauf mir oft denke, ist, wenn ich beispielsweise jetzt in der Lage bin, Illustrationen zur Bebilderung eines Artikels zu verwenden, die KI generiert sind. Was hätte ich denn vorher genommen? Ein Stockfoto. Ein Stockfoto von irgendwas. Also das heißt, an und für sich wird mir hier die Möglichkeit gegeben, interessanteren Content zu schaffen. Da hat aber niemand irgendwas verloren dadurch, wer in der Illusion lebt, ich wäre in der Lage, einen Artikel in einem Blog eine Handzeichnung von einem Illustrator zu beauftragen.

Barbara Lampl: Ich glaube, die überschätzen, wie viel Geld wir verdienen.

Jochen G. Fuchs: Aber mal sowas von. Also das schafft noch nicht mal mehr ein Verlagshaus. Das kriegt eine New York Times noch hin. Aber so ein kleiner Fachverlag, der eine Redaktion von, keine Ahnung, fünf bis acht Menschen beherbergt, der kann auch nicht mal eben irgendwie für 200 bis 500 Euro pro veröffentlichten Artikel sich eine Illustration bestellen. ist Arbeit, findet vielleicht noch auf einem Cover beim Spiegel statt. Die haben ihre Cover-Illustratoren.

Barbara Lampl: Willst du hoffen?

Jochen G. Fuchs: Sie weiß nicht ob in jedem Fall, aber das sieht man immer mal wieder, die gibt es noch und die leben auch noch und die werden auch noch beschäftigt. man muss oft daran denken, dieses Argument, Demokratisierung eines Werkzeuges, das ist nicht ganz von der Hand zu weisen, weil es wird mehr geschaffen an Stellen, wo vorher nichts geschaffen wurde und da verliert niemand irgendwas dadurch. Ja, soll ich sagen, Slop und ein schönes, KI-generiertes Bild unterscheidet sich ja auch noch. Dass jemand, der nicht in der Lage ist, die kreative Vorarbeit für einen Text, ein Bild zu leisten und zu bringen, anderes Ergebnis erzeugt als jemand, der kreative Vorarbeit leistet, ist ja ganz klar. Und die Diskussion, wenn ich an alte Autoren zurückdenke, die

Barbara Lampl: Yep.

Jochen G. Fuchs: Ich schreibe nicht auf einem Computer, ich schreibe auf Schreibmaschinen. Da gibt es Pulitzer und Friedensnobelpreisträger, die solche Sachen von sich gegeben haben. Menschen, die dann nicht auf dem Computer arbeiten, die ihre Bücher von Hand schreiben und ans Ding... Das ist... Das ist Produktion. Das hat an und für sich nichts mit der kreativen Vorleistung zu tun, sondern da stellt sich dann nur noch die Frage, die kreative Vorleistung, die ich als Mensch im Kopf mache, indem ich das entwerfe. Und dann plötzlich in der Lage bin meine kreative Vorleistung mittels Werkzeuge dann tatsächlich aufs Papier zu kriegen, woran ich vorher gescheitert werde. Ist es dann wirklich so relevant, welches Werkzeug verwendet wurde? Die meine kreative Vorleistung, also der wirklich menschliche Teil, den es hier geht, der hat ja immer noch stattgefunden. Slop is Slop, das ist klar, aber...

Barbara Lampl: Und das ist halt auch weswegen ich, also wie gesagt, ich finde, dass diese Copyright-Diskussion mir wird die teilweise auch zu wenig geführt und gleichzeitig zu viel. Aber es sind halt wie immer, in welchem Kreis wird was diskutiert und die Schlussfolgerungen. Und momentan sehen wir halt, ich meine, folgt ihr mir auf LinkedIn einen lustigen Rants, drei Mal in der Woche täglich mit. Wir sind halt an einem Punkt, da siehst du ganz klar, wir sollten aufhören über die Fähigkeiten und Unfähigkeiten von diesen Maschinen, sondern mal wieder unsere eigenen Fähigkeiten zu produzieren. Zurück zu unserem Anfangsargument. Ist der Copyright, das Disney-Bild da drin entstanden, weil ich das in den Prompt reingeschrieben habe und will ich damit nachweisen, dass das Ding das jetzt erkennt und das nicht rausfiltert? Was tun wir denn ganz häufig? Das ist halt das, was ich meine, mit dass Diskussionen teilweise am falschen sind. Und gerade sind wir halt an dem Punkt, die Maschine ist ohne die Fachexpertise des Menschen wenig wert. Wenn überhaupt, machen wir fast gar nichts. Das heißt, wir sollten doch viel mehr an der Stelle darüber diskutieren. Ja, wir sollten eine wissenschaftlich-fachliche Diskussion, da sollten wir definitiv mehr darüber auch diskutieren, aber das betrifft im Zweifelsfall auch mehr Leute, da quasi an der Stelle eine ganz bestimmte andere Diskussionshaltung haben. In Verbrauchen wir wissenschaftlich, dem Fall Data Science, Engineering und auch Legal an Bord, einfach da nochmal mit einem bestimmten wissenschaftlichen Halten drauf zu gucken. Und der Rest sollte sich halt einfach vielleicht auch mal sagen, okay, was kann ich ja nicht aus dieser Mensch-Maschine-Kollaboration rausholen? Weil am Ende des Tages können wir ja schlecht wegdiskutieren, dass das Ding weggeht.

Jochen G. Fuchs: Ich glaube, ich nehme das als Schlusswort.

Barbara Lampl: Nehmen wir das als Schlusswort. Okay.

Jochen G. Fuchs: Mit diesem nachdenklichen Nachruf entlassen wir euch jetzt in eure Freizeit. Ja, vielen Dank fürs Zuhören und bis zum nächsten Mal. Schaut auch gerne mal rein. Wir haben schon ein paar Folgen davor aufgenommen. Einige davon sind sehr zeitlos mit allen möglichen interessanten Themen rund KI-Kompetenz. Bis zum nächsten Mal. Tschüss Barbara.

Barbara Lampl: Bis dann, tschüss tschüss!

Shownotes

🥳 Danke, dass du LAIer 8|9 eingeschaltet hast! Möge die KI mit dir sein!

Transkript anzeigen

Neuer Kommentar