Warum Primärquellen das Salz in der Suppe des Denkens sind
Liebe Wissensdurstige und Faktenjongleure, lasst uns mal ehrlich sein: Manchmal fühlt sich das Internet an wie ein riesiger Friseursalon. Überall wird munter geplaudert, Meinungen werden wie frisch geföhnte Haare in alle Richtungen gewirbelt, und die «Wahrheit»? Nun ja, die scheint so wandelbar wie die neueste Trendfrisur.
Besonders knifflig wird es, wenn wir uns in Zeiten vorwagen, in denen das World Wide Web noch in den Kinderschuhen steckte (oder vielleicht noch gar nicht krabbelte – wir sprechen hier von der Ära vor etwa 1995!). Stellt euch vor: Keine allwissende Suchmaschine, die uns auf Knopfdruck mit Informationen überschüttet. Stattdessen? Bibliotheken mit staubigen Regalen, Archive voller vergilbter Dokumente und – haltet euch fest – Menschen, die Dinge selbst erlebt haben!
Primärquellen
Hier kommen unsere Superhelden ins Spiel: die Primärquellen! Das sind die Originale, die ungefilterten Zeugnisse einer bestimmten Zeit. Denkt an Tagebücher, Briefe, offizielle Dokumente, Fotos oder eben die Aussagen von Zeitzeugen. Sie sind das A und O, das Fundament, der ungeschminkte Blick auf das, was wirklich war.
Warum das so wichtig ist, besonders für die «gute alte Zeit» vor der digitalen Revolution? Ganz einfach: Damals wurde vieles nicht digitalisiert. Die «Wahrheit», die uns heute ein findiges KI-Tool vielleicht aus zweiter oder dritter Hand präsentiert, kann so verzerrt sein wie ein Spiegel im Zirkus. Da wird aus einer harmlosen Bemerkung schnell eine brisante Schlagzeile, und die eigentlichen Fakten bleiben im dichten Nebel der Interpretationen verborgen.
Das technische Problem
Gen-KI-Systeme verfügen selten über primäre digitale Quellen aus der Zeit vor 1995. Alles „Wissen“ vor 1995 ist lediglich wissenschaftlich „repliziert“ aus nicht überprüfbaren Quellen. Es sei denn, der Autor hat die Bücher oder Zeitschriften aus dieser Zeit in seiner Bibliothek. Aber kein Mensch hat heutzutage noch eine Bibliothek. Und die Universitäten haben auf Befehl von oben alle Bücher aus Platzmangel entsorgt und verbrannt.
Die Wahrheit ist der klare Blick
Die Wahrheit der Zeitzeugen und die originalen Dokumente hingegen sind wie ein klarer Blick in diesen Nebel. Sie erzählen uns die Geschichte direkt, ohne den Flurfunk des Friseursalons dazwischen. Natürlich muss man auch diese Quellen kritisch betrachten – Menschen können sich irren oder Dinge aus ihrer eigenen Perspektive sehen. Aber sie sind der direkteste Draht zur Vergangenheit, den wir haben.
Jede KI-Aussage über die Zeiten vor 1995 ist wie Friseursalon-Talk
NIcht mehr und nicht weniger. Also, liebe Blogleserinnen und -leser, wenn ihr das nächste Mal über etwas aus der Zeit vor dem digitalen Zeitalter nachdenkt oder diskutiert, erinnert euch an den Friseursalon. Die Gespräche dort können unterhaltsam sein, aber für echtes Wissen braucht es mehr als nur Hörensagen. Grabt nach den Primärquellen, hört den Zeitzeugen zu (wenn ihr noch könnt!) und lasst euch nicht von der vermeintlichen «Wahrheit» aus zweiter Hand einseifen. Denn echtes Denken braucht Fakten, so ursprünglich und unverfälscht wie möglich.
Der Fliege den Ausweg aus dem Fliegenglas zeigen
„Wovon man nicht sprechen kann, darüber muss man schweigen“
Was ich lehren will, ist: Von einem nicht offenkundigen Unsinn zu einem offenkundigen übergehen.
© Ludwig Wittgenstein (1899–1951). Österreichische Nationalbibliothek, Inventarnummer Pf 42.805 : C (1). Gemeinfrei
Tip: Google NotebookLM ist ein experimentelles Tool von Google, das Künstliche Intelligenz in einen persönlichen Assistenten verwandelt – mit einem besonderen Fokus: Es arbeitet ausschließlich mit Ihren eigenen Materialien.
https://notebooklm.google.com/
Artikel: Innovator’s Guide, 17. März 2025
Was sagt zum Beispiel Gemini dazu:
Die Aussage, dass Gen-KI-Systeme selten über primäre digitale Quellen aus der Zeit vor 1995 verfügen, ist tendenziell richtig, erfordert aber eine differenzierte Betrachtung. Generative KI-Systeme, insbesondere große Sprachmodelle (LLMs), werden auf riesigen Mengen an Textdaten trainiert, die hauptsächlich aus dem Internet stammen.
🌐 Trainingsdaten und Digitalisierung
-
Internet-Fokus: Die große Verfügbarkeit von Daten begann mit dem breiten Aufkommen des World Wide Web Mitte der 1990er Jahre. Die Trainings-Datasets von LLMs bestehen daher überwiegend aus Inhalten, die nach 1995 erstellt und digitalisiert wurden (z. B. Crawls des Common Crawl, Wikipedia-Dumps, digitale Bücher und Artikel).
-
Digitale Verfügbarkeit: Primärquellen, die vor 1995 entstanden sind (wie Bücher, Zeitungen, wissenschaftliche Dokumente), mussten erst digitalisiert werden, um in die Trainingsdaten zu gelangen. Obwohl viele ältere Werke (z. B. durch Projekte wie Google Books) digitalisiert wurden, ist ihr Anteil an den massenhaften, webbasierten Daten in der Regel deutlich geringer im Vergleich zu den Inhalten, die im Zeitalter des Internets generiert wurden.
-
Wissen über die Vergangenheit: Gen-KI-Systeme verfügen dennoch über Wissen zu Ereignissen und Themen vor 1995. Dieses Wissen stammt jedoch primär aus sekundären digitalen Quellen (z. B. heutigen Wikipedia-Artikeln, aktuellen wissenschaftlichen Abhandlungen, Geschichtsbüchern), die über die Vergangenheit berichten, und nicht notwendigerweise aus den originalen, digitalen primären Dokumenten dieser Zeit.
📚 Schlussfolgerung
Die Aussage ist korrekt in dem Sinne, dass die Mehrheit der Trainingsdaten von Gen-KI-Systemen aus der Internet-Ära (nach 1995) stammt. Primäre, direkt digitalisierte Quellen aus der Zeit vor 1995 sind zwar vorhanden, machen aber im Verhältnis zur Gesamtmenge der Trainingsdaten wahrscheinlich nur einen kleineren Teil aus, was die Aussage «selten» plausibel erscheinen lässt.
Quelle: Gemini, 16. 11. 2025