Vintage LLMs Research Bite - Dr. Oliver Mack - xm-instituteWas bisher unter unserem Radar lief

In der breiten Diskussion um Künstliche Intelligenz dominieren die Frontier-Modelle, also Systeme wie GPT-5, Claude oder Gemini. Sie werden auf riesigen Korpora aus dem heutigen Internet trainiert und sollen möglichst hilfreiche Antworten für Anwender im Hier und Jetzt liefern. Im Schatten dieser Entwicklung formiert sich seit etwa zwei Jahren eine kleine, aber bemerkenswerte Forschungsrichtung, die genau das Gegenteil versucht: Modelle zu bauen, deren Wissen, Vokabular und Weltbild bewusst auf einen historisch begrenzten Zeitraum eingegrenzt sind. Diese Systeme tragen den Namen Vintage LLMs, gelegentlich auch Historical oder Time-Capsule LLMs.

Der Begriff selbst geht auf einen Vortrag von Owain Evans zurück, der das Konzept als eigenständige Forschungsrichtung popularisiert hat. Inzwischen existiert eine wachsende Sammlung solcher Modelle, von denen das größte öffentlich zugängliche, Talkie-1930, im Frühjahr 2026 von Alec Radford, einem der Mitbegründer der GPT-Familie, gemeinsam mit Nick Levine und David Duvenaud veröffentlicht wurde. Ein eigener kuratierter Überblick existiert mittlerweile als awesome-vintage-llms auf GitHub. Es lohnt sich also, einen genaueren Blick auf das Phänomen zu werfen.

Was genau ein Vintage LLM ausmacht

Ein Vintage LLM unterscheidet sich von einem normalen Sprachmodell auf zwei Ebenen. Erstens enthält der Trainingskorpus ausschließlich Texte, die vor einem definierten Stichdatum verfasst wurden. Zweitens, und das ist die entscheidende konzeptionelle Pointe, wird das Modell typischerweise from scratch trainiert, also nicht durch Feintuning eines modernen Basismodells, sondern als eigenständiges System ohne jede Berührung mit zeitgenössischem Text.

Dieser Unterschied ist wichtiger, als er auf den ersten Blick wirkt. Wer ein modernes Modell anweist, im Stil des 19. Jahrhunderts zu antworten, bekommt zwar ein paar archaische Vokabeln und Stilblüten, doch unter der Oberfläche bleibt das Modell ein zeitgenössisches System mit dem Wissensstand und den impliziten Wertannahmen seiner Trainingsdaten. Ein echtes Vintage LLM dagegen kennt die nachfolgende Geschichte schlicht nicht. Ranke-4B-1913, ein Modell der Universitäten Zürich und Köln, weiß beispielsweise nichts von Adolf Hitler, sondern verbindet den Namen am ehesten mit einem hessischen Philosophen des 19. Jahrhunderts. Talkie-1930 wiederum kennt weder Penicillin noch Fernsehen noch den Holocaust.

Die technischen Größenordnungen sind vielfältig. Sie reichen von Mr. Chatterbox, einem 340-Millionen-Parameter-Modell auf viktorianischen Texten zwischen 1837 und 1899, über TimeCapsuleLLM, das auf Londoner Texten von 1800 bis 1875 basiert, bis hin zum erwähnten Talkie-1930 mit 13 Milliarden Parametern und 260 Milliarden Trainings-Tokens aus Büchern, Zeitungen, wissenschaftlichen Journalen, Patenten und Rechtsprechung der Zeit vor 1931. Eine besondere Variante stellt MonadGPT von Pierre-Carl Langlais dar, das im Jahr 2023 als früher Vorläufer auf frühneuzeitlichen Texten zwischen 1400 und 1700 in Englisch, Französisch und Latein feinjustiert wurde und damit den Beweis erbrachte, dass das Konzept überhaupt funktioniert.

Bemerkenswert ist eine Beobachtung an einem der kleineren Systeme. Die Version 1 von TimeCapsuleLLM verband den Jahresgang 1834 ungeprompt mit Lord Palmerston und einer realen Londoner Protestbewegung jener Zeit, was zeigt, dass selbst ein vergleichsweise kleines, ausschließlich auf Periodenquellen trainiertes Modell genuine historische Muster aus den Primärquellen herausarbeiten kann.

Wofür man Vintage LLMs einsetzt

Vintage LLMs sind kein Spielzeug für nostalgische Liebhaber alter Sprache. Sie eröffnen vielmehr eine Reihe methodischer Möglichkeiten, die sich mit konventionellen Modellen nicht oder nur unsauber realisieren lassen.

Ein erstes, methodisch sehr interessantes Anwendungsfeld ist das saubere Backtesting von Prognosefähigkeit. Wer testen will, wie gut ein Sprachmodell tatsächlich Zukunft vorhersagen kann, steht beim klassischen Modell vor einem Datenleckage-Problem. Das System hat alles, was passiert ist, in seinen Trainingsdaten gesehen und kann nicht mehr unverfälscht prognostizieren. Ein Vintage LLM mit Wissensstand 2019 weiß nichts von Pandemie, von späteren Kriegen, von ökonomischen Verwerfungen der Folgezeit. Es kann also unter Realbedingungen daraufhin getestet werden, wie verlässlich Sprachmodell-basiertes Forecasting wirklich ist.

Ein zweites Anwendungsfeld ist das, was man als wissenschaftliches Reinventionsexperiment bezeichnen könnte. Hier prüft man, ob ein Modell, das nur Wissen bis zu einem bestimmten Stichjahr besitzt, in der Lage wäre, später historisch dokumentierte Erkenntnisse aus eigener Kraft zu rekonstruieren. Das Projekt Machina Mirabilis beziehungsweise GPT-1900 von Michael Hla testet beispielsweise, ob ein 3,3-Milliarden-Parameter-Modell auf Pre-1900-Texten Quantenmechanik oder Relativitätstheorie unabhängig herleiten könnte. Die bisherigen Ergebnisse sind vorsichtig formuliert, zeigen aber gelegentliche Glimpses, etwa wenn das Modell eigenständig formuliert, dass Licht aus definierten Energiequanten bestehe oder dass Gravitation und Beschleunigung lokal äquivalent seien. Das ist methodisch ein direkter Test der Hypothese von Demis Hassabis, dass hinreichend leistungsfähige Modelle prinzipiell wissenschaftliche Entdeckungen reproduzieren können müssten.

Drittens dienen Vintage LLMs der historischen Sozial- und Geisteswissenschaft als Instrument neuer Art. Statt bekannte historische Persönlichkeiten zu simulieren, was epistemologisch ohnehin fragwürdig wäre, lassen sich plausible Komposita gewöhnlicher Menschen einer Epoche modellieren, gespeist aus Nachlassinventaren, Kirchenbüchern, Gerichtsprotokollen, Briefen und Rechnungsbüchern. Damit entsteht die Möglichkeit, hypothetische Debatten zwischen tausend statistisch repräsentativen französischen Bauern, Handwerkern und Tagelöhnern des späten 18. Jahrhunderts zu inszenieren und Muster aufzuspüren, die in herkömmlicher Geschichtsschreibung unsichtbar bleiben. Der Historiker Benjamin Breen hat dieser Anwendung in einem viel beachteten Essay nachgespürt und sie als möglichen Ausgangspunkt einer neuen humanistischen Forschungsrichtung beschrieben.

Ein vierter Bereich ist die Erforschung historischer Bias-Strukturen und Weltbilder als Forschungsobjekt. Während moderne Modelle aufwändig auf Vermeidung diskriminierender Aussagen trainiert werden, behalten Vintage LLMs die Wertvorstellungen ihrer Epoche bewusst bei. Das Ranke-4B-Projekt formuliert das explizit als Feature: Die im Pre-Training erworbenen normativen Urteile sollen erhalten bleiben, weil sie Forschungsgegenstand sind, nicht Bug. Wer verstehen will, wie das viktorianische England oder die Weimarer Republik über bestimmte Themen sprach, bekommt mit einem solchen Modell ein Werkzeug, das nicht durch nachträgliche Glättung verzerrt ist.

Fünftens, und das ist vor allem rechtlich relevant, demonstrieren Vintage LLMs einen vollständig urheberrechtskonformen Trainingsansatz. Die 1930er-Schwelle bei Talkie-1930 wurde gewählt, weil U.S.-Texte aus diesem Jahr nun in der Public Domain liegen. Das Projekt belegt damit erstmals ernsthaft, dass ein leistungsfähiges, vollständig auf gemeinfreien Quellen basierendes Modell technisch realisierbar ist. Diese Demonstration hat Implikationen für die laufende Debatte um Trainingsdatenherkunft, auch wenn die Modellqualität gemessen an Frontier-Systemen erkennbar schwächer bleibt.

Was das größere Bild zeigt

Über die einzelnen Anwendungen hinaus berühren Vintage LLMs eine wissenschaftstheoretisch interessante Frage. Sprachmodelle gelten gemeinhin als Repräsentationen ihrer Trainingskorpora. Wenn sich aber durch die kontrollierte Variation des Korpus tatsächlich messbar unterschiedliche Modelle erzeugen lassen, also Systeme mit unterschiedlichem epistemischen Horizont, dann lassen sich Fragen experimentell adressieren, die bisher ausschließlich philosophisch oder geschichtswissenschaftlich diskutiert wurden. Welches Wissen ist aus welchem Wissensbestand prinzipiell ableitbar? Wo liegen die Grenzen des aus einer Epoche heraus Denkbaren? An welchen Stellen wären welche Entdeckungen früher möglich gewesen, und an welchen nicht?

Das Talkie-1930-Team hat diesen experimentellen Charakter zusätzlich verstärkt, indem ein Schwestermodell, talkie-web-13b-base, veröffentlicht wurde. Es hat identische Architektur und identischen Trainings-Aufwand, aber moderne Trainingsdaten aus dem FineWeb-Korpus. Damit lassen sich kontrollierte Vergleiche zwischen Vintage- und Modernvariante derselben Modellklasse durchführen. Das ist ein methodischer Schritt, der das Feld vom Liebhaberprojekt in Richtung einer ernsthaften experimentellen Disziplin verschiebt.

Fazit

Vintage LLMs sind weder ein Hype noch eine Spielerei, sondern eine methodisch durchdachte Forschungsrichtung mit klar identifizierbaren Anwendungsfeldern. Sie ermöglichen sauberes Backtesting von Prognosefähigkeit, kontrollierte Reinventionsexperimente, neue Werkzeuge für historische Sozialwissenschaft, eine ungeschönte Untersuchung historischer Wertvorstellungen und einen Beleg für die Machbarkeit urheberrechtskonformer Modellbildung. Dass mit Talkie-1930 ein Mitbegründer der GPT-Familie selbst ein solches Modell veröffentlicht, deutet darauf hin, dass die Idee mehr ist als ein Nischenphänomen. Wer die Entwicklung großer Sprachmodelle verfolgt, sollte diese kleine, eigensinnige Verwandtschaft im Auge behalten.

Referenzen

Breen, B. (2026, April). Are ‘Vintage LLMs’ the start of a new humanistic field? Res Obscura. https://resobscura.substack.com/p/are-vintage-llms-the-start-of-a-new

Evans, O. (n. d.). Vintage Large Language Models [Vortragstranskript]. https://owainevans.github.io/talk-transcript.html

Göttlich, D., Loibner, D., Jiang, G., & Voth, H.-J. (2025-2026). Ranke-4B / History LLMs [Modellfamilie]. Universität Zürich & Universität zu Köln. https://github.com/DGoettlich/history-llms

Hla, M. (2026, März). Machina Mirabilis. https://michaelhla.com/blog/machina-mirabilis.html

Langlais, P.-C. (2023, November). MonadGPT [Modell]. Hugging Face. https://huggingface.co/Pclanglais/MonadGPT

Radford, A., Levine, N., & Duvenaud, D. (2026). Introducing talkie: a 13B vintage language model from 1930. https://talkie-lm.com/introducing-talkie

Awesome Vintage LLMs [Kurierte Übersicht]. (n. d.). GitHub. https://github.com/entanglr/awesome-vintage-llms