
KI lernt jetzt von künstlichen Daten – und nicht vom Menschen
Es geht um KI, es folgt eine Einstiegsanalogie. Jürgen ist ein Schüler, der sehr viele Bücher gelesen hat. Seine Aufsätze sind gut, weil sie sich an dem orientieren, was er kennt. Das ist das, was Lehrer und Schule erwarten, eine hinreichende Reproduktion alten Wissens. Irgendwann bekommt er keine neuen Bücher mehr, sondern soll nur noch aus seinen eigenen Texten lernen. Anfangs funktioniert das noch. Doch mit der Zeit werden seine Texte glatter, ähnlicher, vorhersehbarer. Er wiederholt sich, verliert Details, wird „durchschnittlicher“. Genau in diese Richtung entwickelt sich ein Teil moderner KI.
Künstliche Intelligenz wurde einst mit echten Daten trainiert: Texte aus dem Internet, Bilder, Messwerte oder Sprache. Diese Daten bilden die Grundlage dafür, dass Systeme Muster erkennen, Zusammenhänge verstehen und Vorhersagen treffen können. Doch diese Grundlage gerät zunehmend an Grenzen. Hochwertige Daten sind endlich, oft rechtlich geschützt oder schwer zugänglich. Gleichzeitig wächst der Bedarf, weil Modelle größer und leistungsfähiger werden sollen.
Die Folge war ein Strategiewechsel: KI wird immer häufiger mit sogenannten synthetischen Daten trainiert. Das sind künstlich erzeugte Datensätze, die nicht direkt aus der realen Welt stammen, sondern von bestehenden KI-Modellen generiert werden. Ein System erzeugt Texte, Bilder oder strukturierte Daten, und diese dienen dann als Trainingsmaterial für neue oder weiterentwickelte Modelle.
Dabei entsteht kein Zufall im klassischen Sinn. Die KI produziert Inhalte, die zu den Mustern passen, die sie zuvor gelernt hat. Sie kombiniert Bekanntes, variiert Strukturen, erzeugt plausible Ergebnisse. Das wirkt realistisch, bleibt aber statistisch an das gebunden, was das Modell gelernt hat.
Die Vorteile sind offensichtlich. Synthetische Daten lassen sich praktisch unbegrenzt erzeugen, sind kostengünstig und umgehen Datenschutzprobleme. Seltene Fälle können gezielt hergestellt werden, Trainingsprozesse lassen sich beschleunigen, Abhängigkeiten von externen Datenquellen sinken.
Damit verschiebt sich aber auch die Grundlage des Lernens. Modelle greifen zunehmend auf bereits verarbeitete Daten zurück, nicht mehr auf direkte Beobachtungen der Welt. Der Abstand zwischen Realität und Trainingsmaterial wächst.
Hier setzt das Problem an: „Model Collapse“. Gemeint ist kein plötzlicher Zusammenbruch, sondern eine langsame Verschiebung. Mit jeder Generation werden Daten homogener. Extreme verschwinden, seltene Fälle werden unwahrscheinlicher, typische Muster dominieren.
Die Entwicklung tendiert zur Mitte. Ergebnisse bleiben brauchbar, oft stabil und korrekt. Gleichzeitig werden sie vorhersehbarer. Vielfalt geht verloren, Abweichungen werden seltener, das System reproduziert vor allem das, was ohnehin schon häufig ist.
Man kann versuchen, dagegen zu arbeiten. Modelle lassen sich gezielt auf seltene oder extreme Fälle ausrichten. Trainingsdaten können so gewichtet werden, dass Ausnahmen stärker berücksichtigt werden. Auch synthetische Daten können bewusst „an den Rändern“ erzeugt werden.
Doch auch diese Ränder stammen aus dem, was das Modell bereits kennt. Die KI kann verstärken, variieren, kombinieren. Sie kann innerhalb ihrer gelernten Landschaft neue Punkte setzen. Was sie – Stand heute: 26.4.26 – nicht kann: diese Landschaft verlassen. Neue Extreme entstehen so nicht, sondern nur stärker gewichtete Varianten bestehender Muster.
Das Problem verschiebt sich damit, verschwindet aber nicht. Wer die Ränder verstärkt, verstärkt auch deren Unsicherheiten und Verzerrungen. Seltene Fälle sind per Definition schlechter gelernt. Ihre künstliche Vermehrung macht sie nicht automatisch präziser.
Die oft genannte Lösung – eine Mischung aus echten und synthetischen Daten – ist bekannt, aber kein Selbstläufer. Echte Daten sind teuer, rechtlich kompliziert und begrenzt. Synthetische Daten sind günstig, skalierbar und jederzeit verfügbar. Die Entscheidung folgt daher weniger einem idealen Gleichgewicht als praktischen Zwängen.
Synthetische Daten sind damit kein Sonderfall mehr, sondern ein zentraler Bestandteil moderner KI-Entwicklung. Systeme lernen zunehmend aus Daten, die selbst schon Ergebnis früherer Modelle sind. Der Bezug zur Realität wird indirekter, das Ergebnis konsistenter – und im Zweifel eben durchschnittlicher.
Jürgen schreibt weiter gute Aufsätze. Nur stammen sie immer weniger aus neuen Büchern – und immer mehr aus ihm selbst. Sollte uns dieses „selbst“ Sorgen machen?


