
Dies ist Teil 5 einer Serie über die Geschichte der Künstlichen Intelligenz. Teil 4 endete im Herbst 2012, als ein tiefes neuronales Netz namens AlexNet einen Bilderkennungs-Wettbewerb nicht knapp, sondern erdrutschartig gewann — und die Fachwelt binnen Monaten auf die totgesagten lernenden Netze umschwenkte. Die Lehre jenes Tages war nicht, dass jemand etwas Neues erfunden hatte, sondern dass alte Ideen, endlich auf genug Daten und genug Rechenkraft getroffen, alles schlugen. Aus dieser Lehre wurde eine Wette. Dieser Teil erzählt die fünf Jahre, in denen die Wette gewann — und zum Rüstungswettlauf wurde.
Am 10. März 2016 saß in einem Konferenzsaal des Four-Seasons-Hotels in Seoul einer der besten Go-Spieler, den die Menschheit hervorgebracht hat, vor einem Brett und verstand die Welt nicht mehr. Lee Sedol, neunfacher Dan-Träger, achtzehnfacher Weltmeister, spielte die zweite von fünf Partien gegen ein Computerprogramm — und im siebenunddreißigsten Zug legte die Maschine ihren schwarzen Stein an eine Stelle, an die niemand ihn gelegt hätte. Ein Schulterschlag auf der fünften Linie, weit draußen, gegen jede Lehrbuchweisheit von vierhundert Jahren Go. Die Kommentatoren, selbst Profis, hielten es zunächst für einen Fehler, für einen Absturz, einen Bug. Lee Sedol starrte auf das Brett, stand auf und verließ den Raum. Er brauchte fast eine Viertelstunde, um sich zu fassen und zu antworten.
Die Maschine hatte selbst ausgerechnet, dass ein Mensch diesen Zug mit einer Wahrscheinlichkeit von etwa eins zu zehntausend spielen würde. Sie spielte ihn trotzdem, weil eine zweite, tiefere Bewertung ihn für stark hielt — und Dutzende Züge später zeigte sich, dass er das Spiel entschied. Fan Hui, der europäische Meister, der das System als Berater begleitete, fand die Worte, die um die Welt gingen: Das ist kein menschlicher Zug. Ich habe noch nie einen Menschen diesen Zug spielen sehen. So schön.
Man muss den Bogen dieser Serie im Kopf haben, um zu spüren, was in diesem Moment kippte. Sie begann in Teil 1 mit Alan Turings Imitationsspiel: Der Prüfstein für eine denkende Maschine war, ob sie einen Menschen täuschen kann, ob sie überzeugend genug wie ein Mensch antwortet. Sechzig Jahre lang war das der Horizont — die Maschine, die uns so gut nachahmt, dass wir den Unterschied nicht mehr merken. Zug 37 war das Gegenteil. Hier täuschte nichts vor, ein Mensch zu sein. Hier tat eine Maschine etwas, das kein Mensch getan hätte — und hatte recht. Das Imitationsspiel war zu Ende. Die Maschine hatte aufgehört, uns nachzuahmen.
Die Wette, die 2012 begann
Um zu verstehen, wie es dazu kam, muss man zurück an das Ende von Teil 4. AlexNet hatte 2012 gezeigt, dass ein tiefes Netz, gefüttert mit über einer Million Bildern und gerechnet auf Grafikkarten, das Sehen besser beherrschte als alles zuvor. Entscheidend war die Diagnose, die die Sieger daraus zogen: Neu war kein einzelner Baustein — das faltende Netz stammte aus den 1970ern, die Fehlerrückführung aus den 1970ern, populär gemacht 1986. Neu war allein, dass alle Bausteine zugleich da waren und auf genug Daten und genug Rechenkraft trafen. Der Durchbruch war keine Erfindung. Er war eine Skalierung.
Daraus wurde die prägende Wette der folgenden Jahre, und sie lässt sich in einem Satz sagen: Wenn aus alten Netzen mit mehr Daten und mehr Rechenkraft so viel mehr wird — was wird dann erst aus noch viel mehr? Die fünf Jahre nach AlexNet sind die Geschichte dieser Wette, wie sie ein Gebiet nach dem anderen erobert. Erst das Sehen, dann die Sprache, dann das Erfinden von Bildern, dann das Spiel — und am Ende eine einzige Architektur, die das Skalieren selbst zum ganzen Programm machte.
Wie die ganze Serie versucht dieser Teil, zu erschließen statt zu bejubeln oder zu verdammen. Denn die Wette hat zwei Gesichter. Sie erklärt einen echten, tiefen Fortschritt — und sie ist zugleich der Motor eines Hype, der bis 2026 reicht. Beide gehören zusammen, und man versteht keines ohne das andere.
2013: Als Bedeutung zu Geometrie wurde
Das erste Gebiet nach dem Sehen war die Sprache — und der Anfang war so unscheinbar wie folgenreich. 2013 veröffentlichte eine Gruppe um den tschechischen Forscher Tomáš Mikolov bei Google ein Werkzeug namens word2vec. Seine Idee: Jedes Wort wird zu einem Punkt in einem Raum von vielen hundert Dimensionen — zu einem Vektor, einer Liste von Zahlen. Ein flaches Netz lernt diese Zahlen, indem es nichts weiter tut, als vorherzusagen, welche Wörter neben welchen stehen. Millionenfach, über Milliarden von Wörtern Text.
Das Verblüffende war, was in diesem Zahlenraum entstand. Bedeutung wurde zu Geometrie, und Beziehungen zwischen Begriffen wurden zu Rechnungen. Nahm man den Vektor für König, zog den für Mann ab und addierte den für Frau, landete man an einem Punkt, der am nächsten beim Vektor für Königin lag. König − Mann + Frau ≈ Königin. Dasselbe funktionierte mit Ländern und Hauptstädten, mit Grund- und Steigerungsformen, mit Firmen und ihren Produkten. Niemand hatte der Maschine beigebracht, was ein Geschlecht oder eine Hauptstadt ist. Sie hatte es aus der bloßen Gesellschaft der Wörter herausdestilliert — aus der Statistik, wer neben wem vorkommt.
Auch hier lohnt der Blick zurück, den Teil 4 zur Linse geschliffen hat: Idee ≠ Durchsetzung. Der Gedanke, dass sich die Bedeutung eines Wortes aus seinem Gebrauch, aus seiner Umgebung ergibt, war uralt. Der Linguist John Rupert Firth brachte ihn 1957 auf die berühmte Formel You shall know a word by the company it keeps — du erkennst ein Wort an der Gesellschaft, die es hält. Zellig Harris hatte 1954 dasselbe nüchterner gefasst, Ludwig Wittgenstein die Bedeutung eines Wortes schon 1953 als seinen „Gebrauch in der Sprache” bestimmt. Word2vec erfand die distributionelle Bedeutung nicht. Es war ihre statistische Einlösung im großen Maßstab — die alte Idee, endlich groß genug gerechnet. Und es war der Keim dessen, was ab 2017 die Sprachmodelle tragen sollte: die Vorstellung, dass Bedeutung eine Position im Raum ist, die eine Maschine aus purer Textmasse lernen kann.
2014: Die Maschine lernt zu fälschen
Ein Jahr später lernte die KI etwas, das noch tiefer an den Nerv dieser Serie rührt: das Erfinden überzeugender Fälschungen. Der Legende nach hatte Ian Goodfellow, damals Doktorand an der Université de Montréal in Yoshua Bengios Umfeld, die Idee 2014 an einem Abend in einer Kneipe, bei der Abschiedsfeier eines Kollegen. Er ging noch in derselben Nacht nach Hause, programmierte einen ersten Prototyp — und er funktionierte auf Anhieb.
Die Konstruktion ist so einfach wie listig, und Goodfellow beschrieb sie selbst mit einem Bild: Man stelle sich einen Fälscher vor und einen Polizisten. Zwei neuronale Netze treten gegeneinander an. Das eine, der Generator, erzeugt Bilder — anfangs sinnlosen Pixelmatsch — und versucht, sie als echt auszugeben. Das andere, der Diskriminator, bekommt echte und gefälschte Bilder vorgelegt und versucht, sie auseinanderzuhalten. Beide werden gemeinsam trainiert, und in ihrem Wettstreit werden beide immer besser: Der Fälscher lernt aus jedem Ertapptwerden, der Prüfer aus jeder gelungenen Fälschung — bis die Fälschungen, in Goodfellows Worten, „vom echten Artikel nicht mehr zu unterscheiden” sind. Ein Generative Adversarial Network, ein erzeugendes gegnerisches Netz. Yann LeCun nannte es „die interessanteste Idee der letzten zehn Jahre im maschinellen Lernen”.
Hier schließt sich ein Kreis, der in Teil 1 mit Vaucansons verdauender Ente aufging — jenem Automaten des 18. Jahrhunderts, der zu fressen und zu verdauen schien und in Wahrheit vorpräparierten Brei ausschied. Zweieinhalb Jahrhunderte lang war die Illusion ein Einzelstück, mühsam von Hand gebaut, ein Jahrmarktswunder. Mit den GANs wurde sie zur Serienware. Eine Maschine, die gelernt hatte, Enten zu bauen — beliebig viele, immer überzeugendere. Fünf Jahre später zeigte die Website thispersondoesnotexist.com bei jedem Neuladen das fotorealistische Gesicht eines Menschen, den es nie gegeben hat. Die GANs sind die Ahnen dieser synthetischen Gesichter und, in weiterem Sinne, der ganzen Deepfake-Ära. Die Warnung aus Teil 1 — nimm den überzeugenden Schein nicht für Wirklichkeit — war plötzlich keine Anekdote über einen Bastler mehr, sondern eine industrielle Realität.
Und weil diese Serie ihre eigene Disziplin ernst nimmt, gehört die unbequeme Fußnote dazu. Kaum war das GAN gefeiert, meldete sich Jürgen Schmidhuber zu Wort — der Forscher, den wir in Teil 4 als scharfsinnige und zugleich parteiische Stimme kennengelernt haben. Er hatte, so seine Position, das gegnerische Prinzip schon um 1990 beschrieben — in Arbeiten, die er Artificial Curiosity und Predictability Minimization nannte; das GAN sei ein Spezialfall davon. Als Gutachter des Papers hatte er 2014 verlangt, seine Arbeit zu zitieren, und bei der großen KI-Konferenz NIPS 2016 unterbrach er Goodfellows Vortrag, um öffentlich auf seine Priorität zu bestehen. Die Szene wurde so berüchtigt, dass in der Szene ein Verb entstand: to be Schmidhubered. Die Community stellte sich überwiegend hinter Goodfellow — und doch bleibt die Lehre dieselbe wie in Teil 4: Wer als Erfinder gilt, entscheidet sich selten an der ersten Idee, sondern an der Durchsetzung. Auch das gegnerische Netz hatte eine ältere Wurzel. Neu war, dass es 2014 in der richtigen Größenordnung ansetzte.
2016: Der Zug von einem anderen Stern
Damit sind wir zurück in Seoul — und beim eigentlichen Drama dieser fünf Jahre. Um zu ermessen, was AlphaGo bedeutete, muss man wissen, warum Go so lange als die uneinnehmbare Festung der KI galt. 1997 hatte IBMs Deep Blue den Schachweltmeister Garri Kasparow geschlagen — durch schiere Rechengewalt, indem es Millionen von Zugfolgen durchprobierte. Bei Go versagt dieser Weg. Das Brett hat mehr mögliche Stellungen — mehr als 10¹⁷⁰ — als es Atome im beobachtbaren Universum gibt. Man kann diesen Baum nicht durchrechnen; man muss, wie ein Mensch, das Brett überblicken, ein Gefühl für gute und schlechte Stellungen haben. Genau diese Intuition galt als das, was Maschinen fehlt. Noch 2014 schätzten Experten, es werde „vielleicht zehn Jahre” dauern, bis ein Programm einen Spitzenprofi schlägt.
AlphaGo, gebaut von der Google-Tochter DeepMind in London, brauchte weniger als zwei. Sein Rezept war die Wette in Reinform: zwei tiefe neuronale Netze — eines, das vielversprechende Züge vorschlägt, eines, das Stellungen bewertet — kombiniert mit einer gezielten Suche. Trainiert wurde es in zwei Stufen. Zuerst lernte es aus rund dreißig Millionen Zügen menschlicher Meisterpartien, bis es den nächsten menschlichen Zug in über der Hälfte der Fälle vorhersagen konnte. Dann spielte es millionenfach gegen sich selbst und lernte aus dem Ergebnis — Verstärkungslernen, bei dem die Maschine ihre eigene Lehrmeisterin wird. Im Oktober 2015 schlug es den Europameister Fan Hui 5:0, das erste Mal, dass ein Programm einen Profi auf vollem Brett ohne Vorgabe besiegte. Fünf Monate später kam Seoul.
Der Bogen ist es wert, ganz erzählt zu werden, denn er hat zwei Höhepunkte, und der zweite gehört dem Menschen. Der erste ist Zug 37 der zweiten Partie, der Zug von einem anderen Stern, mit dem dieser Teil begann. Die Maschine, die zuerst aus menschlichen Partien gelernt hatte, hatte sich im Selbstspiel so weit von ihren menschlichen Lehrern entfernt, dass sie einen Zug fand, den kein Mensch kannte — und der besser war. Der zweite Höhepunkt kommt in der vierten Partie, drei Tage später, und es ist Lee Sedols Zug 78. Nach drei Niederlagen fand der Mensch, in einer aussichtslos scheinenden Stellung, einen Keil zwischen die weißen Steine — einen Zug von solcher Schönheit, dass der chinesische Großmeister Gu Li ihn den göttlichen Zug nannte, kami no itte. AlphaGo hatte diese Möglichkeit kaum in Betracht gezogen; seine Antwort war schwach, seine Bewertung stürzte ab, und Lee gewann die einzige Partie, die in diesem Match — und, wie sich zeigen sollte, je gegen die reife AlphaGo-Linie — an einen Menschen ging. Das Endergebnis: 4:1 für die Maschine.
Man könnte hier innehalten und die Geschichte als knappen menschlichen Triumph im Untergang lesen. Doch das Jahr 2017 nahm dieser Lesart den Boden. Zuerst schlug eine verbesserte Version im Mai die neue Nummer eins der Welt, den Chinesen Ke Jie, glatt mit 3:0. Ke Jie, den Tränen nahe, sagte den vielleicht klarsten Satz über den ganzen Vorgang: Letztes Jahr spielte es noch ziemlich menschlich. Dieses Jahr wurde es wie ein Gott des Go. Und dann, im Oktober 2017, zog DeepMind die radikalste Konsequenz. AlphaGo Zero lernte Go von Grund auf ganz ohne menschliche Partien — es kannte nur die Regeln und begann mit völlig zufälligem Spiel gegen sich selbst. Nach drei Tagen schlug es die Version, die Lee Sedol besiegt hatte, mit 100:0. Nach vierzig Tagen war es allen früheren Fassungen überlegen.
Das ist der Punkt, an dem der Titel dieses Teils seine ganze Schärfe bekommt. AlphaGo hatte den Menschen zuerst nachgeahmt und ihn dann übertroffen. AlphaGo Zero ahmte ihn gar nicht erst nach. Es brauchte uns nicht als Vorbild — im Gegenteil, das menschliche Wissen erwies sich als Ballast, den abzuwerfen die Maschine stärker machte. Der jahrhundertealte Erfahrungsschatz des Go, die Eröffnungslehren, die Sprichwörter der Meister: für die reine Maschine nur ein Umweg. Lee Sedol zog daraus 2019 seine eigene Konsequenz und trat vom Profisport zurück. Zur Begründung sagte er, es gebe nun „eine Entität, die nicht besiegt werden kann”. Er hatte, ein einziges Mal, mit Zug 78 den göttlichen Zug gefunden. Aber das Spiel, das er sein Leben lang gespielt hatte, gehörte von nun an jemand anderem.
2017: Die Architektur, die alles verschlang
Während die Welt auf Go-Bretter schaute, erschien im Juni 2017 ein Aufsatz, der die KI stärker verändern sollte als jeder gewonnene Wettkampf. Acht Forscher bei Google veröffentlichten ihn unter einem Titel, der eine Beatles-Zeile abwandelt: Attention Is All You Need — Aufmerksamkeit ist alles, was du brauchst. Er beschrieb eine neue Architektur, den Transformer.
Sein Kniff lässt sich ohne Formeln fassen. Bis dahin verarbeiteten Sprach-Netze einen Satz Wort für Wort, in der Reihenfolge des Lesens — langsam, und mit der Neigung, den Anfang eines langen Satzes zu vergessen, bis sie am Ende ankamen. Der Transformer warf dieses sequentielle Lesen weg. Stattdessen setzt er, über einen Mechanismus namens Attention, alle Wörter eines Satzes gleichzeitig zueinander in Beziehung und lässt jedes Wort selbst gewichten, auf welche anderen es achten muss. Der entscheidende Nebeneffekt war nicht bloß bessere Sprache. Es war, dass sich diese Rechnung vollständig parallelisieren ließ — man konnte sie auf sehr viele Grafikprozessoren gleichzeitig verteilen, statt Wort für Wort zu warten. Damit war der Transformer die erste Architektur, die genau das erlaubte, worauf die ganze Wette hinauslief: beliebig groß zu werden. Er war die Skalierungsmaschine.
Auch der Transformer hatte, wie alles in diesem Teil, seine Vorläufer — die Linse Idee ≠ Durchsetzung hält bis zuletzt. Der Aufmerksamkeitsmechanismus selbst war 2014 von Dzmitry Bahdanau, Kyunghyun Cho und wieder Yoshua Bengio für die maschinelle Übersetzung eingeführt worden. Und Schmidhuber, erwartungsgemäß, wies darauf hin, dass sein Fast-Weight-System von 1991 dem Prinzip nach ein linearer Transformer avant la lettre sei — 2021 wurde die mathematische Verwandtschaft sogar formal gezeigt. Neu war auch hier nicht der erste Gedanke. Neu war die Form, in der er sich durchsetzte und alles andere verschlang.
Wie sehr, zeigte sich schon im Jahr darauf. 2018 bauten zwei Modelle auf dem Transformer auf, die den nächsten Teil dieser Serie tragen werden: Googles BERT und, aus dem Haus einer jungen Firma namens OpenAI, das erste GPT — der Generative Pre-trained Transformer. Das „T” in ChatGPT ist der Transformer von 2017. Aus dieser einen Architektur wuchs alles, was heute „Sprachmodell” heißt.
Aus der Wette wird ein Wettlauf
Spätestens hier hörte die Geschichte auf, eine der Ideen zu sein, und wurde eine der Macht. Wenn Skalierung gewinnt, dann gewinnt, wer am meisten skalieren kann — die größten Datenmengen, die meisten Chips, das teuerste Rechenzentrum, die abgeworbenen Talente. Aus der wissenschaftlichen Wette wurde ein industrieller, bald geopolitischer Wettlauf.
Man kann den Moment beziffern. 2018 veröffentlichte OpenAI eine Analyse mit dem Titel AI and Compute, deren Kurve buchstäblich den Bogen dieses und des vorigen Teils zeichnet — ihre Überschrift lautet „AlexNet to AlphaGo Zero”. Sie zeigte: Die Rechenleistung, die in die größten KI-Trainingsläufe floss, hatte sich seit 2012 nicht etwa wie in Moores Gesetz alle zwei Jahre verdoppelt, sondern alle 3,4 Monate — ein Anstieg um mehr als das Dreihunderttausendfache in sechs Jahren. Kein Fortschritt der Chip-Technik erklärt das. Es war eine bewusste Entscheidung, Rechenkraft im großen Stil auf ein Problem zu werfen, weil die Wette sagte: Es lohnt sich. Der Forscher Rich Sutton goss die Haltung 2019 in einen vieldiskutierten Essay, The Bitter Lesson, die bittere Lehre: Die größte Lehre aus siebzig Jahren KI-Forschung sei, dass allgemeine Methoden, die Rechenleistung ausnutzen, am Ende jede noch so kluge, von Hand eingebaute Idee schlagen — „and by a large margin”.
Die Namen dieses Wettlaufs sind uns aus der Gegenwart vertraut, und sie ordnen sich in diesen Jahren. DeepMind war schon 2014 von Google gekauft worden. Ende 2015 gründete sich OpenAI als Gegengewicht, mit einer zugesagten Milliarde Dollar und Ilya Sutskever — Mitautor von AlexNet aus Teil 4 — als Forschungschef. Und die acht Autoren des Transformer-Papers? Sie verließen einer nach dem anderen Google und gründeten oder führten die Firmen, die heute den Markt bestimmen. Eine einzige Arbeit von 2017, und aus ihren acht Namen wurden ein halbes Dutzend milliardenschwere Unternehmen. Deutlicher lässt sich kaum zeigen, dass aus einer Idee eine Ökonomie geworden war.
Warum das 2026 zählt
Aus diesen fünf Jahren lassen sich drei Dinge mitnehmen, die der Gegenwart unbequem nahe stehen.
Erstens kehrt sich hier das Gründungsversprechen der KI um. Die Serie begann mit Turings Imitationsspiel: Der Traum war die Maschine, die uns so täuschend nachahmt, dass sie als Mensch durchgeht. Zug 37 und, radikaler, AlphaGo Zero markieren den Punkt, an dem die Maschine dieses Spiel verlässt — an dem sie nicht trotz, sondern weil sie anders denkt als wir, gewinnt. Das ist die eigentliche Nachricht dieser Jahre, und sie durchzieht 2026: Die stärksten Systeme sind nicht die menschenähnlichsten, sondern die fremdesten. Wir loben und fürchten die KI dafür, dass sie „wie ein Mensch” wirkt — und übersehen, dass ihre Kraft gerade darin liegt, dass sie es nicht ist. Der Eliza-Effekt aus Teil 2 und der Zug von einem anderen Stern sind zwei Pole desselben Irrtums: einmal schreiben wir der Maschine fälschlich menschliches Verstehen zu, einmal übersehen wir, wie unmenschlich das ist, was sie tatsächlich kann.
Zweitens hat sich in diesen Jahren die Skalierung von einer Beobachtung in eine Weltanschauung verwandelt. Jeder Durchbruch dieses Teils — die Bedeutungs-Geometrie von word2vec, die Fälscher-Netze, AlphaGo, der Transformer — hatte eine jahrzehntealte Idee im Kern: Firth 1957, Schmidhubers 1990er Jahre, Bahdanau 2014. Neu war fast nie der Gedanke. Neu war die Größenordnung. Aus dieser Erfahrung wurde die herrschende Theorie des Fortschritts — Suttons bittere Lehre —, und sie treibt bis heute die Rechenzentren, den Chip-Hunger, die Strompreise. Genau deshalb schärft sich hier die Leitfrage der Serie, die auf die spätere Synthese zuläuft: Ist Skalierung ein dauerhaftes Naturgesetz des Fortschritts — oder eine Wette, die irgendwann an eine Wand stößt, an Daten, an Energie, an Geld? Jeder frühere Boom dieser Serie rief „diesmal ist es anders”. Dieser ruft es am lautesten.
Drittens, und das ist die Brücke in den nächsten Teil, wurde aus dem Wettstreit der Ideen ein Rüstungswettlauf der Konzerne und Staaten. Die Compute-Kurve und die Diaspora der Transformer-Autoren zeichnen dieselbe Bewegung: Eine Forschung, die eben noch auf Konferenzen ausgetragen wurde, wird zur Frage von Kapital, Chips und Souveränität. Die erste Waffe, die auf der neuen Architektur gebaut wurde, ist keine Spiel-KI und kein Bildfälscher. Es ist das Sprachmodell — und mit ihm erreicht die Wette 2022 die breite Öffentlichkeit.
Bleibt, wie in jedem Teil, die Ente. In Teil 1 bis 3 war sie der Schein, der für echt gehalten wurde — Vaucansons Automat, ELIZA, die Expertensysteme. In Teil 4 stand sie auf dem Kopf: das Echte, das für tot erklärt wurde. Dieser Teil dreht sie zweimal weiter. Mit den GANs lernte die Maschine, Enten selbst zu bauen — die Illusion, die einst ein handgefertigtes Einzelstück war, wurde zur Serienware. Und mit Zug 37 hörte die Maschine auf, überhaupt eine Ente zu sein: Sie gibt nicht mehr vor, lebendig zu denken, sie spielt wie nichts Lebendiges je gespielt hat — und gewinnt. Die nüchterne Lektion bleibt dieselbe, nur schwerer geworden. Wir müssen dreierlei zugleich können: den überzeugenden Schein entzaubern, das totgesagte Echte erkennen — und ehrlich zugeben, wenn eine Maschine etwas tut, für das wir noch gar keinen menschlichen Maßstab haben. Alle drei verlangen denselben Blick hinter die Oberfläche. Alle drei sind, am Ende, dasselbe Misstrauen gegen die schnatternde Ente.
Im nächsten Teil: Die Sprachmodell-Ära (2018–heute). Wie aus dem Transformer die Modelle BERT, GPT-2 und GPT-3 wuchsen, wie ein Programm namens ChatGPT im November 2022 die Skalierungs-Wette in die Hände von Hunderten Millionen Menschen legte — und wie die Frage, was daran wirklich neu und was recycelter Hype ist, zur eigentlichen Prüfung dieser Serie wird.
Quellen
Stammquellen der Serie
- Nils J. Nilsson: The Quest for Artificial Intelligence. Cambridge University Press, 2010. Wissenschaftliche Gesamtgeschichte; endet 2009, direkt vor den hier erzählten Jahren — liefert die Einordnung von Konnektionismus und Verstärkungslernen. Volltext: ai.stanford.edu/~nilsson/QAI/qai.pdf.
- Melanie Mitchell: Artificial Intelligence: A Guide for Thinking Humans. Farrar, Straus and Giroux, 2019. Ordnet den Deep-Learning-Boom, AlphaGo und die Grenzen der Sprach-KI nüchtern ein, gegen den Hype.
- Cade Metz: Genius Makers. Dutton, 2021. Journalistische Erzählung des Talent- und Firmen-Rennens (Hinton, LeCun, Bengio, Hassabis, Sutskever, Goodfellow) — Hintergrund zu DeepMind, OpenAI und der Autoren-Diaspora.
Connectionism-Korrektiv (Partei-Quelle — als solche gekennzeichnet)
- Jürgen Schmidhuber: Annotated History of Modern AI and Deep Learning. IDSIA, Technical Report 2022 (laufend aktualisiert). people.idsia.ch/~juergen/deep-learning-history.html. Quelle für die Vorläufer von GAN (Predictability Minimization, 1990/91) und Transformer (Fast Weight Programmers, 1991). ⚠️ Schmidhuber ist Konfliktbeteiligter, kein neutraler Chronist — die Fakten sind weitgehend belegbar, das Prioritäts-Framing ist parteiisch; hier bewusst getrennt verwendet (siehe die NIPS-2016-Episode im Text).
Primärquellen
- Tomáš Mikolov, Kai Chen, Greg Corrado & Jeffrey Dean: Efficient Estimation of Word Representations in Vector Space. arXiv:1301.3781 (2013). word2vec. Die berühmte Analogie stammt aus der Begleitarbeit Mikolov/Yih/Zweig, Linguistic Regularities in Continuous Space Word Representations (NAACL 2013).
- Ian J. Goodfellow u. a.: Generative Adversarial Nets. NeurIPS 2014, arXiv:1406.2661. Das GAN-Paper (Fälscher-vs.-Polizei-Bild in der Einleitung).
- David Silver, Aja Huang, … Demis Hassabis u. a.: Mastering the game of Go with deep neural networks and tree search. In: Nature 529 (28.01.2016), doi.org/10.1038/nature16961. AlphaGo.
- David Silver u. a.: Mastering the game of Go without human knowledge. In: Nature 550 (18.10.2017), doi.org/10.1038/nature24270. AlphaGo Zero (reines Selbstspiel).
- Ashish Vaswani u. a.: Attention Is All You Need. NeurIPS 2017, arXiv:1706.03762. Der Transformer.
- Dario Amodei & Danny Hernandez: AI and Compute. OpenAI, 16.05.2018. openai.com/index/ai-and-compute. Die 3,4-Monats-Verdopplungskurve.
- Richard Sutton: The Bitter Lesson. 13.03.2019. incompleteideas.net/IncIdeas/BitterLesson.html.
Zahlen (verifiziert)
- AlphaGo vs. Lee Sedol: Google DeepMind Challenge Match, Four Seasons Hotel Seoul, 9.–15. März 2016, Endstand 4:1. Lee Sedol: 9. Dan, 18 internationale Titel. Preisgeld 1 Mio. Dollar (von Google an wohltätige Zwecke gespendet, da AlphaGo gewann). Nach AlphaGo versus Lee Sedol.
- Zug 37 (2. Partie, 10.03.2016): Schulterschlag auf der fünften Linie; von AlphaGo selbst als Zug mit 1:10.000-Wahrscheinlichkeit für einen menschlichen Spieler eingeschätzt. DeepMind-Originalzitat: „a move with a 1 in 10,000 chance of being used”. Fan Huis Reaktion „So beautiful” nach Cade Metz, Wired, 11.03.2016.
- Zug 78 (4. Partie): Lee Sedols „göttlicher Zug” (kami no itte), so genannt vom Kommentator Gu Li; brachte Lee seinen einzigen Sieg.
- AlphaGo Zero (Nature, 18.10.2017): ohne menschliche Partien, nur aus Selbstspiel; schlug nach 3 Tagen die Lee-Sedol-Version 100:0, war nach 40 Tagen allen Vorgängern überlegen.
- Ke Jie (Future of Go Summit, Wuzhen, 23.–27.05.2017): AlphaGo 3:0. Zitat „god of Go” nach NPR, 23.05.2017.
- Go-Komplexität: ~2,08 × 10¹⁷⁰ legale Stellungen (Tromp 2016), mehr als die ~10⁸⁰ Atome im beobachtbaren Universum. Deep Blue schlug Kasparow am 11.05.1997 mit 3½:2½.
- AI and Compute: seit 2012 Verdopplung der Trainings-Rechenleistung alle 3,4 Monate (Moores Gesetz: alle 2 Jahre), > 300.000× von 2012 bis 2018. Grafik-Titel „AlexNet to AlphaGo Zero”. Nach OpenAI, 16.05.2018.
- Transformer: Attention Is All You Need, arXiv 12.06.2017, acht Autoren (Google Brain / Google Research / U Toronto); alle acht verließen Google und gründeten oder führten KI-Firmen (u. a. Character.AI, Cohere, Adept/Essential AI, Inceptive, NEAR, Sakana AI; Kaiser zu OpenAI). Der Titel spielt auf „All You Need Is Love” der Beatles an.
- DeepMind: 2010 in London gegründet (Hassabis, Legg, Suleyman), Januar 2014 von Google übernommen (Kaufpreis nie offiziell bestätigt; Medienangaben ~400 Mio. Pfund bzw. ~500–650 Mio. Dollar). OpenAI gegründet Dezember 2015 (u. a. Altman, Musk, Sutskever, Brockman; 1 Mrd. Dollar zugesagt).
Begriffsklärungen