
Dies ist Teil 4 einer Serie über die Geschichte der Künstlichen Intelligenz. Teil 3 endete 1993 im zweiten KI-Winter: Die symbolische Schule — Regeln, Logik, von Hand eingepflegtes Wissen — war an ihrer eigenen Sprödheit zerbrochen, eine ganze Hardware-Industrie über Nacht verschwunden. Dieser Teil erzählt von der anderen Linie. Von den lernenden Netzen, die Minskys Perceptrons 1969 für tot erklärt hatte — und die in genau diesen Wintern still weiterarbeiteten, bis sie 2012 alles gewannen.
In den späten 1990er Jahren las eine Maschine in den Vereinigten Staaten Schecks. Nicht ein paar zur Probe, sondern im großen Stil: Nach gängigen Schätzungen lief ein erheblicher Teil aller in den USA eingereichten Schecks — die Rede ist von rund einem Zehntel, nach manchen Angaben mehr — durch ein Programm, das die handschriftlich eingetragenen Beträge entzifferte, automatisch, zuverlässig, millionenfach. Es war eines der ersten KI-Systeme der Geschichte, das im ganz wörtlichen Sinn Geld bewegte, Tag für Tag, in der realen Welt.
Gebaut hatte es ein Franzose namens Yann LeCun in den Bell Labs, und die Methode dahinter war ein neuronales Netz — genau jene „brain-style”-Linie aus Teil 1 und Teil 2, die das Feld seit dreißig Jahren für eine Sackgasse hielt. Während LeCuns Netz Schecks las, galt die Forschung an solchen Netzen in den führenden Labors und auf den großen Konferenzen als naiv, unsexy, von gestern. LeCun selbst hatte Mühe, seine Arbeiten überhaupt veröffentlicht zu bekommen; das Wort „neuronales Netz” in einem Antrag oder Titel war so etwas wie ein Karriererisiko.
Hier kehrt sich die Ente um, die diese Serie seit Teil 1 begleitet. Bei Vaucansons Automat, bei ELIZA, bei MYCIN war die Frage immer: Sieht das nur aus wie echtes Können, oder ist es welches? Die Warnung galt der Illusion, die man für Wirklichkeit nahm. Jetzt, in den Bell Labs, steht dieselbe Frage auf dem Kopf. Da arbeitete etwas, das wirklich funktionierte, das in der Welt nützliche Arbeit verrichtete — und das die Fachwelt für eine tote Mechanik hielt. Die Gefahr ist nicht nur, einen überzeugenden Schein für echt zu halten. Sie ist auch ihr Gegenteil: etwas Echtes für tot zu erklären, weil es gerade aus der Mode ist. Dieser Teil erzählt, wie aus der totgesagten Linie in fünfundzwanzig stillen Jahren die Technologie wurde, die heute „KI” heißt.
Die Diagnose, die nach Lernen verlangte
Am Ende von Teil 3 stand eine genaue Diagnose. Die symbolische KI war an zwei Dingen gescheitert: am Flaschenhals der Wissensakquise — Experten können das meiste von dem, was sie können, nicht in Regeln fassen — und an der Sprödheit, dem Absturz am Rand des engen Reviers. Beides läuft auf denselben Befund hinaus: Wissen, das ein Mensch von Hand in Regeln gießen und pflegen muss, skaliert nicht und bleibt fremd in der Welt.
Die naheliegende Gegenidee ist beinahe trivial, sobald man die Diagnose ausspricht: Wenn von Hand eingegebenes Wissen das Problem ist, dann braucht man eine Maschine, die ihr Wissen selbst aus Beispielen zieht. Nicht ein Programmierer, der tausend Regeln über handgeschriebene Ziffern formuliert — sondern ein System, dem man hunderttausend Bilder von Ziffern zeigt, samt richtiger Antwort, und das die Regelmäßigkeiten selbst herausfiltert. Genau das war immer das Versprechen der lernenden Netze gewesen, seit Frank Rosenblatts Perzeptron von 1958 (Teil 2). Und genau dieses Versprechen hatten Minsky und Papert 1969 mit ihrem Buch Perceptrons scheinbar zertrümmert: Ein einlagiges Netz, bewiesen sie, kann nicht einmal die simple XOR-Funktion lernen. Die Förderung versiegte, die Netz-Forscher zerstreuten sich. Die Linie galt als erledigt.
Der Haken an diesem Urteil: Es betraf nur einlagige Netze. Schon ein Netz mit einer verborgenen Zwischenschicht kann XOR und im Prinzip beliebig komplexe Muster lernen. Nur wusste lange niemand, wie man die Schichten dazwischen trainieren sollte. Bei einem einlagigen Netz ist klar, welches Gewicht für einen Fehler verantwortlich war. Bei mehreren Schichten verteilt sich die Schuld über verborgene Neuronen, die niemand direkt beobachtet. Wie weist man einem unsichtbaren Zwischenglied seinen Anteil am Fehler zu? Diese Frage — in der Fachsprache das Kreditzuweisungsproblem — war das Schloss, hinter dem die ganze Zukunft lag.
1986: Der Schlüssel heißt Backpropagation
1986 erschien in Nature ein knapper Aufsatz mit dem unscheinbaren Titel Learning representations by back-propagating errors. Seine Autoren: David Rumelhart, Geoffrey Hinton und Ronald Williams. Sie beschrieben — und vor allem: sie machten populär — ein Verfahren namens Backpropagation, Fehlerrückführung.
Die Idee lässt sich ohne Formeln fassen. Man schickt ein Beispiel vorwärts durchs Netz — ein Bild einer Ziffer — und vergleicht die Antwort mit der richtigen Lösung. Den Fehler schickt man dann rückwärts durch das Netz und verteilt ihn mit Hilfe einer alten Rechenregel, der Kettenregel der Differentialrechnung, anteilig auf jedes einzelne Gewicht: Wer wie stark zum Fehler beigetragen hat, wird entsprechend nachjustiert. Wiederholt man das millionenfach, ordnen sich die Gewichte so, dass die verborgenen Schichten von selbst nützliche Merkmale herausarbeiten — bei Bildern etwa erst Kanten, dann Formen, dann ganze Objekte. Niemand programmiert „eine Sieben hat einen waagerechten Strich oben”. Das Netz findet es selbst.
Das war der Konter auf 1969. Die Wand, an der die Netze gescheitert waren, hatte einen Durchgang. Mit Backpropagation ließen sich mehrlagige Netze trainieren, und mehrlagige Netze konnten, anders als das Perzeptron, prinzipiell alles lernen. Im selben Jahr 1986 erschienen die beiden dicken Bände Parallel Distributed Processing von Rumelhart, James McClelland und ihrer Forschergruppe — das Manifest des Konnektionismus, der Idee, dass Intelligenz nicht aus Symbolen und Regeln entsteht, sondern aus dem Zusammenspiel vieler einfacher, vernetzter Einheiten. Für ein paar Jahre war die brain-style-Linie wieder da. Die Netze lebten.
Idee ≠ Durchsetzung: ein notwendiger Einschub
An dieser Stelle muss die Serie kurz innehalten und ihre eigene Disziplin ernst nehmen — erschließen statt bewerten — denn die schöne Erzählung „1986 erfand Hinton die Backpropagation und erweckte die Netze” ist in fast jedem Detail zu glatt.
Backpropagation wurde 1986 nicht erfunden. Die mathematische Kernidee — der rückwärtsgewandte Modus der automatischen Differentiation — hatte der Finne Seppo Linnainmaa bereits 1970 beschrieben, mit Vorläufern aus der Regelungstheorie bis zu Kelley 1960; Paul Werbos hatte sie in den 1970ern auf neuronale Netze gemünzt. Auch das tiefe Lernen mit vielen Schichten ist viel älter: Alexei Iwachnenko und Walentin Lapa veröffentlichten schon 1965 in der Sowjetunion einen funktionierenden Algorithmus für tiefe Netze; ein Netz von Iwachnenko hatte 1971 acht Schichten. Das erste faltende Netz — die Architektur, die später die Bildverarbeitung beherrschen sollte — baute der Japaner Kunihiko Fukushima 1979 unter dem Namen Neocognitron. Was Rumelhart, Hinton und Williams 1986 taten, war nicht die Erfindung, sondern die Durchsetzung: Sie schrieben es so klar und überzeugend auf, dass eine ganze Disziplin es übernahm.
Diese Korrektur stammt zu großen Teilen von Jürgen Schmidhuber, einem der einflussreichsten Deep-Learning-Forscher — und sie ist ein zweischneidiges Geschenk. Schmidhuber hat mit den Fakten meist recht: Iwachnenko, Amari, Linnainmaa, Fukushima existierten und werden im populären „alles begann mit Hinton”-Narrativ tatsächlich übergangen, auffällig oft Pioniere aus der UdSSR, aus Japan, aus Osteuropa. Zugleich ist Schmidhuber Partei: Er führt rund siebzehn Prioritätsstreitigkeiten gegen die später mit dem Turing-Award geehrte Trias Hinton, Bengio, LeCun, und sein Framing schießt regelmäßig über das Ziel hinaus — LeCun nannte ihn in der New York Times „manisch besessen von Anerkennung”. Die Pointe liegt im Dazwischen, und sie ist die Lehre dieses Teils: Wer eine Technik „erfindet”, entscheidet sich selten an der ersten Idee, sondern an der Durchsetzung — am Skalieren, Belegen, Popularisieren. Wissenschaft ist nicht nur der erste Gedanke; sie ist der Gedanke, der Wirkung entfaltet. Diese Unterscheidung — Idee ≠ Durchsetzung — wird am Ende dieses Teils zur entscheidenden Linse, durch die man auch 2012 lesen muss.
Die Wüste: Warum die Netze trotzdem ein Vierteljahrhundert verloren
Wenn 1986 der Schlüssel gefunden war — warum dauerte es dann bis 2012, ein volles Vierteljahrhundert, bis die Netze gewannen? Weil ein Schlüssel nutzlos ist, solange drei andere Türen verschlossen bleiben.
Die erste Tür war das Training selbst. Backpropagation funktionierte bei flachen Netzen prächtig — aber je tiefer das Netz, desto mehr verlor sich das rückwärtsgeschickte Fehlersignal auf dem Weg durch die Schichten, wurde immer kleiner, bis die vorderen Schichten praktisch nichts mehr lernten. Der österreichische Student Sepp Hochreiter analysierte dieses Problem des verschwindenden Gradienten (vanishing gradient) 1991 von Grund auf. Es bedeutete: Gerade die tiefen Netze, von denen man sich am meisten versprach, ließen sich am schlechtesten trainieren. Der Schlüssel von 1986 öffnete die flache Tür und blieb an der tiefen stecken.
Die zweite und dritte Tür waren schlicht Daten und Rechenleistung. Ein lernendes Netz braucht Beispiele, sehr viele, und Rechenkraft, um Millionen von Gewichten millionenfach nachzujustieren. In den 1990ern gab es weder genug von dem einen noch von dem anderen. Die Netze konnten lernen, aber man konnte ihnen weder genug zeigen noch ihnen genug Zeit geben.
Und so geschah, was in der Geschichte der KI schon zweimal geschehen war: Eine andere Methode überholte die Netze, und zwar mit besseren Argumenten. In den 1990ern stieg die statistische Lerntheorie auf, allen voran die Support Vector Machine, entwickelt von Wladimir Wapnik — ausgerechnet ebenfalls in den Bell Labs, ein paar Türen weiter von LeCun. Diese Verfahren hatten, was den Netzen fehlte: eine saubere mathematische Theorie, beweisbare Eigenschaften, verlässliche Resultate auf den damaligen, kleinen Datensätzen — und sie brauchten kein heikles Herumprobieren mit Schichtenzahlen und Lernraten. Für die meisten Aufgaben der 1990er und frühen 2000er waren sie schlicht besser. Die akademische Mode kippte ein drittes Mal gegen die Netze. Wer Karriere machen wollte, arbeitete an Support Vector Machines, nicht an etwas, das nach den naiven Hoffnungen der 1960er roch.
In dieser Wüste arbeitete LeCuns Scheck-Leser. Er funktionierte — und galt trotzdem als Anachronismus. Das ist die unbequeme Wahrheit dieser Jahre: Eine Technik kann real, einsatzfähig und kommerziell nützlich sein und trotzdem als gescheitert gelten, einfach weil eine andere gerade eleganter aussieht.
Die Hüter der Flamme
Dass die Linie diese Wüste überlebte, ist das Werk einer Handvoll Forscher, die stur an ihr festhielten, als es nichts einbrachte. Geoffrey Hinton in Toronto, Yann LeCun in New York, Yoshua Bengio in Montréal — eine lockere, über Jahre eingeschworene Gruppe, der Spötter später den Namen „kanadische Verschwörung” gaben, weil das kanadische Forschungsinstitut CIFAR ab 2004 ein kleines Programm finanzierte, das die unmodische Netz-Forschung am Leben hielt, als kaum jemand sonst sie bezahlen wollte.
2006 lieferte Hinton das Signal des Tauwetters. In einer vielbeachteten Arbeit zeigte er einen Trick, mit dem sich auch tiefe Netze trainieren ließen — Schicht für Schicht vorab, bevor das Ganze feinjustiert wird. Wichtiger als der Trick selbst, der bald von besseren Methoden überholt wurde, war die Umbenennung, die Hinton mitlieferte. Aus den verbrannten „neuronalen Netzen” wurde Deep Learning, tiefes Lernen. Ein neuer Name für eine alte, totgesagte Sache — und ein erstaunlich wirksamer. Die Tür des verschwindenden Gradienten begann sich zu öffnen. Es fehlten nur noch die beiden anderen: Daten und Rechenkraft. Beide kamen fast gleichzeitig, von zwei Seiten, die kaum etwas miteinander zu tun hatten.
Daten und Rechenkraft: zwei Türen öffnen sich
Die Daten kamen von einer Forscherin, die gegen die Mode ihres Faches wettete. Die Bildverarbeitung suchte Anfang der 2000er nach immer raffinierteren Algorithmen. Fei-Fei Li glaubte, der Engpass liege woanders — nicht in der Klugheit der Verfahren, sondern in der Armut der Daten. Kinder lernen Sehen nicht an tausend, sondern an Millionen von Eindrücken. Also baute sie, von vielen belächelt, einen Datensatz von beispielloser Größe: ImageNet, ab 2009 veröffentlicht, am Ende über vierzehn Millionen von Hand beschriftete Bilder in über zwanzigtausend Kategorien. Und sie schrieb einen jährlichen Wettbewerb dazu aus, die ImageNet Large Scale Visual Recognition Challenge: Wer erkennt auf über einer Million Bildern am zuverlässigsten, was darauf zu sehen ist? Damit existierte zum ersten Mal eine Bühne groß genug, dass ein hungriges, tiefes Netz seine Stärke überhaupt zeigen konnte.
Die Rechenkraft kam aus einer ganz anderen Ecke: aus der Spieleindustrie. Der Grafikprozessor (GPU), gebaut, um in Computerspielen Millionen Bildpunkte parallel zu berechnen, tut im Grunde genau die Sorte Rechnung, die auch ein neuronales Netz verlangt — dieselben massenhaften, gleichförmigen Matrixoperationen. Wer ein Netz auf eine GPU brachte, rechnete es um ein Vielfaches schneller als auf einem gewöhnlichen Prozessor. Auch hier gehört die Korrektur dazu: Die Ersten, die das konsequent ausnutzten, saßen nicht in Toronto, sondern an Schmidhubers Institut IDSIA im Tessin. Dan Cireșans GPU-Netze gewannen ab 2010/2011 Bilderkennungs-Wettbewerbe, bei der Verkehrszeichen-Erkennung 2011 übermenschlich genau und um ein Mehrfaches besser als die nächste Konkurrenz. Die GPU-Wende begann vor dem berühmten Moment — der berühmte Moment machte sie nur unübersehbar.
2012: Der Tag, an dem die KI sehen lernte
Im Herbst 2012 trat im ImageNet-Wettbewerb ein Team aus Hintons Labor in Toronto an: der Doktorand Alex Krizhevsky, sein Kollege Ilya Sutskever und Hinton selbst. Ihr Programm, später AlexNet genannt, war ein tiefes faltendes neuronales Netz — Fukushimas Idee von 1979, LeCuns Architektur der 1990er — trainiert mit Backpropagation auf ImageNets Bildern, auf zwei handelsüblichen Gaming-Grafikkarten in Krizhevskys Kinderzimmer-Aufbau.
Das Ergebnis war kein knapper Sieg, sondern ein Erdrutsch. In dem Wettbewerb, in dem sich die besten Verfahren der Welt Jahr für Jahr um Bruchteile von Prozentpunkten verbesserten, drückte AlexNet die Fehlerrate auf rund 15 Prozent — während der zweitbeste Beitrag, gebaut nach der klassischen Schule, bei rund 26 Prozent lag. Ein Abstand von gut zehn Prozentpunkten, dort, wo es sonst um einzelne ging. Über Nacht war klar: Die Methode, die seit 1969 als tot galt, sah besser als alles andere, was die Menschheit zu diesem Zeitpunkt gebaut hatte.
Was dann geschah, hatte das Feld so noch nie erlebt. Innerhalb von Monaten warfen die führenden Bildverarbeitungs-Gruppen ihre alten Verfahren weg und stiegen auf tiefe Netze um. Innerhalb von ein, zwei Jahren übernahmen Google, Facebook, Microsoft und Baidu die Forscher, die Methode, die Mannschaft. Hintons winzige Firma wurde 2013 von Google gekauft; LeCun baute Facebooks KI-Labor auf; Sutskever gehörte 2015 zu den Gründern von OpenAI. Die brain-style-Linie, fünfundzwanzig Jahre in der Wüste, war binnen weniger Monate vom Außenseiter zum Weltmeister geworden.
Und hier zahlt sich die Linse aus, die ich oben geschliffen habe. Schaut man, was AlexNet im Inneren war, findet man fast nichts Neues. Das faltende Netz: Fukushima 1979. Backpropagation: Linnainmaa 1970, populär gemacht 1986. Die Aktivierungsfunktion ReLU, die das tiefe Training erleichterte: in Grundzügen schon bei Fukushima. Selbst die Idee, das alles auf GPUs zu rechnen, war zwei Jahre älter. Neu war kein einzelner Baustein. Neu war, dass alle Bausteine zugleich da waren — und auf genug Daten und genug Rechenkraft trafen. AlexNet hat die KI nicht erfunden, die wir heute kennen. Es hat eine Handvoll jahrzehntealter Ideen zum ersten Mal in der richtigen Größenordnung zusammengeführt. Die Revolution von 2012 war keine Erfindung. Sie war eine Skalierung. Genau das ist Idee ≠ Durchsetzung in Reinform — und genau diese Erkenntnis wird ab hier zur Wette, die alles Folgende bestimmt.
Warum das 2026 zählt
Man kann diese Geschichte als Triumph lesen, als das Happy End nach drei Wintern. Das wäre nur die halbe Lehre. Drei Dinge aus den Jahren 1986–2012 stehen der Gegenwart unbequem nahe.
Erstens schließt dieser Teil die unbequemste Lehre der ganzen Serie ab. Teil 2 zeigte: Eine Technik, die heute als gescheitert gilt, kann der Kern des nächsten Booms sein. Hier ist der Beweis im Großformat. Die lernenden Netze wurden 1969 von einer der höchsten Autoritäten des Feldes für tot erklärt, blieben ein Vierteljahrhundert unmodisch, von eleganteren Verfahren überholt — und gewannen am Ende alles. Wer 2026 selbstsicher erklärt, dieser oder jener Ansatz sei „erledigt” — die symbolische KI, das neuro-symbolische Rechnen, dieser oder jener unterlegene Architektur-Zweig —, sollte sich an LeCuns Scheck-Leser erinnern. Eine Methode kann gleichzeitig real funktionieren und für tot gehalten werden. Geschichtliche Hygiene heißt: Totsagungen sind selten endgültig.
Zweitens — und das ist die schärfste Brücke in die Gegenwart — war der Durchbruch von 2012 weniger eine Erfindung als eine Skalierung jahrzehntealter Ideen, die endlich auf genug Daten und genug Rechenkraft trafen. Daraus zogen die Sieger eine Lehre, die zur prägenden Wette der gesamten folgenden Ära wurde: Wenn aus alten Netzen mit mehr Daten und mehr Rechenkraft so viel mehr wird — was wird dann erst aus noch viel mehr Daten und noch viel mehr Rechenkraft? Diese Skalierungs-Wette ist der direkte Vorfahr der heutigen Sprachmodelle, der Rechenzentren, des Chip-Hungers von 2026. Sie erklärt zugleich, warum man jeden gefeierten „Durchbruch” der Gegenwart mit derselben Vorsicht lesen sollte: Oft ist das Neue nicht eine neue Idee, sondern eine alte Idee, die endlich groß genug gerechnet wird. Und wer dabei als „Erfinder” in die Geschichte eingeht, entscheidet sich, wie der Fall Schmidhuber lehrt, weniger an der Erstheit des Gedankens als an der Lautstärke und der Wirkung seiner Durchsetzung.
Drittens, und das ist die Brücke in den nächsten Teil: 2012 entzündete ein Rennen, das bis heute nicht zur Ruhe gekommen ist. Sobald klar war, dass Skalierung gewinnt, wurde Skalierung zum einzigen Rezept — mehr Schichten, mehr Daten, mehr Rechenkraft, derselbe alte Backpropagation-Motor. Die fünf Jahre nach AlexNet pressten dieses Rezept in immer neue Bereiche: Sprache, Spiele, das Erzeugen von Bildern. Und 2017 sollte eine einzige Architektur erscheinen, die diese Wette auf die Spitze trieb und die Tür zu den Sprachmodellen aufstieß. Doch das ist Teil 5.
Bleibt die Ente, die diese Serie zusammenhält — und hier, ein letztes Mal in diesem Teil, steht sie auf dem Kopf. Vaucansons Automat, ELIZA, MYCIN: das waren Enten, die echt schienen und es nicht waren. LeCuns Scheck-Leser war das Gegenteil — eine Maschine, die wirklich las, wirklich sah, wirklich arbeitete, und die das Feld für eine tote Mechanik hielt, weil sie aus der Mode war. Beide Irrtümer sind gefährlich. Den Schein für echt zu halten, kostete die KI zwei Winter voller geplatzter Versprechen. Das Echte für tot zu erklären, hätte sie fast um ihre eigene Zukunft gebracht. Die nüchterne Lektion dieses Teils ist deshalb keine bequeme: Man muss beides können — den überzeugenden Schein entzaubern und das totgesagte Echte erkennen. Beides verlangt denselben Blick hinter die Oberfläche. Beides ist, am Ende, dasselbe Misstrauen gegen die schnattende Ente.
Im nächsten Teil: Der Deep-Learning-Urknall (2012–2017). Wie aus AlexNets Sieg in fünf Jahren ein globaler Goldrausch wurde — word2vec lehrt Maschinen die Bedeutung von Wörtern, AlphaGo schlägt 2016 den weltbesten Go-Spieler, und 2017 erscheint mit dem Transformer die Architektur, aus der alle heutigen Sprachmodelle wachsen. Die Skalierungs-Wette wird zum Rüstungswettlauf.
Quellen
Stammquellen der Serie
- Nils J. Nilsson: The Quest for Artificial Intelligence. Cambridge University Press, 2010. Wissenschaftliche Gesamtgeschichte; endet 2009, direkt vor dem AlexNet-Moment — liefert die Einordnung von Konnektionismus, Backpropagation und der frühen Netz-Forschung. Volltext: ai.stanford.edu/~nilsson/QAI/qai.pdf.
- Melanie Mitchell: Artificial Intelligence: A Guide for Thinking Humans. Farrar, Straus and Giroux, 2019. Erklärt die Deep-Learning-Wende und den ImageNet-/AlexNet-Moment aus der Sicht einer Forscherin, die den Hype nüchtern einordnet.
Connectionism-Korrektiv (Partei-Quelle — als solche gekennzeichnet)
- Jürgen Schmidhuber: Annotated History of Modern AI and Deep Learning. IDSIA, Technical Report 2022 (laufend aktualisiert). people.idsia.ch/~juergen/deep-learning-history.html. Quelle für die lange Netz-Vorgeschichte (Iwachnenko & Lapa 1965, Amari, Linnainmaa 1970, Fukushima 1979) und die GPU-Wende am IDSIA (Cireșan/DanNet, 2010/2011). ⚠️ Schmidhuber ist Konfliktbeteiligter, kein neutraler Chronist — die Fakten sind weitgehend belegbar, das Prioritäts-Framing ist parteiisch; hier bewusst getrennt verwendet.
Primärquellen
- David E. Rumelhart, Geoffrey E. Hinton & Ronald J. Williams: Learning representations by back-propagating errors. In: Nature 323 (1986), doi.org/10.1038/323533a0. Die Arbeit, die Backpropagation populär machte.
- Yann LeCun, Léon Bottou, Yoshua Bengio & Patrick Haffner: Gradient-Based Learning Applied to Document Recognition. In: Proceedings of the IEEE 86 (1998). Das faltende Netz (LeNet) hinter der Scheck- und Ziffernerkennung.
- Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li & Fei-Fei Li: ImageNet: A Large-Scale Hierarchical Image Database. CVPR 2009. Der Datensatz, der die Skalierung erst ermöglichte.
- Alex Krizhevsky, Ilya Sutskever & Geoffrey E. Hinton: ImageNet Classification with Deep Convolutional Neural Networks. NeurIPS 2012. AlexNet. Paper.
Zahlen (verifiziert)
- LeCuns Scheck-Leser: Das an den AT&T/Bell Labs entwickelte faltende Netz, kommerziell ab Mitte der 1990er von NCR ausgerollt, las nach gängigen Angaben „über 10 Prozent”, zeitweise 10 bis 20 Prozent aller in den USA eingereichten Schecks gegen Ende der 1990er. Nach LeNet und Yann LeCun (Wikipedia).
- AlexNet 2012: Top-5-Fehlerrate 15,3 Prozent gegen 26,2 Prozent des Zweitplatzierten — gut 10,8 Prozentpunkte Vorsprung. Nach dem NeurIPS-Paper (Krizhevsky/Sutskever/Hinton) und den offiziellen ILSVRC-2012-Ergebnissen; das Einzelmodell lag bei 16,4 %, das siegreiche Ensemble bei 15,3 %.
- ImageNet: über 14 Millionen handbeschriftete Bilder in über 20.000 Kategorien, erstmals 2009 auf der CVPR vorgestellt; der ILSVRC-Wettbewerb nutzte rund 1,28 Millionen Trainingsbilder in 1.000 Klassen. Nach ImageNet. Das CIFAR-Programm zur Netz-Forschung (NCAP, geleitet von Hinton) lief ab 2004.
Begriffsklärungen