20 Jahre nach Garry Kasparovs Niederlage gegen DeepBlue wurde die Schachwelt erneut revolutioniert. Der von Google und DeepMind entwickelte AlphaZero-Algorithmus musste nur vier Stunden gegen sich selbst spielen, um sich das Schachwissen von anderthalb Jahrtausenden anzueignen und ein Niveau zu erreichen, das nicht nur für die besten Menschen, sondern auch den amtierenden Computerschach-Weltmeister ausreicht. In einem auf 100 Partien angesetzten Match schlug das Programm Stockfish mit 28 zu 0 Siegen.

Erst vor fünf Tagen meinte Ian Nepomniachtchi vor der 1. Runde der London Chess Classic in der Firmenzentrale von Google:

Ich hoffe, dass es eine große gemeinsame Zukunft von Google und dem Schachspiel gibt. Damit meine ich nicht Erfindungen wie AlphaGo oder AlphaChess, die das Schach kaputtmachen, sondern eine freundlichere Kooperation.

Die Vorzeichen war jedoch alarmierend, denn AlphaGo, das Programm, das den Go-Weltmeister schlug, wurde mittlerweile von AlphaGoZero abgelöst, das sich das Spiel selbst beibringt.

Einer der Gründer von DeepMind, Demis Hassabis, galt früher selbst als Schachwunderkind, und als seine Mitarbeiter sich der Herausforderung angenommen hatten, den Menschen beim Go schlagen, war es natürlich verlockend, dieselbe Technik auf Schach anzuwenden. Wir haben längst eingesehen, dass der Mensch unterlegen ist, doch konnten wir uns damit trösten, dass die Schachcomputer, die uns schlagen, immerhin das Werk menschlicher Genialität sind. Das hat sich geändert.

Die Bombe platzte am 5. Dezember 2017 in Form einer Dokumentation, die ohne großes Aufsehen veröffentlicht wurde: Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm.

Ihr könnt sie hier herunterladen:

Der Inhalt ist beeindruckend. Das Team von DeepMind kann nachweisen, dass eine generische Version seines Algorithmus ohne Kenntnisse, die über die Regeln hinausgehen, sich selbst vier Stunden beim Schach, zwei Stunden beim Shogi (Japanisches Schach) oder acht Stunden beim Go trainieren und anschließend den amtierenden Computerweltmeister – sprich den stärksten Spieler der Welt - schlagen kann! Beim Schach kam dabei nicht nur ein Sieg heraus, sondern eine Vernichtung.

Stockfish ist der amtierende TCEC-Computerschach-Weltmeister, der dieses Jahr zwar nicht dasWM- Finale erreichte, aber davor in 51 Partien ungeschlagen geblieben war. In einem Match mit AlphaZero verlor er 28 Partien und blieb bei 72 Remis ohne Sieg. Als Weißer erzielte AlphaZero phänomenale 25 Siege bei 25 Remis, während er als Schwarzer „nur“ drei Siege und 47 Remis erreichte. Wie man sieht, ist es durchaus wichtig, wer die Partie beginnt!

In dem Papier publiziert DeepMind zehn Gewinnpartien gegen Stockfish, die ihr hier mit klassischer Computeranalyse nachspielen könnt (einfach auf das Ergebnis klicken):

Die Partien sind faszinierend und wurden bereits von Schachkennern hochgelobt. In der ersten Partie etwa strebte AlphaZero eine Stellung mit dem Läuferpaar an, obwohl Weiß vier Bauern für einen Läufer hat:





Natürlich setzte sich das Läuferpaar durch! In der letzten Partie ließ AlphaGo den Springer auf h6 nach 18...g5 einfach hängen:





Stattdessen kam 19.Te1!?, was nur die Vorbereitung für weitere Opfer war. Für jeden Geschmack war etwas dabei:

"Wir alle mussten, dass Computer taktische Monster sind - mich haben die positionellen Siege beeindruckt. Die Partien 7 bis 9 sind genial!"

Wie funktioniert das?

Zunächst ist festzuhalten, was nicht gemacht wurde:

"Heißt das, dass der Computer kein Eröffnungsbuch hat? Kann man sich die ersten Partien ansehen? Es wäre interessant, sich die Lernkurve anzuschauen."

"Kein Eröffnungsbuch, keine Endspiel-Tablebases, keine Heuristiken, nichts. Die komplette Dokumentation kommt bald heraus, darin sind auch die ersten Partien enthalten."

Stattdessen wird der Algorithmus seinem Namen gerecht und beginnt, die Regeln ausgenommen, bei Null. Danach spielte er mit dem sogenannten Monte-Carlo-Algorithmus, bei dem zunächst zufällig ausgewählte Züge ausprobiert werden und ein neuronales Netzwerk lernt, welche Möglichkeiten vielversprechender sind. Dies scheint der richtige Ansatz zu sein, allerdings ist der ausschlaggebende Faktor womöglich die phänomenale Hardware.

Während des Trainings hatte AlphaGo Zugang zu “5.000 TPUs, um Partien gegen sich selbst zu generieren, und 64 TPUs, um die neuronalen Netzwerke zu trainieren“.

TPUs, tensor processing units bzw. Tensorprozessoren , sind im freien Handel nicht erhältlich, da sie von Google speziell dafür entwickelt wurden, die Berechnungen durchzuführen, die beim maschinellen Lernen benötigt werden. Der bereits trainierte Algorithmus lief derweil auf einem Computer mit vier TPUs und war dabei sehr effizient: Statt 70 Millionen Stellungen pro Sekunde wie Stockfish berechnet er nur 80.000. Warum aber ist er so effizient?

AlphaZero kompensiert die deutlich niedrigere Anzahl von Berechnungen durch sein tiefgründiges neuronales Netzwerk, das sich stärker auf die vielversprechendsten Varianten konzentriert und dadurch einen „menschlicheren“ Ansatz verfolgt. Abbildung 2 zeigt die Skalierbarkeit jedes Spielers im Hinblick auf die Bedenkzeit, gemessen auf einer Elo-Skala und bezogen auf Stockfish bzw. Elmo mit 40 Minuten Bedenkzeit. Damit wird der weit verbreitete Glaube infrage gestellt, dass die Alpha-Beta-Suche in diesen Belangen die überlegene Technik sei.

Nimmt die Bedenkzeit im Vergleich zu der einen Minute pro Zug der oben genannten Partien zu, kann man davon ausgehen, dass AlphaZero sich noch mehr verbessert als die bisherigen „Holzhammermethoden“, wobei die Autoren auch anmerken, dass es keinen Grund gebe, nicht auch auf einige traditionelle Tricks der Schachcomputertechnologie zurückzugreifen:

Wahrscheinlich werden diese Techniken die Spielstärke von AlphaZero weiter verbessern; bisher haben wir uns aber ausschließlich auf den Lernprozess durch Spiel gegen sich selbst konzentriert und werden diese Erweiterungen erst bei der zukünftigen Forschung berücksichtigen.



Was lernen wir daraus?

Algorithmen, die sich maschinell etwas beibringen, verändern nicht nur Spiele wie Schach, sondern die Welt um uns herum. Gelingt es uns, eine sehr grundlegende Form von Bewusstsein und Intelligenz – also die wahre Bedeutung von Künstlicher Intelligenz - zu kreieren, kann es sein, dass dabei am selben Tag oder wenig später das intelligenteste Wesen des Universums herauskommt. Immerhin ist es erfreulich zu sehen, dass der Computer die Entwicklung des Schachs der letzten 100 Jahre anerkennt, denn das Programm hat sich ausschließlich selbst einige der bekanntesten menschlichen Eröffnungen zu Eigen gemacht:

Die Graphiken sind faszinierend, da man nachvollziehen kann, wie bestimmte Eröffnungen - wie Französisch oder Caro-Kann - im Verlauf des Trainings populär und dann mit zunehmender Spielstärke wieder unbeliebter wurden. Außerdem sieht es so aus, als gäbe es einen Grund für die Popularität des Damengambits, das auch auf höchstem Niveau immer wieder zur Anwendung kommt...

"Kaum überraschend, dass AlphaZero die Berliner Verteidigung spielt"

Wie geht es weiter?



Was nun passiert, hängt stark davon ab, wie sehr DeepMind seinen Algorithmus „am Leben erhält“. Wird er wie DeepBlue „verschrottet“ oder kostenlos bzw. kostenpflichtig für Schachspieler verfügbar sein? Man kann sich vorstellen, dass die Schachelite, die begierig nach jedem noch so kleinen Vorteil sucht, sich darum reißen wird. Kann es sein, dass dieses Programm neben der bisherigen Software zur Stellungseinschätzung und zum Finden potentieller Züge genutzt wird?

Was machen außerdem die klassischen Schachprogrammierer? Können sie in DeepMinds Fußstapfen treten oder bleiben ihnen die Techniken verwehrt, die sie selbst nicht so einfach entwickeln können?

Viele offene Fragen, aber die Schachwelt ist erschüttert!

"Auch die Ära der Schachcomputerprogramme scheint vorbei zu sein. AlphaZero brauchte nur vier Stunden Training mit sich selbst, um Stockfish 64:36 zu schlagen."

Warten wir die weiteren Ereignisse der nächsten Wochen und Monate ab.

Weitere Links: