Go ist ein asiatisches Brettspiel und weit komplizierter als Schach. Es sind so viele Züge möglich, dass das Spiel für eine Künstliche Intelligenz als schwer zu knacken galt.

Supercomputer AlphaGo erregte Aufsehen, als er menschliche Champions schlug. Sein Nachfolger ist noch stärker: Er besiegt AlphaGo in 100 Spielen 100 Mal. Die neue Künstliche Intelligenz war nicht mit Spielzügen menschlicher Go-Meister trainiert worden.

Ein neues selbstlernendes Computerprogramm perfektioniert das chinesische Brettspiel Go ohne menschliches Zutun binnen weniger Tage: AlphaGo Zero besiegte seinen Vorläufer AlphaGo, der bereits die besten menschlichen Go-Spieler geschlagen hatte, in 100 Spielen 100 Mal. Während das ältere Modell AlphaGo noch monatelang mit Spielzügen menschlicher Go-Meister trainiert worden war und etwa 30 Millionen Spiele absolviert hatte, benötigte AlphaGo Zero drei Tage und knapp 5 Millionen Spiele, um besser zu werden als sein Vorgänger.

Die Software sei "nicht länger durch die Grenzen menschlichen Wissens beschränkt", betonen David Silver und Demis Hassabis von der Google-Entwicklerfirma Deepmind, die den Supercomputer im Fachblatt "Nature" vorstellen. "AlphaGo Zero ist jetzt die stärkste Version unseres Programms und zeigt, welchen Fortschritt wir auch mit weniger Rechenleistung und ohne die Nutzung menschlicher Daten erreichen können", so Hassabis.

Keine menschliche Taktik antrainiert

Das Team um Silver und Hassabis verzichtete darauf, der Software die Taktiken menschlicher Go-Spieler anzutrainieren. AlphaGo Zero erhielt lediglich das Regelwerk und musste pro Zug zwei Dinge berechnen: Welche nächsten Züge sind möglich, und wie groß ist die Wahrscheinlichkeit, mit diesen Zügen am Ende zu gewinnen?

Die Entwickler gaben dem System auch keine Lernstrategie vor, es werden lediglich erfolgreiche Wege "belohnt" und andere Optionen "bestraft". Bei den Spielen gegen sich selbst konnte AlphaGo Zero Spielzüge ausprobieren und sich verbessern. Dabei war die Lernkurve zwar nicht so steil wie beim Vorgänger, der noch von menschlichen Spielern gelernt hatte, dafür wuchs sie aber höher.

Zudem kommt das neue Programm mit kleinerer Rechenarchitektur aus: Der Vorläufer benötigt zwei neuronale Netze, AlphaGo Zero nur eins. Wo dem Vorläufer 48 sogenannte Tensorprozessoren (Tensor Processing Units; TPUs) zur Verfügung standen, genügen AlphaGo Zero vier Prozessoren.

Spielt anders als der Mensch

Das Team beobachtete, dass AlphaGo Zero anders an Go herangeht als ein Mensch. Zwar tauchten die meisten klassischen Go-Spielzüge früher oder später in den Spielen der Software gegen sich selbst auf, aber in anderen Lernphasen als beim Menschen. So zeigte AlphaGo Zero die Strategie "Shicho", die Menschen häufig als Neulinge spielen, erst nach längerem Training. Am Ende bevorzugte die Software Spielzüge, die Go-Meistern bisher unbekannt waren.

In einem "Nature"-Kommentar spricht Satinder Singh von der University of Michigan in Ann Arbor von "einem der größten Fortschritte in Bezug auf Anwendungen für das Gebiet des bestärkenden Lernens". Dass der Computer menschliche Fähigkeiten in den Schatten stelle, sei aber kein Anlass zur Sorge: "Dies ist nicht der Anfang vom Ende, da AlphaGo Zero wie jede andere erfolgreiche Künstliche Intelligenz bis jetzt extrem begrenzt ist, was es weiß und was es im Vergleich zu Menschen und sogar Tieren tun kann."

"Wissen aus dem Nichts geschöpft"

Auch deutsche Experten sind beeindruckt: "Wieder einmal ist den Kollegen bei Deepmind ein echter und großartiger Coup gelungen, denn sie konnten zeigen, dass ein intelligentes Go-Programm, das gegen sich selbst spielt, lernt, noch besser zu werden, als wenn es aus Spielen von Menschen lernt", sagt Klaus-Robert Müller von der Technischen Universität Berlin. "Das klingt, als ob man Wissen aus dem Nichts schöpfen könnte, sozusagen ein Münchhausen-Trick der Künstlichen Intelligenz."

Andere Forscher relativieren den Begriff "übermenschlich": "Zwar spielt dieses System besser Go als jeder Mensch, aber diese Fähigkeit ist nur ein minimaler Aspekt aller menschlichen Fähigkeiten", sagt Philipp Slussalek vom Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) in Saarbrücken. "Die menschlichen Fähigkeiten sind offensichtlich dramatisch viel breiter, allgemeiner und flexibler als es jeder Computer auf absehbare Zeit sein wird."

Entwickler Hassabis betont den Nutzen der Neuerung: Die Software solle helfen "bei der Lösung aller möglichen Probleme der realen Welt, wie Proteinfaltung oder dem Entwurf neuer Materialien". Dass die neuen Erkenntnisse über Go hinausreichen, glaubt auch Slussalek: "Mit entsprechenden Simulationen von anderen Umgebungen sollte man auch sinnvolles Verhalten und gute Strategien für andere, wichtigere Anwendungsbereiche erlernen können." Das gelte etwa für die Sicherheit autonomer Fahrzeuge.