Neueste Forschungen zeigen, wie schnell etwa Roboter-Butler lernen können, ihren menschlichen Herren einen Kaffee zuzubereiten oder den Laptop hinterherzutragen, ohne dass dabei alles zu Bruch geht.

Von Michael Moorstedt

Es war ein tragischer Unfall. Ende vergangenen Jahres ertrank ein Mitarbeiter eines Sicherheitsdienstes in Washington D. C. in einem öffentlichen, wenige Zentimeter tiefen Springbrunnen. Zum Glück handelte es sich nur um einen Sicherheitsroboter. Seine Schöpfer hatten ihm nicht vermittelt, dass Wasser selbst für noch so hoch entwickelte Elektronik gefährlich ist.

Damit man die noch tumben Maschinen nicht ganz so unvorbereitet auf die echte Welt loslassen muss, werden sie immer öfter in virtuellen Umgebungen trainiert. Forscher der Universität von Michigan haben ihre Roboterauto-Algorithmen etwa in der hyperrealistischen Welt des Computerspiels "Grand Theft Auto 5" trainiert. Schließlich gibt es auch dort Verkehrszeichen, Fußgänger und schwierige Witterung - aber keine Versicherungsklagen. Andere Forschungsgruppen haben Wohnungen digital nachgebaut. In mehr als 100 verschiedenen Szenarien sollen die Roboter-Butler von morgen lernen, wie sie ihren menschlichen Herren einen Kaffee zubereiten oder den Laptop hinterhertragen, ohne dass dabei alles zu Bruch geht.

Etwas rustikaler ausgestattet ist da doch eine Lernumgebung, die die Google-Tochter Deep Mind vor Kurzem vorgestellt hat. Es ist ein schlichter schachbrettgemusterter Boden in einem dreidimensionalen Raum. Hier lernen Computerprogramme, sich in der echten Welt fortzubewegen. Trainiert wird so gut wie alles, vom Greifen eines Balles durch eine rudimentäre Roboterhand bis hin zu anspruchsvolleren motorischen Leistungen wie dem Gehen. Die Programmierer benutzen dafür eine spezielle Methode maschinellen Lernens namens Reinforcement Learning. Das bedeutet nichts anderes, als dass das Programm, wenn es bei einer Aufgabe Erfolg hat, einen Belohnungsimpuls bekommt.

In einem Video sieht man eine humanoide Figur, wie sie immer wieder versucht, sich aufzurichten und zu bewegen, und zunächst scheitert sie kläglich. Man kann der Evolution beim Lernen zusehen. Rührend sieht das aus. Denn weil es ja nicht durch die Vorstellungen der echten Welt vorbelastet ist, kommt das System auf reichlich kreative Lösungen, um einen stabiles Gangbild zu erzeugen. Eine Art Watscheln mit angewinkelten Armen etwa oder einen Rückwärtsgang mit ziemlicher Schlagseite. Dass man es dann aber doch mit einem leistungsfähigen Computersystem zu tun hat, sieht man, wenn der virtuelle Läufer auf einmal komplizierte Ballettfiguren aufführt, Pirouetten, Arabesken, nur bei der Plié hapert es noch ein bisschen. Nicht mehr lange jedoch, die Figur muss es nur oft genug wiederholen.

Das ist natürlich eine ziemliche Holzhammer-Methode. Jeder Didaktiker würde die Hände über dem Kopf zusammenschlagen bei diesem simplen Reinprügeln, für das echtes Verständnis überflüssig ist. Am Forschungsinstitut Open AI wollte man sich damit nicht zufriedengeben. Die Idee: Jedes Mal, wenn man scheitert, bekommt man eine Ahnung davon, was schiefgelaufen ist und was man verändern muss, um sein Ziel - in diesem Fall das virtuelle Zuckerchen - zu erreichen. Aus Fehlern wird man klug, sagt dazu der Volksmund, die Forscher haben ihr Programm lieber Hindsight Experience Replay genannt.

Der Ansatz ist erfolgversprechend. Nach 200 Wiederholungen hat ein nach der herkömmlichen Methode trainierter Roboter-Arm noch immer nicht begriffen, wo er einen Ball hinlegen soll, Erfolgsquote 0,6 Prozent. Der neue Algorithmus ist bei der gleichen Anzahl von Trainingseinheiten bereits in neun von zehn Fällen erfolgreich. Die künstliche Intelligenz soll künftig also aus Fehlern lernen. Auch so eine Sache, die bis vor Kurzem noch vor allem uns Menschen vorbehalten war.