Etwa einen Monat, nachdem Google die Beta der Cloud Vision API mit diversen Bildanalysefunktionen vorgestellt hat, folgt nun eine Schnittstelle zur Spracherkennung. Die Cloud Speech API übersetzt gesprochenen in geschriebenen Text. Sie erkennt 80 Sprachen beziehungsweise Varianten. Auf Wunsch liefert die API den Text bereits während des Erkennens als Stream. Alternativ übersetzt sie Audiodateien (FLAC, AMR, PCMU und Linear-16) in geschriebene Texte.

Störungen herausfiltern

Das System kann offensichtlich Hintergrundgeräusche selbsttätig herausfiltern. Wie schon bei der Bildanalyse gibt es zudem eine Funktion, die als unangemessen klassifizierte Inhalte in einigen Sprachen nicht überträgt.

Die derzeit gestartete Limited Preview, die offiziell als Alpha gilt, ist zunächst kostenlos und erfordert eine Registrierung. Auf der zugehörigen Seite ist die einzige erkennbare Einschränkung eine Maximallänge von zwei Minuten pro Audio Request. Interessierte Entwickler benötigen zudem einen Account für die Google Cloud Platform.

Wettlauf der Systeme

Dass Google nun auch die Spracherkennung für Entwickler öffnet, überrascht wenig. Zum einen liefern sich die großen Anbieter der APIs im Bereich maschinelles Lernen derzeit ein Wettrennen mit Angeboten wie IBMs Watson API und Microsofts Project Oxford. Zudem profitieren die künstlichen neuronalen Netze, die in der Cloud-Speech-API zum Einsatz kommen, von jeder neuen Eingabe und Berechnung: Je größer die Datenbasis, umso besser wird die Erkennungsrate. Das hilft den Kunden, wie Google auf der API-Site betont, aber natürlich ebenso dem Internetanbieter selbst, der gesprochene Sprache immer mehr als Standardeingabe verbreiten will. Ok Google! (rme)