Das von Google und der CIA mitfinanzierte Start-up Recorded Future hat eine „Prognose-Maschine“ entwickelt, die bei ersten Analysten bereits gut ankommt.



Der 2007 erschienene Dokumentarfilm über den legendären Sänger von The Clash, Joe Strummer, trägt den schönen Titel: „The Future is Unwritten“. Eine Binsenweisheit, möchte man meinen. Das von Google und der CIA mitfinanzierte Start-up Recorded Future ist offenbar anderer Meinung: Es will aus Internetdaten in Echtzeit Hinweise auf künftige Ereignisse herausfiltern. 18 Monate nach der Gründung hat die Firma nun erstmals konkretere Einblicke gewährt, wie sie dieses Kunststück technisch vollbringen will.



Herkömmliche Suchmaschinen werten die Verlinkungen zwischen Webseiten aus. Google etwa errechnet daraus mit dem so genannten Pagerank-Algorithmus, wieviel Relevanz ein Dokument hat und platziert gut verlinkte Webseiten entsprechend weit oben in der Trefferliste einer Suchanfrage. Die Software von Recorded Future versucht hingegen, unterhalb dieser Linkebene zu schürfen: im Inhalt von Dokumenten und in den „unsichtbaren“ Verbindungen zwischen Menschen, Orten und Ereignissen, die im Netz beschrieben werden.

„Das ermöglicht mir, nach speziellen Mustern wie Spekulationen über neue Produktankündigungen von Apple zu suchen, oder herauszufinden, wann ein Unternehmen in Indien investieren will“, sagt Christopher Ahlberg, Gründer des Bostoner Start-ups.



Ahlberg verdeutlicht dies mit einer Suche zum Pharmakonzern Merck. Die Zeitleiste, die von der Recorded-Future-Software ausgespuckt wird, zeigt nicht nur jüngste Nachrichten – etwa über Quartalsergebnisse von Merck – an. Auf dem Zukunftsabschnitt listet sie auch auf, wann welche klinischen Tests für welche neuen Medikamente abgeschlossen sein werden. Diese Information holt das Programm aus der Webseite clinicaltrials.gov. In einem zweiten Beispiel zu Facebook werden auf der Zeitachse mögliche Daten für einen Börsengang des sozialen Netzwerks angegeben, über die Medien spekuliert haben.



Kernstück der Technologie ist laut Ahlberg ein permanent aktualisierter Datenindex, der mit „streaming data“ gefüttert wird. Dazu gehören Medienartikel, Mitteilungen von Behörden, Twitter-Nachrichten oder Abschriften von politischen Reden. Mit Hilfe von Algorithmen aus der Spracherkennung identifiziert Recorded Future in diesen Daten verschiedene Ereignistypen wie Produktveröffentlichungen oder Unternehmensfusionen aber auch das Auftreten von Naturkatastrophen. Zu jedem zukünftigen Ereignis werden das voraussichtliche Datum und Verknüpfungen mit Personen, Firmen und Ländern gespeichert. Sogar die Tonlage, in der Medien über Unternehmen berichten, wird – als positiv oder negativ – verzeichnet.



Derzeit habe Recorded Future noch weniger als „unter 100“ Kunden, räumt Ahlberg ein. Dazu gehören Finanzdienstleister und Analysten für Regierungen oder Medien. Für einen monatlichen Beitrag erhalten sie Zugang zum Online-Dienst des Start-ups. „Regierungsanalysten interessieren sich eher dafür, Personen und Orte im zeitlichen Verlauf zu verfolgen, während Finanzdienstleister herausfinden wollen, was um bestimmte Firmen herum passiert“, beschreibt Ahlberg die bisherige Nachfrage.

Screenshot der "Prognose-Maschine". (Bild: Recorded Future)

Neben der Webseite mit der "Prognose-Maschine", auf der Kunden über die Suchfelder "What", "Who/Where" und "When" einen Blick in die digitale Kristallkugel werfen können (siehe Bild sowie YouTube-Video der Firma ), bietet Recorded Future auch einen kostenlosen Newsletter an. In ihm bekommen Nutzer Tipps zu künftigen Entwicklungen in ausgewählten Bereichen. Über eine Programmierschnittstelle können Kunden die Software auch in eigene Anwendungen einbetten. Einige Finanzanalysten würden die Daten von Recorded Future bereits in ihre Arbeit integrieren.



In naher Zukunft sei auch eine Anwendung für Verbraucher vorstellbar, so Ahlberg. „Wenn ich ein iPhone kaufen möchte, würde ich natürlich gerne wissen, ob in zwei Wochen ein neues Modell auf den Markt kommen wird“, beschreibt Ahlberg den Nutzen für Privatpersonen. „Ich könnte auch nachschauen, wie lange die Wettbewerber von Apple brauchen, um mit einem eigenen Produkt nachzuziehen.“



Als Beleg für die Qualität seiner Software führt Ahlberg Studien an, die Ergebnisse von Recorded Future mit dem Handelsvolumen von Aktien verglichen. „Unsere Impuls-Metrik, die zu einem Ereignis eine Aktivitätsstärke liefert, und künftige Ereignisse korrelieren mit dem tatsächlichen Handelsvolumen“, sagt Ahlberg.



Mit der Software von Recorded Future lässt sich laut Ahlberg auch die Qualität von Quellen bewerten. So entpuppte sich ein Financial-Times-Blog als treffsicherer als andere Quellen in der Einschätzung, wie sich Unternehmen im Börsenindex S&P 500 entwickeln. Negativen Kommentaren im Blog sei eine Woche später ein Kursabfall gefolgt, während positive Bewertungen entsprechend von einem Anstieg begleitet wurden.



„Sie identifizieren und sortieren Aussagen über die Zukunft“, fasst Steven Skiena von der State University of New York in Stony Brook den Ansatz zusammen. Skiena hat eine ähnliche Software entwickelt, die Nachrichten und Blogs auswertet. Sie wird bereits von der Firma General Sentiment eingesetzt. Derzeit versucht er, ein Modell dafür zu entwickeln, mit welcher Wahrscheinlichkeit eine wenig bekannte Person berühmt wird. Hierzu wertet er mit anderen Sozialwissenschaftlern Datenbestände über mehrere Jahre aus.



Es gebe eine ganze Reihe von Software-Werkzeugen, um Daten zu Ereignissen aus dem Netz zu ziehen, bestätigt Panagiotis Ipeirotis, Ökonom an der New York University. Auch er forscht am Datamining in Online-Medien und sozialen Netzwerken. Das Kunststück sei jedoch, sie in eine zeitliche Abfolge zu bringen. „Die Analyse dieser Abfolge kommt in der Forschungsliteratur noch kaum vor“, weiß Ipeirotis. „Selbst brauchbare Zeitdaten von Nachrichten zu bekommen, um sie chronologisch anzuordnen, ist kein triviales Problem.“



Mit ihrem Ansatz, Zeitverläufe zu erstellen, unterscheide sich Recorded Future von anderen Datamining-Firmen, urteilt Ipeirotis. „Ich bin neugierig, wann eine andere Firma auf diesen Zug aufspringt.“ Je größer die Datenbestände von Recorded Future, General Sentiment und anderen Firmen würden, desto leistungsfähigere Analyseverfahren seien zu erwarten, vermutet Skiena.



Recorded Future konzentriert sich im Moment darauf, seine Analyse auch auf arabische und chinesische Quellen auszudehnen. Denn für Ahlberg hat erst einmal die Vergrößerung des Indexes höchste Priorität: „Ich wäre gerne in der Lage, sämtliche Datenströme auf dem Planeten abzugreifen.“ (nbo)