Er ist Teil seiner Forschungen zu Computervision und Maschinenlernen. In einem ersten Schritt wird ein Bild auf Objektbereiche untersucht. Im zweiten Schritt kehren die Algorithmen auf die Pixelebene zurück, um die Umrisse zu definieren. Zuletzt können Labels vergeben werden.

Facebook hat weiteren Code für Computervision und Erfassung von Bildinhalten mittels Künstlicher Intelligenz quelloffen gemacht. Seine Ankündigung eröffnet zugleich Einsichten in die Verfahren, mit denen Facebook Bilder analysiert.

Konkret handelt es sich um drei neue Werkzeuge. Das erste, DeepMask, ist ein Framework für die Aufteilung von Bildinhalten in Segmente oder Bereiche. Das zweite, SharpMask, setzt darauf auf, um zu erschließen, welche dieser Segmente einem abgebildeten Objekt entsprechen. Das dritte, MultiPathNet, gibt jedem dieser Objekte einen Namen und klassifiziert es als Bild.

Neben dem eigentlichen Code gibt das Social Network Forschungsberichte und Demonstrationen heraus. Die Algorithmen wurden in Facebooks Neuralen Netzen (also dem menschlichen Gehirn nachgebildeten Computersystemen) mit Millionen Beispielbildern trainiert.

Besonders interessant ist die Schilderung des Wechselspiels zwischen DeepMask und SharpMask, die Mitarbeiter Piotr Dollar in seinem Blogbeitrag vorlegt. SharpMask setzt demnach auf Pixelebene an, um zu ermitteln, wo im Bild sich Objekte befinden – und an welchen Stellen sie auf der zweidimensionalen Abbildung durch andere Objekte verdeckt sind. Dazu muss es zwei Fragen eindeutig mit ja oder nein beantworten: Befindet sich an der gerade untersuchten Stelle ein Objekt? Und ist der aktuelle Pixel Teil des zentralen Objekts in diesem Bereich?

So ergebe DeepMask eine grobe Übersicht der Objektbereiche, deren Verfeinerung SharpMask vorbehalten sei, schreibt Dollar. „SharpMask kehrt den Informationsfluss in einem Deep Network um, indem es Funktionen einer eigentlich früheren Netzwerkschicht verwendet. Betrachten Sie es so: Um den allgemeinen Umriss eines Objekts zu erfassen, brauchen Sie ein abstraktes Verständnis, was Sie untersuchen (DeepMask), aber um die Grenzen präzise zu setzen, müssen Sie die untergeordneten Merkmale bis hinab auf die Pixelebene untersuchen (SharpMask).“ Facebook versuche auf diese Weise, Daten jeder Abstraktionsstufe mit möglichst geringem Verwaltungsaufwand zu berücksichtigen.

ANZEIGE So lassen sich Risiken bei der Planung eines SAP S/4HANA-Projektes vermeiden Ziel dieses Ratgebers ist es, SAP-Nutzern, die sich mit SAP S/4HANA auseinandersetzen, Denkanstöße zu liefern, wie sie Projektrisiken bei der Planung Ihres SAP S/4HANA-Projektes vermeiden können. >>> Jetzt herunterladen! >>>

Die Plattform von Facebook ist zunehmend auf Bildinhalte einschließlich Bewegtbildern – also Video – ausgerichtet. Bilderkennungstechniken sollen ihm irgendwann ermöglichen. Bildinhalte zu klassifizieren, ohne dass Nutzer Tags anlegen müssen. Ein Beispiel dafür ist aktuell in seiner iOS-App die Funktion „Automatic Alternative Text„, die Vorleseprogrammen für Blinde einen automatisch erstellten Inhalt übergibt.

Als Beispiel für eine aktuelle Ansage nennt Facebook die folgende: „Das Bild enthält wahrscheinlich: drei Personen, lächelnd, im Freien.“ Die Eingangsformulierung ist immer gleich und weist darauf hin, dass die Erkennung noch keineswegs perfekt arbeitet. Bisher hätten Lese-Assistenten aber nur die Anmerkung „Foto“ machen können, erklärte das Unternehmen zur Einführung.

[mit Material von Larry Dignan, ZDNet.com]

Tipp: Sind Sie ein Facebook-Experte? Überprüfen Sie Ihr Wissen – mit 15 Fragen auf silicon.de.