Grâce à celui-ci, données et algorithmes sont hébergés sur des serveurs voisins des dispositifs de capture de l’information, permettant ainsi un traitement plus immédiat… et plus sécurisé. De plus en plus prisé dans le milieu industriel, le Edge Computing dispose désormais d’un marché d’offres (AWS Greengrass, EdgeLine IoT…) qui met en avant les coûts avantageux de cette technique par rapport aux stockages Cloud ou Data Lake. Seul prérequis : s’assurer de l’interopérabilité entre le système IoT et l’infrastructure Edge Computing.

Au-delà de la question des outils de traitement Fast Data, c’est le challenge des flux qui est cœur du dispositif : comment réduire le temps de traitement si les données doivent repasser par un serveur Cloud ? Pour répondre à ces questions et rendre les capteurs indépendants de la notion de connectivité, de nombreux dispositifs de traitement « à la périphérie » - c’est-à-dire sur une infrastructure de stockage de proximité – ont récemment vu le jour.

L’avènement de la Fast Data n’est pas un phénomène hors sol : c’est notamment par l’accroissement exponentiel des dispositifs d’Internet des Objets que l’on en est venu à se poser la question des traitements simplifiés. Comme l’évoquait Juvénal Chokogoué, Lead Data Engineer : « L’IoT est capable de générer 5 gigaoctets par seconde… Si on ne met pas en place des traitements temps réel, on passera à côté de ces data ».

En réalité, c’est la complémentarité des systèmes qui semble s’imposer comme l’enjeu numéro un des prochaines années : à savoir la segmentation des données de flux d’une part et des données de stock d’autre part, en fonction des utilisations différenciées que l’on souhaite en faire… Rajoutons à cela la problématique du coût (une infrastructure Fast Data coûtant le double d’une infrastructure Big Data) et c’est un probable casse-tête qui s’annonce pour les DSI !

Dans leur étude “Big & Fast Data: The Rise of Insight-Driven Business”, Cap Gemini et EMC indiquent que 54% des entreprises interrogées pour l’étude considèrent l’analyse des Fast Data comme plus importante que celle des Big Data.

La notion de Fast Data s’est alors imposée : s’appuyant sur les technologies de stream data (Spark, Storm, Kafka…) qui limitent le temps de traitement et l’occupation de la mémoire, le Fast Data vise à traiter et analyser de petits ensembles de données entrantes (structurées ou non-structurées) qui risqueraient de perdre leur valeur si elles ne sont pas soumises à une analyse immédiate. Le procédé s’appuie sur des outils de stockage flash et des bases de données orientées vélocité qui permettront d’extraire et traiter la donnée à très grande vitesse (on parle de plusieurs millions d’événements par seconde). Ce phénomène devrait s’accélérer avec l’avènement de l’Internet des Objets.

Si le traitement de gros volumes de données « en batch » reste un enjeu de taille au sein de l’entreprise – pour identifier des patterns et répondre à des besoins métiers long terme – le besoin d’immédiateté s’est vite imposé sur des segments de données plus petits et plus volatiles. Concrètement, pour des applications d’IoT ou de marketing personnalisé, la capacité de réaction rapide du système à un événement peut entrer en ligne de compte : par exemple, la formulation d’une offre promotionnelle dédiée pour un client qui effectue un comparatif de prix sur Internet. Ou la réponse d’un assistant vocal à la question de son utilisateur.

A mesure que l’enjeu des usages s’est ensuite imposé comme le nerf central de la valorisation des Big Data, le débat s’est alors recentré sur la phase aval d’analyse des données, soit la phase applicative… ouvrant ainsi le champ à des pratiques nouvelles sur le stockage et le traitement des données. Cloud, Edge Computing, Blockchain… Bienvenue dans l’ère de la donnée nomade !

L’apparition des Data Lakes au milieu des années 2010 est venue compresser ce long dispositif en une seule étape : désormais il est devenu possible de stocker directement la donnée brute dans le Data Lake sans traitement intermédiaire, selon un processus simple « Extract Load Transform » qui garantit un accès facilité aux données pour les métiers, sans l’effet silo du Data Mart.

Il fut un temps où, pour stocker le data deluge, on appliquait un protocole en trois étapes : le traitement ETL (Extract Transform Load) pour traiter la donnée brute, puis le stockage dans d’immenses entrepôts de données (Data Warehouses) puis le fléchage dans des Datamarts applicatifs pour répondre aux besoins métiers.

1/ Vous avez développé un assistant vocal qui analyse les données directement sur l’appareil… En quoi est-ce un avantage pour l’utilisateur ?

L’avantage numéro 1, c’est le « privacy by design » : nous garantissons que les données vocales des utilisateurs restent bien sur l’appareil et ne vont pas être transférées dans le Cloud. A partir du moment où l’on développe une approche de traitement localisé, on n’a aucune justification à faire remonter les données dans le Cloud. Quand on sait que ce sont des données collectées au plus près de l’activité (au sein de l’usine, au sein du véhicule, au sein du domicile), cela nous semble primordial de garantir cette confidentialité. Ce que ne fait pas Amazon avec Alexa…

Les deux autres avantages, ce sont bien évidemment le temps de réaction (il y a forcément moins de latence que lorsqu’on envoie sur un Cloud) et l’absence de connectivité requise (on peut utiliser l’assistant dans un environnement privé d’Internet).

2/ Techniquement, comment vous assurez-vous de la stabilité de vos modèles ?

Contrairement à la plupart des algorithmes qui sont mis à jour quotidiennement dans le Cloud en se connectant aux données hébergées, nous séparons les deux processus : nous créons d’abord un modèle d’inférence qui apprend et s’entraîne sur une base Big Data hébergée sur un serveur, puis, lorsqu’il est stable, nous l’exportons en autonomie sur l’appareil pour qu’il interagisse avec les données de l’utilisateur. Lorsque des mises à jour sont nécessaires, nous refaisons tourner le modèle sur le serveur pour l’enrichir avec des data externes.

3/Avez-vous besoin d’un grand nombre de données pour lancer le modèle ?

Comme pour beaucoup d’applications, l’enjeu numéro un pour créer un modèle est d’abord celui du démarrage « à froid » : on a besoin de générer un grand nombre de données pour stabiliser le modèle. Mais dans le domaine du langage naturel, on arrive à un premier plateau autour de quelques centaines de milliers d’expressions. C’est lorsque le système ne comprend plus la requête qu’on met en place une boucle de retour pour le mettre à jour.

Avec SNIPS, nous travaillons beaucoup sur des cas d’usage industriels donc nous calibrons aussi le langage naturel en fonction de ces besoins.

4/ Pouvez-vous nous décrire les briques algorithmiques de votre modèle ?

Il y en a 3 principales : une brique qui traduit le mot en phonème, une autre qui analyse l’intention derrière le mot (NLU) et enfin une autre qui est axée sur le dialogue. Nous avons décidé d’open sourcer la partie NLU car c’est celle qui nous semblait la plus avancée technologiquement et donc la plus susceptible de nous donner de la visibilité dans la communauté des développeurs. Notre ambition est vraiment de fédérer une communauté autour de l’utilisateur pour que l’interface homme machine devienne plus naturelle que ce que nous observons aujourd’hui avec la technologie.

5/ Justement, comment voyez-vous la pratique de l’IoT évoluer dans les prochaines années ?

L’IoT se développe mais souffre encore des problèmes de communication inter-objets : chaque opérateur essaie d’imposer son protocole et comme ce sont des infrastructures lourdes conçues pour des dizaines d’années (ex : dans le bâtiment), il est difficile d’imaginer un mouvement d’uniformisation des plateformes avant quelques années. Cependant les GAFA vont probablement essayer de faire accélérer l’adoption en rajoutant des fonctionnalités d’abord à la périphérie de l’usage (ex :

fonctions domotiques) avant de transformer l’ensemble du bâtiment. Le principal souci, alors, ce sera celui de la privacy car personne ne va accepter qu’Amazon ou Google ne s’invite dans son salon !

6/ De quoi avez-vous encore besoin pour développer SNIPS ?

Aujourd’hui cela fait 5 ans que nous existons et nous avons déjà rattrapé l’état de l’art pour des performances analogues à celles des GAFA en matière de langage naturel. Les verrous que nous rencontrons ils sont davantage marketing et financiers que technologiques. Nous avons une force de frappe bien moindre que celle des GAFA en matière commerciale, mais également moins de soutien financier que dans la Silicon Valley où les investisseurs sont capables de créer des géants (et pourtant nous avons la chance d’avoir été soutenus très tôt par de bons investisseurs). Aujourd’hui il y a une maturité dans l’usage des assistants vocaux (7 ans après l’arrivée de Siri !), il faut simplement réussir à embarquer davantage ces technologies dans les objets du quotidien.

LA BLOCKCHAIN, AVENIR DU STOCKAGE ?

Sur le terrain du stockage et de la mobilité des données, la tendance qui s’est imposée ces dernières années à l’instar du Big Data est sans conteste celle de la Blockchain.

Conçue comme un stockage de données « décentralisé », c’est-à-dire éclaté entre plusieurs réseaux de serveurs, la Blockchain se présente sous la forme de bases de données distribuées dont chaque enregistrement constitue un bloc daté. Un enregistrement ultérieur constituera un second bloc lié au précédent… De telle sorte que chaque version de la base de données pourra être monitorée par plusieurs ordinateurs hôtes.

C’est cette garantie de sécurité exercée par une multitude de machines qui constitue l’argument numéro 1 en faveur de la Blockchain : parce qu’il n’y a pas de responsabilité d’un serveur unique mais d’une multitude, la probabilité d’identifier les failles de données et de transmettre l’information au réseau semble plus élevée. Idem dans le cas d’une malveillance : avec une Blockchain, impossible de prendre la main sur les bases de données puisqu’elles sont hébergées en plusieurs endroits, avec des technologies de cryptage avancé pour sécuriser les échanges.

A l’origine développée pour mettre en place des systèmes monétaires numériques (tels que le Bitcoin), la technologie Blockchain s’est désormais élargie à l’ensemble des données du digital… ce qui la connecte forcément au Big Data. Là où le principal apport du Big Data résidait dans l’analyse, c’est autour de la notion de transfert de données que s’est créé le positionnement de la Blockchain. Transactions bancaires, échanges d’informations médicales, flux entre deux capteurs : la Blockchain permettrait d’envoyer des informations sécurisées à l’ensemble du réseau en détectant les données erronées, les doublons, les problèmes de versions, etc. Une étape préliminaire indispensable à l’analyse Big Data et qui pourrait permettre à l’usage « détection de fraudes » de progresser à grande vitesse parmi les use cases du Big Data… tout comme les applications en matière de traçabilité dans les flux logistiques et industriels, avec la Blockchain comme garantie de transparence.

S’il est difficile d’établir le nombre de blockchains dans le monde aujourd’hui (publiques comme privées), les chiffres pointent clairement une augmentation des transactions sur ces réseaux : rien que sur le segment des ICO (levées de fonds numériques utilisant les cryptomonnaies en circulation sur les blockchains), le montant total est passé de 100 millions de dollars en 2016 à 5,6 milliards de dollars en 2017.

La Blockchain pourrait représenter 20% du marché Big Data d’ici 2030.

​