Imprimer

Web 3.0 : aux gros mots, les gros remèdes !

Écrit par Yann-Yves Biffe.

Vous aimez « Person of interest » sur TF1, série dans laquelle deux héros sauvent de futures victimes en croisant des milliards de données rendues prédictives ? Tant mieux, car la réalité est en train de rejoindre la fiction. C'est bien, c'est mal, la question ne se pose plus vraiment car c'est là. Le big data arrive et vous êtes concernés, à titre personnel et dans celui de la gestion de la Cité.

 

10 % seulement de la masse des informations disponibles aujourd'hui ont été générées entre la création du monde (ça fait donc un bail) et 2011 inclus, le reste soit 90 % ayant été produit au cours des deux dernières années. Et la même proportion va se reproduire tous les deux ans, de façon exponentielle. C'était le propos de départ de Joël Rubino, CEO d'ApiCube, société spécialisée dans la gestion de ces données, invité à témoigner au Forum Cap'Com lors du Carrefour Numérique consacré au Big data par ses pilotes Marc Cervennansky et Benjamin Teitgen. Il montrait ainsi l'énormité des informations disponibles et surtout la rapidité ahurissante de leur rythme de développement. Même si seulement 1 % de cette masse est exploitée...

On voit avec ces seuls deux chiffres le champ qui s'ouvrent devant ceux qui ont décidé de se lancer dans leur exploitation. Si Apicube, une société française, est de ceux-là, elle va trouver face à elle des géants tels Google, Facebook et autres mastodontes américains. Car, suivant l'analyse des spécialistes, l'avenir du web est sémantique. Après la vitrine (1.0), l'interactivité (2.0), le web 3.0 sera articulé sur sa capacité à analyser les mots de façon intelligente, à interpréter ce que l'internaute a voulu dire, et surtout de l'agréger sur des milliards d'occurrences.

Ca donne à comprendre ce qu'est le web sémantique

Comment ça marche ?

L'infographie jointe vous donne quelques bases pour vous montrer comment le web 3.0 passe de la syntaxe au sens. Mais l'exemple présenté par Joël Rubino est encore plus parlant pour comprendre comment les outils d'analyse sémantique lisent et interprètent les phrases délivrées par les internautes. Reprenons l'exemple donc : « Hier soir, de passage par La Rochelle, j’ai diné à « La grande marche » avec mon épouse. Ce restaurant vaut le détour, mais la carte des vins n’est pas terrible ». (cf diapo)

A partir d'un simple déclaratif, qui a pu être écrit sur n'importe quel site de réseau social, le programme d'analyse va déduire que le restaurant est de qualité, mais pas ses vins, et surtout croiser ces informations avec la caractérisation de l'émetteur, homme marié, et le mettre en lien avec le moment où l'opinion a été émise. Additionnez cet exemple des milliers ou milliards de fois, et vous avez des données plus fiables qu'un sondage, puisqu'on n'a pas été solliciter l'avis des enquêtés, qui l'ont exprimé librement.

L'étape d'après, dans pas très longtemps à voir les progrès de la Xbox Kinect, c'est que bientôt votre ordinateur pourra reconnaître vos émotions, et donc vos appréciations positives ou négatives, sur votre visage via votre webcam, et en faire autant sur les photos...

Ca donne à prendre conscience du big data... et de ses utilités

Tous ceux qui suivent avec intérêt le téléfilm « Person of interest » récemment diffusé par TF1 se disaient « C'est bien mais c'est un peu gros quand même ». En fait, les bastons, oui, mais l'agrégation des données, non.

Pensez qu'ApiCube a scanné sur Twitter les discussion des pseudo supporters du PSG après le titre de champion de France l'an dernier. Si les services de police avaient disposé de cet outil, ils auraient pu prévoir le hoologanisme qui s'est déchaîné place du Trocadéro. Maintenant, ils l'ont.

Moins flippant, des marques utilisent aussi ce type d'outils pour savoir précisément ce qui est dit de leur produit sur des dimensions définies. Selon Joël Rubino, ne vous demandez pas si la donnée existe, demandez-vous ce que vous voulez savoir, la donnée est là, pas loin...

Toulouse s'est aussi engagée dans cette voie pour augmenter sa surface d'écoute de la population via les médias sociaux qui dépassent, et de loin, les lettres de mécontentement que nous pouvons recevoir de temps en temps. Cet outil d'analyse des sentiments (positifs, négatifs, neutres) permet à la ville rose d'agréger et de mesurer les données relatives à l'opinion publique issues d'un large éventail de médias sociaux. 1,6 million de documents provenant de blogs, forums de discussions, Facebook, Twitter ou encore de divers médias issus de la presse nationale ou régionale, ont été intégrés et analysés sur une période de un an, à partir de février 2012. Après une première étape d'analyse et de déduplication, environ 100 000 documents ont été retenus pour l'analyse finale autour de 13 thématiques dont l'économie, le social, le transport, les travaux, la santé... L'outil Social Media Analytics d'IBM fournit des tableaux de bord détaillés sur la nature des discussions passées ou en cours ainsi qu'une aide à la détection des préoccupations émergentes.

Au final, l'analyse de l'opinion et du ressenti des citoyens a conduit la ville de Toulouse à communiquer sur les travaux liés à la modernisation de la ville, ses projets urbains, le développement des transports comme l'implantation du tramway. Cette analyse a également permis à la municipalité de découvrir de nouveaux sujets de préoccupations et de mettre en place une discussion, en temps réel, avec ses citoyens.

Ca donne (peut-être) à réfléchir différemment aux données sur les protections de la vie privée

Une fois démontrée la puissance des outils capable d'analyser les données publiques et sachant que 99 % d'entre elles sont inexploitées, alors la controverse sur la loi récemment débattue au Parlement à propos de l'accès aux données personnelles par les services de sécurité de l'Etat semble un peu vaine, sauf à la considérer comme une intéressante réflexion philosophique sur la société vers laquelle nous allons.

Vaine parce que la loi est peut-être finalement quasi inutile, alors que tant de données sont en accès libre ou quasi. La Loi donne à l'Etat le possibilité d'élargir le champ des données disponible en ouvrant les tiroirs normalement fermés à clé. Bien sûr, on préférerait que personne n'ouvre ce tiroir pour regarder nos vêtements pliés... mais finalement, ce sont ceux qu'on porte dans la rue !

Vaine parce que les citoyens se plaignent de voir leurs données personnelles pillées alors que ce sont eux qui les déversent sur la voie publique en nourrissant les réseaux sociaux en particulier. Peut-on aller se plaindre au commissariat de s'être fait voler sa voiture quand on l'a laissée dans la rue, portes ouvertes et clé sur le contact ?

A la vérité, ça donne le tournis, ça effraie même en ouvrant une porte sur des horizons qui semblent infinis... et sans doute à la seule portée de ceux qui ont les plus gros moyens. Pourtant ce n'est qu'un début, car ce web 3.0 doit être relayé par le web 4.0, celui des objets, qui vont eux-mêmes produire des données qui elles mêmes... On en parlera dans une prochaine chronique !...