dimanche 7 septembre 2014

introduction au big data

Le big data est le sujet à la mode. De nouvelles personnes dans les entreprises deviennent Directeurs ou Directrices Big data. Son impact sur l’ensemble des métiers est regardé, sur les business plan des entreprises, sur l’économie en général. Des start-up sur le sujet naissent chaque jour, des hackatons big data voient le jour un peu partout.
Le but aujourd’hui est d’aborder quelques définition, de comprendre pourquoi ce sujet est d’une importance particulière et pourquoi maintenant, et de regarder les impacts, que ce soit dans les métiers de l’entreprise, de l’IT au marketing, en passant par la R&D, la communication, le management et les conseils d’administration.
Un collègue me rappelait l’introduction d’une émission de radio pour ado en mal de questionnement et qui commençait toujours par : « ton corps change ». Là, c’est « le monde change ». Même si c’est un peu galvaudé, il y a quelques exemples que l’on ne pouvait pas imaginer il y a quelques mois de cela.
L’exemple que j’aime citer car c’est une histoire vraie, est celui d’une amie qui me demande (quand on travaille chez Orange, nos proches pensent que l’on a réponse à toutes leurs questions concernant leur PC , internet ou leur téléphone) : «  je ne comprends pas, je reçois des pubs de croquettes pour chat mais je n’ai pas de chat : c’est débile! ».
Les plus éclairés d’entre vous me répondent alors : « non, mais elle va bientôt en avoir un… »
C’est aussi l’histoire de cette adolescente aux US, enceinte, ne l’ayant pas annoncé à ses parents…mais les parents reçoivent de la pub pour layette.
Ou encore de ces employés d’une manufacture de photocopieuse, reconvertis maintenant en call-enter pour des compagnies d’assurance et appelant proactivement leurs clients pour leur vendre la police d’assurance qui correspond exactement çà leur besoin : un prêt pour une maison pour des jeunes mariés, une assurance-vie pour ces cadres, avec des tarifs qui vont varier…en fonction de la santé des clients – mais ça ne leur est pas dit bien-sûr…
Evidemment, plus récemment, Snowden et la NSA nous ont ouvert les yeux sur ce que pouvaient devenir nos données.
Et depuis, les sites internet que vous consultez vous informent de l’utilisation de cookies : ce sont ces fameux programmes qui enregistrent vos recherches et permettent à internet d’être plus rapide pour exécuter vos requêtes…et maintenant permettent aux entreprises achetant/se procurant ces données de mieux cibler leur clientèle.
Que se passe-t-il exactement?
Quand vous allez sur internet, vous laissez des traces partout : la vitesse à laquelle vous tapez, les endroits où vous déplacez la souris, évidemment ce que vous tapez : toutes vos actions peuvent être regardées, sauvegardées puis utilisées.
Mais internet n’est pas le seul endroit : votre téléphone portable, connecté en permanence (même si vous n’êtes pas en conversation ou sur internet), votre carte bancaire lorsque vous l’utilisez, votre pass navigo, votre GPS, votre voiture…de plus en plus d’objets sont maintenant fabriqués avec un moyen de connexion intégré.
Mais revenons aux croquettes pour chat.
pourquoi recevoir une pub quand on n’a pas de chat? quand on cherche un voyage pour des vacances au Maroc, que l’on va sur des sites en choisissant la destination Maroc : on comprend facilement le lendemain d’avoir dans sa boite aux lettres ou en bandeau sur son navigateur une pub ou une réduction pour un voyage au Maroc.
Mais si on n’a pas de chat : pourquoi recevoir une pub de croquettes pour chat?
Derrière ces programmes, ce sont des algorithmes de corrélation, donc pas des systèmes certains de cause à effet. Par exemple (je dis n’importe quoi, mais le raisonnement est là) : si vous avez acheté des biscuits le mardi matin chez Monoprix et ensuite un Tshirt chez Celio…eh bien peut-être que 90% des personnes qui le mardi matin achetaient biscuits et tshirt achetaient aussi des croquettes pour chat…donc on va vous envoyer la pub.
Pour les croquettes, c’est amusant. Quand il s’agit de sa santé et du tarif de sa police d’assurance, cela le devient moins : votre nombre de visites ou même de trajet vers un hôpital pourrait très bien être corrélé avec des trajets d’autres personnes dont l’espérance de vie était très faible…
Car hélas bien souvent, l’on confond corrélation et prédiction, corrélation et cause à effet. Pourtant en faisant ce raccourci, on peut montrer n’importe quoi et surtout faire des raisonnements inverses : par exemple : dire que si l’on fume on est un homme ou prouver que manger de la salade évite el mal de tête, etc. (pour cela, lire : causalité et corrélation, Cum hoc ergo propter hoc, lien ici Cum-hoc-ergo-propter-hoc)
Il faut aussi savoir que 80% des données qui circulent sur internet proviennent des GAFA : Apple, Google, Amazon, Facebook, ds applications donc américaines….et que les 20 % restants viennent de la Chine : de même genre d’application de réseau social, weibo par exemple (twitter chinois qui censure des mots comme wikileaks ou coup d’état…). Les données sont produites par les utilisateurs de ces logiciels, de manière plus ou moins consciente
En application de la directive européenne dite " paquet télécom ", les internautes doivent être informés et donner leur consentement préalablement à l'insertion de traceurs. Ils doivent disposer d'une possibilité de choisir de ne pas être tracés lorsqu'ils visitent un site ou utilisent une application. Les éditeurs ont donc l'obligation de solliciter au préalable le consentement des utilisateurs. Ce consentement est valable 13 mois maximum. Certains traceurs sont cependant dispensés du recueil de ce consentement.
Que recouvre le terme de « cookies » ou de « traceurs » ?
Sont concernés les traceurs déposés et lus par exemple lors de la consultation d'un site internet, de la lecture d'un courrier électronique, de l'installation ou de l'utilisation d'un logiciel ou d'une application mobile et ce, quel que soit le type de terminal utilisé tels qu'un ordinateur, un Smartphone, une liseuse numérique et une console de jeux vidéos connectée à Internet. S'ils répondent à certaines conditions, certains traceurs dérogent à cette obligation 
A ce titre, le terme de "cookie" recouvre par exemple :
·         les cookies HTTP
·         les cookies "flash",
·         le résultat du calcul d'empreinte dans le cas du " fingerprinting " (calcul d'un identifiant unique de la machine basée sur des éléments de sa configuration à des fins de traçage),
·         les pixels invisibles ou " web bugs ",
·         tout autre identifiant généré par un logiciel ou un système d'exploitation, par exemple.
Ces obligations s'appliquent que les cookies collectent des données à caractère personnel ou non.

Un cookie est un petit fichier très simple, en fait un texte, enregistré sur le disque dur de l’ordinateur d’un internaute à la demande du serveur gérant le site Web visité. Il contient des informations sur la navigation effectuée sur les pages de ce site. L’idée originelle est de faciliter l’utilisation ultérieure du site par la même personne. Ainsi, si Clara revient sur un site où elle aura rempli un formulaire avec ses nom et prénom, elle sera accueillie par un « Bonjour Clara ». À part dire bonjour, un cookie sert à reprendre les préférences choisies par un utilisateur lors de la visite (c’est ce que fait par exemple le moteur de recherche Google).

On peut donc imaginer les débats sur les données, la protection des données personnelles, voire des débats sur la neutralité du net (peut-il y avoir des contrôles ? des priorités ?)

Le second grand débat concerne l’évolution des métiers : en effet, le big data présuppose une rapidité telle que toutes les données sont disponibles à tout moment. Or la plupart des métiers aujourd’hui, des cols blancs, du tertiaire, des métiers de services, ne sont que des métiers liés à la transformation ou interprétation d’information. On peut donc craindre que des robots puissent apprendre à transformer et même interpréter la plupart des données : et donc voir disparaitre la plupart de nos métiers.
lire pour cela mon blog : » la digitalisation pour les nuls » http://elle-ucubrations.blogspot.fr/2014/07/la-digitalisation-pour-les-nuls.html
Un exemple : les services financiers en entreprises : que font les responsable ou directeurs financiers d’un service : ils extraient des résultats de vente, de chiffres d’affaires, de budgets, les comparent à ceux des années passées, peuvent aussi faire un focus particulier sur une région ou un produit à la demande d’un direction. On peut très bien imaginer que toutes ces opérations soient faites par des robots. Chez Oxylane, une filiale de Décathlon, c’est déjà le cas, et l’on parle de 3.0 : car l’information dont les cadres opérationnels ont besoin leur arrive directement et en temps réel, ils n’ont pas besoin d’attendre et d’émettre une requête pour connaitre par exemple l’évolution comparée de leur chiffre d’affaire : il suffit qu’ils aient fait cette demande une fois pour que le système s’en souvienne et leur envoie – par une application du style twitter- des mises à jour en temps réel . Pour faire le parallèle avec des croquettes pour chat, une personne qui intégrerait le service des ventes et irait 3 fois sur internet sur la zone Afrique se verrait directement envoyer les résultats des ventes en Afrique… c’est le principe des pubs de croquettes pour chat appliqué à l’entreprise au quotidien !
Avant de rentrer dans le vif du sujet, certaines définitions s’imposent.
en commençant par le big data ? qu’est-ce que c’est ?
La défintion la plus courante est de dire que ce sont des données qui « ont » les 5 V : volume, variété, vélocité, valeur, véracité
Volumineuses : beaucoup beaucoup de données, des giga, des téraoctets…parfois, on s’entend dire que ce n’est pas du vrai big data si les volumes ne diffèrent pas de e qui est généralement traité aujourd’hui.
Variées : pas toujours en fichier très structurés : un fichier client est structuré, une conversation téléphonique écoutée l’est moins…
Véloces : rapides, mais surtout accessibles rapidement : grâce à des réseaux ou le débit est toujours plus fort : 3G, 4,  fibre, etc. rapidement, et de partout : car si vous ne captez qu’à 50kb.s à certains endroits, hé bien vous aurez du mal à analyser « en temps réel » tout plein de données .
Valeur : c’est une des croyances et une des explications du nombre de start-ups qui font leur entrée sur le big data : les données ont une valeur marchande ?. on peut exploiter le moindre de vos mouvements (repensons aux croquettes pour chat). Et même sans aller jusqu- là, actuellement sur le marché noir du marketing direct , une adresse d’un client valable (en gros qui lira le mail et qui n’est pas un robot) se vend à 1€ le contact estime-t-on…
Véracité : cette dernière notion est intéressante et assez ironique : la question de savoir d’où viennent les données et de s’interroger sur leur véracité pourrait être liée au thème de leur valeur… car en effet, comme on l’a vu auparavant, les corrélations ne sont aps des liens de cause à effet. Vous avez acheté des biscuits et un Tshirt ….et alors ? ce n’est pas pour cela que vous avez un chat !

On parle en entreprise de big data, de digitalisation, de numérique et de dématérialisation.
La dématérialisation est le fait de pouvoir tout faire/ tout mettre sur ordinateur : en gros, si vous faites une réunion, le CR sera saisi sur un PC. (et si possible mis à disposition d’autres personnes…). Scanner est déjà dématérialiser. C’est supprimer le papier. Quand on visite la plupart des bureaux des entreprises, envahis de toutes sortes de papiers, brochures, dépliants, slideswares imprimés etc…on voit qu’on en est encore bien loin. Dématérialiser, c’est transformer les process qui demandent des papier, des formulaires signés à la main etc de pouvoir être gérés seulement sur ordinateur, donc avec signature électronique par exemple. Entre les clients et les fournisseurs, la plupart des échanges d’informations, de contrats, de relevés de comptes se font par EDI (échange informatique de documents)…et généralement cela ne passe pas par internet!
Le numérique est tout ce qui peut s’écrire en langage codé avec des numéros; généralement en base 2. Et s’oppose à l’analogique qui correspond au signal en entier (on reviendra sur cela plus tard). En entreprise, le numérique correspond à certains secteurs bien ciblés : les métiers des télécoms, des médias, de la photo, de la vidéo; ou à certains métiers induits par les nouvelles technologies : développeurs web, community managers, mais aussi veilleur e-reputation, data collector, e-marketteur, géomaticien (qui exploite des bases de données avec données de géolocalisation).
Enfin, la digitalisation est généralement associée à ce qui se fait avec les doigts sur des smartphones ou tablettes..et la plupart des applis accédées ainsi sont des réseaux sociaux, du chat, de la visio. La digitalisation d’un métier est donc liée à l’utilisation des réseaux sociaux ( généralement une révolution pour les entreprises qui il y a peu interdisaient les accès à internet!) ou à des méthodes modernes : le chat, le click-to-call : je clique sur le bouton et cela fait un appelle visio en direct avec un webconseiller par exemple…
Certains métiers semblent plus touchés que d’autres : on imagine mal un recruteur ne pas vous « googliser » et jeter un œil – plutôt de chez lui, car ce n’est pas toujours vraiment considéré comme « éthique »,  à votre profil linkedin. Idem, un service SAV qui ne tiendrait pas comptes de mails ou de mauvais posts sur Facebook serait vite dépassé.
De manière très pragmatique, on sait que stocker de manière numérique est plus fiable, plus pérenne et plus sûre (beaucoup plus facile de faire une sauvegarde) et donc les services des entreprises et des administrations qui en faisaient que de la paperasse sont en train de passer à la vitesse V à du sans papier (essayer de faire une demande d’extrait d’acte de naissance et vous pourriez être agréablement surpris !).
C’est aussi bien plus rapide et pratique de faire ses courses sur internet : 60% des vêtements = typiquement le genre d’objets où l’on a longtemps pensé qu’il fallait absolument essayer avant d’acheter et donc se rendre en magasin…se fait sur internet en France !
Ces technologies révolutionnent le monde. Nombreux essayistes, analystes, écrivains, journalistes, se plaisent à montrer le lien ou plutôt les ruptures avec les révolutions précédentes. L’invention de l’écriture a permis de passer de la préhistoire à l’histoire, d’inscrire sur un fil linéaire les choses dans un ordre, de pouvoir s’exprimer avec une dimension temporelle : votre message pouvait être lu ensuite, quand vous n’étiez pas là, plus là. L’invention de l’imprimerie a ensuite permis à un auteur de  s’exprimer dans le temps mais en s’adressant à des lecteurs multiples. La pensée, les réflexions, l’apprentissage pouvait prendre un nouvel élan avec une diffusion plus large et plus rapide de la pensée. Le digital est perçu comme le troisième piler car non seulement l’auteur est très démocratisé (qui n’a pas ouvert son blog?) mais surtout tout lecteur peut maintenant répondre, échanger avec l’auteur en continu et instantanément. La pensée est donc beaucoup plus riche et rapide, enrichie sans cesse. A un rythme tel que « le temps d’écrire une information, elle est déjà dépassée » ou bien le « temps d’acquérir une connaissance, elle est déjà obsolète »….
Nous n’en sommes qu’au début : si le big data traite de l’information, donc du monde numérisé et numérisable facilement ; les imprimantes 3 D traitent elles du monde tangible, touchable, du réel, du quotidien, des atomes. (voir ouvrages de Chris Anderson « the makers » , « the long trail » et Julien Cantoni « une société connectée »).

Aucun commentaire:

Enregistrer un commentaire