Enfin comprendre le Big Data

L’analyse de la donnée n’est pas nouvelle : la BI (Business Intelligence) existe depuis les années 80. Alors pourquoi tout le monde ne parle que de Big Data ? Deux raisons majeures : la digitalisation de notre quotidien génère un afflux massif de données et de nouvelles technos permettent de les traiter simplement.

Using-Big-Data-.jpg

La donnée existe depuis toujours...

Les batons d’Ishango, des ossements vieux de plus de 18 000 ans, ont été retrouvés en République Démocratique du Congo et sont peut-être la source de donnée la plus vielle du monde. Ils portent de multiples entailles qui pourraient représenter un décompte des échanges commerciaux. Dans les années 1600, un anglais du nom de John Graunt utilise les données des registres mortuaires pour essayer de prévoir les épidémies de peste. Enfin plus proche de nous, l’administration fiscale crée le premier data center dans les années 70 pour stocker les déclarations fiscales des américains… Bref, la data n’est pas une nouveauté ! 

… Mais le digital a généré une explosion de données

La nouveauté, c’est la digitalisation de nos vies. Chacune de nos actions digitales laissent une trace, en l’occurence une donnée stockée en base. Quand vous appuyez sur “play” pour démarrer la lecture d’une série sur Netflix (30 millions de fois par jour), quand vous voyez une publicité de Google (30 milliards d’impressions par jour), quand vous commentez un post sur Facebook (1 milliard de contenus partagés chaque jour), à chaque fois vous laissez une trace. Le monde produira bientôt en 1 minute autant de données que ce que l’humanité a généré depuis sa création jusqu’à l’année 2010.

Voilà une première explication à l’essor du terme “Big Data”.

… et les technos permettent de les traiter à moindre coût

La technologie n’est plus un obstacle pour le traitement de gros volumes de données disparates. Deux raisons ont permis cette démocratisation.

Plus besoin de grosses machines : plutôt que d’utiliser un gros serveur très cher pour effectuer un calcul complexe, on le découpe en de multiples sous calculs très simples réalisés par des serveurs basiques. Ces calculsi sont ensuite consolidés pour trouver le résultat du calcul complexe. C’est le calul distribué

Des logiciels gratuits : de nombreuses technologies permettant de faire du calcul distribué sont en open-source donc gratuites, la plus connue étant Hadoop. 

Alors quand parler de Big Data ?

Essayons maintenant d’identifier les critères permettant de parler de Big Data. Les 3Vs sont surement le critère faisant le plus concensus :

Volume : on cite souvent l’unité du Po (Peta Octet) pour caractériser le big data, soit1 million de Go (un film représentant en moyenne 1Go). Mais rares sont les sets de données parvenant à ce volume dans les entreprises traditionnelles (par contre très fréquents chez les GAFA).

Variété : c’est vraiment l’un des points fondamentaux du big data. Les données sont souvent non structurées, il est très difficiles de les mettre dans des colonnes pré-définis (que l’on trouve dans les bases de données relationnelles). Il peut s’agir d’une vidéo, d’un texte, d’une image, d’une musique…

Vélocité : les données sont mises à jour très rapidement comme par exemple les données transmises par les capteurs d’un moteur d’avion ou d’une voiture (jusque 40 informations analysées par seconde !)

3V_Bigdata.png 

Conclusion

L’existence de la donnée n’est pas une nouveauté. Mais que tout soit source de données avec la digitalisation est un changement majeur permettant d’adopter une approche analytique pour répondre à de multiples questions. L’enjeu n’est pas tant de récolter le plus de données possibles mais plutôt d’identifier les données à même d’apporter une solution aux problèmes de l’entreprise. Comme toujours, une approche business-first est la seule à même d’apporter de la valeur.

Sujet: Data Articles
Êtes-vous un padawan ou un jedi de la data ?
Sujets