Quelle est la définition du Big Data ? Le Big Data est un domaine technologique dédié à l’analyse de très grands volumes de données informatiques. Tour d’horizon de ses grands principes de fonctionnement, des développements techniques qui l’ont fait émerger et des bénéfices qu’il confère aux entreprises.
Le Big Data ou données massives est un concept qui a émergé au début des années 2000. Alors que le prix des moyens de stockage baissait, il devenait possible de stocker bien plus de données que par le passé. Une toute nouvelle approche s’est développée plaçant la donnée au cœur de l’activité des entreprises. Les algorithmes sont alors venus soutenir leur prise de décision : c’est que l’on appelle la science des données (Data Science).
Les 3V du Big Data
Les experts ont cherché à définir le Big Data par la règle des « 3V » :
- Volume
- Vitesse
- Variété
La puissance des technologies Big Data a permis d’accroître les volumes de données qu’il est possible de stocker et d’analyser. Alors que les bases de données classiques présentaient des limites techniques en matière de volume de stockage et de coût d’exploitation, une nouvelle génération de solutions a permis de les dépasser.
Un atout clé du Big Data réside dans la diversité des données qui peuvent être traitées par ces systèmes. Il s’agit du le 3e « V » ; la Variété. Il est possible de compléter les données structurées, telles qu’une fiche client, avec des données en texte libre, des images, des vidéos ou des enregistrements sonores. Cette nouvelle capacité a ouvert tout un pan de nouvelles applications utiles aux entreprises. Ceux que l’on va appeler les Data Scientists vont alors créer des algorithmes capables de croiser entre elles des données très diverses pour générer de la valeur pour l’entreprise.
Les 5V du Big Data, définition
Aux 3V initiaux, les spécialistes ont ajouté un quatrième « V » pour Véracité pour pointer le besoin de veiller à la qualité des données, puis un cinquième V pour Valeur. Toute donnée doit présenter une certaine valeur ajoutée pour l’entreprise. Enfin, un cinquième « V », pour Visualisation, indique que la manipulation de grands volumes de données nécessite des outils de navigation et de visualisation adaptés.
Comment fonctionne le Big Data ?
En faisant sauter les limites physiques et économiques du stockage des bases de données traditionnelles, le Big Data permet à une entreprise d’analyser un volume et une typologie de données plus importants que par le passé. L’objectif ? Délivrer des prédictions à partir de comportements passés. Ces analyses peuvent par exemple permettre à une marque de proposer des produits plus adaptés aux visiteurs de son site Web. Dans le milieu industriel, elles détectent des détails inhabituels dans le fonctionnement d’une machine afin de prévenir une panne. Enfin, en analysant des millions de transactions financières, les banques peuvent détecter plus tôt les tentatives de fraude, identifiées en tant qu’anomalies.
Définition du Big Data : porte d’entrée pour l’intelligence artificielle
La capacité des infrastructures Big Data à croiser des données de natures différentes ouvre la voie à de multiples cas d’usage inédits. Les opérateurs de télécommunications peuvent ainsi analyser la tonalité des appels ou messages envoyés par un abonné au service client afin de prévenir le churn, ce moment où le client va résilier son abonnement. Si les algorithmes d’Intelligence Artificielle (IA), notamment le Machine Learning et le Deep Learning, sont aussi populaires dans les entreprises de pointe aujourd’hui, c’est que le Big Data leur apporte les données de base nécessaires à leur apprentissage.
Des outils venus des GAFA accessibles aux entreprises.
Le Big Data marque une rupture technologique avec les solutions de Business Intelligence (ou décisionnel) classiques. Alors que cette approche nécessite de structurer l’information très précisément et de la stocker dans des silos de données de type Data Warehouse, sur des équipements à la fois extrêmement rigides et coûteux, l’approche technique du Big Data est tout autre. La technologie qui a permis l’essor du Big Data auprès des entreprises a été initialement imaginée par les géants de la Silicon Valley : plutôt que mettre en œuvre des équipements très puissants, mais très coûteux, ceux-ci ont imaginé exploiter des serveurs informatiques standards, donc peu coûteux, mais en très grand nombre.
L’approche Big Data permet de bénéficier d’une capacité de stockage et de traitement des données virtuellement infinie : il suffit d’ajouter des serveurs pour accroître la puissance et les capacités de stockage de l’ensemble. De plus, il est possible d’ajouter et de supprimer des serveurs dynamiquement à l’infrastructure, de manière quasi-temps réel, ce qui est particulièrement intéressant lorsqu’une entreprise fait appel à des infrastructures Cloud public, facturées à l’utilisation.
Le Data Lake, pivot central d’une stratégie d’entreprise
Cette nouvelle approche a donné naissance à ce que l’on appelle des Data Lake ou lac de données : des infrastructures Big Data où les entreprises centralisent l’ensemble de leurs données, quelle qu’en soit la nature. Là encore, l’approche Big Data bouscule l’approche traditionnelle s’appuyant sur des bases de données classiques, qui avait l’inconvénient de créer des silos de données. En stockant toutes les données en un même lieu, il devient plus facile pour les Data Scientist de créer des liens entre elles, soit de rechercher des corrélations créatrices de valeur pour l’entreprise.
Le Data Lake est alimenté en temps réel ou de manière régulière par de multiples sources de données. Ces sources peuvent être localisées dans l’entreprise, extraites notamment de l’ERP, de la plateforme CRM de l’entreprise, ou des applications métiers. Certaines données peuvent provenir de sources externes, soit acquises auprès de prestataires spécialisées, soit disponibles gratuitement, en Open Data.
Le rôle du Data Lake est clé pour l’avenir, notamment pour la diffusion des algorithmes d’IA dans les entreprises. En effet, c’est à partir de ce référentiel de données que les Data Scientists vont pouvoir manipuler les données et créer les algorithmes qui seront ensuite mis à disposition des utilisateurs métiers.