Data Lake

4 min de lecture

Le Data Lake (ou lac de données) est une composante clé de la stratégie Big Data d’une entreprise. Pour résumer, il constitue le réceptacle vers lequel toutes les données potentiellement intéressantes de l’entreprise vont converger afin d’y être stockées, historisées et analysées. Explications.

Qu’est-ce que le Data Lake ?
À quoi sert-il ?

Qu’est-ce que le Data Lake ?

Par opposition à une base de données classique qui stocke des données généralement textuelles de manière structurée, un Data Lake voit converger à la fois des données structurées, mais aussi des séries temporelles, des graphes, des documents, des images, des vidéos. L’objectif du Data Lake est de combattre le phénomène des silos de données qui, disséminés dans le système d’information, empêchent la libre circulation des données dans l’organisation et sont en cela un frein à l’innovation et l’agilité. En rapprochant toutes les données en un même lieu, on va faciliter leur circulation.

De fait, un Data Lake ne s’appuie pas sur une technologie de stockage unique. Il met en œuvre plusieurs solutions de stockage en parallèle. Vont ainsi cohabiter des solutions de stockage dédiées à conserver de gros volumes de données, mais aussi d’autres technologies comme des bases de données de type NoSQL, ou de simples espaces de stockage de fichiers.

Ces technologies peuvent être orientées document, être dédiées au stockage de séries temporelles, revêtir la forme de bases de données orientées graphe ou de solutions d’analyse haute performance de type « in-memory » pour investiguer les données de manière intéractive. Cette diversité de technologies constitue l’une des grandes forces du Data Lake : quelle que soit la nature de la donnée, celui-ci pourra la conserver et la mettre à disposition des Data Scientists (analystes de données).
La diversité des technologies à mettre en œuvre, mais aussi des énormes volumes de données manipulés, poussent de plus en plus les entreprises à déployer leur Data Lake sur le Cloud public. Les principaux fournisseurs de services Cloud proposent des solutions permettant de déployer facilement un Data Lake sur leurs infrastructures, avec un paiement à l’usage qui facilite le lancement d’un tel projet.

À quoi sert-il ?

Outre sa vocation de référentiel de l’ensemble des données de l’entreprise, le Data Lake a une seconde vocation : celle d’offrir des outils de traitement et d’analyse des données pour les Data Scientists. Le Data Lake met à disposition de ces experts tout un portefeuille d’outils et d’algorithmes pour que ceux-ci puissent investiguer les données stockées dans le Data Lake. Les Data Scientist vont pouvoir traiter ces données, les croiser et écrire les algorithmes qui livreront aux utilisateurs métiers des informations pertinentes pour orienter leurs choix. Pour mener à bien ces tâches, les Data Scientists disposent à la fois de langages dédiés à l’analyse des données dont Python ou le langage R, mais aussi d’outils d’analyse et de visualisation de données (appelés outils de DataViz).

Cas d’usage

les Data Scientists vont pouvoir manipuler les données issues des applications internes de l’entreprise, les retraiter et générer de la valeur pour les métiers. Ainsi, le Data Lake va jouer un rôle clé dans une stratégie CRM de type multicanal en recoupant les données issues :

des sites Web de l’entreprise,
des distributeurs
des commerciaux et de leur CRM.

Ces données peuvent être enrichies de sources de données externes très diverses. En corrélant les données de ventes en magasin à celles de la météo, ceux-ci vont pouvoir déterminer si les produits commercialisés par l’entreprise sont « météo sensibles » et, par conséquent, délivrer des prévisions de ventes en fonction de la météo annoncée. De même, les données démographiques peuvent être pertinentes pour optimiser un réseau de distribution. Alimenté ainsi de multiples sources de données, le Data Lake permet aux Data Scientists de rechercher des corrélations parfois inattendues, mais qui peuvent donner l’avantage à l’entreprise sur certains marchés.

Par sa capacité à manipuler de gros volumes de données, le Data Lake est considéré comme le prérequis indispensable à toute stratégie de mise en œuvre de l’Intelligence Artificielle en entreprise. En effet, pour mener l’apprentissage des algorithmes apprenants tels que le Machine Learning ou le Deep Learning, les modèles ont besoin de beaucoup de données. Le Data Lake est donc le socle nécessaire aux déploiements de technologies digitales expertes de la part des entreprises.