Innovation : la création d'un Data Lake à Médiamétrie

Audience le mag
Face à l'afflux de données issues du Big Data, Médiamétrie a créé en 2016 un Data Lake qui centralise les données d'audience collectées via ses systèmes de mesures.
Image

Face à l'afflux de données issues du Big Data, Médiamétrie a créé en 2016 un Data Lake qui centralise les données d'audience collectées via ses systèmes de mesures.

L’objectif ? Mener des analyses pour les mesures d’audience et à des fins de R&D, en suivant les nouvelles approches en Data Science / Big Data. Des choix structurants ont été faits. Audience le Mag retrace le parcours de cette innovation.

Une base de données efficace et sécurisée

C'est en 2015 que des groupes de travail ont commencé à se réunir à Médiamétrie pour réfléchir à la création d'un Data Lake. Un Data Lake, c'est « un magasin sécurisé de données immuables, brutes, en grande partie non traitées, agissant comme une source pour l’exploration et l'analyse des données. », explique Mélanie Langlois, Directrice du Département Innovation SI de Médiamétrie.

En effet, Médiamétrie a de plus en plus besoin de croiser un volume considérable et croissant de résultats d'audience TV, Internet et radio. Cela pour la R&D, l’innovation des mesures d'audience, enrichir les dispositifs existants et proposer de nouvelles offres. Médiamétrie est également amenée à traiter des données importantes issues de ses partenaires ou clients dans le cadre du développement des activités de qualification des Data media. Les équipes doivent pour cela avoir un accès structuré et sécurisé à la data, notamment pour réaliser des projets en phase avec les délais du marché. L’objectif du Data Lake est donc de donner aux équipes de Médiamétrie la possibilité d’y répondre par des projets en méthodes « Agile ».

Mélanie Langlois précise : « Le Data Lake n’exécute aucun traitement, aucun modèle mathématique et statistique, il n’enrichit pas les données. Il est destiné au travail exploratoire et d’analyse des Data Scientists, il n’est pas un outil de production de résultats d’étude. »

Dans la création d'un Data Lake, les enjeux sont multiples. Il est essentiel de garantir la sécurité et la confidentialité, par exemple en mettant en place une gestion des identités et des accès des utilisateurs du Data Lake.

Médiamétrie est particulièrement vigilante quant à la protection des données à caractère personnel. Conformément au Règlement Général sur la Protection des Données (RGPD), le Data Lake prend en compte le principe de Privacy by design qui consiste à intégrer dès les prémices du projet les règles de gestion et protection des données à caractère personnel édictées par le RGPD. Pour répondre à cette exigence, Médiamétrie a mené un Privacy Impact Assessment, une analyse d’impact sur la vie privée, dont l'objectif est d’évaluer les risques liés au traitement des données et qui s’inscrit dans le principe de responsabilisation (accountability) du responsable de traitement.

Enfin, le Data Lake doit permettre de charger et de stocker d’importants volumes de données de manière économique.
Robuste sur les exigences de sécurité, le Data Lake propose aux utilisateurs une interface de travail unifiée.

Un catalogue de données homogènes

La dimension innovante du Data Lake de Médiamétrie tient à son positionnement comme le juste équilibre entre les « Data Warehouse » historiques et les états de l’art connus sur les Data Lake. Le Data Lake de Médiamétrie intègre un catalogue de données permettant de réaliser des analyses complexes. Les équipes de Médiamétrie ont développé une interface qui mutualise l'accès aux données.

Pour définir comment injecter les données dans le Data Lake, Médiamétrie a effectué une démarche en deux étapes :

● Tout d’abord, déclarer des informations (méta-data) qui permettent au système de reconnaître automatiquement les fichiers de données injectées ; c’est le schéma du catalogue de données.

● Puis pousser les fichiers de données dans le Data Lake en spécifiant le schéma qui permet de reconnaître le fichier et son contenu. Toutes les données injectées dans le Data Lake ont ainsi le même format technique pour le stockage, quelle que soit leur provenance. Le Data Lake s’adapte ainsi à tous types de données.

Mélanie Langlois commente : « Grâce à cette formalisation très forte du format et de la structure des données par le schéma, plusieurs équipes de Médiamétrie (des départements informatique, scientifique, Business Units, …) peuvent travailler sur la même donnée de manière commune. »

Image

L’utilisation du cloud pour optimiser les coûts

Le stockage (storage) des données s'effectue dans le Cloud, pertinent pour la volumétrie importante, et « scalable », c’est-à-dire adaptable à l’évolution des besoins de stockage. Ainsi, le modèle économique du Data Lake de Médiamétrie, fondé sur les principes du Cloud, offre une réponse adéquate aux coûts de stockage des Tera octets de données de Médiamétrie. Les coûts d’infrastructure nécessaires aux calculs des algorithmes étudiés sont engagés uniquement à la demande et en fonction du temps nécessaire aux besoins des équipes de Data Scientists.

Pour offrir la souplesse nécessaire aux calculs et analyses, les équipes de Médiamétrie sont libres de choisir leur environnement de travail, leurs outils, ainsi que la puissance de calcul souhaitée. Ainsi, tous les calculs sont effectués dans le cloud et les utilisateurs sont responsables de leurs consommations de ressources. Il n’y a pas de limitations imposées dans la capacité de calcul des infrastructures proposées.

Pour répondre aux objectifs métiers, économiques et techniques, cette infrastructure a nécessité l’intégration de plusieurs technologies de la part de la DSI Innovation de Médiamétrie.

Les premières utilisations

Médiamétrie a déjà pu effectuer plusieurs travaux de R&D à partir du Data Lake. Par exemple améliorer la qualité des collectes d'audience en étudiant la possibilité de contourner les blocages des systèmes de mesure pour certaines versions d'OS mobiles, ou bien en permettant d'analyser la performance des marquages.

Le Data Lake est également un élément important du développement de l’offre Data Business de Médiamétrie dont l’activité est d’enrichir les données de partenaires avec les résultats d'audience issus des panels de Médiamétrie.

Pour Patrice de Flaujac, Directeur des Systèmes d’Information de Médiamétrie, « le Data Lake permet de renforcer la création de valeur des études et de proposer de nouvelles offres innovantes. »

Laure Osmanian Molinero

Calcul d’intervalle de confiance à 95%

Taille de l'échantillon ou d'une cible dans l'échantillon

n =

Proportion observée dans l'échantillon ou sur une cible dans l'échantillon

p =

%

Attention : ne s'applique qu'à une proportion. Le Taux Moyen est une moyenne de proportions et la Part d'audience un rapport de proportions.
Cet outil est donné à titre indicatif. Il ne saurait pouvoir s'appliquer sans autres précautions à des fins professionnelles.

Test de significativité des écarts entre deux proportions

Permet d'évaluer si la différence entre 2 proportions est significative au seuil de 95%

Proportion

Taille de l'échantillon

Échantillon 1

%

Échantillon 2

%

Attention : ne s'applique qu'à une proportion. Le Taux Moyen est une moyenne de proportions et la Part d'audience un rapport de proportions.
Cet outil est donné à titre indicatif. Il ne saurait pouvoir s'appliquer sans autres précautions à des fins professionnelles.

En complément
×
Dictionnaire
Les mots
des médias
Nouvelle
édition
+500
définitions
A
B
C
D
E
F
G
H
I