Comment améliorer le profilage des cookies ?

BigSurv18
Image

"Learning on Survey Data to Qualify Big Data in a Web Environment".

Par Lucie Duprat Machan, responsable Pôle statistiques, Claudio Barros, data scientist, et Aurélie Vanheuverzwyn, directrice exécutive - Data et méthodes - Médiamétrie

Dans le secteur de la publicité en ligne, l'un des principaux défis consiste à fournir la bonne annonce au bon utilisateur. Dans ce contexte, un groupe d'éditeurs en ligne souhaite améliorer le profilage de ses cookies. Chaque éditeur possède un ou plusieurs site(s) Web et un tag est implémenté sur chaque page de ses sites Web pour suivre la navigation par cookie. Le tag est un code qui envoie un log à une base de données lorsqu'un utilisateur visite une adresse URL des sites web des éditeurs. Ce log contient un cookie, la date et l’heure de la visite et l'URL visitée.

L'objectif du projet est d'attribuer un profil sociodémographique avec une tranche d'âge et un sexe à chaque cookie. Comme il existe chaque jour de nouveaux cookies et une nouvelle navigation en ligne pour les cookies déjà qualifiés, cette qualification doit être mise à jour quotidiennement.

Pour résoudre ce problème, nous avons créé un modèle d’apprentissage supervisé. En effet, Mediametrie est la référence en matière de mesure d'audience en France pour la télévision, la radio et l’Internet. Pour mesurer l'audience Internet sur ordinateur, Mediametrie Net Ratings dispose d'un panel de 18 000 personnes représentatif de la population française disposant d'un accès à Internet. Les connexions sont mesurées à l’aide d’un logiciel installé sur leurs ordinateurs qui transmet les données aux serveurs de Mediametrie. Ainsi, nous avons un accès complet au surf Internet de nos panélistes et nous connaissons également leur profil sociodémographique. Ceci constitue nos données d'apprentissage.

À partir de ces données, la première étape a été de créer plusieurs variables depuis la date et l’heure et l'URL (les seules informations disponibles sur le tag). Tout d'abord, nous créons des variables relatives au jour et à la plage horaire de la visite, au domaine visité et à la présence de certains mots clés dans l'URL. Nous utilisons ensuite différentes méthodes de traitement du langage naturel pour analyser les URLs et créer plusieurs clusters de mots et clusters d’URLs. À la fin du feature engineering, nous avons plus de 1 000 fonctionnalités.

La deuxième étape consistait à tester différentes structures de modèles (par exemple, prédire d’abord le sexe puis l’utiliser pour prédire l’âge) et différents algorithmes de qualification. Nous avons créé un workflow en Python qui sélectionne les variables discriminantes avec une forêt aléatoire, compare les algorithmes de scikit-learn et XGBoost pour la qualification, teste différentes combinaisons de ces algorithmes et exporte des fichiers pour superviser les résultats et ajuster les paramètres.

Lorsque la combinaison et les paramètres sont fixes, nous devons appliquer le modèle à tous les logs reçus depuis le tag. Nous appliquons d’abord des filtres pour travailler sur un périmètre comparable au panel, puis créons toutes les variables et appliquons le modèle. Ce traitement est effectué avec PySpark en raison du grand volume de données impliqué.

Dans un processus de production, le modèle est mis à jour tous les mois et les cookies sont qualifiés tous les jours. Nous lancerons la première campagne publicitaire avec cette qualification dans les prochains mois.

 

Pour consulter l'intégralité de cette présentation, cliquez sur l'icône de téléchargement ci-dessous.

To view the full document, click on the download icon below.
Téléchargement(s)

Download

Confidence interval calculus

Sample size or target in the sample

n =

Proportion observed in the sample or on a target in the sample

p =

%

Warning: only applies to a proportion. The Average Rate is an average of proportions and the Audience Share a ratio of proportions. This tool is provided for information purposes. It cannot be applied for professional purposes without further precautions.

Test of significance of the differences between two proportions

Used to assess whether the difference between 2 proportions is significant at the 95% threshold

Proportion

Sample size

1st sample

%

2nd sample

%

Warning: only applies to a proportion. The Average Rate is an average of proportions and the Audience Share a ratio of proportions. This tool is provided for information purposes. It cannot be applied for professional purposes without further precautions.

More
×
Dictionnaire
Les mots
des médias
New
edition
+500
definitions
A
B
C
D
E
F
G
H
I