Détection et traitement des valeurs atypiques pour une mesure Internet Global robuste

12ème Colloque Francophone sur les Sondages, mars 2023, sous l'égide de la SFdS (Société Française de Statistique)
Image
Article

"Détection et traitement des valeurs atypiques de la mesure internet global"

Par Magdalena Auvinet, Responsable Pôle statistiques Direction Data Science - Internet, Médiamétrie

et Mathieu Hostin, Data analyst Direction Data Science - Internet, Médiamétrie

Médiamétrie est l’acteur de référence pour la mesure d’audience en France de la Télévision, de la radio et d’Internet. Le Pôle Internet produit chaque mois les données d’audience de la consommation internet des Français à travers trois écrans : l’ordinateur, le mobile et la tablette. La mesure internet fonctionne à travers le suivi de la consommation internet d’environ 25 000 panélistes. Tout un processus (composé d’étapes de nettoyage des données, de traitements statistiques, etc.) est déroulé tous les mois afin d’obtenir, à partir de l’activité de ces panélistes, la consommation internet française globale. Durant le processus, un traitement spécifique est appliqué à chacun des trois écrans : la méthode de détection et de traitement des observations atypiques se déroule au cours de chacun d’entre eux afin de corriger les valeurs atypiques de chaque écran indépendamment des autres. Lors de ces traitements, le travail se fait sur une base de tickets agrégée, la partie suivante de cette note aborde la composition de cette base.

Une observation atypique trop éloignée du reste des données peut avoir un effet néfaste sur l’analyse de ces dernières car elle peut être mal interprétée et peut biaiser l’ensemble de l’analyse, en particulier lors d’une mesure d’audience. C’est pourquoi il est important de détecter et de traiter ces observations atypiques. Cette étape intervient tôt dans le processus de la mesure d’audience afin de traiter les données en amont des étapes qui risqueraient de multiplier la dimension atypique de ces observations. La méthode qui est présentée dans cette note a été pensée et conçue au sein du Pôle Internet de la Direction Data Science de Médiamétrie.

Cette note explique la méthode utilisée pour détecter et traiter les observations atypiques au sein du surf des panélistes sur les trois écrans, sur lesquels est basée la mesure Internet Global. La méthode choisie pour détecter les observations atypiques est l’Isolation Forest, méthode qui détecte les anomalies via isolement. Graphiquement, l’algorithme va séparer les données par des lignes orthogonales et va attribuer un score d’anomalie qui sera plus ou moins élevé selon la difficulté que l’algorithme aura eu à séparer une observation des autres. Une observation qui est facilement séparable des autres est une observation qui est logiquement plus atypique que les autres observations. La méthode choisie pour traiter les observations atypiques traite ces anomalies au cas par cas afin de s’adapter à nos besoins métiers. Elle a pour objectif de diminuer l’impact de ces données sans supprimer entièrement les informations qu’elles peuvent apporter à la mesure d’audience.

Pour consulter l'intégralité de cette présentation, cliquez sur l'icône de téléchargement ci-dessous.

Téléchargement(s)

Téléchargements

Solutions associées

Calcul d’intervalle de confiance à 95%

Taille de l'échantillon ou d'une cible dans l'échantillon

n =

Proportion observée dans l'échantillon ou sur une cible dans l'échantillon

p =

%

Attention : ne s'applique qu'à une proportion. Le Taux Moyen est une moyenne de proportions et la Part d'audience un rapport de proportions.
Cet outil est donné à titre indicatif. Il ne saurait pouvoir s'appliquer sans autres précautions à des fins professionnelles.

Test de significativité des écarts entre deux proportions

Permet d'évaluer si la différence entre 2 proportions est significative au seuil de 95%

Proportion

Taille de l'échantillon

Échantillon 1

%

Échantillon 2

%

Attention : ne s'applique qu'à une proportion. Le Taux Moyen est une moyenne de proportions et la Part d'audience un rapport de proportions.
Cet outil est donné à titre indicatif. Il ne saurait pouvoir s'appliquer sans autres précautions à des fins professionnelles.

En complément
×
Dictionnaire
Les mots
des médias
Nouvelle
édition
+500
définitions
A
B
C
D
E
F
G
H
I