Détection et traitement des valeurs atypiques et influentes dans la mesure d'audience internet

7ème Journée Méthodes Avancées pour l’Analyse des Sondages Complexes

"Détection et traitement des observations atypiques et influentes"

Par Lucie Cellier, chargée d'études statistiques

 

Médiamétrie réalise la mesure d’audience Internet en France. Pour les connexions depuis un ordinateur, la mesure est basée sur un panel de 22 000 individus ayant accès à Internet depuis leur domicile ou leur lieu de travail.

Des indicateurs de référence sont publiés mensuellement : le nombre de visiteurs, de pages vues, le temps passé et le nombre de visites. La nature de ces variables d’intérêt, et en particulier leur caractère fortement asymétrique, favorise la présence de valeurs atypiques et/ou influentes. De nombreuses méthodes de détection existent, basées notamment sur le calcul de distances et de seuils ou sur le calcul de différences.

Des méthodes multivariées peuvent aussi être envisagées comme les K-means. Après détection, la valeur atypique pourra être soit modifiée soit supprimée. Après redressement de l’échantillon, une observation peut devenir influente du fait d’une combinaison valeur et/ou poids de redressement élevés. Un traitement en aval est donc nécessaire. La méthode de traitement testée est la winsorization. Une méthode de détection et de traitement des valeurs atypiques a été mise en place début 2014, elle s’appuie sur la contribution des individus sur les indicateurs estimés. L’objet de cette communication sera de présenter les alternatives possibles à cette approche pour la détection et le traitement des valeurs atypiques et influentes sur Internet.

 

Pour consulter l'intégralité de cette présentation, cliquez sur l'icône de téléchargement ci-dessous.

Téléchargements

Calcul d’intervalle de confiance à 95%

Taille de l'échantillon ou d'une cible dans l'échantillon

n =

Proportion observée dans l'échantillon ou sur une cible dans l'échantillon

p =

%

Attention : ne s'applique qu'à une proportion. Le Taux Moyen est une moyenne de proportions et la Part d'audience un rapport de proportions.
Cet outil est donné à titre indicatif. Il ne saurait pouvoir s'appliquer sans autres précautions à des fins professionnelles.

Test de significativité des écarts entre deux proportions

Permet d'évaluer si la différence entre 2 proportions est significative au seuil de 95%

Proportion

Taille de l'échantillon

Échantillon 1

%

Échantillon 2

%

Attention : ne s'applique qu'à une proportion. Le Taux Moyen est une moyenne de proportions et la Part d'audience un rapport de proportions.
Cet outil est donné à titre indicatif. Il ne saurait pouvoir s'appliquer sans autres précautions à des fins professionnelles.

En complément
×
Dictionnaire
Les mots
des médias
Nouvelle
édition
+500
définitions
A
B
C
D
E
F
G
H
I