Détection et traitement des valeurs atypiques et influentes dans la mesure d'audience internet

8ème Colloque Francophone sur les Sondages
Image

"Détection et traitement des valeurs extrêmes et influentes dans la mesure d’audience Internet"

Par Lucie Cellier, chargée d'études statistiques et Magdalena Auvinet, responsable pôle statistiques

 

Médiamétrie mesure l’audience de l’internet fixe (i.e. connexion via un ordinateur). Cette mesure est estimée sur la base d’un panel de 22 000 individus ayant accès à Internet depuis leur domicile ou leur lieu de travail.

Des indicateurs de référence sont publiés mensuellement : le nombre de visiteurs, de pages vues, le temps passé et le nombre de visites. La nature de ces variables d’intérêt, et en particulier leur caractère fortement asymétrique, favorise la présence de valeurs atypiques et/ou influentes. De nombreuses méthodes de détection existent, basées notamment sur le calcul de distances et de seuils ou sur le calcul de différences.

Des méthodes multivariées peuvent aussi être envisagées comme les K-means. Après détection, la valeur atypique pourra être soit modifiée soit supprimée. Après redressement de l’échantillon, une observation peut devenir influente du fait d’une combinaison valeur et/ou poids de redressement élevés. Un traitement en aval est donc nécessaire. La méthode de traitement testée est la winsorization. Une méthode de détection et de traitement des valeurs atypiques a été mise en place début 2014, elle s’appuie sur la contribution des individus sur les indicateurs estimés. L’objet de cette communication sera de présenter les alternatives possibles à cette approche pour la détection et le traitement des valeurs atypiques et influentes sur Internet.

 

Pour consulter l'intégralité de cette présentation, cliquez sur l'icône de téléchargement ci-dessous.

Téléchargement(s)

Download

Confidence interval calculus

Sample size or target in the sample

n =

Proportion observed in the sample or on a target in the sample

p =

%

Warning: only applies to a proportion. The Average Rate is an average of proportions and the Audience Share a ratio of proportions. This tool is provided for information purposes. It cannot be applied for professional purposes without further precautions.

Test of significance of the differences between two proportions

Used to assess whether the difference between 2 proportions is significant at the 95% threshold

Proportion

Sample size

1st sample

%

2nd sample

%

Warning: only applies to a proportion. The Average Rate is an average of proportions and the Audience Share a ratio of proportions. This tool is provided for information purposes. It cannot be applied for professional purposes without further precautions.

More
×
Dictionnaire
Les mots
des médias
New
edition
+500
definitions
A
B
C
D
E
F
G
H
I