- Accueil
- Expertises
- Détection des répondants suspects dans une enquête en ligne
Détection des répondants suspects dans une enquête en ligne

Par Diane MAILLOT-TCHOFO, Fabienne LE SAGER et Louis MAREC, de la Direction Data & Méthodes de Médiamétrie, et Tom DEVYNCK, Médiamétrie et Toulouse School of Economics
L’erreur d’observation la plus répandue dans les enquêtes est associée à l’incapacité ou au refus des
répondants de fournir la bonne réponse [1].
Dans ce contexte, la volonté d’estimer correctement les niveaux de possession d’équipements multimédia (e.g. télévision, smartphone) a conduit Médiamétrie à développer une approche combinant deux méthodes pour détecter dans un dispositif multi-mode les répondants négligents, uniquement pour ceux qui répondent en ligne (CAWI).
L’un des principaux défis de cette étude réside dans la nature des données, à savoir une enquête déjà en production.
Les travaux de Laura Gamble [2] et d’Anvita Mahajan [3] nous ont éclairés et amenés à élaborer une méthode hybride combinant deux approches.
La première approche utilise les durées de complétion du questionnaire. En transformant l’inverse des temps de complétion de chaque module de l’enquête (7 dans notre cas), une somme pondérée peut être calculée pour chaque répondant. Les réponses négligentes sont déterminées en fonction d’un seuil de loi de probabilité Khi carré.
La seconde consiste en un algorithme de partitionnement en deux étapes basées sur la possession d’équipements. Nous avons appliqué un algorithme K-Means sur les caractéristiques sociodémographiques des ménages des répondants. Dans la mesure où l’équipement des ménages dépend fortement des individus qui les composent (nombre, âge, etc.), l’objectif est d’examiner ensemble les répondants dont l’équipement et l’utilisation sont potentiellement similaires (c’est-à-dire les réponses au questionnaire).
Ensuite, nous avons appliqué des modèles DBSCAN et Isolation Forest à chaque cluster pour détecter les répondants les plus distants de leur groupe tout en limitant les insuffisances respectives des modèles. Nous avons constitué la liste définitive de répondants suspects en combinant les résultats issus des deux méthodes. Les données n’étant pas labelisées, nos résultats ont été évalués sur la base des caractéristiques des répondants présumés négligents par rapport à celles de l’ensemble de la population étudiée.
Les analyses présentées dans l’article reposent sur deux jeux de données correspondants à deux vagues de l’enquête. L’ensemble de données ayant servi à élaborer les modèles comptait près de 8 000 répondants, dont environ 180 étaient classés comme négligents. Un autre ensemble de données d’une autre vague de même taille a donné 304 répondants suspects. Les caractéristiques des répondants négligents et les écarts statistiquement significatifs par rapport à l’ensemble de la population étudiée étaient cohérents avec les attentes et les hypothèses formulées en amont. En effet, les personnes de moins de 35 ans sont surreprésentées (respectivement 27% contre 13%), tandis que les retraités sont sous-représentés (21% contre 29%).
L’étude réalisée nous a permis d’identifier les profils des répondants suspects, ce qui constitue un
pas de plus pour prévenir les erreurs d’observation et veiller à la qualité des données recueillies.
[1] Groves, Robert M., Survey errors and survey costs, John Wiley & Sons, 2005.
[2] Gamble, Laura. Evaluation of Key Performance Indicators for Interviewer Falsification Suspicion
from Paradata and Interview Data, Ottawa 2023.
[3] Mahajan, Anvita Anjay. Hybrid Model using LOF and iForest Algorithms for Detection of Insider
Threats, Authorea Preprints, 2023.
Téléchargements
des médias
édition
définitions