Une nouvelle mesure d'audience hybride pour la télévision

Audience le mag
Médiamétrie a développé une nouvelle mesure hybride de l’audience télévisuelle des chaînes thématiques

Après la mesure d’audience de l’internet mobile lancée en 2010 puis l’hybridation du panel internet fixe Mediametrie//NetRatings avec des données de fréquentation en 2012, Médiamétrie a développé une nouvelle mesure hybride de l’audience télévisuelle des chaînes thématiques.

Une méthode innovante mise au point par les experts statisticiens de Médiamétrie.

L’arrivée du numérique a entraîné un changement dans le paysage médiatique. 58 % des foyers TV sont désormais équipés de décodeurs numériques ADSL, câble ou satellite connectables à Internet. De nouvelles données peuvent donc être collectées, quasiment en temps réel, permettant par exemple de connaître à chaque instant ce qui est visionné sur le téléviseur. Ces nouvelles informations, regroupées sous le terme de « logs », sont de précieuses ressources pour enrichir les mesures actuelles de l’audience TV, basées sur des panels d’individus, en particulier celles des chaînes thématiques, dont l’audience est de plus en plus fragmentée. Selon Benoît Cassaigne, Directeur des mesures d’audience de Médiamétrie, l’objectif est triple pour les marques : « obtenir une granularité plus fine, des résultats plus fréquents et des données de médiaplanning pour mieux valoriser l’espace publicitaire des chaînes thématiques et faire face à la concurrence d’internet ». Saisissant une demande initiale du groupe Canal+ en 2012, Médiamétrie s’est lancée avec Canalsat dans une phase de recherche et développement pour imaginer et construire une nouvelle mesure hybride TV.

Hybrider pour enrichir

Comme le souligne Aurélie Vanheuverzwyn, Directrice Analyses et Méthodes Scientifiques, « l’hybridation consiste à mélanger deux sources d’informations de natures et de niveaux différents pour créer une nouvelle mesure plus fine et plus riche. » Il n’y a cependant pas de méthode universelle. L’hybridation dépend des données dont on dispose et des besoins du marché. Dans le cas de la mesure de l’audience TV, les données sont d’une part celles d’une enquête basée sur un panel de foyers et d’individus abonnés et d’autre part les « logs » collectés par voie de retour, c’est-à-dire par la connexion des décodeurs à internet. Le périmètre de cette mesure est nécessairement limité, car si 58% des foyers TV sont équipés d’un décodeur numérique, seuls 38% des téléviseurs sont reliés à des décodeurs numériques, qui ne sont pas tous nécessairement connectés à internet. Ces 38% de téléviseurs couvrent toutefois l’ensemble de la réception des chaînes thématiques. Les experts de Médiamétrie ont privilégié une approche de type « log-up », consistant à enrichir la première source, un échantillon de 10 000 abonnés Canalsat mesurés par voie de retour, par la deuxième source, c’est-à-dire une modélisation estimée à partir de la mesure d’audience de référence en TV : le panel Médiamat.

Une stratégie en 3 étapes

La mise en place d’une mesure hybride pour la télévision présente deux difficultés principales. « D’abord, il faut filtrer les données voie de retour, et faire le tri dans les « logs » collectés, afin de sélectionner ceux qui sont réellement utiles et correspondent à une session TV. Ensuite, il faut réussir à individualiser les audiences. En effet, un téléviseur allumé ne signifie pas qu’une seule personne le regarde. 40 % du temps passé devant la télévision se fait à plusieurs » précise Lorie Dudoignon, Expert Statisticien.

La méthode développée par Médiamétrie se déroule en trois étapes.

La première étape est l’écrêtage des logs. Il s’agit de passer d’un signal « décodeur allumé » à une audience effective devant le poste. Il faut pour cela supprimer les logs qui correspondent à un décodeur allumé alors que la télévision est éteinte. Les paramètres de cette fonction d’écrêtage sont estimés à partir des données issues de la mesure d’audience de référence de la télévision : le Médiamat. Les données qui ne correspondent pas à des usages de consommation de télévision sont également mises de côté. Les données restantes servent à établir des tickets, qui comprennent l’heure du début d’audience, l’heure de fin et la chaîne regardée.

La deuxième étape répond à la question : qui est en train de regarder la télévision ? C’est l’étape la plus difficile, pour laquelle les équipes de Médiamétrie ont dû faire preuve d’innovation (voir paragraphe suivant).

Enfin la troisième étape est une extrapolation des résultats obtenus sur l’échantillon à l’univers total des abonnés. Il faut évidemment pour cela que l’échantillon des abonnés voie de retour soit représentatif de l’ensemble des abonnés. Cela nécessite une phase de redressement qui, dans ce cas, est similaire à celles utilisées dans la majorité des enquêtes.

D’une audience poste à une audience individuelle

Qui est effectivement devant le poste de télévision ? Pour le déterminer, une modélisation sociodémographique et comportementale est indispensable. Elle est réalisée à partir d’un échantillon de foyers, caractérisé en fonction du nombre d’individus, de leur sexe, leur âge, leur catégorie socio-professionnelle sans oublier leur lien de parenté. Ensuite chaque session TV est découpée en pas (ou séquence) de 5 minutes. Les chaînes sont regroupées par thématique, pour une modélisation plus robuste des audiences. Pour chaque pas de 5 minutes, on estime quelle est la thématique majoritairement regardée (du sport, de la musique, des programmes jeunesse…). A partir de cette thématique, il s’agit d’estimer les présences devant le poste grâce à une modélisation réalisée à partir du panel Médiamat. Cela revient à résoudre un problème que les mathématiciens appellent modèle de Markov caché : on cherche à déterminer, pour chaque pas de 5 minutes, un paramètre caché (les personnes qui regardent la TV), la thématique majoritaire étant connue. De plus, la probabilité que les personnes qui regardent ne soient pas les mêmes dans les 5 minutes suivantes ne dépend que de l’état actuel, et non des personnes qui regardaient la télévision plus tôt dans la journée. Si ces modèles de Markov cachés sont bien connus des statisticiens, Médiamétrie a innové pour les adapter à la mesure de l’audience.

L’estimation de qui est présent devant la télévision est effectuée par un algorithme d’individualisation. Les experts statisticiens ont dû en tester plusieurs afin de trouver celui qui reproduisait le mieux les résultats obtenus avec le Médiamat, qui mesure directement et précisément qui est devant le poste à chaque instant. Le nombre de solutions possibles que l’algorithme doit explorer dépend de la taille du foyer. Dans le simple cas d’un couple, il y a pour une séquence, 3 situations possibles : un des conjoints regarde la TV, l’autre conjoint regarde la TV, ou les deux conjoints regardent ensemble la TV. A la séquence suivante, chacune de ces situations a pu changer, ce qui laisse 9 possibilités. Au final, pour n séquences, il y a 3n solutions possibles. C’est beaucoup : plus de 200 milliards de combinaisons possibles pour deux heures de télévision (24 séquences de 5 minutes) ! L’algorithme ne peut les étudier toutes en un temps raisonnable. Parmi les algorithmes classiques utilisés dans les modèles de type Markov caché, celui de « Viterbi » détermine le chemin le plus probable à partir de la thématique observée. Mais il produit ainsi des structures d’auditoires qui sont trop caricaturales. Par exemple, toutes les séquences avec la thématique « jeunesse » sont attribuées à un public enfant. Autre exemple, l’algorithme « Randomized Forward » qui consiste à déterminer les personnes présentes en fonction de la thématique observée et des présences estimées à l’instant précédent. Dans ce cas, les structures d’auditoires sont au contraire trop moyennées c’est à dire que les structures d’auditoires seront quasiment les mêmes pour les thématiques « sport » et « jeunesse » par exemple. C’est pourquoi les statisticiens de Médiamétrie ont développé l’algorithme « Memorized Randomized Forward » qui évite ces deux écueils. Celui-ci identifie les personnes présentes en fonction de la thématique observée, de la thématique suivante et des présences estimées à l’instant précédent. Cela permet d’estimer des auditoires très proches de ceux réellement observés dans le panel. Après la dernière étape d’extrapolation à l’ensemble des abonnés, on obtient une mesure hybride précise et de qualité de l’audience TV des chaînes thématiques.

La R&D continue

Ce nouveau service de Médiamétrie sera lancé prochainement, sur l’univers Canalsat. L’étape suivante vise à étendre cette mesure hybride à d’autres opérateurs pour une mesure marché des chaînes thématiques. Côté R&D, les prochains efforts seront d’harmoniser les différents formats des données numériques obtenues par voie de retour, de dédupliquer les multi-abonnés pour passer à une mesure multi-opérateurs, de prendre en compte la Catch-up pour affiner la mesure des chaînes thématiques et de fournir des outils de médiaplanning.

Sylvain Guilbaud

Calcul d’intervalle de confiance à 95%

Taille de l'échantillon ou d'une cible dans l'échantillon

n =

Proportion observée dans l'échantillon ou sur une cible dans l'échantillon

p =

%

Attention : ne s'applique qu'à une proportion. Le Taux Moyen est une moyenne de proportions et la Part d'audience un rapport de proportions.
Cet outil est donné à titre indicatif. Il ne saurait pouvoir s'appliquer sans autres précautions à des fins professionnelles.

Test de significativité des écarts entre deux proportions

Permet d'évaluer si la différence entre 2 proportions est significative au seuil de 95%

Proportion

Taille de l'échantillon

Échantillon 1

%

Échantillon 2

%

Attention : ne s'applique qu'à une proportion. Le Taux Moyen est une moyenne de proportions et la Part d'audience un rapport de proportions.
Cet outil est donné à titre indicatif. Il ne saurait pouvoir s'appliquer sans autres précautions à des fins professionnelles.

En complément