Utilisation des données de caisse pour le calcul de l’indice des prix à la consommation

À partir de l’indice de janvier 2020, dans l’indice des prix à la consommation (IPC), les données de caisses des supermarchés et hypermarchés remplacent les relevés de prix effectués en magasin par les enquêteurs de l’Insee dans ces formes de ventes pour les produits alimentaires industriels et les produits d’entretien, d’hygiène et de beauté.

La méthodologie utilisée, les problèmes posés et les solutions retenues ne seront pas repris ici. Ils font l’objet de deux articles détaillés, disponibles sur le site de l’INSEE :

  • Un article de M. Leclair dans le numéro 3 (décembre 2019) du « Courrier des statistiques »
    intitulé « Utiliser les données de caisse pour le calcul de l’indice des prix à la consommation ».
  • Un article de M. Leclair, I. Léonard, G. Rateau, P. Sillard, G. Varlet et P. Vernédal P. dans la revue Économie et Statistique n°509 (2019) intitulé « Les données de caisse : avancées méthodologiques et nouveaux enjeux pour le calcul d’un indice des prix à la consommation* »

Ces articles sont suffisamment explicites et d’une technicité accessible à tous. On ne reviendra donc pas sur la méthodologie utilisée pour l’utilisation des données de caisse dans le calcul de l’IPC. Mais on va insister sur certains points qui sous-tendent cette méthodologie ou qui expliquent certaines prises de décision.

Les contraintes expliquant certains choix

L’introduction d’une nouvelle forme de collecte entraîne forcément une adaptation de la méthodologie de traitement des données et de calcul des indices. Trois conditions importantes ont guidé les décisions des statisticiens dans le choix des adaptations réalisées :

  • Il fallait respecter les principes et méthodes de calcul de l’ICP imposés par la réglementation européenne, sachant que cette réglementation a pour objet de permettre les comparaisons des évolutions des prix à la consommation entre les Etats-membres et le calcul d’un indicateur valable pour l’ensemble de l’Union Européenne.
  • Il fallait permettre les agrégations des informations détaillées obtenues à partir des données de caisse et des informations obtenues par la collecte classique par enquêteur auprès des points de vente non hypermarchés ou supermarchés.
  • C’est en partie une conséquence des deux précédentes conditions, il fallait assurer la continuité de la mesure dans le temps ou, en d’autres termes, que le passage à la nouvelle méthode de collecte affecte au minimum les évolutions constatées via l’ancienne méthode (on se reportera aux ouvrages cités pour voir l’effet minime du changement sur l’année 2019).

En fin de compte, on notera l’extrême prudence de l’Insee pour introduire une modification
importante dans un des indicateurs économiques importants.

L’accès aux données de caisse

Certes, l’Insee n’a pas été le premier institut de statistiques national à utiliser les données de caisse. Le Courrier des statistiques indique que celles-ci ont été mobilisées depuis longtemps par certains instituts nationaux statistiques pour le calcul de leur IPC : les Pays-Bas depuis 2002, suivis par la Norvège en 2005, la Suisse (2008), la Suède (2012), la Belgique (2015), le Danemark (2016), l’Islande (2016), le Luxembourg et l’Italie (2018).

Eurostat a contribué à l’extension de leur utilisation, via des grants, des workshops et un manuel (Eurostat, 2017).

L’Insee a envisagé au début de la dernière décennie d’utiliser les données de caisse. Mais il fallait se convaincre soi-même de l’utilité de les utiliser et inciter les détenteurs de l’information de base à fournir celle-ci, si possible gratuitement. Et toujours, il fallait rester prudent quant aux effets du changement.

Les premiers essais ont été réalisés à partir de données très limitées (en produits et en périodes couvertes) fournies par un organisme d ‘étude de marché. Puis, à partir de 2012, on a passé des conventions avec quatre enseignes représentant une grande part du marché pour une fourniture régulière de données. On a ainsi pu se rendre compte des problèmes théoriques (méthodologie) et pratiques (traitement d’une grande masse de données) posés.
Mais il fallait convaincre l’ensemble des enseignes et s‘assurer leur collaboration, en particulier pour avoir la garantie de recevoir les informations en totalité et, surtout, de façon régulière et gratuite. La Loi sur la République numérique (7 octobre 2016) a ainsi ouvert la possibilité de rendre obligatoire la transmission de certaines données privées, après concertation des acteurs et uniquement pour remplacer des enquêtes statistiques obligatoires. Cette possibilité a servi de base à une concertation avec les distributeurs. Une étude préalable de faisabilité et d’opportunité a été présentée au Cnis (Conseil National de l’Information Statistique) en 2016. Le Conseil, où sont représentés tous les acteurs de la vie économique, a émis un avis favorable, qui s’est traduit par un arrêté du 13 avril 2017, rendant obligatoire la transmission des données de caisses par les commerces de détail en magasin non spécialisé à prédominance alimentaire de plus de 400 m².
Depuis janvier 2019, l’ensemble des données de caisse est ainsi reçu quotidiennement par l’Insee, avec deux jours de délai par rapport à la date à laquelle ils s’appliquent.

Les données de caisse

Beaucoup de bases de données importantes ne sont pas structurées en ce sens qu’elles accumulent des informations relatives à des entités non précisément définies sur lesquelles on ne dispose que d’informations partielles (et pas les mêmes informations pour toutes les entités) et, surtout, on ne dispose pas de l’exhaustivité des entités étudiées.
Les données de caisse, par contre, sont structurées, qualifiées et exhaustives. En fait, elles consistent en trois éléments : le code du produit, le prix unitaire et la quantité vendue (le quatrième élément, la valeur de la vente se déduit des deux précédents). C’est « du pain béni » pour le statisticien !
Mais le code du produit, le code-barre, pose quelques problèmes.
D’abord, il faut le connaître pour pouvoir classer la transaction dans le cadre des nomenclatures
officielles de calcul de l’IPC (en particulier la COICOP4). Pour cela, l’Insee dispose d’un dictionnaire, mis à jour régulièrement par un panéliste, qui précise les caractéristiques du produit associé à un code-barre.

Comme l’indique le Courrier des statistiques, grâce au dictionnaire, on peut également repérer les modifications du produit (il y a changement de code) et décider si ces changements sont :

  • marginaux (en particulier une nouvelle présentation ou un changement limité de la contenance), auquel cas, on considère que la série de prix n’est pas altérée (avec, bien entendu, une correction liée au changement de quantité)
  • non marginaux, auquel cas, il faut utiliser des méthodes de raccordement pour assurer la
    continuité de l’indice.

Les changements non marginaux peuvent être le signe d’un abandon d’un produit et son
remplacement par un autre. Des méthodes existent, définies par Eurostat, pour traiter les
problèmes de remplacement d’un produit par un autre.

Cependant, la grande masse de données ne permet pas, comme jusqu’à présent, des traitements manuels. Il a donc fallu prévoir des outils informatiques de suivi des produits et de traitement automatiques des ruptures de code-barres.

Rappel des apports de la nouvelle collecte

On reviendra rapidement sur les avantages de la nouvelle collecte par rapport à la situation
ancienne. Les détails sont fournis dans les documents cités.

  • 1) La disposition de données exhaustives (comparée à la collecte par échantillons de taille forcément limitée et obtenue selon des méthodes empiriques faute d’information précise) permet l’obtention de statistiques plus précises et plus détaillées (indices régionaux par exemple).
  • 2) L’exhaustivité des données sur les quantités achetées à des niveaux détaillés de produits
  • permet de suivre les substitutions de produits par les consommateurs et de mieux traiter celles-ci.
  • 3) Les prix effectivement payés sont beaucoup mieux connus ; en particulier, on tient beaucoup mieux compte des actions commerciales ainsi que des promotions « discriminantes » (détenteurs de cartes de magasin, par exemple).

Aller plus loin Comme indiqué, les données de caisse utilisées concernent les produits alimentaires industriels et les produits d’entretien, d’hygiène et de beauté. Et elles sont collectées dans les super marchés et les hypermarchés. Y a-t-il des possibilités d’aller plus loin ? L’Insee ne fait qu’évoquer en deux lignes ce problème. Les développements ici ne sont que des remarques personnelles d’un rédacteur non responsable.

Une première idée serait d’étendre la collecte à d’autres biens et services. Ce serait possible dans des domaines de la consommation où les produits restent disponibles pendant une période assez longue (1 an ?) et peuvent être considérés comme appartenant des groupes de produits « raisonnablement substituables » (par exemple, l’huile d’olive, première pression à froid, en bouteille de 70cl à 1l) ou de produits dont les caractéristiques permettent de procéder relativement facilement au traitement des changements de qualité. Dans ce cas, on peut suivre un produit pendant plusieurs mois, voire plusieurs années et, le cas échant, tenir compte de sa baisse de popularité et de la hausse de popularité de produits voisins. Clairement, les conditions évoquées éliminent les possibilités rapides d’extension à beaucoup de vêtements de dessus dont la présence est souvent de courte durée et pour lesquels les opérations (nombreuses) de remplacement sont difficiles à réaliser automatiquement.

Etendre la collecte des données de caisse à d’autres données de vente est théoriquement possible, avec le développement des caisses enregistreuses utilisant les code-barres. Néanmoins, il faut avancer avec prudence, étudier comment procèdent les différents commerçants, comment ils rassemblent et stockent les informations, quel est le nombre de commerçants concernés, comment les contacter, les convaincre, etc. soit tout un nouveau champ de recherche, d’expérimentation et de réglementation beaucoup plus hétérogène et dispersé. Un tout nouveau programme, en somme !


* Le numéro 509 d‘Economie et Statistiques rassemble 3 autres articles sur l’utilisation des données de caisse et des données du Web pour les travaux sur les prix à la consommation en France et dans deux autres pays. Cette publication et le numéro double 505-506 d’Economie
et statistiques forment un tout intitulé « Big data et statistiques » et rassemblent des informations qui complètent utilement la communication de Jean-Paul AIMETTI, Président de l’Académie, à la réunion sur « Big data et statistiques publiques » de Rabat (janvier 2020).

Laisser un commentaire