Big data et statistiques commerciales : réalités et perspectives

Le présent article fait le point sur les réalités et les perspectives dans ce domaine, il a fait l’objet d’une conférence donnée par notre Président, Jean-Paul AIMETTI, le 21 janvier 2020 à Rabat, devant l’Académie Hassan II des sciences et techniques du Maroc.

Les statistiques commerciales et marketing nationales ou locales s’appuient en grande partie sur les statistiques officielles issues de l’INSEE et d’organismes publics comparables dans les différents pays. L’utilisation du Big Data offre de nouvelles possibilités pour accélérer et affiner les repères statistiques indispensables au suivi du commerce en France et dans le monde.

Le terme Big Data, parfois traduit par « données massives », désigne aujourd’hui l’immense réservoir de données numérisées provenant de multiples sources dont le volume croît au rythme impressionnant d’un quasi doublement tous les deux ans, parallèlement à la loi de Moore.

Ce réservoir comprend notamment

  • l’ensemble des informations déclaratives (emails par exemple) ou objectives (telles que les statistiques de navigation d’internautes) accessibles sur Internet via les sites, messages, blogs, réseaux et médias sociaux,
  • les données enregistrées par des capteurs (images satellitaires, capteurs routiers, caméras de sécurité, capteurs climatologiques, traces de transactions commerciales ou financières, etc.) dont le nombre est en forte croissance, en particulier avec la multiplication des objets connectés,
  • les systèmes d’information des entreprises de plus en plus détaillés,
  • un nombre grandissant de banques de données élaborées par des administrations et de nombreuses organisations publiques ou privées, dans la plupart des domaines.

Précisons également que le terme d’Open Data caractérise les banques de données provenant principalement d’organismes publics et libres d’accès pour les individus ou les entreprises.

  • Depuis des décennies, les organismes nationaux de statistique (ONS) et, en Particulier, l’INSEE en France et le Haut-Commissariat au Plan au Maroc, ont été confrontés à des volumes de données très importants, issus d’enquêtes portant sur des millions d’unités statistiques ou de données administratives.
    On pourrait ainsi considérer que les ONS ont un début d’expérience en matière de Big Data.
    En réalité, la révolution numérique en cours est à l’origine de ruptures fondamentales qui impactent significativement la production de données officielles.

___________________________________

  • Une première question se pose : dans quelle mesure les ONS ont intérêt à intégrer le Big Data dans leurs processus de production de statistiques officielles ?

Plusieurs raisons militent pour une réponse positive à cette question, en considérant les caractéristiques principales du Big Data, dites des « 5V » : Volume des informations disponibles, Vitesse de l’acquisition et de l’analyse des données, Variété de l’origine et du format de ces données, Validité et Valeur des informations analysées ou produites.

  • En premier, le volume croissant des données accessibles dans le Big Data peut contribuer à produire des résultats statistiques d’une plus grande granularité, moyennant des précautions en matière de rigueur statistique et de protection des données, thème que nous développerons par la suite.
    C’est ainsi que certains pays construisent des indices de prix à différents niveaux géographiques, grâce à de nouvelles techniques numériques de recueil.
  • Exploitant la deuxième caractéristique du Big Data, la vitesse, les ONS peuvent raccourcir les délais de production de statistiques officielles (au rythme généralement trimestriel ou annuel) par des synthèses de données plus rapidement collectées et analysées, accélérant ainsi les mesures prises par les pouvoirs publics.
    A titre d’exemple, alors que les études internationales de l’OCDE sur l’inégalité des revenus nécessitent traditionnellement deux à trois ans, il est aujourd’hui possible d’obtenir beaucoup plus rapidement une première estimation des résultats, en analysant la consommation d’électricité des ménages à partir des bases de données des producteurs d’énergie des pays concernés (des enquêtes préalables ayant démontré une forte corrélation entre les revenus des ménages et leur consommation d’énergie).

Par ailleurs, la plupart des enquêtes officielles sont réalisées dans des cadres strictement définis, peu propices à l’identification de phénomènes de rupture ou à la détection de signaux faibles, précurseurs de telles ruptures. L’intégration de données issues du Big Data permettrait de mieux tenir compte de ces phénomènes, en complément d’enquêtes régulières des ONS.

Il est désormais courant que les instituts d’études de marché analysent des messages d’internautes pour déceler de nouvelles tendances de consommation ou suivre le lancement d’innovations. Les ONS pourraient s’inspirer de telles démarches.  

  • Autre intérêt de l’utilisation du Big Data, lié à la variété des sources disponibles : la coopération avec des organismes publics ou privés, nationaux ou internationaux, développant de gigantesques bases de données dans tous les secteurs, combinée avec les progrès récents de la science statistique et les nouvelles capacités de traitement, augmenterait certainement la puissance des modèles explicatifs ou prévisionnels utilisés. L’expérience de l’OCDE citée plus haut en apporte la preuve.
  • Concernant la validité et la valeur des informations, précisons enfin que le positionnement et les méthodes des ONS, soucieux d’objectivité et de respect de la vie privée, leur permettent de jouer un rôle essentiel de garant d’informations fiables  et dénuées de tout intérêt marchand, dans l’univers numérique envahi par les fausses nouvelles et des manquements quotidiens à la protection des données.

___________________________________

Dans ce contexte, depuis une dizaine d’années, la plupart des ONS multiplient des expériences pilotes impliquant le Big Data, en exploitant des données massives, collectées par des partenaires ou par les organismes eux-mêmes (Cf. https://statswiki.unece.org/display/bigdata/Big+Data+in+Official+Statistic ).

Citons quelques expériences remarquables, menées ou dans différents pays :

  • Utilisation de données géographiques de plus en plus précises, dans de nombreux domaines : agriculture, silviculture, météorologie, climatologie, espaces verts, etc.
  • Construction d’indices des prix à partir des informations scannées aux caisses de points de vente, dans le cadre d’accord avec les grands distributeurs. Des essais d’élaboration d’indices des prix à partir des informations affichées par les sites d’achat en ligne ont également été tentées mais se sont révélées moins fiables.
  • Statistiques de consommation exploitant les données de cartes de crédit (dans les pays où ce type d’analyse est autorisé).
  • Optimisation de trafic de véhicules en analysant des données issues de péages d’autoroutes.
  • Suivi de mobilité et de flux de touristes à partir de messages téléphoniques.
  • Elaboration d’indicateurs de confiance des consommateurs ou de baromètres de bien-être des citoyens, en scrutant des échanges sur les réseaux sociaux.

Ces premiers exemples exploitant des sources uniques pourraient être complétés par des applications croisant plusieurs données massives avec des enquêtes publiques.

___________________________________

Il est important de souligner que de tels projets s’inscrivent souvent dans le cadre de coopérations internationales.

Plusieurs groupes de travail se sont en effet créés pour développer des échanges d’expériences, des guides méthodologiques et des bases de données partagées ; nous en citons les principaux, plus particulièrement spécialisés dans l’observation de la planète.

  • Depuis 2014, la Commission Statistique des Nations Unies anime le Global Group on Big Datahttps://unstats.un.org/bigdata ), très actif et qui organise des formations à destination des ONS.
  • A l’échelle européenne, Eurostat a créé un groupe de travail analogue (https://webgate.ec.europa.eu/fpfis/mwikis/essnetbigdata/index.php/WPH_Overview), notamment axé sur l’exploitation de données satellitaires en agriculture.
  • Le programme Copernicus de l’Union Européenne (https://www.copernicus.eu/en) (d’importance au moins égale à celle du projet nord-américain LandSat, premier programme d’observation de la terre à des fins civiles), bénéficie des informations très fines provenant des satellites Sentinel.
    En aval, une plate-forme, PEPS (https://peps.cnes.fr/), développée par le CNES à Toulouse donne désormais accès gratuitement à un volume sans précédent de données géographiques, à destination d’applications publiques ou privées en agriculture, en météorologie, en océanographie, en urbanisme, etc. (https://climate.copernicus.eu/big-data-and-climate-change).

___________________________________

Si tous les experts s’accordent pour prévoir une intégration importante des données massives dans les statistiques officielles, cette intégration se traduit essentiellement aujourd’hui par  des expériences pilotes, des recherches méthodologiques et, progressivement, par quelques statistiques régulières.

Cette situation s’explique, en grande partie, par le fait que les ONS doivent tenir compte de contraintes et de limites nombreuses, propres au Big Data ou liées à la vocation des ONS.

  • Contraintes et limites méthodologiques

Comme dans toute utilisation du  Big Data, le premier problème à résoudre concerne la qualité et la fiabilité des données, provenant de sources variées, aux formats et aux supports hétérogènes.

La croissance des entrées/sorties vocales dans la plupart des dialogues homme/machine complique également les analyses, dans la mesure où les statistiques sur les données textuelles sont moins automatisables que celles sur des données numériques.

En amont de tout traitement, une phase préalable de « nettoyage » des données est donc nécessaire.

Le second et important obstacle méthodologique réside dans le fait qu’un volume considérable d’informations ne garantit pas la représentativité des données collectées.

Rappelons ici, pour les non-statisticiens, un évènement bien connu dans l’histoire des sondages. En 1936, à la veille de l’élection présidentielle aux Etats Unis, deux initiatives s’étaient affrontées pour prévoir qui l’emporterait : le démocrate Franklin D. Roosevelt ou le républicain Alfred M. Landon ?

D’une part, la revue Literary Digest envoya des questionnaires à 10 millions d’électeurs provenant de plusieurs sources dont les abonnés à la revue, les possesseurs de voitures et les propriétaires de lignes téléphoniques.

2,3 millions de répondants permirent alors de pronostiquer une élection du candidat républicain.

D’autre part, l’Institut Gallup procéda à un sondage représentatif sur 5 000 électeurs qui conduisit à prévoir la victoire de Roosevelt avec une confortable avance, ce que confirma le vote.

La méthode de la revue littéraire cumulait une série de biais d’échantillonnage, incitant à la plus grande prudence dans l’interprétation des résultats.

La même prudence est recommandée dans l’analyse de certaines synthèses issues de données du Big Data.

Dans la plupart des cas, ONS prennent soin de combiner les interrogations de données massives avec des approches statistiques rigoureuses pour « redresser » les résultats obtenus.

Plusieurs voies de recherche sont à poursuivre pour perfectionner de telles approches.

Limites dues à la vocation des ONS

  • Une vocation première des ONS est d’élaborer des indicateurs à la construction rigoureuse et suffisamment stable pour suivre certains phénomènes dans le temps.
    Or, l’avalanche quotidienne de données massives fournit à la fois des informations objectives (telles que les traces d’achat en ligne, des images satellitaires ou des statistiques de fréquentation de sites) et un « brouhaha informationnel », où se mêlent bavardages, vraies et fausses nouvelles, phénomènes sporadiques, etc.
    Dans ce contexte comment choisir des informations susceptibles de contribuer à l’élaboration d’indicateurs fiables dans la durée ?
    Aux Pays Bas, par exemple, une expérimentation a été menée pour mesurer la confiance des consommateurs à partir d’analyses de messages sur les réseaux sociaux. L’une des difficultés était de déterminer la fréquence des résultats pour éviter les variations erratiques. La corrélation avec un indice de confiance mesuré par enquête a permis d’établir que la fréquence optimale de synthèse était mensuelle.
  • Un second enjeu est à considérer : quel choix opérer, parmi la profusion de sources d’informations externes
    Chaque ONS doit, conformément à sa mission, sélectionner des chantiers prioritaires destinés à fournir des statistiques utiles au développement humain et économique de son pays.
    Une première précaution consiste à identifier des « smart data », c.à.d. des données pertinentes, issues d’une réflexion amont où d’enquêtes ciblées exploratoires, pour endiguer le tsunami d’informations au coût de traitement prohibitif. Dans cet esprit, le croisement de certaines enquêtes d’ONS avec une sélection de données provenant de différentes administrations (spécialisées en emploi, fiscalité, économie, santé, etc.) peut conduire à une plus grande précision des résultats statistiques.
    En complétant cette approche par l’utilisation de quelques sources privées ou publiques fiables, la précision peut être améliorée, avec le souci permanent de la protection des données personnelles.
    Concernant les sources privées, elles sont à utiliser avec discernement au regard de leur coût éventuel et de leur pérennité, nécessaire pour assurer la continuité des mesures.
    Cette considération peut conduire un ONS à s’interroger sur l’opportunité de faire participer les géants du numérique à la gouvernance de certains dispositifs statistiques.
  • Contraintes financières et humaines
    Pour bénéficier des opportunités offertes par le Big Data, des investissements conséquents sont nécessaires, tant en termes d’infrastructures informatiques, de logiciels spécialisés ou d’accès à certaines donnés massives, qu’en matière de ressources humaines.
    Ceci implique d’anticiper le retour sur investissement des projets envisagés, en procédant à des expériences pilotes et en tirant les leçons d’expériences réussies dans d’autres pays.
    Nous rappelons, à ce propos, l’expérience menée par Google, (Google flu trends ) pour prévoir  les épidémies de grippe dans le monde, en exploitant les requêtes enregistrées sur le moteur de recherche, dans 25 pays.
    Ce chantier fut arrêté en 2013 après dix ans de fonctionnement, où, selon un expert interrogé, « il servait principalement à prévoir l’hiver dans les pays étudiés ». (http://www.slate.fr/story/120441/sante-big-data-echec-google-flur ).
    De même, on peut s’interroger sur l’intérêt d’investir des millions de dollars pour détecter des signes avant-coureurs de famine dans le monde, en utilisant l’intelligence artificielle (et le deep leaning !), comme le prévoit un programme financé depuis fin 2018 par des organisations internationales et des géants du numérique (Les Nations Unies, La Banque Mondiale, La Croix Rouge Internationale, Google, Amazon et Microsoft, Cf. http://www.ibcr.org/fr/medias/lintelligence-artificielle-au-service-de-la-prevention-des-famines/) . A notre humble avis, l’argent consacré à ce programme serait plus utile dans des mesures d’aide aux pays où règne une famine endémique et qui sont bien identifiés.
  • Respect de la vie privée et de la liberté individuelle
    L’utilisation et le croisement de données personnelles numérisées de plus en plus nombreuses et précises augmente considérablement les risques de piratage de données, à des fins commerciales ou criminelles.
    Ce risque sera d’autant plus grand que les ONS auront recours à des sources externes d’informations ou partageront des données officielles avec des organismes publics ou privés.
    Au-delà des détournements de données sur Internet, la multiplication des capteurs de toutes sortes  peut également conduire à de graves atteintes à la liberté individuelle.
    A titre d’exemple, si l’utilisation de données géographiques permet de nombreuses applications vertueuses, à l’opposé, on imagine aisément les dérives néfastes si ces données intègrent progressivement la reconnaissance faciale.
    Tous ces dangers potentiels imposent de renforcer drastiquement les dispositifs de sécurité informatique des ONS et d’adapter les principes classiques de confidentialité des données au Big Data. C’est dans ce contexte que plusieurs organismes nationaux et internationaux ont perfectionné leurs chartes de bonne pratique des statistiques publiques.
    (Cf. https://ec.europa.eu/eurostat/fr/web/quality/european-statistics-code-of-practice).

___________________________________

En résumé, malgré le nombre croissant de projets mis en œuvre ou prévus, il serait prématuré de conclure que les ONS ont déjà profondément  transformé leurs méthodes de travail à l’ère du Big Data.

Selon un expert interrogé, 15 à 25% des moyens d’un ONS de pays développé seraient consacrés à des travaux impliquant le Big Data.

Comme dans toute organisation, une transformation numérique nécessite un temps d’adaptation, souvent sous-estimé, indispensable pour vaincre les résistances humaines au changement, acquérir de nouvelles compétences et assurer la continuité économique entre ancien et nouveau modèles de fonctionnement.

Pour faciliter la transformation, une des voies classiques consiste à mettre en place une équipe innovante ou Lab, spécialisée en Big Data et chargée de lancer des projets transversaux impliquant les silos organisationnels en place. Dans un second temps, la « culture Big Data » est diffusée plus largement dans l’ensemble de l’ONS.

Plus globalement, les ONS doivent définir une stratégie numérique ambitieuse s’inscrivant dans un écosystème qui intègre notamment différents partenariats privés et publics, la collaboration avec des plateformes de données internationales et des accords régulés avec les grands acteurs du numérique (Cf. Which strategies for NSOs in the digital era ? Towards « smart data » strategies ?, 15th meeting of the Comitee on Statistics and statistical Policy, Genève, juin 2018).

Notons enfin que, dans un pays ne possédant pas un dispositif avancé d’enquêtes régulières, le Big Data peut temporairement permettre d’élaborer, à moindre coût et plus rapidement, certaines statistiques publiques utiles, en respectant une indispensable rigueur méthodologique et les règles essentielles de protection des données individuelles

  • Concernant le Maroc, nous évoquons quelques axes envisageables, dont certains sont déjà bien avancés, les dispositifs de statistiques publiques du Royaume étant considérés comme exemplaires, en comparaison d’autres pays africains ou moyen-orientaux :
  • Coordonner des projets pilotes, menés par une équipe dédiée, sur des sujets prioritaires pour le développement durable, humain et économique du Pays.

Les études sur la productivité agricole, les indicateurs de développement humain, la lutte contre désertification ou le suivi de déplacements de touristes pourraient ainsi être améliorées et accélérées, en anticipant le retour sur investissement des projets.

A titre d’exemple, le croisement de données administratives et de statistiques publiques (issues du recensement, d’informations fiscales, d’enquêtes sur l’emploi ou la consommation, etc. ) avec des bases de données géographiques pourrait permettre d’affiner les mesures de lutte contre les disparités territoriales, en matière de niveau de vie ou d’accès aux services publics, dans la continuité des travaux de l’ONDH et du HCP (www.ondh.ma/sites/default/files/documents/hcp-meknes.pdf).

  • Compléter l’évaluation des mesures prises, dans le cadre de l’engagement du Maroc en matière de développement durable à l’horizon 2030. Cette évaluation nécessitant le suivi de 232 indicateurs pour estimer le degré d’atteinte des 17 objectifs de développement durable définis par les Nations Unies, le recours au Big Data s’avère indispensable (https://morocco.un.org/fr/sdgs).
  • S’inspirer des différentes expériences étrangères et collaborer avec les plateformes d’échanges internationales.
  • Renforcer les mesures nécessaires pour assurer la confidentialité des données individuelles.
  • Mettre en œuvre un plan d’investissement technologique et humain pour adapter les ressources des organismes producteurs de statistiques officielles. Notons qu’en matière de compétences humaines, le Maroc dispose d’un atout important : le très bon niveau mathématique des diplômés de l’enseignement supérieur (qu’il faut savoir retenir !).

Pour ne citer qu’un exemple, le groupe Ziwit, leader européen de la cybersécurité, a été fondé par un marocain, Mohammed Boumediane (https://www.ziwit.com/fr/ ).

Sources d’information utilisées

  • Interviews d’experts, dont Martine Durand, Directrice de la Direction des statistiques et des données de l’OCDE
  • Pauline Givord, ex Responsable d’une unité de l’INSEE chargée de diffuser des méthodes statistiques innovantes
  • Gilbert Saporta, Professeur émérite, chaire de statistique du CNAM

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *