Anticiper les ruptures des tendances socio-économiques et commerciales par la cliodynamique : une analyse sémantique des 25 millions de livres Google Books de 1860 à nos jours

L’anticipation des tendances constitue une étape fondamentale des études de marché. Outre qu’elle permette de répondre aux besoins des clients, elle oriente les décisions stratégiques du décideur. Notre expérience des grandes entreprises et des PME nous a montré que la majorité des études marketing s’attache à évaluer la demande à travers la réalisation d’enquêtes et l’examen de données statistiques, et l’offre grâce à la veille concurrentielle. Or, l’étude de l’environnement du marché comprenant l’ensemble des facteurs sur lequel l’entreprise n’a que peu de pouvoir mais qui peut fortement impacter son activité est le plus souvent limitée à une appréciation qualitative d’opportunités ou de menaces à son développement et sur le plan quantitatif à un examen des données socio-démographiques (population, taux de mortalité et de natalité, structure des âges, mouvements de population). Par voie de conséquence, faute de méthode ou d’outil adaptés et face à un avenir de plus en plus incertain, l’entreprise constate et subit le plus souvent les ruptures des évolutions plus qu’elle ne les anticipe et ne s’y prépare.

« Gouverner, c’est prévoir ; et ne rien prévoir, c’est courir à sa perte »[1].
Emile de Girardin, 1802 – 1881

La présente recherche expose une méthode de traitement géo-sémantique permettant d’analyser les tendances thématiques d’un corpus de textes datés. Utilisant l’Histoire et la littérature anglo-saxonne comme source d’expérience, elle sera appliquée à la gigantesque bibliothèque de livres numérisés Google Books.

1. Une nouvelle économie de disruption

Un certain nombre d’experts comme François Laurent, consultant chez Consumer Insight France et ancien président de l’association nationale des professionnels du marketing (Adetem), jugent que nous sommes entrés depuis plusieurs années dans une économie de disruption du fait des successions ininterrompues de ruptures sociétales et technologiques créant une situation de crise économique chronique[2]. Face à un futur de plus en plus incertain se constituent un marketing de la rupture et un marketing de l’incertain qui donnent des clés pour intégrer et anticiper la mutation des marchés[3][4].

Selon Michel Lévy Provençal, fondateur de la société Brightness et conférencier à Sciences Po, tenter de naviguer dans l’incertitude tout en réduisant l’inattendu devient alors une compétence indispensable, le décideur étant confronté à 3 options : ne rien faire, se préparer au pire à travers la gestion du risque, se préparer à différents scénarii futurs[5]. Une politique de gestion des risques a le grand défaut de limiter les marges de manœuvre de l’entreprise en la crispant sur les dangers de l’avenir. Ainsi, une gestion prévisionnelle et raisonnée de l’entreprise sur le modèle de la fourmi privilégiera naturellement une stratégie fondée sur les scénarii futurs les plus probables à l’inverse d’une gestion à la cigale ignorant les menaces possibles se dessinant à l’horizon.

2. L’analyse sémantique et la cliodynamique pour prévoir les tendances et leurs ruptures

L’analyse des données textuelles (ADT) considérant les textes comme des données organisées fait appel à différentes disciplines selon l’approche sémantiques adoptée dont :

  • la lexicographie : elle comprend le recensement des mots, leur classement, leur définition et leur illustration afin de constituer un dictionnaire,
  • la lexicologie s’occupe du vocabulaire, de la nature des mots, leur étymologie mais aussi aux relations systémiques qui les caractérisent,
  • la lexicométrie ou analyse de lexique : elle permet d’étudier de manière statistique comment les mots sont utilisés.
  • La logométrie ou analyse du discours,
  • la sémantique : elle consiste à étudier le langage dans le sens où il est employé. Il s’agit d’étudier les liens entre les mots, les symboles, les phrases (appelés les « signifiés ») et ce qu’ils signifient (appelés les « signifiants »).
  • le textmining : aussi appelé « fouille de texte », le textmining est considéré comme faisant partie du domaine de l’analyse des données multivariées intégrant en particulier l’intelligence artificielle.

Plusieurs méthodes récentes utilisent l’analyse des données textuelles pour extraire les signaux faibles des corpus[6]. Selon leurs auteurs, les classes ou clusters sémantiques obtenus s’identifieraient alors à des signaux faibles qu’il est possible de caractériser plus précisément en les croisant avec les autres termes accessibles comme auteurs, laboratoires, pays, journaux, reste du vocabulaire.

Or, ces méthodes d’analyse sémantique comportent généralement des limitations à savoir que le facteur temps n’entre en ligne de compte qu’au départ (matrice croisant mots-clés & dates) et qu’un seuil arbitraire de progression de fréquences des termes est utilisé pour extraire la terminologie émergente.

La cliodynamique (d’après Clio du grec ancien Κλειώ / Kleiố, muse de l’Histoire dans la mythologie grecque) est un domaine transdisciplinaire créée en 2003 par le scientifique russo-américain Peter Valentinovich Turchin qui considère l’histoire comme un objet d’étude scientifique[7]. Cette science des cycles tente d’expliquer les processus dynamiques historiques comme la montée ou l’effondrement des empires ou civilisations, les cycles économiques, les booms de population, les modes grâce à la modélisation mathématique, le datamining, l’économétrie ou encore la sociologie culturelle.

Notre recherche tirant une expérience de l’Histoire dans l’esprit de la cliodynamique a donc pour objectif de proposer une méthode d’analyse sémantique dynamique de détection des signaux faibles au sein des gros corpus textuels possédant une indexation chronologique voire spatiale[8] (géo-sémantique). Elle permet d’autre part de repérer des périodes temporelles associées à de grandes tendances tout en anticipant les ruptures.

Cette comprend 5 étapes :

  • (1) Une extraction des N-grams du corpus et calcul des fréquences correspondantes au sein de chaque période,
  • (2) La création d’un dictionnaire de termes en lien avec le ou les thèmes analysés,
  • (3) Une analyse factorielle sur le tableau des fréquences (périodes) x (termes du dictionnaires) pour exprimer les grandes tendances thématiques des textes analysés en fonction des époques,
  • (4) Le repérage des points temporels de rupture ou de pics (signaux faibles) sur des graphes représentant les dates selon les thèmes préalablement identifiés (variables factorielles),
  • (5) Une classification automatique sur les dates (individus statistiques) au niveau de la représentation selon les axes factoriels pour repérer les époques correspondant à des thèmes particulièrement forts.

Plus spécifiquement, notre analyse des tendances structurelles socio-économiques avec détections de leurs ruptures s’est attachée à la base de données Google Books des ouvrages anglo-saxons. En lien avec cette problématique, un dictionnaire de 1301 termes anglais a été élaboré, ces termes relevant du vocabulaire du commerce, marketing, économie, culture, science, religion, politique, société, entreprise (étape 2). L’analyse factorielle mise en œuvre était l’analyse en composantes principales-ACP (étape 3). La méthode de classification automatique retenue fondée sur l’intelligence artificielle et les réseaux de neurones a été celle des cartes auto-organisatrices de Kohonen (étape 5) pour sa capacité à détecter les périodes de l’histoire en les associant à des thématiques spécifiques.

  • Résultats et analyse

Adaptant cette méthode au cadre spécifique de notre illustration portant sur la base de données Google Books des livres anglo-saxons publiés de 1860 à 2008, nous avons détecté 3 grandes tendances dans les thèmes évoqués, chaque tendance correspondant à un axe factoriel de l’ACP. Dans le cadre de l’étape 3, deux cartes factorielles ont été obtenues (graphes 1 et 2) et une interprétation qualitative a été effectuée en se fondant sur le vocabulaire des termes associés à chaque axe factoriel en valeurs positives et négatives tout en repérant les inversions de tendance sémantique (étape 4) :

  • Axe factoriel 1 : « Rationalité & Froideur » opposé à « Humanité/Autorité »

Certaines années sont caractérisées par un discours froid, scientifique et neutre alors que d’autres années présentent des textes teintés de grands sentiments, de spiritualité associés à des marques d’autorité. Les années de 1860 à 2001 tendent de plus en plus au discours froid et scientifique, mais on observe au-delà de 2001 un retour vers les grands sentiments, l’irrationnalité, la religiosité.

  • Axe factoriel 2 : « Chaos & Insécurité » opposé à « Industrie & Production »

L’analyse fait apparaître des périodes de l’Histoire marquées par un vocabulaire davantage en lien avec des termes violents et avec le désordre. D’autres années sont en opposition associées à des termes évoquant l’ordre, l’industrie, l’organisation mais également à des termes rassurant liés à la famille et au confort (ordre social). De 1860 aux années 1940, on constate une progression d’une sémantique vers l’industrie, la sécurité. Une rupture s’opère alors avec des textes comportant un vocabulaire de plus en plus en lien avec le chaos et l’insécurité. Cette tendance s’est accrue jusqu’à nos jours.

  • Axe factoriel 3 : « Révolution & Collectivisme » opposé à « Libéralisme & Individu »

On trouve en 3e tendance dans les textes datés, des années associées au vocabulaire du collectivisme, à la révolte, aux mouvements sociaux. Certaines époques sont à l’inverse liées à un vocabulaire rassurant rappelant davantage les thèmes de l’individu, du chez-soi, de la paix et de la liberté (libre-entreprise en particulier).

Par ailleurs, on obtient 8 périodes de l’Histoire grâce à la classification selon la méthode des cartes auto-adaptatives de Kohonen (étape 5 de la méthode). Chaque période comportant une série d’années quasi-continues est caractérisé par un vocabulaire et des thèmes spécifiques évoqués dans la littérature analysée :

• Groupe 1-1 : années 1860-1890 (durée 30 ans)

• Groupe 1-2 : années 1891-1910 (durée 19 ans)

• Groupe 1-3 : années 1911-1934 (durée 23 ans)

• Groupe 2-3 : années 1935-1954 (durée 19 ans)

• Groupe 3-3 : années 1953-1972 (durée 19 ans)

• Groupe 3-2 : années 1973-1986 (durée 13 ans)

• Groupe 3-1 : années 1987-2006 (durée 19 ans)

• Groupe 2-1 : années 2008…

Ces classes sont caractérisées par des termes à forte fréquence en l’occurrence des noms communs et noms de pays (tableau 1) ce qui permet une interprétation qualitative au regard de l’Histoire.

Sur le plan de la géo-sémantique, on notera que quelles que soient les époques certains pays sont davantage cités lorsque le discours s’oriente vers un vocabulaire davantage en relation avec l’insécurité et le chaos, vers la guerre (axe factoriel 2) ou vers la révolution et le collectivisme (axe factoriel 3) comme on peut les visualiser sur la figure 1. A toutes les époques, les pays sémantiquement associés à des conflits mondiaux sont généralement situés en des lieux géographiquement stratégiques par exemple à la confluence entre les puissances de l’Est et de l’Ouest. On y recense en particulier l’Afghanistan, la Biélorussie, la Bosnie, l’Irak, l’Azerbaïdjan, l’Ukraine, la Croatie, la Slovaquie, la Lituanie, l’Estonie, le Bangladesh, la Chine.

La fin de la période étudiée correspondant à l’année 2008 est arrivée à son apogée concernant la fréquence des termes en relation avec l’anarchie, le chaos et la violence (valeurs positives de l’axe factoriel 2) et on note un retour vers des valeurs plus humaines mais aussi davantage autoritaires (retour vers les valeurs négatives sur l’axe factoriel 1). Remarquons aussi que les périodes ont une durée comprise entre 13 et 30 ans avec une valeur médiane de 19 ans et une moyenne de 20 ans. S’appuyant sur cette analyse des tendances géo-sémantiques, nous pouvons en déduire que la période 2008 à 2028 comporte de forts risques d’instabilité politique et économique au niveau mondial (révoltes, révolutions, manifestations, terrorisme) avec un retour possible des dictatures ou de pouvoirs autoritaires et/ou religieux. Des risques de guerre mondiale ne sont pas à exclure par le fait que les pays géostratégiques apparaissant fréquemment cités avant et pendant les périodes de conflits passés sont actuellement de plus en plus présents dans les textes. Le discours scientifique perd graduellement de l’importance depuis 2001 dans le corpus analysé : en extrapolant, l’avenir pourrait voir apparaître une société bien plus tournée vers la foi religieuse, davantage attirée par l’irrationnel, le surnaturel ou encore prenant appui sur des croyances irraisonnées telles les superstitions.

Graphe 1 : Représentation des individus (dates) sur les premier et deuxième axes factoriels de l’ACP
Graphe 2 : Représentation des individus (dates) sur les premier et troisième axes factoriels de l’ACP
Tableau 1 – Description des 8 clusters sémantiques obtenus
Figure 1 : Pays jouant par une évocation plus fréquente de leurs noms un rôle important à la veille de crises ou de conflits (Corrélation / axe factoriel 3)

4. Implications managériales

La présente méthode est susceptible d’accompagner le décideur dans son analyse de l’environnement. Elle identifie et qualifie les tendances tout en détectant leurs points ou seuils de rupture. Les caractéristiques de la mode d’une époque sont par exemple évaluées plus rationnellement. Le graphe 4 suivant indique par exemple les couleurs (au sens large) les plus citées selon les périodes de l’histoire :

Graphe 3 – Couleurs les plus citées dans les textes anglais selon les périodes de l’Histoire représentées par les axes factoriels 1 & 2

D’autres intérêts de la méthode sont également appréciables pour l’analyse qualitative de discours (marketing politique, communication des entreprises et des institutions, discours publicitaire, …), l’anticipation d’évènements (mouvements sociaux) ou encore la datation de texte : une communication peut être évaluée dans son style en la rattachant à une époque particulière et à des tendances (représentées selon les axes factoriels).

5. Conclusion

Notre recherche a présenté une méthode d’analyse sémantique portant sur de gros corpus de données textuelles capables d’en extraire les tendances et de détecter les ruptures socio-économiques dans le cadre d’une approche cliodynamique. Une société vivant sous des auspices radieux et connaissant une économie florissante est bel et bien susceptible sous l’impulsion de crises financières de se désorganiser sur des décennies tout en dégradant sa qualité de vie.

Les enseignements de cette étude indiquent en effet que les périodes d’embellie et de dégradation du tissu socio-économique obéissant à un certain déterminisme historique durent environ une soixante d’années (1860-1918 pour la tendance à la progression / 1940-2000 pour la tendance à la dégradation) avec une période intermédiaire faste pour l’industrie et le commerce portant sur une vingtaine d’années (1919-1939). Ces travaux sont à comparer aux cycles de Kondratieff étendus à l’époque contemporaine [9] [10].


[1] Girardin (de) Emile (1852) La politique universelle – Décrets de l’avenir, Ed. Muquardt, Bruxelles.

[2] https://www.conseilsmarketing.com/fidelisation/marketing-de-rupture-et-disruption-pourquoi-en-sommes-nous-la-francois-laurent/

[3] Chaptal de Chanteloup Christophe (2014) Le marketing de rupture : De nouvelles pratiques pour les marchés en mutation, Edition De Boeck.

[4] Cahen Philippe (2011) Le marketing de l’incertain. Méthode agile de prospective par les signaux faibles et les scénarios dynamiques, édition Kawa.

[5] https://www.brightness.fr/actualites/managerdanslincertitude

[6] Dousset B. (2016) Approches statistiques et sémantiques pour la recherche des signaux faibles, VSST 2016 : Veille Stratégique Scientifique & Technologique, Oct 2016, Rabat, Maroc.

[7] Turchin Peter (2011) Toward Cliodynamics – an Analytical, Predictive Science of History », Cliodynamics, vol. 2, n°1.

[8] La méthode a été développée dans le cadre du projet de recherche Eclavit (Extraction CLAssification et VIsualisation de données Textuelles) et a fait l’objet du développement par nos soins en 2016 d’un logiciel web : http://eclavit.univ-mlv.fr/DaText/

[9] Grinin L.E, Devezas T.C. & Korotayev A.V. (2012) Kondratieff Waves in the World System Perspective. Kondratieff Waves, Dimensions and Perspectives at the Dawn of the 21st Century, Ed. by: Uchitel, Volgograd, P. 23–64.

[10] 1er cycle (1785-1845)  : première révolution industrielle, énergie hydraulique, industrie textile et industrie du fer ; 2nd cycle (1845-1900) : machines à vapeur, chemins de fer , acier ; 3ème cycle (1900-1950) : électricité, industrie chimique et moteur à combustion interne ; 4ème cycle (1950-1990) : industrie pétrochimique, électronique et aviation ; 5ème cycle (1990- …) : technologies de l’information et de la communication, avec les réseaux numériques, les logiciels et les nouveaux médias3.

Laisser un commentaire