Google Ngram Viewer. Google Ngram est une interface de visualisation des mots ou suite de mots présents dans les ouvrages numérisés de ce monde : un graphique (ou un fichier .csv) vous donne la fréquence annuelle et historique des mots utilisés dans les ouvrages. Google a numérisé 15 millions de livres, il en a pris un peu plus du tiers, soit 4% de la production livresque depuis la nuit des temps. Nous sommes d’ores et déjà dans les très gros volumes de données, cela représente plus de 500 milliards de mots. Les mots peuvent être considérés seuls ou comme une suite de 2 à 5 mots (5-grams maximum). Google possède également dans leur base de données les dates et les lieux de publications ainsi qu’un ensemble de données bibliographiques sur chaque ouvrage. L’interface fournit alors la fréquence de chaque mot ou suite de mots : le nombre de fois où il apparaît dans le corpus sur une année divisée par le nombre total de mots du corpus au cours de la même année (ce n’est donc ni le nombre de pages, ni le nombre de livres, ni le nombre d’auteurs). Pour utiliser la petite interface, il convient de commencer par le petit mode d’emploi, il y a quelques précautions d’usages à prendre. Pour les plus courageux, toutes les données sont disponibles et téléchargeables même si cela peut s’avérer quelque peu laborieux.
Toutes ces informations et même plus sont disponibles au sein de la publication scientifique «Quantitative analysis of culture using millions of digitized books» (dans Science, une autre dans Nature). Ce projet est déjà ambitieux, et malgré les limites actuelles, il est clairement voué à s’améliorer. Petit ajustement assez rapide sur l’interface : fournir les différentes orthographes des mots choisis, ainsi que les n-gram les plus fréquents incluant le mot en question. Mais à la lecture de l’article, nous nous apercevons que les livres ne sont qu’une partie du projet Culturonomics d’étude de la culture humaine. Le projet vise à y inclure la presse, les manuscripts, les cartes, les oeuvres d’arts, et une myriade d’autres créations humaines (voir des exemples pris dans l’article). Ajoutons-y une grande partie du contenu web organisée par Google : les pages, le texte, les photos, les vidéos, et ainsi de suite (la traduction également fort intéressante en la matière). D’ailleurs Google Ngram fait très fortement penser à Google Insight sur les mots recherchés par les internautes. Ce n’est même plus impressionnant, c’est littéralement hallucinant tous ses volumes de données, vertigineux.
Lors de la sortie de Google Ngram en décembre dernier, la blogosphère s’en est donnée à coeur joie pour s’amuser avec l’interface et tenter d’entrevoir ce qu’il est ou non possible de faire avec de telles données. Les possibilités semblent réellement considérables même si de nombreuses analyses sont nécessaires afin de bien maîtriser ce qu’il est envisageable et inenvisageable de faire dire à ses données. Je ne m’attarde pas pour le moment sur toutes ces questions. Deux liens vers deux billets en français permettent de faire un petit tour des questions et fournissent une liste des autres chercheurs en ayant parlé : Patrick Peccatte de Culture Visuelle ; et Francis Chateaubriand et Josquin Debaz de Socio-informatique et argumentation. Et pour le plaisir, un supplément d’Henri Verdier : les gros volumes de données, c’est bien, c’est nouveau, ça peut permettre d’aller très loin... il serait maintenant peut-être temps de les utiliser de manière nouvelle plutôt que de refaire constamment la roue.
En conclusion, j’attends de voir l’appropriation de ces données par les deisgners interactifs et les histoires visuelles qu’ils vont nous raconter : Chris Harrison avait déjà travaillé sur des données Google de type 3-gram.
L’adoption des technologies via Google Ngram. La diffusion des grandes innovations suit la traditionnelle courbe en S. La différence historique est la vitesse à laquelle la population a tendance à les adopter. Parmi les courbes vues ces derniers temps, ma préférée est celle réalisée par Karl Hartig (voir infra). Il y a encore celle réalisée par Nicholas Felton pour le New-York Times. Les ouvrages peuvent alors directement ou indirectement être le reflet (en avance ou en retard, telle est la question) de la société mais également jouer sur l’imaginaire des générations suivantes.
Les graphiques ont été réalisés avec les choix méthodologiques suivants. Sauf une exception, je ne me suis intéressé qu’à un seul mot plutôt qu’à une suite de mots. La langue anglaise est sélectionnée pour coller aux graphiques listés ci-dessus. La période va de 1800 à 2004, avec le lissage par défaut sur trois années : pas avant 1800 puisque ce n’est guère conseillé faute de représentativité ; pas après puisque une simple observation me fait remarquer une retombée des courbes de tous les mots après 2004. J’ai tenté de faire attention à l’orthographe des mots, non seulement à cause de la méthode de numérisation (le s apparaît comme un f dans les vieux ouvrages) mais également à cause de l’évolution dans l’usage des mots. Lorsqu’il y avait plusieurs possibilités avec des courbes similaires, j’ai simplement sélectionné la plus élevée ; je n’ai aucunement agrégé les résultats de plusieurs mots proches (le singulier et le pluriel par exemple), ce sera pour une autre fois. Mon intérêt se porte beaucoup plus sur les trajectoires pour le moment. J’ai mis Internet un peu partout.
Pour le moment, il s’est agi d’une première approche, je voulais avoir une idée extrêmement simple des contraintes d’utilisation de ces données, et éventuellement des éléments de nettoyage, correction, agrégation et autres nécessités de pré-traitement pour une utilisation future. Les courbes similaires signifient une évolution parallèle, voire une corrélation mais cela ne présume aucunement d’une relation autre que temporelle, une trajectoire en somme. Une analyse plus approfondie avec un peu d’économétrie et un entrelacement avec des données plus traditionnelles (comme celles mobilisées usuellement pour l’adoption des technologies par exemple) pourraient permettre d’améliorer fortement l’analyse, et ainsi de suite.
En conclusion, cette première approche de Google Ngram m’a donné quelques idées à approfondir, j’en reparlerai plus tard.
Commençons par les moyens de transports, de communications et d’informations. Le premier graphique se focalise sur les moyens de transports : éliminons l’avion toujours plus rapide pour se déplacer dans les livres ou encore l’absence du vélo histoire de ne pas faire pédaler le lecteur dans le vide, il en ressort alors que le train et la voiture se rencontrent dans les années 20/30 sous l’ère Ford. À partir de cette époque, le train et la marche à pieds n’auront plus jamais autant la côte dans les livres. Si il est toujours plus facile de se déplacer physiquement, l’Internet dépasse actuellement tous les moyens de transports, sauf la voiture toujours à la mode.
Le deuxième graphique s’intéresse aux moyens de communications. Le télégraphe dès les années 1840 va céder sa place au téléphone au cours des années 1910. Petit à petit le «telephone» devient le «phone» dans les années 1960 jusqu’à devenir très majoritaire dans les années 1990 ; le changement de mots va de pair avec la révolution informatique puis l’association de fixe, cellulaire, mobile, portable et ainsi de suite au téléphone. L’apparition récente de l’Internet ne l’empêche aucunement de prendre le dessus sur chacun des mots pris séparément.
Le troisième graphique regarde du côté des moyens d’informations. Tentons de ne pas ternir compte de l’effet guerre sur la radio et imaginons une courbe plus classique de diffusion. Le croisement des trois moyens d’informations au cours des années 1970 renverse la hiérarchie des médias : la télévision passe devant, la radio demeure seconde, et la presse termine sur la troisième marche. Au-delà du croisement de «ces» courbes, la forme de la diffusion s’avère en accord avec l’évolution des taux de pénétration de ces trois médias. Et sur la fin, l’Internet prend tout le monde de vitesse.
En conclusion, outre l’idée de montrer la rapidité d’appropriation de l’Internet dans les ouvrages, ces derniers suggèrent deux basculements majeurs : (i) dans les années 20/30 au niveau des transports avec la voiture et des communications avec le téléphone «fixe» ; (ii) dans les années 60/70 au niveau des communications avec le téléphone encore et de l’information avec la télévision.
Poursuivons par la représentation des révolutions technologiques. Mon premier graphique s’est porté sur une observation réalisée voici quelques temps en comparant les cours de mes professeurs et mes propres cours sur les problématiques d’innovations, ainsi que mes différentes lectures. Il me semblait qu’il y avait progressivement un changement de termes, les innovations mécaniques étaient devenues les innovations techniques avant de parler de technologie, et plus récemment de numérique. Le mot technique émerge à la fin du 19ème siècle pour prendre son essor de manière régulière jusqu’aux années 1970/80 après un croisement et un dépassement du mot mécanique autour des années 1950. Le mot technologie émerge petit à petit des années 1920 aux années 1950 avant de se diffuser très fortement dans les livres pour atteindre un premier pallier dans les années 1970/80 comme pour le mot technique, dépassé quelques années avant seulement. Et alors que le mot technique décroît l’usage du mot technologie continue à croître légèrement jusqu’à aujourd’hui. Le mot numérique apparaît dans les années 1950 et ne cesse de croître depuis jusqu’à aujourd’hui, pour atteindre tout juste le mot mécanique, sa diffusion récente semble sur une tendance relativement forte, et va de pair avec le ralentissement de l’usage du mot technologie (pour le moment en tous les cas).
Le second graphique complète le premier : les évolutions de la technologie et de l’ordinateur ressortent fortement corrélées, exceptées un léger décrochement entre 1980 et 1995 environ. Pour le moment Internet n’a pas encore pris le dessus mais alors que les autres courbes semblent ralentir, ce dernier n’a de cesse d’accélérer.
Le troisième graphique se focalise sur quelques mots liés à la dernière révolution technologique. Après un premier pic vers 1840, la communication perd de son intérêt dans les ouvrages jusque dans les années 1940 et surtout 1960/70 avec également une forte présence de la technologie, l’ordinateur et le réseau, lequel se lance dans une second phase de croissance avec l’Internet.
Le quatrième graphique s’intéresse aux mots «information» et «données», lesquels sont beaucoup plus utilisés dans la seconde moitié du 20è siècle que les précédents. L’information est présente dès le début du 18è siècle et suit une trajectoire parallèle à la communication jusque dans les années 1900, puis de retour à partir de 1950 environ mais avec un grand écart. L’utilisation du mot donnée apparaît assez rapidement mais faiblement, et croît en deux phases avec une forte accélération au cours des années 1950, pour être très similaire dans la trajectoire et la fréquence à l’information. Sur cette deuxième phase, le chemin est plus proche des technologie, ordinateur, réseau et Internet, même si la différence semble suggérée un effet multiplicateur relativement fort.
En conclusion, et en termes de trajectoire parallèle, l’information et la communication évoluent ensemble, avant que l’information ne croisse exponentiellement avec la révolution informatique et les données, avec une nouvelle phase de croissance depuis l’Internet.
Finissons par des éléments en vrac sur la presse, l’information, les médias et les usagers. Le premier graphique fait la transition avec la partie précédente, et suggère qu’exceptée la possibilité d’une co-évolution de la presse et de l’information sur la première moitié du 20è siècle, la presse ne semble aucunement représentée toute l’information des histoires racontées dans les ouvrages, et la déconnexion s’accélère très fortement à partir des années 1960. Cette évolution semble loin d’être négligeable, elle correspond à ce que certains ont appelé l’économie de l’information ou l’économie de la connaissance : un développement exponentiel et une fragmentation considérable des savoir au niveau international, ne permettant plus à aucun acteur de maîtriser toute l’information et la connaissance nécessaire à l’émergence de biens et services. L’information est partout, et la presse n’en représente aujourd’hui plus qu’une petite partie. L’une des questions que pourrait se poser la presse est de savoir comment les autres acteurs de l’information ont évolué en termes de technologies et d’organisations...
Le deuxième graphique suggère une utilisation d’autant plus forte du mot «média» que la télévision prend de plus en plus d’importance face à la presse, avec une nouvelle phase de croissance encore une fois depuis l’apparition de l’Internet dans les ouvrages.
Le troisième graphique distingue la culture populaire de la culture savante (idée piquée au blog Culture Visuelle). Le croisement dans les années 1950/1960 et une explosion sans concession dans les années 1980. Rien de nouveau me direz-vous, mais mis en parallèle avec les précédents graphiques, nous retrouvons nombre d’évolutions caractéristiques du moindre intérêt porté à la presse.
Le quatrième graphique suggère une forte évolution historique : le lecteur s’éteint petit à petit, même si il perdure compte-tenu que nous parlons des ouvrages écrits ; le consommateur fait son apparition au début du 20è siècle et l’usager à partir des années 1960, il «dépasse» le consommateur dans les années 1970 et le lecteur dans les années 1980. L’utilisateur rejoint ensuite l’Internet pour une deuxième phase de forte croissance.
Le dernier graphique suggère un intérêt toujours non négligeable dans les ouvrages pour le journalisme et les journalistes.
En conclusion, je ne vais pas en faire, elles semblent relativement évidentes.
Pour conclure. c’est finalement une interface sympathique pour réaliser quelques graphiques. Il peut sembler pertinent, à l’image de ce qui avait été réalisé pour Google Insight (voir les requêtes Google prédisent l’activité économique) d’étudier ici les décalages entre l’adoption par les consommateurs et l’adoption par les écrivains en fonction des différentes innovations.
Pourquoi j’en parle ? Les traces laissées dans les ouvrages demeurent encore une véritable mémoire de l’histoire et de la culture. Il me fallait faire un premier essai de l’interface et des données, j’ai donc profité d’un cours sur l’idéologie technologique pour m’amuser.

Commentaires