Google fight. Reloaded.

Google vient de lancer Google Ngram View, une base de donnée de 500 milliards de mots en plusieurs langues, et sur lequel on peut lancer des petites recherches - on peut aussi télécharger les fichiers pour des exploitations plus poussées. Intéressant pour la recherche, ça permet aussi de régler quelques problèmes.

Par exemple, la querelle entre Bourdieu et Boudon peut trouver une réponse assez définitive lorsqu'on fait une recherche sur la "bande des quatre" de la sociologie française, qui reste un pont-aux-ânes de nombreux manuels (le succès continu de Touraine s'explique sans doute par une certaine homonymie)(cliquez sur les images pour les voir en plus grand) :


Le "déclin des classes sociales" peut également être relativisé : il s'agirait en fait d'un déclin de la classe ouvrière :


Le débat entre mondialisation et globalisation, pénible mise au point de vocabulaire, pourrait être réglé une bonne fois pour toute : en France, c'est la mondialisation qui s'impose comme traduction.


Par contre, les débats sur le niveau scolaire s'avèrent plus conflictuels que je ne l'aurais spontanément pensé : les courbes se suivent, sauf sur deux périodes : du milieu des années 40 à celui des années 50, et depuis les années 1970, où il y a un net déclin du "le niveau monte".e


L'émergence, récente en France, de Simmel par rapport aux deux autres fondateurs de la discipline, Durkheim et Weber est relativement claire, tout comme la domination de l'allemand sur le français à partir des années 1980 :


Mais ils sont tous écrasés lorsque l'on rajoute Marx, même si on voit un incontestable déclin de ce dernier sur les deux dernières décennies du XXème siècle :


On peut faire les deux mêmes graphiques pour la langue anglaise :



Pas de gros changement par rapport à la situation française, même si je me serais attendu à ce que Simmel soit plus présent, étant donné son influence sur la tradition de Chicago.

Pour finir, on peut voir que j'exerçais déjà une influence dans le passé, avec un intéressant pic entre 1940 et 1960 :

Bookmark and Share

4 commentaires:

David a dit…

Fascinant... cette technologie, ce qu'on peut en faire.

En philo, on a parlé de Lyotard, sur le côté "inhumain" de l'accumulation et de la complexification des connaissances. Les avancées de Google (notamment) ouvrent des perspectives vertigineuses, pas forcément réjouissantes. 'fin j'ai pas le temps de développer tout de suite.

Pour finir, une petite nuance sur ce nouveau programme de Google, qui a des failles:
http://egoblog.net/2010/12/19/linternet-fut-il-populaire-avant-1910/

Denis Colombi a dit…

J'ai tendance à penser que toute avancée de la connaissance est une bonne chose. C'est ce que l'on en fait qui peut être moins réjouissant. Mais comme le disait Einstein, c'est là une question qui repose dans le coeur de l'homme (bon, ok, j'ai piqué cette citation dans Watchmen).

Sinon, tu peux toujours te rassurer avec la réflexion de Popper : tout progrès de la connaissance ne fait que révéler l'étendue toujours plus grande de notre ignorance.

Ou bien te dire que pour chaque scientifique qui avance, il y a dix Maffesoli et Bogdanov qui reculent.

Mikolka a dit…

Bonjour.

J’essaie d’introduire des outils de mesure quantitatifs en histoire de la philosophie. J’ai mis un draft en ligne sur Philotropes récemment (http://blog.philotropes.org/post/2010/11/29/Models%2C-fashion-and-stars), si ce que j’ai fait vous intéresse.

Un ami vient d’attirer mon attention sur Google Ngram et je viens de voir que les auteurs ont publié dans Science. Je ne l’ai pas encore utilisé, alors je soumets quelques impressions.

1. Google Ngram est limité aux livres. Certes, on peut sélectionner la langue et comparer, mais puisque la majeur partie de la recherche se passe en revue, Google Ngram fournit des résultats qui sont complètement baisés par le support. Du coup, par ex., dire qu’on publie plus sur Bourdieu en France n’a pas beaucoup de sens, parce qu’il manque une bonne partie des publications.

2. Un autre problème est lié au fait qu’on ne peut pas du tout cibler les maisons d’éditions, pour distinguer par ex. les maisons considérées comme « scientifiques » et les maisons qui publient des livres destinés au grand public. Dire par exemple que Marx écrase complètement les autres sociologues en termes de publications ne prend pas en compte la différence des environnements scientifiques et grand public : il est possible que Marx continue à écraser les autres dans le grand public (parce que les moyens des maisons d’édition sont supérieurs à ceux des maisons scientifiques) mais ne représente qu’une partie négligeable des publications scientifiques.

3. J’ai aussi l’impression qu’il s’agit d’une échelle absolue et non d’une échelle relative. Autrement dit, vous avez le nombre d’occurrences des mots clés choisis selon la totalité des occurrences des mots en fonction du temps. Mais vous n’avez pas le nombre d’occurrences des mots clés choisis en fonction du nombre total de mots clés disponibles par période. Supposons que le nombre d’occurrences de « Marx » a connu une croissance monstrueuse pendant une période donnée. Mais puisqu’il manque le nombre d’occurrences disponibles pendant cette période, vous ne savez pas s’il est relativement plus important (=si on publie plus sur lui) que les autres sociologues, ou s’il s’agit seulement d’un effet général de l’augmentation des publications.

Denis Colombi a dit…

Comme l'indique le titre de mon post, je pense que c'est un nouveau google fight : ce n'est pas particulièrement plus convaincant que ce dernier... Le principal problème, c'est qu'il n'y a que 4% des livres numérisés par google, et je ne pense que ce soit un échantillon représentatif. Mais bon, il y a moyen de bien rigoler.

Enregistrer un commentaire

Je me réserve le droit de valider ou pas les commentaires selon mon bon plaisir. Si cela ne vous convient pas, vous êtes invités à aller voir ailleurs si j'y suis (indication : c'est peu probable).