On a pu se rendre compte ces dernières années que deux parcours pouvaient amener à créer des bibliothèques numériques. D’une part, les bibliothèques, qui conservaient, acquéraient et diffusaient des données sur divers supports et ne voyaient pas pourquoi ils ne le feraient pas en ligne. D’autre part, Google, qui cherchait et mettait en ordre l’information sur internet et ne voyait pas pourquoi ils ne le feraient pas dans les livres anciens également.
Ce n’est pas le lieu ici d’évaluer qui le fait le mieux. Mais une chose est sûre : plus les masses de données deviennent gigantesques, plus le moteur de recherche devient important. Et, en cela, Google possède un gros avantage sur Gallica.
En faisant tourner ses robots sur une (grosse) sélection de livres, Google peut doncobtenir des données statistiques de tout premier ordre. Car le corpus est énorme : 5 200 000 ouvrages, soit plus de 500 milliards de mots, nous annonce Google. Passionnant pour l’étude de l’usage des langues, donc. Un matériau dont on peut sortir des centaines de thèses et d’articles et dont on parlait déjà… en 2006.
Lire la suite :
http://alatoisondor.wordpress.com/