L'approche didactique de ce mémoire permet de comprendre un peu mieux ce que l'on met derrière TDM ou fouille de textes et de données et en quoi cela peut concerner le quotidien des bibliothèques.
Big data et bibliothèques : traitement et analyse informatiques des collections numériques
de Johann Gillium, élève conservateur à l'enssib.
Résumé
Cette étude s'attache à présenter sous quels aspects les collectionsnumériques des bibliothèques relèvent des problématiques propres aux donnéesmassives, et en quoi les techniques de fouille de données (text and data mining) représentent désormais une nécessité pour l'appropriation par les chercheurs des résultats de la littérature scientifique. Ce travail, qui met au centre de son propos les techniques de fouille de données comme moyens de maîtriser la masse documentaire,identifie trois problématiques distinctes concernant les bibliothèques numériques et ces dispositifs de lecture algorithmiques : sont ainsi abordées successivement les démarches à mettre en œuvre pour aider les chercheurs à faire usage de ces nouvelles méthodes de lecture, puis l'emploi de techniques de fouille de données sur les collections pour constituer de nouvelles formes d'instruments de recherche, et enfin l'usage de la fouille pour assister le traitement documentaire. L'étude se conclut sur le détail des questions juridiques soulevées actuel lement par la fouille de données , en rapport avec le droit de la propriété intellectuelle.