Qu'est-ce que l'analyse de données textuelles?

Le grand défi pour les chercheurs du 21^e siècle est de trouver des façons efficaces et innovatrices permettant de naviguer et de synthétiser l’information disponible en ligne. En effet, la quantité de données accessibles en ligne et dans des bases de données comme celle-ci ne cesse de grandir. C’est pourquoi notre projet de recherche fait appel à l’analyse de données textuelles par des logiciels qui permettent d’analyser des volumes considérables de documents.

Dans le domaine de l’analyse de données textuelles par des outils informatiques, l’évolution récente amorcée par le Groupe d’Analyse de Données Textuelles manifeste d’une volonté de réconcilier les méthodes de lecture linéaires et qualitatives avec les méthodes quantitatives et réticulaires (Mayaffre 2007; Adam 2006). Selon Mayaffre (2007), Viprey « démontre que la lecture humaine est avant tout “linéaire” alors que la lecture numérique est “tabulaire” et “réticulaire” ». En d’autres mots, la lecture humaine est informée par des conventions d’écriture telles que la continuité et la progression alors que la lecture numérique fait ressortir les réseaux formés par les mots sans que ces mots ne se retrouvent nécessairement dans la même séquence. Si les approches linéaires ne sont pas en danger de disparaître des sciences humaines, elles ne sont, notons-le, guère efficaces devant des volumes importants de données. Cela dit, les chercheurs et chercheuses pratiquant l’analyse de données textuelles par ordinateur ont souvent été critiqués pour leur tendance à se concentrer sur l’analyse statistique des fréquences, c’est-à-dire sur le nombre de fois qu’un mot apparait dans un texte. C’est pourquoi Mayaffre (2007) remarque qu’ « un corpus textuel n’est pas seulement une urne anarchique pleine de données linguistiques mélangées, mais aussi un espace ou un plan sur lequel ces données s’enchaînent (plus que s’additionnent) et s’organisent au fil du texte » (p. 3). Il est donc essentiel de situer, préférablement de façon diachronique, les données textuelles à l’intérieur de leur co-texte (les mots qui les entourent) tout en les situant à l’intérieur d’un contexte plus large (les autres textes et autres données socio-historiques, entre autres). Notre projet de recherche a pour objectif de comprendre et d’intégrer les conventions de lecture linéaire à partir d’une vue d’ensemble réticulaire sur un corpus volumineux afin d’en révéler les liens cachés.

L’article cité ci-dessus et d’autres articles dans le domaine de l’analyse de données textuelles peuvent être consultés ici :

http://lexicometrica.univ-paris3.fr/

Les logiciels utilisés dans le cadre de ce projet sont :

Logiciels gratuits :

Logiciels payants :

Le Sphinx