Présentation

Ces dernières années ont vu la production de corpus textuels de plus en plus considérables pour les SHS, des exemples paradigmatiques étant donnés par la BNF, qui a rendu interrogeable par API le gigantesque fond documentaire de Gallica, ou encore par les corpus de tweets ou les bases d'archives patrimoniales.


En même temps, grâce en particulier à l'intelligence artificielle (machine learning, deep learning), des méthodes originales de fouille textuelle (text mining) et des outils logiciels beaucoup plus accessibles ont modifié les problématiques principales que sont

  1. Recherche d’information : moteurs de recherche plein texte, lemmatisation, recherche vectorielle, ontologie et thesaurus automatisé.
  2. Classification des textes : par apprentissage supervisé, par apprentissage non supervisé ; mesure de distance et de similarité entre textes
  3. Annotation linguistique et sémantique : métadonnées et enjeux de l’encodage en TEI, annotation linguistique et outils d’étiquetage POS ; repérage des entités nommées.
  4. Extraction d’information et analyse quantitative : analyse sémantique par vecteurs de mot, topic modeling, sentiment analysis, stylométrie.

Les utilisateurs ont des besoins d'analyse de texte de plus en plus sophistiqués, tels que la détection de la tonalité ou du sentiment, la reconnaissance de l'entité nommée, la classification de texte, etc.

Parmi les nouvelles techniques qui se sont imposées, on pourrait citer (liste non exhaustive) :

  1. web scraping pour extraire des données,
  2. méthodes de sentiments analysis,
  3. extraction d’information par l’usage de vecteurs de mots
  4. perspectives ouvertes par les modèles de langage (BERT, GPT-3).

Il y a donc d’importants besoins en fouille, analyse et classement des données textuelles et des réponses nombreuses, généralistes ou spécialisées.

L'analyse des données textuelles en masse est donc désormais possible par de multiples moyens, des plateformes comme Gargantex à des outils individuels comme le logiciel R et ses bibliothèques sans parler d'instruments comme Google Ngram Viewer. Ce sont les nouvelles perspectives pour la recherche ouvertes par ces solutions et ces corpus ayant émergé ces dernières années que vous voudrions explorer.


Face à ces technologies émergentes, il est important d’aller plus loin que la consultation de supports numériques et de saisir les enjeux tant méthodologiques qu’épistémologiques de ces technologies.

La possibilité accrue de fouilles de textes est aussi en train d'impacter de nombreuses disciplines scientifiques travaillant sur des corpus de sources.

Il s’agit alors d’ancrer dans ces disciplines des habitudes de méthodes d’analyse et d’exploitation de grandes masses de corpus textuels, tout en n’oubliant pas les attendus des principes FAIR et de la science ouverte, tant dans la mise à disposition de ces corpus que des résultats de la recherche.

 


Projet de l’école thématique

1/ un état de l’art de techniques novatrices pour les pratiques et les outils d’analyse des données textuelles ;

2/ un questionnement sur l'utilisation de langages informatiques comme Pyhton pour répondre aux besoins actuels de fouilles de textes.

3/ un espace de rencontres et de controverses entre spécialistes des techniques et spécialistes des contenus.

L'édition 2024 sera particulier orientée sur l'utilisation - ou pas - du langage Python pour la fouille textuelle. Pourquoi utiliser Python ou pas ? Nous voudrions ainsi resituer son usage face aux demandes actuelles. Il ne s'agit donc pas de faire une école d'apprentissage de Python. Notre approche concrète sur de langage nous permettra d'aborder des problématiques générales : quels sont les biais dans l’interprétation ? quelle importance pour la durabilité du code ? comment questionner la scientificité des langages de programmation ?

La conclusion de l'école retournera vers les enjeux abordés lors de l’introduction : a‐t‐on besoin de textmining avec / pour ses données ?

Personnes connectées : 4 Vie privée
Chargement...