Supports

Les fondamentaux de la fouille de textes / Vectorisation et Similarité

Formateur : Gaël Lejeune

Pour introduire l'école nous feront un rappel rapide des besoins fondamentaux pour la fouille de textes :

Manipulation des données d'entrée (exploitation des formats txt/json/csv/xml)
Utilisation les principaux types de structure de données utilisées pour le texte
Format de sortie utiles

Puis nous proposerons un travail plus avancé sur les techniques de vectorisation de textes (en mots, sous-mots chaînes de caractères contraintes ou libres) appliquées à différentes tâches de text mining :

Détection de doublons/quasi-doublons (textes, paragraphes, phrases)
Alignement de segments
Raffinage de données issues de Web Scraping
Exploitation de Données Bruitées (OCR, ASR ...) notamment pour l'extraction d'Entités Nommées

Modélisation des textes avec notebooks

Formateur : Antoine Silvestre de Sacy

L'atelier proposera l'utilisation de plusieurs notebooks Python pré-codés pour le traitement automatique de corpus littéraires, allant des étapes de preprocessing des données (récupération des textes, lecture des corpus, nettoyage, annotation), d'implémentation de calculs statistiques et de mise en place d'algorithmes de machine learning (classifications supervisées, non-supervisées) et de visualisations.

L'objectif est de pouvoir comprendre le fonctionnement de ces notebooks pour des publics qui ne sont pas forcément experts en traitement de la donnée textuelle mais souhaitent pouvoir utiliser ces technologies en ayant conscience des méthodes utilisées et des biais statistiques potentiels. Nous présenterons en particulier le package PyMotifs qui vise à modéliser des faits de langue et à identifier des motifs textuels au sein d'un corpus, mais d'autres méthodes pourront être présentées et discutées.

Collations et enrichissements de textes

Formatrice : Anne Garcia-Fernandez

À travers différents cas concrets (collation automatique, alignement de traductions, normalisation...) sur des données littéraires en latin, grec, français moderne ou médiéval, nous verrons comment des outils issus de l'informatique et du TAL peuvent faciliter les traitements et la fouille de données.

L'atelier présentera aussi comment mettre en œuvre la Science Ouverte pour ses données textuelles et leurs exploitations (usage de la TEI ou de IIIF, extraction d'information pour dépôt en lot sur un entrepôt de données, génération de manuels...).

Les différentes démonstrations s'appuieront tantôt sur des scripts Python, tantôt sur des transformations XML.

GarganText

Formateur : Alexandre Delanoe

Présentation et initiation à l'outil GarganText, version 007 et son "textflow" (pipeline) pour réaliser des graphes et des phylomémies (graphes avec dimension temporelle).

Atelier de présentation de l'outil puis séquence tutorielle de travail sur l'outil avec les données des participants : voir les formats acceptés dans la documentation de GaranText.

IA et analyse statistique de données textuelles. Regards croisés et implémentations

Formateur : Laurent Vanni

Cet atelier propose une étude comparative entre les méthodes statistiques classiques et le deep learning. Plus particulièrement les architectures de réseaux de neurones profonds de type Transformers (à l'origine des modèles GPTs et des LLMs) seront étudiées et comparées aux méthodes plus traditionnelles dans le but de dépasser le simple usage prédictif (probabiliste) de l'IA et aller vers "une herméneutique des sorties logicielles" (Rastier 2011. La mesure et le grain. Sémantique de corpus, Honoré Champion, 2011 p. 44).

L'atelier sera découpé en trois parties (trois fois trois heures) avec un premier volet sur l'analyse statistique de données textuelles s'appuyant sur la manipulation de la plateforme Hyperbase (https://hyperbase.unice.fr, CNRS - UniCA). Une deuxième partie sera consacrée à l'étude des réseaux de neurones profonds standards (Embeddings, CNNs, RNNs). Enfin la dernière partie de l'atelier abordera les architectures de type Transformer à partir d'exemples d'implémentations en python et d'illustrations via Hyperbase.

Références:

Mayaffre Damon, Vanni Laurent (2021). L'intelligence artificielle des textes. Des algorithmes à l'interprétation. Honoré Champion, 2021.

Vanni Laurent (2024). Hyperbase Web. (Hyper)Bases, Corpus, Langage. Corpus, 2024, 25, ⟨10.4000/corpus.8770⟩. ⟨hal-04523479⟩

Vie privée | Accessibilité