La formation est intensive, des moments de cours en petits groupes alternent avec des ateliers et des moments de partage des résultats et de retour d'expérience. La formation inclut aussi des conférences (keynotes), des présentations de projets de recherche et une masterclass.
La formation est exclusivement présentielle, il n'est pas possible de n'assister qu'à une partie de la formation. Votre inscription vaut engagement à suivre la formation dans son intégralité.
Les conférences des keynotes seront retransmises en streaming.
Pendant les cours, nous présentons d'abord un sujet puis nous proposons des exercices. La répartition en groupes est proposée par les organisateurs et les organisatrices sur la base des dossiers des participant.e.s.
Les ateliers permettent ensuite d'approfondir et d'appliquer à sa propre recherche ce qui a été appris pendant les cours. Un formateur ou une formatrice de référence suit chaque participant.e pendant toute la semaine, le guide et l'accompagne son travail dans les ateliers.
Une attestation de participation est remise à chaque participant.e à la fin de la semaine. Les doctorants peuvent faire valoir cette formation dans leurs cursus.
Présentation des cours
Connaître son propre ordinateur (Simone Rebora)
Dans ce cours nous proposons d'explorer les machines avec lesquelles nous allons travailler pendant la formation, les formats des fichiers et leur emplacement. Pour ce faire, nous utiliserons la ligne de commande comme alternative à l'interface graphique que notre système d'exploitation nous propose. Ensuite, nous introduirons brièvement le système de gestion de versions git et la plateforme Github.
Encoder - Édition à l’ère numérique (HTR - XML TEI)
HTR (Ariane Pinche & Matthias Gille Levenson)
Nous proposerons une courte présentation de l’utilisation de la reconnaissance automatique d’écriture sur les manuscrits médiévaux, et plus spécifiquement autour des enjeux sur la constitution des corpus d'entraînement. En effet, L’utilisation croissante de l’HTR via des interfaces comme eScriptorium ou Kraken fait surgir de nombreuses questions éditoriales autour de la production des données nécessaires à l'entraînement des machines pour lire les documents. Il devient donc primordial d’établir une méthode efficace pour transcrire des textes afin de constituer les modèles les plus performants possibles, mais aussi les plus utiles à la communauté scientifique. Au cours de cette introduction, nous présenterons les principes généraux de l’HTR, ainsi que les expériences qui sont menées au sein du projet CREMMALab pour évaluer les capacités des modèles HTR à retranscrire des manuscrits et à s’adapter à de nouvelles mains ou des formes de lettres différentes d’une écriture à une autre.
Encodage de textes (Ariane Pinche & Matthias Gille Levenson)
Le cours propose une introduction à l'encodage TEI (Text Encoding Initiative), l’un des standards les plus importants dans le monde des humanités numériques (Digital Humanities). La découverte de XML-TEI sera également l’occasion de connaître et d’adopter les bonnes pratiques du travail, nécessaires pour rendre les données réutilisables par d’autres chercheurs, interopérables avec d’autres systèmes et persistantes à long terme. Après une introduction théorique aux principes de XML et du vocabulaire TEI, nous passerons aux exercices abordant les principaux problèmes soulevés par l'encodage, tels que la structure physique et logique du document (pages, titres, chapitres, paragraphes, etc.) ou les entités nommées (noms de personnes et de lieux). Les exercices seront l’occasion de présenter certains des outils disponibles pour faciliter le travail avec XML-TEI, tels que le logiciel oXygen et l’application web Roma.
Exploiter - Analyse du discours et des textes
Distant reading (Simone Rebora)
Le cours se concentre sur trois domaines importants de l'analyse de textes à l'aide de méthodes de calcul. Sous le nom de "stylométrie", une série d'approches sont rassemblées dans le but de distinguer et de mesurer le style d'auteur. Des méthodes statistiques telles que la Delta distance sont fréquemment utilisées pour l'attribution de textes anonymes, tandis que la keyness analysis est adoptée pour identifier les marques lexicales qui caractérisent l'écriture d'un ou de plusieurs auteurs. Dans le domaine plus large de l'analyse sémantique, seront présentés : des algorithmes de sentiment analysis, qui quantifient les aspects émotionnels du texte dans le but de visualiser sa structure narrative ; des algorithmes de topic modelling, qui extraient des thèmes et des relations conceptuels directement à partir de la distribution des mots dans de grandes collections de textes. Après avoir brièvement passé en revue les fondements théoriques-mathématiques de chacune de ces méthodes, les différentes manières d’afficher les résultats seront présentées, ce qui permettra finalement une "lecture de loin" (distant reading) de grands corpus textuels. Des applications simples de ces approches aux études littéraires seront présentées, soulignant également les risques et les problèmes liés à leur utilisation aveugle.
Traitement automatique du langage - TAL (Marianne Reboul)
Le cours est divisé en deux parties: la première partie est consacrée à une introduction à python pour les SHS (types de variables, ouverture de fichiers en boucle, traitement de base de fréquences etc) ; tandis que la deuxième partie vise à apprendre à manipuler des outils de marquage PoS (assignation automatique de parties du discours) et la lemmatisation de textes. Une connaissance élémentaire de la ligne de commande (pour lancer un jupyter notebook par exemple) est essentielle pour tous ceux qui souhaitent traiter automatiquement des données textuelles avec des outils de traitement automatique qui ne sont pas dotés d’interfaces graphiques, aussi bien sur des ordinateurs portables que sur des serveurs (pour une analyse computationnelle à grande échelle). Le balisage PoS et la lemmatisation sont également essentiels en tant que tâches requises pour tout type d'analyse linguistique numérique, qu'elle soit syntaxique ou sémantique. Comme pour les autres cours, le cours TAL est divisé en parties égales entre présentations et exercices pratiques, accompagnés d'instructions détaillées. À la fin du cours, les participant.e.s seront non seulement en mesure de préparer des textes ou des corpus pour différents types d'analyse computationnelle, mais ils et elles auront également acquis les connaissances nécessaires pour appliquer cela à leur projet de recherche actuel (ou futur), tout en étant conscient.e.s des limites et des problèmes des méthodes de calcul dans ce domaine.
Diffuser - Visualisation des données
Cartographie numérique (Giovanni Pietro Vitali)
L'objectif du cours de cartographie numérique est de fournir aux participants les outils techniques de base permettant d'afficher des données géoréférencées sur des cartes en ligne. Les méthodes de formatage des données seront présentées pour la création de cartes, une attention particulière étant accordée à l'extraction des coordonnées à partir d'une liste de toponymes. Par la suite, la création des mêmes points et des mêmes cartes polygonales sera abordée, via des applications en ligne telles que Carto et Recogito, deux outils simples à utiliser pour publier des cartes numériques sur le net. À la fin du cours, chaque participant pourra mettre une carte avec ses données sur le Web pour diffuser ses recherches ou vérifier ses théories.
Network Analysis (Martin Nicastro)
During the workshop the participants will have the chance to learn how to build network graphs from scratch using the software Gephi: to do so we will discuss how to build a data set from research sources, how to prepare and clean those data in an efficient way and finally how to represent them through the use of symbology and algorithms in the software. The goal of the course is not only to understand how to create an aesthetically functional network graph, but also to grasp both the methodological advantages and risks of such visualizations. The projects proposed by the participants will be examined to see how network graphs can fulfill the need to represent connections and relations in different research contexts, but also inspire new questions.