Les humanités numériques dans les projets de recherche

Lyon (France)

Archives - Editions précédentes de EnExDi > EnExDi2024

Présentation d'EnExDi2024

La formation

La formation est intensive, des moments de cours en petits groupes alternent avec des ateliers et des moments de partage des résultats et de retour d'expérience. La formation inclut aussi des conférences (keynotes), des présentations de projets de recherche et une masterclass.

La formation est exclusivement présentielle, il n'est pas possible de n'assister qu'à une partie de la formation. Votre inscription vaut engagement à suivre la formation dans son intégralité.

Les conférences des keynotes seront retransmises en streaming.

Pendant les cours, nous présentons d'abord un sujet puis nous proposons des exercices. La répartition en groupes est proposée par les organisateurs et les organisatrices sur la base des dossiers des participant.e.s.

Les ateliers permettent ensuite d'approfondir et d'appliquer à sa propre recherche ce qui a été appris pendant les cours. Un formateur ou une formatrice de référence suit chaque participant.e pendant toute la semaine, le guide et l'accompagne son travail dans les ateliers.

Une attestation de participation est remise à chaque participant.e à la fin de la semaine. Les doctorants peuvent faire valoir cette formation dans leurs cursus.

Présentation des cours

Connaître son propre ordinateur (Simone Rebora)

Dans ce cours nous proposons d'explorer les machines avec lesquelles nous allons travailler pendant la formation, les formats des fichiers et leur emplacement. Pour ce faire, nous utiliserons la ligne de commande comme alternative à l'interface graphique que notre système d'exploitation nous propose. Ensuite, nous introduirons brièvement le système de gestion de versions git et la plateforme Github.

Encoder - Édition à l’ère numérique (HTR - XML TEI)

HTR (Ariane Pinche & Matthias Gille Levenson)

Nous proposerons une courte présentation de l’utilisation de la reconnaissance automatique d’écriture sur les manuscrits médiévaux, et plus spécifiquement autour des enjeux sur la constitution des corpus d'entraînement. En effet, L’utilisation croissante de l’HTR via des interfaces comme eScriptorium ou Kraken fait surgir de nombreuses questions éditoriales autour de la production des données nécessaires à l'entraînement des machines pour lire les documents. Il devient donc primordial d’établir une méthode efficace pour transcrire des textes afin de constituer les modèles les plus performants possibles, mais aussi les plus utiles à la communauté scientifique. Au cours de cette introduction, nous présenterons les principes généraux de l’HTR, ainsi que les expériences qui sont menées au sein du projet CREMMALab pour évaluer les capacités des modèles HTR à retranscrire des manuscrits et à s’adapter à de nouvelles mains ou des formes de lettres différentes d’une écriture à une autre.

Encodage de textes (Ariane Pinche & Matthias Gille Levenson)

Le cours propose une introduction à l'encodage TEI (Text Encoding Initiative), l’un des standards les plus importants dans le monde des humanités numériques (Digital Humanities). La découverte de XML-TEI sera également l’occasion de connaître et d’adopter les bonnes pratiques du travail, nécessaires pour rendre les données réutilisables par d’autres chercheurs, interopérables avec d’autres systèmes et persistantes à long terme. Après une introduction théorique aux principes de XML et du vocabulaire TEI, nous passerons aux exercices abordant les principaux problèmes soulevés par l'encodage, tels que la structure physique et logique du document (pages, titres, chapitres, paragraphes, etc.) ou les entités nommées (noms de personnes et de lieux). Les exercices seront l’occasion de présenter certains des outils disponibles pour faciliter le travail avec XML-TEI, tels que le logiciel oXygen et l’application web Roma.

Exploiter - Analyse du discours et des textes

Distant reading (Simone Rebora)

Le cours se concentre sur trois domaines importants de l'analyse de textes à l'aide de méthodes de calcul. Sous le nom de "stylométrie", une série d'approches sont rassemblées dans le but de distinguer et de mesurer le style d'auteur. Des méthodes statistiques telles que la Delta distance sont fréquemment utilisées pour l'attribution de textes anonymes, tandis que la keyness analysis est adoptée pour identifier les marques lexicales qui caractérisent l'écriture d'un ou de plusieurs auteurs. Dans le domaine plus large de l'analyse sémantique, seront présentés : des algorithmes de sentiment analysis, qui quantifient les aspects émotionnels du texte dans le but de visualiser sa structure narrative ; des algorithmes de topic modelling, qui extraient des thèmes et des relations conceptuels directement à partir de la distribution des mots dans de grandes collections de textes. Après avoir brièvement passé en revue les fondements théoriques-mathématiques de chacune de ces méthodes, les différentes manières d’afficher les résultats seront présentées, ce qui permettra finalement une "lecture de loin" (distant reading) de grands corpus textuels. Des applications simples de ces approches aux études littéraires seront présentées, soulignant également les risques et les problèmes liés à leur utilisation aveugle.

Traitement automatique du langage - TAL (Marianne Reboul)

Le cours est divisé en deux parties: la première partie est consacrée à une introduction à python pour les SHS (types de variables, ouverture de fichiers en boucle, traitement de base de fréquences etc) ; tandis que la deuxième partie vise à apprendre à manipuler des outils de marquage PoS (assignation automatique de parties du discours) et la lemmatisation de textes. Une connaissance élémentaire de la ligne de commande (pour lancer un jupyter notebook par exemple) est essentielle pour tous ceux qui souhaitent traiter automatiquement des données textuelles avec des outils de traitement automatique qui ne sont pas dotés d’interfaces graphiques, aussi bien sur des ordinateurs portables que sur des serveurs (pour une analyse computationnelle à grande échelle). Le balisage PoS et la lemmatisation sont également essentiels en tant que tâches requises pour tout type d'analyse linguistique numérique, qu'elle soit syntaxique ou sémantique. Comme pour les autres cours, le cours TAL est divisé en parties égales entre présentations et exercices pratiques, accompagnés d'instructions détaillées. À la fin du cours, les participant.e.s seront non seulement en mesure de préparer des textes ou des corpus pour différents types d'analyse computationnelle, mais ils et elles auront également acquis les connaissances nécessaires pour appliquer cela à leur projet de recherche actuel (ou futur), tout en étant conscient.e.s des limites et des problèmes des méthodes de calcul dans ce domaine.

Diffuser - Visualisation des données

Cartographie numérique (Giovanni Pietro Vitali)

L'objectif du cours de cartographie numérique est de fournir aux participants les outils techniques de base permettant d'afficher des données géoréférencées sur des cartes en ligne. Les méthodes de formatage des données seront présentées pour la création de cartes, une attention particulière étant accordée à l'extraction des coordonnées à partir d'une liste de toponymes. Par la suite, la création des mêmes points et des mêmes cartes polygonales sera abordée, via des applications en ligne telles que Carto et Recogito, deux outils simples à utiliser pour publier des cartes numériques sur le net. À la fin du cours, chaque participant pourra mettre une carte avec ses données sur le Web pour diffuser ses recherches ou vérifier ses théories.

Network Analysis (Martin Nicastro)

During the workshop the participants will have the chance to learn how to build network graphs from scratch using the software Gephi: to do so we will discuss how to build a data set from research sources, how to prepare and clean those data in an efficient way and finally how to represent them through the use of symbology and algorithms in the software. The goal of the course is not only to understand how to create an aesthetically functional network graph, but also to grasp both the methodological advantages and risks of such visualizations. The projects proposed by the participants will be examined to see how network graphs can fulfill the need to represent connections and relations in different research contexts, but also inspire new questions.

Les formateurs d'EnExDi2024

Les formateurs et formatrices sont des chercheurs et chercheuses reconnus, de niveau post-doc au minimum. Ils sont spécialistes des études historiques, linguistiques et littéraires de différentes périodes: études classiques, médiévales, modernes et contemporaines. Leur spécialisations, combinées à leurs compétences dans le domaine des humanités numériques, permettrontd’assurer un suivi optimal de participant.e.s aux profils variés, déclinant les outils numériques selon les méthodes pertinentes pour chaque projet de recherche.

GILLE LEVENSON, Matthias

Agrégé d'espagnol, Matthias Gille Levenson est docteur de l'ENS de Lyon en littérature médiévale castillane et en philologie computationnelle et est actuellement post-doctorant à l'École nationale des chartes, dans le cadre du projet Collate. Il s'intéresse à l'ensemble des étapes de la chaîne de traitement du texte médiéval: HTR/OCR, structuration selon la norme XML-TEI, segmentation/tokénisation, lemmatisation. La collation automatisée est pour Matthias un axe de réflexion important, en particulier la question de l'intégration de la structuration XML-TEI dans le travail de comparaison semi-automatisée des documents.
Lors de la formation, les participant.es pourront travailler avec Matthias sur des questions d'acquisition automatisée de sources manuscrites (HTR) ou imprimées (OCR) ainsi que sur la transformation des données issues d'HTR à des fins d'exploitation et/ou d'édition.

IDMHAND, Fatiha

Fatiha Idmhand est Professeure des Universités. Elle travaille sur les processus créatif des oeuvres du mone hispanique. Les archives et manuscrits des écrivains sont ses principaux corpus d'études, elle les étudie selon les méthodes de la critique génétique qu'elle combine avec celles de l'informatique et des humanités numériques.

NICASTRO, Martin

Martin Nicastro is a PhD candidate in Musicology at the University of Pavia (Italy). His research project is called "Milan 1958-1962: Musical Topography of a City": it focuses on the spatial reconstruction of the Milanese music scene in the years of the economic boom, using both digital cartography and network analysis. He graduated in Modern Literature and Musicology at the University of Milan and has a diploma in violin at the G. Verdi Conservatory of the same city. His research interests concern the intersections between Spatial Humanities and Musicology, popular music, contemporary music and music genres. He currently teaches "Editing and musical representation" at the University of Milan.
During the workshops the participants will work with Martin on data visualization, network analysis and digital mapping.

PINCHE, Ariane

Agrégée de grammaire et docteure en langue et littérature médiévales (Université Lyon 3), Ariane Pinche est chargée de recherche CNRS au CIHAM (Lyon). Ces recherches ont pour but de produire à terme, grâce à l’HTR, un corpus d’écrits hagiographiques en ancien français afin d'étudier la composition des premiers légendiers en langue vernaculaire. Elle s’intéresse également à l’édition scientifique numérique dans la continuité de sa thèse (Édition nativement numérique du recueil hagiographique Li Seint Confessor de Wauchier de Denain) et a remporté le prix Fortier de la meilleure communication jeune chercheur lors de la conférence Digital Humanities 2019 à Utrecht avec ses deux collègues J. B. Camps et T. Clérice pour la communication « Stylometry for Noisy Medieval Data : Evaluating Paul Meyer’s Hagiographic Hypothesis ».

Dans les ateliers, les participant.e.s pourront travailler avec Ariane sur la structuration en XML TEI des textes en fonction de leur genre (roman, poésie, correspondances, théâtre, etc.), mais aussi apprendre à enrichir leur encodage avec des informations plus complexes (apparat critique, entités nommées, annotation linguistique). La question de l’intégration de la TEI dans le cadre d’une chaine d’acquisition automatique du texte (OCR, HTR) ou d’une annotation linguistique pourra également être abordée.

REBORA, Simone

Simone Rebora est maître de conférences en littérature comparée à l'université de Vérone. Il a été chercheur aux centres pour les humanités numériques de Göttingen, Bielefeld, Mainz (Allemagne) et Bâle (Suisse). Ses principaux intérêts de recherche sont la théorie et les méthodologies de l’historiographie littéraire, et les études sur sa réception. Dans le domaine des humanités numériques, il travaille sur les méthodes de lecture à distance et sur les liens avec les approches empiriques/expérimentales. Il est membre du comité de rédaction de la revue "Umanistica digitale" et président du groupe d'intérêt spécial "Digital Literary Stylistics". Ses essais ont été publiés dans des revues comme "Digital Scholarship in the Humanities" et "Digital Humanities Quarterly". En 2018, il a publié la monographie History/Histoire e Digital Humanities (en langue italienne).
Durant les ateliers, les participant.e.s pourront travailler avec Simone sur la stylométrie, le sentiment analysis, la classification sémantique, le topic modeling, la sémantique distributionnelle et le machine learning.

REBOUL, Marianne

Marianne Reboul est maîtresse de conférences en Humanités Numériques à l’ENS de Lyon. Elle a obtenu une agrégation en Lettres Classiques et une thèse sur les traductions françaises d’Homère (du XVIe siècle au XXe siècle, grâce à des outils informatiques). Elle est autodidacte en programmation (essentiellement python, java, PHP, javascript), et s’intéresse maintenant aux rapports évolutifs (sémantiques essentiellement) entre les langues anciennes en Europe (voir comment une langue est influencée par une autre, etc., via l’intelligence artificielle). L’essentiel de son temps de cours est destiné à l’initiation aux Humanités Numériques (sans et avec programmation), et en particulier aux “digital classics”. Elle parle l’italien et l’anglais sans problème, si besoin.
Dans ce cours, vous découvrirez des bases de programmation python pour les SHS. Python comprend de très nombreux modules écrits par et pour des spécialistes de SHS, et c’est un langage qui se comprend rapidement. Les carnets python pré-écrits (que vous pourrez réexploiter) permettent une compréhension aérée et simplifiée de commandes de base pour l’analyse textuelle. Vous pourrez intégrer vos propres textes aux programmes, en faire des analyses fréquentielles de base, les lemmatiser, les analyser syntaxiquement, les représenter en graphiques. Vous pourrez prendre conscience des perspectives et des limites de telles approches.

VITALI, Giovanni Pietro

Giovanni Pietro Vitali est Maître de conférences à l'Université de Versailles Saint Quentin. Il a été chercheur Marie Curie à l’université de Cork (Irlande), de Reading (Angleterre) et de New York (États-Unis). Son projet de recherche porte sur une étude linguistique et thématique des dernières lettres des condamnés à mort des deux guerres mondiales. Il est docteur en Science du Langage (université pour étrangers de Pérouse) et en Langue, Littérature et Civilisation Italienne (Université de Lorraine) ; ses intérêts de recherche sont principalement la littérature italienne (notamment le néoréalisme et la littérature de la Résistance), l’onomastique, la dialectologie, l’enseignement des langues, les humanités numériques et la linguistique (particulièrement computationnelle et des corpora). Il a travaillé comme chercheur contractuel pour un projet du ministère italien de recherche FIRB-Lira (Langue Italienne en ligne pour l’apprentissage) et il a été lecteur de langue italienne puis ATER à l’Université de Lorraine et l’Université de Poitiers.

Durant les ateliers, les participant.e.s pourront travailler avec Giovanni sur la cartographie numérique, l'analyse de réseaux, la stylométrie et le traitement automatique du langage.

Le programme d'EnExDi2024

8 avr. 2024

Heure	Type	événement
10:00 - 10:30	Discours	Mot de bienvenue - Fatiha Idmhand & Giovanni Pietro Vitali
10:30 - 11:00	Discours	Introduction à la formation EnExDi - EnExDi Team
11:00 - 11:30	Pause	Pause café
11:30 - 11:30	Discours	Et Après EnExDi - Fatiha Idmand
12:30 - 13:30	Pause	Déjeuner
13:30 - 15:00	Session	Humanités numériques - Présentation des projets de recherche - Participants de l'école
15:00 - 15:30	Pause	Pause café
15:30 - 16:30	Discours	Connaître son propre ordinateur - Simone Rebora
16:30 - 17:30	Session	Install party - Aide en cas de problème d'installation (Install party)
17:30 - 18:30	Discours	Comment on devient historienne numerique - Marie Puren (LRE, EPITA - Paris)

9 avr. 2024

Heure	Type	événement
09:00 - 10:15	Session	Édition à l’ère numérique (HTR - XML TEI) - Ariane Pinche & Matthias Gille Levenson
10:15 - 10:45	Pause	Pause café
10:45 - 12:30	Session	Édition à l’ère numérique (HTR - XML TEI) - Ariane Pinche & Matthias Gille Levenson
12:30 - 13:30	Pause	Déjeuner
13:30 - 15:30	Session	Ateliers de recherche - EnExDi Team
15:30 - 16:00	Pause	Pause café
16:00 - 18:00	Session	Ateliers de recherche - EnExDi Team

10 avr. 2024

Heure	Type	événement
09:00 - 10:30	Session	Traitement automatique du langage (TAL) - Marianne Reboul
09:00 - 10:30	Session	Distant reading - Simone Rebora
10:30 - 11:00	Pause	Pause café
11:00 - 12:30	Session	Traitement automatique du langage (TAL) - Marianne Reboul
11:00 - 12:30	Session	Distant reading - Simone Rebora
12:30 - 13:30	Pause	Déjeuner
13:30 - 15:30	Session	Ateliers de recherche - EnExDi Team
15:30 - 16:00	Pause	Pause café
16:00 - 18:00	Session	Ateliers de recherche - EnExDi Team

11 avr. 2024

Heure	Type	événement
09:00 - 10:30	Session	Cartographie numérique - Giovanni Pietro Vitali
09:00 - 10:30	Session	Analyse et visualisation de réseaux - Martin Nicastro
10:30 - 11:00	Pause	Pause café
11:00 - 12:30	Session	Cartographie numérique - Simone Rebora
11:00 - 12:30	Session	Analyse et visualisation de réseaux - Martin Nicastro
12:30 - 13:30	Pause	Déjeuner
13:30 - 15:30	Session	Ateliers de recherche - EnExDi Team
15:30 - 16:00	Pause	Pause café
16:00 - 17:30	Session	Ateliers de recherche - EnExDi Team
17:30 - 18:30	Discours	Des livres aux modèles: trajectoires en philologie computationnelle - Jean-Baptiste Camps (École nationale des chartes - PSL)
20:00 - 23:55	Pause	Dîner

12 avr. 2024

Heure	Type	événement
09:00 - 11:00	Session	Ateliers de recherche - EnExDi Team
11:00 - 11:30	Pause	Pause café
11:30 - 12:30	Discours	Que faire après EnExDi? - Fatiha Idmhand
13:00 - 14:00	Pause	Déjeuner
13:45 - 14:15	Discours	Présentation de Biblissima+ - Emmanuelle Morlock
14:15 - 15:00	Session	Retours des participants - Participants de l'école
15:30 - 16:00	Session	Feedback - EnExDi Team

Vie privée | Accessibilité