Les humanités numériques dans les projets de recherche

Lyon (France)

Archives - Editions précédentes de EnExDi > EnExDi2022

Les humanités numériques dans les projets de recherche

Maison des Sciences de l’Homme et de la Société de Poitiers

du 9 au 13 mai 2022

EnExDi est une école de formation intensive à destination des jeunes chercheurs et jeunes chercheuses en sciences humaines et sociales. Depuis 2019, elle propose aux doctorant.e.s et post-doctorant.e.s de se former aux technologies des humanités numériques. Elle est également ouverte, selon les places disponibles, aux chercheurs.euses plus avancé.e.s qui ont besoin d’un accompagnement.

Durant cinq jours, les participant.e.s sont amené.e.s à découvrir les fondamentaux des humanités numériques à la fois en termes de bonnes pratiques et de réflexions méthodologiques. Ils sont invités à travailler avec un choix d'approches et de techniques comme l'encodage de textes, le traitement automatique du langage, l'analyse sémantique et stylistique, la visualisation de données et la diffusion numérique des résultats de la recherche.

Pensée comme une formation introductive, elle permet aux participant.e.s de connaître le panorama des outils, des pratiques et de la bibliographie des Humanités numériques, et d'obtenir des indications pour poursuivre l'apprentissage des compétences acquises.

La formation repose sur une démarche bottom up, par petits groupes : les participant.e.s expliquent leurs projets de recherche, et les formateurs et formatrices leurs suggèrent et donnent des pistes sur la façon d'utiliser les humanités numériques et computationnelles pour atteindre leurs objectifs de recherche.

Dates importantes

Ouverture des inscriptions : 21 février 2022

Fermeture des inscriptions : 04 avril 2022 Les inscriptions sont fermées

Confirmation d'admission : 30 mars 2022

EnExDi : 09 au 13 mai 2022

Contacts, informations

enexdi@sciencesconf.org

EIJSBERG Hendrik <hendrik.eijsberg[at]univ-poitiers.fr>

IDMHAND Fatiha <fatihaidmhand[at]yahoo.es>

VITALI Giovanni Pietro <giovannipietrovitali[at]gmail.com>

***************************************

La formation

La formation est intensive, elle alterne des moments de cours en petits groupes avec des ateliers et des moments de partage des résultats et de retour d'expérience. La formation inclut aussi des conférences (keynotes), des présentations de projets de recherche et une masterclass.

La formation est exclusivement présentielle, il n'est pas possible de n'assister qu'à une partie de la formation. Votre inscription vaut engagement à suivre la formation dans son intégralité.

Les conférences (keynotes) seront retransmises en streaming.

Pendant les cours, nous présentons d'abord un sujet puis nous proposons des exercices. La répartition en groupes est proposée par les organisateurs et les organisatrices sur la base des dossiers des participant.e.s.

Les ateliers permettent ensuite d'approfondir et d'appliquer à sa propre recherche ce qui a été appris pendant les cours. Un formateur ou une formatrice de référence suit chaque participant.e, le guide et accompagne son travail dans les ateliers.

Une attestation de participation est remise à chaque participant.e à la fin de la semaine. Les doctorants peuvent faire valoir cette formation dans leurs cursus.

***************************************

Présentation des cours de l'édition 2022

Connaître son propre ordinateur (Simone Rebora)

Dans ce cours nous proposons d'explorer les machines avec lesquelles nous allons travailler pendant la formation, les formats des fichiers et leur emplacement. Pour ce faire, nous utiliserons la ligne de commande comme alternative à l'interface graphique que notre système d'exploitation nous propose. Ensuite, nous introduirons brièvement le système de gestion de versions git et la plateforme Github.

OCR (Stefano Bazzaco)

HTR (Ariane Pinche)

Nous proposerons une courte présentation de l’utilisation de la reconnaissance automatique d’écriture sur les manuscrits médiévaux, et plus spécifiquement autour des enjeux sur la constitution des corpus d'entraînement. En effet, L’utilisation croissante de l’HTR via des interfaces comme eScriptorium ou Kraken fait surgir de nombreuses questions éditoriales autour de la production des données nécessaires à l'entraînement des machines pour lire les documents. Il devient donc primordial d’établir une méthode efficace pour transcrire des textes afin de constituer les modèles les plus performants possibles, mais aussi les plus utiles à la communauté scientifique. Au cours de cette introduction, nous présenterons les principes généraux de l’HTR, ainsi que les expériences qui sont menées au sein du projet CREMMALab pour évaluer les capacités des modèles HTR à retranscrire des manuscrits et à s’adapter à de nouvelles mains ou des formes de lettres différentes d’une écriture à une autre.

Encodage de textes (Ariane Pinche & Stefano Bazzaco)

Le cours propose une introduction à l'encodage TEI (Text Encoding Initiative), l’un des standards les plus importants dans le monde des humanités numériques (Digital Humanities). La découverte de XML-TEI sera également l’occasion de connaître et d’adopter les bonnes pratiques du travail, nécessaires pour rendre les données réutilisables par d’autres chercheurs, interopérables avec d’autres systèmes et persistantes à long terme. Après une introduction théorique aux principes de XML et du vocabulaire TEI, nous passerons aux exercices abordant les principaux problèmes soulevés par l'encodage, tels que la structure physique et logique du document (pages, titres, chapitres, paragraphes, etc.) ou les entités nommées (noms de personnes et de lieux). Les exercices seront l’occasion de présenter certains des outils disponibles pour faciliter le travail avec XML-TEI, tels que le logiciel oXygen et l’application web Roma.

Analyse sémantique et stylistique (Simone Rebora)

Le cours se concentre sur deux domaines importants de l'analyse de textes à l'aide de méthodes de calcul. Sous le nom de "stylométrie", une série d'approches sont rassemblées dans le but de distinguer et de mesurer le style d'auteur. Des méthodes statistiques telles que la Delta distance sont fréquemment utilisées pour l'attribution de textes anonymes, tandis que la keyness analysis est adoptée pour identifier les marques lexicales qui caractérisent l'écriture d'un ou de plusieurs auteurs. Après avoir brièvement passé en revue les fondements théoriques-mathématiques de chacune de ces méthodes, les différentes manières d’afficher les résultats (tels que les dendrogrammes et les arbres de consensus) seront présentées, ce qui permettra finalement une "lecture de loin" (distant reading) de grands corpus textuels. Dans le domaine plus large de l'analyse sémantique, en fonction des besoins des participant.e.s, seront présentés : des algorithmes de sentiment analysis, qui quantifient les aspects émotionnels du texte dans le but de visualiser sa structure narrative ; des algorithmes de classification des zones sémantiques, qui mesurent les dominantes thématiques du texte ; topic modelling et algorithmes de sémantique distributionnelle, qui extraient des thèmes et des relations conceptuels directement à partir de la distribution des mots dans de grandes collections de textes. Des applications simples de ces approches aux études littéraires seront présentées, soulignant également les risques et les problèmes liés à leur utilisation aveugle.

Traitement automatique du langage - TAL (Marianne Reboul)

Le cours est divisé en deux parties: la première partie est consacrée à une introduction à python pour les SHS (types de variables, ouverture de fichiers en boucle, traitement de base de fréquences etc) ; tandis que la deuxième partie vise à apprendre à manipuler des outils de marquage PoS (assignation automatique de parties du discours) et la lemmatisation de textes. Une connaissance élémentaire de la ligne de commande (pour lancer un jupyter notebook par exemple) est essentielle pour tous ceux qui souhaitent traiter automatiquement des données textuelles avec des outils de traitement automatique qui ne sont pas dotés d’interfaces graphiques, aussi bien sur des ordinateurs portables que sur des serveurs (pour une analyse computationnelle à grande échelle). Le balisage PoS et la lemmatisation sont également essentiels en tant que tâches requises pour tout type d'analyse linguistique numérique, qu'elle soit syntaxique ou sémantique. Comme pour les autres cours, le cours TAL est divisé en parties égales entre présentations et exercices pratiques, accompagnés d'instructions détaillées. À la fin du cours, les participant.e.s seront non seulement en mesure de préparer des textes ou des corpus pour différents types d'analyse computationnelle, mais ils et elles auront également acquis les connaissances nécessaires pour appliquer cela à leur projet de recherche actuel (ou futur), tout en étant conscient.e.s des limites et des problèmes des méthodes de calcul dans ce domaine.

Cartographie numérique (Giovanni Pietro Vitali & Martin Nicastro)

L'objectif du cours de cartographie numérique est de fournir aux participants les outils techniques de base permettant d'afficher des données géoréférencées sur des cartes en ligne. Les méthodes de formatage des données seront présentées pour la création de cartes, une attention particulière étant accordée à l'extraction des coordonnées à partir d'une liste de toponymes. Par la suite, la création des mêmes points et des mêmes cartes polygonales sera abordée, via des applications en ligne telles que Carto et Recogito, deux outils simples à utiliser pour publier des cartes numériques sur le net. À la fin du cours, chaque participant pourra mettre une carte avec ses données sur le Web pour diffuser ses recherches ou vérifier ses théories.

Network Analysis (Giovanni Pietro Vitali & Martin Nicastro)

During the workshop the participants will have the chance to learn how to build network graphs from scratch using the software Gephi: to do so we will discuss how to build a data set from research sources, how to prepare and clean those data in an efficient way and finally how to represent them through the use of symbology and algorithms in the software. The goal of the course is not only to understand how to create an aesthetically functional network graph, but also to grasp both the methodological advantages and risks of such visualizations. The projects proposed by the participants will be examined to see how network graphs can fulfill the need to represent connections and relations in different research contexts, but also inspire new questions.

***************************************

Formateurs de l'édition 2022

Les formateurs et formatrices sont des chercheurs et chercheuses reconnus, de niveau post-doc au minimum. Ils sont spécialistes des études linguistiques et littéraires de différentes périodes : études classiques, médiévales, modernes et contemporaines. Leur spécialisations, combinées à leurs compétences dans le domaine des humanités numériques, permettront d’assurer un suivi optimal de participant.e.s aux profils variés, déclinant les outils numériques selon les méthodes pertinentes pour chaque projet de recherche.

BAZZACO, Stefano

Stefano Bazzaco is a Postdoctoral Researcher in Spanish Literature at the University of Verona, Italy. He holds a master in European and Anglo-American Languages and Literatures and a PhD in Spanish Golden Age Literature. His research interests are Spanish Romances of Chivalry of the Renaissance; Spanish Golden Age fiction; XX Century Spanish Literature of the “Edad de Plata”; Digital Humanities studies, mainly centered on digitization, text recognition and digital scholarly editing.
From 2015 he has been collaborating with the research project Progetto Mambrino (U. of Verona, Italy) for the creation of a digital interactive library of Italian chivalric fiction derived from Spanish. In addition, he collaborates with Biblioteca Digital Siglo de Oro (BIDISO) project, PAPIIT Project “Edición y estudio de 'El Cavallero del Febo': El desarrollo de la prosa de ficción hispánica”, and Catálogo de obras medievales impresas en castellano (COMEDIC) project as external researcher.
During the Ateliers, participants can work with Stefano on automated text recognition (OCR, HTR), modelization of digital editions and semantic markup with XML TEI.

PINCHE, Ariane

Agrégée de grammaire et docteure en langue et littérature médiévales (Université Lyon 3), Ariane Pinche est chercheuse post-doc à l’École nationale des chartes à Paris où elle travaille à l'entraînement et l’optimisation de modèles HTR (Handwritten Text Recognition) pour les manuscrits médiévaux, en portant un intérêt tout particulier à la qualité et la pérennité des données d’entraînement. Ces recherches ont pour but de produire à terme, grâce à l’HTR, un corpus d’écrits hagiographiques en ancien français afin d'étudier la composition des premiers légendiers en langue vernaculaire. Elle s’intéresse également à l’édition scientifique numérique dans la continuité de sa thèse (Édition nativement numérique du recueil hagiographique Li Seint Confessor de Wauchier de Denain) et a remporté le prix Fortier de la meilleure communication jeune chercheur lors de la conférence Digital Humanities 2019 à Utrecht avec ses deux collègues J. B. Camps et T. Clérice pour la communication « Stylometry for Noisy Medieval Data : Evaluating Paul Meyer’s Hagiographic Hypothesis ».
Dans les ateliers, les participant.e.s pourront travailler avec Ariane sur la structuration en XML TEI des textes en fonction de leur genre (roman, poésie, correspondances, théâtre, etc.), mais aussi apprendre à enrichir leur encodage avec des informations plus complexes (apparat critique, entités nommées, annotation linguistique). La question de l’intégration de la TEI dans le cadre d’une chaine d’acquisition automatique du texte (OCR, HTR) ou d’une annotation linguistique pourra également être abordée.

NICASTRO, Martin

Martin Nicastro is a PhD candidate in Musicology at the University of Pavia (Italy). His research project is called "Milan 1958-1962: Musical Topography of a City": it focuses on the spatial reconstruction of the Milanese music scene in the years of the economic boom, using both digital cartography and network analysis. He graduated in Modern Literature and Musicology at the University of Milan and has a diploma in violin at the G. Verdi Conservatory of the same city. His research interests concern the intersections between Spatial Humanities and Musicology, popular music, contemporary music and music genres. He currently teaches "Editing and musical representation" at the University of Milan.
During the workshops the participants will work with Martin on data visualization, network analysis and digital mapping.

VITALI, Giovanni Pietro

Giovanni Pietro Vitali est Maître de conférences à l'Université de Versailles Saint Quentin. Il a été chercheur Marie Curie à l’université de Cork (Irlande), de Reading (Angleterre) et de New York (États-Unis). Son projet de recherche porte sur une étude linguistique et thématique des dernières lettres des condamnés à mort des deux guerres mondiales. Il est docteur en Science du Langage (université pour étrangers de Pérouse) et en Langue, Littérature et Civilisation Italienne (Université de Lorraine) ; ses intérêts de recherche sont principalement la littérature italienne (notamment le néoréalisme et la littérature de la Résistance), l’onomastique, la dialectologie, l’enseignement des langues, les humanités numériques et la linguistique (particulièrement computationnelle et des corpora). Il a travaillé comme chercheur contractuel pour un projet du ministère italien de recherche FIRB-Lira (Langue Italienne en ligne pour l’apprentissage) et il a été lecteur de langue italienne puis ATER à l’Université de Lorraine et l’Université de Poitiers.

Durant les ateliers, les participant.e.s pourront travailler avec Giovanni sur la cartographie numérique, l'analyse de réseaux, la stylométrie et le traitement automatique du langage.

REBORA, Simone

Simone Rebora est né à Tortona (Alexandrie) en 1981. Après sa Licence en ingénierie électronique à Turin, il se consacre aux études littéraires : d’abord avec un master en philologie moderne à Florence, et après dans le cadre de son doctorat en littératures étrangères à l’université de Vérone. Il a été chercheur aux centres pour les humanités numériques de Göttingen (Allemagne) et de Bâle (Suisse). Il est actuellement chercheur post-doc à l'université de Bielefeld (Allemagne) et enseigne humanités numériques et littératures comparées à l'université de Vérone (Italie). Ses principaux intérêts de recherche sont la théorie et les méthodologies de l’historiographie littéraire, et les études sur sa réception. Dans le domaine des humanités numériques, il travaille sur les méthodes de lecture à distance et sur les liens avec les approches empiriques/expérimentales. Ses essais ont été publiés dans des revues comme Digital Scholarship in the Humanities et Modern Language Notes. Il a publié deux monographies en langue italienne : Claudio Magris en 2015 et History/Histoire e Digital Humanities en 2018.
Durant les ateliers, les participant.e.s pourront travailler avec Simone sur la stylométrie (stylo, JGAAP, pyDelta, pyZeta et quanteda), le sentiment analysis (syuzhet, sentimentR), la classification sémantique (LIWC, SEANCE), le topic modeling (LDA, mallet), la sémantique distributionnelle et le machine learning (word2vec, FastText, BERT)

REBOUL, Marianne

Marianne Reboul est maîtresse de conférences en Humanités Numériques à l’ENS de Lyon. Elle a obtenu une agrégation en Lettres Classiques et une thèse sur les traductions françaises d’Homère (du XVIe siècle au XXe siècle, grâce à des outils informatiques). Elle est autodidacte en programmation (essentiellement python, java, PHP, javascript), et s’intéresse maintenant aux rapports évolutifs (sémantiques essentiellement) entre les langues anciennes en Europe (voir comment une langue est influencée par une autre, etc., via l’intelligence artificielle). L’essentiel de son temps de cours est destiné à l’initiation aux Humanités Numériques (sans et avec programmation), et en particulier aux “digital classics”. Elle parle l’italien et l’anglais sans problème, si besoin.
Dans ce cours, vous découvrirez des bases de programmation python pour les SHS. Python comprend de très nombreux modules écrits par et pour des spécialistes de SHS, et c’est un langage qui se comprend rapidement. Les carnets python pré-écrits (que vous pourrez réexploiter) permettent une compréhension aérée et simplifiée de commandes de base pour l’analyse textuelle. Vous pourrez intégrer vos propres textes aux programmes, en faire des analyses fréquentielles de base, les lemmatiser, les analyser syntaxiquement, les représenter en graphiques. Vous pourrez prendre conscience des perspectives et des limites de telles approches.

Cosovschi, Agustín

Docteur en Histoire, les travaux d’Agustín Cosovschi portent sur l’histoire de la Guerre froide, notamment en Europe du Sud-Est. Il est actuellement assistant de recherche dans le cadre du projet DISSINVENT (La contemporaine – Université de Paris) qui s’occupe de l’héritage archivistique des dissidents et réfugiés politiques d’Europe de l’Est en France. Il travaille aussi dans le domaine des humanités numériques et s’intéresse notamment aux outils de cartographie et aux enjeux de la gestion des données de la recherche. Durant les ateliers, les participant.e.s pourront travailler avec Agustín sur la cartographie numérique et sur la production et mise en forme de leurs données.

***************************************

Programme

lundi 9 mai 2022

Heures	événement
10:00 - 10:30	Mot de bienvenue (Salle des conférences) - Fatiha Idmhand
10:30 - 11:00	Humanités numériques (Salle des conférences) - EnExDi Team
11:00 - 11:30	Pause café
11:30 - 13:00	Présentation des projets de recherche (Salle des conférences) - Participants de l'école
13:00 - 14:00	Déjeuner
14:00 - 15:30	Présentation des projets de recherche (Salle des conférences) - Participants de l'école
15:30 - 16:00	Pause café
16:00 - 17:00	Connaître son propre ordinateur (Salle des conférences) - Simone Rebora
17:00 - 18:00	Conférence
18:00 - 19:00	Install party (Salle des conférences) - Aide en cas de problème d'installation (Install party)

mardi 10 mai 2022

Heures	événement
09:00 - 11:00	Édition à l’ère numérique (OCR HTR - XML TEI) (Salle des conférences)
11:00 - 11:30	Pause café
11:30 - 13:00	Édition à l’ère numérique (OCR HTR - XML TEI) (Salle des conférences)
13:00 - 14:00	Déjeuner
14:00 - 16:00	Ateliers de recherche - EnExDi Team
16:00 - 16:30	Pause café
16:30 - 18:30	Ateliers de recherche - EnExDi Team

mercredi 11 mai 2022

Heures	événement
09:00 - 10:30	Traitement automatique du langage (TAL) - Marianne Reboul (FR)
09:00 - 10:30	Analyse sémantique et stylistique - Simone Rebora (EN)
10:30 - 11:00	Pause café
11:00 - 12:30	Traitement automatique du langage (TAL) - Marianne Reboul (FR)
11:00 - 12:30	Analyse sémantique et stylistique - Simone Rebora (EN)
12:30 - 13:30	Déjeuner
13:30 - 15:30	Ateliers de recherche - EnExDi Team
15:30 - 16:00	Pause café
16:00 - 17:30	Ateliers de recherche - EnExDi Team
17:30 - 18:30	Conférence

jeudi 12 mai 2022

Heures	événement
09:00 - 10:30	Cartographie numérique - Giovanni Pietro Vitali (FR)
09:00 - 10:30	Analyse et visualisation de réseaux - Martin Nicastro (EN)
10:30 - 11:00	Pause café
11:00 - 12:30	Cartographie numérique - Giovanni Pietro Vitali (FR)
11:00 - 12:30	Analyse et visualisation de réseaux - Martin Nicastro (EN)
12:30 - 13:30	Déjeuner
13:30 - 15:30	Ateliers de recherche - EnExDi Team
15:30 - 16:00	Pause café
16:00 - 17:30	Ateliers de recherche - EnExDi Team
20:00 - 23:00	Dîner

vendredi 13 mai 2022

Heures	événement
09:00 - 11:00	Ateliers de recherche - EnExDI Team
11:00 - 11:30	Pause café
11:30 - 12:30	Conférence
12:30 - 13:30	Déjeuner
13:30 - 15:00	Retours des participants - Participants de l'école
15:00 - 16:30	Feedback - EnExDi Team
16:30 - 17:00	Que faire après EnExDi? - Fatiha Idmhand

Vie privée | Accessibilité