|
|
Archives - Editions précédentes de EnExDi > EnExDi2022Les humanités numériques dans les projets de rechercheMaison des Sciences de l’Homme et de la Société de Poitiersdu 9 au 13 mai 2022
EnExDi est une école de formation intensive à destination des jeunes chercheurs et jeunes chercheuses en sciences humaines et sociales. Depuis 2019, elle propose aux doctorant.e.s et post-doctorant.e.s de se former aux technologies des humanités numériques. Elle est également ouverte, selon les places disponibles, aux chercheurs.euses plus avancé.e.s qui ont besoin d’un accompagnement. Dates importantes
Ouverture des inscriptions : 21 février 2022 Fermeture des inscriptions : 04 avril 2022 Les inscriptions sont fermées Confirmation d'admission : 30 mars 2022 EnExDi : 09 au 13 mai 2022 Contacts, informations
EIJSBERG Hendrik <hendrik.eijsberg[at]univ-poitiers.fr> IDMHAND Fatiha <fatihaidmhand[at]yahoo.es> VITALI Giovanni Pietro <giovannipietrovitali[at]gmail.com>
*************************************** La formation
La formation est intensive, elle alterne des moments de cours en petits groupes avec des ateliers et des moments de partage des résultats et de retour d'expérience. La formation inclut aussi des conférences (keynotes), des présentations de projets de recherche et une masterclass.
La formation est exclusivement présentielle, il n'est pas possible de n'assister qu'à une partie de la formation. Votre inscription vaut engagement à suivre la formation dans son intégralité.
Les conférences (keynotes) seront retransmises en streaming. *************************************** Présentation des cours de l'édition 2022
Connaître son propre ordinateur (Simone Rebora)Dans ce cours nous proposons d'explorer les machines avec lesquelles nous allons travailler pendant la formation, les formats des fichiers et leur emplacement. Pour ce faire, nous utiliserons la ligne de commande comme alternative à l'interface graphique que notre système d'exploitation nous propose. Ensuite, nous introduirons brièvement le système de gestion de versions git et la plateforme Github.
OCR (Stefano Bazzaco)
Nous proposerons une courte présentation de l’utilisation de la reconnaissance automatique d’écriture sur les manuscrits médiévaux, et plus spécifiquement autour des enjeux sur la constitution des corpus d'entraînement. En effet, L’utilisation croissante de l’HTR via des interfaces comme eScriptorium ou Kraken fait surgir de nombreuses questions éditoriales autour de la production des données nécessaires à l'entraînement des machines pour lire les documents. Il devient donc primordial d’établir une méthode efficace pour transcrire des textes afin de constituer les modèles les plus performants possibles, mais aussi les plus utiles à la communauté scientifique. Au cours de cette introduction, nous présenterons les principes généraux de l’HTR, ainsi que les expériences qui sont menées au sein du projet CREMMALab pour évaluer les capacités des modèles HTR à retranscrire des manuscrits et à s’adapter à de nouvelles mains ou des formes de lettres différentes d’une écriture à une autre.
Encodage de textes (Ariane Pinche & Stefano Bazzaco)
Le cours propose une introduction à l'encodage TEI (Text Encoding Initiative), l’un des standards les plus importants dans le monde des humanités numériques (Digital Humanities). La découverte de XML-TEI sera également l’occasion de connaître et d’adopter les bonnes pratiques du travail, nécessaires pour rendre les données réutilisables par d’autres chercheurs, interopérables avec d’autres systèmes et persistantes à long terme. Après une introduction théorique aux principes de XML et du vocabulaire TEI, nous passerons aux exercices abordant les principaux problèmes soulevés par l'encodage, tels que la structure physique et logique du document (pages, titres, chapitres, paragraphes, etc.) ou les entités nommées (noms de personnes et de lieux). Les exercices seront l’occasion de présenter certains des outils disponibles pour faciliter le travail avec XML-TEI, tels que le logiciel oXygen et l’application web Roma.
Analyse sémantique et stylistique (Simone Rebora)
Le cours se concentre sur deux domaines importants de l'analyse de textes à l'aide de méthodes de calcul. Sous le nom de "stylométrie", une série d'approches sont rassemblées dans le but de distinguer et de mesurer le style d'auteur. Des méthodes statistiques telles que la Delta distance sont fréquemment utilisées pour l'attribution de textes anonymes, tandis que la keyness analysis est adoptée pour identifier les marques lexicales qui caractérisent l'écriture d'un ou de plusieurs auteurs. Après avoir brièvement passé en revue les fondements théoriques-mathématiques de chacune de ces méthodes, les différentes manières d’afficher les résultats (tels que les dendrogrammes et les arbres de consensus) seront présentées, ce qui permettra finalement une "lecture de loin" (distant reading) de grands corpus textuels. Dans le domaine plus large de l'analyse sémantique, en fonction des besoins des participant.e.s, seront présentés : des algorithmes de sentiment analysis, qui quantifient les aspects émotionnels du texte dans le but de visualiser sa structure narrative ; des algorithmes de classification des zones sémantiques, qui mesurent les dominantes thématiques du texte ; topic modelling et algorithmes de sémantique distributionnelle, qui extraient des thèmes et des relations conceptuels directement à partir de la distribution des mots dans de grandes collections de textes. Des applications simples de ces approches aux études littéraires seront présentées, soulignant également les risques et les problèmes liés à leur utilisation aveugle.
Traitement automatique du langage - TAL (Marianne Reboul)
Le cours est divisé en deux parties: la première partie est consacrée à une introduction à python pour les SHS (types de variables, ouverture de fichiers en boucle, traitement de base de fréquences etc) ; tandis que la deuxième partie vise à apprendre à manipuler des outils de marquage PoS (assignation automatique de parties du discours) et la lemmatisation de textes. Une connaissance élémentaire de la ligne de commande (pour lancer un jupyter notebook par exemple) est essentielle pour tous ceux qui souhaitent traiter automatiquement des données textuelles avec des outils de traitement automatique qui ne sont pas dotés d’interfaces graphiques, aussi bien sur des ordinateurs portables que sur des serveurs (pour une analyse computationnelle à grande échelle). Le balisage PoS et la lemmatisation sont également essentiels en tant que tâches requises pour tout type d'analyse linguistique numérique, qu'elle soit syntaxique ou sémantique. Comme pour les autres cours, le cours TAL est divisé en parties égales entre présentations et exercices pratiques, accompagnés d'instructions détaillées. À la fin du cours, les participant.e.s seront non seulement en mesure de préparer des textes ou des corpus pour différents types d'analyse computationnelle, mais ils et elles auront également acquis les connaissances nécessaires pour appliquer cela à leur projet de recherche actuel (ou futur), tout en étant conscient.e.s des limites et des problèmes des méthodes de calcul dans ce domaine.
Cartographie numérique (Giovanni Pietro Vitali & Martin Nicastro)
L'objectif du cours de cartographie numérique est de fournir aux participants les outils techniques de base permettant d'afficher des données géoréférencées sur des cartes en ligne. Les méthodes de formatage des données seront présentées pour la création de cartes, une attention particulière étant accordée à l'extraction des coordonnées à partir d'une liste de toponymes. Par la suite, la création des mêmes points et des mêmes cartes polygonales sera abordée, via des applications en ligne telles que Carto et Recogito, deux outils simples à utiliser pour publier des cartes numériques sur le net. À la fin du cours, chaque participant pourra mettre une carte avec ses données sur le Web pour diffuser ses recherches ou vérifier ses théories.
Network Analysis (Giovanni Pietro Vitali & Martin Nicastro)
During the workshop the participants will have the chance to learn how to build network graphs from scratch using the software Gephi: to do so we will discuss how to build a data set from research sources, how to prepare and clean those data in an efficient way and finally how to represent them through the use of symbology and algorithms in the software. The goal of the course is not only to understand how to create an aesthetically functional network graph, but also to grasp both the methodological advantages and risks of such visualizations. The projects proposed by the participants will be examined to see how network graphs can fulfill the need to represent connections and relations in different research contexts, but also inspire new questions.
*************************************** Formateurs de l'édition 2022
Les formateurs et formatrices sont des chercheurs et chercheuses reconnus, de niveau post-doc au minimum. Ils sont spécialistes des études linguistiques et littéraires de différentes périodes : études classiques, médiévales, modernes et contemporaines. Leur spécialisations, combinées à leurs compétences dans le domaine des humanités numériques, permettront d’assurer un suivi optimal de participant.e.s aux profils variés, déclinant les outils numériques selon les méthodes pertinentes pour chaque projet de recherche.
BAZZACO, StefanoStefano Bazzaco is a Postdoctoral Researcher in Spanish Literature at the University of Verona, Italy. He holds a master in European and Anglo-American Languages and Literatures and a PhD in Spanish Golden Age Literature. His research interests are Spanish Romances of Chivalry of the Renaissance; Spanish Golden Age fiction; XX Century Spanish Literature of the “Edad de Plata”; Digital Humanities studies, mainly centered on digitization, text recognition and digital scholarly editing.
PINCHE, ArianeAgrégée de grammaire et docteure en langue et littérature médiévales (Université Lyon 3), Ariane Pinche est chercheuse post-doc à l’École nationale des chartes à Paris où elle travaille à l'entraînement et l’optimisation de modèles HTR (Handwritten Text Recognition) pour les manuscrits médiévaux, en portant un intérêt tout particulier à la qualité et la pérennité des données d’entraînement. Ces recherches ont pour but de produire à terme, grâce à l’HTR, un corpus d’écrits hagiographiques en ancien français afin d'étudier la composition des premiers légendiers en langue vernaculaire. Elle s’intéresse également à l’édition scientifique numérique dans la continuité de sa thèse (Édition nativement numérique du recueil hagiographique Li Seint Confessor de Wauchier de Denain) et a remporté le prix Fortier de la meilleure communication jeune chercheur lors de la conférence Digital Humanities 2019 à Utrecht avec ses deux collègues J. B. Camps et T. Clérice pour la communication « Stylometry for Noisy Medieval Data : Evaluating Paul Meyer’s Hagiographic Hypothesis ».
|
Heures | événement | |
10:00 - 10:30 | Mot de bienvenue (Salle des conférences) - Fatiha Idmhand | |
10:30 - 11:00 | Humanités numériques (Salle des conférences) - EnExDi Team | |
11:00 - 11:30 | Pause café | |
11:30 - 13:00 | Présentation des projets de recherche (Salle des conférences) - Participants de l'école | |
13:00 - 14:00 | Déjeuner | |
14:00 - 15:30 | Présentation des projets de recherche (Salle des conférences) - Participants de l'école | |
15:30 - 16:00 | Pause café | |
16:00 - 17:00 | Connaître son propre ordinateur (Salle des conférences) - Simone Rebora | |
17:00 - 18:00 | Conférence | |
18:00 - 19:00 | Install party (Salle des conférences) - Aide en cas de problème d'installation (Install party) |
mardi 10 mai 2022
Heures | événement | |
09:00 - 11:00 | Édition à l’ère numérique (OCR HTR - XML TEI) (Salle des conférences) | |
11:00 - 11:30 | Pause café | |
11:30 - 13:00 | Édition à l’ère numérique (OCR HTR - XML TEI) (Salle des conférences) | |
13:00 - 14:00 | Déjeuner | |
14:00 - 16:00 | Ateliers de recherche - EnExDi Team | |
16:00 - 16:30 | Pause café | |
16:30 - 18:30 | Ateliers de recherche - EnExDi Team |
mercredi 11 mai 2022
Heures | événement | |
09:00 - 10:30 | Traitement automatique du langage (TAL) - Marianne Reboul (FR) | |
09:00 - 10:30 | Analyse sémantique et stylistique - Simone Rebora (EN) | |
10:30 - 11:00 | Pause café | |
11:00 - 12:30 | Traitement automatique du langage (TAL) - Marianne Reboul (FR) | |
11:00 - 12:30 | Analyse sémantique et stylistique - Simone Rebora (EN) | |
12:30 - 13:30 | Déjeuner | |
13:30 - 15:30 | Ateliers de recherche - EnExDi Team | |
15:30 - 16:00 | Pause café | |
16:00 - 17:30 | Ateliers de recherche - EnExDi Team | |
17:30 - 18:30 | Conférence |
jeudi 12 mai 2022
Heures | événement | |
09:00 - 10:30 | Cartographie numérique - Giovanni Pietro Vitali (FR) | |
09:00 - 10:30 | Analyse et visualisation de réseaux - Martin Nicastro (EN) | |
10:30 - 11:00 | Pause café | |
11:00 - 12:30 | Cartographie numérique - Giovanni Pietro Vitali (FR) | |
11:00 - 12:30 | Analyse et visualisation de réseaux - Martin Nicastro (EN) | |
12:30 - 13:30 | Déjeuner | |
13:30 - 15:30 | Ateliers de recherche - EnExDi Team | |
15:30 - 16:00 | Pause café | |
16:00 - 17:30 | Ateliers de recherche - EnExDi Team | |
20:00 - 23:00 | Dîner |
vendredi 13 mai 2022
Heures | événement | |
09:00 - 11:00 | Ateliers de recherche - EnExDI Team | |
11:00 - 11:30 | Pause café | |
11:30 - 12:30 | Conférence | |
12:30 - 13:30 | Déjeuner | |
13:30 - 15:00 | Retours des participants - Participants de l'école | |
15:00 - 16:30 | Feedback - EnExDi Team | |
16:30 - 17:00 | Que faire après EnExDi? - Fatiha Idmhand |
Personnes connectées : 2 | Vie privée |