Les humanités numériques dans les projets de recherche
Lyon (France)

Archives - Editions précédentes de EnExDi > EnExDi2020

 

 

Les humanités numériques dans les projets de recherche

Maison des Sciences de l’Homme et de la Société de Poitiers du 10 au 14 février 2020.

 

EnExDi est une école d’hiver qui propose aux doctorant.e.s et post-doctorant.e.s de se former aux technologies des humanités numériques. Elle est également ouverte aux chercheurs.euses plus avancés et qui ont besoin d’un accompagnement.

Durant les cinq jours de formation les participant.e.s seront amené.e.s à découvrir les fondamentaux des humanités numériques, en termes de bonnes pratiques et de réflexions méthodologiques, et à travailler avec un choix d'approches et de techniques, comme l'encodage de textes, le traitement automatique du langage, l'analyse sémantique et stylistique, la visualisation de données et la diffusion numérique des résultats de la recherche.

Cette formation introductive permet aussi aux participant.e.s de connaître le panorama des outils, des pratiques et de la bibliographie, et d'obtenir des indications sur comment poursuivre l'apprentissage des compétences acquises.

La formation repose sur une démarche bottom up : les participant.e.s expliquent leur projets de recherche, les formateurs et formatrices suggèrent et donnent des pistes sur la façon d'utiliser les humanités numériques et computationnelles pour atteindre les objectifs de recherche.

 

Matériaux

https://github.com/ABC-DH/EnExDi2020

Formulaire de feedback

https://docs.google.com/forms/d/e/1FAIpQLSeA7vAKgUzeWD-HJSzToTtO9RO6Sv3unA78Htg_eTw4Q-9Zdw/viewform?usp=sf_link
 

Dates importantes

Ouverture inscriptions : 2 décembre 2019

Fermeture inscriptions : 27 décembre 2019

Confirmation d'admission : 10 janvier 2020

EnExDi : 10-14 février 2020

 

Les formateurs

Les formateurs et formatrices sont de chercheurs et chercheuses de niveau post-doc, spécialistes des études linguistiques et littéraires de différentes périodes : études classiques, médiévales, modernes et contemporaines. Leur spécialisations, combinées à leurs compétences dans le domaine des humanités numériques, permettront d’assurer un suivi optimal de participant.e.s aux profils variés, déclinant les outils numériques selon les méthodes pertinentes pour chaque projet de recherche.

 

Dr. Greta Franzini

 Greta Franzini est chercheuse post-doc dans le projet ERC LiLa: Linking Latin à l’Università Cattolica del Sacro Cuore (Milano). Elle est classiciste, a obtenu un doctorat à la University College London et a été chercheuse à l’université Georg-August de Göttingen. Ses intérêts de recherche concernent les humanités numériques appliquées aux études classiques, les éditions numériques scientifiques et le traitement automatique du langage (TAL) pour les langues anciennes. Greta collabore à plusieurs projets internationaux, parmi lesquelles le catalogue des éditions numériques (https://dig-ed-cat.eos.arz.oeaw.ac.at/), dont elle est la conceptrice, qui examine l’état de l’art de l’édition scientifique numérique, et TRACER (https://www.etrap.eu/research/tracer/), un logiciel dédié à l’identification automatique de reprises textuelles pour les textes anciens.

Dans les ateliers, les participant.e.s pourront travailler avec Greta sur la ligne de commande (nettoyage et manipulation de textes avec Expressions Régulières), traitement automatique du langage (balisage PoS et lemmatisation), base de données, gestion de versions (GitHub/GitLab), publication web (HTML, CSS, Bootstrap) et encodage de textes en TEI.

 

Dr. Simon Gabay

 Simon Gabay est chercheur post-doc et enseigne les humanités numériques à l’université de Neuchâtel. Il collabore au projet L’Écriture privée au XVIIe s. : étude philologique des manuscrits de Madame de Sévigné. Après des études de philologie romane en France (Paris IV-Sorbonne) et en Écosse (St Andrews), il a obtenu et un doctorat en philologie latine aux Pays-Bas (Universiteit van Amsterdam). Il travaille actuellement à la création d’un catalogue des manuscrits du XVIIe s. français, et s’intéresse tout particulièrement à la question des protocoles éditoriaux (numériques ou non) pour les textes de ce même siècle.

Dans les ateliers, les participant.e.s pourront travailler avec Simon sur l'encodage de formes textuelles spécifiques (correspondances, théâtre, etc.) et de cas philologiques complexes (multiples témoins, annotation linguistique), l'intégration de la TEI avec le traitement automatique du langage, l'OCR, la stylométrie et la cartographie.

 

Dr. Simone Rebora

Simone Rebora est né à Tortona (Alexandrie) en 1981. Après sa Licence en ingénierie électronique à Turin, il se consacre aux études littéraires : d’abord avec un master en philologie moderne à Florence, et après dans le cadre de son doctorat en littératures étrangères à l’université de Vérone. Il a été chercheur au centre pour les humanités numériques de Göttingen (Allemagne). Il est actuellement chercheur post-doc à l'université de Bâle et enseigne littératures comparées à l'université de Verona. Ses principaux intérêts de recherche sont la théorie et les méthodologies de l’historiographie littéraire, et les études sur sa réception. Dans le domaine des humanités numériques, il travaille sur les outils comme la ROC (Reconnaissance Optique de Caractères), la stylométrie, et l’analyse de sentiment. Ses essais ont été publiés dans des revues comme Antologia Vieusseux, Between e Modern Language Notes. En 2015 il a publié une monographie consacrée à Claudio Magris.

Dans les ateliers, les participant.e.s pourront travailler avec Simone sur la stylométrie (stylo, JGAAP, pyDelta, pyZeta e quanteda), le sentiment analysis (syuzhet, Stanford SA), la classification sémantique (LIWC, SEANCE), le topic modeling (Gensim, LDA, Mallet) e la sémantique distributionnelle (word2vec, doc2vec).

 

Dr. Elena Spadini

Elena Spadini est chercheuse post-doc à l’université de Lausanne, où elle participe au projet d’édition des œuvres complètes de Gustave Roud. Après un doctorat en philologie romane (La Sapienza) et un master en technologies numériques pour les sciences humaines (École nationale des chartes), elle a travaillé à l’Huygens Institute dans le cadre du projet Marie Curie DiXiT, grâce auquel elle s’est spécialisée sur les éditions scientifiques numériques. Elle s’occupe de philologie numérique, de critique textuelle et d’histoire des humanités numériques. Elle collabore à La Commedia di Boccaccio, FonteGaia, Lexicon of Scholarly Editing.

Dans les ateliers, les participant.e.s pourront travailler avec Elena sur la philologie numérique (collation automatique, traitement automatique du langage pour les langues romanes, encodage de textes), la modélisation des données et les bases de données, les technologies du web sémantique (OWL, RDF), le monde XML (TEI, XSLT, publication de textes en TEI), le développement web (sites et applications web).

 

Dr. Giovanni Pietro Vitali

Giovanni Pietro Vitali est chercheur Marie Curie auprès l’université de Cork (Irlande) en collaboration avec l’université de Reading (Angleterre) et l’université de New York (États-Unis). Son projet de recherche porte sur une étude linguistique et thématique des dernières lettres des condamnés à mort des deux guerres mondiales. Il est docteur en Science du Langage (université pour étrangers de Pérouse) et en Langue, Littérature et Civilisation Italienne (Université de Lorraine) ; ses intérêts de recherche sont principalement la littérature italienne (notamment le néoréalisme et la littérature de la Résistance), l’onomastique, la dialectologie, l’enseignement des langues, les humanités numériques et la linguistique (particulièrement computationnelle et des corpora). Il a travaillé comme chercheur contractuel pour un projet du ministère italien de recherche FIRB-Lira (Langue Italienne en ligne pour l’apprentissage) et il a été lecteur de langue italienne puis ATER à l’Université de Lorraine et l’Université de Poitiers.

Dans les ateliers, les participant.e.s pourront travailler avec Giovanni sur la cartographie numérique, l'analyse de réseaux, la stylométrie et le traitement automatique du langage.

 

  verona2019.jpg

 

 Le programme de la formation 2020

 lundi 10 février 2020

Heures événement  
14:00 - 14:30 Bienvenue ! - Discours introductifs de e-C@NA, de l'Université de Poitiers et ABC-DH  
14:30 - 15:00 Apéritif : showcase des cours (Salle des conférences) - équipe ABC-DH  
15:00 - 15:30 Pause café  
15:30 - 17:30 Présentation des projets de recherche des participant.e.s - 4 minutes pour chaque participant (Salle des conférences)  
17:45 - 19:00 Créer en contextes de conflits : perspectives analytiques (Salle des conférences) - Prof. Fatiha Idmhand  
19:00 - 19:30 Entretiens individuels et installations (facultatif) - Temps libre pour les questions individuelles et l'installation de logiciels  

 mardi 11 février 2020

Heures événement  
09:00 - 09:15 Répartition en groupes - Division en groupes pour les jours suivants  
09:15 - 10:45 Cours : Connaître son propre ordinateur (Salle des conférences) - Simone Rebora & Elena Spadini  
10:45 - 11:15 Pause café  
11:15 - 12:45 Cours : Encodage de textes (XML-TEI) (Salle des conférences) - Simon Gabay  
12:45 - 14:00 Déjeuner  
14:00 - 15:30 Cours : Encodage de textes (XML-TEI) (Salle des conférences) - Simon Gabay  
15:30 - 16:00 Pause café  
16:00 - 17:30 Ateliers de recherche - Travail sur les projets de recherche individuels  
17:30 - 18:30 Entretiens individuels (facultatif) - Temps libre pour les questions individuelles  

 mercredi 12 février 2020

Heures événement  
09:00 - 10:30 Cours : Traitement automatique du langage (TAL) (Salle des conférences) - Greta Franzini  
09:00 - 10:30 Cours : Analyse sémantique et stylistique (Salle des conférences) - Simone Rebora  
10:30 - 11:00 Pause café  
11:00 - 12:30 Cours : Traitement automatique du langage (TAL) (Salle des conférences) - Greta Franzini  
11:00 - 12:30 Cours : Analyse sémantique et stylistique - Simone Rebora  
12:30 - 14:00 Déjeuner  
14:00 - 15:00 Ateliers de recherche - Travail sur les projets de recherche individuels  
15:00 - 15:30 Pause café  
15:30 - 17:30 MASTERCLASS : Visualisation de données et analyse de réseaux (Salle des conférences) - Dr. Martin Grandjean  

 jeudi 13 février 2020

Heures événement  
09:00 - 10:30 Cours : Cartographie numérique (Salle des conférences) - Giovanni Pietro Vitali  
09:00 - 10:30 Cours : Diffuser les résultats de recherche en ligne (Salle des conférences) - Elena Spadini  
10:30 - 11:00 Pause café  
11:00 - 12:30 Cours : Cartographie numérique (Salle des conférences) - Giovanni Pietro Vitali  
11:00 - 12:30 Cours : Diffuser les résultats de recherche en ligne - Elena Spadini  
12:30 - 14:00 Déjeuner  
14:00 - 15:00 Ateliers de recherche - Travail sur les projets de recherche individuels  
15:00 - 15:30 Pause café  
15:30 - 17:00 Ateliers de recherche - Travail sur les projets de recherche individuels  
17:00 - 17:30 Entretiens individuels (facultatif) - Temps libre pour les questions individuelles  

 vendredi 14 février 2020

Heures événement  
09:00 - 10:30 Présentations des participant.e.s (Journée d’études) - Les participant.e.s de l'école auront l'occasion de présenter leurs recherches dans le cadre de cet événement ouvert à tous. (Salle des conférences)  
10:30 - 11:00 Pause café  
11:00 - 12:00 Présentations des participant.e.s (Journée d’études) - Les participant.e.s de l'école auront l'occasion de présenter leurs recherches dans le cadre de cet événement ouvert à tous. (Salle des conférences)  
12:00 - 13:00 Les Humanités Numériques: une perspective historique et sociale (Salle des conférences) - Prof. Elena Pierazzo  
13:00 - 14:00 Déjeuner  
14:00 - 15:00 Ateliers de recherche - Travail sur les projets de recherche individuels  
15:00 - 15:30 Feedback - Moment d'échange et de retours d'expérience  
15:30 - 15:30 Au revoir - Départ des participants

 

 

Déroulement de la formation

 

La formation alterne des cours et des ateliers. Elle inclut aussi la présentation des cours et des projets de recherche des participant.e.s, au début ; une masterclass du Dr. Martin Grandjean sur l'analyse de réseaux ; un keynote ; et un moment de partage des résultats et de retour d'expérience.

Pendant les cours, nous présentons d'abord un sujet et proposons ensuite des exercices. Les cours 'Connaître son propre ordinateur' et 'Encodage de textes' sont dirigés à tous.tes les participant.e.s. Les cours suivants sont à option et les participant.e.s sont organisé en deux groupes : un groupe suit les cours 'Traitement automatique du langage' et 'Diffusion de la recherche en ligne' ; l'autre groupe suit les cours 'Analyse sémantique et stylistique' et 'Cartographie numérique'. La division en groupes est proposée par les organisateurs et les organisatrices sur la base des dossiers des participant.e.s.

 

Les ateliers permettent d'approfondir et d'appliquer à sa propre recherche ce qui a été appris pendant les cours. Un formateur ou une formatrice de référence est attribué.e à chaque participant.e pour guider et suivre le travail dans les ateliers.

Une attestation de participation est remise à chaque participant.e à la fin de la semaine.

 

Présentation des cours

Connaître son propre ordinateur (Simone Rebora & Elena Spadini)

Dans ce cours nous proposons d'explorer les machines avec lesquelles nous aillons travailler pendant la formation, les formats des fichiers et leur emplacement. Pour ce faire, nous utiliserons la ligne de commande, comme alternative à l'interface graphique que notre système d'exploitation nous propose. Ensuite, nous introduirons brièvement le système de gestion de versions git et la plateforme Github. Les fondamentaux d'un langage de programmation, R, seront discutés à la fin, le tout accompagné par de simples exercices.

Encodage de textes (Simon Gabay)

Le cours propose une introduction à l'encodage TEI (Text Encoding Initiative), l’un des standards les plus importants dans le monde des humanités numériques (Digital Humanities). Pendant le cours, les participant.e.s apprendront à transformer un texte en base de données, interrogeable et publiable dans différents formats (LaTeX, HTML, etc.). La découverte de XML-TEI sera également l’occasion de connaître et d’adopter les bonnes pratiques du travail, nécessaires pour rendre les données réutilisables par d’autres chercheurs, interopérables avec d’autres systèmes et persistantes à long terme. Après une introduction théorique aux principes de XML et du vocabulaire TEI, nous passerons aux exercices abordant les principaux problèmes soulevés par l'encodage, tels que la structure physique et logique du document (pages, titres, chapitres, paragraphes, etc.) ou les entités nommées (noms de personnes et de lieux). Les exercices seront l’occasion de présenter certains des outils disponibles pour faciliter le travail avec XML-TEI, tels que le logiciel oXygen et l’application web Roma.

Analyse sémantique et stylistique (Simone Rebora)

Le cours se concentre sur deux domaines importants de l'analyse de textes à l'aide de méthodes de calcul. Sous le nom de "stylométrie", une série d'approches sont rassemblées dans le but de distinguer et de mesurer le style d'auteur. Des méthodes statistiques telles que la Delta distance sont fréquemment utilisées pour l'attribution de textes anonymes, tandis que la keyness analysis est adoptée pour identifier les marques lexicales qui caractérisent l'écriture d'un ou de plusieurs auteurs. Après avoir brièvement passé en revue les fondements théoriques-mathématiques de chacune de ces méthodes, les différentes manières d’afficher les résultats (tels que les dendrogrammes et les arbres de consensus) seront présentées, ce qui permettra finalement une "lecture de loin" (distant reading) de grands corpus textuels. Dans le domaine plus large de l'analyse sémantique, en fonction des besoins des participant.e.s, seront présentés : des algorithmes de sentiment analysis, qui quantifient les aspects émotionnels du texte dans le but de visualiser sa structure narrative ; des algorithmes de classification des zones sémantiques, qui mesurent les dominantes thématiques du texte ; topic modelling et algorithmes de sémantique distributionnelle, qui extraient des thèmes et des relations conceptuels directement à partir de la distribution des mots dans de grandes collections de textes. Des applications simples de ces approches aux études littéraires seront présentées, soulignant également les risques et les problèmes liés à leur utilisation aveugle.

 Traitement automatique du langage - TAL (Greta Franzini)

Le cours est divisé en deux parties: la première partie est consacrée à l’utilisation de la ligne de commande (également appelée "terminal") pour la gestion des fichiers et la manipulation de textes ou de corpus (par exemple, nettoyage et formatage avec Expressions Régulières ou RegEx) ; tandis que la deuxième partie vise à apprendre l’outil TreeTagger pour le marquage PoS (assignation automatique de parties du discours) et la lemmatisation de textes. Une connaissance élémentaire de la ligne de commande est essentielle pour tous ceux qui souhaitent traiter automatiquement des données textuelles avec des outils de traitement automatique qui ne sont pas dotés d’interfaces graphiques, aussi bien sur des ordinateurs portables que sur des serveurs (pour une analyse computationnelle à grande échelle). Le balisage PoS et la lemmatisation sont également essentielles en tant que tâches requises pour tout type d'analyse linguistique numérique, qu'elle soit syntaxique ou sémantique. Comme pour les autres cours, le cours TAL est divisé en parties égales entre présentations et exercices pratiques, accompagnés d'instructions détaillées. À la fin du cours, les participant.e.s seront non seulement en mesure de préparer des textes ou des corpus pour différents types d'analyse computationnelle, mais ils et elles auront également acquis les connaissances nécessaires pour appliquer cela à leur projet de recherche actuel (ou futur), tout en étant conscient.e.s des limites et des problèmes des méthodes de calcul dans ce domaine.

Cartographie numérique (Giovanni Pietro Vitali)

L'objectif du cours de cartographie numérique est de fournir aux participants les outils techniques de base permettant d'afficher des données géoréférencées sur des cartes en ligne. Les méthodes de formatage des données seront présentées pour la création de cartes, une attention particulière étant accordée à l'extraction des coordonnées à partir d'une liste de toponymes. Par la suite, la création des mêmes points et des mêmes cartes polygonales sera abordée, via des applications en ligne telles que Carto et Recogito, deux outils simples à utiliser pour publier des cartes numériques sur le net. À la fin du cours, chaque participant pourra mettre une carte avec ses données sur le Web pour diffuser ses recherches ou vérifier ses théories.

 Diffuser les résultats de recherche en ligne (Elena Spadini)

Le cours porte sur les technologies du Web, en particulier l'encodage HTML et les feuilles de style CSS. Connaître ces langages permet de créer un site-web, mais également de gérer la publication de données encodées (par exemple, en TEI) et de mieux contrôler la publication via des plateformes telles que Wordpress ou Omeka. En plus de la création de sites scientifiques et de blogs, d'autres moyens de diffusion des résultats de recherche et de collaboration en ligne seront examinés: repositories institutionnels et internationaux (par exemple, Zenodo), utilisation d'identificateurs pérennes (par exemple, DOI), système de gestion de versions (Git) et de code source (tels que Github et Gitlab). Les questions liées à la science ouverte (y compris le libre accès) et aux licences pour les données et les publications seront brièvement abordées. Le cours est divisé en parties égales entre présentations et exercices pratiques, accompagnés d'instructions détaillées et pour différents niveaux. À la fin du cours, les articipant.e.s pourront créer un site-web pour présenter leur projet ou leur profil professionnel et ils et elles auront acquis les connaissances nécessaires pour définir une stratégie de gestion et de diffusion des données et des résultats de la recherche sur le web, à mettre en œuvre dans le projet en cours ou à inclure dans la candidature pour un projet futur.

 

Installations demandées pour l'édition 2020

 Attention : les installations doivent être complétées avant l'école. Si vous rencontrez de problème, venez aux entretiens individuels à la fin du premier jour, comme indiqué dans le Programme. Pour mieux gérer les problèmes, nous vous demandons de nous faire signe pendant la première pause-café ou de nous écrire avant l'école.

Prérequis et installation pour tout le monde

  • Ordinateur avec au moins 5-10GB d'espace disponible.
  • Système d'exploitation : Windows (7+), Linux o Mac OSX.
  • Java 8 pour votre système d'exploitation. C'est possible qu'il faudra créer un compte Oracle pour télecharger Java 8.
  • Logiciels zip/unzip (qui se trouvent normalement installés sur votre ordinateur, comme 7-Zip, Winzip, etc., pour  décompresser les dossier .zip)
  • Navigateurs : Mozilla Firefox et Google Chrome.
  • Logiciels de lecture de texte pour .txt et .csv : Sublime Text Editor 3.

Cours : Connaître son propre ordinateur (toutes et tous les participants)

POUR TOUTES LES PLATEFORMES

En plus, pour WINDOWS

  • Cygwin. Pour installer Cygwin, suivre le lien et dans la section "Installating Cygwin" télécharger le fichier indiqué : "Install Cygwin by running xxx.exe". Une fois le fichier .exe téléchargé, faire double click pour lancer l'installation. Choisir Next, en confirmant les options proposées, aussi quand s'ouvre la page d'installation de paquets. En choisissant toujours Next/Suivant (bouton en bas à droite) vous arriverez à la fin de l'installation. Confirmer la création d'une icône dans le Desktop et dans le Menu principal. À la fin de l'installation, vous devrez avoir une icône "Cygwin64 Terminal" sur votre Desktop. 

Cours : Encodage de textes en XML-TEI (toutes et tous les participants)

  • oXygen XML Editor. Il s'agit d'un logiciel payant, mais on peut télecharger une licence de test qui dure 30 jours, en remplissant le formulaire disponible ici; l'idéal serait de le faire juste avant l'école pour profiter après le cours.

Cours : Traitement automatique du langage, TAL (par groupes)

WINDOWS

  • Cygwin, déjà installé pour le cours Connaitre son propre ordinateur.
  • TreeTagger. Instructions détaillés en anglais ici (s'arrêter avant la section "Run TreeTagger").

MAC

Mettre tous les fichiers téléchargés dans un dossier treetagger sur votre Desktop.

LINUX

 

Mettre tous les fichiers téléchargés dans un dossier treetagger sur votre Desktop.

Cours : Analyse sémantique et stylistique (par groupes)

  • R (langage de programmation)RStudio (interface graphique)
  • Paquet Stylo (Stylométrie):
    • Une fois que R et RStudio sont installés, ouvrez RStudio et écrivez dans le panneau "Console": install.packages("stylo")
    • appuyez sur Entrée et une série de fichiers sera téléchargée (... vous devez donc être connecté à Internet!).
    • Pour vérifier l’installation, écrivez toujours dans la console: library(stylo)
    • appuyez sur Entrée et un message de bienvenue apparaîtra dans la console.
  • Paquet Syuzhet (Sentiment Analysis): Les exercices de Topic Modeling seront effectués via un service en ligne qui ne nécessite pas d'installation: https://mimno.infosci.cornell.edu/jsLDA/.
    • Une fois que R et RStudio sont installés, ouvrez RStudio et écrivez dans le panneau "Console": install.packages("syuzhet")
    • appuyez sur Entrée et une série de fichiers sera téléchargée (... vous devez donc être connecté à Internet!).
    • Pour vérifier l'installation, écrivez toujours dans la console: library(syuzhet)
    • appuyez sur Entrée et dans ce cas aucun message de bienvenue n’apparaîtra (mais pas même des messages d’erreur).
    • Vous pouvez maintenant fermer toutes les fenêtres sans rien enregistrer.

Cours : Cartographie numérique (par groupes)

  • QGIS.
  • Gephi.
  • Account Google.
  • Account GitHub Education.
  • Account Carto à faire en utilisant l'account Github Education. Attention ! Le service de Carto a besoin de quelques jours pour l'activation, donc il faudra le faire avant le début de l'école.

Cours : Diffuser les résultats de recherche en ligne (par groupes)

Masterclass, Martin Grandjean : Visualisation de données et analyse de réseaux (ouverte à tout public)

  • Gephi. Télécharger et installer (Java 8 nécessaire).

 

 Les participants de l'édition 2019

Baginska Oliwia
Boyer Emilie
Carranza Yadira
Cederna Camilla Maria
Cosovschi Agustin
Fava Simona
Garcia-Minguillan Claudia
Hugel Marie-Astrid
Lanza Claudia
Laurent Julie
Le Gall Juliette
Matos Regiane
Mengoni Martina
Soulu Frédéric
Tardivel Chloé
Thion Soriano-Mollá Dolores
Vergari-Majolino Giovanna-Paola
Zecca Nemola

Personnes connectées : 2 Vie privée
Chargement...