Déroulement et présentation des cours

Déroulement

La formation alterne des cours et des ateliers. Elle inclut aussi la présentation des cours et des projets de recherche des participant.e.s, au début ; une masterclass du Dr. Martin Grandjean sur l'analyse de réseaux ; un keynote ; et un moment de partage des résultats et de retour d'expérience.

Pendant les cours, nous présentons d'abord un sujet et proposons ensuite des exercices. Les cours 'Introduction à la programmation' et 'Encodage de textes' sont dirigés à tous.tes les participant.e.s. Les cours suivants sont à option et les participant.e.s sont organisé en deux groupes : un groupe suit les cours 'Traitement automatique du langage' et 'Diffusion de la recherche en ligne' ; l'autre groupe suit les cours 'Analyse sémantique et stylistique' et 'Visualisation de données'. La division en groupes est proposée par les organisateurs et les organisatrices sur la base des dossiers des participant.e.s.

Les ateliers permettent d'approfondir et d'appliquer à sa propre recherche ce qui a été appris pendant les cours. Un formateur ou une formatrice de référence est attribué.e à chaque participant.e pour guider et suivre le travail dans les ateliers.

Une attestation de participation est remise à chaque participant.e à la fin de la semaine.

 

Présentation des cours


Connaître son propre ordinateur (Simone Rebora & Elena Spadini)

Dans ce cours nous proposons d'explorer les machines avec lesquelles nous aillons travailler pendant la formation, les formats des fichiers et leur emplacement. Pour ce faire, nous utiliserons la ligne de commande, comme alternative à l'interface graphique que notre système d'exploitation nous propose. Ensuite, nous introduirons brièvement le système de gestion de versions git et la plateforme Github. Les fondamentaux d'un langage de programmation, R, seront discutés à la fin, le tout accompagné par de simples exercices.

 

Encodage de textes (Simon Gabay)

Le cours propose une introduction à l'encodage TEI (Text Encoding Initiative), l’un des standards les plus importants dans le monde des humanités numériques (Digital Humanities). Pendant le cours, les participant.e.s apprendront à transformer un texte en base de données, interrogeable et publiable dans différents formats (LaTeX, HTML, etc.). La découverte de XML-TEI sera également l’occasion de connaître et d’adopter les bonnes pratiques du travail, nécessaires pour rendre les données réutilisables par d’autres chercheurs, interopérables avec d’autres systèmes et persistantes à long terme. Après une introduction théorique aux principes de XML et du vocabulaire TEI, nous passerons aux exercices abordant les principaux problèmes soulevés par l'encodage, tels que la structure physique et logique du document (pages, titres, chapitres, paragraphes, etc.) ou les entités nommées (noms de personnes et de lieux). Les exercices seront l’occasion de présenter certains des outils disponibles pour faciliter le travail avec XML-TEI, tels que le logiciel oXygen et l’application web Roma.

 

Analyse sémantique et stylistique (Simone Rebora)

Le cours se concentre sur deux domaines importants de l'analyse de textes à l'aide de méthodes de calcul. Sous le nom de "stylométrie", une série d'approches sont rassemblées dans le but de distinguer et de mesurer le style d'auteur. Des méthodes statistiques telles que la Delta distance sont fréquemment utilisées pour l'attribution de textes anonymes, tandis que la keyness analysis est adoptée pour identifier les marques lexicales qui caractérisent l'écriture d'un ou de plusieurs auteurs. Après avoir brièvement passé en revue les fondements théoriques-mathématiques de chacune de ces méthodes, les différentes manières d’afficher les résultats (tels que les dendrogrammes et les arbres de consensus) seront présentées, ce qui permettra finalement une "lecture de loin" (distant reading) de grands corpus textuels. Dans le domaine plus large de l'analyse sémantique, en fonction des besoins des participant.e.s, seront présentés : des algorithmes de sentiment analysis, qui quantifient les aspects émotionnels du texte dans le but de visualiser sa structure narrative ; des algorithmes de classification des zones sémantiques, qui mesurent les dominantes thématiques du texte ; topic modelling et algorithmes de sémantique distributionnelle, qui extraient des thèmes et des relations conceptuels directement à partir de la distribution des mots dans de grandes collections de textes. Des applications simples de ces approches aux études littéraires seront présentées, soulignant également les risques et les problèmes liés à leur utilisation aveugle.

 

Traitement automatique du langage - TAL (Greta Franzini)

Le cours est divisé en deux parties: la première partie est consacrée à l’utilisation de la ligne de commande (également appelée "terminal") pour la gestion des fichiers et la manipulation de textes ou de corpus (par exemple, nettoyage et formatage avec Expressions Régulières ou RegEx) ; tandis que la deuxième partie vise à apprendre l’outil TreeTagger pour le marquage PoS (assignation automatique de parties du discours) et la lemmatisation de textes. Une connaissance élémentaire de la ligne de commande est essentielle pour tous ceux qui souhaitent traiter automatiquement des données textuelles avec des outils de traitement automatique qui ne sont pas dotés d’interfaces graphiques, aussi bien sur des ordinateurs portables que sur des serveurs (pour une analyse computationnelle à grande échelle). Le balisage PoS et la lemmatisation sont également essentielles en tant que tâches requises pour tout type d'analyse linguistique numérique, qu'elle soit syntaxique ou sémantique. Comme pour les autres cours, le cours TAL est divisé en parties égales entre présentations et exercices pratiques, accompagnés d'instructions détaillées. À la fin du cours, les participant.e.s seront non seulement en mesure de préparer des textes ou des corpus pour différents types d'analyse computationnelle, mais ils et elles auront également acquis les connaissances nécessaires pour appliquer cela à leur projet de recherche actuel (ou futur), tout en étant conscient.e.s des limites et des problèmes des méthodes de calcul dans ce domaine.

 

Cartographie numérique (Giovanni Pietro Vitali)

L'objectif du cours de cartographie numérique est de fournir aux participants les outils techniques de base permettant d'afficher des données géoréférencées sur des cartes en ligne. Les méthodes de formatage des données seront présentées pour la création de cartes, une attention particulière étant accordée à l'extraction des coordonnées à partir d'une liste de toponymes. Par la suite, la création des mêmes points et des mêmes cartes polygonales sera abordée, via des applications en ligne telles que Carto et Recogito, deux outils simples à utiliser pour publier des cartes numériques sur le net. À la fin du cours, chaque participant pourra mettre une carte avec ses données sur le Web pour diffuser ses recherches ou vérifier ses théories.

 

Diffuser les résultats de recherche en ligne (Elena Spadini)

Le cours porte sur les technologies du Web, en particulier l'encodage HTML et les feuilles de style CSS. Connaître ces langages permet de créer un site-web, mais également de gérer la publication de données encodées (par exemple, en TEI) et de mieux contrôler la publication via des plateformes telles que Wordpress ou Omeka. En plus de la création de sites scientifiques et de blogs, d'autres moyens de diffusion des résultats de recherche et de collaboration en ligne seront examinés: repositories institutionnels et internationaux (par exemple, Zenodo), utilisation d'identificateurs pérennes (par exemple, DOI), système de gestion de versions (Git) et de code source (tels que Github et Gitlab). Les questions liées à la science ouverte (y compris le libre accès) et aux licences pour les données et les publications seront brièvement abordées. Le cours est divisé en parties égales entre présentations et exercices pratiques, accompagnés d'instructions détaillées et pour différents niveaux. À la fin du cours, les participant.e.s pourront créer un site-web pour présenter leur projet ou leur profil professionnel et ils et elles auront acquis les connaissances nécessaires pour définir une stratégie de gestion et de diffusion des données et des résultats de la recherche sur le web, à mettre en œuvre dans le projet en cours ou à inclure dans la candidature pour un projet futur.

 

 

 

 

Personnes connectées : 1