Share
Recrutements

Offre de stage printemps-été 2023 - Projet ArchivU

Vendredi, Mars 17, 2023

Projet fort interdisciplinaire, ArchivU réunit des linguistes, philosophes, historiens, sociologues, et ingénieurs de trois laboratoires de recherche (MoDyCo UMR 7114, Sophiapol EA 3932 & Ceditec EA 3119), ainsi que des conservateurs, autour d'un corpus diachronique spécifique - archives universitaires des années 1960 à nos jours émanant de Paris-Nanterre, de l'UPEC et de Paris 1. ArchivU se donne donc pour but d'étudier les mutations de l'institution universitaire et de s'interroger sur son histoire récente, sur les pratiques d'écriture et d'enregistrement que celle-ci met en place à l'égard de sa propre activité, et sur le déploiement d'une sorte de « pouvoir disciplinaire », au sens foucaldien du terme, dont on trouverait ici non pas l'application aux corps mais aux discours, aux savoirs et aux pratiques universitaires.

À ce jour, le projet est en phase de finalisation du corpus de l'université de Nanterre et de mise au point d'un système sur mesure de son traitement automatisé et autonome, pour en extraire les données textométriques et statistiques, aux échelles stylistiques, historiques et sociopolitiques. En printemps-été, sera analysée l'extensionabilité du corpus en vue de traitements comparatifs poussés par injonction des comptes-rendus issus d'autres universités françaises.

Missions : 

Dans le cadre de ce stage, les documents mis en avant sont les comptes-rendus du Conseil d'Administration de l'université de Nanterre et, le cas échéant, de l'université de Créteil. Le/la stagiaire recruté(e) explorera toute la chaîne de production d'un fichier exploitable, i.e. :

1.  récupération des documents physiques dans les archives départementales des Hauts-de-Seine et du Val-de-Marne ;

2.  leur numérisation dans les locaux des archives (un scanner portable préconfiguré sera fourni) ;

3.  pré-traitement des fichiers PDFs image qui résultent de (2), e.g. normalisation colorimétrique et redimensionnement sous format A4 ;

4.  océrisation et nettoyage des PDFs pré-traités issus de (3) avec un outil de reconnaissance optique de caractères (ROC, ou OCR pour 'optical character recognition'), ABBYY FineReader, dont le paramétrage est spécifique au projet ;

5.  conversion des DOCXs obtenus à l'étape (4) vers XML-TEI5 ;

6.  optimisation et validation de ces XMLs en termes d'annotabilité et d'exploitabilté automatisées par scripts Python 3.

Par ailleurs, le/la stagiaire sera amené(e) à participer dans le débogage du système de traitement des fichiers ci-décrits, dans son versionnage et dans la vérification des XMLs annotés sortants (dates, heures, entités nommées balisées automatiquement).

Sous l'égide de l'ingénieur de recherche et des responsables du projet ArchivU, le/la stagiaire pourra ainsi observer et s'impliquer dans tous les aspects d'un projet de recherche à forte composante mixte HN-TAL. Une formation sera assurée aux outils et techniques utilisés dans le cadre du projet, en particulier ABBYY, TEI et Python. Cette expérience donnera lieu à la publication d'articles et à l'organisation de conférences de recherche.

Compétences souhaitées : 

-   Profil linguistique ou taliste, penché sur l'aspect littéraire ou technique ;
-   Capacités en i) Word, ii) Python, iii) XML(-TEI5)/HTML/XPath/XSLT ;
-   Connaissances des subtilités de l'apprentissage supervisé sur un corpus diachronique ;
-   Ouverture à la critique et aptitude à résoudre les problèmes techniques ;
-   Autonomie et rigueur structurelle ;
-   Intérêt pour les nouvelles technologies que le TAL offre.

Modalités pratiques : 

-   Niveau de Master 1 ou 2 en Humanités numériques ou en TAL ;
-   Gratifications réglementaires ;
-   Ordinateur pour traitements informatiques ;
-   Durée du stage d'au moins 3 mois à temps plein à partir du 20 avril 2023.

Lieu du stage : 

Hybride : en présentiel, au moins pour la numérisation des données aux archives départementales 92/94, et en distanciel, avec visio-conférences régulières. Si besoin, rencontres sur l'université de Nanterre, dans les locaux de MoDyCo (bât. A), l'un des laboratoires-porteurs du projet.

Date limite de candidature : 20 mars à 23:59

Merci d'envoyer votre candidature contenant CV, lettre de motivation et relevés de notes de Master à :

-   Caroline Facq-Mellet : cmellet(at)parisnanterre.fr,
-   Frédérique Sitri : frederique.sitri(at)u-pec.fr,
-   en copie, Manucharian Grigoriy : m.grigoriy(at)parisnanterre.fr & Virginie Lethier :virginie.lethier(at)univ-fcomte.fr

Un entretien est prévu le 27 mars 2023.

Voir aussi