Inauguré en décembre 2022, le lab de l’Institut national de l’audiovisuel est une structure d’appui à la recherche axée sur les données. Il a pour mission d’encourager et faciliter l’exploitation scientifique des collections de l’INA à grande échelle, à l’aide d’outils d’intelligence artificielle et d’analyse automatisée. Dans le cadre du présent appel, le lab propose de soutenir en 2023 jusqu’à quatre projets de recherche, appuyés sur ces technologies et portant sur des jeux de données issus des collections de l’Institut.
Cet appel s’inscrit dans le prolongement des dispositifs de soutien à la recherche de l’INA.
Les modalités précises de candidature et le bulletin de participation sont détaillés dans le règlement que les candidat(e)s doivent impérativement télécharger.
Quelles recherches sont concernées ?
Le lab soutiendra des projets de recherche dont les questions et problématiques s’appuient principalement sur les collections et bases de données de l’INA. Ces collections représentent des archives uniques qui couvre l’ensemble des médias français, TV et Radio, depuis le début de leur existence ; 34 000 titres de cinéma ; une captation 24h/24 des flux Radio et TV depuis 2001, ainsi qu’un échantillon des sites Internet en lien avec l’écosystème des médias audiovisuels depuis 1996, de comptes Twitter, et des chaînes hébergées sur les plateformes vidéo représentatifs de l’actualité médiatique française depuis 2014.
Le présent appel concerne plus particulièrement les travaux comportant une dimension quantitative, et/ou un défi technologique dans l’exploitation de gros jeux de données.
Le projet de recherche pourra être en démarrage ou déjà en cours.
Le projet sera soutenu pour une durée d’1 an, reconductible une fois pour la même durée après demande expresse du porteur de projet et approbation du comité de sélection.
Il pourra s’agir d’un travail individuel ou collectif, impliquant plusieurs chercheurs et institutions. Dans tous les cas, les candidatures sont déposées par un(e) chercheur(se), considéré(e) comme porteur et responsable du projet.
Il pourra s’agir d’une recherche menée spécifiquement dans le cadre de cet appel, ou bien s’inscrire dans un projet plus large (thèse, ouvrage…).
Qui est éligible ?
L’appel s’adresse aux chercheuses et chercheurs de toutes disciplines scientifiques, sans condition d’âge, de résidence ou de nationalité.
Les candidat(e)s porteurs de projet doivent être :
- inscrit(e)s dans un établissement d’enseignement supérieur, français ou non, pour un cursus de recherche niveau doctorat ;
- ou titulaires d’un doctorat, et être membre titulaire ou associé d’un laboratoire ou d’une unité de recherche.
Les travaux de recherche appliquée, les projets menés au sein de laboratoires ou d’entreprises privés, le développement de prototypes, pilotes ou preuves de concept à vocation commerciale ne sont pas éligibles.
Les candidat(e)s répondant à l’appel à projets du lab ne peuvent candidater en parallèle à l’appel à chercheurs de l’INA. Les deux dispositifs de soutien ne sont pas cumulables.
À quoi correspond le statut proposé ?
Le statut de porteur de projet du lab ouvre le droit à un accompagnement personnalisé de la part de professionnel(le)s et expert(e)s de l’INA, qui apporteront leur soutien à la fois technique et méthodologique.
L’accompagnement pourra porter sur :
- l’aide à la recherche documentaire et à la constitution d’un corpus de médias et/ou de données, l’accès aux collections et le partage d’une expertise sur le patrimoine audiovisuel et l’actualité médiatique ;
- la mise en œuvre de technologies d’intelligence artificielle développées à l’INA pour l’analyse et la fouille de corpus audiovisuels : Vision par ordinateur, Extraction d’images, Traitement automatique du langage, transcription des dialogues, détection de copies, etc. (voir la dernière section pour plus de détails) ;
- l’accès à une infrastructure de calcul, avec le temps de serveur et la puissance adaptée à la mise en œuvre de ces traitements.
Le ou la Lauréat(e) et son équipe, disposeront d’un accès privilégié aux locaux du lab et à son équipement, pour l’organisation de séances de travail et la consultation des données et des collections de l’INA. Le ou la Lauréat(e) et son équipe bénéficieront en outre d’un accès facilité aux jeux de données et aux fichiers de visualisation des médias d’archive, y compris un accès distant dans la limite des capacités techniques et des obligations légales de l’INA.
Enfin, le ou la lauréat(e), porteur de projet, sera invité(e) à participer au programme d’animation scientifique du lab, notamment à son séminaire, et bénéficiera du soutien de son réseau, et d’actions de valorisation en France et à l’international.
Modalités de candidature
Les candidatures doivent être adressées avant le 10 juin 2023, par e-mail, à lelab@ina.fr.
Elles devront comporter les éléments suivants, envoyés en fichiers séparés :
- Le Bulletin de candidature (à télécharger, remplir et signer)
- un CV, mentionnant la liste des publications
-
Le Projet de recherche décrivant en 15 000 signes maximum :
- Le ou les objectifs du Projet de recherche,
- Une ou plusieurs question(s) de recherche(s) et/ou hypothèses de recherche,
- Le(s) jeu(x) de données INA envisagé(s), et le cas échéant, les autres jeux de données mobilisés, en indiquant pour les données INA une évaluation la plus précise possible du volume de données concerné, ou du périmètre du corpus (en nombre de documents, ou en heures, etc.),
- Les verrous technologiques éventuels,
- La méthodologie envisagée, et le calendrier de travail associé,
- Les modalités envisagées pour la valorisation des résultats.
Pour toute question relative à l’élaboration du Projet de recherche et aux données disponibles, il est possible de contacter l’INA pendant la période d’ouverture des candidatures et de solliciter un rendez-vous en écrivant à lelab@ina.fr
Engagements des lauréat(e)s
Il sera demandé aux lauréat(e)s :
- Une présentation de leurs travaux à mi-parcours, en commun avec les autres chercheur(e)s soutenu(e)s par l’INA ;
- Et/ou une présentation de leurs travaux et résultats dans le cadre du séminaire du lab ;
- Et un rapport écrit présentant les résultats de leur recherche. Un article soumis à évaluation en vue de sa publication dans une revue scientifique en lien avec les travaux menés dans le cadre du projet soutenu pourra faire office de rapport. Le ou la lauréat(e) pourra également proposer un “billet de recherche” pour publication sur le “carnet de recherches” en ligne du lab : https://inalelab.hypotheses.org/ .
En plus du rapport présentant les résultats finaux, les données et le code informatique produits dans le cadre de cette recherche seront partagés avec le lab INA.
Enfin, les futures communications de ces travaux devront mentionner le soutien du lab.
Calendrier
- Lancement de l’Appel : 13 avril 2023
- Date limite de dépôt des dossiers de candidature : 10 juin 2023
- Publication de la liste des Lauréat(e)s : 17 juillet 2023
- Débuts des travaux des Lauréat(e)s : 1er octobre 2023
Processus de sélection
Les lauréats sont désignés par un comité de sélection, composé de l’équipe de pilotage du lab, qui s’appuie sur l’expertise des membres de son Conseil Scientifique (liste).
Les critères de sélection sont détaillés dans le règlement. Une attention particulière sera portée à la bonne adéquation de ces travaux à la mission du lab, à savoir l’étude des médias par la donnée, le développement de synergies et du dialogue entre les sciences informatiques et les humanités.
Enfin, une attention particulière sera portée aux projets exploitant des jeux de données et/ou des technologies à fort enjeu pour le lab, et plus généralement pour l’INA dans sa mission d’éclairage du patrimoine et de l’actualité médiatique. Une liste en est proposée ci-dessous à titre indicatif ; les candidat(e)s sont également libres de proposer leurs propres sujets, corpus, méthodologies, outils.
Datasets proposés à titre indicatif
- La transcription textuelle complète des JT des chaînes “hertziennes” (TF1, F2, F3, Canal+, M6, Arte), ainsi que des principales tranches horaires des chaînes d’information en continu depuis janvier 2019, effectuée par des outils de reconnaissance automatique de la voix (ASR).
- Toutes les occurrences à la télévision, par chaîne et par heure, des portions de flux répétées durant les 15 dernières années ; autrement dit, l’identification des rediffusions ou des extraits repris d’une chaîne par les autres chaînes, depuis leur première occurrence.
- Une base de données comprenant toutes les publicités répertoriées par l’Autorité de Régulation Professionnelle de la Publicité (ARPP) de 1968 à nos jours, cataloguées par annonceur, secteur publicitaire, etc. ; et indexée via le moteur de recherche visuel Snoop (voir ci-dessous).
- Une archive de plusieurs centaines de millions de tweets, correspondant à un échantillon glissant de 4500 hashtags et comptes twitter suivant l’actualité médiatique française depuis 2015, ainsi que les médias (vidéo, images, liens hypertexte) attachés à ces tweets ; y compris ceux ayant été depuis supprimés, modifiés, etc.
Outils et technologies pouvant être mobilisées
- La détection des visages et des voix pour l’extraction des caractéristiques des individus : âge et sexe (inaFaceanalyzer, inaSpeechsegmenter), identité (Trombinos), pour alimenter des recherches sur la représentativité, la répartition du temps de parole, etc.
- La transcription automatique des voix et dialogues (ASR), ouvrant la possibilité d’appliquer l’analyse textuelle aux contenus audiovisuels : la fouille « full-text » dans un corpus audiovisuel ; la textométrie, le « text as data » et toute méthode de traitement automatique du langage (TAL) y compris celles à base d’apprentissage profond. Enfin, les bibliothèques / frameworks / boîtes à outils d’application de ces traitements aux humanités numériques (Gargantext, Cortext…).
- Les moteurs d’indexation et de recherche visuels comme Snoop, qui permet d’identifier au sein d’un corpus les images contenant un visage, un objet, un bâtiment, une posture, etc. ; et d’effectuer des mesures de similarité et des classifications sur l’ensemble du corpus, à partir de ces objets.
- L’étude des traces numériques via les outils d’analyse et de curation de corpus, de contenus web-natifs (curation de corpus de pages web avec hyphe), de tweets, etc.
- L’étude des données sous forme de graphes et de réseaux ; les outils d’analyse et de visualisation dans ce domaine (tels que ipysigma, gephi, etc.)
- Potentiellement, toute technologie ou bibliothèque open-source, libre, gratuite ou développée pour les besoins du projet