Des Méthodes de TAL modernes pour l'Enrichissement de Documents

Résumé

Nous présentons une pipeline pour le traitement et l’enrichissement de documents basée sur les dernières méthodes d’apprentissage neuronal. Notamment, pour le français, notre pipeline est entrainée sur le corpus de très grande taille OSCAR et construite à partir des représentations de mots contextualisés comme FrELMo et CamemBERT. Le but de la pipeline est de permettre la spécification et le fine-tuning de ces modèles pour la structuration de documents, l’extraction d’informations, la reconnaissance d’entités nommées, l’étiquetage morphosyntaxique, les tâches de questions-réponses, etc. Notre but est de pouvoir traiter n’importe quel type de document, quel que soit son domaine ou l’époque à laquelle il a été écrit.

Date
Sep 22, 2020 10:30 AM — 12:00 PM
Lieu
Salle Weil, ENS.
45 rue d’Ulm, Paris, Île-de-France 75005
Pedro Javier Ortiz Suárez
Pedro Javier Ortiz Suárez
Doctorant

Je suis doctorant en informatique à Sorbonne Université et à l’équipe de recherche ALMAnaCH à Inria