OSCAR Apr 27, 2016 Aller sur le site du projet Image credit: Alix Chagué Corpus Linguistics Pedro Javier Ortiz Suárez Doctorant Je suis doctorant en informatique à Sorbonne Université et à l’équipe de recherche ALMAnaCH à Inria Publications A Monolingual Approach to Contextualized Word Embeddings for Mid-Resource Languages We explore the impact of the training corpus on contextualized word embeddings in five mid-resource languages. Pedro Javier Ortiz Suárez, Laurent Romary, Benoît Sagot PDF Citation Jeu de données Projet Vidéo DOI ACL Anthology ACL 2020 HAL arXiv Asynchronous Pipeline for Processing Huge Corpora on Medium to Low Resource Infrastructures We propose a new pipeline to filter, clean and classify Common Crawl by language, we publish the final corpus under the name OSCAR. Pedro Javier Ortiz Suárez, Benoît Sagot, Laurent Romary PDF Citation Code Jeu de données Projet Diapositives DOI CMLC-7 Website HAL