Lingua Libre
Lingua Libre | ||
Aperçu de la page d’accueil de Lingua Libre en décembre 2020 | ||
Adresse | lingualibre.org | |
---|---|---|
Description | Projet d’enregistrement de langues | |
Slogan | La médiathèque linguistique participative de Wikimédia France | |
Commercial | Non | |
Écrit en | PHP, VueJS, JS[1] | |
Publicité | Non | |
Type de site | Outil d’enregistrement de langues, Médiathèque linguistique en ligne |
|
Langue | Multilingue | |
Inscription | facultative, nécessaire pour enregistrer | |
Propriétaire | Wikimédia France | |
Créé par | Wikimédia France et la communauté Wikimédia Nicolas Vion (v1) Antoine Lamielle (v2) |
|
Lancement | ||
État actuel | En activité | |
modifier |
Lingua Libre est un outil et un projet collaboratif en ligne visant à constituer un corpus audiovisuel multilingue. Développé par l'association Wikimédia France, les codes et fichiers téléchargeables par langues[2] sont placés sous licence libre, comme les autres projets du mouvement Wikimédia. 230 langues et 1,2 million de fichiers audios sont téléchargeables avec différentes quantités de mots enregistrés.
Description
[modifier | modifier le code]Lingua Libre permet d'enregistrer des mots, des locutions ou des phrases de toutes les langues, orales (enregistrement audio) ou signées (enregistrement vidéo). Les mots sont présentés au locuteur sous la forme d’une liste, créée en direct ou à l’avance, ou réutilisant une catégorie Wikimédia existante. Le locuteur lit simplement le mot affiché à l'écran, et le logiciel passe au mot suivant lorsqu’il détecte un silence après le mot lu[3]. Ce principe, repris du logiciel open source Shtooka recorder avec l'aide de son créateur, Nicolas Vion, permet d'enregistrer plusieurs centaines de mots par heure. Les enregistrements sont ensuite téléversés automatiquement depuis le client web vers la médiathèque libre Wikimedia Commons. Le projet est intégré à et soutenu par la communauté wikimédienne.
Utilisation des enregistrements
[modifier | modifier le code]Les enregistrements sont consultables à la fois sur Lingua Libre et sur Commons. Ils sont principalement utilisés sur d'autres projets Wikimédia, afin par exemple d'illustrer des entrées sur le Wiktionnaire ou des noms propres dans des articles Wikipédia[3]. Ils sont également produits et utilisés par le Dico des Ados.
La réutilisation des enregistrements dans un cadre d'enseignement des langues est envisagée.
Les enregistrements sont également librement téléchargeables par langue[2], réutilisés dans des projets de traitement automatique des langues, notamment pour entraîner les moteurs de reconnaissance vocale DeepSpeech de Mozilla[4].
Versions
[modifier | modifier le code]Lingua Libre est lancé le 23 janvier 2015[5]. Lingua Libre a connu trois versions principales.
Lingua Libre v.1 (2016)
[modifier | modifier le code]Dans le cadre du projet Langues de France, ayant pour objectif de documenter et valoriser les langues régionales de France sur les projets Wikimédia et internet de manière générale, la conception de Lingua Libre démarre en novembre 2015, en partie subventionnée par la Délégation générale à la langue française et aux langues de France (DGLFLF). La première version du projet est lancée en août 2016. Seulement adaptée à l’enregistrement audio, Lingua Libre est montré lors d’un atelier autour de l’occitan en décembre 2016[6],[7] puis est présenté à la communauté Wikimédia en ligne[8] et lors d’événements internationaux en 2017.
Lingua Libre v.2 (2018)
[modifier | modifier le code]Une reconstruction complète est lancée fin 2017. La nouvelle version de Lingua Libre est basée sur MediaWiki, utilise Wikibase et OAuth pour mieux s’intégrer à l’environnement Wikimédia. L’interface est traduite via Translatewiki afin que le projet puisse être utilisé par un grand nombre de communautés. La nouvelle version du site est prête en juin 2018[9] et ouverte au public en août 2018.
Lingua Libre v.2.2 (2020)
[modifier | modifier le code]En 2020, d’importants changements sont apportés à la plateforme ; une nouvelle apparence est développée pour le site et le domaine en .org remplace le domaine en .fr utilisé jusque-là[10]. Lingua Libre prend en charge les langues signées grâce à l'enregistrement vidéo.
Évolution
[modifier | modifier le code]-
Interface de Shtooka recorder, sur lequel Lingualibre se base.
-
Studio d’enregistrement en septembre 2017 (v.1)
-
Studio d'enregistrement en décembre 2018 (v.2)
-
Studio d’enregistrement en octobre 2020 (v.2.2)
Statistiques
[modifier | modifier le code]Durant les deux premières années de lancement du projet, environ 10 000 enregistrements ont été réalisés. Le passage à la v.2 est accompagné d’une forte augmentation de la contribution. Le nombre d’enregistrements est multiplié par 10 en moins d’un an, dépassant le seuil de 100 000 en mai 2019. Ces enregistrements ont été réalisés par 127 locuteurs, dans près de 50 langues[11]. Le cap des 500 000 enregistrements est dépassé au cours du mois de juin 2021. En avril 2023, la plateforme comptabilise plus de 800 000 enregistrements, dans 170 langues et grâce à plus de 1400 locuteurs[12]. Le 5 octobre 2023, Lingua Libre a atteint plus d‘un million de contributions avec l‘enregistrement du mot “కంటతము“ qui veut dire épineux en télougou, (Inde du Sud)[13].
Notes et références
[modifier | modifier le code]- (en) « LinguaLibre.org », sur GitHub (consulté le ).
- « Lingualibre Languages Gallery », sur lingualibre.org (consulté le )
- (de) Sabine Buchwald, « Wie Wikipedia Bairisch lernt », sur Süddeutsche Zeitung,
- Forum de Mozilla mentionnant Lingua Libre comme source de données d’entraînement
- Rémy Gerbet, « Lingua Libre : un nouvel outil collaboratif pour le public et les chercheurs », Culture et recherche, no 137, printemps-été 2018, p. 52 (ISSN 1950-6295, lire en ligne)
- « Oc-a-thon 2016 : deux journées contributives sur l'occitan les 9 et 10 décembre », sur Ministère de la Culture - DGLFLF,
- Mathieu Denel, « L’oc-a-thon, un edit-a-thon pour enrichir les projets Wikimedia et Lingua Libre en langue occitane », sur Blog de Wikimédia France, (consulté le )
- « Lingua Libre », sur fr.wiktionary.org, Actualités du Wiktionnaire, (consulté le )
- « Lingua Libre », sur fr.wiktionary.org, Actualités du Wiktionnaire, (consulté le )
- Sarah Krichen, « Lingua Libre fait peau neuve ! », sur Wikimédia France, (consulté le )
- (en) Miguel Trancozo Trevino, « The many languages missing from the internet », sur BBC.com, (consulté le )
- « Statistiques — Lingua Libre », sur lingualibre.org (consulté le )
- Wikimedia Fance, « Communiqué de presse » [PDF] (consulté le )
Annexes
[modifier | modifier le code]Articles connexes
[modifier | modifier le code]- Shtooka, logiciel et ancêtre de Lingua Libre.
- Common Voice, base d'enregistrements audios collaborative orientée vers les systèmes de reconnaissance vocale.
- Forvo, base d'enregistrement de mots, non libre.
Bibliographie
[modifier | modifier le code]- Mathilde Hutin et Marc Allassonnière-Tang, « Crowd-sourcing for Less-resourced Languages: Lingua Libre for Polish », Proceedings of the 1st Annual Meeting of the ELRA/ISCA Special Interest Group on Under-Resourced Languages, European Language Resources Association, , p. 41–47 (lire en ligne, consulté le )
- Mathilde Hutin et Marc Allassonnière-Tang, « Investigating phonological theories with crowd-sourced data: The Inventory Size Hypothesis in the light of Lingua Libre », 19th SIGMORPHON Workshop on Computational Research in Phonetics, Phonology, and Morphology, Association for Computational Linguistics, , p. 23–28 (DOI 10.18653/v1/2022.sigmorphon-1.3, lire en ligne, consulté le )
Liens externes
[modifier | modifier le code]
- Site officiel
- « “Lingua Libre”, émission spéciale Francophonie », sur RFI.fr, (consulté le )