Politique de gouvernance des données du Lanfrica
Dernière mise à jour: 7 mai 2025Table des matières
A. Introduction
Cette politique de gouvernance des données a pour but d'aider les utilisateurs de Lanfrica et les propriétaires de ressources/données à comprendre quelles ressources en langues africaines nous lions et cataloguons sur Lanfrica, pourquoi nous lions et cataloguons des ressources en langues africaines, comment nous lions et cataloguons les ressources, c'est-à-dire comment nous identifions et sélectionnons les liens à fournir sur Lanfrica, comment nous protégeons les ressources et comment nous assurons un traitement éthique des ressources liées/cataloguées sur Lanfrica tout en encourageant une approche communautaire du partage des ressources en langues africaines.
B. A propos de l'Afrique
Notre monde numérique est une riche tapisserie d'idées, de langues, de cultures et de connaissances. Cependant, notre accès à ces ressources et notre compréhension de celles-ci sont biaisés ; certaines bénéficient d'une grande visibilité, tandis que d'autres restent sous-représentées et obscures (même lorsqu'elles sont disponibles sur le web). Notre compréhension est largement définie par ce qui est trouvable. À l'ère du numérique, où tout va très vite, la découvrabilité en ligne est essentielle : si une information ne peut être trouvée, elle est souvent perçue comme inexistante et, par conséquent, sous-utilisée. Lanfrica relie et organise les connaissances sous-représentées. Il connecte et agrège des ressources numériques cachées et précieuses provenant de diverses sources, les rendant ainsi accessibles. Ce faisant, Lanfrica accélère la découverte et l'utilisation des ressources linguistiques, ce qui est essentiel pour permettre aux communautés linguistiques mal desservies de réaliser des percées dans les domaines de la science et de la technologie linguistique.
Notre stratégie consiste à agréger des "ressources" provenant de multiples sources de connaissances (par exemple des dépôts), telles que arXiv, AfricaArXiv et Zenodo, afin de garantir une vaste collection de données sur les langues africaines. Nous travaillons pour soutenir la recherche en NLP, l'accessibilité des données et la gouvernance responsable des données pour les langues africaines. Nous le faisons dans le but d'atténuer les difficultés rencontrées dans la découverte des ressources linguistiques africaines en créant une plate-forme centralisée. Si un chercheur recherche par exemple un ensemble de données en langage naturel, Lanfrica l'orientera vers les différentes sources sur le web qui disposent de tels ensembles de données dans la langue en question.
Notre stratégie consiste à agréger des "ressources" provenant de multiples sources de connaissances (par exemple des dépôts), telles que arXiv, AfricaArXiv et Zenodo, afin de garantir une vaste collection de données sur les langues africaines. Nous travaillons pour soutenir la recherche en NLP, l'accessibilité des données et la gouvernance responsable des données pour les langues africaines. Nous le faisons dans le but d'atténuer les difficultés rencontrées dans la découverte des ressources linguistiques africaines en créant une plate-forme centralisée. Si un chercheur recherche par exemple un ensemble de données en langage naturel, Lanfrica l'orientera vers les différentes sources sur le web qui disposent de tels ensembles de données dans la langue en question.
C. Champ d'application de la politique et conditions
- Lanfrica, c'est-à-dire toute personne ou entité accédant aux ressources cataloguées et les utilisant à des fins de recherche, de développement ou autres.
- Propriétaires de données/ressources dont les ressources/ensembles de données ont été liés/catalogués sur la plateforme.
- Les administrateurs de la plateforme Lanfrica sont responsables de la conservation, de la gestion et du respect des principes de gouvernance des données.
- Les organisations partenaires, c'est-à-dire les entités qui collaborent avec Lanfrica pour développer et améliorer l'infrastructure de données de la plateforme.
- On entend par "ressources" les ressources énumérées dans la partie D.
- "Utilisateur" : une personne qui utilise la plateforme Lanfrica.
- On entend par "chercheurs en PNL" les personnes qui créent des algorithmes et des modèles permettant aux machines de comprendre, de traiter et de produire du langage humain, facilitant ainsi l'interaction entre les humains et les ordinateurs.
D. Ressources liées à l'Afrique
- Ensembles de données linguistiques africaines
- Modèles linguistiques africains
- Corpus de textes
- Dictionnaires de langues africaines
- Outils de traduction en langues africaines
- Outils d'apprentissage des langues africaines
- Bibliothèques de langues africaines
- Sites d'information en langue africaine
- Traductions de la Bible en langues africaines
- Publications sur la linguistique informatique
- Publications sur la sociologie, le droit et la politique
- Couverture médiatique des langues africaines
- Documents d'orientation sur les langues africaines
E. Méthodologie appliquée à l'établissement de liens et au catalogage des ressources
Pour conserver et identifier les ressources linguistiques africaines pour Lanfrica, nous commençons le processus en définissant les catégories de ressources afin d'assurer une portée claire. Nous classons les ressources en corpus (données textuelles, vocales et multimodales), modèles NLP, ressources lexicales (dictionnaires et enchâssements de mots), documents de recherche et outils pratiques tels que les API et les vérificateurs d'orthographe. Cette catégorisation nous aide à organiser et à relier systématiquement les documents pertinents sur la plateforme.
L'étape suivante de ce processus est l'identification des sources et la collecte des données. Il s'agit de rassembler des ressources provenant de diverses sources réputées. Il s'agit notamment de bases de données universitaires telles que Google Scholar, ACL Anthology et ArXiv, de référentiels institutionnels tels que les universités, les centres de recherche et les laboratoires d'intelligence artificielle, de rapports de gouvernements et d'ONG et de plateformes de logiciels libres telles que Hugging Face et GitHub. Les contributions de la communauté des chercheurs, des linguistes et des praticiens du NLP sont également essentielles, tout comme les informations provenant des médias sociaux et des blogs où l'on discute de la recherche linguistique.
Une fois les ressources identifiées, nous procédons à une vérification et à une évaluation de la qualité afin de garantir leur crédibilité et leur utilité. Ce processus comprend la vérification de l'authenticité de la source, l'évaluation de la pertinence de la ressource pour les langues africaines et la vérification de la couverture linguistique, en particulier pour les langues sous-représentées. En outre, les conditions de licence et d'accessibilité sont examinées pour garantir une utilisation éthique.
Pour maintenir la cohérence, nous structurons les données et normalisons les métadonnées. Ainsi, chaque ressource est étiquetée avec des métadonnées clés telles que la ou les langues couvertes, la source, le type de licence, la disponibilité et la date de la dernière mise à jour.
F. Propriété des ressources
Nous reconnaissons et respectons les efforts de collaboration et les contributions créatives des propriétaires de données - communautés, chercheurs, institutions, contributeurs, linguistes, scientifiques des données et utilisateurs - dont les ressources ont été liées et cataloguées sur la plateforme. En conséquence, nous ne revendiquons pas la propriété des données liées et cataloguées sur la plateforme. Les ressources liées/cataloguées sur la plateforme Lanfica restent la propriété des fournisseurs de données d'origine, car nous ne revendiquons pas la propriété des ressources, mais nous jouons un rôle de facilitateur pour fournir un accès plus large à la communauté africaine. Si un fournisseur de données demande la suppression de son contenu, nous traiterons cette demande dans les meilleurs délais.
G. Propriété intellectuelle (limitation de la responsabilité)
Lanfrica ne fait que lier et cataloguer des ressources en langue africaine hébergées sur d'autres plateformes/sites web. Pour cette raison, nous ne serons pas responsables de la violation des droits d'auteur en raison de l'établissement de liens entre les utilisateurs et des ressources en ligne contenant du matériel de contrefaçon ou des activités de contrefaçon, si :
- Nous n'avons pas connaissance du fait que la ressource ou l'activité est en infraction ;
- En l'absence d'une telle connaissance, nous n'avons pas connaissance de faits ou de circonstances permettant de conclure à l'existence d'une activité illicite ;
- Dès que nous en avons connaissance, nous agissons rapidement pour supprimer ou désactiver la ressource ;
- Nous ne recevons pas d'avantages financiers directement attribuables à la notification d'une infraction présumée ;
- En cas de notification d'une infraction présumée, nous réagissons rapidement en supprimant ou en désactivant l'accès à la ressource présumée contrefaite ou faisant l'objet d'une activité contrefaite.
En outre, nous ne revendiquons pas la propriété des droits d'auteur des ressources liées et cataloguées sur Lanfrica. Notre plateforme fonctionne comme un agrégateur qui fournit des liens vers des sources et des dépôts externes. Pour cette raison, les droits d'auteur restent la propriété des auteurs originaux, des éditeurs ou des institutions d'accueil.
Nous nous réservons le droit de supprimer tout contenu qui violerait les lois sur la propriété intellectuelle ou qui ferait l'objet d'une demande de retrait valide. En outre, les utilisateurs qui accèdent aux ressources de la plateforme et les utilisent doivent respecter les conditions de licence fixées par les fournisseurs de données d'origine.
H. Responsabilités du cotisant
Les contributeurs qui partagent des ressources avec Lanfrica doivent s'assurer qu'ils disposent des droits et autorisations nécessaires pour partager les données sur Lanfrica. Ils doivent notamment vérifier que les données ne portent pas atteinte aux droits de propriété intellectuelle de tiers ou à d'autres droits et qu'elles sont conformes aux lois applicables, y compris celles relatives à la protection de la vie privée et des données.
I. Rôles et responsabilités de l'Afrique
Lanfrica a plusieurs rôles et responsabilités clés concernant les ressources liées et cataloguées sur sa plateforme, garantissant une gouvernance des données éthique, légale et transparente. Il s'agit notamment de
- Maintien de l'intégrité et de l'exactitude des données - Nous sommes responsables de la vérification des métadonnées, de l'attribution correcte et de la mise à jour des liens vers les ressources afin de maintenir l'exactitude et la facilité d'utilisation.
- Traitement des demandes de suppression - En cas de demande de suppression de la part d'un fournisseur de données, Lanfrica doit répondre en temps utile et de manière équitable.
J. Droits des propriétaires de données
Les propriétaires de données peuvent décider s'ils veulent que leurs ressources soient liées à Lanfrica. Si vous souhaitez que votre ressource soit retirée de la plateforme, vous pouvez nous contacter à l'adresse [email protected]. Nous retirerons votre ressource de notre plateforme ou nous nous abstiendrons de la lier.