Politique de gouvernance des données de Lanfrica
Dernière mise à jour: 7 mai 2025Table des matières
A. Introduction
Cette politique de gouvernance des données vise à aider les utilisateurs de Lanfrica et les propriétaires de ressources/données à comprendre quelles ressources linguistiques africaines nous lions et cataloguons sur Lanfrica, pourquoi nous lions et cataloguons les ressources linguistiques africaines, comment nous lions et cataloguons les ressources, c'est-à-dire comment nous identifions et sélectionnons les liens à fournir sur Lanfrica, comment nous protégeons les ressources et comment nous assurons une gestion éthique des ressources liées/cataloguées sur Lanfrica tout en favorisant une approche communautaire du partage des ressources linguistiques africaines.
B. À propos de Lanfrica
Notre monde numérique est une riche tapisserie d'idées, de langues, de cultures et de connaissances. Cependant, notre accès et notre compréhension de ces ressources sont biaisés ; certaines gagnent une visibilité importante, tandis que d'autres restent sous-représentées et obscures (même lorsqu'elles sont disponibles sur le Web). Notre compréhension est largement définie par ce qui est trouvable. À l'ère numérique rapide d'aujourd'hui, la découvrabilité en ligne est essentielle : si l'information ne peut pas être trouvée, elle est souvent perçue comme inexistante et par conséquent sous-utilisée. Lanfrica connecte et organise les connaissances sous-représentées. Il connecte et agrège des ressources numériques cachées et précieuses provenant de diverses sources, les rendant trouvables. Ce faisant, Lanfrica accélère la découverte et l'utilisation des ressources linguistiques, ce qui est essentiel pour débloquer des percées dans la science et la technologie linguistique pour les communautés linguistiques mal desservies.
Notre stratégie consiste à agréger des « ressources » de multiples sources de connaissances (par exemple, des dépôts), telles que arXiv, AfricaArXiv et Zenodo, dans le but d'assurer une large collection de données linguistiques africaines. Nous travaillons pour soutenir la recherche en NLP, l'accessibilité des données et la gouvernance responsable des données pour les langues africaines. Cela, nous le faisons dans le but d'atténuer la difficulté rencontrée dans la découverte des ressources linguistiques africaines en créant un hub centralisé. Si un chercheur, par exemple, recherche un ensemble de données en langage naturel, Lanfrica le dirigera vers les différentes sources sur le Web qui ont de tels ensembles de données dans cette langue.
C. Portée de la politique et termes
- Les utilisateurs de Lanfrica, c'est-à-dire toute personne ou entité accédant et utilisant les ressources cataloguées à des fins de recherche, de développement ou autres.
- Les propriétaires de données/ressources dont les ressources/ensembles de données ont été liés/catalogués sur la plateforme.
- Les administrateurs de la plateforme Lanfrica responsables de la curation, de la gestion et de la conformité aux principes de gouvernance des données.
- Les organisations partenaires, c'est-à-dire les entités collaborant avec Lanfrica pour étendre et améliorer l'infrastructure de données de la plateforme.
- « Ressources » désigne les ressources énumérées dans la partie D.
- « Utilisateur » désigne une personne qui utilise la plateforme Lanfrica.
- « Chercheurs NLP » désigne une personne qui crée des algorithmes et des modèles permettant aux machines de comprendre, de traiter et de produire le langage humain, facilitant l'interaction entre les humains et les ordinateurs.
D. Ressources liées dans Lanfrica
- Ensembles de données linguistiques africains
- Modèles de langues africaines
- Corpus de textes
- Dictionnaires de langues africaines
- Outils de traduction de langues africaines
- Outils d'apprentissage de langues africaines
- Bibliothèques de langues africaines
- Sites d'actualités en langues africaines
- Traductions bibliques en langues africaines
- Publications en linguistique computationnelle
- Publications sur la sociologie, le droit et la politique
- Couverture médiatique sur les langues africaines
- Documents de politique linguistique africaine
E. Méthodologie appliquée pour lier et cataloguer les ressources
Pour organiser et identifier les ressources linguistiques africaines pour Lanfrica, nous commençons le processus en définissant les catégories de ressources pour assurer une portée claire. Nous classons les ressources en corpus (texte, parole et données multimodales), modèles NLP, ressources lexicales (dictionnaires et embeddings de mots), articles de recherche et outils pratiques tels que les API et les correcteurs orthographiques. Cette catégorisation nous aide à organiser et à lier systématiquement les matériaux pertinents sur la plateforme.
L'étape suivante que nous prenons dans ce processus est l'identification des sources et la collecte de données. Cela implique de rassembler des ressources provenant de diverses sources réputées. Celles-ci incluent : des bases de données académiques comme Google Scholar, ACL Anthology et ArXiv ; des dépôts institutionnels tels que les universités, les centres de recherche, les laboratoires d'IA ; des rapports gouvernementaux et d'ONG ; et des plateformes open source telles que Hugging Face et GitHub. Les contributions de la communauté de chercheurs, linguistes et praticiens NLP sont également essentielles, tout comme les informations provenant des médias sociaux et des blogs où la recherche linguistique est discutée.
Une fois les ressources identifiées, nous entreprenons la vérification et l'évaluation de la qualité pour assurer la crédibilité et l'utilité. Ce processus comprend la vérification de l'authenticité de la source, l'évaluation de la pertinence de la ressource pour les langues africaines et la vérification de la couverture linguistique, en particulier pour les langues sous-représentées. De plus, les termes de licence et l'accessibilité sont examinés pour assurer une utilisation éthique.
Pour maintenir la cohérence, nous structurons les données et standardisons les métadonnées. Ce faisant, chaque ressource est étiquetée avec des métadonnées clés telles que la ou les langue(s) couverte(s), la source, le type de licence, la disponibilité et la date de dernière mise à jour.
F. Propriété des ressources
Nous reconnaissons et respectons les efforts collaboratifs et les contributions créatives des propriétaires de données - communautés, chercheurs, institutions, contributeurs, linguistes, scientifiques des données et utilisateurs dont les ressources ont été liées et cataloguées sur la plateforme. Par conséquent, nous ne revendiquons pas la propriété des données liées et cataloguées sur la plateforme. Les ressources liées/cataloguées sur la plateforme Lanfrica restent la propriété des fournisseurs de données originaux, car nous ne revendiquons pas la propriété des ressources, mais nous jouons un rôle facilitateur en fournissant une accessibilité plus large à la communauté africaine. Si un contributeur de données demande le retrait de son contenu, nous traiterons ces demandes en temps opportun.
G. Propriété intellectuelle (limitation de responsabilité)
Lanfrica lie et catalogue uniquement les ressources linguistiques africaines hébergées sur d'autres plateformes/sites Web. Pour cette raison, nous ne serons pas responsables de la violation du droit d'auteur en raison de la liaison d'utilisateurs à des ressources en ligne contenant du matériel contrefait ou une activité contrefaisante, si :
- Nous n'avons pas connaissance réelle que la ressource ou l'activité est contrefaisante ;
- En l'absence d'une telle connaissance, nous ne sommes pas au courant de faits ou de circonstances d'où l'activité contrefaisante est apparente ;
- Dès l'obtention d'une telle connaissance ou conscience, nous agissons rapidement pour retirer ou désactiver la ressource ;
- Nous ne recevons pas d'avantage financier directement attribuable à la notification de violation alléguée ;
- Dès notification de violation alléguée, nous répondons rapidement pour retirer ou désactiver l'accès à la ressource qui est prétendue contrefaire ou faire l'objet d'une activité contrefaisante.
De plus, nous ne revendiquons pas la propriété du droit d'auteur des ressources liées et cataloguées sur Lanfrica. Notre plateforme fonctionne comme un agrégateur qui fournit des liens vers des sources et des dépôts externes. Pour cette raison, la propriété du droit d'auteur reste avec les auteurs, éditeurs ou institutions d'hébergement originaux.
Nous nous réservons le droit de retirer tout contenu qui s'avère violer les lois sur la propriété intellectuelle ou qui fait l'objet d'une demande de retrait valide. De plus, les utilisateurs qui accèdent et utilisent les ressources de la plateforme doivent respecter les conditions de licence définies par les fournisseurs de données originaux.
H. Responsabilités des contributeurs
Les contributeurs qui partagent des ressources avec Lanfrica doivent s'assurer qu'ils ont les droits et autorisations nécessaires pour partager les données sur Lanfrica. Cela inclut la vérification que les données n'enfreignent aucun droit de propriété intellectuelle de tiers ou d'autres droits et sont conformes aux lois applicables, y compris celles relatives à la vie privée et à la protection des données.
I. Rôles et responsabilités de Lanfrica
Lanfrica a plusieurs rôles et responsabilités clés concernant les ressources liées et cataloguées sur sa plateforme, assurant une gouvernance des données éthique, légale et transparente. Ceux-ci incluent :
- Maintenir l'intégrité et l'exactitude des données - Nous sommes responsables de la vérification des métadonnées, de l'attribution correcte et de la mise à jour des liens de ressources pour maintenir l'exactitude et l'utilisabilité.
- Traiter les demandes de retrait - En cas de demande de retrait de contributeurs de données, Lanfrica doit répondre de manière opportune et équitable.
J. Droits des propriétaires de données
Les propriétaires de données peuvent décider s'ils souhaitent que leurs ressources soient liées dans Lanfrica. Si vous souhaitez que votre ressource soit déliée de la plateforme, vous pouvez nous contacter à [email protected]. Nous retirerons votre ressource de notre plateforme ou nous abstiendrons de la lier.