Dépôts de données de recherche
Explorez les dépôts de données de recherche parmi ceux disponibles à l’Université Laval, dont Borealis, le dépôt Dataverse canadien, ou offerts sur le marché.
Qu’est-ce qu’un dépôt de données?
Un dépôt de données est un espace de stockage organisé qui permet la description des données par le biais de champs de métadonnées. Ainsi décrites, les données deviennent repérables par les personnes et les machines, ce qui favorise leur découverte et leur réutilisation. La plupart du temps, les dépôts de données sont utilisés pour loger des données finales ainsi que la documentation nécessaire à leur compréhension. Les données dans un dépôt ne sont pas nécessairement en accès ouvert.
Pour une formation sur les dépôts de données, l’Alliance de recherche numérique du Canada propose sept modules d’apprentissage.
Données actives et données finales
Les données actives sont des données qui sont en cours d’utilisation. Au moment où les données sont hébergées dans un dépôt et qu’un identifiant unique leur est attribué (ex.: DOI), elles sont considérées comme finales, car leur modification entraîne la création d’une nouvelle version des données, ce qui n’est pas toujours possible dans les dépôts.
Les outils PULSAR et VALERIA, propres à l’Université Laval, permettent d’héberger des données actives. Le OneDrive institutionnel est également une option simple d’utilisation. Pour les données finales, une collection institutionnelle dans Borealis, le dépôt Dataverse canadien (voir plus bas) est proposé aux membres de la communauté universitaire de recherche. Géoindex (données géospatiales) ou tout autre dépôt disciplinaire ou multidisciplinaire peuvent également être utilisés.
Pourquoi diffuser vos données dans un dépôt?
- Pour vous conformer aux exigences des organismes subventionnaires ou à celles de certaines revues dans lesquelles vous publiez.
- Pour conserver vos données de manière sûre.
- Pour augmenter la visibilité et l’impact de la recherche effectuée avec vos données.
- Pour partager vos données après l’achèvement de votre projet, ce qui permettra entre autres de les croiser avec d’autres données et de faire progresser la recherche.
Le dépôt des données permet aux chercheurs et aux chercheuses de choisir dans quelle mesure les données peuvent être accessibles aux autres, et sous quelles modalités. Le fait de rendre les données accessibles favorise la reproduction et les liens vers d’autres données et résultats de recherche.
Les Fonds de recherche du Québec ont publié une liste d’éléments à considérer lorsque les revues demandent de rendre les données partageables.
Quelles données devraient être préservées?
Il n’est pas nécessaire de préserver toutes les données recueillies et créées pendant la durée d’un projet de recherche. Les données à préserver devraient:
- être réutilisables
- être compréhensibles et inclure des informations sur leur provenance
- avoir une certaine valeur (si elles sont complexes, coûteuses à obtenir ou qu’il est impossible de les récolter à nouveau)
Certaines données peuvent être détruites à la fin du projet de recherche. Ces données peuvent inclure les notes préliminaires à un projet de recherche, les premières versions de différents documents ou du matériel dont le coût d’entreposage est élevé, mais qu’il est facile de recueillir une nouvelle fois. Les données de recherche qui ne mèneront pas à une publication et qui ont servi pour l’enseignement au 1er cycle et aux cycles supérieurs en vue d’un travail académique font partie de cette catégorie et n’ont pas besoin d’être conservées après l’obtention du diplôme.
Types de dépôts de données
Plusieurs options s’offrent à vous pour déposer vos données de recherche.
Dépôts multidisciplinaires
Si vous optez pour un dépôt multidisciplinaire, voici une liste des dépôts les plus connus et utilisés par la communauté de recherche canadienne :
- Borealis, le dépôt Dataverse canadien – dépôt institutionnel de l’Université Laval
- Dépôt fédéré des données de recherche (DFDR)
- Zenodo
- Open Science Framework (OSF)
- Figshare
Ces dépôts possèdent les caractéristiques suivantes :
- Conservent les données à long terme
- Gratuits – jusqu’à une certaine limite. Certains dépôts de données peuvent exiger des frais pour des ensembles de taille supérieure à la limite.
- Acceptent tous les types de fichiers
- Associent des DOI aux jeux de données
- Permettent de choisir une licence
- Offrent la possibilité de mettre les données en embargo
- Proposent un versionnage des jeux de données
- Fournissent des statistiques de téléchargement
Les serveurs de Borealis et du DFDR sont situés au Canada. OSF offre également une option qui permet de sélectionner des serveurs sur le territoire canadien.
Le niveau d’accompagnement varie beaucoup d’un dépôt à un autre. Certains permettent à leur clientèle de diffuser directement et d’autres ajoutent un niveau de curation plus ou moins important.
Voici une ressource qui détaille les caractéristiques des dépôts précédemment mentionnés:
Stall, S., Martone, M. E., Chandramouliswaran, I., Federer, L., Gautier, J., Gibson, J., Hahnel, M., Larkin, J., Pfeiffer, N., Sedora, B., Sim, I., Smith, T., Van Gulick, A. E., Walker, E., Wood, J., Zaringhalam, M., & Zigoni, A. (2023). Generalist Repository Comparison Chart (3.0). Zenodo. https://doi.org/10.5281/zenodo.7946938
Dépôts canadiens
L’Université Laval met à la disposition des chercheurs et chercheuses une collection dans le dépôt de données Borealis, et offre un soutien complet aux personnes qui désirent l'utiliser.
Principales caractéristiques:
- 5 Go et moins par fichier
- Données sur des serveurs canadiens sécurisés
- Données repérables (ex.: Google)
- Émet des DOI
- Accepte tous les types de données
- Contrôle précis de l’accès
Pour plus d'information, vous pouvez consulter:
- Guide éclair pour déposer des données dans l'espace Borealis de l'Université Laval (PDF)
- Règles et responsabilités du dépôt de données de recherche dans l'espace Borealis ULaval (PDF)
- Guide d’utilisation de Borealis par Scolars Portal
- Tutoriel vidéo « Dépôt de données de recherche : se créer un compte dans Borealis »
- Tutoriel vidéo : « Dépôt de données de recherche : déposer des données dans Borealis »
L'Alliance de recherche numérique du Canada offre une plateforme fédérée pour la recherche et la gestion des données de recherche numériques appelée Dépôt fédéré des données de recherche (DFDR).
Principales caractéristiques :
- Ouvert aux membres de la communauté de recherche associés à un établissement canadien
- Aucune limite de poids de fichier
- Données entreposées sur des serveurs canadiens
- Données repérables (ex.: Google)
- Émet des DOI
- À utiliser si vous avez de grandes quantités de données
Pour plus d'information, vous pouvez consulter:
- Tutoriels vidéo à propos du DFDR
Dépôts disciplinaires
Les dépôts disciplinaires sont multiples. En voici quelques-uns utilisés par la communauté de recherche ULaval et qui sont acceptables en regard des recommandations internationales. Cette liste sera développée au fur et à mesure que nous serons informés de l’utilisation de dépôts par les équipes de recherche de l’ULaval.
- Code : GitHub
- Données biomédicales et génétiques : National Center for Biotechnology Information (NCBI)
- Études polaires : Data Polar Catalogue
- Sciences politiques et sociales : Inter-university Consortium for Political and Social Research (ICPSR)
- Sciences de la Terre et de l’environnement : PANGEA
- Données géospatiales : GeoIndex
- Sciences de l’environnement, océanographie : Observatoire global du St-Laurent OGSL
Comment choisir un dépôt?
Choisir son dépôt de données au début du projet de recherche permet de mieux adapter le traitement des données aux exigences du dépôt, mais ce choix peut également être fait à la toute fin de la recherche. Plusieurs contraintes peuvent orienter votre choix, par exemple:
- les exigences de l’organisme subventionnaire
- les exigences de l’éditeur du périodique dans lequel est publié un article tiré des données
- les exigences de votre établissement et de vos partenaires.
Si vous n’avez aucune contrainte, les questions suivantes peuvent vous aider à choisir un dépôt:
- Existe-t-il un dépôt reconnu dans votre discipline?
- Quels sont les termes et les conditions du dépôt (propriété, partage, diffusion, etc.)?
- Est-ce que le dépôt propose de conserver à long terme les données?
- Y a-t-il des coûts associés à ce dépôt?
Vous pouvez consulter les sites Web ci-dessous trouver un dépôt propre à votre discipline:
- re3data.org : un registre des dépôts de données de recherche qui permet de filtrer les résultats avec des facettes.
- Data repositories : liste de dépôts et de bases de données ouvertes.
- NIH Data Sharing Repositories : liste de dépôts suggérés par les National Institutes of Health pour le partage des données.
Est-ce que le dépôt sélectionné est le meilleur pour vos données?
Voici des questions à vous poser lorsque vient le temps d’utiliser un dépôt de données de recherche.
- Le dépôt est généraliste ou spécialisé dans une discipline qui a un lien avec vos données.
- Le dépôt ne limite pas les contributions à un certain territoire géographique ou vous êtes à l’intérieur des frontières définies.
- Le dépôt accepte vo(s) format(s) de fichier(s) et leur poids.
On retrouve généralement ces informations dans les directives relatives aux dépôts.
- Le dépôt est reconnu et utilisé par les experts de votre milieu et/ou recensé dans la liste re3data.org.
- Le dépôt est recommandé par un organisme de financement, une revue et/ou votre institution.
- Les sources de financement du dépôt assurent sa survie à long terme.
- Le dépôt permet de donner l'accès ou de mettre un embargo aux données dans des conditions bien définies.
- Le dépôt offre un choix de licences et/ou d’autorisations d’accès aux données (idéalement sous forme lisible par les machines).
- Le dépôt garantit la confidentialité et le respect des droits des personnes concernées et des créateurs de données.
En acceptant les conditions générales du dépôt, vous ne devez pas enfreindre les droits d'auteur ou les dispositions contractuelles relatives à la propriété intellectuelle dans le cadre de la recherche (par exemple, les conditions de subvention ou un accord de consortium).
- Le dépôt est certifié (CTS, TRAC, ISO 16363, etc.).
- Le dépôt préserve à la fois les données et les métadonnées.
- L’information sur la préservation des données est disponible (migration de formats, vérification de l’intégrité, etc.).
- Le dépôt a un plan de succession pour garantir une continuité d’accès si l’instance qui l’héberge disparaît.
- Le dépôt utilise des technologies éprouvées qui sont soutenues par une communauté ou une compagnie.
La certification n’est pas une condition absolue à la pérennité d’un dépôt, surtout si celui-ci fait preuve de transparence au sujet de sa mission, de sa gouvernance et qu’il possède une politique ou une stratégie de préservation.
- Le dépôt assigne un DOI ou un autre identifiant pérenne reconnu pour chaque ensemble de données au niveau de granularité que vous désirez.
- Le dépôt utilise des normes de métadonnées qui sont largement acceptées (Dublin Core, DDI, Darwin Core, etc.).
- Les champs de métadonnées proposés vous permettent de décrire les données à un niveau de précision qui vous convient.
- Les métadonnées sont exposées et lisibles par les programmes ce qui leur permet d’être moissonnées par des moteurs de recherche externes.
Il est à noter que les caractéristiques ci-dessus ne couvrent pas la totalité des principes FAIR.
Questionnaire rapide (10 questions) sur l’applicabilité des principes FAIR à vos données : FAIR Aware
Vérification sommaire si les données dans un dépôt sont FAIR
- Le dépôt collecte des mesures sur l’utilisation de votre jeu de données et les rend disponibles.
- Le dépôt permet une page de destination par jeu de données qu’il est possible de citer.
- Des informations sur la façon de citer sont disponibles.
- Le dépôt permet le versionnage.
- Une équipe effectue la curation des données et/ou des métadonnées déposées.
- Des API sont disponibles.
- Le dépôt permet de télécharger les données dans leur format original.
- Des Interface de programme d'application (API) sont disponibles.
Éléments à vérifier lorsque vous déposez des données
Vous comptez déposer des données dans un dépôt? Consultez la liste de conseils ci-dessous pour vous assurer de ne rien oublier.
Vous n’avez pas terminé votre recherche, mais vous avez besoin de déposer vos données:
- Définissez des ensembles logiques que vous pourrez décrire et auxquels vous pourrez attacher un identifiant unique comme un DOI (Digital Object Identifier).
- Optez pour un dépôt qui permet le versionnage des ensembles de données (ex.: Borealis, Zenodo).
Vous avez besoin de déposer vos données pour une évaluation en double aveugle:
- Écrivez à gdr@bibl.ulaval.ca afin de savoir comment utiliser cette fonction dans Borealis.
Votre recherche concerne les Premières Nations, les Métis ou les Inuit:
- Vous devez vous entendre avec la communauté visée pour le dépôt des données. Au besoin, communiquez avec l’équipe des Premiers Peuples à l’adresse premierspeuples@vre.ulaval.ca.
Des personnes recrutées (sujets humains) ont participé à votre projet de recherche:
- Les données déposées ne doivent contenir aucun renseignement permettant d’identifier directement ou indirectement les personnes participantes.
- Pour le moment, ni Borealis ni le DFDR ne permettent de déposer des données sensibles, mais vous pouvez déposer des fichiers complémentaires et indiquer par le biais des métadonnées ou du fichier LISEZ-MOI qui contacter pour accéder aux données elles-mêmes.
- Vos formulaires de consentement doivent permettre le dépôt des données.
Votre recherche concerne des espèces menacées :
- Vous devez vous assurer qu’il est impossible de localiser l’espèce menacée avec vos données.
Vous souhaitez limiter l’accès à vos données:
- Choisissez un dépôt qui permet de mettre un embargo sur l’accès à vos données (ex.: Borealis).
- Écrivez à gdr@bibl.ulaval.ca afin de savoir comment utiliser Borealis, au besoin.
Vous avez réutilisé des données ou des codes:
- Assurez-vous d’avoir le droit de redistribuer ces données et/ou ces codes.
Vous déposez des données soumises au droit d’auteur ou à toute autre restriction légale:
- Choisissez une licence appropriée. Pour toutes questions à ce sujet, contactez le Bureau du droit d’auteur à l’adresse info@bda.ulaval.ca.
Vous désirez préserver vos données à long terme :
- Assurez-vous qu'il n’existe aucune entente qui exige la destruction des données après un certain nombre d’années.
- Dans les documents soumis au début de votre projet de recherche (demande de financement, demande d’approbation éthique, etc.), vous devez éviter de mentionner que vous allez détruire l’ensemble de vos données après un temps déterminé.
Vous utilisez des formats propriétaires fermés:
- Vous pouvez ajouter une version des données dans un format ouvert.
- Si votre format ne permet pas la migration, décrivez-le avec le plus de détails possible (logiciel, version, instrument utilisé, système d’exploitation, etc.).
Consultez la section « Format » du LibGuide sur la Préservation numérique pour trouver des recommandations de formats selon les types de fichiers.
Vous voulez rendre votre jeu de données repérable et réutilisable :
- Remplissez un maximum de champs de métadonnées.
- Assurez-vous que le titre, la description et les mots-clés utilisés pour définir vos données sont assez précis pour permettre de les retrouver lors d’une recherche dans le dépôt.
- Vérifiez que votre documentation (fichier «LISEZ-MOI», dictionnaires de données, guides de codification, etc.) soit suffisante pour interpréter vos données.
- Utilisez une convention de nommage, et au besoin, une hiérarchie de répertoires.
- Utilisez une convention de nommage, et au besoin, une hiérarchie de répertoires.
Pour permettre à la communauté de recherche de vous identifier sans ambiguïté et de vous créditez l’utilisation de vos données :
- Ajoutez votre identifiant ORCID en plus de votre nom.
Vérifiez que votre documentation (fichier «LISEZ-MOI», dictionnaires de données, guides de codification, etc.) soit suffisante pour interpréter vos données.
Utilisez une convention de nommage, et au besoin, une hiérarchie de répertoires.