Infos et consignes - COVID-19

Bibliothèque

Gestion des données de la recherche


Données de recherche: définition

Les données de recherche sont des enregistrements factuels (chiffres, textes, images et sons) dérivés de la recherche scientifique et nécessaires à la validation de ses résultats. Un set de données de recherche est une représentation systématique et partielle du sujet investigué.

On ne considère pas comme étant des données de recherche:

  • notes de laboratoire
  • analyses préliminaires
  • ébauches d'articles
  • évaluations des experts (peer-reviewing)
  • communications personnelles entre chercheurs
(Source: Principes et lignes directrices de l’OCDE pour l’accès aux données de la recherche financée sur fonds publics, 2007)
 

PRÉSENTATIONS SUR LA GESTION DES DONNÉES DE RECHERCHE

Présentation sur la gestion des données de recherche

 

Séance d'information Appréhender le plan de gestion de données en 30 minutes! (19 mai 2022)

Les données peuvent être présentées dans n’importe quelle forme et sur des supports variés (écrits, notes, chiffres, symboles, texte, illustrations, films, vidéos, enregistrements sonores, reproductions picturales, dessins, croquis ou autres représentations graphiques, manuels de procédures, formulaires, schémas, diagramme de marche du travail, descriptions d’équipement, fichiers de données, algorithmes de traitement, statistiques).

(Source: Données de recherche Canada / Research Data Canada, Glossaire)

Gestion des données de recherche: définition

La gestion des données de recherche désigne l'ensemble des décisions prises au cours d'un projet de recherche en vue d'assurer l'entreposage, la documentation (métadonnées y comprises), la préservation à long terme et, éventuellement, le partage des données de recherche.

La gestion doit tenir compte du cycle de vie des données, de la cueillette et le stockage initial jusqu'à l'analyse et la publication des données. Toutefois, la conservation peut se prolonger au-delà de la publication, donc après la fin du projet. Une conservation efficace comprend le tri des données initiales, le choix d'un format pérenne et d'une infrastructure adaptée aux objectifs de la cueillete et à la nature des données.

La gestion des données doit être effectuée dans le respect de l'Énoncé de politique des trois Conseils: Éthique de recherche avec des êtres humains, 2e édition (2018). Elle doit également se faire dans le respect du Cadre de référence des trois orgaismes sur la conduite responsable de la recherche (2016).

À noter: le certificat d'éthique obtenu auprès de l'établissement d'attache ne remplace pas le plan de gestion des données!


Politiques des données de recherche



Quel impact? 


a. Pour les chercheurs 

Toutes les demandes de subvention soumises aux organismes subventionnaires devraient inclure des méthodologies qui tiennent compte des meilleures pratiques en matière de gestion des données de recherche. Pour certaines occasions de financement, les organismes subventionnaires demanderont que les plans de gestion des données soient soumis à l’organisme approprié au moment de la demande, comme il est précisé dans l’appel de propositions.

b. Pour les établissements 

Chaque établissement d'enseignement postsecondaire et hôpital de recherche admissible à administrer des fonds des Instituts de recherche en santé du Canada (IRSC), du Conseil de recherches en sciences naturelles et en génie (CRSNG) ou du Conseil de recherches en sciences humaines (CRSH) est tenu de créer une stratégie institutionnelle de gestion des données de recherche

Les informations contenues dans les stratégies institutionnelles aideront les bailleurs de fonds de la recherche et la communauté de recherche canadienne à mieux comprendre les capacités de gestion des données de recherche du pays.

Le comité de travail GDR de l’UQO travaille présentement à l’élaboration de cette stratégie.  

Pour plus de renseignements sur la politique des trois organismes sur la gestion des données de recherche, visitez la Foire aux questions. 


Besoin d'aide?


Pour toute question concernant la gestion des données de recherche, veuillez écrire à gdr@uqo.ca.


Ressources


Carrefour Gestion des données de recherche

Calendrier intégré des occasions de financement des organismes et interorganismes

Déclaration de principes des trois organismes sur la gestion des données numériques

De bonnes pratiques en gestion de données de recherche : guide sommaire (Réseau Portage / ACRL)

Cadre de référence des trois organismes sur la conduite responsable de la recherche (Secrétariat sur la conduite responsable de la recherche Canada, 2016)

Le «cadre de référence décrit les responsabilités et les politiques connexes qui s'appliquent aux chercheurs, aux établissements et aux organismes et qui, ensemble, contribuent à la mise en place d'un environnement de recherche favorable. Il précise les responsabilités des chercheurs à l'égard de l'intégrité de la recherche, de la demande de fonds, de la gestion financière et des exigences concernant certains types de recherche et définit ce qu'est une violation des politiques des organismes» (p. 1) .

Éditeurs de revues et organismes subventionnaires (guide élaboré par Polytechnique Montréal)

Guide d'accompagnement pour l'élaboration du modèle de stratégie institutionnelle version 2.0 (Réseau Portage / ACRL)

Introduction à la gestion de données de recherche : document synthèse (Réseau Portage/ACRL)

Modèle pour l'élaboration de stratégie institutionnelle de gestion des données de la recherche (3.0), 2021 (Réseau Portage)

Guidon, A. (2013). La gestion des données de recherche en bibliothèque universitaire. Documentation et bibliothèques, 59 (4), 189-200.


Plan de gestion de données (PGD)


Définition

Les plans de gestion de données (PGD) servent à organiser les données en prévision de leur utilisation dans le cadre d'un projet de recherche. Ils permettent également de faciliter la réutilisation des données une fois le projet de recherche terminé.

Un PGD inclut ,entre autres, une description des données et des métadonnées obtenues lors de la recherche. Il comprend aussi des informations sur les fichiers, le stockage et le mode de partage des données.  
 

L'Assistant PGD du Réseau Portage - modèles de plan de gestion de données

Il existe différents modèles de plan de gestion de données (PGD). Le Réseau Portage propose aux chercheurs canadiens l'outil Assistant PGD. Sous forme de questions, cet outil gratuit permet de créer étape par étape, un plan de gestion de données de recherche, en français ou en anglais. Il est nécessaire de créer un compte sur Assistant PGD pour sélectionner un modèle.

Le Réseau Portage fournit plusieurs modèles de plan de gestion de données ainsi que des tutoriels vidéo pour accompagner les utilisateurs.

 

Tutoriels vidéo :

Introduction aux plans de gestion de données

Introduction à l'Assitant PGD

Gestion des PGD avec l'Assistant PGD
 

Voici quelques exemples de modèles :

Sciences Humaines Numériques

Levy, Michelle. (2020, October 2). Plan de gestion des données modèle #1: Sciences Humaines Numériques. Zenodo.

http://doi.org/10.5281/zenodo.4064171 (PDF)

 

Sciences humaines numériques et données secondaires

Gray, Vincent, & Cooper, Alexandra. (2020, September 8). Plan de gestion des données modèle #2: Sciences humaines numériques et données secondaires. Zenodo.

http://doi.org/10.5281/zenodo.4019314 (PDF)

 

Méthodes mixtes

Doiron, James. (2020, September 8). Plan de gestion des données modèle #3: Modèle fictif sur « Méthodes mixtes ». Zenodo.

http://doi.org/10.5281/zenodo.4019569 (PDF)

 

Sciences naturelles

Persaud, Bhaleka, Van Cappellen, Philippe, Reza Nezhad, Fereidoun, Neilson, Maggie, & Szigeti, Kathy. (2020, October 21). Plan de gestion des données du groupe de recherche en écohydrologie (Modèle). Zenodo.

http://doi.org/10.5281/zenodo.4116598

 

Sciences sociales

Leviten-Reid, Catherine. (2020, October 21). Plan de gestion de données pour Personnes, places, politiques et perspectives (Modèle). Zenodo.

http://doi.org/10.5281/zenodo.4116582

 

Un plan de gestion de données de recherche inclut habituellement les informations suivantes:

La collecte de données
Les données recueillies et les formats de fichiers des données. Il est utile de prévoir une procédure de dénomination des fichiers et des différentes versions.

Documentation et métadonnées
Le chercheur doit fournir une documentation adéquate qui décrit les données et qui permet leur interprétation, à long terme.

Stockage et sauvegarde
Prévoir les besoins de stockage pour la durée du projet de même que les besoins de sauvegarde des données afin d'en faciliter l'accès par les membres de l'équipe de recherche.

Conservation
Prévoir la conservation à long terme des données et des fichiers.

Partage et réutilisation
Planifier quelles données seront partagées, sous quelle forme de même que la licence d'utilisation.

Responsabilités et ressources
Établir les responsabilités concernant la gestion des données du projet de recherche de même que les ressources qui seront nécessaires.

Conformité aux lois et à l'éthique
Identifier les conditions légales, éthiques ou intellectuelles de gestion des données, notamment les données sensibles.


Gestion des fichiers


1. Noms des fichiers

  • Il est recommandé de placer le sujet principal du document au début du nom du fichier, puis d'ajouter un ou quelques noms communs significatifs afin de qualifier le fichier, notamment lorsqu'il est nécessaire de préciser le type de document dans le nom du fichier (ex.: procès-verbal, entente, stats, etc.).
  • Afin d'assurer l'interopérabilité d'un fichier dans les différents environnements où il est susceptible d'être exploité, il est recommandé de limiter la longueur de son nom à un maximum de 50 caractères.
  • L'utilisation des minuscules facilite la lisibilité du nom d'un fichier et son repérage dans un ensemble de fichiers.
  • Les caractères spéciaux ou les caractères réservés (propres à un environnement) sont à proscrire : ex.: Windows (%, $, !, *, /, &, ?). L'utilisation des signes diacritiques (accents et ponctuation) est aussi déconseillée.
  • Afin d'éviter les difficultés d'interprétation du nom d'un fichier par les systèmes d'exploitation, le point (.) n'est jamais utilisé pour remplacer un espace ou pour séparer les éléments du nom d'un fichier. Le point sert à identifier l'extension du fichier (ex.: .pdf).
  • Le tiret bas (_) est privilégié en tant que séparateur des différents éléments du nom d'un fichier. (ex.: conseil_pedagogique_pv_2007-06-01.doc)

 

2. Versions (versionnage des fichiers)

  • Le versionnage est la conservation de toutes les versions successives d'une entité logicielle.
  • Il est essentiel de travailler sur la dernière version d'un fichier, notamment dans un contexte collaboratif.
  • Pour les ébauches, privilégiez l'ajout d'une numérotation séquentielle (ex.: 01 ; 02 ; etc.) jusqu'à la version finale. Dans le cas d'une révision de la version finale, celle-ci pourrait être numérotée à son tour (ex.: 1.0) et ses versions subséquentes (1.1. ; 1.2.).
  • Le terme «version» ou l'abréviation «v» est ajoutée dans le nom du fichier suivi du tiret bas (_) et du numéro de la version.
  • Un nouveau document créé à partir d'une version finale doit être sauvegardé sous un nouveau nom de manière à ne pas écraser la version précédente (ex.: micrographie_projets_2008_v_finale.doc).

 

3. Formats de fichiers - conservation - pérennité

  • Privilégier un format de conservation moins dépendant des applications de bureautique afin de faciliter l'interopérabilité, l'Intelligibilité, la lisibilité et l'accessibilité à long terme des fichiers. Par exemple, un document Word pourra être sauvegardé sous un format .rtf.
  • Privilégier les formats ouverts plutôt que les formats propriétaires afin de faciliter l'interopérabilité, l'intelligibilité, la lisibilité et l'accessibilité à long terme des fichiers. Le format html est un exemple de format ouvert.
  • Sauvegarder un document final en format .pdf-a, .pdf, ou .tiff afin de favoriser la préservation de l'authenticité et de l'intégrité du document.

 

4. Sauvegarde

Le Service des archives et de la gestion documentaire du Secrétariat général de l'UQO a élaboré une Directive relative à la prise de copie de sauvegarde qui décrit les procédure à suivre pour la sauvegarde ou le stockage de documents.


Référence :

Documentation supplémentaire:


Choisir un dépôt de données


Un dépôt, ou entrepôt, de données est un système de stockage qui connecte de grandes quantités de données provenant de différentes sources. Les données y sont repérables par les humains et par les machines, ce qui en favorise le partage et la réutilisation.

Idéalement, le choix du dépôt de données se fait dès le début du processus de recherche, dans le cadre de l’élaboration du plan de gestion des données. Il existe une grande variété de dépôts de données : généraliste, institutionnel, disciplinaire ou thématique.

Si votre éditeur ne vous impose pas un dépôt spécifique, vous pouvez opter pour une solution canadienne et multidisciplinaire. À cet égard, l’UQO recommande la plateforme Dataverse.


Dataverse - dépôt canadien


Dataverse est une plateforme de dépôt de données ouverte aux chercheurs affiliés pour déposer et partager des données de recherche partout dans le monde. Dataverse est un logiciel libre et son utilisation est gratuite pour les utilisateurs.

 


DFDR - dépôt canadien


DFDR est le service du Dépôt fédéré de données de recherche (DFDR). Tout chercheur affilié à une institution canadienne peut déposer des données dans le DFDR. La plateforme peut intégrer efficacement des jeux de données de toute taille et le traitement de conservation est effectué automatiquement.

 


Autres dépôts de données


Lorsque vous êtes tenu.e à déposer dans un entrepôt disciplinaire, les répertoires suivants peuvent guider votre choix:

 

Dépôts généralistes populaires

  • Dryad
    • seulement licence CC0
    • préservation illimitée
    • frais de stockage pour les fichiers de plus de 300 GB
  • FigShare
    • plusieurs types de licences acceptées
    • préservation illimitée
    • taille maximale par fichier: 5GB
  • Zenodo
    • plusieurs types de licences acceptées
    • préservation gratuite, mais pour une durée limitée (20 ans)
    • on accepte jusqu'à 50 GD par dataset
  • Open Science Framework (OSF)
    • plusieurs types de licences acceptées
    • préservation gratuite, mais pour une durée limitée (50 ans)
    • taille maximale par fichier: 5GB

      *** Notez que les quatre répertoires susmentionnés attribuent des DOIs aux données.

 

Entrepôts de logiciels, scripts et codes

 

Politiques des grands éditeurs en matière de publication des données


Données sensibles


«Le devoir éthique de confidentialité réfère à l'obligation qu'ont les personnes ou les organisations de protéger l'information qui leur est confiée. Ce devoir comporte l'obligation de protéger l'information contre l'accès, l'utilisation, la divulgation et la modification non autorisés, d'une part, et contre la perte et le vol, d'autre part».

Référence : chapitre 5 - Énoncé de politique des trois conseils, Éthique de la recherche avec des être humains (2018)

La confidentialité des données des participants doit être préservée à toutes les étapes du cycle de recherche : collecte, utilisation et analyse des données, diffusion des résultats, conservation, sauvegarde, destruction des données.

Protection de l'information - protection des données

Des mesures de protection matérielles, administratives ou techniques doivent être prises pour assurer la confidentialité des données:

  • accès sécurisés aux données, aux documents, aux ordinateurs;
  • utilisation de mots de passe;
  • antivirus;
  • pare-feu, etc.
  • S'assurer que les participants ne peuvent être identififés : anonymiser, coder, dépersonnaliser les renseignements.

 

Conservation des données

Les périodes de conservation des données peuvent varier selon la discipline. Le Comité d'éthique et de recherche (CÉR) de l'UQO suggère de «prévoir une période de conservation minimale de 5 ans» pour les données nominalisées. Quant aux données dénominalisées, le CÉR propose de «prévoir une période maximale de 25 ans».

Référence : Politique d'éthique de la recherche avec des êtres humains de l'UQO

 

Destruction des données

Une fois les délais de conservation expirés, les données doivent être détruites au moyen de pratiques sécuritaires : destruction des données en formats papier (déchiquetage) ou électroniques (mécanismes d'effacement (logiciels de suppression de fichiers), destruction matérielle de dvd, etc.).
 

Boîte à outils pour les données sensibles — destiné aux chercheurs

Le réseau Portage a conçu une boîte à outils pour la gestion des données sensibles qui comprend un glossaire, une matrice de risque et un document sur l’utilisation du langage de la gestion de données de recherche pour un consentement éclairé.

 

Glossaire terminologique

Groupe d'experts sur les données sensibles. (2020, October 14). Boîte à outils pour les données sensibles — destiné aux chercheurs

Partie 1: Glossaire terminologique sur l'utilisation des données sensibles à des fins de recherche. Zenodo. http://doi.org/10.5281/zenodo.4088986

 

Matrice de risque

Groupe d'experts sur les données sensibles. (2020, October 19). Boîte à outils pour les données sensibles — destiné aux chercheurs

Partie 2: Matrice de risque lié aux données de recherche avec des êtres humains. Zenodo. http://doi.org/10.5281/zenodo.4107119

 

Langage de la gestion de données de recherche et consentement éclairé

Groupe d'experts sur les données sensibles. (2020, October 19). Boîte à outils pour les données sensibles — destiné aux chercheurs

Partie 3 : Langage en matière de gestion de données de recherche pour le consentement éclairé. Zenodo. http://doi.org/10.5281/zenodo.4107186

 

Documentation à consulter

Énoncé de politique des trois conseils, Éthique de la recherche avec des être humains

Politique d'éthique de la recherche avec des êtres humains de l'UQO

Politique concernant l'accès et la protection des renseignements personnels de l'UQO

Modèle de formulaire de consentement de l'UQO

Différents formulaires de consentement pour le partage des données de l'UKDataService


Partager/publier des données


Certains facteurs sont à considérer avant le partage des données de recherche :

  • La conformité éthique (voir Comité d'éthique institutionnel);
  • La protection de la vie privée des participants (obtenir leur consentement éclairé quant au partage et à la réutilisation des données) - voir EPTC 2 (2018), art. 5.1. Lorsque les données proviennent des sources externes, le chercheur doit s'assurer que les conditions du consentement initial sont toujours respectées au moment de leur ré-utilisation.
  • Le tri des données (déterminer quelles données seront partagées et de quelle manière);
  • Le type de licence associée aux jeux de données (ex. Creative Commons);
  • La durée de partage des données (limitation éthique ou technique);
  • Les eixgences des éditeurs (voir plus bas);
  • Les coûts de l'entreposage;
  • Type de fichiers / formats acceptés par le fournisseur;
  • L'infrastructure de partage: tout dépendamment du support, les données peuvent être partagées avec certains collaborateurs ou avec le grand public (libre accès), avec ou sans embargo (délai).

Consultez les Lignes directrices pour verser des données existantes dans des dépôts publics (dernière mise à jour: mai 2021).


Les Data Paper


Un data paper est une publication qui décrit un jeu de données scientfiques brutes, tout en y donnant l'accès. Elle prend généralement la forme d'un article de 3-4 pages, revisé par les pairs et publié dans une revue spécialisée ou multidisciplinaire, consacrée uniquement à ce type de contenu. L'article doit mettre en évidence le potentiel des données, la qualité et la fiabilité, ainsi que leur originalité. La méthode de cueillette y est présentée et des métadonnées descriptives sont fournies.

Plusieurs référentiels de métadonnées sont disponibles, notamment DCMI (Dublin Core Metadata Initiative), Darwin Core (sciences de la vie), DDI (Data Documentation Initiative), spécialisé en sciences humaines et sociales, EML (Ecological Metadata Language), DCC (Digital Curation Centre), spécialisé en biologie, sciences physiques, sciences de la terre, sciences humanes et sociales, etc.

Les données peuvent aussi être publiées dans la même revue que l'article correspondant, comme partie intégrante de l'article ou bien sous la forme de matériel d'accompagnement (Supplementary material).

Revues publiant des data papers (exemples)

1. Multidisciplinaires

  • Data in Brief (Elsevier) - gold open access (frais de publication: 700 $)
  • Data Intelligence (MIT Press) - publication gratuite et en libre accès
  • F1000Research - gold open access (frais de publication: 800 $)
  • Patterns (Cell Press) - gold open access (frais de publication: 5200 $)
  • Scientific Data (Nature Publishing Group) - gold open access (frais de publication: 1690 euros)

2. Agronomie

3. Biologie, sciences de la vie, santé

4. Environnement

5. Informatique

6. Sciences humaines et sociales

7. Physique-chimie


Citer les données de recherche


Les éditeurs requièrent généralement une citation formelle pour les jeux de données entreposés avec des tiers, et ce dans le respect de la Décalration Conjointe des Principes de Citation des Données (adoptée à San Diego en 2014) : "La citation des données, comme la citation d'autres preuves et sources, est une bonne pratique de recherche et fait partie de l'écosystème scientifique soutenant la réutilisation des données."

Les données devraient ainsi respecter les 8 critères suivants:

  1. Importance
  2. Crédit et attribution
  3. Preuve
  4. Identification unique
  5. Accès
  6. Persistance
  7. Spécificité et vérifiabilité
  8. Interopérabilité et flexibilité

(voir les exemples).

Citation d'un ensemble de données selon le style APA:

Auteur, A. (Date). Titre (version xx) [fichier de données / ensemble de données / liste de codage]. Source. https://doi.org/xxxxx 

Tremblay, P. (2021). Brain aging and speech perception in noise: effects of background noise and talker variability [ensemble de données]. Scholars Portal Dataverse. https://doi.org/10.5683/SP2/SNW3YO

O’Donohue, W. (2017). Content analysis of undergraduate psychology textbooks (ICPSR 21600; Version V1) [Data set]. ICPSR. https://doi.org/10.3886/ICPSR36966.v1 

Evans, S. K. (2014).  [Personnel survey] [Unpublished raw data].  University of Southern California.

Schoonjans, F. (2008). MedCalc Statistical Software (Version 9.5.2.0) [Computer software]. 3d2f.Com. http://3d2f.com/programs/13-638-medcalc-statistical-software-download.shtml