Daten beschreiben und dokumentieren

Aus FORTH-BW
Zur Navigation springen Zur Suche springen

Die Nachnutzbarkeit eigener oder fremd generierter Forschungsdaten ist von der Qualität der Forschungsdaten, d.h. deren Vollständigkeit, Richtigkeit und Reproduzierbarkeit[1] sowie von den Nachnutzungsbedingungen, die über das Urheberrecht und die Lizenzvergabe geregelt werden, abhängig.

Um die Vollständigkeit, Richtigkeit und Reproduzierbarkeit Ihrer Forschungsdaten zu gewährleisten, beschreiben und zu dokumentieren Sie diese – möglichst detailliert und im Idealfall bereits bei deren Erhebung. Die Beschreibung und Dokumentation Ihrer Forschungsdaten ist eine zentrale (Qualitäts-)Maßnahme des Forschungsdatenmanagements.

Was sind Metadaten?

Anhand von Metadaten werden Datenobjekte, hier Forschungsdaten, beschrieben, charakterisiert und kategorisiert. Metadaten sind folglich Daten über Daten.

Metadatenschemata geben an, welche Informationen und in welchem Schema diese Informationen zu Forschungsdaten anzugeben sind. Metadatenschemata dienen folglich dazu, eine möglichst strukturierte und einheitliche Beschreibung von Forschungsdaten zu gewährleisten, so dass diese langfristig und personenunabhängig auffindbar, interoperabel, nachvollziehbar und nachnutzbar sind.

Über Metadaten werden Forschungsdaten in Datenbanken und Datenbestandskatalogen auffindbar. Metadaten werden entweder gemeinsam mit den zu beschreibenden Forschungsdaten abgespeichert oder als separate Datei, die dann mit den zu beschreibenden Forschungsdaten verknüpft wird.

Arten von Metadaten

Es lassen sich vier Arten von Metadaten unterscheiden[2]:

  • Bibliografische Metadaten: z.B. Titel, Autor:innen, Co-Autor:innen, Thema, Schlagwörter,
  • Administrative Metadaten: z.B. Datentyp, Datenformat, Datenvolumen, Datenerhebungsort, Zugriffsrechte, Lizenz, Bereitstellungsdatum, Bearbeitungsdatum,
  • Prozessmetadaten: beschreiben die Vorgehensweisen und Methoden zur Erhebung und Verarbeitung der Daten, z.B. Untersuchungsdesign, Erhebungsmethode, Analyseeinheit,
  • Deskriptive Metadaten: geben Informationen zum Inhalt der Daten.

Bibliografische und administrative Metadaten können fächerübergreifend standardisiert werden, Prozessmetadaten und deskriptive Metadaten hingegen sind fachspezifisch aufgebaut und werden über fachspezifische Metadatenstandards strukturiert. Für die Auffindbarkeit, Nachvollziehbarkeit und Nachnutzbarkeit von Forschungsdaten sind im Besonderen diese fachspezifischen Informationen entscheidend.

Metadatenstandards

Für fachspezifische sowie fächerübergreifende Metadaten existiert bereits eine Vielzahl von Standards.

Informieren Sie sich, ob für Ihren Fachbereich bereits ein passender Metadatenstandard existiert. Hierfür können Sie den Metadata Standards Catalog der Research Data Alliance (RDA), die List of Metadata Standards des Digital Curation Centre (DCC) sowie die vom e-Research Centre der University of Oxford betriebene Plattform Fairsharing.org verwenden.


Beispiele für fachspezifische Metadatenstandards sind:

          

Beispiele für fächerübergreifende Metadatenstandards sind:

DataCite Metadata Schema

Das Metadatenschema von DataCite zur Registrierung von DOIs ist ein weit verbreiteter Standard für die Beschreibung von Forschungsdaten. Dieser gibt an, welche Informationen zur Beschreibung eines Datensatzes verpflichtend anzugeben sind, welche empfohlen werden und welche optional angegeben werden können. Die Metadaten werden im XML-Format zur Verfügung gestellt.

Hier finden sich einige Beispiele für Metadaten nach dem DataCite Metadata Schema, unter anderem Datensätze, Data Paper und Software.

Mit dem DataCite Metadata Generator können Sie Metadaten nach dem DataCite Metadata Schema für Ihre Forschungsdaten generieren.


Dublin Core Metadata Element Set

Das DCMI Metadata Terms von der Dublin Core Metadata Initiative (DCMI) ist ein standardisiertes Vokabular für Metadaten. Das Metadata Element Set definiert 15 Element-Sets zur Beschreibung von digitalen Ressourcen.

Mit dem Dublin Core Generator können Sie Metadaten nach dem Dublin Core Metadata Element Set für Ihre Forschungsdaten generieren.


CodeMeta

CodeMeta ist ein Metadatenschema für wissenschaftliche Software und Code im Grundformat JSON-LD.

Mit dem CodeMeta Generator können Sie Metadaten nach dem CodeMeta-Standard für Ihre Software generieren


WICHTIG!

Möchten Sie Ihre Forschungsdaten auf einem Forschungsdatenrepositorium oder in einem Datenjournal veröffentlichen, so haben Sie die von dem Repositorium bzw. Datenjournal vorgegebenen Metadaten bereitzustellen. Es ist daher sinnvoll, Metadaten für Ihre Forschungsdaten so früh wie möglich im Forschungsprozess zu erfassen, beispielsweise im Rahmen eines Datenmanagementplans, und diese auch während des Forschungsprozesses stetig zu aktualisieren.

Templates und Tools für die Erstellung eines Datenmanagementplans finden sie unter Forschungsvorhaben planen.

Kontrollierte Vokabulare und Terminologien

Metadatenschemata geben an, welche Informationen und in welchem Schema diese Informationen zu Forschungsdaten anzugeben sind. Kontrollierte Vokabulare und Terminologien unterstützen dabei, diese Informationen zu Forschungsdaten zu standardisieren. Beispiele sind Wortlisten, die dabei helfen, unterschiedliche oder fehlerhafte Schreibweisen von Begriffen und Konzepten zu vereinheitlichen, Klassifikationen, die Objekte und Konzepte in meist hierarchisch strukturierte und durch bestimmte Merkmale charakterisierte Klassen ordnen sowie Taxonomien und Thesauri, die Über- und Unterbegriffe sowie Synonyme zu Begriffen und Konzepten enthalten sowie Beziehungen zwischen Begriffen und Konzepten darstellen.[3]


Das Basic Register of Thesauri, Ontologies and Classifications (BARTOC) gibt einen Überblick über bestehende fachspezifische und fächerübergreifende kontrollierte Vokabulare und Terminologien.


Hier einige Beispiele für fachspezifische Thesauri:

Was sollte ich dokumentieren?

Sie sollten Ihre Forschungsdaten dokumentieren. Die Dokumentation Ihrer Forschungsdaten umfasst neben einer einheitlichen Benennung der Daten, die Ergänzung der Daten um zusätzliche, unter anderem das Forschungsvorhaben, die Datenerhebung, die Datenverarbeitung sowie die Datenanalyse beschreibende, Informationen. Eine Dokumentation ist folglich wesentlich umfassender als die Beschreibung Ihrer Forschungsdaten durch Metadaten.


WICHTIG!

Für die Dokumentation kann es hilfreich sein, wenn Sie sich fragen: Welche Informationen zu den Forschungsdaten und dem Forschungsprozess benötigen Personen, die nicht am Forschungsvorhaben beteiligt sind/waren, um die erhobenen Daten nachvollziehen, reproduzieren und nachnutzen zu können?[4]


Hier einige Beispiele, welche Informationen zu Ihren Forschungsdaten für Dritte, und für Sie selbst, hilfreich sein könnten, um Ihre Forschungsdaten auch noch nach längerer Zeit nachvollziehen, reproduzieren und nachnutzen zu können[5,6]:

  • Forschungsvorhaben,
  • Methoden und Instrumente, die zur Datenerhebung bzw. zur Messung eingesetzt wurden: Fragebögen, Testinstrumente, Leitfäden, Beobachtungsprotokolle, Ratingbögen,
  • Informationen über den Datenerhebungsprozess bzw. den Prozess der Messung: Interviewanweisungen, Kontaktprotokolle, Notizen zum Erhebungskontext und -setting (unter anderem wo und wie fand die Messung statt, welche Personen waren anwesend),
  • Informationen zur Datenaufbereitung: Transkriptionsregeln, Kodierregeln, Codes und Labels (Codebook), Gewichtungsvariablen, imputierte Werte, sonstige generierte Variablen, Angaben zu durchgeführten Plausibilitäts-, Konsistenz- und Fehlerkontrollen, Datenversionen und die enthaltenen Änderungen,
  • Informationen zur (Vorgehensweise der) Datenanalyse: QDA-Dateien, Syntax,
  • Informationen über den Rahmen der Datenerhebung bzw. der Messung sowie Informationen zum Zugang: Methoden- und Feldberichte, Zwischen- und Abschlussberichte, Publikationen der Forschungsdaten (z. B. als Datensupplement eines Fachartikels in einer wissenschaftlichen Fachzeitschrift, als Data Paper, in einem Forschungsdatenrepositorium), Webseiten,
  • Informationen zu Nutzungsbedingungen sowie zu Datenschutz und Vertraulichkeit: an die Proband:innen ausgehändigte Einverständniserklärungen und Informationen zum Datenschutz, Vorgehen bei der Anonymisierung (zum Beispiel Anonymisierungsprotokolle), Liste über Pseudonyme, Einschätzung des Re-Identifikationsrisikos,
  • dauerhafte Kontaktmöglichkeit.


WICHTIG!

Wir empfehlen Ihnen, diese Informationen – von Beginn des Forschungsvorhabens an – zu dokumentieren, im Idealfall in einem Datenmanagementplan. Das erleichtert Ihnen unter anderem auch die Organisation Ihrer „heißen“, d.h. aktuell verarbeiteten Forschungsdaten.

Wie sollte ich dokumentieren?

Die oben aufgeführten Informationen zu Ihren Forschungsdaten können in unterschiedlichen Formaten dokumentiert werden. Wie Sie diese Informationen zu Ihren Forschungsdaten dokumentieren, hängt auch von den in Ihrem Fachbereich gängigen Prozessen und Standards sowie verwendeten Tools ab. Wichtig dabei ist,

  • dass standardisierte und offene Dateiformate und Programmiersprachen sowie Protokolle verwendet werden,
  • dass standardisierte und fachspezifische Vokabulare genutzt werden,
  • dass die Dokumentation maschinenlesbar ist,
  • dass die Dokumentation den beschriebenen und dokumentierten Forschungsdaten eindeutig zugeordnet werden kann.

Templates und Tools

Folgende Formate bieten sich für die Dokumentation Ihrer Forschungsdaten an. Templates und Tools können Ihnen bei der Einführung und Bearbeitung dieser Formate helfen:

  • ReadMe-Datei: ReadMe-Template der Humboldt-Universität zu Berlin[7] (zugehörige, die Forschungsdaten dokumentierende, Dateien wie Codebücher oder elektronische Laborbücher können in der ReadMe-Datei benannt werden)
  • Codebuch
  • (elektronisches) Laborbuch (ELN): ELN-Finder der TU Darmstadt, Chemotion-ELN des Karlsruher Institut für Technologie (KIT)
  • projektinternes Wiki
  • Datenmanagementplan (DMP) (Templates und Tools für die Erstellung eines Datenmanagementplans finden sie unter Forschungsvorhaben planen.)



[1] Datenqualität umfasst im FDM im Besonderen die Bereiche der Datenformate sowie der Datenvollständigkeit und -richtigkeit, siehe: https://forschungsdaten.info/themen/finden-und-nachnutzen/forschungsdaten-finden/.

[2] Böker, E. (2023). Metadaten und Metadatenstandards. Beschreiben hilft verstehen. forschungsdaten.info. https://forschungsdaten.info/themen/beschreiben-und-dokumentieren/metadaten-und-metadatenstandards/.

[3] Böker, E. (2023). Metadaten und Metadatenstandards. Beschreiben hilft verstehen. forschungsdaten.info. https://forschungsdaten.info/themen/beschreiben-und-dokumentieren/metadaten-und-metadatenstandards/, Humboldt-Universität zu Berlin (o.D.). Kontrollierte Vokabulare. https://www.cms.hu-berlin.de/de/dl/dataman/teilen/dokumentation/vokabulare.

[4] Die DFG hat in der Checkliste zum Umgang mit Forschungsdaten einige Hinweise für die Dokumentation und Datenqualität von Forschungsdaten formuliert, siehe: https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/forschungsdaten/forschungsdaten_checkliste_de.pdf. Fachspezifische Empfehlungen zum Umgang mit Forschungsdaten finden sich hier: https://www.dfg.de/de/grundlagen-rahmenbedingungen/grundlagen-und-prinzipien-der-foerderung/forschungsdaten/empfehlungen.

[5] VerbundFDB (2022, 9. Juni). Forschungsdaten dokumentieren. forschungsdaten-bildung.de. https://www.forschungsdaten-bildung.de/daten-dokumentieren, Böker, E. (2023). Datendokumentation. Warum, was und wie? forschungsdaten.info. https://forschungsdaten.info/themen/beschreiben-und-dokumentieren/datendokumentation/, Humboldt-Universität zu Berlin (o.D.). Dokumentation und Metadaten. https://www.cms.hu-berlin.de/de/dl/dataman/teilen/dokumentation.

[6] Deutsche Forschungsgemeinschaft (2021, 21. Dezember). Umgang mit Forschungsdaten. Checkliste für Antragstellende zur Planung und zur Beschreibung des Umgangs mit Forschungsdaten in Forschungsvorhaben. https://www.dfg.de/resource/blob/174732/3c6343eed2054edc0d184edff9786044/forschungsdaten-checkliste-de-data.pdf

[7] Hier findet sich zudem ein ReadMe-Datei-Beispiel der Humboldt-Universität zu Berlin.