Intern talk:Project data management

Datenmanagement in der Wissenschaft: Ein 5-Punkte-Programm für eine bessere Nutzung und Akzeptanz

(0) Einführung

In Abhängigkeit von den wissenschaftlichen Disziplinen ist eine Datenarchivierung teils etabliert, zum Teil aber auch gar nicht vorhanden. Allerdings ist auch bei den lokal etablierten Systemen nur selten eine breite Verfügbarkeit bzw. echte Langzeitarchivierung gewährleistet.

Die bisher kaum vorhandene Akzeptanz für eine Datenarchivierung und -publikation führt zur Zeit noch dazu, dass ein wesentlicher Anteil wichtiger und zum Teil sehr teurer Daten nach der Publikation ihrer Auswertung und resultierender Ergebnisse verloren geht. Die der Publikation zu Grunde liegenden Daten sind nur selten in Tabellen abgedruckt. Dies genügt nicht den von der DFG definierten Regeln zur guten wissenschaftlichen Praxis. Auch ist es nicht möglich einen vollständigen Überblick zu den in einem Forschungsfeld erhobenen Daten zu erhalten oder eine vollständige Auflistung aller Daten zu einem bestimmten Thema zusammenzutragen.

Im folgenden werden 4 Punkte vorgeschlagen, die einer Verbesserung der Akzeptanz dienen sollen. Diese umfassen sowohl Maßnahmen für eine verbesserte Datenerfassung, zur Finanzierung der Datenarchivierung und zur Motivation.

(1) Datenfluss (Nutzer>Archiv)

Die aus der naturwissenschaftlichen Grundlagenforschung resultierenden Datengruppen werden den Datenzentren entsprechend ihres Aufgabenbereiches zugeordnet (u.a. dem Konzept zur Organisation wissenschaftlicher mariner Daten des BMBF folgend). Koordinatoren und Projektträger ausgewiesener Förderprogramme arbeiten, beginnend mit der Ausschreibung mit den relevanten Datenzentren zusammen. Nur wenn eine enge Abstimmung zwischen Projektträger, Wissenschaft und Datenzentren sichergestellt ist, kann eine erfolgreiche Datenarchivierung gewährleistet werden. Koordinator und Datenkurator eines Projektes sind verantwortlich für die Bereitstellung der Daten durch die am Projekt beteiligten Wissenschaftler; der Daten kurator sichert Konsistenz, Verfügbarkeit und technische Qualität.


 * Der Fluss wissenschaftlicher Daten vom Erzeuger in die Informationssysteme sollte standardisiert und automatisiert werden (z.B.: in der Meeresforschung).
 * Die Datenzentren informieren die wissenschaftliche Gemeinschaft über ihre Strukturen, Tätigkeiten und Produkte auf Tagungen, Workshops, in Publikationen und über ihre Webseiten.
 * Die Datenzentren betreiben aktive Aquise durch die Beteiligung an nationalen und internationalen Projekten.

2) Datenpublikation (Archiv>Nutzer)


 * Forschungsinstitute integrieren das Datenzitat in ihre Publikationslisten.
 * Zeitschriften und Webseiten der wissenschaftlichen Gesellschaften sollten auf die Möglichkeit der Datenarchivierung hinweisen, mit Verweis auf das zuständige Datenzentrum.
 * Portale sollen eine einfache Findbarkeit mit Zugriff gewähren.

3) Finanzierung

Anträge sollten ein schlüssiges Datenmanagementkonzept beinhalten; dieses definiert welche Daten erhoben bzw. existierende Daten erfaßt werden sollen, wie die Daten gesammelt und vereinheitlicht werden und über welches System oder Datenzentrum sie nach Auslaufen des Projektes verfügbar sein werden. Für diese projektrelevanten Datenmanagementaufgaben sind anteilige Mittel vorzusehen. (In EU-Projekten wurden ca. 3 % als notwendig definiert; im einzelnen ist der Aufwand jedoch von Heterogenität und Umfang der erhobenen Daten abhängig.) Kleinere Projekte können die Aufgabe an ein Datenzentrum deligieren, größere Projekte sollten einen eigenen Datenkurator beantragen.

Ein Nutzerbeirat, der sich aus Forschungseinrichtungen, Datenzentren und Zuwendungsgebern zusammensetzt, definiert die Policy und grundsätzliche Vorgehensweisen, berät und kontrolliert die Datenzentren und vertritt insbesondere die Interessen der Nutzer.

Die Helmholtzzentren betreiben aus ihrer Grundfinanzierung Rechenzentren mit angegliederten Datenzentren. Im Sinne der Helmholtzstatuten ist dieser Betrieb als Dienstleistung für die Allgemeinheit zu sehen. Sie sichern den technischen Betrieb der Datensysteme aus ihrem Haushalt. Dieser umfaßt die Investitionen für Hardware und Software, regelmäßige Upgrades, um das System auf dem aktuellen Stand zu halten, Buckup und eine schnelle Internetanbindung.

Die HZ treiben aktiv die Organisation wissenschaftlicher Daten durch den Aufbau von allgemein nutzbaren Systemen und Netzwerken voran. Für Datenbereiche, die bisher bundesweit nicht einheitlich erfaßt bzw. archiviert sind, müssen entsprechende Systeme jetzt entwickelt werden. Für die Initialphase wird eine Anschubfinanzierung für den Aufbau von Infrastrukturen ohne spezifischen Forschungsanteil beantragt. Diese dient der Entwicklung und Implementierung des Datenmodells sowie der Erfassung erster Datensätze für Test und Demonstration. Voraussetzung für diese Entwicklung ist, dass auch Infrastrukturprojekte ohne direkte wissenschaftliche Fragestellung in der Drittmittelförderung möglich sind. (In der Vergangenheit hatten entsprechend strukturierte Projektvorschläge wiederholt zur Ablehnung geführt.) Nach erfolgreicher technischer und wissenschaftlicher Etablierung wird der langfristige Basisbetrieb aus der Grundausstattung des HZ finanziert. Die Ressourcen für das Einbringen weiterer Daten müssen dann, wie oben ausgeführt, aus den jeweiligen Projekten kommen.

4) Service

Datenzentren stehen mit ihrer Expertise den Fördereinrichtungen, den Gutachter und der Wissenschaft beratend zur Verfügung.

Aus den Aufgaben der Helmholtzzentren (fächerübergreifende Querschnittsaufgaben und Systemlösungen) resultierend übernehmen diese die Verantwortung für einen langfristigen Betrieb.

Um einen effizienten Einsatz von Mitteln zu sichern, müssen die Datenzentren folgendes gewährleisten:
 * Übersicht über die Datenerfassung von Projekten,
 * Übersicht über bereits durchgeführte Arbeiten (Activity-liste) und ggf. vorhandenes und allgemein nutzbares Pobenmaterial,
 * Nutzung vorhandener Daten sicherstellen durch einfache Verfügbarkeit,
 * durch Zusammenfassung, Konsistensierung und Veredelung zu einem Mehrwert der Daten beitragen.

Die Datenzentren sorgen für eine Einbindung in internationale Programme und Organisationen (IOC, WDC, IGBP).

aphorismen:

Durch die einfache Verfügbarkeit der Daten über eine Suchmaschine mit umfassender Verschlagwortung in einem Thesaurus können die Projektmitglieder und die Gutachter jederzeit überprüfen, welche Daten archiviert wurden.

anmerkung und erweiterung zu empfehlung 7

Vorschäge der DFG 'zur Sicherung guter wissenschaftlicher Praxis' Empfehlung 7: Primärdaten als Grundlage für Veröffentlichungen sollen auf haltbaren und gesicherten Trägern in der Institution, wo sie entstanden sind, für zehn Jahre aufbewahrt werden.

Als haltbare und gesicherte Träger können ausschliesslich Datensysteme bezeichnet werden, die von einem Rechenzentrum täglich gesichert und langfristig, also unabhängig vom Wandel der Rechnergenerationen und Speichermedien, betrieben werden. Die Verpflichtung einer Forschungseinrichtung zur Einhaltung der DFG-Empfehlungen muss daher die Datenarchivierung in einem sachgerechten System beinhalten.

Mit öffentlichen Mitteln erhobene Daten sollten auch öffentlich zugänglich sein. Informationssysteme in Verbindung mit dem Internet bieten dafür heute die technische Voraussetzung. Mit der Annahme einer Publikation für die veröffentlichung sollten die Daten in einem System hinterlegt werden und die Publikationen eine Internetadresse zur Verfügbarkeit der Daten beinhalten. Unter bestimmten Voraussetzungen besteht die Möglichkeit einer Sperrfrist, bzw eines Zugriffsschutzes. Alle beschreibenden Metadaten sind grundsätzlich vom Zeitpunkt ihrer Erhebung an frei verfügbar.