Intern talk:Project data management

Datenmanagement in der Wissenschaft: Ein 5-Punkte-Programm für eine bessere Nutzung und Akzeptanz

Problem

In Abhängigkeit von der wissenschaftlichen Disziplin ist zwar eine Datenarchivierung in Einzelfällen etabliert, meißt aber kaum oder nicht vorhanden. Allerdings ist auch bei lokal etablierten Systemen nur selten eine Verfügbarkeit über das Internet bzw. eine echte Langzeitarchivierung gewährleistet.

Die bisher kaum vorhandene Akzeptanz für eine Archivierung und -publikation und eine fehlende Zitierfähigkeit von Daten führt dazu, dass ein wesentlicher Teil wichtiger und auch teurer Primärdaten, die Publikationen zugrund liegen, verloren geht. Auch entspricht dies nicht den von der DFG definierten Regeln zur guten wissenschaftlichen Praxis. Es ist kaum möglich einen vollständigen Überblick zu den in einem Forschungsfeld erhobenen Daten zu erhalten oder eine vollständige Auflistung aller Daten zu einem bestimmten Thema zusammenzutragen.

Im folgenden werden Punkte vorgeschlagen, die einer Verbesserung der Akzeptanz dienen sollen. Diese umfassen sowohl Maßnahmen für eine verbesserte Datenerfassung, zur Finanzierung der Datenarchivierung und zur Motivation.

(1) Datenfluss (Nutzer>Archiv)

Nur wenn eine enge Abstimmung zwischen Projektträger, Wissenschaft und Datenzentren sichergestellt ist, kann eine erfolgreiche Datenarchivierung gewährleistet werden. Die aus der naturwissenschaftlichen Grundlagenforschung resultierenden Datengruppen werden daher den entsprechenden Datenzentren zugeordnet (wie z.B. im Konzept für Daten der Meeresforschung vom BMBF vorgeschlagen). Koordinatoren und Projektträger ausgewiesener Förderprogramme arbeiten, beginnend mit der Ausschreibung mit 'ihren' Datenzentren zusammen. Koordinator und Datenkurator sind verantwortlich für die Bereitstellung qualitätsgeprüfter Daten inklusive einer vollständigen Beschreibung (Metadaten) durch die am Projekt beteiligten Wissenschaftler. Der Datenkurator sichert Konsistenz sowie technische Qualität und Verfügbarkeit.


 * Der Fluss von Primärdaten vom Erzeuger in Informationssysteme sollte integraler Bestandteil wissenschaftlicher Arbeit werden.
 * Die Datenzentren informieren die wissenschaftliche Gemeinschaft über ihre Strukturen, Tätigkeiten und Produkte.
 * Die Datenzentren betreiben aktive Aquise durch die Beteiligung an nationalen und internationalen Projekten.

2) Datenpublikation (Archiv>Nutzer)


 * Forschungsinstitute integrieren das Datenzitat in ihre Publikationslisten.
 * Zeitschriften und Webseiten der wissenschaftlichen Gesellschaften verweisen auf die Möglichkeit der Datenarchivierung mit Zitat.
 * Portale und Bibliothekskataloge gewährleisten eine zuverlässige Findbarkeit der Datenzitate.

3) Finanzierung

Anträge sollten ein schlüssiges Datenmanagementkonzept beinhalten. Es definiert welche Daten erhoben bzw. existierende Daten erfaßt werden sollen, wie die Daten gesammelt und vereinheitlicht werden und über welches System oder Datenzentrum sie nach Auslaufen des Projektes verfügbar sein werden. Für diese projektrelevanten Datenmanagementaufgaben sind anteilige Mittel vorzusehen. (In EU-Projekten wurden ca. 3 % als notwendig definiert; im einzelnen ist der Aufwand jedoch von Heterogenität und Umfang der erhobenen Daten abhängig.) Kleinere Projekte können die Erfassung mit einem Datenzentrum direkt abwickeln, größere Projekte (SFB, SPP, IP) sollten einen eigenen Datenkurator beinhalten.

Ein Nutzerbeirat, der sich aus Forschungseinrichtungen, Datenzentren und Zuwendungsgebern zusammensetzt, definiert die grundsätzliche Vorgehensweisen, berät und kontrolliert die Datenzentren und vertritt insbesondere die Interessen der Nutzer.

Die Helmholtzzentren betreiben aus ihrer Grundfinanzierung Rechenzentren mit angegliederten Datenzentren. Sie sichern den technischen Betrieb der Datensysteme aus ihrem Haushalt. Im Sinne der Helmholtzstatuten kann dieser Betrieb auch als Dienstleistung für externe Nutzergruppen gesehen werden. Dieser umfaßt die Investitionen für Hardware und Software, regelmäßige Upgrades, um das System auf dem aktuellen Stand zu halten, Buckup und eine schnelle Internetanbindung.

Die HZ treiben aktiv die Organisation wissenschaftlicher Daten durch den Aufbau von allgemein nutzbaren Systemen und Netzwerken voran. Für Datenwelten, die bisher bundesweit nicht einheitlich erfaßt bzw. archiviert sind, müssen entsprechende Systeme jetzt entwickelt werden. Für die Initialphase sollte eine Anschubfinanzierung für den Aufbau einer technischen Infrastruktur beantragt werden können. Diese dient der Entwicklung und Implementierung des Datenmodells sowie der Erfassung erster Datensätze für Test und Demonstration. Voraussetzung für entsprechende Anträge ist, dass auch Infrastrukturprojekte ohne direkte wissenschaftliche Fragestellung in der Drittmittelförderung möglich sind. (In der Vergangenheit hatten entsprechend strukturierte Projektvorschläge wiederholt zur Ablehnung geführt.) Nach erfolgreicher technischer und wissenschaftlicher Etablierung muß der langfristige Basisbetrieb aus der Grundausstattung der betreibenden Einrichtung finanziert werden. Die Ressourcen für das Einbringen neuer Daten sind projektspezifisch einzuwerben.

4) Service

Datenzentren stehen mit ihrer Expertise den Fördereinrichtungen, den Gutachter und der Wissenschaft beratend zur Verfügung.

Aus den Aufgaben der Helmholtzzentren (fächerübergreifende Querschnittsaufgaben und Systemlösungen) resultierend übernehmen diese die Verantwortung für einen langfristigen Betrieb.

Um einen effizienten Einsatz von Mitteln zu sichern, müssen die Datenzentren folgendes gewährleisten:
 * Übersicht über die Datenerfassung von Projekten,
 * Übersicht über bereits durchgeführte Arbeiten (Activity-liste) und ggf. vorhandenes und allgemein nutzbares Pobenmaterial,
 * Nutzung vorhandener Daten sicherstellen durch einfache Verfügbarkeit,
 * durch Zusammenfassung, Konsistensierung und Veredelung zu einem Mehrwert der Daten beitragen.

Die Datenzentren sorgen für eine Einbindung in internationale Programme und Organisationen (IOC, WDC, IGBP).

aphorismen:

Durch die einfache Verfügbarkeit der Daten über eine Suchmaschine mit umfassender Verschlagwortung in einem Thesaurus können die Projektmitglieder und die Gutachter jederzeit überprüfen, welche Daten archiviert wurden.

anmerkung und erweiterung zu empfehlung 7

Vorschäge der DFG 'zur Sicherung guter wissenschaftlicher Praxis' Empfehlung 7: Primärdaten als Grundlage für Veröffentlichungen sollen auf haltbaren und gesicherten Trägern in der Institution, wo sie entstanden sind, für zehn Jahre aufbewahrt werden.

Als haltbare und gesicherte Träger können ausschliesslich Datensysteme bezeichnet werden, die von einem Rechenzentrum täglich gesichert und langfristig, also unabhängig vom Wandel der Rechnergenerationen und Speichermedien, betrieben werden. Die Verpflichtung einer Forschungseinrichtung zur Einhaltung der DFG-Empfehlungen muss daher die Datenarchivierung in einem migrationsfähigen System beinhalten.

Mit öffentlichen Mitteln erhobene Daten sollten auch öffentlich zugänglich sein. Informationssysteme in Verbindung mit dem Internet bieten dafür heute die technische Voraussetzung. Mit der Annahme einer Publikation für die veröffentlichung sollten die Daten in einem System hinterlegt werden und die Publikationen eine Internetadresse zur Verfügbarkeit der Daten beinhalten. Unter bestimmten Voraussetzungen besteht die Möglichkeit einer Sperrfrist, bzw eines Zugriffsschutzes. Alle beschreibenden Metadaten sind mit ihrer Erhebung immer frei verfügbar.