Intern talk:Project data management/marum

Projektbereich Z2 – Data information system PANGAEA® / ICSU World Data Center for Marine Environmental Sciences (WDC-MARE) – Bericht 05/2009-05/2010 – M. Diepenbroek, H. Grobe

Internationale Einbindung und Sichtbarkeit PANGAEA® / WDC-MARE arbeitet zu 2 Kerngeschäftsbereichen:
 * 1.	Management und Publikation wissenschaftlicher Daten
 * 2.	Geodateninfrastrukturen

Management und Publikation wissenschaftlicher Daten umfasst alle wesentlichen Arbeitspro-zesse von der Erstellung bis zur Archivierung und Publikation wissenschaftlicher Primärinforma-tionen. Ein Alleinstellungsmerkmal PANGAEA® / WDC-MAREs ist die dauerhafte Online Ver-fügbarkeit von in sich und untereinander harmonisierten wissenschaftlichen Datensätzen, deren Granularität an die wissenschaftliche Fragestellung angepasst ist. Für das MARUM stellt PANGAEA® Datenmanagementdienste für die zugehörigen Wissenschaft-ler zur Verfügung. Dazu gehören die Archivierung und Publikation von Daten von wissenschaftli-chen Expeditionen ebenso wie Primärdaten zu den laufenden wissenschaftlichen Arbeiten. Neben den Arbeiten für das MARUM leistet PANGAEA® aktuell Datenmanagement Dienste für den europäischen Anteil des IODP (MSP) und die „post cruise“ Daten des IODP (NSF Vertrag), für das EUR-OCEANS Consortium, für die EU-Projekte ESONET (NoE), EMSO (CP), EPOCA (CP), CoralFish (CP), SPICOSA (NoE), SESAME (IP) und HYPOX (CP), sowie im nationalen Rahmen für den SPP1144, BIOACID, INTERDYNAMIK und SOPRAN (dt. SOLAS), letzteres im Verbund mit UK und Norwegen. Mit EUR-OCEANS wurde Ende 2008 ein Konsortialvertrag geschlossen, welcher die langfristige Bereitstellung von Datenmanagement Diensten einschließlich des Datenportals regelt. Alle in PANGAEA® archivierten Datensätze sind langfristig, nachhaltig und entsprechend dem „Open Access“ Prinzip und den ISCU WDC Regularien frei verfügbar und über einen sog. Digital Object Identifier (DOI) persistent referenzierbar.

Im Laufe des Jahres 2009 wurde die Kooperation mit Elsevier, welche die direkte Referenzierung von PANGAEA® Datensätzen als Supplement zu wissenschaftlichen Publikationen von den Science Direct Seiten ermöglicht, technisch umgesetzt. Seit Mai 2009 sind für bei ScienceDirect angemeldete Benutzer alle als Supplement abgelegte Daten direkt auf den Artikel-Webseiten sichtbar und verknüpft. Im November wurde das auf alle Seitenbesucher erweitert. Ähnliche Ko-operationen wurden mit der AGU, Copernicus und Nature begonnen. Dienste dieser Art werden in den nächsten 5 Jahren erheblich zur Verbesserung der allgemeinen Verfügbarkeit und Qualität von geowissenschaftlichen Daten beitragen.

Geodateninfrastrukturen sind vor allem im globalen Kontext notwendig, um den in den letzten Jahren enorm gestiegenen Anforderungen der Wissenschaft an die internationale Verfügbarkeit, Konsistenz und Qualität großer Datenmengen zu begegnen. Daten werden typischerweise über zentrale Portaldienste zur Verfügung gestellt, wobei PANGAEA® einerseits in der Rolle als „Da-ten- und Metadatenverteiler“ und andererseits als zentraler Netzwerkbauer, Portalbetreiber und Broker zwischen den unterschiedlichen e-Infrastrukturen auftritt. Für den Bau von Portalen und die Anbindung von Datenanbietern hat die PANGAEA® Gruppe in den letzten Jahren eine Open Source Software entwickelt (Schindler & Diepenbroek 2008), die aufgrund ihrer modularen Gestaltung beliebige Metadatenstandards (ISO19xxx, DIF, Dublin Core, Darwin Core etc.) unterstützt. Die Software wird für diverse Projekte eingesetzt (IODP, CAR-BOOCEAN, EUR-OCEANS, EPOCA, ESONET, SPICOSA, HYPOX). So hat PANGAEA® in IODP den Zuschlag für den Bau des internationalen Daten- und Informati-onsportals bekommen (SEDIS). Das Portal umfasst Daten aus Janus (US-IO), Japan und EUROPA (PANGAEA®) sowie die „legacy“ Daten (DSDP, ODP) (Phase I) sowie die zentralen Expediti-ons- und Publikationskataloge (Phase II) (http://sedis.iodp.org/). Zum Ende des Jahres 2009 wurde Phase II des Projekts (Publikationen und Zitate) fertig gestellt. Darin wurden die im Datenportal der Phase I vorhandenen Daten mit Publikationen verknüpft. Der im Herbst 2009 bei der NSF ge-stellte Antrag für Phase III (Datenservices, Datenaggregation, Visualisierung) befindet sich z.Z. in der Vertragsphase. Im Gefolge der ICSU WDC Konferenz 2007 in Bremen hat die PANGAEA® Gruppe die Vernet-zung der WDCs weitergeführt. Derzeit sind 15 Datenzentren aus den USA und Europa angeschlos-sen (http://www.world-data-centers.org/ ). Das WDC Netzwerk ist ein wichtiger Baustein in dem neugeschaffenen World Data System (WDS) der ICSU. PANGAEA® ist in dem 2008 von ICSU gegründeten „World Data System Scientific Committee (WDS-SC)“ vertreten (Diepenbroek). Auch als Metadaten und Datenprovider für fremde Portale tritt PANGAEA® vielfältig in Erschei-nung. Über diverse Metadatenstandards und Protokolle (OGC-CS, OAI-PMH, DiGIR, ABCD) werden diverse Portale und Suchmaschinen mit den Inhalten aus PANGAEA® versorgt. Das PANGAEA® Datenwarenhaus ist bereits für eine Reihe von Projekten produktiv im Einsatz (EUR-OCEANS, CARBOOCEAN, AWI Luftchemie und Ozeanographie) und wird weiterhin als allgemein nutzbares Werkzeug ausgebaut. In dem NoE ESONET leitet PANGAEA® das Arbeitspaket „networking“ und hat speziell die Aufgabe, die Voraussetzungen für eine Vernetzung von Observatorien zu untersuchen, geeignete Dienste zu konzipieren und Prototypen zu implementieren. ESONET ist im internationalen Rah-men von GEOSS zu sehen. Erwähnenswert ist in diesem Zusammenhang ein von Statoil finanzier-tes Projekt (gemeinsam mit der JUB), welches die Einbindung mehrerer Statoil Plattformen in das Netzwerk zum Ziel hat.

Der breitspektrale und reichhaltige Datenhintergrund sowie die zahlreichen Infrastruktur-Aktivitäten haben PANGAEA® zu einem signifikanten, global stark gefragten Anbieter wissen-schaftlicher Daten und wissenschaftlichen Informationsmanagements gemacht. PANGAEA® / WDC-MARE ist aktuell in 18 überwiegend hochrangigen nationalen und internationalen Projekten im wissenschaftlichen Daten- und Informationsmanagement eingebunden. Ende Juni 2009 umfasst der Bestand nahezu 620.000 Datensätze mit mehr als 5.5 Milliarden Datenpunkten zu ca. 35.000 verschiedenen Parametern bzw. Meß- und Observationsgrößen. Für das MARUM und die ange-schlossenen Institute (besonders AWI) wurden bislang mehr als 40.000 Datensätze archiviert.

Milestones für das Folgejahr
 * Weiterentwicklung der Grundlagen und des redaktionellen Betriebes zur Publikation wissen-schaftlicher Daten insbesondere auf dem Hintergrund der Kooperation mit wissenschaftlichen Ver-lagen (Elsevier, Springer, AGU, Thomson Reuters) und der Zeitschrift „Earth System Science Data – EESD“ von Copernicus. Hier hinein fallen regelmäßige Treffen von SCOR/IOC zum Thema Datenpublikation.
 * Die bestehenden Vernetzungen zwischen Datenzentren und Observatorien werden weiter ausge-baut. Im Rahmen des ICSU WDS wird ein umfassendes globales Netzwerk von „Datenbibliothe-ken angestrebt. Auf der Europäischen Ebene bildet das Engagement in ESONET/EMSO (mit Sta-toil), das Norwegische Monitoring Programm und EMODNET mit entsprechenden Projektbeteili-gungen weitere Schwerpunkte.
 * Zur engeren Verknüpfung von Daten und Publikationen wird an einem Redaktionssystem für Datensatzpublikationen gearbeitet, bei der der Publikationsworkflow der Verlage über ein Portal mit den Datenzentren (u.a. PANGAEA) verbunden werden soll. Ein entsprechender DFG Antrag ist in Vorbereitung.

Organisation von Workshops
 * ESONET Data Management Workshop, 4. – 5. Juni 2009
 * Data Management Coordination Group (DMCG) Technical Meeting, 18. – 20 November 2009
 * PANGAEA Kuratorentreffen, 9. -10. März 2010

Publikationen
 * Schindler, U, Diepenbroek, M, 2008. Generic XML-based Framework for Metadata Portals. Com-puters & Geosciences. doi:10.1016/j.cageo.2008.02.023
 * Dittert, N, Diepenbroek, M, Grobe, H, 2010. Data and information management for the CMTT synthesis. In: Liu, K-K; Atkinson, L; Quiones, R and Talaue-McManus, L (eds.): Carbon and Nu-trient Fluxes in Continental Margins: A Global Synthesis, Springer, Berlin Heidelberg. hdl:10013/epic.32128.d001
 * Conze, R, Krysiak, F, Reed, J, Chen, Y-C, Wallrabe-Adams, H-J, Colin Graham and the New Jer-sey Shallow Shelf Science Team, Volker Wennrich and the Lake El’gygytgyn Science Team (2010): New system integrating ExpeditionDIS, PSICAT and Corelyzer in ICDP and IODP-Mission Specific Platform Expeditions, Scientific Drilling, Vol. 9, in press
 * Huber, R & Klump, J, 2009. Charting taxonomic knowledge through ontologies and ranking algor-ithms, Computers and Geosciences, 35, 4, 862-868. doi:10.1016/j.cageo.2008.02.016
 * Geissler, L, Huber, R. & Bentley, C, The state of the Geoblogosphere - Geoscience communica-tion in the social web, Computers and Geosciences, submitted