Intern:Project data management/marum

PANGAEA - Publishing Network for Geoscientific and Environmental Data

Das MARUM betreibt gemeinsam mit dem AWI das Informationssystem PANGAEA als Publikationssystem und digitale Datenbibliothek für georeferenzierte Meß- und Beobachtungsdaten. Die wissenschaftlichen Primärdaten des rcom werden mit Pangaea erfasst und sind u.a. über die Suchmaschine PangaVista verfügbar. Im Rahmen des von der DFG geförderten Projektes zur Etablierung des Datenzitates mit einer DOI sind Daten jetzt auch im bibliographischen Sinne zitierfähig, und über Bibliothekskataloge (TIB) verfügbar. Daten sind grundsätzlich mit den zum Verständnis notwendigen Metadaten versehen. Teilmengen des Datenbestandes können auch über themenspezifische Portale verteilt werden (z.B. CarboOceans).

Das World Data Center for Marine Environmental Sciences (WDC-MARE) ist als Mitglied des WDC-Systems von ICSU der offizielle Rahmen, in dem die Daten der Meeresforschung des rcom der internationalen Wissenschaftsgemeinschaft zur Verfügung gestellt werden. WDC-MARE übernimmt auch für externe Projekte das Datenmanagement, immer unter Verwendung von PANGAEA als technisches Archiv. Nach Abschluss eines Projektes ermöglicht die Reihe WDC-MARE Reports eine Veröffentlichung der gesammelten Daten auf CD; der Verteiler umfaßt ca. 500 Bibliotheken weltweit.

Technische Systembeschreibung: PANGAEA nutzt die Client/Server-Technologie in einer dreifach abgestuften Struktur; das zentrale Datenmodell läuft auf einer relationalen Datenbank (PostgreSQL). Die Interaktion mit den Nutzern erfolgt über einen speziellen Client für den Import durch die Kuratoren und verschiedene Webservices für die Abfrage von Daten. Die Kommunikation zwischen Server und Clients erfolgt über Softwaremodule, die über einen Applicationserver verwaltet werden. Standarddatensätze liegen in einer relationalen Tabelle, Massendaten werden in Bandsystemen archiviert. Dieses über zwei unterschiedliche Standorte verteilte Archiv übernimmt auch eine gespiegelte Datensicherung.

Für die Archivierung und Publikation von Daten steht die Datenkuratorin Lydia Gerullis am rcom zur Verfügung.


 * Projektbereich Z2 - Bericht 07/2005-06/2007

Internationale Einbindung und Sichtbarkeit PANGAEA / WDC-MARE arbeitet zu 2 Kerngeschäftsbereichen:
 * 1) Management und Publikation wissenschaftlicher Daten
 * 2) Globale Dateninfrastrukturen

Management und Publikation wissenschaftlicher Daten umfasst alle wesentlichen Arbeitsprozesse von der Erstellung bis zur Archivierung wissenschaftlicher Primärinformationen. Ein Alleinstellungsmerkmal PANGAEAs / WDC-MAREs ist die permanente online Verfügbarkeit von in sich und untereinander har-monisierten wissenschaftlichen Datensätzen, deren Granularität an die wissenschaftliche Fragestellung an-gepasst ist. Alle Datensätze sind langfristig, nachhaltig und „kostenlos“ verfügbar und über einen einen sog. Digital Object Identifier (DOI) persistent referenzierbar. In einem korrespondierenden, von der DFG geför-derten Projekt „Zitierfähigkeit wissenschaftlicher Daten“ ist PANGAEA maßgeblicher Partner. Das DOI Projekt findet international viel Zuspruch. Neben den Arbeiten für das rcom leistet PANGAEA aktuell Datenmanagement Dienste für den europäi-schen Anteil des IODP (MSP), für die EU-Projekte HERMES (IP), CARBOOCEAN (IP), EUR-OCEANS (NoE) und CENSOR (IP), sowie im nationalen Rahmen für den SPP144 und SOPRAN (dt. SOLAS), letzte-res im Verbund mit UK und Norwegen. In EUR-OCEANS werden unter der Leitung von PANGAEA zudem mit insgesamt ca. 400 Keuro soge-nannte „data rescue“ Projekte und Datensyntheseprojekte gefördert, die insbesondere in osteuropäischen Ländern viele Datenquellen mit umfangreichen und langen Zeitreihen aus bio- und geowissenschaftlichen Bereichen erschliessen. Die Projekte fördern die Integration von zahlreichen Gruppen und Instituten in Eu-ropa und den assoziierten Staaten und die Fokussierung auf gemeinsame wissenschaftliche Ziele bei der Modellierung von marinen Ökosystemen.

Globale Dateninfrastrukturen sind notwendig um den in den letzten Jahren enorm gestiegenen Anforderun-gen der Wissenschaft an die internationale Verfügbarkeit, die Konsistenz und Qualität großer Datenmengen zu begegnen. Daten werden typischerweise über zentrale Portaldienste zur Verfügung gestellt, wobei PANGAEA einerseits in der Rolle als „Datendistributor“ und andererseits als zentraler Netzwerkbauer und Portalbetreiber auftritt. Für den Bau von Portalen und die Anbindung von Datenanbietern hat die PANGAEA Gruppe in den letzten Jahren eine Open Source Software entwickelt (Schindler & Diepenbroek submitted), die aufgrund ihrer modularen Gestaltung beliebige Metadatenstandards (ISO19xxx, DIF, Dublin Core, Darwin Core etc.) un-terstützt. Die software lässt sich daher flexibel für diverse Projekte einsetzen. So hat PANGAEA in IODP den Zuschlag für den Bau des internationalen Datenportals bekommen. Dabei hat sich die Gruppe gegen eine Reihe weiterer – auch kommerzieller – Bewerber durchgesetzt. Das Portal umfasst die Daten aus den USA, Japan und EUROPA sowie die „bore hole“ und die „legacy“ Daten (DSDP, ODP). Die Fertigstellung ist für Ende September 2007 geplant. Weitere Datenportale stellt PANGAEA für CARBOOCEAN (Datenportal Marine Carbon Sources and Sinks Assessment) und EUR-OCEANS zur Verfügung. Angeschlossen sind hier das IFREMER, CDIAC (US WDC Carbon), COPEPOD und PLANKTONET. In Verhandlungen stehen das BODC (UK) und das NODC (WDC Oceanography) in Washington. Das CARBOCEAN Portal wird von internationalen Organi-sationen wie UNESCO/IOCCP, IGBP, IMBER, LOICZ und SOLAS unterstützt. Diese eher initalen Netz-werke sollen später zu größeren Verbünden ausgebaut werden (s. Milestones Folgejahr). Auch als Datenanbieter tritt PANGAEA vielfältig in Erscheinung. Über die verschiedenen Metadatanstan-dards und Protokolle (OGC-CS, OAI-PMH, DiGIR, ABCD) werden diverse Portale und Suchmaschinen mit den Inhalten aus PANGAEA versorgt, u.a. Scientific Commons, OAIster, TIB Hannover, GBIF, OBIS, GeoportalBUND und nicht zuletzt Google. Eine besondere Herausforderung ist die Beteiligung in dem BMBF geförderten C3-Grid. In diesem Zusammenhang stellt PANGAEA ein Datenwarenhaus mit sämtli-chen Observationsdaten zur Verfügung (s. auch Milestones Folgejahr) Ein neues Feld ist mit dem geplanten Europäischen Verbund von Meeresobservatorien entstanden. In dem NoE ESONET (Start 3/2007) leitet PANGAEA das Arbeitspaket „networking“ und hat speziell die Aufga-be, die Voraussetzungen für eine Vernetzung von Observatorien zu untersuchen, geeignete Dienste zu kon-zipieren und Prototypen zu implementieren. ESONET ist im internationalen Rahmen von GEOSS zu sehen.

Der breitspektrale und reichhaltige Datenhintergrund sowie die zahlreichen Infrastruktur-Aktivitäten haben PANGAEA zu einem signifikanten, global stark gefragten Anbieter wissenschaftlicher Daten und wissen-schaftlichen Informationsmanagements gemacht. PANGAEA / WDC-MARE ist aktuell in 13 z. T. hoch-rangigen nationalen, internationalen, multi-nationalen und ausländischen Projekten im wissenschaftlichen Daten- und Informationsmanagement eingebunden. Die Datenbestände haben sich in den letzten Jahren jeweils nahezu verdoppelt.

Organisation von Workshops: Im Mai 2006 wurde die internationale WDC Conference am MARUM abgehalten, bei der 31 von 51 Welt-datenzentren aus 12 Ländern anwesend waren. Zurückblickend auf 50 Jahre wissenschaftliches Datenma-nagement im WDC-Kontext wurde über geeignete Maßnahmen diskutiert, das gesamte WDC System an die Bedürfnisse modernen Datenmanagements anzupassen. Vier Themen spannten den inhaltlichen Boden: WDC und GEOSS. José Achache, Direktor der Group on Earth Observations (GEO), betonte die Wichtigkeit des WDC Systems als globale Langzeitarchiv- und Datenmanagement-Kapazität.. WDC und Networking. Im globalen Vergleich ist das WDC System schon jetzt ein erfolgreich operie-render Netzwerkverbund und daher von fundamentaler Bedeutung für andere Netzwerke (UNESCO/IODE, Peter Pissierssens). WDC Datenzugriff und Datenqualität. Das WDC System ist das einzige Datennetzwerk, das wissen-schaftliche Daten „kostenlos“ und ohne jede Benachteiligung bzw. Begünstigung Dritter zur Verfügung stelle. Insbesondere wurde das Konzept der Datenpublikation vorgestellt und diskutiert. WDC und IPY. Seit dem ersten International Polar Year in 1881-1884 waren IPYs immer groß ange-legte wissenschaftliche Unternehmungen. Die WDCs werden das IPY maßgeblich beim Datenmanagement unterstützen.

Maßnahmen zur Verknüpfung der Teilprojekte: Generell werden alle zum RCOM arbeitenden Teilprojekte im Datenmanagement verknüpft: Nach Fertig-stellung von Datensätzen wird in einem interaktiven Verfahren zwischen Wissenschaftler und Datenbank ein Höchstmass an Datenqualität (Primärdaten, Metadaten) produziert. Daten sind je nach Publikationssta-tus umgehend für RCOM Wissenschaftler bzw. für die Öffentlichkeit verfügbar oder copyright geschützt. Aktuell sind 1337 Datensätze online erhältlich. Eine spezielle Kooperation besteht zwischen der Meerestechnik und PANGAEA, zuletzt über das gemein-same Projekt ESONET (Waldmann, WP leader Standardization).

Beiträge zur Öffentlichkeitsarbeit: PANGAEA / WDC-MARE tritt in zahlreichen, publikumswirksamen Mitteilungen für die breite Öffentlichkeit auf, die jedoch in Eigenregie der jeweiligen Eu-Projekte gestaltet werden. Aufgrund der o. a. WDC Conference erschienen 4 Pressemitteilungen bzw. Radiobeiträge (Deutschlandunk, Planet erde, VDI nachrichten, wissensmanagement).

Milestones“ für Folgejahr


 * Die jetzt nur in Ansätzen bestehenden Vernetzungen zwischen Datenzentren werden weiter ausgebaut. Konkret in Planung sind ein WDC Netzwerk und ein NODC Netzwerk (UNESCO-IODE). Zahlreiche Vor-gespräche und Veranstaltungen sind bereits absolviert.
 * Das PANGAEA Datenwarenhaus wird als allgemein nutzbare Schnittstelle im Web zur Verfügung ge-stellt. Dieses ermöglicht sekundenschnelle raumzeitliche Abfragen nach beliebigen Datentypen. Das bedeu-tet eine erhebliche Effizienzsteigerung bei der Zusammenstellung von Datenpaketen insbesondere für Mo-delliervorhaben.
 * Der GCMD (Global Change Master Directory) Schlagwortkatalog wird in Zusammenarbeit mit den inter-nationalen Programmen PAGES und IMAGES sowie dem WDC Paleo (Boulder, USA) erstellt.
 * PANGAEA ist in dem 2007 von ICSU gegründeten „ad hoc committee on data and information (SCID)“ vertreten (Diepenbroek). Dabei sollen das WDC System, FAGS und der CODATA Verbund in ihrer Rollen und ihrem Zusammenspiel untersucht und Pläne für die weitere Entwicklung erstellt werden. Ziel der PANGAEA Gruppe ist dabei, die z.T. in PANGAEA entstandenen Konzepte von Datenmanagement und modernen Infrastrukturen in die Planung einzubringen um damit die Revision und die Neuorientierung ins-besondere des WDC Systems voranzutreiben