Talk:PANGAEA XML schema

habe durch Zufall festgestellt, als ich die Klorolle in Wiki tat: Man muss Bilder nicht unbedingt uploaden ins Wiki, es geht auch dann, wenn sie bereits irgendwo im Web liegen, wie die Klorolle. Es reicht, einfach die URL aufs Bild in den Wiki-Text zu tun, wenn MediaWiki erkennt, dass hinter der URL ein Bild ist (Content-Type!!!), dann wird es angezeigt, statt ein Link präsentiert. Genau das habe ich bei der Klorolle gemacht... Fehlt nur noch der Text.

Jetzt ein kurzer Kurs zum „Erkennen“ von XML-Encodings:

Das Encoding eines XML-Dokuments erkennt man an mehreren Dingen:

a) Der Name des Root-Elements (also die oberste Ebene), oftmals ist damit zu ahnen was es ist -> Google suchen

b) Das Root-Element enthält eine oder mehrere sog. Namespace-Deklarationen (http://en.wikipedia.org/wiki/XML_namespace). Das sind Attribute, die mit "xmlns" beginnen. Diese werden auf einen URI gemappt. Dieser URI zeigt oftmals auf eine Webseite.

Einfachstes Beispiel: 

in unseren normalen Webseiten (die ja XML-formatiert sind). Der Namespace deklariert das Ding eindeutig als XHTML (http://www.w3.org/1999/xhtml). Gibt es mehrere xmlns so ist dasjenige ausschlaggebend, der als Prefix im Rootelement verwendet wird -- dasselbe Beispiel nochmal umgebaut:



"p" wäre hier ein Prefix. Das braucht man, wenn Teile eines Dokuments weiteren fremden Namespaces gehorcht (z.B. bei ISO19139).

Hier wäre ein ISO19139-Dokument aus PANGAEA: 

Fett hier der Namespace, welcher http://www.isotc211.org/2005/gmd ist. Und siehe da, man bekommt technische Dokumentation – leider steht da nirgendwo was von ISO19139, es steht aber zumindest ISO TC/211 da, wer die ISO19er-Reihe betreut. Oftmals ist das Schema direkt referenziert in einer schemaLocation (kursiv), hier ist die zweite URL eine XSD-Datei, das erste der Identifier.

Was wichtig ist: Habt Ihr so ein Dokument ganz ohne Namespace so ist es wohl sehr sehr proprietär (und sehr alt). Wenn es evtl ein Schema hat ist es etwas besser.

Hat man jetzt den Standard, kann man nachfragen, ob das wirklich ne grosse Community ist. Wenn nicht sollte man beim Datenprovider nachfragen, ob es die XML Metadaten auch in standardkonformen contentstandards/encodings gibt. Gerne hilft Uwe Schindler und Michael Diepenbroek auch beim Herausfinden und Analysieren von XMLs.

mail von uwe 2006-10-10

Für den bibliothekskatalog werden diese allerdings anders gemappt. Das Zielformat ist dabei das XML-Schema von Jan Brase für TIBORDER. Da dies nur Dublin Core mit einigen Erweiterungen ist, sind alle unsere Metadaten außer die bibliographischen als formatierter plain Text im Abstract (sieht m Grunde ähnlich formatiert aus wie der Text-Metaheader nur ohne Tabulatoren usw.). Das "Abstract" des Datensatzes ist dabei ganz am Anfang des TIBORDER Abstracts, danach kommen Referenzen, Events, Parameter und ganz am Schluss wie im Text-Metaheader das "Comment". Schau Dir dazu einfach einen Eintrag im TIBORDER an, den meisten hast du ja inzwischen einen Abstract verpasst. Bei den Bibliographischen Daten fehlen im TIBORDER zur Zeit nur das Source-Feld, da warte ich bis Jan & Jan was tun. ISO ist in etwa so gemappt (hier die Hauptteile im Metaheader): Ein Bleistift: http://ws.pangaea.de/oai/?verb=GetRecord&metadataPrefix=iso19139&identifier=oai:pangaea.de:doi:10.1594/PANGAEA.80968
 * Bibliographische Daten -> dataIdentificationInfo/citation (abstract, title, autoren (inkl. allem aus staffs auch email/telefunz), source, doi,…)
 * Coverage (alle raumrichtungen und zeitlich) -> dataIdentificationInfo/extent
 * Referenzen -> dataQualityInfo/Lineage/Source (komplett mit bibliographischen Daten, autoren mit alles aus staffs, URL, alles)
 * Events -> dataQualityInfo/Lineage/ProcessStep (als Plain Text)
 * Geocodes+Parameter -> contentInfo
 * PIs -> dataIdentificationInfo/pointOfContact
 * Projekte -> nur als Keywords, evtl. als allg-contact
 * Keywords -> keywords
 * Size -> dataIdentificationInfo/size
 * Allgemeines zu PANGAEA -> allg-contact