Intern talk:Sedis

Es wird bei SEDIS früh um 6 geharvestet, allerdings ist der Webserver dahinter nochmal nen Schritt zurück. Der merkt bei der ersten Anfrage, dass der Index sich verändert hat, ignoriert das aber erstmal und queuet für 3 Minuten später einen Index Reload (der expensive ist, bei PangaVista merkt man das daran, dass Parents bezüglich derer Childs die Verzögerung in der Darstellung haben). Er queuet das deshalb, damit er während des Harvesting-Vorgang (eben wenn der gerade "in process" ist) nicht ständig eine Änderung feststellt und somit dauernd reloaded.

Er stellt also nur fest, "es hat sich was geändert, aber schau erstmal dass sich nicht noch mehr ändert und reloade den Index nicht jedes Mal". Da das SEDIS portal noch relativ unfrequentiert ist, merkt der Webserver erst beim ersten Zugriff (wahrscheinlich Deinem um 8 Uhr früh!) dass sich was um 6 geändert hat und du musst eben noch mal die 3 Minuten warten (das ist beim PangaVista auch so, nur wird der alle halbe Stunde um :08 und :38 geharvestet und die Zugriffe auf de PangaVista sind im Sekundentakt... und fällt daher nicht auf).

Um Projekte aufzunehmen, die nicht mit ODP in irgendeiner Weise zusammen hängen (und auch nicht an eines der drei ODP-Projekte gehängt werden sollen), müsste ich also für CRP und ANDRILL einfach je einen weiteren Index einfügen (also dem Harvester sagen, er soll auch die 2 Sets harvesten und separaten Index anlegen). Solange das nur 2 sind ist OK. Werden es mehr, dann empfiehlt sich, ein technisches keyword anzuhängen, was soviel heisst wie tue additional in SEDIS rein. Alle technischen Keywords werden nämlich auch als SET über OAI freigegeben und somit in einem Aufwasch und vor allem in einen einzigen Index geharvestet (zu viele einzelne und vor allem kleine Indexe reduzieren Performance, ein großer Index mit 600000 Einträgen ist das beste was man haben kann, 600000 Indexe mit je einem Datensatz eher das schlechteste, ist irgendwie auch klar). Wie das mit Sets/Datenprovidern und Indices ist, steht auch in Schindler et al. (2007). Bitte das Paper immer zitieren wenn das Wort Datenportal fällt