Talk:Costs

Costs for data curation, archiving and publication is a matter of negotiation depending on the requirements and the amount and complexity of the data. Following EU recommendations it is usualy 1-3 % of the project budget.

project-related costs

 * data curator (equivalent to TV-L E12/E13): 54-58.8 k€/personyear (DFG 2008/2009 see link)
 * support for large scale projects, e.g. EU: 1 personmonth/year + 85% overhead = 10 k€/year
 * individual support by Pangaea department: 32.- €/h
 * portal setup - depending on the status of the content in the repositories of data providers: 0.5 to 10 k€
 * data supplement of publication: 120.- €/paper (equivalent to page charges for publications)
 * data archiving: 40.- €/data set (volume discount)
 * DOI registration: 0.50 €/DOI (volume discount)
 * data compilations/products depending on the number of parameters: minimum 250.-€

Personalkostendurchschnittssatz der DFG (2010) E13 (BAT IIa, A13) = 58.800,- €
 * 2.080 Jahresarbeitsstunden (ohne Wochenenden), -80 Stunden für Feiertage, -240 Stunden für Urlaub (30 Tage) = 1.760 Basisstunden.
 * 58.800/1760=33,41 €
 * + Vollkosten-GK-Satz 73 % = 57.80
 * + Vw-Gemeinkosten 10 % = 63.58
 * + Umsatzsteuer 19% = 75.66 € pro Stunde

(Arbeitstage/Jahr 253-256 (-30 Urlaubstage), Stundensätze für Besoldungsgruppe A13 (Verwaltung) Vollkosten 56,50 (entspr. Gehalt + overhead), Stundensätze (scale rates) freie Wirtschaft für promovierte Wissenschaftler: Manager 368.- (Senior Manager: 462, Director: 556)

operational costs at AWI computer center (2009)
total -> 7.5 k€/a
 * Personal (75 k€/personyear)
 * 1 week pro-rata / network, backup, systems = 75/52 k€/a (Herbert, Hans KB, Jens, Chresten)
 * 1 month pro-rata/RDBMS Sybase = 75/12 k€/a (Christian)

 total ->  35 k€/a
 * Investment, consumables, licences, support, maintanance
 * Hardware: 10 k€/5 years   -> 2 k€/year
 * SW-maintenance                 -> 25 k€/year
 * training every 5 years         -> 0.5 k€/year

Status by Christian (2010-03):
 * ASE licenses is the one Manfred Reinke negotiated with Sybase some 10 years ago, that is, 1 "server license" including up to 8 cores (cpus in 19-something), which still suits our current hardware, 1 "internet access license", and 200 "networked seats". Current software support fees are 255 € (server), 425 € (internet access), and 10.150 € (seats).
 * IQ, running on 4 cores, the regular per-core license price was (2006) 34.800 €, but Sybase granted AWI an 80 % volume discount, so the actual price was slightly less than 7.000 €. Furthermore, we helped Sybase to report our experiences with IQ as a customer success story (cf. http://www.sybase.com/detail?id=1052607), and got one of the four IQ licences for free, leaving a bill of 21.000 €.
 * The annular software support amounts to 20% of the license price, that is, 7.390 € per core, 29.600 € in total for 4 cores; there is a "software support volume discount" of 75%, and our annual fee for IQ is currently 7.390 €.
 * In sum, annual license fee for the server part is 18.220 €. With power designer and some other smaller items included, we're just below 20.000 €.

''At present, this is sufficient, and especially ASE will run for a long time on its machine, but with respect to IQ, we will face a bottleneck as soon as the ever-growing data volume necessitates more powerful hardware. In the past, our Sybase representatives were always willing to cooperate, and when we last raised this issue with IQ, their reply was "just tell what you need, and we'll find an agreeable solution" - whatever that will turn into two years from now...''

operational fix costs (proposed)

 * system manager
 * data librarian
 * web services (2)
 * project manager
 * user frontend/data visualization/GIS
 * documentation/secretary
 * data archaeology
 * data typist

 total PANGAEA budget (aimed) ->  500 k€/a

Links
Personaldurchschnittssätze der DFG 2008/9

Geschäftsmodel
Die Archivierung und Publikation von Daten erfolgt sowohl im Rahmen von Instituten und Projekten, als auch für einzelne Wissenschaftler, häufig in direktem Bezug zu einer wissenschaftlichen Publikation. In größeren Forschungsverbünden wie Instituten oder Projekten wird diese Arbeit durch eigenes Personal ausgeführt. Eine individuelle Archivierung kann von professionellen Datenkuratoren des Datenzentrums erfolgen. Der Aufwand am Datenzentrum ist von der Anzahl der Aufträge abhängig. Er wird vermutlich in den nächsten Jahren mit der Verpflichtung zu einer nachhaltigen Datenverfügbarkeit steigen. Dieser Aufwand ist bisher nicht planbar und kann langfristig nicht vom Datenzentrum erbracht werden. Die Finanzierung sollte daher von den Auftraggebern (den Autoren von Publikationen/Daten) getragen werden. Ein bereits existierendes vergleichbares Model sind "page charges".

In dem hier entwicklten Model wird davon ausgegangen, dass Datenzentrum und Betreiberinstitut ein entsprechendes Mandat haben und im Haushalt ein fester Posten für die Infrastruktur vorgesehen ist. Mit "Finanzierung" ist daher hier der auftragsspezifische Aufwand für das Einpflegen von Daten gemeint. Eine aufwandsabhängige finanzielle Unterstützung der Infrastruktur des Datenzentrums könnte durch in die Personalkosten eingerechnete Gemeinkosten abgedeckt werden, wie in Drittmittelprojekten üblich. Der hier angenommene zeitliche Aufwand resultiert aus einer 10-jährigen Entwicklungs- und Testphase im Umgang mit Daten. Der ermittelte Aufwand bezieht sich auf die Erdsystemforschung im weiteren Sinne und kann daher nur bedingt auf andere Wissenschaftsfelder übertragen werden.

Zur Erfassung eines Datensupplement zu einer Publikation wird im Mittel von einem professionellen Datenkurator ein halber Arbeitstag benötigt. Die Erfassung beinhaltet
 * redaktionelle Arbeit (Formatierung, Verknüpfung von Daten und Metadaten, Korrekturlesen, Prüfung auf Validität)
 * nachhaltige Archivierung nach aktuellen Standards mit einer
 * bibliographischer Zitierfähigkeit incl.
 * dauerhaftem Identifikator,
 * Verlinkung mit der Publikation
 * Qualitätskontrolle durch den Autor mit Korrekturen,
 * Datenverfügbarkeit im Open Access unter einer Creative Commons Lizenz,
 * Verbreitung im Internet über Webservice (Portale, Bibliothekskataloge, Suchmaschinen, Verlage).

Der Stundenlohn eines Wissenschaftlers wurde von der AWI/HGF-Haushaltsabteilung veranschlagt mit 75.- €/Stunde. Entsprechend dem ermittelten Zeitaufwand von 4 Stunden ergibt sich für das Erstellen eines Supplement mit DOI = 300.- €.

Die Aufwandsspanne für eine Publikation, der zwischen einem einzelnen sehr einfachen und vielen komplizierten Datensätzen sehr unterschiedlich sein kann, mittelt sich in diesem Modell raus. Eine detailierte aufwandsspezifische Berechnung würde das Model verkomplizieren. Ähnlich den Publikationskosten, die in Drittmittelprojekten beantragt werden können, sollten Daten-Publikationskosten in einer abgeschätzten Höhe mit beantragt werden. Diese würden dem Projekt vom Datenarchiv in Rechnung gestellt. Daten-Publikationskosten sollten Zweck-gebunden sein.

In Projekten werden zunehmend auch Datenmengen erzeugt, die nicht direkt und vollständig im Zusammenhang mit einer wissenschaftlichen Publikation veröffentlicht werden. Ähnliches gilt für Monitoring, welches häufig Zeitreihen erzeugt, die ständig fortgeführt werden. Für diese Daten ist das Model entsprechend anzupassen. Hier kann der Aufwand pro Datensatz berechnet werden, der im einzelnen abhängig ist von Struktur, Umfang, Komplexität und Harmonisierungsgrad. Einem Antrag sollte eine Abschätzung von Art und Umfang der Daten in Verbindung mit einem entsprechenden Angebot durch das Datenarchiv beigefügt werden.

Pro individuellem Datensatz mit Metadaten würden ...-€ berechnet, für viele identische Datensätze gäbe es einen abgestuften Mengenrabatt. Die Kosten für die DOI-Vergabe durch die TIB sind gering und über die Verträge zwischen Datenzentrum und TIB abgedeckt. In Projekten mit einer Archivierung von mehr als 5.000 Datensätzen wären allerdings die DOI-Kosten gesondert zu berechnen, ebenfalls mit Mengenrabatt.

Das Einpflegen von Daten ist von einem Wissenschaftler auszuführen, der mit der entsprechenden Fachdisziplin vertraut ist. Daher wird für die Berechnungen das Gehalt eines promovierten Wissenschaftlers zugrunde gelegt. Das Gehalt entspricht dem Personalkostendurchschnittssatz wie von der DFG vorgegeben (2010) E13 = 58.800,- €.

Großprojekte (SFB, DFG-SPP, EU-IP, EU-NoE) sollten eigene Datenkuratoren beschäftigen, die mit dem Projekt beantragt werden. Ihre Schulung und Unterstützung wird von dem zuständigen Datenzentrum ausgeführt. In entsprechenden Projekten sollten dafür in Abhängigkeit vom Umfang der Daten 1-3 % des Projektbudgets vorgesehen werden. Die Mittel werden vom Datenzentrum jährlich dem Projekt in Rechnung gestellt. Wichtig ist zu definieren, dass der Datenkurator nicht nur für die projektinterne Datenarbeit zuständig ist, sondern vor allem die nachhaltige Archivierung der Projektdaten sicherstellt. Dies kann im Abschlußberichten durch Angabe der entsprechenden Datenzitate mit DOI einfach dokumentiert und durch die Gutachter nachvollzogen werden.

Die von den Datenzentren angebotenen Dienste werden ausgebaut und können umfassen
 * Supplement zu Publikationen (z.B. in Kooperation mit Elsevier)
 * Zitat mit DOI und Weitergabe an Bibliothekskataloge (z.B. geologische Karten),
 * Report (graue Literatur), ggf. mit CD/DVD (z.B. WDC-MARE Reports),
 * Publikation mit peer-review (z.B. in ESSD),
 * Archivierung gößerer Sammlungen (Fotos, Filme, Tabellen) (z.B. Dokumentation von Sedimenten)
 * Retrodigitalisierung von gedruckt vorliegenden Tabellen + Bildern (z.B. ODP Initial Reports)
 * Bereitstellung von Daten aus vom Projekt benannten Publikationen in maschinen-lesbarer Form,
 * Erstellen höherwertiger Produkte wie Grafiken oder Karten,
 * Kompilationen und Konvertierung ausgewählter Daten (z.B. mit Pan2Applic und ODV)
 * Digitalisierung von Zeitschriftenreihen (z.B. Polarforschung, Meyniana)

Die Arbeiten werden als Dienstleistung in Rechnung gestellt, entsprechende Mittel sind im Projekt vorzusehen. Hierfür sind Kosten, Workflow und Standards im einzelnen zu definieren.