Beruflich Dokumente
Kultur Dokumente
Thomas Volcan
12. Juli 2002
1
Inhaltsverzeichnis
1 Einleitung 4
4 UNIMARC 11
4.1 Formelle Struktur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
4.1.1 Generelle Struktur . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
4.1.2 Record Label . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
4.1.3 Directory . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.1.4 Data Fields . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.1.5 Pflichtfelder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.2 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
7 Hyperwave-Attribute 21
7.1 Allgemeines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
7.2 Struktur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
7.3 Vorteile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
7.4 Editieren von Attributen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
7.5 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2
8 Open Archive Initiative (OAI) 24
8.1 Motivation und Hintergrund . . . . . . . . . . . . . . . . . . . . . . . . . . 24
8.2 Das OAI – Framework . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
8.2.1 Warum Dublin Core? . . . . . . . . . . . . . . . . . . . . . . . . . . 24
8.3 Protocol for Metadata Harvesting (PMH) . . . . . . . . . . . . . . . . . . . 25
8.4 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
9 Zusammenfassung 27
Literaturverzeichnis 28
3
Zusammenfassung
Metadaten, also Daten, die Daten genauer beschreiben, werden bei der steigenden Infor-
mationsflut immer wichtiger. Um Daten zu kategorisieren, sortieren und dann auch wieder
möglichst schnell auffindbar zu machen, müssen geeignete Löungen für die Speicherung der
Metadaten gefunden werden. Diese Arbeit beschäftigt sich nun mit verschiedenen Lösungs-
ansätzen. Insbesondere wird auf die Verwendung von Hyperwave Attributen und Markup-
sprachen wie XML, HTML und MARC bzw. RDF eingegangen. Weiterführend beschäftigt
sich diese Arbeit mit dem Editieren und Parsen von XML-Dateien, mit DTDs und dem
Austausch von Metadaten, der am Beispiel der Open Archive Initiative veranschaulicht
wird.
4
1 Einleitung
Metadaten werden in der Zeit der ständig wachsenden Informationsflut immer wichtiger.
Laut Statistiken verdoppelt sich die Anzahl der im Internet verfügbaren Dokumente inner-
halb weniger Monate [Harald Forstinger 1999]. Vor allem in Hinsicht auf die kategorisierte
Speicherung und eine möglichst schnelle und präzise Wiederauffindung von relevanten Do-
kumenten und Objekten wird es immer wichtiger, sich auch Gedanken über die Art und
Weise der Speicherung von Daten und vor allem auch Metadaten zu machen.
Um diesem Ziel immer näher zu kommen, wurden im Laufe der Zeit verschiedene Element–
Sets für die Katalogisierung und Beschreibung literarischer Werke entwickelt. Diese reichen
vom relativ einfachen Dublin Core bis zum komplexen MARC und den darauf aufbauenden
Abwandlungen wie USMARC, CANMARC, UKMARC etc.
Initiativen, wie die hier besprochene Open Archive Initiative (OAI), versuchen einen Infor-
mationsaustausch über geografische Grenzen hinweg zu erleichtern und zu standartisieren.
Um dies zu ermöglichen, werden Element Sets in Markup Languages wie z.B. XML einge-
bunden.
In dieser Arbeit soll nun das eher einfache Dublin Core, sowie das komplexere MARC
Schema vorgestellt werden. Weiters wird auf Markup–Languages wie XML eingegangen,
welche für einen Datenaustausch geeignet sind und zum Beispiel von der, kurz besproche-
nen, Open Archive Initiative verwendet werden.
Im Anhang soll kurz erläutert werden, wie Metadaten zu Artikeln, die auf einem Hyperwave–
Server (J.UCS1 ) gespeichert sind, in ein XML–Format konvertiert werden. Dies soll gesche-
hen, um Metadaten mit der OAI auszutauschen.
1
Journal of Universal Computer Science http://www.jucs.org
5
2 Dublin Core (DC)
Seinen Namen hat Dublin Core vom ersten einer Reihe Workshops, der bereits 1995 in
Dublin, Ohio stattgefunden hat. Dublin Core wurde unter internationaler Beteiligung ent-
wickelt. Genauere und ständig die neuesten Informationen erhält man auf der Homepage
der DCMI2
Die Dublin Core Metadata Initiative ist ein offenes Forum das sich mit der Entwicklung
von kompatiblen Metadaten Standards, welche für einen breiten Anwendungsbereich ein-
setzbar sind, beschäftigt. Die Aktivitäten des DCMI sind vielfältig um den Standard so
weit wie möglich zu verbreiten [Initiative 2002].
• Language (default: en): die Sprache, in der dieses Datenelement spezifiziert ist
6
Die 15 Dublin Core Elemente werden nun durch die 10 oben angeführten Attribute be-
schrieben, wobei eben jene 6 Attribute für jedes Element gleich sind. Da ”Obligation”
immer den Wert ”Optional” enthält kann natürlich jedes Element fehlen.
• DC.Publisher: Organisation oder Person die den Inhalt zugänglich gemacht hat
• DC.Contributor: Organisation oder Person die eine Beitrag zum Inhalt der Res-
source geleistet hat
• DC.Rights: Information zu den mit der Ressource verknüpften Rechten (z.B. Copy-
right)
7
within a given context.
Obligation: Optional
Datatype: Character String
Maximum Occurrence: Unlimited
Comment: Recommended best practice is to identify the
resource by means of a string or number
conforming to a formal identification system.
Example formal identification systems
include the Uniform Resource Identifier
(URI) (including the Uniform Resource
Locator (URL)), the Digital Object
Identifier (DOI) and the International
Standard Book Number (ISBN).
2.2 Zusammenfassung
Zusammenfassend kann man sagen, dass Dublin Core für Beschreibungen von Büchern etc.
in groben Zügen durchaus geeignet ist. Allerdings ist Dublin Core schon veraltet.
Ein weiterer Nachteil ist, dass Dublin Core der völlig objektiven Beschreibung von Res-
sourcen dient. Somit bietet DC auch keine Möglichkeit, Ressourcen zu bewerten oder zu
kritisieren. Diese Tätigkeit wird ohnehin nicht von Bibliothekaren durchgeführt, sondern
von Kritikern, Prüfern und Publizisten [Johann Weitzer 2000].
8
3 MAchine Readable Catalogue (MARC)
In diesem Abschnitt soll einer der Wegbereiter der elektronischen Metadaten Formate be-
schrieben werden. MARC4 ist eigentlich nicht ein einziges Format sondern eine Familie
von Formaten mit ähnlicher Struktur. Diese nationalen Formate (z.B. UK-MARC, US-
MARC...) haben sich auf Grund unterschiedlicher lokaler Anforderungen, wie z.B. zwei-
sprachige Beschreibungen oder unterschiedliche Zahlen– und Datumsformate, entwickelt.
Selbst innerhalb dieser ”Untervarianten” haben sich Abwandlungen ausgebildet.
3.1 Begriffe
• Machine–Readable bedeutet nichts anderes, als dass eine bestimmte Art von Ma-
schine, z.B. ein Computer, die Daten lesen und interpretieren kann.
9
3.4 MARC 21
Die Library of Congress, eine zentrale Anlaufstelle in den USA, wenn es um Publikationen
geht, hat bereits in den 60er Jahren begonnen, Computer für die Verwaltung ihrer Daten
zu verwenden. Zu dieser Zeit wurde das LC MARC Format ins Leben gerufen, welches
kurze Kombinationen aus Zahlen, Buchstaben und Sonderzeichen verwendet, um verschie-
dene Informationstypen zu kennzeichnen. Aus ständiger Weiterentwicklung ist schließlich
das MARC 21 Format entstanden, welches Standard für die am weitesten verbreiteten bi-
bliothekarischen Computersysteme und –programme Verwendung findet.
MARC 21 ist auch vom Speicherverbrauch interessant. Als Beispiel soll hier der Bereich,
welcher die Publikation eines Buches betrifft herausgepickt werden:
Ein herkömmlicher Datensatz Ausschnitt könnte so aussehen:
Das Tag ”245” markiert das Titelfeld, Subfeld ”$a” bezeichnet den Haupttitel. Indi-
kator 1 ist hier nicht definiert (”#”), interessant ist aber der 2. Indikator (die Ziffer
”4”): Dieser bedeutet nämlich, dass die ersten Zeichen des Titels (in diesem Fall eben
4) bei der Katalogisierung und Sortierung nicht berücksichtigt werden sollen. Dieses
Buch findet man also unter ”K”.
10
• 300 ## $a 675 p. : $b ill. ; $c 24 cm.
Tag ”300” markiert den Bereich für physikalische Angaben, die 2 Indikatoren sind
nicht definiert, die Subfields ”$a”, ”$b”, ”$c” stehen für ”Seitenanzahl”, ”weitere
physikalische Details” und ”Dimension in Zentimetern”.
3.6 Zusammenfassung
Zusammenfassend kann man sagen, dass MARC mit Sicherheit als Wegbereiter der elek-
tronischen Metadaten Formate bezeichnet werden kann. Leider ist die Verwendung von
MARC sehr kompliziert und verlangt dementsprechende, fortgeschrittene Kenntnisse in
der Katalogisierung. Für Bibliotheken, welche alte Katalogisierungssysteme betreiben, ist
MARC aber vielleicht der beste Weg, neue elektronische Ressourcen in die alten Kataloge
zu integrieren.
11
4 UNIMARC
Die Hauptzielsetzung von UNIMARC ist die Vereinfachung des internationalen Austau-
sches von bibliographischen, machine-readable Daten. Dabei ist UNIMARC so generell
gehalten, dass es auch für die Entwicklung und den Entwurf weiterer bibliographischer,
machine-readable Formate geeignet ist.
UNIMARC, das als ein Austauschformat entwickelt wurde, spezifiziert die Bezeichner, wel-
che bibliographischen Records zugeordnet sind. Das Format kann für einen weiten Bereich
verwendet werden. Beispiele wären Bücher, elektronische Ressourcen, kartographisches Ma-
terial usw.
Die Herausgeber des Manuals für USMARC (1994) waren Brian P. Holt von der British
Library5 sowie Sally H. McCallum von der Library of Congress6 .
• Record length (5 Zeichen, Position 0–4): Beinhaltet die Zeichenanzahl aus der
der gesamte Record besteht. Falls notwendig wird diese 5–stellige Zahl links mit
Nullen aufgefüllt.
• Record status (1 Zeichen, Position 5): Beinhaltet ”c” für einen korrigierten
Record, ”d” für einen gelöschten, nicht mehr gültigen Record, ”n” für einen neuen
Record, ”o” ein neuer Record in einer hierarchisch niedrigeren Ebene publiziert als
ein vorheriger, oder ”p” ein Record für ein publiziertes Element, welches ein vorher
publiziertes Element ersetzen soll.
12
– Position 6, Type of Record: Position 6 im Record Label beschreibt die Art
des Records und kann folgende Werte beinhalten:
13
• Additional record definition (3 Zeichen, Position 17–19): Diese Zeichen geben
weitere, nötige Informationen für die Datensatzverarbeitung an:
– Position 17, Encoding level: Position 17 beschreibt generell den Grad der
Fertigstellung des Records:
# (blank) fertiggestellt
1–3 Sublevels
– Position 18, Descriptive cataloguing form: Dieses Zeichen zeigt an, ob die
beschreibenden Felder (”200-225”) der ISBD7 entsprechen:
– Position 19, Undefined: Dieses Zeichen ist in UNIMARC nicht definiert und
enthält ein Blank.
4.1.3 Directory
Es folg direkt auf den Record Label. Jeder Eintrag im Directory besteht aus 3 Teilen:
• einem 3–stelligen nummerischen Tag,
• einer 4–stelligen Zahl, welche die Länge des Data Fields wiedergibt und
• einer 5–stelligen Zahl, welche die Stelle des ersten Zeichens wiedergibt.
Es sind keine weiteren Zeichen zugelassen!
7
International Standard Bibliographic Description
14
4.1.4 Data Fields
Die Datenfelder folgen wieder direkt dem Directory. Sie besitzen allerdings eine variable
Länge und beinhalten im Allgemeinen bibliographische Daten.
Data Control Fields (sie beginnen mit 00x, also z.B. 001) bestehen nur aus Daten und
einem End-Of-Field Byte.
Alle anderen Datenfelder beinhalten 2 Indicator Felder, auf die eine beliebige Anzahl von
Unterfeldern folgen kann. Jedes Subfeld beginnt mit einem Subfieldidentifier, bestehend
aus einem Trennsymbol, ISl (1/15 of ISO 646), und einem Subfield Code (ein alphabeti-
sches oder nummerisches Zeichen). Das letzte Subfeld wird mit dem end-of-field Terminator
beendet.
4.1.5 Pflichtfelder
Die nun aufgelisteten Felder müssen in einem gültigen UNIMARC Datensatz vorhanden
sein, kursiv geschriebene müssen sogar ohne Ausnahme in jedem Datensatz vorhanden sein
001,100,200,801:
001 RECORD IDENTIFIER
100 GENERAL PROCESSING DATA
101 LANGUAGE OF THE WORK (when applicable)
120 CODED DATA FIELD:
CARTOGRAPHIC MATERIALS GENERAL (cartographic items only)
123 CODED DATA FIELD:
CARTOGRAPHIC MATERIALS SCALE AND CO-ORDINATES (cartographic items only)
200 TITLE AND STATEMENT OF RESPONSIBILITY
($a title proper is the only mandatory subfield)
206 MATERIAL SPECIFIC AREA:
CARTOGRAPHIC MATERIALS MATHEMATICAL DATA (cartographic items only)
15
801 ORIGINATING SOURCE FIELD
Falls optionale Felder beim Konvertieren leer bleiben sollten und auch nicht durch
Konstanten oder Computer Algorithmen eingesetzt werden können, sollten sie zur Gänze
weggelassen werden. Ansonsten könnte Feld 101 aus obigem Beispiel etwa so aussehen:
101 |#$a|||
4.2 Zusammenfassung
MARC 21 ist sicher eines der wichtigsten Schemata, um die Lücke zwischen technischer Im-
plementation und der tatsächlichen Verwendung von Metadaten zu schliessen. Vor allem
wenn es um bibliographische Daten geht, eignet sich dieses Format für die strukturier-
te Speicherung von Metadaten hervorragend. Vorteilhaft ist, dass dieses Schema in einer
Vielzahl von bibliographischen Anwendungen und Systemen Verwendung findet. Leider ist
das Schema relativ kompliziert und erfordert gewisse Vorkenntnisse, was Katalogisierung
betrifft.
16
5 Resource Description Framework (RDF)
Das Resource Description Framework8 wurde vom World Wide Web Consortium sozusa-
gen als Nachfolger von PICS9 ins Leben gerufen. Wie der Name schon sagt ist RDF ein
Framework für Ressourcen–Beschreibung und Metadatenaustausch.
<Description>
The value of this property contains some text, mixed up
with child properties such as its temperature
(<Temp>48</Temp>) and longitude
(<Longt>101</Longt>). [&Disclaimer;]
</Description>
8
http://www.w3.org/RDF/
9
Platform for Internet Content Selection http://www.w3.org/PICS
10
Uniform Resource Identifier
17
Wenn man also XML–Dokumente im Speicher des Computers ablegt, kann es passie-
ren, dass man verwirrende Strukturen, welche Bäume, Graphen und Zeichenketten
vermischen, bekommt.
Andererseits ist die Verwendung einer Datenstruktur wie z.B. XML unverzichtbar. Der
vereinfachte Datenaustausch, welcher ein Design Ziel von RDF war, wird z.B. durch die
Verwendung eben solcher Datenformate erleichtert [Tim Bray 2001].
5.3 Aufbau
RDF–Daten bestehen aus Knoten und Attribut–Wert Paaren. Knoten können Instanzen
von anderen Metadaten oder jegliche Art von Web Ressource sein. Das RDF–Modell kann
auch als gerichteter Graph veranschaulicht werden. Dabei würden die Kanten zwischen
den Knoten die Attribute darstellen. Um Instanzen dieses Modells in Dateien zu speichern
kann z.B. XML verwendet werden.
5.4 Beispiel
Das untenstehende Metadatenfragment beschreibt in Dublin Core Terminologie eine Web-
adresse, wie leicht nachvollziehbar ist:
<rdf:rdf>
<rdf:Description rdf:about="http://www.w3.org/TR/rdf-syntax-grammar">
<dc:title>RDF/XML Syntax Specification (Revised)<dc:title>
<dc:format>text/html<dc:format>
<dc:creator>
<rdf:Description>
<p:name>Dave Beckett</p:name>
<p:email>N/A</p:email>
</rdf:Description>
</dc:creator>
...
</rdf:Description>
</rdf:rdf>
Das Listing stammt übrigens von der beschriebenen Seite und wurde leicht modifiziert
[W3C 2002]. Der dazugehörige gerichtete Graph würde wie in Abbildung 1 dargestellt
aussehen.
5.5 Zusammenfassung
Wie auch der Vorgänger von RDF (PICS) enthält RDF selbst keine vordefinierten ”Voka-
beln” für die Erstellung von Metadaten.
18
http: //www.w3.org/TR/rdf−syntax−grammar
19
6 eXtensible Markup Language (XML)
XML ist eine erweiterte Markup–Sprache. Sie ist eine vereinfachte Version von SGML
(Standard Generalized Markup Language). XML soll sich als Dokumentationsverarbei-
tungsstandard durchsetzen, so hofft es zumindest das W3C11 (World Wide Web Consorti-
um).
Von der ersten Zeile sollte man sich nicht einschüchtern lassen. Sie beschreibt mit ihren
zahlreichen Attributen nur welche XML Version verwendet wird, in welchem Zeichensatz
die Daten geschrieben worden sind und, ob der Parser noch weiter XML Dateien laden
muss (”standalone=’no’”) oder nicht (siehe oben).
Wie man sieht ist es also sehr einfach, eine eigene Markup Sprache zu definieren (es gibt
ja diesbezüglich keine Standards, was auch dem eigentlichen Sinn von XML widersprechen
würde). Aber wie überprüft man nun die Gültigkeit und die Korrektheit einer XML Datei?
In Zeile 2 des obigen Beispiels wird eine Datei namens ”book.dtd” mit ins Spiel gebracht:
11
Homepage: http://www.w3c.org
20
6.2 Document Type Definition (DTD)
Wäre im obigen Beispiel Zeile eins der Wert von standalone auf ”no” gesetzt, so müsste
der Parser weitere XML–Dokumete laden, wie zum Beispiel eine DTD um ein gültiges Do-
kument zu erhalten. Im obigen Fall wurde die DTD aber ohnehin in der 2. Zeile festgelegt.
Sinnvoller weise wurde die DTD im obigen Beispiel in einer eigenen Datei definiert (”book.dtd”).
Diese Datei beschreibt nun welche Elemente in einer XML Datei vorkommen dürfen. Ob
diese Elemente mehrfach vorkommen dürfen/müssen wird mit folgenden Operatoren ange-
geben:
Operator Bedeutung
(default) das Element muss genau einmal vorkommen
? das Element darf genau einmal oder nie vorkommen
+ das Element kommt mindestens einmal vor (1 ... N)
∗ es ist Egal wie oft das Element auftritt (0 ... N)
Für unser obiges Beispiel könnte eine DTD zum Beispiel folgendermassen aussehen:
<?xml version="1.0"?>
<!ELEMENT book(title, subtitle?, ..., editor,..., ISBN?)>
<!ELEMENT editor(firstname+, lastname)>
[McLaughlin 2000]
Eine genaue Beschreibung aller Möglichkeiten ist unter http://www.xml101.com/dtd/ zu
finden.
Unbedingt erforderlich ist eine DTD nicht. Wenn man allerdings Dokumente auf die Rich-
tigkeit überprüfen möchte, vor allem was die Verwendung und Verschachtelung von XML
Elementen und deren Attribute betrifft, wird man um eine DTD nicht herumkommen.
6.3 Zusammenfassung
XML ist wegen seiner Flexibilität und Erweiterbarkeit sicher gut für die Speicherung von
Metadaten geeignet. Dennoch ist es wichtig dass die verwendeten Tags einer Vereinbarung
folgen, um den Datenaustausch zu vereinfachen.
21
7 Hyperwave-Attribute
In diesem Abschnitt soll kurz auf die Struktur und die Attributverwaltung des Hyperwave12
Information Servers Version 6 (IS/6) eingegangen werden.
7.1 Allgemeines
Hyperwave IS/6 ist ein Knowledge Management System, das dem Benutzer mit einem
Standard Web Browser ermöglicht, Information und Wissen in einem technisch hoch ent-
wickelten System zu verwalten und zu verbreiten.
7.2 Struktur
IS/6 besitzt eine hierarchische Struktur, welche sich im Groben aus Collections und Do-
cuments zusammensetzt. Im Groben deshalb, weil es spezielle Typen von Collections (Se-
quence, Multi cluster, Language cluster und Alternative cluster), User– und Anchor Objects
gibt. Näheres zu den speziellen Typen findet man in den Hyperwave Dokumentationen, z.B.
im IS/6 User’s Guide [Hyperwave 2001].
Jedes Objekt, egal welchen Typs, besitzt mehrere Attribute. Diese Attribute beschrei-
ben zum Beispiel wie ein Objekt dargestellt wird, ob es editiert werden darf usw. Einige
dieser Attribute werden automatisch vom Server beim Erstellen eines Objektes zugeordnet,
andere können vom Benutzer festgelegt und/oder editiert werden.
7.3 Vorteile
Hyperwave vergibt zum Teil automatisch einige wichtige Attribute (Author, ObjectID,
Rights...). Andere können vom Benutzer, falls dieser die entsprechenden Rechte besitzt,
während dem Anlegen eines Objektes oder auch im Nachhinein über das Standard User
Interface oder geeignete Tools (z.B. Java Virtual Folders) angegeben oder verändert wer-
den. Sehr interessant ist auch die Möglichkeit, benutzerdefinierte Attribute an Objekte
”anzuhängen”. Diese können, sofern sie nicht den selben Name wie Standard Attribute
haben, frei wählbare Bezeichner bekommen.
22
browsen in der Hyperwave Objekthierarchie.
7.5 Zusammenfassung
Hyperwaveattribute sind sicher zur Speicherung von Attributen geeignet. Ein Vorteil ist,
dass mehrere Attribute den selben Bezeichner haben dürfen ohne dass das System den Geist
aufgibt. Die Tatsache, dass die Attribute auch indiziert werden spricht zusätzlich für deren
Verwendung. Leider gibt es keine Möglichkeit Attribute in einer Hierarchie anzulegen.
23
Abbildung 3: Editieren von Hyperwaveattributen mit den Java Virtual Folders
24
8 Open Archive Initiative (OAI)
In diesem Abschnitt soll näher auf den Napster der Wissenschaft [Sietmann 2001]
eingegangen werden.
• Data Providers: Diese Teilnehmer machen ihre Daten über das OAI – Protokoll
erreichbar.
• Service Providers: Dies sind jene Teilnehmer, welche die Metadaten von den ver-
schiedenen Servern einsammeln und zur Verfügung stellen.
Wie Data– und Service Provider zusammenhängen können sieht man unter Abbildung 4.
Natürlich ist es möglich, dass eine einzelne Organisation für beide Bereiche zur Verfügung
steht. Dies ist in gewisser Hinsicht sogar sehr interessant, weil man dann einerseits An-
erkennung für zur Verfügung gestellte Information und andererseits zugleich Lob für die
Dienstleistung einheimsen kann.
25
Data Provider Service Prov.
Service Prov.
• Einfachheit: Dublin Core ist von der Komplexität her ungefähr vergleichbar mit
einern herkömmlichen Karteikarte wie sie in einer Bücherei Verwendung findet. Mit
seinen 15 Descriptoren, wie z.B.: Autor, Titel, Untertitel, Erscheinungsdatum, ISBN,
usw., ist ein DC Elementset noch überschaubar.
• Lexikalische Kompatibilität: Dublin Core verwendet einen Satz von generell verständ-
lichen Descriptoren, welcher wiederum ein mapping auf andere, kompliziertere Da-
tenstandards erleichtert.
• Internationales Einverständnis in über 20 Ländern auf der ganzen Welt.
• Erweiterbarkeit: Dublin Core ist eine ökonomische Alternative zu viel komplexeren
Metadatenmodellen. Trotzdem bietet es aber die Flexibilität und Erweiterbarkeit,
sich auch an komplexere Metadatenstandards anpassen zu können.
26
ist so konfiguriert, dass die OAI–PMH Requests sofort an Software weitergegeben wer-
den, welche mit diesen Requests umgehen kann. Ein abgesetzter OAI–PMH Request muss
entweder die ”HTTP GET” oder ”POST” Methode verwenden. Dabei ist zu beachten, dass
die POST–Methode den Vorteil einer uneingeschränkten Argumentlänge bietet. Es gibt eine
Basis–URL für alle Requests. Sie spezifiziert den Host, das verwendete Port und optio-
nal einen Pfad auf dem Server. Zusätzlich zu dieser Basis–URL besteht jeder Request aus
einer Liste von Argumenten, welche die Form ”key=value” haben. Jeder Request muss
mindestens ein Argument beinhalten. Argumente können in einer beliebigen Reihenfolge
übergeben werden. Mehrere Argumente, müssen durch ein ”&” getrennt sein. key ist immer
die Zeichenkette ”verb”, der Wert ist einer der definierten OAI–Requests (z.B. GetRecord,
Identify, ListIdentifiers...). Ein gültiger Request könnte also zum Beispiel folgendermassen
aussehen:
http://memory.loc.gov/cgi-bin/oai?verb=ListMetadataFormats
8.4 Zusammenfassung
Die Open Archive Initiative ist eine interessante Idee um internationalen Datenaustausch
im bibliographischen Bereich zu erleichtern. Als Protokoll eine Erweiterung des HTTP–
Protokolls zu verwenden ist sicherlich ein guter Ansatz. Derzeit wird noch sehr viel Ent-
wicklungsarbeit in das Projekt gesteckt und man ist sehr bemüht Erweiterungen und Ver-
besserungen einzubauen. Es bleibt zu hoffen, dass sich nicht einige kleinere Gruppierungen
herauskristallisieren, welche dann in Hinsicht Datenaustausch nicht mehr kompatibel sind
und damit der Grundidee des gesamten Projekts widersprechen.
27
9 Zusammenfassung
Metadatenformate und –standards im bibliographischen Bereich einzusetzen ist wichtig
und sinnvoll. Je nach Art der zu katalogisierenden Werke gibt es verschiedene geeignete
Standards. Diese reichen vom relativ einfachen Dublin Core bis zum wesentlich komplexer-
en MARC–Standard.
XML ist wegen seiner Flexibilität und Erweiterbarkeit gut für die Speicherung von Meta-
daten geeignet. Dennoch ist es wichtig, dass die verwendeten Tags einer Vereinbarung
folgen, um einen Datenaustausch mit anderen Benutzern zu ermöglichen.
15
http://www.ecst.csuchico.edu/~jacobsd/bib/formats/bibtex.html
16
http://mpeg.telecomitalialab.com/
28
Literatur
[Carl Lagoze 2002] ONLINE: Technical report, The OAI Executive,
last visited on 2002-07-05, The Open Archives Initiative Protocol
for Metadata Harvesting
http://www.openarchives.org/OAI/openarchivesprotocol.html.
[Harald Forstinger 1999] Harald Forstinger: Analyse gegenwärtiger Suchdienste und Kon-
zepte für künftige Wissensauffindung. Master’s thesis, IICM,
Graz University of Technology, 1999.
[McLaughlin 2000] McLaughlin, B.: JAVA and XML. O’Reilly & Associates, Inc.,
101 Morris Street, Sebastopol, CA 95472, 2000.
[Sietmann 2001] Sietmann, R.: Napster für die Wissenschaft. c’t 6/2001, 2001.
29