Beruflich Dokumente
Kultur Dokumente
4 - Metadaten
Aufgabe 2.4.1
Übertext: Blog
Katalogisierung einer beliebigen Webseite basierend auf
Dublin-Core-Metadaten
Gruppe E:
Irene Barbers
Tobias Beinert
Katrin Kabitzke
Adrian Pohl
November 2009
Inhaltsverzeichnis
1 Ausgangssituation 3
1.1 Katalogisierung im MALIS 3
1.1.1 Metadatenelemente für die formale Erschließung 4
1.1.2 Metadatenelemente für die inhaltliche Erschließung 6
1
4 Entwurf einer Suchfunktion für eine Blog-Suche 17
4.1 Einfache Suche 18
4.2 Erweiterte Suche 18
4.3 Trefferanzeige und Bearbeitungsoptionen 19
4.3.1 Kurzanzeige 19
4.3.2 Vollanzeige 19
4.3.3 Filter- und Sortieroptionen 19
5 Quellen 21
2
1 Ausgangssituation
Wir in Gruppe E hatten uns entschieden, das Blog eines Gruppenmitglieds
(Adrian Pohl) zu katalogisieren. Es handelt sich bei der katalogisierten Inter-
netressource um Übertext: Blog, das unter der URL
http://www.uebertext.org zu finden ist.
Im Folgenden stellen wir zunächst die im MALIS-Studiengang vorgeschlagene
Katalogisierung vor, die allein eine Katalogisierung des Blogs als Ganzem,
ohne zusätzliche Katalogisierung auf der Blogartikelebene, zum Ziel hatte.
Im zweiten Schritt sollen die tatsächlich vorhandenen Dublin-Core-Metadaten
des Blogs aufgeführt werden, denn: auf der Basis der Katalogisierungs-
Überlegungen im MALIS wurde eine tatsächliche Anreicherung der Blogvor-
lage mit Metadaten vollzogen, indem Dublin Core in RDFa an die ohnehin
strukturierten Daten angefügt wurde. Diese Metadatenanreicherung geht
häufig über die ersten Überlegungen hinaus, weil etwa auch einzelne Blog-
artikel mit Metadaten versehen wurden. Teilweise werden Vorschläge aber
auch nicht umgesetzt.
Deshalb soll diese tatsächliche Metadatenanreicherung wie auch der Ver-
gleich mit anderen Blogsuchmaschinen uns als Ausgangslage dienen, wenn
es am Ende dieses Textes darum geht, wünschenswerte Retrievaloptionen
für Blogportale zu nennen.
Wie erwähnt war die zu katalogisierende Ressource hier zunächst das Blog
als Gesamtheit. Dabei haben wir uns in erster Linie auf die fünfzehn Kern-
elemente von Dublin Core1 bezogen und nur vereinzelt die DC-Terms heran-
gezogen.2 Es folgt ein kurzer Überblick über die Katalogisierungsvorschläge
und die aufgetretenen Probleme.
1
siehe DCMI (2008a), http://dublincore.org/documents/dces/
2
siehe DCMI (2008b), http://dublincore.org/documents/dcmi-terms/
3
1.1.1 Metadatenelemente für die formale Erschließung
4
DC Contributor Pohl, Adrian In diesem Fall identisch
mit DC Creator. Vielleicht
problematisch, sollten
aber irgendwann Dritt-
Beiträge im Blog veröf-
fentlicht werden, ist der
Doppeleintrag aber durch-
aus sinnvoll (Adrian Pohl
als Urheber des Blogs und
gleichzeitig auch als
Mitwirkender). DC
Contributor sollte auch bei
regelmäßig kommentie-
renden Personen (sofern
diese zu ermitteln sind)
oder Gastbeiträgern ver-
geben werden.
DC Language de-DE (Encoding Scheme
RFC3066) oder
ger (Encoding Scheme
ISO639-2)
DC Format text/html (Encoding
Scheme MIME)
DC Rights Creative Commons
Namensnennung 3.0
Deutschland
DC Source - DC Source ist aus unserer
Sicht schwierig zu ver-
geben. Nur in den selten-
sten Fällen wird sich
ermitteln lassen, aus
welcher Ressource die
beschriebene Ressource
abgeleitet ist. Unser Vor-
schlag: nur anzuwenden
bei Digitalisaten, Über-
setzungen, Zitaten, oder
bei "Spezial"-Wikis, bei
denen ersichtlich ist, dass
der Inhalt aus der Wiki-
pedia übernommen
wurde.
5
DC Relation Refinement Verwandte Ressourcen
dcterms:haspart => sind zeitintensiv und nur
Relation zu den einzelnen schwierig zu ermitteln.
Beiträgen Unser Vorschlag ist es
daher, eine "Has Part"-
Relation zu den einzelnen
Beiträgen zu vergeben.
DC Type Text (Encoding Scheme:
DCMI Type)
Übersicht 1: Vorschlag für die Vergabe formaler DC-Metadatenelemente
6
2 DC-Element-Vergabe bei Übertext
2.1 Tatsächliche Vergabe von DC-Metadaten
Bei der Vergabe der Metadaten kam schnell die Idee auf, einmal zu schauen,
welche Metadaten beim Erstellen eines Blogs und beim Veröffentlichen von
Artikeln automatisch anfallen. Die dahinterliegende Motivation war, dass man
diese existierenden Metadaten im HTML-Quelltext nur mit Dublin Core in
RDFa anreichern müsse, um problemlos harvestbare Dublin-Core-Metadaten
zu gewinnen. Passiert diese Anreicherung in der Vorlage des Blogs, so führt
eine Anreicherungshandlung schließlich automatisch zu einer automatischen
Anreicherung jedes Blogbeitrags.
Denn: so sinnvoll die Aufgabe, eine Webseite zu katalogisieren sein mag, um
Vertrautheit mit den Dublin-Core-Elementen zu fördern –ist es klar, dass das
Web jetzt und in Zukunft nicht von BibliothekarInnen katalogisiert werden
wird. Dieses Unterfangen wäre auch gänzlich unsinnig, weil eben viele Meta-
daten, auf die sich die Dublin-Core-Elemente beziehen, bereits in struktu-
rierter Form vorliegen und nur noch entsprechend markiert werden müssen.
7
Auf Blogebene:
• dc:contributor
• dc:date
• dc:language
• dc:format
• dc:rights (Refinement: dcterms:license)
• dc:type
• dc:description
• dc:subject
Der Vorschlag, die fünf bis zehn am häufigsten benutzten Tags als dc:subject
des Blogs zu vergeben, lässt sich technisch nicht ohne Weiteres realisieren
und wurde somit vorerst nicht umgesetzt. Stattdessen wurden von Adrian
Pohl als Autor fünf freie Schlagwörter vergeben ('internet', 'libraries', 'linked
data', 'open data', 'epistemology').
Auf Artikelebene:
• dc:relation und zwar wurde das refinement dcterms:ispartof
verwendet, um die Relation eines Artikels zum Gesamtblog
(http://www.uebertext.org) auszuweisen.
<rdf:RDF>
<rdf:Description rdf:about="http://www.uebertext.org/">
<dc:title>Übertext: Blog</dc:title>
<dc:date>2009 - </dc:date>
<dc:contributor>Adrian Pohl</dc:contributor>
<dcterms:license>http://creativecommons.org/licenses/by/3.0/de/</dcterm
s:license>
<dc:subject>epistemology</dc:subject>
3
Das Extrahieren von RDFa aus einem HTML-Dokument kann beispielsweise mit dem RDFa-
Distiller vom W3C erfolgen, siehe http://www.w3.org/2007/08/pyRdfa/.
8
<dc:subject>open data</dc:subject>
<dc:subject>libraries</dc:subject>
<dc:subject>internet</dc:subject>
<dc:subject>linked data</dc:subject>
<dc:description>
Übertext: Blog befasst sich mit Themen aus den Bereichen Internet,
Bibliotheken, Open Access, Open Data und wissenschaftliche
Kommunikations- und Erkenntnisprozesse im Allgemeinen.</dc:description>
<dc:language>ger</dc:language>
<dc:type>http://purl.org/dc/dcmitype/Text</dc:type>
<dc:format>http://www.iana.org/assignments/media-
types/text/html</dc:format>
</rdf:Description>
</rdf:RDF>
<rdf:RDF>
<rdf:Description
rdf:about="http://www.uebertext.org/2009/10/turboubertext-mit-dublin-
core.html">
<dc:date>2009-10-23</dc:date>
<dc:subject>Dublin Core</dc:subject>
<dc:subject>metadaten</dc:subject>
<dc:subject>RDFa</dc:subject>
<dc:subject>Übertext: Blog</dc:subject>
<dcterms:ispartof>http://www.uebertext.org/</dcterms:ispartof>
<dc:creator>Adrian Pohl</dc:creator>
<dc:title>Turboübertext mit Dublin-Core-Anreicherung in RDFa</dc:title>
</rdf:Description>
</rdf:RDF>
9
Metadatenelement eine Angabe vorhanden ist, während rot besagt, dass zum
jeweiligen Element keine Metadaten angegeben werden.
10
Relation nein nein ja:
dcterm:ispart
of-Relation zu
http://www.u
ebertext.org
Type ja: Text ja: http://purl.org/dc/dcmitype/Text nein
(gemäß
DCMI)
Covera- nein nein nein
ge
Descrip- ja: Über- ja: Übertext ist … nein
tion text ist …
Subject ja ja ja: jeweils die
vom Autor
vergebenen
Tags
Übersicht 3: Welche DC-Metadaten werden angegeben und wie?
11
Zunächst die Fakten zu Blogs:
Fakten zu Blogbeiträgen:
Wir werden später auf einzelne Punkte zurückkommen, zunächst lassen wir
die Aussagen einmal für sich stehen.
3.2.1 IceRocket5
Diese Suchmaschine findet derzeit weder Beiträge aus Übertext: Blog noch
das Blog selbst. Dies liegt daran, das Blogs (am besten regelmäßig) mittels
Pingen gemeldet werden müssen. Die Suchfunktionen von IceRocket sind
sehr umfangreich und benutzerfreundlich. IceRocket unterstützt auch rudi-
mentär ein facettiertes Browsing über die Suchergebnisse mit einer Ein-
grenzung auf bestimmte Zeiträume und einer Sortierung nach Sprache.
Suchfunktionen
Basiert auf Volltextindizierung. Keine Blogsuche, nur Blogbeitragssuche
möglich.
Einfache Suche
Einfacher Suchschlitz. Durchsucht wird der gesamte Index nach dem
Vorkommen der Eingabe-Zeichenketten.
Erweiterte Suche
• Wort- und Phrasensuche mit Booleschen Operatoren (einfach
präsentiert)
• Titelsuche
• Tagsuche
• Möglichkeit der Eingrenzung auf eine Domain
• Möglichkeit der Eingrenzung auf Autoren
• Suche nach Beiträgen, die auf eine bestimmte Seite verlinken
• Möglichkeiten der Eingrenzung auf einen Zeitraum: keine, heute, letzte
Woche, letzter Monat, benutzerdefiniert
4
Wir orientieren uns bei dieser Rangliste an den Aussagen Jens Schröders, siehe Schröder
(2009), http://www.popkulturjunkie.de/wp/?p=4460.
5
URL: http://www.icerocket.com/
13
3.2.2 BlogPulse6
Suchfunktionen
Die Suche basiert auf einer Volltextindizierung. Es ist keine Blogsuche, son-
dern nur die Suche nach einzelnen Beiträgen möglich.
Einfache Suche
Eine Eingabe in den einfachen Suchschlitz löst eine Suche nach Thema /
Schlagwort, Stichwort oder URL aus.
Erweiterte Suche
Die Möglichkeiten der erweiterten Suche sind nicht so umfangreich wie bei
IceRocket. Sie bietet:
• Boolesche Operatoren
• Möglichkeiten der Eingrenzung auf einen Zeitraum: letzter Tag, letzte
30, 60, 90 oder 180 Tage, keine benutzerdefinierte Einstellung
• Sortierung nach Datum oder Relevanz
Auch in Twingly ist Übertext derzeit nicht erfasst. Die Meldung von Blogs
geschieht – wie bei IceRocket – über (regelmäßiges) Pingen. Bemerkenswert
ist die – noch in der Beta-Phase befindliche – Möglichkeit der Eingrenzung
einer Suche auf Spam-freie Blogs.
Suchfunktionen
Die Suche basiert auf einer Volltextindizierung. Auch hier ist keine Blog-
suche, sondern nur eine Blogbeitragssuche möglich. Twingly bietet zahlreiche
Möglichkeiten zum facettierten Browsen, die den Kategorien der erweiterten
Suche (s. u.) entsprechen.
Einfache Suche
Die einfache Suche sucht offensichtlich im gesamten Index.
Erweiterte Suche
• Wort- und Phrasensuche mit Booleschen Operatoren (einfach
präsentiert)
• Titelsuche
6
URL: http://www.blogpulse.com/
7
URL: http://www.twingly.com/search
14
• Tagsuche
• Möglichkeit der Eingrenzung auf eine Domain
• Möglichkeit der Eingrenzung auf ein bestimmtes Blog
• Möglichkeit der Eingrenzung auf Autoren
• Suche nach Beiträgen, die auf eine bestimmte Seite verlinken
• Möglichkeit der Eingrenzung auf eine bestimmte Sprache
• Möglichkeiten der Eingrenzung auf einen Zeitraum: keine, letzte
Stunde, letzte 12 Stunden, letzte 24 Stunden, letzte Woche, letzter
Monat, keine benutzerdefinierte Zeiteinschränkung möglich.
• Sortierungsmöglichkeiten (jeweils aufsteigend oder absteigend):
TwinglyRank (?), Datum, eingehende Links (Beitrag), eingehende Links
(Webseite), Empfehlungen (Beitrag) (?), Empfehlungen (Webseite) (?)
8
3.2.4 Technorati
Technorati, das älteste der hier genannten Angebote, das lange ohne Kon-
kurrenz das Tor zur Blogosphäre war, verfolgt einen ganz anderen Ansatz als
die bisher genannten Blog-Suchdienste. Technorati ist ein Blog-Verzeichnis,
das auf die Meldung von Blogs und ihrer Inhalte an Technorati durch die
Autoren angewiesen ist. Dieser Meldeprozess ('Blog-Claim' genannt) ist recht
langwierig. Voraussetzung einer Erfassung sind die Angabe von URL, Feed-
URL, verlinkenden Blogs, Kategorien und Tags sowie die Veröffentlichung
eines Codes auf dem Blog, um die Angaben zu autorisieren.
8
URL: http://technorati.com/
15
Suchfunktionen
Die Suche basiert auf einer Volltextindizierung von Blogbeiträgen und ihrer
Tags sowie den Angaben der Blog-Besitzer.
Einfache Suche
Eine Eingabe in den einfachen Suchschlitz ist eine Suche über den Volltext-
index (Post-Suche) oder eine Blogsuche über die Angaben der Blogbesitzer
und eine Liste der meistbenutzten Tags in einem Blog.
Erweiterte Suche
Es gibt keine erweiterte Suche. Allerdings gibt es die Möglichkeit, erhaltene
Suchergebnisse zu filtern:
• Nach Blogs oder Blogbeiträgen.
• Nach Thema (Grundlage ist die krude und nicht gepflegte Technorati-
Klassifikation)
• Nach Autorität: hoch, mittel, niedrig
Übertext: Blog ist bei der Google-Blogsuche erfasst, weil das Blog auf einer
Google-eigenen Blogging-Plattform läuft.
Die Google-Blogsuche hat wiederum ein ganz eigenes Indexierungsverfah-
ren. Es werden nur Blogs erfasst, die über einen RSS-Feed verfügen, so dass
die einzelnen Beiträge über diesen Feed abgerufen und indexiert werden
können. Auf den FAQ-Seiten heißt es: "Die Blogsuche versucht, jedes Blog zu
finden, das einen Website-Feed (RSS oder Atom) veröffentlicht."10 Einige
Blogs (vor allem die der eigenen Blogging-Plattform blogger.com) werden
automatisch indexiert. Andere müssen ihre Feed-Adresse an Google
weitergeben, um indexiert zu werden. Momentan geschieht dann noch keine
Indexierung der zurückliegenden Beiträge.
Suchfunktionen
Die Suche basiert auf einer Indexierung der durch RSS-Feeds erhaltenen
Daten.
9
URL: http://blogsearch.google.de/blogsearch
10
Quelle: Google (2009),
http://www.google.de/support/faqs/bin/static.py?page=faq_blog_search.html&hl=de
16
Einfache Suche
Eine Eingabe in den einfachen Suchschlitz löst eine Suche über den Volltext-
index aus. Es kann zwischen einer Suche in allen Blogs bzw. nur in deut-
schen Blogs vorausgewählt werden.
Erweiterte Suche
Die Möglichkeiten der erweiterten Suche:
• Boolesche Operatoren (nutzerfreundlich umgesetzt)
• Suche in Beitragstiteln
• Suche nach Blogtiteln
• Eingrenzung auf eine Domain
• Eingrenzung auf einen bestimmten Autor
• Möglichkeiten der Eingrenzung auf einen Zeitraum: jederzeit, letzte
zwölf Stunden, letzter Tag, letzte Woche, letzter Monat sowie benutzer-
definierte Einstellung
• Eingrenzung nach Sprache
• SafeSearch: Eingrenzung auf jugendfreie Inhalte
3.3 Zusammenfassung
Alle Blogsuchmaschinen bieten eine Suche auf Beitragsebene an, die meisten
ausschließlich. Unser Auffassung nach wichtige und interessante Suchfunk-
tionen und Filtermöglichkeiten sind:
Dies soll uns als Hilfestellung bei der Entwicklung "unseres" Portals dienen.
Die einfache Suchindex sollte unserer Meinung nach die Inhalte folgender
Felder (auf Blog- wie Beitragsebene) beinhalten:
• dc:creator,
• dc:contributor,
• dc:title,
• dc:description,
• dc:subject.
• Eine Möglichkeit der vorgängigen Eingrenzung auf eine bestimmte
Sprache (wie bei Google blogs) halten wir für sehr sinnvoll. Grundlage
dessen wäre natürlich die Angabe zu dc:language.
Wir schlagen folgende Felder für die erweiterte Suche (mit der Angabe des
jeweiligen Index-Inhalts) vor:
• Person: dc:creator, dc:contributor
• Titel: dc:title
• Thema: dc:subject, dc:description, dc:title
• Medientyp: dc:type, dc:format
• Datum/Zeitraum mit "von ... bis"-Möglichkeit: Inhalt: dc:date
• Sprache: dc:language
• Lizenz: nachnutzbar oder nicht? dc:rights
18
4.3 Trefferanzeige und Bearbeitungsoptionen
4.3.1 Kurzanzeige
4.3.2 Vollanzeige
Auf der Basis von dc:relation ließe sich auch an eine Suchfunktion denken,
die alle Blogartikel anzeigt, die auf eine bestimmte Seite oder Domain Bezug
nehmen. Dies könnte eine sehr nützliche Suchfunktion sein.
20
5 Quellen
Für alle Webquellen und -anwendungen gilt: letzter Zugriff am 27.11.2009.
Webquellen
Schröder, Jens (2009): Technorati ist tot, die Blogcharts leben. Einsehbar
unter http://www.popkulturjunkie.de/wp/?p=4460.
Webanwendungen
21