Übertext: Blog - Katalogisierung Einer Beliebigen Webseite Basierend Auf Dublin-Core-Metadaten

MALIS - Modul 2.
4 - Metadaten
Aufgabe 2.4.1
Übertext: Blog
Katalogisierung einer beliebigen Webseite basierend auf
Dublin-Core-Metadaten
Gruppe E:
Irene Barbers
Tobias Beinert
Katrin Kabitzke
Adrian Pohl
November 2009
Inhaltsverzeichnis
1 Ausgangssituation 3
1.1 Katalogisierung im MALIS 3
1.1.1 Metadatenelemente für die formale Erschließung 4
1.1.2 Metadatenelemente für die inhaltliche Erschließung 6
2 DC-Element-Vergabe für Übertext 7

2.1 Tatsächliche Vergabe von DC-Metadaten 7
2.1.1 Existierende Metadaten bei blogger.com 7
2.1.2 Ergänzungen von Metadaten in der Vorlage 7
2.1.3 Extrahierte Metadaten auf Blogebene 8
2.1.4 Extrahierte Metadaten für einen Beispielartikel 9
2.2 Überblick: Katalogisierungsvorschläge und die Umsetzung
auf Blog- wie Artikelebene 9
3 Recherchefunktionen und Trefferanzeige 11

3.1 Blog- oder Artikelsuchmaschine? 11
3.2 Existierende Blogsuchmaschinen 13
3.2.1 IceRocket 13
3.2.2 BlogPulse 14
3.2.3 Twingly Blog Search 14
3.2.4 Technorati 15
3.2.5 Google blogs 16
3.3 Zusammenfassung 17
1
4 Entwurf einer Suchfunktion für eine Blog-Suche 17
4.1 Einfache Suche 18
4.2 Erweiterte Suche 18
4.3 Trefferanzeige und Bearbeitungsoptionen 19
4.3.1 Kurzanzeige 19
4.3.2 Vollanzeige 19
4.3.3 Filter- und Sortieroptionen 19
5 Quellen 21
2
1 Ausgangssituation
Wir in Gruppe E hatten uns entschieden, das Blog eines Gruppenmitglieds
(Adrian Pohl) zu katalogisieren. Es handelt sich bei der katalogisierten Inter-
netressource um Übertext: Blog, das unter der URL
http://www.uebertext.org zu finden ist.
Im Folgenden stellen wir zunächst die im MALIS-Studiengang vorgeschlagene
Katalogisierung vor, die allein eine Katalogisierung des Blogs als Ganzem,
ohne zusätzliche Katalogisierung auf der Blogartikelebene, zum Ziel hatte.
Im zweiten Schritt sollen die tatsächlich vorhandenen Dublin-Core-Metadaten
des Blogs aufgeführt werden, denn: auf der Basis der Katalogisierungs-
Überlegungen im MALIS wurde eine tatsächliche Anreicherung der Blogvor-
lage mit Metadaten vollzogen, indem Dublin Core in RDFa an die ohnehin
strukturierten Daten angefügt wurde. Diese Metadatenanreicherung geht
häufig über die ersten Überlegungen hinaus, weil etwa auch einzelne Blog-
artikel mit Metadaten versehen wurden. Teilweise werden Vorschläge aber
auch nicht umgesetzt.
Deshalb soll diese tatsächliche Metadatenanreicherung wie auch der Ver-
gleich mit anderen Blogsuchmaschinen uns als Ausgangslage dienen, wenn
es am Ende dieses Textes darum geht, wünschenswerte Retrievaloptionen
für Blogportale zu nennen.
1.1 Katalogisierung im MALIS
Wie erwähnt war die zu katalogisierende Ressource hier zunächst das Blog
als Gesamtheit. Dabei haben wir uns in erster Linie auf die fünfzehn Kern-
elemente von Dublin Core1 bezogen und nur vereinzelt die DC-Terms heran-
gezogen.2 Es folgt ein kurzer Überblick über die Katalogisierungsvorschläge
und die aufgetretenen Probleme.
1
siehe DCMI (2008a), http://dublincore.org/documents/dces/
2
siehe DCMI (2008b), http://dublincore.org/documents/dcmi-terms/
3
1.1.1 Metadatenelemente für die formale Erschließung
DC-Element DC-Element-Vergabe Kommentar /

bei Übertext Problematik
DC Identifier http://www.uebertext.org Da es sich hierbei nicht
(Identifikator) um eine permanente URL
handelt, ist die Eindeutig-
keit nicht unbedingt
gewährleistet. Falls die
Domain einmal in andere
Hände gerät und andere
Inhalte darunter erschei-
nen, würde die URI dop-
peldeutig werden.
DC Creator Pohl, Adrian Zum Zeitpunkt der Kata-
logisierung war Adrian
Pohl der alleinige Urheber
des Blogs, d. h., es war
kein Gemeinschaftsblog.
DC Publisher Google Inc. Laut Definition eine
Entität, die für die Ver-
fügbarkeit der Ressource
verantwortlich ist. Dies ist
in unserem Fall entweder
die Publikationsplattform
(http://www.blogger.com)
oder dessen Besitzer
(Google).
DC Title Übertext: Blog
DC Date 2009 - • Angabe ist nicht
standardkonform
gemäß W3CDTF / ISO
8601.
• Auf der Beitragsebene
sollte das Datum des
einzelnen Posts
vergeben werden
4
DC Contributor Pohl, Adrian In diesem Fall identisch
mit DC Creator. Vielleicht
problematisch, sollten
aber irgendwann Dritt-
Beiträge im Blog veröf-
fentlicht werden, ist der
Doppeleintrag aber durch-
aus sinnvoll (Adrian Pohl
als Urheber des Blogs und
gleichzeitig auch als
Mitwirkender). DC
Contributor sollte auch bei
regelmäßig kommentie-
renden Personen (sofern
diese zu ermitteln sind)
oder Gastbeiträgern ver-
geben werden.
DC Language de-DE (Encoding Scheme
RFC3066) oder
ger (Encoding Scheme
ISO639-2)
DC Format text/html (Encoding
Scheme MIME)
DC Rights Creative Commons
Namensnennung 3.0
Deutschland
DC Source - DC Source ist aus unserer
Sicht schwierig zu ver-
geben. Nur in den selten-
sten Fällen wird sich
ermitteln lassen, aus
welcher Ressource die
beschriebene Ressource
abgeleitet ist. Unser Vor-
schlag: nur anzuwenden
bei Digitalisaten, Über-
setzungen, Zitaten, oder
bei "Spezial"-Wikis, bei
denen ersichtlich ist, dass
der Inhalt aus der Wiki-
pedia übernommen
wurde.
5
DC Relation Refinement Verwandte Ressourcen
dcterms:haspart => sind zeitintensiv und nur
Relation zu den einzelnen schwierig zu ermitteln.
Beiträgen Unser Vorschlag ist es
daher, eine "Has Part"-
Relation zu den einzelnen
Beiträgen zu vergeben.
DC Type Text (Encoding Scheme:
DCMI Type)
Übersicht 1: Vorschlag für die Vergabe formaler DC-Metadatenelemente
1.1.2 Metadatenelemente für die inhaltliche Erschließung
DC Element DC-Element-Vergabe bei Kommentar / Problematik

Übertext
DC Coverage - Nur wenige Blogs
konzentrieren sich auf
räumlich oder zeitlich
begrenzte Gegenstände.
Unser Vorschlag ist es
daher, dieses Element
wenn überhaupt nur auf
der Beitragsebene zu
vergeben.
DC Description Übertext ist ein Blog, das
die Themen Internet,
Bibliotheken, Open
Access, Open Data und
wissenschaftliche
Kommunikations- und
Erkenntnissprozesse
behandelt. Es wird von
Adrian Pohl betrieben.
DC Subject Internet, Vorschlag: als Subject
Bibliothekswesen, Open eines Blogs sollten die
Access, Open Data, fünf bis zehn am häu-
Kommunikation figsten benutzten Tags
vergeben werden
Übersicht 2: Vorschlag für die Vergabe inhaltlicher DC-Metadatenelemente
6
2 DC-Element-Vergabe bei Übertext
2.1 Tatsächliche Vergabe von DC-Metadaten
Bei der Vergabe der Metadaten kam schnell die Idee auf, einmal zu schauen,
welche Metadaten beim Erstellen eines Blogs und beim Veröffentlichen von
Artikeln automatisch anfallen. Die dahinterliegende Motivation war, dass man
diese existierenden Metadaten im HTML-Quelltext nur mit Dublin Core in
RDFa anreichern müsse, um problemlos harvestbare Dublin-Core-Metadaten
zu gewinnen. Passiert diese Anreicherung in der Vorlage des Blogs, so führt
eine Anreicherungshandlung schließlich automatisch zu einer automatischen
Anreicherung jedes Blogbeitrags.
Denn: so sinnvoll die Aufgabe, eine Webseite zu katalogisieren sein mag, um
Vertrautheit mit den Dublin-Core-Elementen zu fördern –ist es klar, dass das
Web jetzt und in Zukunft nicht von BibliothekarInnen katalogisiert werden
wird. Dieses Unterfangen wäre auch gänzlich unsinnig, weil eben viele Meta-
daten, auf die sich die Dublin-Core-Elemente beziehen, bereits in struktu-
rierter Form vorliegen und nur noch entsprechend markiert werden müssen.
2.1.1 Existierende Metadaten bei blogger.com
Welche strukturierten Metadaten liegen nun bei einem Blogger-Blog bereits

vor?
Auf Blogebene ist es nur eine Metadatenangabe, nämlich

• der Titel des Blogs (= dc:title).
Auf Artikelebene finden sich die folgenden wichtigen Metadaten:

• Autor (= dc:creator),
• Titel (= dc:title),
• Veröffentlichungsdatum (= dc:date),
• Tags (= dc:subject).
Die entsprechende Auszeichnung dieser Metadaten mit Dublin-Core-

Properties wurde in der Blog-Vorlage als erstes vorgenommen.
2.1.2 Ergänzungen von Metadaten in der Vorlage
Es lassen sich nun beliebig viele Metadatenangaben in der Vorlage ergänzen.

Folgende Metadatenangaben wurden ergänzt:
7
Auf Blogebene:
• dc:contributor
• dc:date
• dc:language
• dc:format
• dc:rights (Refinement: dcterms:license)
• dc:type
• dc:description
• dc:subject
Der Vorschlag, die fünf bis zehn am häufigsten benutzten Tags als dc:subject
des Blogs zu vergeben, lässt sich technisch nicht ohne Weiteres realisieren
und wurde somit vorerst nicht umgesetzt. Stattdessen wurden von Adrian
Pohl als Autor fünf freie Schlagwörter vergeben ('internet', 'libraries', 'linked
data', 'open data', 'epistemology').
Statt die Metadatenangabe dc:creator auf Blogebene zu vergeben, hat sich

Adrian Pohl mittlerweile für ein dc:contributor entschieden, vor allem, weil in
Zukunft wahrscheinlich noch eine weitere Person zu dem Blog beitragen wird
und dadurch die Sache nicht stimmig ist.
Auf Artikelebene:
• dc:relation und zwar wurde das refinement dcterms:ispartof
verwendet, um die Relation eines Artikels zum Gesamtblog
(http://www.uebertext.org) auszuweisen.
2.1.3 Extrahierte Metadaten auf Blogebene
Hier eine Wiedergabe der für die URL http://www.uebertext.org extrahierten

Dublin-Core-Metadaten in RDF/XML.3 Die Metadaten auf der Blog-Homepage
http://www.uebertext.org umfassen zusätzlich auch immer die Angaben zu
den aktuellsten sieben Artikeln, die hier aber nicht wiedergegeben werden.
<rdf:RDF>
<rdf:Description rdf:about="http://www.uebertext.org/">
<dc:title>Übertext: Blog</dc:title>
<dc:date>2009 - </dc:date>
<dc:contributor>Adrian Pohl</dc:contributor>
<dcterms:license>http://creativecommons.org/licenses/by/3.0/de/</dcterm
s:license>
<dc:subject>epistemology</dc:subject>
3
Das Extrahieren von RDFa aus einem HTML-Dokument kann beispielsweise mit dem RDFa-
Distiller vom W3C erfolgen, siehe http://www.w3.org/2007/08/pyRdfa/.
8
<dc:subject>open data</dc:subject>
<dc:subject>libraries</dc:subject>
<dc:subject>internet</dc:subject>
<dc:subject>linked data</dc:subject>
<dc:description>
Übertext: Blog befasst sich mit Themen aus den Bereichen Internet,
Bibliotheken, Open Access, Open Data und wissenschaftliche
Kommunikations- und Erkenntnisprozesse im Allgemeinen.</dc:description>
<dc:language>ger</dc:language>
<dc:type>http://purl.org/dc/dcmitype/Text</dc:type>
<dc:format>http://www.iana.org/assignments/media-
types/text/html</dc:format>
</rdf:Description>
</rdf:RDF>
2.1.4 Extrahierte Metadaten für einen Beispielartikel
Hier die extrahierten Dublin-Core-Metadaten für einen Beispielartikel in

RDF/XML. Jede HTML-Seite eines Blogartikels enthält zusätzlich immer auch
die oben angegebenen Metadaten über das Blog als Gesamtheit.
<rdf:RDF>
<rdf:Description
rdf:about="http://www.uebertext.org/2009/10/turboubertext-mit-dublin-
core.html">
<dc:date>2009-10-23</dc:date>
<dc:subject>Dublin Core</dc:subject>
<dc:subject>metadaten</dc:subject>
<dc:subject>RDFa</dc:subject>
<dc:subject>Übertext: Blog</dc:subject>
<dcterms:ispartof>http://www.uebertext.org/</dcterms:ispartof>
<dc:creator>Adrian Pohl</dc:creator>
<dc:title>Turboübertext mit Dublin-Core-Anreicherung in RDFa</dc:title>
</rdf:Description>
</rdf:RDF>
2.2 Überblick: Katalogisierungsvorschläge und die Umset-

zung auf Blog- wie Artikelebene
Hier nun eine tabellarische Übersicht über die Katalogisierungsvorschläge im

MALIS-Studiengang im Vergleich zu der tatsächlichen Umsetzung auf Blog-
wie Artikelebene. Ein grünes Feld besagt hier, dass zum jeweiligen
9
Metadatenelement eine Angabe vorhanden ist, während rot besagt, dass zum
jeweiligen Element keine Metadaten angegeben werden.
DC- Vorschlag Umsetzung für Gesamtblog Umsetzung

Ele- für Ge- auf Artikel-
ment samtblog ebene
Identi- ja: URL nein, die URL wird als Identifier ge- nein, die URL
fier nutzt aber nicht deklariert eines Beitra-
ges wird als
Identifier ge-
nutzt aber
nicht dekla-
riert
Creator ja: Adrian nein ja, Adrian
Pohl Pohl & Co-
Autoren,
wenn vorhan-
den (manuell
angegeben)
Publis- ja: Goog- nein nein
her le.Inc
Title ja: Über- ja: Übertext: Blog ja: Titel des
text: Blog jeweiligen
Beitrags
Date ja: 2009 - ja: 2009 - ja: jeweiliges
Publikations-
datum eines
Artikels
Contri- ja: Adrian ja: Adrian Pohl nein
butor Pohl
Langua- ja: de-DE ja: ger nein
ge
Format ja: ja: nein
text/html http://www.iana.org/assignments/m
edia-types/text/html
Rights ja: Creative ja (dcterms: license): nein (implizit
Commons http:creativecommons.org/licenses/ über die Rela-
Name- by/3.0/de/ tion zum Blog
nsnennung und dessen
Deutschland Lizensierung)
3.0
Source nein nein nein
10
Relation nein nein ja:
dcterm:ispart
of-Relation zu
http://www.u
ebertext.org
Type ja: Text ja: http://purl.org/dc/dcmitype/Text nein
(gemäß
DCMI)
Covera- nein nein nein
ge
Descrip- ja: Über- ja: Übertext ist … nein
tion text ist …
Subject ja ja ja: jeweils die
vom Autor
vergebenen
Tags
Übersicht 3: Welche DC-Metadaten werden angegeben und wie?
3 Recherchefunktionen und Trefferanzeige

Im Folgenden sollen die Retrievalfunktionen, die Trefferdarstellung und Drill-
Down-Möglichkeiten in einem Blog-Recherche-Portal modelliert werden.
3.1 Blog- oder Artikelsuchmaschine?
Zu überlegen ist bei den Recherchefunktionen über Blogs, ob nur Blogs an

sich oder auch einzelne Posts oder beides gefunden werden sollen. Wird das
Ganze weitergedacht, kommen wir zu grundlegenden Fragen wie: Was ist ein
Blog? Und in welchem Verhältnis steht es zu seinen Bestandteilen, den
einzelnen Beiträgen?
Diese Fragen lassen sich in diesem Rahmen nicht abschließend beantworten,

Lösungen werden aber vorgeschlagen. Zunächst sollen hier (ohne Anspruch
auf Vollständigkeit) einige Fakten genannt werden, die auf jedes Blog bzw.
auf Blog-Beiträge zutreffen, um die Vielfalt in der "Blogosphäre" zu verdeut-
lichen.
11
Zunächst die Fakten zu Blogs:
• Jedes Blog hat einen Titel.

• Jedes Blog hat eine URL (die sich aber durchaus ändern kann).
• Jedes Blog hat ein "Erscheinungsdatum", es ist das Datum des ersten
Blogbeitrags.
• Jedes Blog hat mindestens eine Person, die Beiträge produziert.
• Blogs werden in einer (oder seltener auch mehreren) bestimmten
Sprache(n) veröffentlicht.
• Blogs und ihre Inhalte können mit einer Lizenz versehen sein.
• Blogs können Werbung beinhalten.
• Blogs enthalten meist ausgehende Links und können eingehende
Verweise beinhalten.
• Es gibt Blogs, deren Beiträge von nur einer Person verfasst werden.
• Es gibt Gemeinschaftsblogs, deren Beiträge von einer beliebig großen
Menge von Personen verfasst werden.
• Es gibt Blogs von Körperschaften, wie Unternehmen oder Bibliotheken.
• Jeder Ein-Personen-Blog kann sich zu einem Gemeinschaftsblog
entwickeln und umgekehrt.
• Blogs erlauben in der Regel Kommentare. Dies kann dazu führen, dass
sich auf einem Blog mehr Kommentar-Text befindet als kommentierter
Text. Kommentatoren tragen also unter Umständen einen großen Teil
der Inhalte zu einem Blog bei.
• Es gibt Blogs mit sämtlichen medialen Inhalten: Text, Bild, Bewegtbild,
Ton (Podcast, Musik) und allen Mischformen.
Fakten zu Blogbeiträgen:
• Jeder Beitrag hat einen Titel.

• Jeder Beitrag hat mindestens einen Urheber.
• Jeder Beitrag hat ein Veröffentlichungsdatum.
• Ein Beitrag kann Tags (freie Schlagwörter) haben.
• Ein Beitrag kann Kommentare haben.
• Blogbeiträge können mit einer Lizenz versehen sein.
Wir werden später auf einzelne Punkte zurückkommen, zunächst lassen wir
die Aussagen einmal für sich stehen.
Da Blogs aus ihren Beiträgen bestehen, kommt eine Blog-Rechercheplattform

nicht umhin, die Metadaten zu den Beiträgen einzusammeln. Und da die ein-
zelnen Beiträge eines Blogs ja durchaus sehr unterschiedliche Themen bein-
halten können, ist es sicherlich sinnvoll, die Recherchefunktion auch auf die
Beiträge zu beziehen.
Es bleibt die Frage, ob man getrennte Recherchefunktionen für Blogs und
Blogartikel anbieten sollte. Suchen Menschen wirklich nach Blogs oder nur
12
nach konkreten Inhalten, das heißt, nach einzelnen Artikeln? Wie gehen an-
dere Blogsuchmaschinen damit um?
3.2 Existierende Blogsuchmaschinen
Beim Modellieren einer Blog-Suchmaschine ist die Kenntnis bestehender

Angebote sicher von Nutzen, so dass hier die fünf "besten" Blogsuchma-
schinen kurz betrachtet werden.4
3.2.1 IceRocket5
Diese Suchmaschine findet derzeit weder Beiträge aus Übertext: Blog noch
das Blog selbst. Dies liegt daran, das Blogs (am besten regelmäßig) mittels
Pingen gemeldet werden müssen. Die Suchfunktionen von IceRocket sind
sehr umfangreich und benutzerfreundlich. IceRocket unterstützt auch rudi-
mentär ein facettiertes Browsing über die Suchergebnisse mit einer Ein-
grenzung auf bestimmte Zeiträume und einer Sortierung nach Sprache.
Suchfunktionen
Basiert auf Volltextindizierung. Keine Blogsuche, nur Blogbeitragssuche
möglich.
Einfache Suche
Einfacher Suchschlitz. Durchsucht wird der gesamte Index nach dem
Vorkommen der Eingabe-Zeichenketten.
Erweiterte Suche
• Wort- und Phrasensuche mit Booleschen Operatoren (einfach
präsentiert)
• Titelsuche
• Tagsuche
• Möglichkeit der Eingrenzung auf eine Domain
• Möglichkeit der Eingrenzung auf Autoren
• Suche nach Beiträgen, die auf eine bestimmte Seite verlinken
• Möglichkeiten der Eingrenzung auf einen Zeitraum: keine, heute, letzte
Woche, letzter Monat, benutzerdefiniert
4
Wir orientieren uns bei dieser Rangliste an den Aussagen Jens Schröders, siehe Schröder
(2009), http://www.popkulturjunkie.de/wp/?p=4460.
5
URL: http://www.icerocket.com/
13
3.2.2 BlogPulse6
In der Blog-Suchmaschine BlogPulse ist Übertext: Blog indexiert. Eine Erfas-

sung erfolgt ohne regelmäßiges Pingen und ohne Anmeldung.
Suchfunktionen
Die Suche basiert auf einer Volltextindizierung. Es ist keine Blogsuche, son-
dern nur die Suche nach einzelnen Beiträgen möglich.
Einfache Suche
Eine Eingabe in den einfachen Suchschlitz löst eine Suche nach Thema /
Schlagwort, Stichwort oder URL aus.
Erweiterte Suche
Die Möglichkeiten der erweiterten Suche sind nicht so umfangreich wie bei
IceRocket. Sie bietet:
• Boolesche Operatoren
• Möglichkeiten der Eingrenzung auf einen Zeitraum: letzter Tag, letzte
30, 60, 90 oder 180 Tage, keine benutzerdefinierte Einstellung
• Sortierung nach Datum oder Relevanz
3.2.3 Twingly Blog Search7
Auch in Twingly ist Übertext derzeit nicht erfasst. Die Meldung von Blogs
geschieht – wie bei IceRocket – über (regelmäßiges) Pingen. Bemerkenswert
ist die – noch in der Beta-Phase befindliche – Möglichkeit der Eingrenzung
einer Suche auf Spam-freie Blogs.
Suchfunktionen
Die Suche basiert auf einer Volltextindizierung. Auch hier ist keine Blog-
suche, sondern nur eine Blogbeitragssuche möglich. Twingly bietet zahlreiche
Möglichkeiten zum facettierten Browsen, die den Kategorien der erweiterten
Suche (s. u.) entsprechen.
Einfache Suche
Die einfache Suche sucht offensichtlich im gesamten Index.
Erweiterte Suche
• Wort- und Phrasensuche mit Booleschen Operatoren (einfach
präsentiert)
• Titelsuche
6
URL: http://www.blogpulse.com/
7
URL: http://www.twingly.com/search
14
• Tagsuche
• Möglichkeit der Eingrenzung auf eine Domain
• Möglichkeit der Eingrenzung auf ein bestimmtes Blog
• Möglichkeit der Eingrenzung auf Autoren
• Suche nach Beiträgen, die auf eine bestimmte Seite verlinken
• Möglichkeit der Eingrenzung auf eine bestimmte Sprache
• Möglichkeiten der Eingrenzung auf einen Zeitraum: keine, letzte
Stunde, letzte 12 Stunden, letzte 24 Stunden, letzte Woche, letzter
Monat, keine benutzerdefinierte Zeiteinschränkung möglich.
• Sortierungsmöglichkeiten (jeweils aufsteigend oder absteigend):
TwinglyRank (?), Datum, eingehende Links (Beitrag), eingehende Links
(Webseite), Empfehlungen (Beitrag) (?), Empfehlungen (Webseite) (?)
8
3.2.4 Technorati
Da Blogs bei Technorati angemeldet werden müssen, um gefunden zu wer-

den (s. u.) findet sich Übertext: Blog derzeit (noch) nicht in dieser Blogsuch-
maschine.
Technorati, das älteste der hier genannten Angebote, das lange ohne Kon-
kurrenz das Tor zur Blogosphäre war, verfolgt einen ganz anderen Ansatz als
die bisher genannten Blog-Suchdienste. Technorati ist ein Blog-Verzeichnis,
das auf die Meldung von Blogs und ihrer Inhalte an Technorati durch die
Autoren angewiesen ist. Dieser Meldeprozess ('Blog-Claim' genannt) ist recht
langwierig. Voraussetzung einer Erfassung sind die Angabe von URL, Feed-
URL, verlinkenden Blogs, Kategorien und Tags sowie die Veröffentlichung
eines Codes auf dem Blog, um die Angaben zu autorisieren.
Viele Blogsuchmaschinen bieten in der einfachen Suche nur die Recherche

nach einzelnen Beiträgen an. Technorati ist in erster Linie ein Blog-Verzeich-
nis, das aber auch die Suche in einzelnen Beiträgen ermöglicht. In der
Technorati-Klassifikation lässt sich nach Themen stöbern, zu denen dann
eine Liste von Blogs (die mit der größten "Autorität" stehen oben) angezeigt
wird. Die Suche kann – je nach Interesse – über Blogs oder Blogbeiträge
ausgeführt werden.
Abbildung 1: Der Technorati-Suchschlitz
8
URL: http://technorati.com/
15
Suchfunktionen
Die Suche basiert auf einer Volltextindizierung von Blogbeiträgen und ihrer
Tags sowie den Angaben der Blog-Besitzer.
Einfache Suche
Eine Eingabe in den einfachen Suchschlitz ist eine Suche über den Volltext-
index (Post-Suche) oder eine Blogsuche über die Angaben der Blogbesitzer
und eine Liste der meistbenutzten Tags in einem Blog.
Erweiterte Suche
Es gibt keine erweiterte Suche. Allerdings gibt es die Möglichkeit, erhaltene
Suchergebnisse zu filtern:
• Nach Blogs oder Blogbeiträgen.
• Nach Thema (Grundlage ist die krude und nicht gepflegte Technorati-
Klassifikation)
• Nach Autorität: hoch, mittel, niedrig
Darüber hinaus können die Suchergebnisse entweder nach Relevanz oder

nach Datum sortiert werden.
3.2.5 Google blogs9
Übertext: Blog ist bei der Google-Blogsuche erfasst, weil das Blog auf einer
Google-eigenen Blogging-Plattform läuft.
Die Google-Blogsuche hat wiederum ein ganz eigenes Indexierungsverfah-
ren. Es werden nur Blogs erfasst, die über einen RSS-Feed verfügen, so dass
die einzelnen Beiträge über diesen Feed abgerufen und indexiert werden
können. Auf den FAQ-Seiten heißt es: "Die Blogsuche versucht, jedes Blog zu
finden, das einen Website-Feed (RSS oder Atom) veröffentlicht."10 Einige
Blogs (vor allem die der eigenen Blogging-Plattform blogger.com) werden
automatisch indexiert. Andere müssen ihre Feed-Adresse an Google
weitergeben, um indexiert zu werden. Momentan geschieht dann noch keine
Indexierung der zurückliegenden Beiträge.
Suchfunktionen
Die Suche basiert auf einer Indexierung der durch RSS-Feeds erhaltenen
Daten.
9
URL: http://blogsearch.google.de/blogsearch
10
Quelle: Google (2009),
http://www.google.de/support/faqs/bin/static.py?page=faq_blog_search.html&hl=de
16
Einfache Suche
Eine Eingabe in den einfachen Suchschlitz löst eine Suche über den Volltext-
index aus. Es kann zwischen einer Suche in allen Blogs bzw. nur in deut-
schen Blogs vorausgewählt werden.
Erweiterte Suche
Die Möglichkeiten der erweiterten Suche:
• Boolesche Operatoren (nutzerfreundlich umgesetzt)
• Suche in Beitragstiteln
• Suche nach Blogtiteln
• Eingrenzung auf eine Domain
• Eingrenzung auf einen bestimmten Autor
• Möglichkeiten der Eingrenzung auf einen Zeitraum: jederzeit, letzte
zwölf Stunden, letzter Tag, letzte Woche, letzter Monat sowie benutzer-
definierte Einstellung
• Eingrenzung nach Sprache
• SafeSearch: Eingrenzung auf jugendfreie Inhalte
3.3 Zusammenfassung
Alle Blogsuchmaschinen bieten eine Suche auf Beitragsebene an, die meisten
ausschließlich. Unser Auffassung nach wichtige und interessante Suchfunk-
tionen und Filtermöglichkeiten sind:
• Suche in Beitrags- und Blogtiteln

• Suche nach Artikeln von bestimmten Autoren
• Eingrenzung der Suche auf einen bestimmten Zeitraum
• Suche / Filtern nach Beiträgen in einer bestimmten Sprache
• Nicht jugendfreie Inhalte herausfiltern
• Spam-Blogs herausfiltern
• Eingrenzung der Suche auf eine bestimmte Domain
• Suche nach Beiträgen, die auf eine bestimmte Seite verlinken.
Dies soll uns als Hilfestellung bei der Entwicklung "unseres" Portals dienen.
4 Entwurf der Suchfunktionen für eine

Blog-Suche
Wir haben uns entschieden, die Rechercheplattform auf der Basis von Blog-
artikeln zu modellieren, denn schließlich suchen Recherchierende in erster
Linie Inhalte, das sind konkrete Artikel und gelangen über diesen Weg auch
zu den übergeordneten Einheiten, den Blogs. Außerdem scheint sich diese
17
Praxis auch bei den meisten bestehenden Blog-Suchangeboten bewährt zu
haben.
Selbstverständlich sollte eine Rechercheoberfläche für Blogs und Blogartikel

die tatsächlichen Metadatenvergabepraktiken der Blogger berücksichtigen,
um die optimalen Suchfunktionen aufzubauen. Da derzeit der Anteil der mit
Dublin-Core-Metadaten versehenen Blogs noch sehr gering ist, kann eine
solche Praxis hier keine Berücksichtigung finden. Wir orientieren uns also an
den oben aufgeführten Katalogisierungsvorschlägen sowie der konkreten
praktischen Umsetzung im Übertext-Blog.
Orientierung geben außerdem noch die oben genannten Suchmöglichkeiten
bestehender Suchangebote.
4.1 Einfache Suche
Die einfache Suchindex sollte unserer Meinung nach die Inhalte folgender
Felder (auf Blog- wie Beitragsebene) beinhalten:
• dc:creator,
• dc:contributor,
• dc:title,
• dc:description,
• dc:subject.
• Eine Möglichkeit der vorgängigen Eingrenzung auf eine bestimmte
Sprache (wie bei Google blogs) halten wir für sehr sinnvoll. Grundlage
dessen wäre natürlich die Angabe zu dc:language.
Es handelt sich hierbei um Feldinhalte und Filtermöglichkeiten, die für Nutzer

am häufigsten unmittelbare Relevanz haben.
4.2 Erweiterte Suche
Wir schlagen folgende Felder für die erweiterte Suche (mit der Angabe des
jeweiligen Index-Inhalts) vor:
• Person: dc:creator, dc:contributor
• Titel: dc:title
• Thema: dc:subject, dc:description, dc:title
• Medientyp: dc:type, dc:format
• Datum/Zeitraum mit "von ... bis"-Möglichkeit: Inhalt: dc:date
• Sprache: dc:language
• Lizenz: nachnutzbar oder nicht? dc:rights
18
4.3 Trefferanzeige und Bearbeitungsoptionen
4.3.1 Kurzanzeige
In der Kurzanzeige sollten unserer Meinung nach alle Elemente angezeigt

werden, die für Zitierungen notwendig sind sowie kurze Ergänzungen zum
Inhalt in Form von Tags / Schlagwörtern. Außerdem wäre ein Piktogramm
sinnvoll, das Information über den vorherrschenden Medientyp (Text, Bild,
Audio, Film) des jeweiligen Treffers gibt.
Im Ergebnis würde dies so aussehen:

• Titel: dc:title,
• Verfasser: dc:creator & dc:contributor,
• Erscheinungsdatum: dc:date,
• Tags/Schlagwörter: dc:subject,
• Medientyp (als Piktogramm): dc:type & dc:format.
4.3.2 Vollanzeige
In der Vollanzeige sollten alle verfügbaren Metadatenelemente angezeigt

werden können. Am besten wäre es, wenn durch Klick auf einen Kurztreffer
dieser aufblättert und sämtliche verfügbaren Angaben gezeigt würden. Zu
den in der Kurzanzeige genannten kommen hinzu:
• Beschreibung: dc:description,
• Sprache: dc:language
• Geographische/Zeitliche Abdeckung: dc:coverage
• Lizenz: dc:rights
• Veröffentlicht von...: dc:publisher
• Verknüpft mit...: dc:relation
4.3.3 Filter- und Sortieroptionen
Folgende Möglichkeiten zum facettierten Browsen sollte es geben:

• Sprachauswahl (dc:language)
• Lizenz (dc:rights)
• eine Tag-Wolke der Beitragstags
• nach Autor (dc:creator)
• nach Medientyp (dc:format & dc:type)
Folgende Sortiermöglichkeiten sollte es geben:

• nach Aktualität (dc:date)
• nach Beliebtheit (dies ist auf der Basis von DC-Daten allerdings
schwierig. Wenn alle Links als dc:relation gekennzeichnet würden,
19
könnte man evtl. die Zahl der eingehenden Links nehmen und daraus
auf Beliebtheit schließen.)
Auf der Basis von dc:relation ließe sich auch an eine Suchfunktion denken,
die alle Blogartikel anzeigt, die auf eine bestimmte Seite oder Domain Bezug
nehmen. Dies könnte eine sehr nützliche Suchfunktion sein.
20
5 Quellen
Für alle Webquellen und -anwendungen gilt: letzter Zugriff am 27.11.2009.
Webquellen
Dublin Core Metadata Initiative (DCMI) (2008a): Dublin Core Metadata

Element Set, Version 1.1. Einsehbar unter
http://dublincore.org/documents/dces/.
Dublin Core Metadata Initiative (DCMI) (2008b): DCMI Metadata Terms.

Einsehbar unter http://dublincore.org/documents/dcmi-terms/.
Schröder, Jens (2009): Technorati ist tot, die Blogcharts leben. Einsehbar
unter http://www.popkulturjunkie.de/wp/?p=4460.
Google (2009): Über die Google Blogsuche. Einsehbar

unterhttp://www.google.de/support/faqs/bin/static.py?page=faq_blog_searc
h.html&hl=de.
Webanwendungen
RDFa-Distiller des W3: http://www.w3.org/2007/08/pyRdfa/
Blog-Suche IceRocket: http://www.icerocket.com/
Blog-Suche BlogPulse: http://www.blogpulse.com/
Blogsuche Twingly Blog Search: http://www.twingly.com/search
Blogsuche Technorati: http://technorati.com/
Blogsuche Google blogs (deutsche Ansicht):

http://blogsearch.google.de/blogsearch
21

Übertext: Blog - Katalogisierung Einer Beliebigen Webseite Basierend Auf Dublin-Core-Metadaten

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Übertext: Blog - Katalogisierung Einer Beliebigen Webseite Basierend Auf Dublin-Core-Metadaten

Hochgeladen von

Copyright:

Verfügbare Formate

MALIS - Modul 2.

2 DC-Element-Vergabe für Übertext 7

3 Recherchefunktionen und Trefferanzeige 11

1.1 Katalogisierung im MALIS

DC-Element DC-Element-Vergabe Kommentar /

1.1.2 Metadatenelemente für die inhaltliche Erschließung

DC Element DC-Element-Vergabe bei Kommentar / Problematik

2.1.1 Existierende Metadaten bei blogger.com

Welche strukturierten Metadaten liegen nun bei einem Blogger-Blog bereits

Auf Blogebene ist es nur eine Metadatenangabe, nämlich

Auf Artikelebene finden sich die folgenden wichtigen Metadaten:

Die entsprechende Auszeichnung dieser Metadaten mit Dublin-Core-

2.1.2 Ergänzungen von Metadaten in der Vorlage

Es lassen sich nun beliebig viele Metadatenangaben in der Vorlage ergänzen.

Statt die Metadatenangabe dc:creator auf Blogebene zu vergeben, hat sich

2.1.3 Extrahierte Metadaten auf Blogebene

Hier eine Wiedergabe der für die URL http://www.uebertext.org extrahierten

2.1.4 Extrahierte Metadaten für einen Beispielartikel

Hier die extrahierten Dublin-Core-Metadaten für einen Beispielartikel in

2.2 Überblick: Katalogisierungsvorschläge und die Umset-

Hier nun eine tabellarische Übersicht über die Katalogisierungsvorschläge im

DC- Vorschlag Umsetzung für Gesamtblog Umsetzung

3 Recherchefunktionen und Trefferanzeige

3.1 Blog- oder Artikelsuchmaschine?

Zu überlegen ist bei den Recherchefunktionen über Blogs, ob nur Blogs an

Diese Fragen lassen sich in diesem Rahmen nicht abschließend beantworten,

• Jedes Blog hat einen Titel.

• Jeder Beitrag hat einen Titel.

Da Blogs aus ihren Beiträgen bestehen, kommt eine Blog-Rechercheplattform

3.2 Existierende Blogsuchmaschinen

Beim Modellieren einer Blog-Suchmaschine ist die Kenntnis bestehender

In der Blog-Suchmaschine BlogPulse ist Übertext: Blog indexiert. Eine Erfas-

3.2.3 Twingly Blog Search7

Da Blogs bei Technorati angemeldet werden müssen, um gefunden zu wer-

Viele Blogsuchmaschinen bieten in der einfachen Suche nur die Recherche

Abbildung 1: Der Technorati-Suchschlitz

Darüber hinaus können die Suchergebnisse entweder nach Relevanz oder

3.2.5 Google blogs9

• Suche in Beitrags- und Blogtiteln

4 Entwurf der Suchfunktionen für eine

Selbstverständlich sollte eine Rechercheoberfläche für Blogs und Blogartikel

4.1 Einfache Suche

Es handelt sich hierbei um Feldinhalte und Filtermöglichkeiten, die für Nutzer

4.2 Erweiterte Suche

In der Kurzanzeige sollten unserer Meinung nach alle Elemente angezeigt

Im Ergebnis würde dies so aussehen:

In der Vollanzeige sollten alle verfügbaren Metadatenelemente angezeigt

4.3.3 Filter- und Sortieroptionen

Folgende Möglichkeiten zum facettierten Browsen sollte es geben:

Folgende Sortiermöglichkeiten sollte es geben:

Dublin Core Metadata Initiative (DCMI) (2008a): Dublin Core Metadata

Dublin Core Metadata Initiative (DCMI) (2008b): DCMI Metadata Terms.

Google (2009): Über die Google Blogsuche. Einsehbar

RDFa-Distiller des W3: http://www.w3.org/2007/08/pyRdfa/

Blog-Suche IceRocket: http://www.icerocket.com/

Blog-Suche BlogPulse: http://www.blogpulse.com/

Blogsuche Twingly Blog Search: http://www.twingly.com/search

Blogsuche Technorati: http://technorati.com/

Blogsuche Google blogs (deutsche Ansicht):

Das könnte Ihnen auch gefallen