Sie sind auf Seite 1von 10

Lernmaterialien BP4

Inhaltserschließung und Formalerschließung

Inhaltsverzeichnis
Inhaltserschließung 2
Begriffsdefinitionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
Inhaltserschließung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Terminologische Kontrolle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Dokumentationssprachen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
Referate/Abstracts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
Tagging/Folksonomies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
Indexierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

Formalerschließung 11
Schemata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Standadisierungsgremien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
RDA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Datenformate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
Recherche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1
Inhaltserschließung
Begriffsdefinitionen
Aboutness: Information Retrieval:
Beschreibt die begriffliche Abdeckung Methoden und Verfahren zur Aufbereitung,
→ sagt worum es geht Speicherung und Gewinnung von Informationen
und Wissen.
Äquivalenzklasse:
Menge aller Entitäten, die äquvalent zueinander sind Notation:
resp. gleiche (vorher definierte) Eigenschaften aufweisen. Eine Notation ist eine Bezeichnung eines Ob-
jekts oder Sachverhalts, die mithilfe von Zahlen,
Benennung/ Bezeichnung: Buchstaben und/oder Sonderzeichen nach Maß-
Kann natürlichsprachig oder künstlichsprachig sein gabe eines Notationssystems formuliert wird,
und besteht aus einem Term. z.B. eine Klasse in einem Klassifikationssystem.
−→ Bezeichnet was gesagt wird.
Dokumentationseinheit (DE):
Begriff: Menge der Erfassungselemente, die stellvertre-
Ist ein gedankliches Konzept. tend für die DBE in den Dokumentationsprozess
−→ Bezeichnet was gemeint ist. eingeht.
−→ Resultat der Erschließung
Dokumentarische Bezugseinheit (DBE):
Dokument oder Teil eines Dokuments, dessen Ofness:
Eigenschaften während des Dokumentationsprozesses Beschreibt die Benennung der Objekte oder
als Einheit betrachtet werden. Personen in einer Ressource.
−→ was wir erschließen → sagt was wir sehen

2
Inhaltserschließung
= Geeignete Beschreibung der Informationsressourcen.

2 Definitionen:

• Bertram (bibliotheksarische Sicht)

• Stock (informationswissenschaftliche Sicht)

Sagen beide jedoch im Grunde das Gleiche aus.

Ziele:

• Information Retrieval (Nutzeranfragen)

• Informationsorganisation (z.B. Aufstellung in einer Bibliothek)

→ Die Inhaltserschließung erstellt Beschreibungen mithilfe der terminologischen Kontrolle (für das Sprach-
problem) und mithilfe der Kategorisierung (Relationen)

Terminologische Kontrolle
Fasst alle Bezeichnungen für einen Begriff zusammen und legt das zu verwendende Indexierungsvokabular
fest.
Ziele:

• Ambiguität der natürlichen Sprache zu reduzieren

• Recherche, sowie Relevanzentscheidungen erleichtern

• Dokumente auffindbar machen, wenn nicht über Volltext indexiert wird

• Synonymkontrolle
Bei der Synonymkontrolle sollen alle als Synonym erkannten Begriffe einer Äquivalenzklasse zugeord-
net werden, d.h. es werden alle Bezeichnungen in einer Äquivalenzklasse zusammengefasst, die den
gleichen Begriff repräsentieren. Dabei unterscheidet man zwischen:

– Vollständige Synonymie – Pars pro toto Übertragung


Photographie - Fotografie Rundfunk - Hörfunk
Frisör - Friseur

– Quasi - Synonyme
– Unterschiedliche Konnotationen Violine - Geige
Pferd - Gaul
Samstag - Sonnabend

• Homonym- und Polysemkontrolle


Die Homonym- und Polysemkontrolle macht mehrdeutige Benennungen eindeutig. Dieser Vorgang
wird als Disambiguierung bezeichnet. Hier werden Bezeichnungen, die unterschiedliche Bedeutungen

3
aufweisen, differenziert und verschiedenen Fachgebieten zugeordnet. Dazu kann nur eine Bedeutung
beibehalten werden und die anderen explizit exkludiert werden oder das Homonym/Polysem wird
durch eine eindeutige Benennung ersetzt. Als weiteres Vorgehen wird das Anfügen eines Homonym-
zusatzes verwendet.

Schloss (Gebäude) - Schloss (Schließmechanismus)

• Zerlegungskontrolle
Die Zerlegungskontrolle betrifft Komposita; hier wird zwischen der morphologischen Zerlegung und
der semantischen Zerlegung unterschieden.
Bei der Zerlegungskontrolle müssen wir außerdem festlegen wo getrennt wird, sonst kommen wir nicht
auf das Dokument (z.B. Staatsexamen).

Bei der morphologischen Zerlegung wird ein zusammengesetztes Wort in seine Grundwörter (sprach-
liche Einheiten) aufgeteilt
arbeit , -er, -en, -barkeit, etc

Bei der semantischen Zerlegung wird ein Begriff in seine Begriffsteile (begriffliche Einheiten) zer-
legt. Diese Begriffsteile werden durch im Thesaurus vorhandene Bezeichnungen ausgedrückt
Kaffetasse → Kaffe + Tasse

Dokumentationssprachen
Dokumentationssprache = Wissensordnung = kontrolliertes Vokabular = KnowledgeOrganisationSystem

• terminologische Kontrolle

• natürliche/ künstliche Sprache

• einsprachig/ mehrsprachig

• Relationsarten (Äquivalenz, Hierarchie, Assoziation)

• Anordnung (alphabetische, numerisch)

→ Typ = abhängig vom Nutzungseinsatz

(Register, Index)
Ein Register (auch: Index) ist ein unselbständiges Sekundärdokument, dass auf einem Basisdokument zur
Erstellung basiert. Es ist somit nicht wirklich eine Dokumentationssprache, da es nur auf ein einziges Do-
kument angewandt wird (z.B. Wortverzeichnis als Anhang in einem Buch).
Ein Basisregister (basic index) enthält nur die (sinntragenden) Wörter aus den inhaltsbeschreibenden Tei-
len (Titel, Abstract, Deskriptoren) der Dokumentationseinheiten eines Dokumentationssystems (also nicht
aus den Volltexten).

4
Schlagwortliste

• Verzeichnis aller benötigten Benennungen eines Gebietes (können durch Querverweise verbunden sein)

• Terminologische Kontrolle (analog zum Thesaurus alphabetisch geordnet)

• flache Hierarchie (fehlenden hierarchische Struktur, Mangel an klaren Differenzierung von hierarchi-
schen und assoziativen Verhältnissen)

• Indexierungsregeln für Anwendung

• kleine Schwester des Thesaurus

• Beispiel für Schlagwortliste GND (vorher SWD nach RSWK erstellt)

→ wird zur Verschlagwortung in Bibliothekskatalogen benutzt, ist universal einsetzbar, für


die Suche geeignet

Stichwort:

• kann formal (Metadaten bzw. alles was wir für die Formalerschließung erfassen) oder inhaltlich sein

• kommt im Dokument vor (Titel, Text, Abstract)

• gut für explizite Suchanfragen

• für Suchanfragen für Dokumente ohne Schlagwörter

Schlagwort:

• wird der DBE beim Indexieren zugeordnet

• beschreibt den Inhalt

• muss nicht direkt im Dokument vorkommen

• terminologische Kontrolle bei der Vergabe über Schlagwortlisten (RSWK, SWD bzw. GND)

• gut für themenbezogene Suchanfragen

Stoppwort:

• haben für die Suche keine bzw. vernachlässigbare Bedeutung

• dazu zählen Artikel, Präpositionen, Personalpronomen etc.

• werden von der Suchmaschine nicht erfasst

Thesaurus

• Beispiele: INFODATA Thesaurus (FH Potse); Thesaurus Sozialwissenschaften

• natürlichsprachig-basierte Dokumentationssprache

5
• zur inhaltlichen Feinerschliessung geeignet

• Deskriptor = Vorzugsbenennung = Schlagworte, die zur Indexierung zugelassen sind (aktives Element)

• Nichtdeskriptor = Nichtvorzugsbenennung = Benennungen, die nicht zur Indexierung zugelassen sind


(passives Element)

• Deskriptor + Nichtdeskriptoren = Äquivalenzklasse → aus der terminologischer Kontrolle entstandene


Begriffseinheiten

• Deskriptor + Nichtdeskriptor + Kandidatenterme (freie Deskriptoren) = Zugangsvokabular

• Begriffe und Beziehungen werden eindeutig aufeinander bezogen (terminologische Kontrolle)

• Synonyme werden möglichst vollständig erfasst

• Homonyme und Polyseme werden besonders gekennzeichnet

• für jeden Begriff wird eine Bezeichnung (Vorzugsbenennung, Begriffsnummer oder Notation) festge-
legt, die den Begriff eindeutig vertritt

• Beziehungen zwischen Begriffen (repräsentiert durch ihre Bezeichnungen) werden dargestellt

• ist präskriptiv → Geltungsbereich legt fest, welche begrifflichen Einheiten zur Verfügung gestellt
werden und durch welche Bezeichnungen diese repräsentiert werden

• Bezugsrahmen für Erstellung einzugrenzen → Anforderungen bezüglich Eindeutigkeit, Verbindlichkeit


und Übersichtlichkeit

• überschaubarer Gegenstandsbereich, Spezifitätsgrad (Allgemein vs. Speziell), Sprachstil (Wissen-


schaftlich vs. Allgemein) und Umfang zu konkretisieren.

• Wortgutsammlung anhand geeigneter Quellen (z.B. Experten, Fachliteratur, Fachwörterbücher, be-


reits existierende Thesauri, etc.) erstellen

• Thesaurus ohne Vorzugsbenennung (Deskriptor) = alle Elemente einer Äquivalenzklasse uneinge-


schränkt für Indexierung und Retrieval verwendbar

• Thesaurus mit Vorzugsbenennungen = ein Element der Äquivalenzklasse als Vorzugsbenennung aus-
gewählt und als Deskriptor bezeichnet

• Relationen begründen die Struktur des Thesaurus → stellen die Beziehungen zwischen den einzelnen
Äquivalenzklassen dar (semantisches Netz durch Querverweise, bessere Ergebnissen bei Indexierung
und Information Retrieval)
– Äquivalenzrelation (BS-BF)
– Hierarchische Relation (OB-UB)
– Assoziationsrelation (VB)
– Begriffskombination (BK-KB)

6
→ wird zur Verschlagwortung in fachspezifischen Datenbanken benutzt, ist der große Bruder
der Schlagwortliste, für die spezielle Suche geeignet, jünger als Klassifikation

Klassifikation
Die Klassifikation ist neben dem Thesaurus eine der beiden Dokumentationssprachen, mit denen Objekte
inhaltlich beschrieben werden können. Unter Klassifikation kann man den Prozess der Klassenbildung bei
der Erstellung eines Klassifikationssystems, das Ergebnis dieses Prozesses (die eigentliche Klassifikation)
und den Prozess der Zuordnung von Objekten zu Klassen dieses Systems (= Klassieren) verstehen.

• künstlichsprachig-basierte Dokumentationssprache → sprachunabhängig

• terminologische Kontrolle

• Relation: Hierarchie (Mono/ Poly)

• Beispiel RVK (26 Oberklassen)

• Dezimalklassifikation

– Beispiele: DDC (anglo-amerikanischer Raum); UDC (europäischer Raum)


– monohierarchisch strukturierte und präkombinierte Klassifikation (d. h. jeder Unterbegriff hat
nur einen Oberbegriff)
– besitzt zehn Oberklassen (werden mit den Ziffern 0-9 sukzessive in (potentiell) unendlich viele
Unterklassen eingeteilt)

→ wird zur Grobklassifizierung meist nach Fachgebieten, Aufstellung in Bibliotheken (und


Bibliothekskatalogen) benutzt, ist auch für das grobe Blättern in der Recherche geeignet

• Facettenklassifikation

– Beispiele: Colon- Klassifikation (teilfacettierte Universalklassifikation); Epicurious (online Re-


zeptbuch)
– analytisch-synthetische Klassifikation
– Kombination der Konstruktionsprinzipien von Notation, Hierarchie und Citation Order aus der
Klassifikation mit dem Prinzip der Facettierung
– keine starre Baumstruktur wie in der Dezimalklassifikation ⇒ flexibel und jederzeit erweiterbar
– Anzahl der Teilsysteme richtet sich nach der Anzahl von Facetten
– Facette ist das Ergebnis der Unterteilung eines Gegenstandsbereichs in grundlegende Aspekte,
d.h. nichts anderes als eine Klasse, die einen Begriff auf einem sehr hohen Abstraktionsniveau
repräsentiert
– Facetten häufig mit Facettenindikatoren versehen → ermöglicht einzelne Bestandteile einer zu-
sammengesetzten Notation als solche zu identifizieren

7
– Ausprägungen einer Facette = Foci
– Foci = Klassen auf niedrigerem Abstraktionssniveau → können als Unterklassen von Facetten
bezeichnet werden
– Facettierte Begriffsordnungen können Wissensdomänen mit deutlich geringerem Platzaufkom-
men speichern, als dies bei den typischen Klassifikationssystemen der Fall ist
– Notation wird bei der Bearbeitung des Dokuments durch Notationen aus den jeweils zutreffenden
Facetten zusammengebaut (bottom-up )
– Notation nach Bottom-Up Prinzip → zuerst Begriffe ermitteln, dann Facetten bestimmen, denen
diese Begriffe zugeordnet werden
– Anordnung der Foci einer Facette nach hierarchischer Ordnung
– Foci werden mit einer Notation versehen → Synthese der Einzelnotationen zu einer Gesamtno-
tation ergibt die Notation
– Klassen sind eindimensional

Klassifizierung von Personen


Facetten → Geschlecht/Alter
Foci → männlich/weiblich, Erwachsene/Kinder

→ wird zur Klassifizierung anhand verschiedener gleichberechtigter Perspektiven be-


nutzt, wird oft für Klassifizierung im Web eingesetzt, ermöglicht flexiblere Recherche
(Blättern) als die monohierarchische Klassifikation

Unterschiede Klassifikation/Thesaurus

Aspekt Klassifikation Thesaurus


Sprachbasis Künstliche Sprache Natürliche Sprache
Abdeckung breit tief
Abstraktion hoch niedrig
Elemente Klassen (Notationen) Deskriptoren/ Nichtdeskriptoren
Anordnung primär systematisch primär alphabetisch
Relationsarten Hierarchie Äquivalenz, Hierarchie, Assoziation
Indexierung meist 1 Notation mehrere Deskriptoren
Flexibilität gering hoch
Erweiterbarkeit problematisch weniger problematisch
Erschließungsziel grob Feinerschließung
Ordnung, Aufstellung Beschreibung
Gemeinsamkeiten Unterschiede
Vollständigkeitsrecherche Genauigkeitsrecherche

8
Unterschiede Klassifikation/Facettenklassifikation

Aspekt Klassifikation Facettenklassifikation


Konstruktion top-down bottom-up
Monodimensionalität Polydimensionalität
Monohierarchie Polyhierarchie
Ordnungsprinzip systematisch perspektivisch
Koordination Präkombination Prä-/ Postkoordination
Erweiterbarkeit problematisch weniger problematisch
Flexibilität citation oder vorgegeben citation order variabel
Ausdrucksstarkärke gering höher

Anforderungen an Dokumentationssprachen

• Wiederauffindbarkeit

• Vollständigkeit/Abdeckung

• Effektivität

• Praktikabilität

• Repräsentation

Referate/Abstracts
• Abstract = Kurzreferat = Kurzzusammenfassung

• Kurzzusammenfassung der thematisierten Sachverhalte

• Überblick (ohne Original verständlich)

• meist Satzform (unkontrollierte Terminologie)

• Orientierungs- und Auswahlfunktion (Sprachversionen)

• Lesezeit verkürzen (1:10)

• Recherchetext erhöhen
– Autorenreferat / Fremdreferat
– Textreferat / Strukturreferat
– Homomorphes Referat (dokumentorientiert)
– Paramorphes Referat (perspektivisch)
– Indikatives Referat = wesentliche Sachverhalte, aber keine Resultate
– Informatives Referat = wesentliche Sachverhalte + Daten, Fakten und Resultate
– Kritisch / Bewertendes Referat (= Rezension)

– Vollständigkeit → Synonyme für zentrale Sachverhalte

9
– Genauigkeit → Keine Paraphrasen
– Objektivität → Positive Formulierung
– Kürze → Keine Sammelwörter / Bindestrichwörter
– Redundanzfreiheit
– Fehlerfreiheit
– Verständlichkeit / Klarheit

⇒ Kontrollierte Vokabulare zur Recherche → Referate/Abstracts zur weiteren Detailauswahl

Tagging/Folksonomies
Informationen im Web = wenig Text, schlecht zu finden, unorganisiert ⇒ Kategoriensysteme, Stichworte
= Tags

pro con
Keine Dokumentationssprache keine Terminologiekontrolle
(die einschränkt und gelernt werden muss)
Spiegelt die Terminologie der Nutzer wieder Individual-gebundene Bedeutungen
Ein Dokument wird durch viele Worte beschrieben kollektive Intelligenz vorhanden
(kollaborative Inhaltserschließung = kollektive Intelligenz) (nur bei genügend Masse)
Immer up-to-date Keine Trennung zwischen inhaltlicher
& formaler Beschreibung
Neue Terme werden sofort eingesetzt Keine Relationen
Durch Kollaboration können mehr Inhalte indexiert werden Unterschiedliche Spezifität der Indexierung
Billige Indexierungsvariante Spam-Tags
Auswahl der zu indexierenden Dokumente durch den Nutzer
(Maximierung des Interesses)

Indexierung
Methode der Informationserschließung, die den Inhalt von Dokumenten oder anderen Objekten durch Stich-
und Schlagwörter (mit Hilfe einer Dokumentationssprache) aufbereitet und beschreibt.
→ dient dazu mittels entsprechender Suchanfragen bei einem späteren Information Retrieval die relevanten
Dokumente zu liefern.

• Gleichordnende Indexierung (coordinate indexing)


Deskriptoren und Notationen werden unabhängig von ihrem hierarchischen Niveau und von ihren
dokumentspezifischen Zusammenhängen gleichrangig nebeneinander gestellt und dem betreffenden
Dokument zugeordnet. Beim Retrieval kann dann nach einzelnen Deskriptoren oder mit logischen
Verknüpfungen gesucht werden.

• Syntaktische Indexierung (syntactic indexing)


Zusätzlich zur gleichordnenden Indexierung wird bei der Deskriptorenvergabe deren syntaktische Be-
ziehung zueinander gespeichert. Beispiele sind Adjektiv/Substantiv-Verbindungen (juristische Person)
oder präpositionale Attribute (Anspruch auf Vergütung).

10