Beruflich Dokumente
Kultur Dokumente
Abstract
This paper on multilingual information and retrieval systems with optical mass
storage describes the technical principles of software design. The different layers
and modules from the user interface via transformation modules, thesaurus modules
and fulltext interpretation to database management are explained in detail. Three
examples of multilingual document imaging systems are presented:
- HYPARCHIV
- wfBase
- HEMIS
ONLINE 93 Kongress IV
Copyright PROJECT CONSULT GmbH 1992-1993
Seite 1 von 37
Gliederung
Seite
1.
2.
Software-Design
4
2.1. Struktur und allgemeine Anforderungen
Software
4
2.2 Benutzeroberflche
7
und
an multilinguale
Anwendung
2.3 Transformationsmodule
11
2.4 Auswahllisten
13
2.5 Thesauri
15
2.6 Volltextinterpretation
20
3.
Anwendungsbeispiele
23
3.1 HYPARCHIV
23
3.2 wfBase
26
3.3 HEMIS
29
4.
Ausblick
34
Seite 2 von 37
ONLINE 93 Kongress IV
Copyright PROJECT CONSULT GmbH 1992-1993
Europa 1993 ist ein vielbenutztes Schlagwort. Auch nach ffnung der Grenzen und
Beseitigung der Handelshemmnisse bleiben sprachliche und kulturelle Barrieren
bestehen. Diese betreffen alle unternehmen und Organisationen, die in verschiede nen Lndern ttig sind.
Die Sprachbarriere betrifft nicht nur die reine Sprachverstehen- und Sprach-bersetzungsebene, sondern schliet mehrere Ebenen unterschiedlicher Interpretation,
Bedeutung in verschiedenen Zusammenhngen und Umsetzung in Fachnomenklatur
ein. Im Wirtschaftsleben ist nicht die Umsetzung in die Umgangssprache sondern
die Einhaltung "ungeschriebener" Gesetze der Fachsprache ausschlaggebend.
Neben den unterschiedlichen sprachlichen Anforderungen sind Umrechnungen von
Maen und Whrungen, Umstellungen von Formaten (Datum, Adresse, Schreibweisen) etc. erforderlich.
Multilinguale Software ist berall dort erforderlich, wo auf gleiche Information unab hngig von der Art der Quelle zurckgegriffen werden mu. Dies betrifft insbeson dere
- Handelsunternehmen
- Dienstleistungsunternehmen
- internationale Behrden und Organisationen
- Produktionsunternehmen mit Sublieferanten in
unterschiedlichen Lndern
- Kommunikationsunternehmen
- Banken
- Versicherungen
- Kontrollinstitutionen
(Flugsicherung / Polizei / Katastrophenschutz / Umweltdaten)
- etc.
Vielerorts wird die englische Sprache als Standard fr die Kommunikation erachtet.
Die Benutzung einer Fremdsprache kann jedoch zu Fehlinterpretationen fhren,
wenn die genaue Bedeutung von Begriffen und Zusammenhngen nicht bekannt ist.
Umgangssprachkenntnisse sind hier nicht ausreichend. Je komplexer Software und
die zugrunde liegenden Informationen werden, desto komfortabler und umfassender
mu die Untersttzung durch das Programm werden. Dies betrifft insbesondere
Anforderungen an die Gestaltung der Benutzeroberflche, Mitteilungen zur
gegenwrtigen Aktion, Zustands-meldungen, kontextsensitive Hinweise (besonders
bei Fehlbedienung oder kritischen Programmverzweigungen) sowie Hilfetexte.
Letztere mssen als Index wie auch kontextsensitiv zur Verfgung stehen.
Moderne "Windows"-orientierte Programme verfgen in der Regel ber diese Eigen schaften. Wie die meisten Programme sind sie jedoch nur in einer Benutzersprache
gehalten.
ONLINE 93 Kongress IV
Copyright PROJECT CONSULT GmbH 1992-1993
Seite 3 von 37
2 Software-Design
Multilingualitt mu ebenso wie das modulare Zuladen von Programmteilen oder
Funktionen bereits beim Entwurf eines Programms bercksichtigt werden. Die nachtrgliche Umstellung einer vorhandenen Software ist kaum mglich. In einem
solchen Fall eis ein komplettes Redesign unter Einsatz moderner Tools sinnvoller.
Keine Textkomponente darf in ausfhrenden Programmteilen enthalten, sondern mu ber Variable referenziert sein. Die Umschaltung von einer Sprache
zur anderen erfolgt ber ein globale Variable.
Seite 4 von 37
ONLINE 93 Kongress IV
Copyright PROJECT CONSULT GmbH 1992-1993
Applikation, Benutzerschnittstelle und Betriebssystem mssen variable Textfeldlngen und -positionen untersttzen. Diese knnen in Abhngigkeit der
gewhlten Sprache unterschiedlich sein.
Applikation, Betriebssystem, Bildschirm- und Druckertreiber sowie die Datenbank mssen unterschiedliche Fonts, Zeichenstze, Sortierungen, Datumsformate, etc. untersttzen. Voraussetzung ist die Eignung des Betriebssystems.
ONLINE 93 Kongress IV
Copyright PROJECT CONSULT GmbH 1992-1993
Seite 5 von 37
Screen
Language Resources
Text
Field
Thesauri
German
English
Selection
Lists
French
LX
Spanish
LX
Screen
Application
Resource
Database
LX
Data
Die Variable "Lx" fr "Language Resource" bestimmt, welche Texte angezeigt und
welche Transformationsmodule und Auswahllisten benutzt werden, um eine Eingabe
oder eine Recherche in der angewhlten Sprache zu steuern. Die Information in der
Datenbank selbst wird nicht verndert, nur Anzeige und Ausdruck werden umgesetzt.
Die verschieden Schichten einer multi-lingualen Anwendung sind auf Abb. 3 darge stellt.
Transformation
Modules
Selection
Lists
Application
Seite 6 von 37
Thesauri
Language
Interpreter
Operating
System
Database
Driver
ONLINE 93 Kongress IV
Copyright PROJECT CONSULT GmbH 1992-1993
Abb. 3:
b)
Seite 7 von 37
b)
c)
d)
e)
Automatische Anpassung der Anzeige am Bildschirm in Bezug auf unterschied liche Textlngen, Sonderzeichen, Fonts, etc. Die Anpassung mu in Abhngigkeit der verfgbaren Bildschirmauflsung durchfhrbar sein.
f)
g)
Seite 8 von 37
ONLINE 93 Kongress IV
Copyright PROJECT CONSULT GmbH 1992-1993
Benutzerschnittstelle
alle statischen Textanzeigen auf einem Bildschirmformular ("Statische" Anzeigen sind Texte wie Beschriftungen, die sich erst beim Wechsel des Bildschirmformulars ndern). Dies sind Texte, die in der Regel mit einem bestimmten
Bildschirmformular fest verbunden sind.
b)
c)
ONLINE 93 Kongress IV
Copyright PROJECT CONSULT GmbH 1992-1993
Seite 9 von 37
d)
Language Resources
Requirements
Language resources are used for displaying texts related to the unique keys in
the application
Loadable modules for each language
Every entry in the language resource is referenced by a unique key
which may be used by different applications and the database itself
Language resources are needed for
Every text on a entry or search screen form
Every message
Every helptext
Icons adapted for each country
Editor or tools for translation support
Abb. 6: Sprachressourcen
ONLINE 93 Kongress IV
Copyright PROJECT CONSULT GmbH 1992-1993
Application
Characteristics
Numeric keys for every text entry related to the screen display and database fields
Direct control of database and user interface
Object oriented message driven program
Transformatters, selection lists, thesauri, language interpretors and
language resources as loadable modules
Database as loadable module or server-client-communication via SQL
Abb. 7:
Anwendungskomponente
2.3 Transformationsmodule
Die numerischen Informationen in der Datenbank werden in einem Format abgelegt,
da bei Bedarf fr eine bestimmte zugeladene Sprachressource gewandelt wird.
Diese Wandlung wird ebenfalls durch die Variable "L x" gesteuert (Abb. 2). Transformationsmodule sind wesentlich einfacher als Textbersetzer zu realisieren, da sie
nach genauen Regeln und nur mit numerischen Werten arbeiten (Abb. 8).
ONLINE 93 Kongress IV
Copyright PROJECT CONSULT GmbH 1992-1993
Seite 11 von 37
Transformation Modules
Types
Transformation modules are used for the display transfomation
of numeric values of the database
Abb. 8:
Transformation of addresses
Transformationsmodule
Datumsformatumwandlung
Dieses Modul wandelt die Anzeige zwischen amerikanischen (Monat-Tag, Jahr)
und europischen (Tag-Monat-Jahr) Format um. Diese Funktion wird hufig
direkt vom Betriebssystem untersttzt und erlaubt auch die volle oder
abgekrzte Verwendung des Monatnamens. Das Transformationsmodul sollte
auch fr die Umwandlung von Datumsformaten vor dem Jahr 2000 auf das
neue Jahrtausend hin ausgelegt sein. Dies ist wichtig fr alle Datenbestnde
mit Aufbewahrungspflichten von 7 Jahren und mehr. Das Datum-TransferModul mu ebenfalls fr die richtige Sortierung bei der Anzeige sorgen.
b)
Zeitformatumwandlung
hnliches wie fr die Datumsformate gilt fr die Transformation von Zeiten und
deren Anzeige. Fr international agierende Unternehmen empfiehlt sich die
Speicherung von Zeitdaten im "coordinated universal time"-Format (UTC).
Datum- und Zeittransformationsmodule knnen so ausgelegt werden, da sie
prfen, ob die interne Zeiteinstellung des Systems korrekt ist (das aktuelle
Datum/Zeit mu immer jnger sein als das zuletzt gespeicherte Dokument;
Abgleich mit Standard-Arbeitszeiten und Werktagen; etc., um gegebenenfalls
des Ausfall der Systemzeit festzustellen und zu melden).
c)
Adressen-Transformation
Die Adressenformat-Transformation betrifft mehr den Ausdruck als die Anzeige
am Bildschirm. Postanschriften sind in Europa nicht standardisiert und
benutzen unterschiedliche Reihenfolgen von Strae, Hausnummer und Post-
Seite 12 von 37
ONLINE 93 Kongress IV
Copyright PROJECT CONSULT GmbH 1992-1993
EDI-Daten
Der standardisierte elektronische Datenaustausch (EDI - Electronic Data
Interchange), z.B. EDIFACT, erlaubt die Abwicklung kompletter Geschftstransaktionen auf elektronischem Wege. Hierbei entstehen keine Papieroriginale mehr. Die Daten sind digital zu archivieren. Fr die Anzeige und den
Ausdruck werden EDI-Codes in Texte umgesetzt. Diese Umsetzung in Klartext
kann durch eine Sprachsteuervariable ebenfalls sprachabhngig gemacht werden. Bei EDI-Informationen ist zu bercksichtigen, mit welcher Version einer
bestimmten EDI-Anwendung die Daten zu transformieren sind.
Entsprechend verschiedener branchenspezifischer Anforderungen an eine Applikation knnen weitere Transformationsmodule hinzukommen. Hierzu gehren z.B. die
Umsetzung von Produktcodes in Klartext.
2.4 Auswahllisten
Grafische Oberflchen wie Microsoft Windows untersttzen einfache (single select)
und mehrfach (multiple select) Auswahllisten (Abb. 9). Bei den erstgenannten Auswahllisten kann aus der angezeigten Liste nur ein Eintrag markiert und bernommen
werden. Bei multiplen Auswahllisten knnen einer oder mehrere Eintrge markiert
und bernommen werden.
ONLINE 93 Kongress IV
Copyright PROJECT CONSULT GmbH 1992-1993
Seite 13 von 37
Selection Lists
Characteristics
Selection lists are an easy way to translate information
and to spare storage capacity
The list displays a text on the screen related to a database value
Every entry in a selection list refers to a value which is related to a database field
Every entry in the different language versions of a list refers to the same value
The database has to store only the numeric value of the entry
Selection lists can be used as single and multiple-choice lists
Selection lists help to standardize nomenclature in multinational and
multilingual organizations
Abb. 9:
Auswahllisten
Auswahllisten bieten bei Datenbankanwendungen eine Reihe von Vorteilen gegenber Standard-Texteingabefeldern:
a
Bei Auswahllisten wird in der Datenbank nur eine Referenzziffer zu einer Textressource gespeichert. Dies erfordert wenig Platz, kann in Abhngigkeit einer
Sprachanwahlvariable auf unterschiedliche Textressourcen verzweigen und
beschleunigt das Retrieval der Datenbank, da nur vordefinierte Ziffern und
keine Textsequenzen durchsucht werden mssen.
ONLINE 93 Kongress IV
Copyright PROJECT CONSULT GmbH 1992-1993
Thesauri
Thesauri offer a hierachical structured and crosslinked nomenclature
One field on the screen may be represented by a structured hierarchical thesaurus
Similar to a selection list, the thesaurus displays a text related to a database value
related with this text
The thesaurus offers navigation and interpretation tools
The Thesaurus is a database of itself which relates numeric values to texts
and provides additional structure by hierarchic order and crosslinks
The structure of thesauri is standardized by ISO
The same thesaurus may be used by different applications
Abb. 10: Thesauri
ONLINE 93 Kongress IV
Copyright PROJECT CONSULT GmbH 1992-1993
Seite 15 von 37
Seite 16 von 37
ONLINE 93 Kongress IV
Copyright PROJECT CONSULT GmbH 1992-1993
Thesauri
Hierarchy and Crosslinks
The Hierarchical View of the Thesaurus
1000
1100
1200
1110
1120
1210
1220
1110
1000
1100
8
3
1200
1210
1220
1120
ONLINE 93 Kongress IV
Copyright PROJECT CONSULT GmbH 1992-1993
Seite 17 von 37
Thesauri
"Slice"- Model of a Multilingual Thesaurus
German Language "Slice"
Unique
ID
A1
Unique
ID
A2
Unique
ID
A3
...
Unique
ID
An
...
...
IDs of predecessors
IDs of successors
position in
hierarchy
main key
wordn
help text
Seite 18 von 37
ONLINE 93 Kongress IV
Copyright PROJECT CONSULT GmbH 1992-1993
Standardisierter, kontrollierter Wortschatz sichert das eindeutige und voll stndige Wiederfinden aller korrekt erfaten Informationen.
c)
Auswahllisten und Hilfefunktionen erleichtern die Navigation durch umfangreiche und tiefgegliederte Fachnomenklatur.
d)
e)
f)
Eine Thesaurus-Datenbank arbeitet als "Pre-Processor" und spart Zeit bei der
Suche in der eigentlichen Datenbank, da nur noch kurze, eindeutige
numerische Referenzen durchsucht und ausgewertet werden. Die Umsetzung
der Schlsselzahlen fr die Anzeige erfolgt wiederum durch den Thesaurus.
g)
b)
c)
Information-Retrieval-and-Access-System (IRAS). In der Regel eine NonStandard-Datenbank zur Verwaltung nur einmal beschreibarer WORM-Medien,
wiederbeschreibarer optischer Speicher (Erasable, Rewritable, M/O) oder nur
lesbarer Speicher (CD-ROM).
ONLINE 93 Kongress IV
Copyright PROJECT CONSULT GmbH 1992-1993
Seite 19 von 37
Database
Characteristics
Standard relational database may be used to manage data
(except for language interpretation)
Support of optical disk information retrieval system for mass data management
Standard fulltext database are not usable
Abb. 13: Merkmale fr das Datenbanksystem
2.6 Volltextinterpretation
Die elektronische Interpretation und bersetzung von Volltext folgt gnzlich anderen
Strategien als die bisher beschriebenen Techniken. Transfomationsmodule, Auswahllisten und Thesauri lassen sich beliebig kombinieren und in einem System vereinigen, da sie alle nach der gleichen Regel arbeiten: numerische Kennziffern
werden nach festgelegten Regeln eindeutig in vordefinierte, kontrollierte Begriffe
oder andere Werte umgesetzt.
Ein System, das die Analyse von Volltext erlaubt, ist nur schwer mit den vorge nannten Modulen zu kombinieren. Es ist ein eigenstndiges komplexes Softwaresystem, das sich aus verschiedenen Komponenten zusammensetzt (Abb. 14 und
15):
Seite 20 von 37
ONLINE 93 Kongress IV
Copyright PROJECT CONSULT GmbH 1992-1993
Language Interpreter
Characteristics
The language interpreter contains different modules which allow
translation and interpretation of fulltext databases.
Dictionaries provide information for the direct translation of nouns
(singular, plural, conjunctions, etc.)
Statistical modules support the interpretation of the noun inside a text
Linguistic modules support the interpretation of the grammatical context
Comparision modules combine the different strategies of interpretation
Presentation modules display the answer of a query in the chosen language
as translated fulltext
Inverted file and cache modules optimize access
Abb. 14: Merkmale eines Sprachinterpretationssystems
Language Interpreter
Structure
User Interface
Entry
Query
Display
Dictionaire
Modules
Statistic
Modules
Linguistic Presentation
Modules Modules
Comparision
Inverted File
Language
Interpreter
Database
Seite 21 von 37
b)
c)
d)
Die Ergebnisse der drei Module a), b) und c) werden in einem Vergleichsmodul
zusammengefhrt, gewertet und interpretiert. Das Vergleichsmodul ist so konzipiert, da es Zwischenergebnisse eines Moduls zur Auswertung an ein anderes
Modul zurckgeben kann. So entsteht ein iterativer Proze mit einer relativ
hohen Erkennungsrate bei fachbezogenen Texten, fr die es spezielle
elektronische Wrterbcher mit der Fachnomenklatur gibt.
e)
f)
Das beschriebene Volltextinterpretationssystem kann zur Auswertung von KlartextAnfragen benutzt werden. In Abb. 15 ist der Bearbeitungsweg fr eine Anfrage
dargestellt. Bei der Umsetzung eines Textes aus der Datenbank werden die Module
in gleicher Weise von unten nach oben durchlaufen. Die vorgestellte Lsung stellt
nur eine mgliche Konfiguration dar. Da diese Technik sehr neu ist, werden auch
zahlreiche andere Anstze verfolgt. Der hier vorgestellte Ansatz hat den Vorzug, da
zugleich verschiedene Module mit unterschiedlichen Auswertungsstrategien durchlaufen werden. Jedes Modul kann zudem auf bestimmte Sprachen oder Fachnomenklaturen spezialisiert und bei Bedarf automatisch vom Vergleichsmodul zugeschaltet werden. Die Interpretation und bersetzung eines Textes ist sehr zeitaufwendig und in der Regel nur auf schnelle Dialog-Rechnern mglich. Komplexe
Systeme wie das beschriebene sollten nicht mit einfachen bersetzungshilfen
verwechselt werden.
Herkmmliche Volltextdatenbanken sind fr solche Systeme selten geeignet. Die
Strategie bei Standarddatenbanksoftware ist, Fllworte, Adjektive, Adverbien etc.
wegzulassen, um Speicherplatz zu sparen, sowie die Geschwindigkeit der Datenbank zu erhhen. Bei einem sprachinterpretierenden System werden jedoch alle
Informationen des Textes bentigt, da ansonsten keine zusammenhngende und
kontextbezogene bertragung mglich ist.
Seite 22 von 37
ONLINE 93 Kongress IV
Copyright PROJECT CONSULT GmbH 1992-1993
b)
ONLINE 93 Kongress IV
Copyright PROJECT CONSULT GmbH 1992-1993
Seite 23 von 37
3. Anwendungsbeispiele
Anhand von drei Beispielen sollen multilinguale Informations- und Retrievalsysteme
anwendungsorientiert erlutert werden:
Application Examples
HYPARCHIV
wf Base
HEMIS
HYPARCHIV
b)
wfBase
c)
HEMIS
3.1 HYPARCHIV
HYPARCHIV ist ein vollstndig in Deutschland entworfenes und programmiertes
Archivierungssystem fr Faksimile-Dokumente und Dateien. HYPARCHIV wird als
Einzelplatz- und als Netzwerkversion in allen wichtigen europischen Sprachen
angeboten. Es untersttzt zahlreiche Scanner, Drucker, "Image-Boards" und
optische Speicher (WORM, M/O, Jukeboxen). Weitere Module erlauben die automatische Indizierung von Dateien (COLD), Faxversendung und Empfang, Datenaustausch mit externen Datenbanken, Dokumentenaustausch zwischen verschiedenen HYPARCHIV-Systemen und zustzliche Datensicherung (Kryptographische Kodierung). Zur einfachen Generierung von Anwendungen existiert ein
"WYSIWIG"-Editor.
Seite 24 von 37
ONLINE 93 Kongress IV
Copyright PROJECT CONSULT GmbH 1992-1993
Die Auswahl der Beispiele aus einer Vielzahl anderer erfolgte auf Basis der vom Autor selbst
durchgefhrten Projekte. Als Marketing- und Sales-Manager sowie Systemberater der ACS
Systemberatung GmbH war der Verfasser von 1989 - 1992 fr Design, Entwicklung und Vermarktung
von HYPARCHIV, sowie in den Jahren 1990 - 1992 fr das Design und Projektmanagement von
wfBase verantwortlich. Seit 1990 betreut der Verfasser das HEMIS-Projekt.
HYPARCHIV
b)
c)
ONLINE 93 Kongress IV
Copyright PROJECT CONSULT GmbH 1992-1993
Seite 25 von 37
HYPARCHIV
Iconized Electronic Desktop
Abb. 18: Der grafische "elektronische Schreibtisch" von HYPARCHIV (angewhlte Sprache:
Deutsch)
Seite 26 von 37
ONLINE 93 Kongress IV
Copyright PROJECT CONSULT GmbH 1992-1993
Abb. 19 zeigt eine dreisprachige Pressearchivanwendung. Hier sind auf der Datenbankmaske die Texte in allen drei Sprachen angegeben. Die Schaltfelder
"Documentation", "Press review" und "Bibliography" verzweigen auf Untermasken.
Hinter den Feldern "Sachgebiet" und "Schlagworte" liegen Auswahllisten, die lokal in
jeweils einer der drei Sprachen vorgehalten werden. Alle anderen Feldinhalte
werden nicht bersetzt und erscheinen in der Eingabesprache.
HYPARCHIV
Trelingual database application form
The database form
contains several
multiple selection
lists in English,
French and German
and displays the
entries in the
selected language.
Other information is
available only in the
language of data
entry
Von HYPARCHIV ist inzwischen auch eine Client-Server-Version mit einem multilingualen Thesaurus verfgbar. Die letztgenannte Version wird jedoch nicht als
Standardprodukt vertrieben. Die verfgbare Standardversion HYPARCHIV NET fr
Novell-Netzwerke wird in Europa bereits mehr als 200 mal eingesetzt. Von der
Einzelplatz- und der STARTER-Version wurden mehrere tausend verkauft.
HYPARCHIV hat sich damit zum europischen Standard fr Windows-basierte
"Optical-Filing"-Systeme entwickelt.
ONLINE 93 Kongress IV
Copyright PROJECT CONSULT GmbH 1992-1993
Seite 27 von 37
3.2
wfBase
wfBase
wf Schweitzer Wirtschaftsfrderung
Swiss Institute for Commercial Development
Zrich - Geneva - Bern - Lugano
The wf owns one of the largest archives on commercial and political topics in
Switzerland. It provides information to politicians, journalists and its commercial
members representing all major companies of Switzerland.
Optical filing system for press and commercial documents
(scanned and created via word processor, sreadsheet, etc. )
Distributed system linked via SwissNet 2 (ISDN)
Access for wf-employees and third-party partners via multilingual graphic
user interface (ISDN and telephone modem)
Database with 4-lingual thesaurus
Access to information independent of the language in which it was entered
Several mil ion documents stored on M/O-Jukeboxes (2 times 50 gigabyte)
Integrated bureau communication with textprocessing, spreadsheet, FAX,
library management, electronic mail, accounting, address database, etc.
Abb. 20: wfBase - Ausstattung und Merkmale
Seite 28 von 37
ONLINE 93 Kongress IV
Copyright PROJECT CONSULT GmbH 1992-1993
wfBase
Storage and Communications Layout
Zrich
Images, Files & Descriptors
Read / Write / Create
Harddisk Cache
wf-User
Lugano
Images, Files & Descriptors
Read / Create
Harddisk Cache
wf-User
Geneva
Images, Files & Descriptors
Read / Create
Harddisk Cache
wf-User
Bern
Images, Files & Descriptors
Read / Create
Jukebox
External Use
Harddisk Cache
wf-User
Novell
Netware
Jukebox
Internal Use
Addresses
Library
Dossiers
DB Server
ISDN
Zrich
SwissNet 2
Archive - Server
Zrich
ISDN
SwissNet 2
Communications Server
Zrich
ISDN
SwissNet 2
ISDN
&
Telephone
Modem
External User
Harddisk Cache
Systemkonfiguration mit internen und externen Teilnehmern sowie Informationsverwaltung in zwei Jukeboxen (Zrich)
ONLINE 93 Kongress IV
Copyright PROJECT CONSULT GmbH 1992-1993
Seite 29 von 37
wfBase
Multilingual Thesaurus
The two images show dif erent views of the thesaurus for thematic
keywords (here in German). The thesaurus supports the user in navigation,
jump-functions, short-key-entries, synonym-retrieval and other techniques for
easy-to-use access.
Screen I
Screen I
aus Vortrag Online 92 aus Vortrag Online 92
Thesaurus-Maske
Sachgebiet
Thesaurus-Maske
Sachgebiet
Abb. 22: wfBase - multilingualer Thesaurus. Die Abbildung zeigt zwei Fenster der Bildschirmdarstellung des Thesaurus. Links ist angezeigt, wie von einem Oberbegriff auf eine Liste von
Unterbegriffen verzweigt wurde. Der Thesaurus beinhaltet die in den Dossiers erfaten
Sachgebiete
Neben dem Thesaurus existieren Auswahllisten fr andere Felder sowie Text- und
Dateneingabefelder. Mit der Datenbank knnen die Dokumente unabhngig von der
Sprache, in der sie erfat wurden, gefunden werden. Die Anzeige erfolgt jedoch in
derjenigen Sprache, in der das Dokument erzeugt wurde. In einem multilingualen
Staat wie der Schweiz ist die bersetzung des Inhaltes nicht erforderlich. Ziel von
wfBase ist vielmehr die Kommunikation zwischen den wf-Standorten zu verbessern,
Adress- und Dokumentenbestnde zu vereinheitlichen, Redundanzen abzubauen
und Dritten (Mitgliedern der wf-Trgerschaft) einen einfachen, Zeit- und Kostensparenden Zugriff zu erlauben.
Seite 30 von 37
ONLINE 93 Kongress IV
Copyright PROJECT CONSULT GmbH 1992-1993
3.3 HEMIS
Die Vereinten Nationen haben im Rahmen ihrer Umweltorganisation (United Nations
Environmental Programme - UNEP) eine Instituion zur Harmonisierung von Umweltmemethoden, -vorhaben, -projekten und -informationen gegrndet (UNEP/HEM Harmonization of Environmental Measurement). Im Mnchner Bro von UNEP/HEM
wird seit 1990 ein Projekt zur Schaffung eines Informations- und Meta-Daten banksystems durchgefhrt (HEMIS - HEM Informations System). HEMIS soll in
Bezug auf Umweltforschung, Umwelt-"Monitoring" und Umweltschutz einen berblick ber
a
Laufende Projekte im globalen und nationalen Umfang der UN, anderer inter nationaler und groer nationaler Organisationen im Umweltbereich,
b)
c)
d)
geben (vgl. Abb. 27). Die in HEMIS enthaltenen Informationen sind Meta-Daten, die
aus den unterschiedlichsten Quellen kompiliert werden (vgl. Abb. 23 und Abb. 27).
HEMIS
Ziel ist die Harmonisierung des Zugriffs auf heterogene Informationen unterschiedlicher Qualitt, verschiedenen Umfangs und aus diversen Quellen.
ONLINE 93 Kongress IV
Copyright PROJECT CONSULT GmbH 1992-1993
Seite 31 von 37
In Mnchen wird ein System installiert werden, mit dem alle Informationen
gesammelt, aufbereitet, inhaltlich erschlossen und verwaltet werden. Das
System soll in der Lage sein, aus seiner Datenbank heraus selektierte Berichte
(printouts) und CD-ROM-Datenbanken zu erstellen.
b)
Beide System werden daher ber unterschiedliche Benutzeroberflchen, Datenbanken, etc. verfgen . Das System a) ist ein Produktionssystem, das im Wesentlichen nur von Mitarbeitern von UNEP/HEM genutzt wird. System b) soll helfen,
international ber Umweltvorhaben zu informieren, Parallelentwicklungen zu
vermeiden sowie Grundinformationen ber Projekte und Datenbanken zu liefern,
auch wenn die Informationen nicht in der Sprache des Benutzers vorliegen.
1
Die HEMIS-CD-ROM soll mglichst attraktiv gemacht werden, damit sie von vielen
benutzt wird und damit auch andere Institutionen, die nicht in das UN-Netz von
Organisationen eingebunden sind, Daten fr das System liefern (Abb. 24).
Users
INFOTERRA
E M
I S
EARTHWATCH
Institutions
UNEP
ESA
Programmes
EEA-TF
WMO
Databases
Classification
Systems
UN
Methods/
Models
NGOs
Persons
GEMS
IAEA
Governments
Others
Abb. 24: Harmonisierung und Verteilung von Informationen mittels HEMIS. Daten auf Papier, Diskette oder CD werden in das stationre HEMIS eingelesen, selektiert und formatiert,
halbautomatisch oder manuell nach einer festgelegten Nomenklatur (Thesauri)
klassifiziert und anschlieend als gedruckte Berichte zu bestimmten Themen oder als
CD-ROM distribuiert. Die Grafik zeigt nur eine Auswahl der beteiligten Organisationen.
1HEMIS
befindet sich Ende 1992 im Design- und Prototypstadium. Nicht alle Komponenten sind
bisher realisiert.
Seite 32 von 37
ONLINE 93 Kongress IV
Copyright PROJECT CONSULT GmbH 1992-1993
Unique
Identifier
(ID)
IDs of predecessors
(ISO TT, BT,
links)
Synonyms,
acronyms,
homonyms,
interpretations,
etc. of D
Explanation
Numeric
Numeric
Numeric
Numeric
Numeric
Alpha- numeric
One entry
One entry
8 digits
8 digits
8 digits
Sequence of
digits
Sequence of
digits
Up to 20
characters
(due to display
restrictions)
Up to 8 digits
(max. of 8
hierarchy
levels)
Up to 40
Up to 255
characters each characters
sequence of
texts
Internal
management
Internal
mangement
Bidirectional
Unidirectional
Retrievable via
hierarchical
selection list
and
global search
For screen
display
in the
hierarchical
thesaurus
only
Retrievable
via
global search
Unique
reference key
for the
descriptor
database
Alpha- numeric
Available
as context sensitive
help function
Die Thesauri und Auswahllisten sind Bestandteil beider HEMIS-Systeme. Im statio nren System dienen sie zur Verschlagwortung von Datenstzen, Dokumenten,
Grafiken, Bildern, etc. sowie zur Suche und Kompilation von Daten. Werden Daten
in zuvor vereinbarten Formaten auf Datentrger angeliefert, so kann die Verschlagwortung teilweise automatisch per Programm erfolgen. In der CD-ROM-Version
dienen Thesauri, Auswahllisten und alle anderen Eintrge nur zur Recherche und
Kompilation von Informationen.
ONLINE 93 Kongress IV
Copyright PROJECT CONSULT GmbH 1992-1993
Seite 33 von 37
Global
search
Thesauri
Selection lists
Numeric keys
related to thesauri and
selection lists
Descriptor database
(field oriented database)
Guided
tours
Links language
translator
Database
of
guided
tour
links
Hyperlinks
(part of
the
stored
objects)
Objects
Texts Images Datasets
Abb. 26: HEMIS-System-Layout mit multilingualer Benutzerfhrung und Recherche. Die erste
Schicht wird von Benutzerschnittstellen in mehreren Sprachen gebildet. Darunter liegen
verschiedene Module fr unterschiedliche Recherche- und Navigationsstrategien, die
ebenfalls sprachabhngig sind. Neben einer Datenbank verfgt HEMIS ber vorbereitete
"Guided Tours" und "Links". Die Informationen und Dokumente auf der CD-ROM werden
von einem IRAS (Information Retrieval and Access System) verwaltet.
Neben der Suche nach bestimmten Schlagworten oder Begriffen bietet HEMIS
zustzlich die Benutzung von zuvor zusammengestellten "Guided Tours" und individuelle "Links" als Navigationshilfen an. Eine bergreifende Suche ber die Daten bank ("Global Search") ist zwar zeitaufwendig, erlaubt jedoch die Benutzung des
Systems ohne Kenntnis, was sich inhaltlich hinter einem Feld der Recherchemaske
verbirgt. Die Benutzeroberflche kann zwischen verschiedenen ladbaren Sprachen
umgeschaltet werden. Gleiches gilt fr Thesauri, Auswahllisten, Links und Guided
Tours. Freie Texteintrge und gescannte Dokumente werden nicht gewandelt.
HEMIS soll eine erste Information liefern, die dann bei den angegebenen Institu tionen, Datenbanken oder Publikationen vertieft werden kann.
Seite 34 von 37
ONLINE 93 Kongress IV
Copyright PROJECT CONSULT GmbH 1992-1993
Institutions
Methods
HEMIS
Environmental Information System
Programmes
Region
Guided Tours
Subject
Thesaurus
Databases
Location
Methods
Region
Ref. Material
Help
EXIT
Choose
Choisir
Whlen Sie
English
Francais
Deutsch
ONLINE 93 Kongress IV
Copyright PROJECT CONSULT GmbH 1992-1993
Seite 35 von 37
4. Ausblick
Multilinguale Informations- und Retrievalsysteme stehen erst am Beginn ihrer Entwicklung.
Conclusions
MultiLingual Information and Retrieval Software
The European Challenge for 1993
Multi-lingual software is a must for all companies and organizations working
in different European Coutries
The American software industry is presently unable to supply multilingual software This is a window of opportunity for European software companies
Multilingual software helps to bridge the national barriers within Europe
Multilingual software is intelligent object-oriented programming
using databases and information management systems as a framework
for huge masses of coded and non-coded information
Abb. 28: Zusammenfassung wichtiger Argumente fr multilinguale Software
Multilinguale Software ist fr alle Europa- oder Welt-weit agierenden Unterneh men ntzlich, die sich nicht auf eine "Company Language" festlegen wollen.
b)
c)
d)
e)
f)
g)
Multilinguale Retrieval- und Informationssysteme knnen in fast allen Wirtschafts- und Verwaltungsbereichen, die grenz- und kulturbergreifend arbeiten,
sinnvoll eingesetzt werden.
Seite 36 von 37
ONLINE 93 Kongress IV
Copyright PROJECT CONSULT GmbH 1992-1993
ONLINE 93 Kongress IV
Copyright PROJECT CONSULT GmbH 1992-1993
Seite 37 von 37