Sie sind auf Seite 1von 20

Januar 2007

DIN-Fachbericht ISO/TR 19358 {


ICS 13.180

Ergonomie –
Aufbau- und Anwendung von Prüfverfahren zur Sprachtechnologie;
Deutsche Fassung ISO/TR 19358:2002
Ergonomics –
Construction and application of tests for speech technology;
German version ISO/TR 19358:2002
Ergonomie –
Élaboration et mise en oeuvre des tests des systèmes de technologie de la parole;
Version allemande ISO/TR 19358:2002

Gesamtumfang 20 Seiten

Normenausschuss Ergonomie (NAErg) im DIN


DIN-Fachbericht ISO/TR 19358:2007-01

Nationales Vorwort
Der ISO Technical Report ISO/TR 19358:2002 wurde vom ISO/TC 159SC 5 „Ergonomics of the physical
environment“ erarbeitet, deutscherseits war der frühere NAErg Arbeitsausschuss 11 „Optische und akustische
Verständigung" an den Arbeiten beteiligt. Dieser Arbeitsausschuss ist inzwischen in den Arbeitsausschuss NA
023-00-05 „Ergonomie der physikalischen Umgebung“ aufgegangen.

Ursprünglich war beabsichtigt den ISO/TR 19358:2002 auch als CEN Technical Report (CEN/TR) zu
übernehmen, dieser sollte dann als DIN-Fachbericht übernommen werden. Die Übernahme als CEN/TR
wurde aber vom CEN Management Center abgelehnt, da dies keinen zusätzlichen Nutzen bringt. Daraufhin
wurde vom NA 023-00-05 AA beschlossen den ISO/TR als DIN-Fachbericht zu übernehmen. Durch diese
Umstände hat sich die Herausgabe dieses DIN-Fachberichtes verzögert.

2
DIN-Fachbericht ISO/TR 19358:2007-01

Inhalt

Seite

Nationales Vorwort............................................................................................................................................2
Einleitung ...........................................................................................................................................................4
1 Anwendungsbereich ............................................................................................................................4
2 Begriffe ..................................................................................................................................................4
3 Beschreibung von Sprachtechnologien ............................................................................................6
3.1 Einleitung ..............................................................................................................................................6
3.2 Zur Verfügung stehende Verfahren ....................................................................................................6
4 Beschreibung der für die Sprachtechnologie relevanten Größen ..................................................8
4.1 Einleitung ..............................................................................................................................................8
4.2 Sprechweise..........................................................................................................................................8
4.3 Sprecher (Spezifikation sprecherabhängiger Aspekte) ...................................................................8
4.4 Aufgabe (anwendungsspezifische Beschreibung relevanter Erkennungsparameter) .................9
4.5 Training (aufgabenbezogene Trainingsaspekte) ..............................................................................9
4.6 Umgebung (Spezifikation der Sprachqualität in einer bestimmten Umgebung, sowohl
für Signaleingang als auch Signalausgang)....................................................................................10
4.7 Eingangssignal (Spezifikation der Übertragung des Sprachsignals vom Mikrofon zum
Eingang des Erkenners) ....................................................................................................................10
4.8 Spezifikation von Sprachtechnologie-Modulen ..............................................................................10
5 Verfahren zur Beurteilung .................................................................................................................11
5.1 Allgemeines ........................................................................................................................................11
5.2 Feld- versus Laborbewertung ...........................................................................................................12
5.3 Systemtransparenz ............................................................................................................................12
5.4 Subjektive versus objektive Verfahren ............................................................................................13
5.5 Spracherkennungssysteme ..............................................................................................................13
5.6 Sprachsynthesesysteme ...................................................................................................................14
5.7 Sprecheridentifizierung und -verifizierung ......................................................................................14
5.8 Korpora (Datensätze) .........................................................................................................................14
5.9 Verwandte Informationsquellen........................................................................................................15
Anhang A (informativ) Beispiel einer Beurteilung ........................................................................................16
A.1 Befehlen und Steuern: Sprachgesteuertes Einwählen bei GSM ...................................................16
A.2 Diktat: Mehrsprachiger Vergleich eines Diktiersystems ................................................................17
Anhang B (informativ) Maßstäbe für das Leistungsverhalten.....................................................................19
Literaturhinweise.............................................................................................................................................20

3
DIN-Fachbericht ISO/TR 19358:2007-01

Einleitung
Dieser DIN-Fachbericht gibt Ratschläge zu Verfahren für die Bestimmung des Leistungsverhaltens von
Sprachtechnologie-Systemen (automatische Spracherkennungsgeräte, Text-Sprache-Systeme und andere
das Sprachsignal verwendende Geräte) und zur Auswahl geeigneter Prüfverfahren.

Sprachliche Kommunikation zwischen Menschen ist in diesem DIN-Fachbericht nicht enthalten, wird aber in
ISO 9921N1) behandelt.

1 Anwendungsbereich
Dieser DIN-Fachbericht befasst sich mit der Prüfung und Beurteilung von sprachbezogenen Produkten und
Dienstleistungen, und ist für die Anwendung durch auf dem Gebiet der Sprachtechnologie tätige Fachleute,
sowie für Käufer und Benutzer derartiger Systeme gedacht.

Fortgeschrittene Benutzer werden auf die detailliertere Bewertung in den Kapiteln des EAGLES Handbook of
Standards and Resources for Spoken Language Systems (Gibbon und andere 1997) und des EAGLES
Handbook of Multimodel and Spoken dialogue Systems verwiesen. EAGLES war ein teilweise von der
Europäischen Gemeinschaft gefördertes Forschungsprojekt.

2 Begriffe
Für die Anwendung dieses DIN-Fachberichts gelten die folgenden Begriffe.

2.1
automatische Spracherkennung
ASR (Automatic Speech Recognition)
Fähigkeit eines Systems, die menschliche Sprache als Eingabemöglichkeit zu akzeptieren

2.2
Dialog
wechselseitiger Austausch von Informationen zwischen dem Sprachsystem und dem menschlichen Sprecher

2.3
Dialogmanagement
Steuerung des Dialogs zwischen dem Sprachsystem und dem Menschen

2.4
Verarbeitung natürlicher Sprache
NLP (Natural Language Processing)
automatische Verarbeitung eines von Menschen produzierten Textes

2.5
objektive Beurteilung
Beurteilung ohne unmittelbare Beteiligung von Menschen während der Messung, üblicherweise unter
Verwendung zuvor aufgezeichneter Sprache

2.6
Maßstäbe für das Leistungsverhalten
Mittel zur Beurteilung der Leistung eines Systems, üblicherweise durch diagnostische oder relative Leistungs-
verfahren

N
1) ISO 9921 wurde als DIN EN ISO 9921 in das Deutsche Normenwerk übernommen.

4
DIN-Fachbericht ISO/TR 19358:2007-01

2.7
sprecherabhängiges System
Erfordernis eines Spracherkennungssystems, durch die Sprache eines bestimmten Anwenders trainiert zu
werden

2.8
Sprecheridentifizierung
Identifizierung eines bestimmten Sprechers aus einer geschlossenen Gruppe möglicher Sprecher

2.9
sprecherunabhängiges System
System, das nicht für einen besonderen Anwender trainiert, sondern von jedem Benutzer einer ausgewählten
Gruppe (Muttersprachler, Erwachsene usw.) anwendbar ist

2.10
Sprecher-Erkennung
allgemeiner Begriff für ein Verfahren, mit dem die Identität eines Sprechers bestimmt oder verifiziert wird

2.11
Sprecherverifizierung
Verifizierung der Identität einer Person durch Beurteilung spezifischer Aspekte seiner/ihrer Sprache

2.12
Sprachstil
Sprache, die isoliert oder kontinuierlich, (ab)gelesen oder spontan oder diktiert sein kann

2.13
Sprachkommunikation
Übermitteln oder Austauschen von Informationen unter Anwendung der Sprache, der Stimme und des Hörens
ANMERKUNG Inhalt der Sprachkommunikation dürfen kurze Texte, Sätze, Wortgruppen, einzelne Wörter, Gemurmel
und Wortbestandteile sein.

2.14
Spracherkennung
Vorgang in einer Maschine, die gesprochene Sprache in erkannte Wörter umwandeln kann
ANMERKUNG Dabei handelt es sich um den Vorgang, mit dem ein Computer ein akustisches Sprachsignal in Text
umwandelt.

2.15
Sprachsynthese
Erzeugung von Sprache aus Daten

2.16
Sprachverstehen
Verfahren mit dem der semantische Inhalt von Sprache erfasst wird

2.17
subjektive Beurteilung
Beurteilung mit unmittelbarer Beteiligung von Menschen während der Messung

2.18
Text-Sprache-Synthese
Erzeugung von hörbarer Sprache aus einem Text

2.19
Vokabular
in einem bestimmten Kontext verwendeter Wortschatz

2.20
Vokabularumfang
Anzahl der Wörter im Wortschatz des Spracherkenners

5
DIN-Fachbericht ISO/TR 19358:2007-01

3 Beschreibung von Sprachtechnologien


3.1 Einleitung

Sprachtechnologie umfasst die automatische Erkennung von Sprache und Sprecher, die Sprachsynthese
usw., die Verarbeitung natürlicher Sprache (NLP) beinhaltet das Verstehen von Textelementen und das
Management des Dialogs zwischen einem menschlichen Sprecher und einer Maschine. Moderne Verfahren
beruhen meist auf Algorithmen, die die digitale Signalverarbeitung in einem digitalen Signalprozessor oder
einem (Personal)Computersystem verwenden. Diese Algorithmen erzeugen annähernd Echtzeit-Antworten.
Die Leistungsfähigkeit ist von der Anwendung abhängig. Beispielsweise wird die Leistung eines Sprach-
erkennungssystems, das über ein kleines Vokabular verfügt und durch die Sprache eines einzelnen
Anwenders trainiert wurde (z. B. Steuerung eines persönlichen handgehaltenen Telefons), im Allgemeinen
(für diesen speziellen Anwender) viel besser sein, als die eines Systems, das für einen Bereich mit großem
Vokabular und allgemein für eine große Gruppe von unbekannten Anwendern (z. B. bei Informationsdiensten
eines öffentlichen Telefonnetzwerks) gestaltet wurde.

Bei Sprachprodukten und -dienstleistungen können vier Hauptkategorien unterschieden werden:

a) Befehlen und Steuern. Die automatische Spracherkennung (ASR) stellt die Schnittstelle zwischen
einem Anwender und einem System dar. Die ASR wird üblicherweise in multimodaler Konstruktion
verwendet, wobei die Steuerung eines Systems durch Sprache eine der möglichen Modalitäten ist (eine
Tastatur, eine Maus, ein Tastbildschirm usw. können alternative Modalitäten sein). Die Steuerung durch
ein ASR-System kann in Situationen, in denen die Hände nicht frei sind, unbedingt erforderlich sein.

b) Dienstleistungen und Telefonanwendungen. Dienstleistungen wie zum Beispiel ein virtueller


Informationsstand erfordern üblicherweise eine Kombination aus Spracherkennung, Sprachverstehen,
Sprachsynthese und Dialogmanagement, um den unbeaufsichtigten Dialog zwischen Anwender und
System zu steuern. Die beim gegenwärtigen Stand der Technik verwendeten Systeme umfassen
verhältnismäßig einfache Dialogstrukturen, wie beispielsweise Reiseinformations-Systeme (Tag, Uhrzeit,
„von-nach“) und Call-Center (Auswahl der erforderlichen Informationen).

c) Erzeugung von Dokumenten. Zurzeit sind für mehrere Sprachen trainierte Diktiersysteme im Handel
erhältlich. Diese Systeme können mit normalen Textverarbeitungssystemen verbunden werden. Einfache
Anwendungen umfassen die Eingabe von Daten für einen bestimmten Anwendungsbereich (z. B.
medizinische Berichte), komplexere Systeme ermöglichen das Diktat vollständiger Dokumente und die
Steuerung des Textverarbeitungssystems. Diese komplexeren Systeme sind häufig für ein großes
Vokabular und den sprecherabhängigen Gebrauch trainiert. Für eine annehmbare Leistungsfähigkeit
muss das System jedoch zuvor für den Anwender und den Anwendungsbereich eingerichtet worden sein.
Dies erfolgt häufig in zwei Schritten: in einer (adaptiven) akustischen Trainingsphase, während der der
Anwender einen zuvor festgelegten Text vorzulesen hat und mittels Vorlage einer Anzahl von für den
Nutzer geschriebenen Dokumenten, die der Erweiterung des Vokabulars und der Modifizierung des
Sprachmodels dienen.

d) Wiederauffinden eines Dokumentes. Das Wiederauffinden von vollständigen Dokumenten (aus einem
Archiv für Tondokumente), von bestimmten Passagen eines Dokumentes oder von Äußerungen eines
bestimmten Sprechers sind für Archivierung und Dokumenten-Management und die Zusammenstellung
von Übersichten von Interesse. Zur Kennzeichnung sprachlicher Äußerungen werden verschiedene
Verfahren angewendet, wie zum Beispiel ASR, Auffinden von Wörtern und Sprecher-Erkennung. Zum
Auffinden der erforderlichen Information werden spezifische Suchalgorithmen verwendet.

3.2 Zur Verfügung stehende Verfahren


3.2.1 Spracherkennung

Automatische Spracherkennungssysteme können aus einem Sprachsignal eine Transkription (Textfolge)


erstellen. Für diesen Zweck werden trainierte Systeme verwendet. Moderne Systeme, die beim Gebrauch
über ein großes Vokabular verfügen, erfassen spezifische spektrale Parameter des Sprachsignals, anhand
derer Untereinheiten (Phoneme). Wörter werden in Form von Zeichenfolgen dieser Phoneme beschrieben.

6
DIN-Fachbericht ISO/TR 19358:2007-01

Der Aufbau der Spracherkennung kann unterschiedliche Ebenen erfordern, die sich auf die Modelle der
Phoneme (Sprachlaut-Modelle), der Wörter (Vokabular) und die statistische Beschreibung von Wort-
kombinationen (Sprachmodell) beziehen. Sprachlaut-Modelle sind üblicherweise für eine große Anzahl von
Sprechern trainiert, was eine auf statistischer Erfassung basierende Darstellung zur Folge hat. Der
statistische Ansatz beruht üblicherweise auf einem Hidden-Markov-Modell (HMM) oder einem Neuronalen
Netzwerk (NN). Das Vokabular und das Sprachmodell werden aus digital verfügbarem Text gewonnen, der für
den Anwendungsbereich repräsentativ ist.

3.2.2 Sprecheridentifizierung und -verifizierung

Die automatische Sprecheridentifizierung ist die Fähigkeit, einen der Sprecher aus einer Gruppe bekannter
Sprecher zu identifizieren. Sie beantwortet die Frage: „Zu wem gehört diese Sprachprobe?“. Dieses Verfahren
besteht aus zwei Schritten: Erstellen von Modellen der Sprache der Sprechergruppe (Training) und
Vergleichen der unbekannten Sprache mit diesen Sprechermodellen (Prüfen).

Sprecherverifizierung ist ein Verfahren zur Bestätigung, dass es sich beim Sprecher um die Person handelt,
die er oder sie vorgibt zu sein. Im Zentrum des Sprecherverifizierungs-Systems steht ein Algorithmus, der
eine Äußerung des Sprechers mit einem Model vergleicht, das aus während einer Aufzeichnungsphase vom
autorisierten Anwender abgegebenen Trainingsäußerungen erstellt wurde. Stimmt die sprachliche Äußerung
innerhalb eines erforderlichen Toleranzbereichs mit dem Model überein, so wird der Sprecher als derjenige
akzeptiert, dessen Identität zu besitzen er behauptet hatte. Zum Schutz vor einem Eindringling, der versucht,
das System durch eine Aufzeichnung der Stimme des autorisierten Nutzers zu manipulieren, wird das
Verifizierungssystem den Sprecher zur Äußerung bestimmter Phrasen auffordern, wie zum Beispiel
Zahlenfolgen, die so ausgewählt werden, dass sie bei jedem Eintrittsbegehren des Besuchers verschieden
sind. Das Sprecherverifizierungs-System wird mit einem Spracherkennungssystem kombiniert, um
sicherzustellen, dass die richtige Phrase gesprochen wurde.

3.2.3 Sprachsynthese

Zur Sprachsynthese werden zwei Verfahren angewendet: das Erste, allgemein als „konservierte
Sprache“ (en: canned speech) bekannt, basiert auf vorab gespeicherten Mitteilungen. Die zur Komprimierung
der Mitteilungen dienenden Codierungstechniken werden üblicherweise zur Einsparung von Speicherplatz
verwendet. Mit dieser Art der Synthese kann Sprache von hoher Qualität erreicht werden, insbesondere für
Anwendungen mit schnellen Antworten, die eine Anzahl von Standardantworten verwenden. Das zweite
Verfahren, „Text-Sprache-Synthese“, ermöglicht die Erzeugung jeder Mitteilung aus einem geschriebenen
Text. Dabei wird allgemein in einer ersten Phase der linguistischen Verarbeitung der eingegebene Text in eine
interne Darstellung, bestehend aus Phonemen und prosodischen Markierern umgewandelt und in einer
zweiten Phase auf Grundlage dieser internen Repräsentation der Klang erzeugt. Die Klangerzeugung kann
entweder vollständig durch Regeln, üblicherweise unter Verwendung komplexer Modelle der Mechanismen
der Sprachproduktion (Formantsynthese, Intonation) oder durch die Verknüpfung kurzer vorab gespeicherter
Einheiten (Verknüpfungssynthese) erfolgen. Die mittels Verknüpfungssynthese erreichte Sprachqualität ist
allgemein höher zu bewerten.

3.2.4 Sprachverstehen

Systeme zum Sprachverstehen können in zwei große Kategorien unterteilt werden. Die erste umfasst
Probleme der Interaktion zwischen Mensch und Maschine. In diesem Fall arbeiten die Person und die
Maschine gemeinsam, um ein bestimmtes Problem zu lösen. Die interaktive Beschaffenheit der Aufgabe gibt
der Maschine die Möglichkeit, mit einer Frage zu reagieren, wenn sie die Absichten des Anwenders nicht
verstanden hat. Umgekehrt kann dann der Nutzer die Frage oder den Befehl neu formulieren. Bei der zweiten
Kategorie handelt es sich um Probleme, wenn die Maschine aus der Sprache eine gewünschte Information
erfassen soll, ohne dass die Möglichkeit einer Rückmeldung oder Interaktion gegeben ist. Das ist bei der
Zusammenfassung einer gesprochenen Dokumentation der Fall.

7
DIN-Fachbericht ISO/TR 19358:2007-01

3.2.5 Dialogmanagement

Ein Dialog wird gewöhnlich als Interaktion zweier kooperierender Partner betrachtet, während der
Informationen zwischen beiden ausgetauscht werden. Es kann sinnvoll sein, von diesem Konzept
abzuweichen, wenn man berücksichtigt, dass einer der Partner den Dialog zu einem bestimmten Zweck
begonnen hat. Die beiden Dialogpartner sollten als asymmetrisch betrachtet werden, der eine als Urheber des
Dialogs, der andere als Rezipient. Der Dialog ist erfolgreich abgeschlossen, wenn zumindest der Urheber
glaubt, dass sich der Rezipient in dem Zustand befindet, der durch den Dialog beabsichtigt war. Der
beabsichtigte Zustand kann einmal sein, dass der Rezipient nun über Informationen verfügt, oder dass der
Rezipient Informationen übermittelt hat, oder dass der Rezipient für den Urheber eine Aufgabe ausführt. Im
Ergebnis wurde zwischen Urheber und Rezipient eine einzelne Mitteilung in einer Richtung übermittelt, die
das gewünschte und durch den Urheber wahrnehmbare Resultat erzielt hat.

4 Beschreibung der für die Sprachtechnologie relevanten Größen


4.1 Einleitung

Die Eignung von Sprech- und Sprachsystemen wird von verschiedenen Faktoren beeinflusst. Daher darf der
optimale Einsatz eines Systems von einer bestimmten Anwendung abhängig sein. Zu diesem Zweck sind für
die Gestaltung einer wahrscheinlichen Beurteilungsaktivität zunächst die aufgabenbezogenen Merkmale und
die Spezifikation der erforderlichen Leistung erforderlich. Die relevanten Merkmale umfassen eine
Spezifikation der Sprechweise, des Sprechers, der Aufgabe, des Trainings, der Umgebung, der Eingabe und
des Systems. Jede dieser Eigenschaften umfasst verschiedene Variablen, die in 4.2 bis 4.8 beschrieben
werden.

4.2 Sprechweise

Einzelne Wörter: eine Folge von einzeln ausgesprochenen Wörtern, häufig für Befehl- und
Steuerungsaufgaben oder einfache Dateneingabe. Kurze Pausen zeigen die
Wortgrenzen an.

Verbundene Wörter: eine Folge von zusammenhängenden kontinuierlich ausgesprochenen Wörtern,


häufig für Befehle und Steuerung oder für die Dateneingabe als Zahlenfolgen.
Diese Systeme werden üblicherweise mit isolierten Wörtern trainiert.

Gelesene Rede: kontinuierlich gelesene Rede, zum Beispiel aus einem Textbuch, ohne Pausen.

Diktierte Rede: kontinuierlich gelesene Rede, allerdings mit geregeltem Sprechtempo und
zusätzlicher Aufmerksamkeit für die angemessene Aussprache. Der Sprecher ist
sich der stattfindenden automatischen Spracherkennung bewusst.

Spontane Rede: Umgangssprache, einschließlich aller Arten von Diskontinuitäten wie Räuspern,
Stottern, Unterbrechungen usw. Üblicherweise ist sich der Sprecher der statt-
findenden Spracherkennung nicht bewusst.

4.3 Sprecher (Spezifikation sprecherabhängiger Aspekte)

Sprecherabhängigkeit: sprecherabhängig ist ein System, das für einen Sprecher oder eine kleine Gruppe
von Sprechern trainiert ist, sprecherunabhängig ist ein System, das für viele
Sprecher trainiert ist, üblicherweise für die Anwendung durch Sprecher, die nicht
zur Trainingsgruppe gehören.

Geschlecht: durch männliche und weibliche Sprecher erzeugte Sprache unterscheidet sich
üblicherweise hinsichtlich der Grundfrequenz (Tonhöhe) und des spektralen
Gehalts. Das kann eine Auswirkung auf die Leistungsfähigkeit des Erkenners
haben, wenn das System nicht für das entsprechende Geschlecht trainiert ist.

8
DIN-Fachbericht ISO/TR 19358:2007-01

Alter: das Alter des Sprechers hat ebenso wie das Geschlecht einen Einfluss auf die
Tonhöhe und die spektralen Bestandteile. Eine Klassifikation kann die
Altersgruppen 12 bis 18 Jahre, 19 bis 22 Jahre, 22 bis 65 Jahre umfassen.
Innerhalb jeder Gruppe kann jedoch eine große Variationsbreite zu beobachten
sein. Unterhalb von 12 Jahren und über 65 Jahren können große individuelle
Abweichungen auftreten.

Stimmaufwand: der Pegel des Sprachsignals hängt vom Stimmaufwand des Sprechers ab. Der
Stimmaufwand wird durch den äquivalenten Dauerschalldruckpegel der Sprache,
gemessen in einem Abstand von 1 m vor dem Mund, ausgedrückt.

Sprechrate: Anzahl der in einem bestimmten Zeitintervall gesprochenen Sprachelemente.


Anzahl der Wörter je Minute oder Anzahl der Silben je Sekunde. Eine übliche
Quote beträgt 3 bis 5 Silben je Sekunde.

Natürliche Sprache: eine verminderte Erkennungsleistung kann durch nicht muttersprachliche aber
(Akzent) fließend sprechende Sprecher einer zweiten Sprache oder durch Sprecher mit
einem starken Akzent entstehen.

4.4 Aufgabe (anwendungsspezifische Beschreibung relevanter Erkennungsparameter)

Vokabularumfang: der Vokabularumfang ist von der Aufgabe abhängig. Für eine Befehls- und Steuer-
anwendung können 15 bis 100 Wörter ausreichend sein. Bei einer Erkennung mit
großem Vokabular werden 50 000 Wörter und mehr verwendet. Im letzteren Fall
kann der Gebrauch von Wörtern, die nicht im Vokabular enthalten sind,
vorkommen (so genannte OOV's, en: out-of-vocabulary Wörter).

Syntaxkomplexität: für einen Befehl mit Baumstruktur innerhalb eines (verschachtelten) Menüs, kann
ein beschränkter Auswahlsatz nötig sein. Die Anzahl der auf einer gegebenen
Ebene verfügbaren Alternativen entspricht der Komplexität.

Dialogstruktur: die Anfangsposition in einem Dialog und die folgende Sequenz sollten identifiziert
werden. Im Fall von Erkennungsfehlern kann das System in einen unerwarteten
Zustand gelangen. Der Rückweg erfordert die situationsbezogene Aufmerksamkeit
des (untrainierten) Anwenders.

Korrektur-Management: im Fall von Fehlern (des Anwenders oder des Systems) sollte eine Einrichtung zur
Korrektur des Fehlers verfügbar sein. Diese kann so einfach beschaffen sein wie
der „Korrekturbefehl“ oder so komplex wie eine Fehlerbehebung bei einem
unerwarteten Dialogzustand.

4.5 Training (aufgabenbezogene Trainingsaspekte)

Sprecherabhängig: ein für einen Sprecher oder eine eingeschränkte Gruppe von Sprechern trainiertes
System. Bei einem Worterkennungsgerät wird dieses Training für jeden Sprecher
einzeln vollständig durchgeführt.

Sprecherunabhängig: ein mittels einer großen Datenbank trainiertes System. Die Datenbank besteht aus
Sprachproben vieler Sprecher (bis zu 50 bis 100 h Sprechzeit). Dieses Training
erfolgt üblicherweise durch den Hersteller.

Sprecheradaptiert: ein auf einen bestimmten Sprecher abgestimmtes System. Üblicherweise ist das
System zunächst ein sprecherunabhängiges System und wird dann mittels
Training eines bestimmten Individuums für einen bestimmten Anwender adaptiert.
Dieses Merkmal findet sich häufig bei Diktiersystemen.

Sprechweise: abhängig von der Anwendung, sie kann isolierte Wörter, verbundene Wörter,
kontinuierliche Sprache oder spontane Sprache umfassen.

9
DIN-Fachbericht ISO/TR 19358:2007-01

4.6 Umgebung (Spezifikation der Sprachqualität in einer bestimmten Umgebung, sowohl


für Signaleingang als auch Signalausgang)

Lärm/Störschall: Störschall kann das Sprachsignal verzerren. Für die automatische Sprach-
erkennung ist die Auswirkung von Lärm auf die Erkennungsleistung sehr viel
größer als für menschliche Zuhörer. Lärmpegel und -spektrum sollten bestimmt
werden. Bei der Sprachsynthese ist die Fähigkeit des menschlichen Zuhörers für
die endgültige Verständlichkeit verantwortlich.

Nachhall: nachhallender Klang stört das Sprachsignal und vermindert die Erkennungs-
leistung. In den meisten Fällen ist ein in optimaler Position in der Nähe des
Mundes befindliches Mikrophon mit Störschallunterdrückung für eine annehmbare
automatische Spracherkennungsleistung erforderlich.

Gleichkanal-Störung: ein Übersprechen anderer Sprachsignale ist im Allgemeinen störender als gleich
bleibender Lärm, da der Erkennungsalgorithmus nicht zwischen dem primären
Sprachsignal und dem Störsignal unterscheiden kann.

4.7 Eingangssignal (Spezifikation der Übertragung des Sprachsignals vom Mikrofon zum
Eingang des Erkenners)

Mikrofon: das Eingangsmikrofon kann eine große Auswirkung auf die Qualität des Signals
haben. Insbesondere bei auf Basis von Telefonnetzen arbeitenden Systemen ist
die Qualität des Mikrofons auf der Sprecherseite unsicher. Das Training und die
Prüfung eines Systems mit derselben Mikrofonart ist vorzuziehen, aber nicht
immer durchführbar. Die genaue Positionierung des Mikrofons ist ein bedeutender
Parameter.

Verzerrung: ist das System in ein Netzwerk integriert, so können verschiedene Verzerrungen
auftreten. Bei einem Telefonnetz ist die Bandbreite üblicherweise auf einen
Bereich von (300 Hz bis 3 400 Hz) begrenzt. Der Gebrauch mit tragbaren
handgehaltenen Telefonen kann durch die begrenzte Leistungsfähigkeit der
Algorithmen für die Sprachcodierung beeinträchtigt sein. Beschränkungen der
Bandbreite, übersteuerte Antworten, Echos und Störgeräusche des Systems sind
die Hauptprobleme.

4.8 Spezifikation von Sprachtechnologie-Modulen

Erkenner: die System-Parameter eines Erkenners sind üblicherweise voreingestellt. In den


meisten Fällen sind derart viele (häufig versteckte) Parameter verfügbar, dass
deren Einstellung für eine optimale Leistung unmöglich ist. Wichtig ist das
Festlegen von Vokabular und Sprachmodel. Wird ein adaptives System verwendet,
so kann die Systemleistung während des Gebrauchs oder der Prüfung variieren.
Daher ist es wichtig, die entsprechenden Parameter, die während des Gebrauchs
verändert werden, zu speichern. Ist das nicht möglich, so kann ein wiederholter
Neustart des Systems erforderlich sein.

Dialogmanagement: eine sorgfältige Beschreibung der Dialogstruktur ist für die Beurteilung der
Auswirkung von System- oder Anwenderfehlern auf die Ausführung der Aufgabe
oder die Fehlerkorrektur erforderlich.

Sprachsignalausgang: die System-Parameter eines Text-Sprache-Systems werden, ebenso wie für den
(Sprach)Erkenner, im Werk eingestellt. Manchmal stehen einige Optionen zur
Verbesserung der Sprachqualität von Namen, Adressen usw. zur Verfügung.

10
DIN-Fachbericht ISO/TR 19358:2007-01

5 Verfahren zur Beurteilung


5.1 Allgemeines

Die Leistung von sprachbezogenen Dienstleistungen und Technologien hängt von vielen Einflussgrößen ab.
Einige von ihnen sind unter Kontrolle, andere werden durch unkontrollierte Erscheinungen beeinflusst. Die
Spezifikation der Leistung einer bestimmten Technologie oder eines Systems ist üblicherweise auf einen
begrenzten Satz dieser Einflussgrößen mit festen Parametereinstellungen beschränkt. Für die Bewertung
eines Systems in einer gegebenen Anwendung ist ein für die Merkmale der Anwendung repräsentatives
Beurteilungsverfahren erforderlich.

Das Spektrum der Bewertungsstrategien und der mit diesen Strategien verbundenen Prüfungen ist in hohem
Maße uneinheitlich. Eine Anzahl von Faktoren trägt zu dieser Situation bei. Zuerst und vor allem die Tatsache,
dass die Terminologie für die Bewertung von Systemen für gesprochene Sprachen selbst zurzeit sehr
vielfältig ist. Übliche Dimensionen sind: Beurteilung versus Bewertung, Labor- versus Feldverfahren,
Systemtransparenz (Black-Box- versus Glass-Box-, manchmal White-Box- oder Grey-Box-Bewertung),
subjektive versus objektive Prüfung. Diese Dimensionen sind nicht in vollem Umfang unabhängig, das heißt,
es sind übergeordnete Kriterien erforderlich, um eine brauchbare und konsistente Terminologie zu bestimmen,
die mit einiger Wahrscheinlichkeit breite Akzeptanz findet. Derartige Kriterien stehen zurzeit jedoch nicht zur
Verfügung und folglich ist es bis zur Definition von tatsächlichen oder bindenden Normen in diesem Bereich
noch ein langer Weg, und selbst Empfehlungen sind nur mit Vorsicht auszusprechen.

Ein wichtiger Grund für die Uneinheitlichkeit im Hinblick auf Bewertungsstrategien und -prüfungen ist die
Heterogenität des Feldes selbst. Die Dynamik der derzeitigen Forschung, Entwicklung und Produkt-
vermarktung und die zunehmende Vielfalt von auf Sprachtechnologie basierenden Geräten bedeutet zurzeit,
dass ein einzelnes Produkt eine neue und spezielle Bewertungsstrategie und die damit verbundenen
Prüfungen erfordert. Die Natürlichkeit von Sprachsynthesizern beispielsweise ist sowohl für Unterhaltungs-
roboter als auch in Programmen für Ausbildungszwecke erforderlich. Es ist nicht schwer, Szenarien zu
entwickeln, in denen die Natürlichkeit kein vorrangiges Kriterium ist, sondern in denen im Gegenteil ein
System möglichst wie ein künstliches System klingen muss, damit der Anwender zu dem Urteil gelangt, dem
System vertrauen zu können. In diesen Fällen ist das Doppelkriterium der Verständlichkeit immer das
bedeutendere, unabhängig davon, ob die Produktvermarktung eine menschenähnliche Stimme bevorzugt
oder nicht.

Eine andere Quelle der Uneinheitlichkeit liegt im wachsenden Gebrauch von Geräten mit Sprecheingangs-
oder -ausgangssignal in integrierten Systemen, manchmal mit sicherheitsbedingten Funktionen. Das
beinhaltet eine schnelle Zunahme der Komplexität von Mensch-Maschine-Schnittstellen, für die viele der
derzeitigen Bewertungsarten nicht ausgelegt sind und denen nur mit äußerster Sorgfalt und fachkundigem
Verständnis der Grenzen der derzeitigen Sprachtechnologie nahe zu kommen ist. Zwei Beispiele für Bereiche
dieser Art sind die Echtzeit-Sprachsteuerung von sicherheitsbedingten Systemen und automatische Warn-
systeme.

Die Bestimmung des Beurteilungsverfahrens ist auch durch den eigentlichen Zweck der Bewertung bedingt,
der darin bestehen kann:

a) verschiedene Systeme oder verschiedene Versionen desselben Systems miteinander zu vergleichen


(Verlaufsbewertung wie durch EAGLES in King, 1996, definiert);

b) die Anwendung eines Systems für eine gegebene Aufgabe oder im Hinblick auf eine vorliegende Norm zu
validieren (angemessene Bewertung wie durch EAGLES in King, 1996, definiert);

c) Fehlfunktionen und deren Ursachen zu bestimmen (diagnostische Bewertung wie durch EAGLES in King,
1996, definiert) oder

d) das zukünftige Verhalten eines Systems in einer gegebenen Umgebung vorherzusagen (vorhersagende
Bewertung, wie in Sprachdialogsysteme in Walker und andere, 2000, angewendet).

11
DIN-Fachbericht ISO/TR 19358:2007-01

5.2 Feld- versus Laborbewertung

In der Laborbewertung werden einige der spezifischen Aspekte der Arbeitsumgebung der Anwendung durch
die Einstellungen bei der Beurteilung abstrahiert, während die Bewertung im Feld die tatsächliche Leistung
eines Systems im Kontext einer spezifischen Arbeitsumgebung berücksichtigt, die für die vorgesehene
Arbeitsumgebung als repräsentativ gilt. Auf diese Weise kann ein System unter Laborbedingungen eine gute
Leistung zeigen, die unter Feldbedingungen nicht wiederholt wird, da Letztere eher mit der gesamten
Tauglichkeit des beurteilten Systems verbunden ist. Das Kernproblem beim Wechsel von der Feldbewertung
zur Laborbewertung besteht darin, genügend Aspekte zu abstrahieren, um den die Messungen
beeinflussenden Störschall der spezifischen Arbeitsumgebung zu eliminieren und sich zugleich der
tatsächlichen Problemstellung bewusst zu bleiben, d. h. der Beurteilung des Systems im Hinblick auf den
bestimmungsgemäßen Gebrauch. Die Feldbewertung neigt dazu, die für die Gebrauchstauglichkeit unbedingt
erforderlichen Attribute des Systems zu berücksichtigen, die aber nicht notwendigerweise unmittelbar etwas
mit der grundlegenden Leistungsfähigkeit der Technologie zu tun haben müssen (vorausgesetzt sie liegen
jenseits eines annehmbaren Schwellenwertes). Einige der Messwerte werden dann für die Beurteilung des
Leistungsvermögens der zugrunde liegenden Technologie irrelevant, und beziehen sich stattdessen eher auf
die Ergonomie oder auch die Marktfähigkeit.

Die Beurteilungseinrichtung kann irgendwo zwischen der Feld- und Laborbewertung angeordnet werden, jede
mit ihren eigenen Eigenschaften:

Feldbewertung Laborbewertung

Für die Anwendung repräsentativ Für die Anwendung grundlegend

Viele Einflussgrößen Wenige Einflussgrößen

Teuer Nicht teuer

Einflussgrößen-Einstellung mit Einflussgrößen-Einstellung mit


großem Umfang geringem Umfang

Gebrauchstauglichkeitsprüfung Prüfung des Leistungsvermögens


der Technologie

Von außen wirkende Kriterien Systemeigene Kriterien

Im Hinblick auf die Beurteilung sprachbasierter Systeme kann eine Kombination beider Verfahren angewendet
werden. Durch Kalibrierung einer repräsentativen Datenbank (z. B. in Feldversuchen aufgezeichnet) können
Parameterwerte bestimmt und kontrollierte Laborexperimente durchgeführt werden. Durch bestimmte
Konsortien (ELRA, LDC) sind viele kalibrierte Datenbanken, hauptsächlich für telefonorientierte Anwendungen,
verfügbar.

Da natürliche Sprache eng mit der menschlichen Psyche verbunden ist, haben das Verhalten der Anwender
und deren Reaktion auf die Technologie einen signifikanten Einfluss auf die gemessene Leistung unter
tatsächlichen Feldbedingungen. Bei der Prüfung eines Telefonservers für den Verkauf von Fahrkarten unter
Laborbedingungen wurde beispielsweise ermittelt, dass die gemessene Quote erfolgreicher Transaktionen
und die durchschnittliche Transaktionslänge signifikant höher war, als unter Feldbedingungen, da im ersten
Fall die Probanden für die Interaktion mit dem System bezahlt wurden und sie auf Widersprüche und
Wiederholungen des Dialogs nicht immer reagierten, während im zweiten Fall die realen Anwender beim
ersten fehlgeschlagenen Befehl im Reservierungsverfahren den Hörer auflegten. Werden sowohl Labor- als
auch Feldbeurteilungen durchgeführt, so sollten die unterschiedlichen Ergebnisse korreliert werden. Die letzte
Anmerkung bietet einen einfachen Weg für eine (sehr grobe) Validierung des Bewertungsverfahrens selbst.

5.3 Systemtransparenz

Die Systemtransparenz kann irgendwo im Bereich zwischen den beiden Extremen der Methodik angesiedelt
werden, die als White-Box-Methodik bzw. Black-Box-Methodik (Sparck und Jones, 1995) bezeichnet werden.

12
DIN-Fachbericht ISO/TR 19358:2007-01

Wird ein System unter White-Box-Bedingungen beurteilt, so hat der Durchführende vollen Zugang zur inneren
Arbeitsweise des Systems und der zugehörigen Dokumentation (steht die Dokumentation nicht zur Verfügung,
wird die Bedingung häufig als Glass-Box-Bedingung bezeichnet). Er hat die Möglichkeit seine Messpunkte
willkürlich auszuwählen, d. h. die Punkte zwischen denen er die Messung eines ausgewählten Parameters
durchführen wird, der für die Leistung einer gegebenen Systemfunktion als repräsentativ ausgewählt wurde.
Bei einer Black-Box-Beurteilung betrachtet der Durchführende lediglich das Verhältnis zwischen Systemein-
und -ausgang, ohne die Ein- und Ausgang verbindenden spezifischen Mechanismen zu berücksichtigen.

In der Praxis hat der Durchführende meistens geringe oder keine Kontrolle über die Systemtransparenz, und
das durchgeführte Beurteilungsverfahren wird durch die vom System angebotenen Möglichkeiten bestimmt. In
einigen Fällen ist eine Art von Grey-Box-Bewertung möglich, wenn im System intermediäre Punkte zur
Informationsaufzeichnung vorgesehen sind, z. B. wenn Abtast- oder Testhilfefunktionen oder wieder
verwendbare Module aus einem Werkzeugsatz vorhanden sind. In diesem Fall kann es passieren, dass der
Durchführende über die zwischen den Messpunkten vom System erbrachte Leistung hypothetisch urteilen
muss, da ihm lediglich eine Teilbeschreibung darüber zur Verfügung stehen kann. Festzuhalten ist auch, dass
nicht notwendigerweise eine direkte Übereinstimmung zwischen den tatsächlich ein System bildenden
Modulen und dem Satz funktionell wirksamer Bauteile besteht, der Gegenstand einer Beurteilung sein kann.
Beispielsweise ist Dialogmanagement in jedem auf gesprochener Sprache basierenden Dialogsystem eine
unbedingt erforderliche Funktion, die verschieden auf unterschiedliche Stufen an der Verarbeitung der
Eingangsinformation beteiligte Module verteilt sein können.

5.4 Subjektive versus objektive Verfahren

Beurteilungsverfahren können ferner danach kategorisiert werden, ob sie subjektive Verfahren (Beurteilung
mit direkter Beteiligung von Menschen an der Messung) oder objektive Verfahren (Beurteilung ohne direkte
Beteiligung von Menschen an der Messung, üblicherweise unter Verwendung zuvor aufgezeichneter Sprache)
oder eine Kombination beider Verfahren verwenden. Objektive Verfahren haben den Vorteil, reproduzierbare
Ergebnisse zu liefern und von Natur aus automatisiert zu sein, weshalb sie auch preiswerter sind. Das
Problem objektiver Verfahren zur Beurteilung von Sprech- und Sprachanwendungen besteht darin, dass sie
nicht so gestaltet werden können, dass sie die für das Verstehen natürlicher Sprache oder mündlicher
Interaktionen erforderliche Komplexität bewältigen. Andererseits sind subjektive Verfahren eher zur
Bewertung von Anwendungen mit höherem semantischen oder dialogischem Inhalt geeignet, aber sie haben
den Nachteil, dass ein Mensch die Messung nicht zuverlässig durchführen und auch die fein eingeteilten
Messskalen nicht handhaben kann (im Durchschnitt werden Messskalen mit einer Einteilung von lediglich
5 bis 10 Stufen verwendet, nicht mehr). Glättende statistische Techniken wie Kappa-Statistiken zur
Beurteilung der Übereinstimmung zwischen unterschiedlichen menschlichen Annotatoren (Cohen, 1960, 1968,
Krippendorf, 1980) können hilfreich sein, ermöglichen aber keine eindeutige Beantwortung des Problems. Ihre
Anwendung erfordert außerdem zusätzliche Probanden, wodurch sich die Kosten der Beurteilung erhöhen.

5.5 Spracherkennungssysteme

Spracherkennungssysteme werden durch viele Parameter definiert. Da Geräte mit gesprochener Sprache als
Eingabe jedoch mittels statistischen Trainings betrieben werden, erfordert die objektive Prüfung vieler
Systemarten einen zuvor aufgezeichneten, gut definierten Korpus (Datensatz), der in einen Trainings- und
einen Prüfsatz eingeteilt wird, wobei das Verhältnis von Trainings- und Prüfdaten bis zu 9:1 beträgt, häufig mit
mehreren auf verschiedenen Teilungen des Datensatzes basierenden Prüfungen. Beim Prüfen eines auf den
Prüfdaten basierenden Systems sollte zweifellos eine obere Leistungsgrenze definiert werden, die nicht für
die Praxis gilt. Vor der Prüfung muss ein angemessenes Training durchgeführt werden; ein allgemeines
Rezept für „angemessen“ kann nicht gegeben werden; für ein bestimmtes Produkt, wird der Hersteller das
Verfahren festlegen. Das Training wird bei bestimmten Produkten häufig nicht mittels eines zuvor
aufgezeichneten Korpus, sondern durch ein direktes Mikrofon-Eingangssignal erfolgen. Bei speziellen
Kontexten kann Störschall hinzugefügt werden, entweder bewährte Störsignale oder Störschall der
entsprechenden Umgebung, wie beispielsweise aus Büros oder von Fahrzeugen. Nicht nur die akustischen
Bestandteile des Decoders sondern auch linguistische Faktoren wie Vokabularumfang und das Sprachmodel
des Systems sind kritische Parameter, die eine große Auswirkung auf die Ergebnisse haben. In integrierten
Systemen, wie zum Beispiel Diktier-Software, gibt es viele andere Parameter einschließlich der Fehler-
behebung, die nicht erschöpfend geprüft werden können.

13
DIN-Fachbericht ISO/TR 19358:2007-01

5.6 Sprachsynthesesysteme

Der oben erwähnte große Bereich von Bewertungsdimensionen gilt auch für Systeme mit gesprochener
Sprache als Ausgangssignal (Sprachsynthese). Während der Entwicklung können objektive Prüfungen
angewendet werden, aber für die typischen integrierten Anwendungen können Ermessensstaffelung (z. B.
Natürlichkeit, Annehmlichkeit, Angemessenheit) und Funktionsprüfungen (z. B. Verständlichkeit oder
Identifizierung von Klängen) erfolgen. Dabei handelt es sich um Arten subjektiver Prüfverfahren mit der
Beteiligung von Menschen. Ebenso wie bei Systemen mit Sprache als Eingangssignal sind Störpegel und
Arten des Störschalls wichtige Faktoren, und die Sprachadaptation für eine bestimmte Aufgabe erfordert
sorgfältiges Vorgehen: ein Warnhinweis, der leise von einer attraktiven Stimme ausgesprochen wird, kann
nicht nur unangemessen sondern auch ineffektiv sein. Zum Beispiel muss in einem Fall wie diesen nicht allein
die Verständlichkeit, sondern auch die Auslösung angemessener Reaktionen der Hörer geprüft werden; eine
schwer zu simulierende Aufgabe.

5.7 Sprecheridentifizierung und -verifizierung

Die Hauptparameter bei Sprecheridentifizierungs- und -verifizierungssystemen, die nun als eine besondere
Art biometrischer Systeme angesehen werden können, betreffen Fehlerarten, d. h. falsche Zurückweisung
und falsche Akzeptanz, sowie die Handhabung verschiedener Sprecherrollen: sich anmeldender Sprecher
(ein gegebener Nutzer), registrierter Sprecher (ein autorisierter Nutzer), authentischer Sprecher (ein sich
anmeldender Sprecher, der als Sprecher registriert ist), Betrüger (ein sich anmeldender Sprecher, der nicht
als Sprecher registriert ist). Bei einer falschen Zurückweisung wird ein authentischer Sprecher nicht akzeptiert,
bei einer falschen Akzeptanz ein Betrüger angenommen. Der Populationsumfang und die Umgebung sind
sowohl beim Training als auch bei der Prüfung in hohem Maße kritische Faktoren. Im Unterschied zu Geräten
mit gesprochener Sprache als Eingangs-/Ausgangssignal, muss ein System umlernen, wenn die
Registrierung eines Sprechers gelöscht wurde. Sowohl Echtzeit- als auch Nicht-Echtzeit-Anwendungen von
Sprecheridentifizierung und -verifizierung sind sehr wahrscheinlich sicherheitsrelevant, und die Technologie
biometrischer Systeme entwickelt sich derzeit sehr schnell und gelangt in zunehmendem Maße in den Handel,
und wird hochgradig komplex; demzufolge sollte ein Verweis auf die Standard-Handbücher zur Definition von
Prüfverfahren erfolgen.

5.8 Korpora (Datensätze)

Drei Arten von Sprech- und Sprachkorpora sind üblicherweise von Interesse:

• „analytisch-diagnostisches“ Material, das in der Grundlagenforschung von primärer Bedeutung ist und
speziell zur Erläuterung spezifischen phonetischen und linguistischen Verhaltens gestaltet wurde;

• Material für „allgemeine Zwecke“, dessen Vokabular entweder allgemein oder für einen großen Bereich
von Anwendungen typisch ist (zum Beispiel alphanumerische Wörter oder Standardkontrollbegriffe);

• „aufgaben-spezifisches“ Material, das unterschiedliche Grade formalisierten gesprochenen


Monologs/Dialogs innerhalb beschränkter Diskursbereiche widerspiegelt.

Korpora für allgemeine Zwecke sind zweifellos leicht zusammenzustellen und in einem allgemeinen Sinn
zweckdienlich, allerdings besitzen sie nur einen begrenzten praktischen Wert. Andererseits sind aufgaben-
spezifische Korpora, obwohl ihre Zusammenstellung zeitaufwendig ist und sie nur für einen bestimmten
Bereich relevant sind, für die Zwecke praktischer Anwendungen offensichtlich von unmittelbarem Nutzen. Die
Gestaltung diagnostischer Korpora ist zeitaufwendig, aber sie sind für Forschungszwecke sehr nützlich.

Die Verfügbarkeit von Standardkorpora ist für die Sprachengemeinschaft von großer Bedeutung und eine
Anzahl nationaler und internationaler Institutionen ist für die Koordination, Verbreitung und Produktion
geeigneter Datenbanken verantwortlich.

14
DIN-Fachbericht ISO/TR 19358:2007-01

5.9 Verwandte Informationsquellen

Ein wertvolles Hilfsmittel ist eine von der Expert Advisory Group on Language Engineering Standards
publizierte Reihe von Handbüchern von Sprech- und Sprachstandards und -hilfsmitteln, gefördert durch die
EU. Die Initiative umfasst einen großen Themenbereich einschließlich Methodologien für die Schaffung und
den Austausch von Hilfsmitteln für elektronische Sprache wie zum Beispiel Text- und Sprachkorpora,
rechenorientierte Lexika und grammatikalische Formalismen, und die Beurteilung und Qualitätsbewertung von
Sprache verarbeitenden Systemen und Elementen.

Die Standard-Handbücher behandeln auch geeignete Bewertungsverfahren; das ältere Handbuch (Gibbon
und andere, 1997) enthält ein Kapitel mit einer Übersicht geeigneter Bewertungsverfahren und statistischer
Messwerte. Sowohl in diesem Handbuch als auch in Gibbon, 2000, enthalten die Erörterungen der
Bewertungsverfahren und Prüfungen eine Diskussion geeigneter Bewertungen und Statistiken. Für viele
Zwecke sind die meisten Grundstatistiken (Mittelwert, Standardabweichung, Standardfehler) ausreichend, in
einigen Fällen sind Varianz-Analysen (ANOVA) wünschenswert. Korrelationsmesswerte und Störmesswerte
sind gleichfalls allgemein üblich. Einer der größten Fehler, der bei statistischen Messungen gemacht werden
kann, besteht darin, zuviel in einen darüber gelagerten Komplex zu interpretieren oder in anderen
ungeeigneten Verfahren, wenn beispielsweise nominale und numerische Daten verwechselt werden. Für
komplexe Fragestellungen sollten Fachleute für Statistik konsultiert werden, wobei kurze Übersichten
höchstwahrscheinlich irreführend sind.

Das Linguistic Data Consortium (LDC) in den Vereinigten Staaten bietet eine Einrichtung für großtechnische
Entwicklung und den ausgedehnten Austausch von Hilfsmitteln für die Erforschung linguistischer
Technologien. Das Konsortium verbreitet zuvor erstellte Datenbanken, und finanziert und koordiniert die
Finanzierung neuer Datenbanken. Das LDC ist eng mit den auftretenden Bedürfnissen der Gemeinschaft
verbunden, die es unterstützt und hat Forschern in mehreren Ländern bei der Veröffentlichung und
Verbreitung von Datenbanken geholfen, die ansonsten nicht realisiert worden wären.

In Europa wurde die European Language Resources Association (ELRA) gegründet mit dem Ziel, eine
Organisation zur Förderung der Schaffung, Verifizierung und Verbreitung von Sprachressourcen zu schaffen.
Schließlich wird ELRA als europäisches Zentrum für durch die EU finanzierte Sprachressourcen dienen und
mit ähnlichen Einrichtungen in anderen Teilen der Welt (wie beispielsweise dem LDC) zusammenarbeiten.

15
DIN-Fachbericht ISO/TR 19358:2007-01

Anhang A
(informativ)

Beispiel einer Beurteilung

A.1 Befehlen und Steuern: Sprachgesteuertes Einwählen bei GSM


In einer Simulation wurden zwei sprachgesteuerte Einwahlsysteme für Autos verglichen. Für diesen Zweck
wurde die Attrappe eines Autos verwendet, in die eine Freisprechanlage eines GSM-Telefons eingebaut war.
Die akustische Umgebung beinhaltete Hintergrundrauschen mit einem für eine Fahrerkabine repräsentativen
Frequenzspektrum. Das Freisprechsystem war mit einem speziellen Mikrofon mit Störschallunterdrückung
ausgestattet, das in einer repräsentativen Position (50 cm vom Mund entfernt) befestigt war. Das Autotelefon-
System war mit einem realen Telefonnetz verbunden, das den Spracheinwahldienst umfasste. Die Leistung
zweier verschiedener Netze wurde bestimmt und verglichen. Um unerwünschte Wechselwirkungen zwischen
Netz und einem bestimmten GSM-Telefon auszuschließen, wurden in der Prüfung zwei verschiedene GSM-
Telefone von zwei verschiedenen Herstellern verwendet.

Bei der Prüfung wurden 20 Probanden eingesetzt und all diese Probanden besaßen keinerlei Erfahrung in der
Anwendung von sprachgesteuerten Einwahlsystemen. Die Auswahl der Probanden war im Hinblick auf
Geschlecht und Alter (Alter von 18 bis 60 Jahre) ausgeglichen.

Vor Beginn der Prüfung wurden die Probanden unterwiesen, indem ihnen das offizielle Benutzerhandbuch
des Netzwerkbetreibers zur Verfügung gestellt wurde, der den Spracheinwahldienst anbot. Die Probanden
wurden aufgefordert, die Gebrauchsanweisung innerhalb von 10 Minuten zu lesen. Nach Abschluss der
Unterweisung wurden die Probanden aufgefordert, fünf Personen aus ihrem persönlichen Umfeld
auszuwählen. Die Namen dieser Personen wurden für die sprachgesteuerte Einwahl verwendet. Dieses
Verfahren hat den Vorteil, dass die Probanden die Namen ohne Stocken aussprechen und für potentielle
Anwender repräsentative Proben von Namen verwendet werden. Jeder Versuch innerhalb der Prüfung
erfolgte in zwei Schritten:

a) Training des Systems mit fünf ausgewählten Namen entsprechend den Anweisungen des Benutzer-
handbuchs;

b) Durchführung eines Probelaufs nach den Bedingungen, jeder Durchlauf besteht aus je einem
Einwahlvorgang für jeden der fünf ausgewählten Namen in zufälliger Reihenfolge.

Die Variablen während der Prüfung für jeden Anwender waren:


• zwei Spracheinwahlsysteme;
• zwei GSM-Freisprech-Telefonsysteme;
• zwei Arten von Fahrgeräuschen im Auto (80 km/h, 110 km/h);
• zwei Gruppen von 10 Probanden (männlich, weiblich).

Die Reihenfolge der Prüfbedingungen je Proband (Einwahlsystem, GSM-Telefon, Lärmbedingung) wurde so


abgestimmt, dass jeder Lerneffekt beim Vergleich der Einwahlsysteme vermieden wurde (siehe Gibbon, 2000).

Während der Prüfung wurde die Ansprechdauer des Systems bestimmt, vom Moment der Tätigkeit der
Anwahl eines ausgewählten Namens bis zum Moment der tatsächlichen Verbindung. Ferner wurden Anzahl
und Art der Fehler registriert. Das Bewertungsverfahren basierte auf einem System von Strafpunkten. Bei
jeder Einwahlsequenz wurde kein Strafpunkt vergeben, wenn die geforderte Verbindung nach Aussprechen
der erforderlichen Befehlsfolge zustande kam. Waren zusätzliche Interaktionen des Anwenders nötig, so
wurden folgende Strafpunkte vergeben: das System fragt nach einer Bestätigung des Namens = 1, Tilgung
des Namens = 2, Austausch des Namens = 5, identifizierte Trainingsfehler = 15. Der mittlere Strafpunktwert
wurde je Proband und Prüfbedingung berechnet.

16
DIN-Fachbericht ISO/TR 19358:2007-01

Die Ergebnisse dieser Prüfungen sind in Tabelle A.1 angegeben. Das Hauptaugenmerk galt dem Vergleich
der Leistung beider Spracheinwahlsysteme. Wenn System A einen mittleren Strafpunktwert von 3,1 und
System B einen Strafpunktwert von 5,1 erreichte, so sollte die Schlussfolgerung lauten, dass die Leistung von
System A besser ist. Um dieses zu überprüfen wurde eine Varianz-Analyse durchgeführt, um die Signifikanz
beider Punktwerte zu analysieren. Zu diesem Zweck wurde eine so genannte ANOVA-Prüfung durchgeführt.
Das Ergebnis dieser Analyse zeigt, dass die beiden Systeme hinsichtlich der erfolgreichen Versuche bei der
gegebenen Versuchsanzahl eine signifikant unterschiedliche Leistung bei einem Wahrscheinlichkeitsgrad von
p = 0,03 aufwiesen.

Zweiter Maßstab für das Leistungsverhalten war die zum Abschluss eines Versuches erforderliche Zeit. Die
durchschnittliche Versuchsdauer betrug 27,7 s für System A und 17,4 s für System B. Die Varianz-Analyse
ANOVA ergab, dass diese Differenz signifikant ist, p = 0,001. Folglich war System B im Hinblick auf diesen
Maßstab des Leistungsverhaltens besser.

Auch die Auswirkung aller unabhängigen Variablen (Geschlecht, GSM-Telefonsystem und Geräuschpegel)
auf die Leistung wurden analysiert. Diese Ergebnisse sind hier nicht angegeben, da sie nicht zum
Anwendungsbereich dieses Beispiels gehören.

Tabelle A.1 — Ansprechdauer und Leistung von sprachgesteuertem Einwählen für zwei Systeme

System Geschlecht GSM-Gerät Geräusch- Reaktionszeit Mittlerer Signifikanz


Pegel Strafpunktwert (p-Wert)
s
A 24,7 3,1 0,03
B 17,4 5,1
Männer 19,9 3,3 0,08
Frauen 22,2 4,9
A 21,2 4,0 0,84
B 20,9 4,2
80 km/h 20,6 3,5 0,07
110 km/h 21,4 4,7

A.2 Diktat: Mehrsprachiger Vergleich eines Diktiersystems


Dieses Beispiel betrifft den Vergleich eines Diktiersystems für Anwendungen mit großem Vokabular und
einzelnen Wörtern. Dieses System wurde für fünf Sprachen entwickelt (Deutsch, Spanisch, Italienisch,
Französisch und Englisch). Die Prüfung wurde durch den Hersteller geleitet. Die Ergebnisse wurden in der
öffentlich zugänglichen Fachliteratur (Barnett und andere, 1995) veröffentlicht.

Die sprachabhängigen Diktiersysteme bestehen aus derselben Grundsoftware, haben jedoch verschiedene
Vokabularien und Sprachmodelle. Der Vergleich von Systemen, die auf verschiedenen Sprachen basieren,
ist immer schwierig, da die sprachabhängigen Variablen nur schwer kontrolliert werden können;
sprachabhängige Probleme und unterschiedliche Trainingsmaterialien können die Leistung beeinflussen.

Prüfprotokoll. Das System wurde mit Textmaterial geprüft, dass von vielfach übersetzten Autoren gewonnen
wurde. Folglich enthielten die Texte für die verschiedenen Sprachen dieselben Themen, übersetzt in fünf
verschiedene Sprachen. Außerdem war ein Abschnitt aus der Bedienungsanleitung des Diktiersystems
enthalten.

Für jede Sprache wurden vier Muttersprachler eingesetzt (zwei männliche und zwei weibliche). Die diktierten
Sprachsignale wurden aufgezeichnet und zusammen mit der Referenz-Übersetzung gespeichert, um die

17
DIN-Fachbericht ISO/TR 19358:2007-01

Prüfung mit einem automatischen computergesteuerten Prüfschema durchzuführen. Das gestattet auch die
Wiederholung der Prüfung mit demselben Spracherkenner aber anderen Parameter-Einstellungen. Das war
bei der Adaptations-Einrichtung der Fall. Adaptation ist ein Merkmal, für das der Spracherkenner zusätzlich
mit der Sprache eines bestimmten Anwenders trainiert wird. Das System wird dadurch teilweise vom
Anwender abhängig. Die Prüfung schloss zwei Betriebsarten ein, mit und ohne Adaptation. Bei der Bedingung
ohne Adaptation wurde die Prüfung mit den anfänglichen Werkseinstellungen des Systems für jede Sprache
und mit den vier, sprachabhängigen, muttersprachlichen Probanden durchgeführt. In der Adaptations-
Betriebsart wurde der Spracherkenner mit vier Texten verschiedener Autoren trainiert und anschließend die
Prüfung für einen weiteren fünften Autor durchgeführt. Dieses wurde für jeden das Prüfmaterial liefernden
Autor und für die vier anderen, das Trainingsmaterial für die Adaptation liefernden Autoren, wiederholt.

Die Bewertung erfolgte für vier Bedingungen: ohne Adaptation, mit Adaptation, für im Vokabular enthaltene
Wörter und für die homophone Fehlerquote. Es liegt nahe, dass Adaptation die Leistung verbessern sollte,
was jedoch einen gewissen Trainingsaufwand für jedes Individuum erfordert. Von Interesse ist ebenso die
Bestimmung der Leistung für Wörter, die im Vokabular enthalten sind; diese zeigt an, wie gut das System
hinsichtlich des antrainierten Materials funktioniert. Homophone (Wörter, die dieselbe phonologische Form
aufweisen, sich im Hinblick auf ihre orthographische Form jedoch unterscheiden, d. h. sie klingen ähnlich
werden aber verschieden geschrieben) sind durch das Sprachmodel zu erkennen.

Einige der Ergebnisse dieser Studie sind in Tabelle A.2 angegeben. Es wird deutlich, dass die
Adaptationseinrichtung für eine signifikante Verbesserung der Leistung sorgt. Der Einfluss der Sprache auf
die Wortfehlerquote ist ebenfalls signifikant (p = 0,01).

Deutsch ist sehr viel schwieriger zu erkennen als Italienisch oder Englisch. Tatsächlich ist beim selben
Vokabularumfang der Erkennungsgrad des Deutschen viel geringer als für Englisch, da es im Deutschen viele
gebeugte Wortformen gibt.

Tabelle A.2 — Wortfehlerquote für einige Bedingungen der Experimente zur Sprach- und
Trainingsabhängigkeit von Diktiersystemen

Sprache Deutsch Spanisch Italienisch Französisch Englisch


Ohne Adaptation 82 86 89 84 87
Mit Adaptation 87 89 92 87 91
Mit Adaptation, im Vokabular 91 92 94 88 91
Homophone Fehler 22 25 17 73 25

18
DIN-Fachbericht ISO/TR 19358:2007-01

Anhang B
(informativ)

Maßstäbe für das Leistungsverhalten

Das Worterkennungssystem umfasst für Wörter, gesprochene Befehle, Textfolgen, Sprecher und Sprachen
gestaltete Einrichtungen.

Für die technische Beurteilung (d. h. Laborbewertung) von Spracherkennungssystemen wird als Gütekriterium
üblicherweise die Erkennungsrate verwendet. In diesem Zusammenhang kann auch die Fehlerquote
verwendet werden. Die Genauigkeit ist ein Maß, das die Art der aufgetretenen Fehler angibt (Zurück-
weisungen, Einfügungen, Fehlalarme). Statt eines allgemeinen Gütekriteriums für das Leistungsverhalten
eines Spracherkennungssystems, können selektivere Maße verwendet werden, wie beispielsweise die OOV-
Zurückweisung bei der Spracherkennung. Ein außerhalb des Vokabulars befindliches Wort (OOV-Wörter out-
of-vocabulary) ist ein Wort, das von einem Anwender gesprochen wird, aber nicht im (an)trainierten Vokabular
des Systems enthalten ist. Ein OOV-Wort kann daher nicht korrekt erkannt werden.

Bei der anwendungsorientierten Beurteilung, im Allgemeinen ein durch potentielle Anwender beurteiltes
vollständiges System, beziehen sich die Maßstäbe für das Leistungsverhalten auf die Aufgabe, d. h. auf die
Anzahl erfolgreicher Versuche, auf die Ansprechdauer und die Fehlerbehebung. Systeme mit baumartig
strukturiertem Eingang können den Anwender hinsichtlich der Stufe innerhalb der Ausführung der Aufgabe
verwirren. Dem Anwender muss der Zustand des Systems klar sein. Diese situationsbezogene Wahrnehmung
ist für eine erfolgreiche Ausführung der Aufgabe oder, im Falle von Fehlern, für die Fehlerbehebung von
grundlegender Bedeutung.

Die Wortfehlerquote ergibt sich aus:

i d s
w
N

Dabei ist

w die Wortfehlerquote;

i die Anzahl der Einfügungen;

d die Anzahl der Tilgungen;

s die Anzahl der Substitutionen;

N die Anzahl der Wörter.

Die Wortfehlerquote kann auch als Prozentsatz angegeben werden. Eine Schätzung der Standardabweichung
von w (sw) ergibt sich aus:

w1 w
sw
N

Für eine detaillierte Beschreibung von Maßstäben für das Leistungsverhalten siehe Kapitel 3 in Gibbon und
andere.

19
DIN-Fachbericht ISO/TR 19358:2007-01

Literaturhinweise

[1] ISO 9921:2003, Ergonomics — Assessment of speech communication

[2] COHEN J., A coefficient of agreement for nominal scales, Educational and Psychological Measurement,
20, S. 37-46, 1960

[3] COHEN J., Weighted kappa: nominal scale agreement with provision for scaled disagreement or partial
credit, Psychological Bulletin, (70)4, S. 213-220

[4] BARNETT, J., BAMBERG, P., HELD, M., HUERTA, J., MANGANARO, L. and WEISS, A. (1995), Comparative
performance in large vocabulary isolated word recognition in five European languages. Proc.
Eurospeech ’95 Madrid, Spanien, S. 189-192

[5] ELRA (European Linguistic Resources Association), ELRA/ELDA,


"http://www.icp.grenet.fr/ELRA/home.html"

[6] GIBBON, DAFYDD, Inge MERTINS & Roger MOORE, Hrsg. (2000). Handbook of Multimodal and Spoken
Language Systems: Resources, Terminology and Product Evaluation. Boston, Dordrecht, London:
Kluwer Academic Publishers

[7] GIBBON, DAFYDD, Roger MOORE & Richard WINSKI, Hrsg. (1997). Handbook of Standards and
Resources for Spoken Language Systems. Berlin: Mouton de Gruyter

[8] KING, M. und andere., Evaluation of Natural Language Processing Systems - EAGLES Final Report,
EAG-WEG-PR.2, (Oktober 1996), ISBN-87-90708-00-8

[9] KRIPPENDORF, K., Content Analysis: An Introduction to Its Methodology, Sage Publications, Beverly
Hills, CA, 1980

[10] LDC (Linguistic Data Consortium), "http://www.ldc.upenn.edu"

[11] LEEUWEN, D. A. van, and STEENEKEN, H.J.M., Handbook of Standards and Resources for Spoken
Language Systems, Kapitel Assessment of recognition systems, S. 381-407. Mouton de Gruyter,
Berlin, New York (1997)

[12] LEEUWEN, D. A. van, and STEENEKEN, H.J.M., Handbook of Multimodel and Spoken Dialogue Systems,
Kapitel: Consumer off-the-shelf (COTS) speech technology product and service evaluation, S. 204-239.
Kluwer academic publisher. Berlin, New York (2000), ISBN 0-7923-7904-7

[13] SPARCK Jones, K., GALLIERS, J. R, Evaluating Natural Language Processing Systems, Springer-Verlag
(1995), ISBN-3-540-61309-9

[14] STEENEKEN, H. J. M. Digital Speech Processing, Kapitel 6, Quality evaluation of speech processing
systems. Kluwer Academic Publishers Boston/Dordrecht/London (1992)

[15] WALKER, M., Kamm, C. and Litman, D., Towards Developing General Models of Usability with
PARADISE, Natural Language Engineering, Best Practice in Spoken Language Dialogue System
Engineering, Special Issue, Band 6, Teil 3, October 2000

[16] Potentials of speech and language technology systems for military use: an application and technology-
oriented survey. Ed. H.J.M. Steeneken, NATO-RTO, Neuilly sur Seine, (1996)

20