Sie sind auf Seite 1von 5

Lautmaler - Whitepaper Schnell und sicher ans Ziel Der Weg zum effizienten Dialog

Schnell und sicher ans Ziel - Der Weg zum effizienten Dialog
Schnell und sicher ans Ziel aber wie?
Die meisten Sprachdialogsysteme haben einen klaren Sinn und Zweck: Sie sollen dem Nutzer ermglichen, Informationen abzurufen und Aufgaben zu erledigen und das so komfortabel wie mglich also schnell und fehlerfrei. Doch Sicherheit und Schnelligkeit scheinen sich in der Praxis hug auszuschlieen. Auf der einen Seite steht der freie Dialog, der exible Nutzereingaben erlaubt und deshalb als besonders schnell und zielfhrend gilt bekanntermaen aber mit vielen Risiken verbunden ist. Auf der anderen Seite steht der gefhrte Dialog, der sicher funktioniert, dafr aber starr und langwierig erscheint. Trotzdem steht man bei der Gestaltung von Dialogen nicht grundstzlich vor der Entscheidung zwischen schnell und risikoreich auf der einen und sicher und langwierig auf der anderen Seite. Das vorliegende Paper analysiert die Strken und Schwchen beider Anstze und zeigt alternative Wege zu einer Dialogfhrung, die sowohl komfortabel als auch von Erfolg gekrnt ist.

lautmaler

Inhalt:
Schnell und sicher ans Ziel aber wie? Frei und gefhrt - Zwei Extreme der Dialogfhrung Frei aber einsam Der gefhrte Dialog Die beste aller mglichen Welten Fazit

1 2 2 3 3 4

ber die Lautmaler

Die Lautmaler GbR ist eine in Berlin ansssige Agentur fr Voice User Interface Design. Kerngebiet ist die Gestaltung der Schnittstelle zwischen Nutzer und System. Dazu gehrt neben dem Dialog- und Audio-Design auch der Bereich Speech-Science, der Leistungen wie Grammatik-Design, linguistische Datenredaktion, phonetische Transkription sowie Erkenner- und TTS-Tuning umfasst. Mit diesem ganzheitlichen Ansatz nden die Lautmaler fr jedes System den Knigsweg zwischen intuitiver Bedienbarkeit einerseits und technisch Mglichem andererseits.

Frei und Gefhrt Zwei Extreme der Dialogfhrung


Der freie Dialog
System Willkommen beim Sprechenden Fahrplan. Was kann ich fr Sie tun?

Weise im System (genauer: in der Grammatik) hinterlegt sein muss, andernfalls wird sie nicht er-kannt. Dieses Hinterlegen kann, je nach Grammatik-Typ, auf verschiedene Weise geschehen. Im Wesentlichen sind vier Typen von Grammatiken zu unterscheiden: Die klassische Grammatik (auch: deterministische Grammatik) wird manuell von einem Designer oder Entwickler erstellt. Dazu begibt sich dieser in die Perspektive des Nutzers und leitet die mglichen uerungen ab. Die klassische Grammatik ist in ihrer Produktion kostengnstig und eignet sich gut fr eine berschaubare Anzahl mglicher uerungen. Bei einem freien Dialog ist die Anzahl mglicher uerungen jedoch zu gro um sie allesamt vorhersehen zu knnen. In diesem Fall ist die klassische Grammatik also eher ungeeignet. Die statistische Grammatik (auch stochastische Grammatik) wird sozusagen durch die Nutzer selbst erstellt: Alle tatschlich gettigten uerungen werden in die Grammatik eingespeist und es werden Wahrscheinlichkeiten fr die Kombinationen von Wrtern errechnet. Gleichzeitig, und das ist der groe Vorteil statistischer Grammatiken, werden aus dem vorhandenen Sprachmaterial automatisch neue uerungen abgeleitet. Die statistische Grammatik hat also nicht nur den Vorzug, dass sie auf echtem Nutzer-Input beruht, sondern dass sie auch bis dato ungesehene Nutzeruerungen abzubilden vermag. Allerdings sind statistische Grammatiken in ihrer Produktion sehr aufwendig. Fr ihre Erstellung mssen sehr viele Nutzeruerungen abgehrt und abgetippt werden. Hier liegt auch das nchste Problem: Je verzweigter ein Dialog ist, desto hher ist die Wahrscheinlichkeit, dass nicht gengend uerungen vorliegen, um eine reprsentative statistische Grammatik zu erstellen. Deshalb werden statistische Grammatiken meist nur fr wenige, ausreichend frequentierte Abschnitte eines Dialogs verwendet. Ein weiterer Nachteil liegt in der Art und Weise wie aus den vorhandenen Sprachdaten neue uerungen abgeleitet werden. Bei diesem Vorgang entstehen meist viele unsinnige Varianten, welche im

Endeffekt die Erkennung verschlechtern knnen. Die Hotword-Grammatik (auch Hotword Recognition) verfolgt einen anderen Ansatz: Anstatt die gesamte uerung des Nutzers zu erkennen, nden nur die relevanten Teile der uerung Beachtung. Die unwichtigen Teile werden bei der Erkennung ignoriert. Anders als bei geschriebener Sprache aber, wo ein Wort klar durch zwei Leerzeichen von seinen Nachbarn ge-trennt ist, lassen sich Wrter im zusammenhngenden akustischen Strom nur sehr schwer isolieren. Deswegen funktioniert dieser Ansatz auch nur dann verlsslich, wenn sehr wenige Hotwords erkannt werden mssen. Mit steigender Anzahl Hotwords steigt auch die Anzahl an Fehlerkennungen rapide. Ein weiteres Problem besteht bei der Auswahl der Hotwords. hnlich wie bei den anderen beiden Grammatik-Typen mssen diese entweder durch Abhren von Nutzeruerungen oder aber durch Best Guess eines Entwicklers gewonnen werden. Die Keyword-Grammatik (auch Keyword-Spotting) funktioniert hnlich wie die Hotword-Grammatik. Relevante Teile der uerung werden erkannt, andere werden ignoriert. Wegen ihrer hnlichen Funktionsweise ergeben sich fr die Keyword-Grammatik und die Hotword-Grammatik auch die gleichen Vor- und Nachteile. Wenn trotz dieser Unwegsamkeiten die uerung des Nutzers erkannt wurde, muss diese anschlieend noch interpretiert werden, um den nchsten Schritt im Dialog zu bestimmen. Die Interpretation, auf die hier nicht nher eingegangen werden soll, stellt eine hnlich groe Hrde fr die Sprachtechnologie wie die Erkennung dar.

Nutzer

h ja. Hallo erstmal. Ich mchte gerne nach Leipzig, und zwar morgen. So um die Mittagszeit rum. Ach und ja, ich fahre hier in Berlin los, Berlin-Charlottenburg um genau zu sein Was gibts denn da so?

System

Gut, ich habe hier folgende Verbindung ...

So oder so hnlich wrde wohl der ideale Dialog aussehen: Das System stellt eine offene Frage und der Nutzer macht nach Belieben seine Angaben. Daraufhin checkt das System die Angaben des Nutzers auf Vollstndigkeit (ggf. werden noch fehlende Angaben erfragt) und gibt anschlieend die gewnschten Informationen aus. Natrlich ist ein Dialog zwischen Nutzer und System wie in diesem Beispiel beim derzeitigen Stand der Technik so gut wie unmglich. Trotzdem gibt es Bestrebungen, den freien Dialog (auch: Mixed Initiative Dialog) zu etablieren wenn auch mit gewissen Einschrnkungen, auf die spter noch einmal eingegangen wird. Der freie Dialog ist aus zweierlei Grnden problematisch: Erstens stt hier die Sprachtechnologie massiv an ihre Grenzen und zweitens und dieses Problem hngt mit dem ersten zusammen birgt diese Art der Dialogfhrung viele Hrden fr die Usability. Zunchst soll hier die technologische Problematik nher beleuchtet werden. Diese wird deutlich, wenn man einen genaueren Blick auf die zugrunde liegenden Prozesse wirft.

Frei aber einsam


Nicht nur technologisch ist der freie Dialog eine Herausforderung, auch der Nutzer selbst wird stark gefordert. Dieser hat nmlich meist keine klare Vorstellung, welche Angaben das System von ihm verlangt, welche Wahlmglichkeiten bestehen und welchen sprachlichen Input er dem System berhaupt zumuten kann. Bei

Typen von Grammatiken


Die groe Schwierigkeit besteht darin, dass jegliche uerung auf irgendeine

einer frei gestellten Frage wird der Nutzer daher schlicht vom System alleine gelassen. Wenn dann schlielich doch zgerliche Kommunikationsversuche gestartet werden, enden diese nicht selten mit Fehlerkennungen. Der Nutzer wird entweder gar nicht verstanden oder aber er landet in Subdialogen, die er gar nicht ansteuern wollte. Dies fhrt oft zu einer vlligen Desorientierung und Verwirrung. Der freie Dialog erzielt dann einen komplett gegenteiligen Effekt: Statt den Dialog zu beschleunigen und ihn komfortabel zu gestalten wird der Dialog erschwert und fhrt unter Umstnden gar nicht ans Ziel. Um diesem Problem entgegenzuwirken, werden dem Nutzer hug Beispieluerungen genannt oder es werden beispielhaft Optionen aufgefhrt. Dadurch sollen nicht nur Orientierung und Starthilfe gegeben werden, man erhofft sich dadurch auch, dass die uerung des Nutzers vorhersehbarer wird, weil er die sprachliche Struktur der Beispieluerungen imitiert.

Der gefhrte Dialog


System Willkommen beim Sprechenden Fahrplan. Bitte nennen Sie zunchst den Ort, wo Sie abfahren mchten.

Den richtigen Freiheitsgrad nden


Nicht alle Angaben mssen einzeln in einem streng gefhrten Dialog abgefragt werden, um eine solide Erkennung zu gewhrleisten. Manche Angaben lassen sich auch zu einem Abfrageschritt zusammenfassen. Voraussetzung ist, dass diese Angaben thematisch zueinander passen und dass die Menge an zu erkennenden uerungen relativ berschaubar und vorhersehbar bleibt. Ein gutes Beispiel ist hier die Erkennung von Datum und Uhrzeit. In einem streng gefhrten Dialog werden Datum und Uhrzeit getrennt abgefragt (An welchem Tag mchten Sie fahren?, Um welche Uhrzeit mchten Sie fahren?). Hier sind jedoch auch die Voraussetzungen fr eine zusammengefasste Abfrage gegeben (Wann mchten Sie fahren?). Denn aus Usability-Sicht gehren diese beiden Gren konzeptionell eng zusammen und darber hinaus bestehen vor allem in der Schriftsprache relativ deutliche Normen fr die sprachliche Darstellung von Datum und Uhrzeit, was die mglichen uerungen relativ gut vorhersehbar macht. Der Freiheitsgrad des Dialogs kann fr diesen Schritt also erhht werden. Die Erkennung mehrerer Haltestellen innerhalb eines Abfrageschritts um bei dem bisherigen Beispiel zu bleiben gestaltet sich wesentlich schwieriger. Doch auch hier kann man einen hheren Freiheitsgrad als den gefhrten Dialog wagen.

Nutzer

Berlin

System

Gut. Bitte nennen Sie jetzt den Zielort.

Nutzer

Leipzig.

Der gefhrte Dialog bildet den extremsten Gegensatz zum freien Dialog. Durch eine schrittweise Abfrage der bentigten Angaben werden die Nutzeruerungen relativ vorhersehbar und der Einsatz der soliden und kostengnstigen klassischen Grammatiken wird mglich. Die Nachteile liegen auf der Hand: Der Dialog wird insgesamt langsamer und es besteht die Gefahr, dass das System als wenig modern und starr empfunden wird denn schlielich muss sich der Nutzer vollstndig an die Vorgaben des Systems anpassen und hat wenig aktive Gestaltungsmglichkeiten. Diese Nachteile wiegen umso strker, je mehr Wahlmglichkeiten ein System bietet: Bei einer groen Anzahl von Handlungsoptionen resultiert ein gefhrter Dialog entweder in einer zu breiten oder zu tiefen Auswahlpalette.

System

Willkommen beim Sprechenden Fahrplan. Was kann ich fr Sie tun? <Pause> Sagen Sie zum Beispiel Wann fhrt ein Zug von Berlin nach Dresden? oder Ich mchte morgen von Kln nach Duisburg fahren..

Nutzer

...

Die beste aller mglichen Welten


Freier und gefhrter Dialog sind lediglich die Extremwerte auf der Freiheitsgrad-Skala der Dialoge. Dazwischen liegen viele weitere Mglichkeiten, einen Dialog zu gestalten, die sich auerdem innerhalb einer Sprachanwendung auch miteinander kombinieren lassen. So kann man beispielsweise erst dann in den gefhrten Dialog schalten, wenn der Nutzer in einem Dialog mit einem hheren Freiheitsgrad nicht zurechtkommt. Die Herausforderung liegt vor allem darin, fr einen Dialog oder fr bestimmte Teile eines Dialogs den richtigen Freiheitsgrad zu nden.

System

Willkommen beim Sprechenden Fahrplan. Von wo nach wo mchten Sie fahren?

Zwar bieten Beispiele Orientierung, sie knnen aber auch verwirren dann nmlich, wenn der Nutzer mit Optionen berhuft wird, die er nicht whlen mchte. Er hat dann zwar eine Vorstellung davon, welche Optionen bestehen und wie er sie sprachlich formulieren kann es hindert ihn jedoch daran zu berlegen, was er eigentlich genau mchte und dies sprachlich zu formulieren. Denn hug hat der Nutzer sein Anliegen nur schemenhaft im Kopf und es konkretisiert sich erst im Zwiegesprch mit einem Agenten oder dem System.

Nutzer

Ich mchte von Berlin nach Leipzig, bitte.

System

Und wann mchten Sie fahren?

Nutzer

Hmm, morgen Mittag so gegen 12 Uhr.

System

Gut, ich habe hier folgende Verbindung ...

Dieser Dialog besteht aus zwei Abfrageschritten. Damit ist er zwar lnger als ein vollstndig freier Dialog, auf der anderen Seite aber ist er wesentlich sicherer und dadurch im Endeffekt auch krzer. Er stellt hier das Optimum dar im Spannungsfeld zwischen Sicherheit und Schnelligkeit. In der Praxis ist dieses Optimum natrlich noch von einigen anderen Faktoren abhngig. Ausschlaggebend ist zum Beispiel auch, wie hoch die Fallback-Quote in ein angeschlossenes Callcenter sein darf. Soll der Anrufer nicht so schnell ins Callcenter transferiert werden, entsprche ein strker gefhrter Dialog eher dem Optimum.

genau will der Nutzer? In welchen Situationen ruft er an? Wie oft ruft er an? etc. spielen hierbei eine wichtige Rolle. Dieses Wissen kann dann auf vielfltige Weise verwendet werden. Denn wenn man den Nutzer richtig versteht, wei man auch, welche Mittel den Dialog fr ihn komfortabel machen. Dann knnen beispielsweise wenig hilfreiche oder sogar unntze Optionen entfernt werden, was den Dialog schlanker und bersichtlicher und somit wiederum schneller macht. Dann wei der Dialog-Designer, wie er dem Nutzer am besten verdeutlichen kann, welche Wahlmglichkeiten er hat und wie er diese jeweils ansteuert. Dann ist auch klar, welche Informationen ber den Nutzer innerhalb eines Anrufes oder ber mehrere Anrufe hinweg gesammelt werden mssen, um ihm entgegenzukommen durch verknappt dargestellte Informationen oder durch verkrzte, optimierte Dialogwege. Aber nicht immer kommt es darauf an, den Dialog messbar zu verkrzen. Viel wichtiger ist es den Dialog gefhlt zu verkrzen. Denn wenn der Dialog dem Nutzer sprachlich ssig und von seinem Ablauf her schlssig erscheint und wenn ihn Text- und Audiodesign emotional ansprechen, trgt dies Mageblich zum Komfort bei. Auf

diese Weise erreicht man beides: Einen als zgig empfundenen Dialog und eine solide Erkennung.

Fazit
Sicherheit und Schnelligkeit sind zentrale Gren bei der Gestaltung von Dialogen. Hug schlieen sich diese Gren nur scheinbar aus: Durch eine grndliche Analyse des mentalen Modells des Nutzers, des Nutzungskontextes und des zu erkennenden sprachlichen Materials kann ein Dialog geschaffen werden, der beides leistet. Dabei kann nicht nur mit Mitteln gearbeitet werden, die den Dialog wirklich messbar verkrzen, sondern auch mit Mitteln, die ihn kurzweiliger machen. Auf diese Weise verlieren auch streng gefhrte Dialoge die ihnen hug zugeschriebene Starrheit und werden komfortabel, efzient und sicher.

Gefhrt und doch frei


Neben der Erhhung oder Verringerung des Freiheitsgrades gibt es noch weitere Mglichkeiten, den Spagat zwischen Sicherheit und Schnelligkeit zu schaffen. Denn Schnelligkeit wird in der Praxis nicht nur durch eine Verringerung der Abfrageschritte erreicht, vielmehr kann ein Dialog auch durch eine verstrkte Optimierung auf seine Nutzerschaft wesentlich komfortabler werden. Dieser Optimierung geht natrlich eine grndliche Analyse voran, in welcher der Nutzungskontext und das mentale Modell des Nutzers genau eruiert werden. Fragen wie: Was

lautmaler

ber die Autoren

Manja Baudis
Manja Baudis ist Magistra Artium der Computerlinguistik und Germanistik. Bevor sie mit den Lautmalern ihre eigene Agentur grndete, war sie verantwortliche VUI-Designerin und Speech-Scientist der Excelsis Business Technology AG und spter der Mundwerk AG in Berlin, Stuttgart und Zrich. Bei den Lautmalern liegt ihr Schwerpunkt im Bereich SpeechScience.

Zeno Wolze
Zeno Wolze ist Magister Artium der Allgemeinen Linguistik, Phonetik und Mensch-Maschine-Kommunikation. Als ehemaliger Teamleiter fr VUI-Design und Speech-Science bei der Mundwerk AG sammelte er vielseitige Erfahrungen in standortbergreifenden und internationalen Projekten. Bei den Lautmalern liegt sein Schwerpunkt im Bereich DialogDesign.

Die Lautmaler
Kontakt

Manja Baudis & Zeno Wolze GbR Florastrae 78 D-13187 Berlin office: +49 (0)30 49 85 57 10 email: kontakt@die-lautmaler.de Manja Baudis office: +49 (0)30 63 21 80 40 mobil: +49 (0)171 6 54 92 30 email: manja.baudis@die-lautmaler.de Zeno Wolze office: +49 (0)30 49 85 57 10 mobil: +49 (0)177 6 91 15 44 email: zeno.wolze@die-lautmaler.de

Die Lautmaler 2008 - Alle Rechte vorbehalten