Sie sind auf Seite 1von 13

Wie Ihre Informations-

und Lernmodule
„sprechen“ lernen
Ratgeber zum Thema Erstellen von Sprach-Audio-Dateien
für den Einsatz in Informations- und Lernmodulen

von Philippe Bajna


03/2009 V.2.1

copyright by partekk handels ag

Seite 1 von 13
Einleitung
Mit steigender Informationsflut ist heute nahezu jeder konfrontiert. Neben Werbungen, Zeitungen
und Fachlektüre füllen E-Mails, Briefe und Memos unsere physischen und elektronischen Postfächer.
In immer kürzerer Zeit müssen wir immer mehr lesen. Dies führt zwangsläufig dazu, dass wir eine
Auswahl treffen müssen und viele Informationen nur oberflächlich oder gar nicht lesen können.

Dieses Problem stellt sich in jeder Firma in unterschiedlichem Ausmass, und zwar intern, also in der
Kommunikation mit den Mitarbeitern, aber auch extern im Austausch mit potenziellen Kunden oder
anderen Geschäftspartnern.

Wie können wir unseren Mitarbeitern helfen, wichtige Informationen aufzunehmen?


Wie können wir unseren potenziellen Kunden die Vorteile unserer Produkte und
Dienstleistungen auf angenehme Art übermitteln?

Indem wir den auditiven Kanal ansprechen und die Informationen „vertonen“. Die Informationen
werden von einem Sprecher kommentiert oder vorgelesen.

Die Kombination von Sehen und Hören verteilt die sonst


einseitige kognitive Belastung auf mehrere Kanäle – mit dem
Effekt, dass erfolgreicher gelernt werden kann bzw. die
Informationen nachhaltiger aufgenommen werden.

So setzen wir beispielsweise unseren virtuellen Sprecher


Klaus gezielt auch auf unseren Webseiten ein, damit sich
unsere Besucher schneller zurechtfinden und die wichtigsten
Informationen auch über den auditiven Kanal aufnehmen
können. Ein konkretes Beispiel sehen Sie auf unserer Rapid
eLearning-Portalseite.

Durch den Einsatz eines Sprechers in einem Informations-


oder Lernmodul können die Inhalte visualisiert, d. h. mit
Bildern, Cliparts oder Symbolen dargestellt werden.
Erklärungen oder Aufzählungen in Textform können so auf
der Folie reduziert werden. Der Wirkungsgrad von
Informations- und Lernmodulen erhöht sich damit
zusätzlich.

Dieses Beispiel zeigt in vorbildlicher Art die Wirkung des


Zusammenspiels von Ton und Bildern.

Seite 2 von 13
Links zu diesem Kapitel
http://del.icio.us/partekk/Tipps_Sprach-Audio1

Seite 3 von 13
3 Möglichkeiten, um Informationsmodule mit Sprache zu unterlegen
Im ersten Teil haben wir darüber gesprochen, weshalb wir die Mitarbeiter und unsere Kunden mit
dem Einsatz von Sprache besser erreichen können. Hier entnehmen Sie nun, welche Möglichkeiten
existieren, um Sprach-Audio-Dateien zu generieren und welche Vor- und Nachteile die einzelnen
Varianten haben.

Grundsätzlich gibt es 3 Möglichkeiten, um Informationsmodule mit Sprache zu unterlegen:

1. Wir besprechen jede Folie selbst.


2. Wir bemühen eine Text-to-Speech-Applikation.
3. Wir lassen einen professionellen Sprecher das Skript vorlesen.

Wir besprechen jede Folie selbst


Die wohl günstigste Methode ist das Selbst-Besprechen der Folien. In
Articulate Presenter beispielsweise kann dies mit der praktischen „Record
Narration“ erledigt werden. Wer im Umgang mit seiner Stimmer vertraut
ist und ein gutes Kondensator-Mikrofon besitzt, kann diese Möglichkeit
durchaus in Betracht ziehen.

Vorteile:

Die Stimme wirkt authentisch.


Mit der eigenen Stimme kann bewusst ein Bezug zur eigenen Person hergestellt
werden, beispielsweise mit einem Foto.
Kostengünstigste Variante!

Nachteile:

Oft ist die Aufnahmequalität aufgrund unvorteilhafter Aufnahmeräume oder


suboptimaler technischer Ausstattung schlecht.
Typische Amateurfehler, wie monotones Vortragen eines Textes oder falsche
Intonation, schleichen sich ein.
Mitunter müssen Sprechfehler auf aufwendige Weise im Nachhinein herausgeschnitten
werden.

Seite 4 von 13
Text-to-Speech
Text-to-Speech-Applikationen sind „Software-Maschinen“, welche
geschriebene Texte in gesprochene Sprache verwandeln. Der Computer
liest das, was Sie schreiben, und erzeugt eine Audio-Datei, welche in eine
Präsentation eingebunden werden kann.

Text-to-Speech-Lösungen bieten heute eine verblüffend natürlich


klingende Sprachausgabe, welche der menschlichen Stimme sehr nahe
kommt. Solche Programme sind in der Lage, Satzstrukturen zu analysieren, um den Redefluss und die
Intonation anzupassen: Die Sprachmelodie klingt natürlich, Nebensätze sind deutlich zu erkennen
und der gesamte Vortrag wirkt überraschend lebendig.

Effektiv bestehen die umfangreichen phonetischen Datenbanken aus vielen Tausend


„Sprachschnipseln“, welche ein „echter Mensch“ einmal aufgenommen hat. Text-to-Speech-
Applikationen setzen diese zu verständlichen Wörtern und Sätzen zusammen.

Beim Einsatz so generierter Audio-Dateien muss speziell auf die Lizenz geachtet werden, denn die
Audio-Dateien unterliegen wie Musikstücke auch einem Urheberschutz. Spezielle Lizenzen für die
Veröffentlichung der Audio-Dateien sind daher notwendig.

Vorteile:

Text-to-Speech-Applikationen sind günstiger als professionelle Sprecher.


Die virtuelle Stimme ist immer verfügbar.
Die Umsetzung ist schnell und effizient.

Nachteile:

Die Stimme ist gewöhnungsbedürftig, da sie immer in der gleichen Art spricht.
Phonetische Anpassungen sind notwendig, beispielsweise bei Fachwörtern oder
Firmennamen.
Durch die Software-Lizenz fallen Kosten an.

Seite 5 von 13
Professionelle Sprecher
Die teuerste Variante ist ohne Zweifel der Einsatz eines professionellen
Sprechers. Professionelle Sprecher haben eine entsprechende
Ausbildung genossen und beherrschen verschiedene Tonlagen und
Dialekte. Die Audio-Dateien werden in Studioqualität hergestellt.

Profisprecher transportieren die Werte und Stimmungen der zu


übermittelnden Inhalte mit Abstand am besten. Durch gezielte Betonung
werden Inhalte hervorgehoben, und der Einsatz variabler Lautstärke erzeugt Spannung oder
Entspannung.

Der Sprecher liest den Text aufgrund eines Sprachskriptes mit zusätzlichen Anweisungen zur
Intonation und Aussprache.

Vorteile:

Durch die Profistimme werden gezielt Werte übermittelt, wie beispielsweise


Vertrauen, Begeisterung oder Kompetenz.
Die angenehme und tragende Stimme erzielt beste Lernergebnisse.
Durch die grosse Berufserfahrung können die Inhalte schnell umgesetzt werden.

Nachteile:

Im Vergleich zu den beiden anderen Varianten fallen hierbei die höchsten Kosten an.
Der Sprecher ist nicht immer verfügbar (Krankheit, Ferien).

Seite 6 von 13
Sprach-Audio-Dateien im Do-it-yourself-Verfahren
Nun gehen wir auf die Erstellung von Sprach-Audio-Dateien im Do-it-yourself-Verfahren ein.

Dies ist sicher für ungeübte Sprecher eine kleine Herausforderung und stellt ein paar wichtige
Anforderungen an die verwendete Technik und an uns selbst.

Eines vorweg: Ihnen wird bestimmt die eigene Stimme zunächst fremd vorkommen. Dies ist nicht
verwunderlich, da Sie sich normalerweise nur selten selbst sprechen hören. Wichtiger als die Stimme
ist jedoch die Authentizität, die lebhafte Betonung und Begeisterung, welche Ihre Stimme
transportieren soll.

Welche Hardware benötigen Sie für Ihre Sprachaufzeichnungen?


Um aufnehmen zu können, benötigt man ein gutes Kondensator-
Mikrofon. Die meisten in einem Fachgeschäft käuflichen
Mikrofone oder Headsets für den Anschluss an den PC sind
ungeeignet, da sie eher auf Telefonie ausgerichtet sind. Ein gutes
Kondensator-Monomikrofon aus dem Hi-Fi-Bereich hingegen
würde sich anbieten. Wir können hier z. B. das Rode NT1A oder,
etwas günstiger, das T-Bone Mikrofon empfehlen. Ein Mikrofon-
Vorverstärker ist meistens schon direkt im PC eingebaut.
Mischpult oder MiniDisc-Recorder/MP3-Recorder sind nicht
zwingend notwendig. Hilfreich für die Aufnahmequalität ist ein so
genannter „Poppschutz“, ein Mikrofonschutz aus Schaumstoff zur Dämpfung von Zischlauten, wie
„T“, „P“ oder „Sch“, und zur Beseitigung von Wind- und Nebengeräuschen.

Welche Software für die Aufzeichnung von Sprach-


Audio können wir empfehlen?
Um nun die Stimme aufzunehmen, ist eine Software
notwendig. Articulate Presenter bietet eine eigene
Aufnahmefunktion, „Record Narration“, an. Wir empfehlen
jedoch bei ungeübten Sprechern die Verwendung einer
externen Software, wie beispielsweise Audiacity. Audiacity ist
kostenlos und bietet ein umfangreiches Set an praktischen
Funktionen. Sprachliche Schnitzer können mit einem solchen
Programm einfach herausgeschnitten werden, und durch
„Normalisierung“ kann die Lautstärke angeglichen werden.

Seite 7 von 13
Was ist bei Sprachskripten zu beachten?
Bevor Sie jedoch sprechen können, muss ein Sprachskript
erstellt werden. Sicher kann man auch frei sprechen. Um
jedoch keine wesentlichen Punkte zu vergessen,
empfehlen wir immer ein Sprachskript. Dieses Skript
erklärt den Inhalt der gezeigten Folie und bringt die
Aussagen möglichst auf einen Punkt. In PowerPoint bietet
sich dafür der Notizbereich unterhalb der Folie an. Für
jede Folie erstellen Sie einen Sprachtext, optimalerweise
nicht länger als 3 Minuten pro Folie. Wir empfehlen, die
Pausen, in denen Sie Luft holen, mit einem Zeichen, wie beispielsweise ^, zu markieren. Das hilft
sehr, damit einem nicht plötzlich beim Sprechen die Puste ausgeht.

Hier ein kurzes Beispiel eines Sprachskripts:

Der Text kann direkt von einem Sprecher aufgezeichnet werden. ^ Oder Sie lassen die neue
Text-to-Speech-Applikation von partekk für Sie sprechen! ^ Der Computer erzeugt basierend
auf einem schriftlich vorhandenen Text ^ gesprochene Sprache, ^ und dies in verblüffender
Qualität. ^

Der geschriebene Text unterscheidet sich wesentlich vom gesprochenen. Deshalb sollte das
Sprachskript auch auf seine Tauglichkeit getestet werden, indem Sie das Skript laut vorlesen, am
besten vor einem oder mehreren Zuhörern.

Mit Articulate Presenter kann übrigens ein praktisches Storyboard erstellt und in Microsoft Word
ausgegeben werden. Das Storyboard enthält sowohl ein Abbild der Folie als auch den Text des
Notizfeldes. Die Funktion kann im Menü von Articulate Presenter mit „Publish“ und „Word“ erreicht
werden.

Nun wird aufgenommen!


Achten Sie zunächst darauf, dass Sie sich in einem möglichst ruhigen und hallfreien Raum befinden.
Zusätzliche Textilien, wie z. B. Leinentücher oder Frotteetücher, helfen, den Hall zu bekämpfen.
Stellen Sie das Mikrofon auf eine feste Unterlage und in einen angenehmen Abstand. Wichtig ist der
möglichst immer gleiche Abstand.

Sprechen Sie zuerst den Text laut vor und achten Sie dabei auf die Betonung. Üben Sie einige Male
die Aussprache schwieriger Wörter. Im nächsten Durchgang drücken Sie den Aufnahmeknopf.
Wiederholen Sie den Vorgang eventuell weitere Male, bis Sie zufrieden sind.

Seite 8 von 13
Speichern Sie die Aufnahme für die spätere Einbindung in Articulate. Vermerken Sie unbedingt die
Foliennummer im Dateinamen.

Weitere gute Tipps zur Produktion von Tondokumenten, beispielsweise für einen Podcast, finden Sie
hier: http://wiki.podcast.de/Produzieren

Wenn Sie sich noch unsicher fühlen oder weitere Fragen zur eigenen Aufnahme von Tondokumenten
haben, kontaktieren Sie uns. Wir helfen Ihnen gerne.

Weitere interessante Blogartikel zu diesem Thema finden Sie hier.

Steve Jobs grossartige Präsentationskunst


Beste Praktiken für fesselnde Online-Präsentationen
Audio-Dateien in Articulate Presenter importieren

Links zu diesem Kapitel


http://del.icio.us/partekk/Tipps_Sprach-Audio3

Seite 9 von 13
Text-to-Speech-Engines für E-Learning

Mehr und mehr bieten gute Text-to-Speech-Software-Applikationen


eine gute Alternative zum professionellen Sprecher. Nicht zuletzt
sprechen die immer menschenähnlichere Stimme und die niedrigen
Kosten für die Lösungen.

Wir haben bereits über die Vor- und Nachteile solcher Systeme
gesprochen. Der Wikipedia-Artikel „Sprachsynthese“ vertieft dieses
Thema.

Wie schon angesprochen, bedarf es einer speziellen Lizenz, um die


Audio-Dateien in E-Learning oder Podcasts zu veröffentlichen. Die
meisten Text-to-Speech-Engines, bei Kosten von oft unter CHF 100. —,
sind für das Vorlesen von Texten am PC gedacht. Die als MP3 oder WAV
gespeicherten Audio-Dateien dürfen nicht weitergegeben werden.
Typische Anbieter solcher Systeme sind Naturalreaders, Nextup oder
Linguatec. Linguatec bietet sowohl die kostengünstige Vorsprech-
Version als auch eine Lizenz für den Einsatz von Audio-Dateien im E-
Learning- oder Podcast-Bereich an.

partekk hat sich speziell auf Text-to-Speech-Engines spezialisiert, welche für die Verwendung der
Sprach-Audio-Dateien in Informations- und E-Learning-Modulen oder in Podcasts ausgerichtet sind.

Spezielle Lizenzen für die Veröffentlichung von Sprach-Audio-Dateien bieten die folgenden Hersteller
an:

Produkt-Informationen Acapela Sprach-Demos

Produkt-Informationen Linguatec Sprach-Demos

Die Verwendung solcher Text-to-Speech-Engines ist denkbar einfach. Sie geben den Text in das dafür
vorgesehene Feld ein, wählen den gewünschten Sprecher aus und starten die Vorlesefunktion.

Die Herausforderung besteht nun darin, der Maschine die gewünschte Aussprache von Fach- oder
Fremdwörtern „beizubringen“. Beide Text-to-Speech-Engines bieten die Möglichkeit, ein eigenes
Aussprache-Lexikon anzulegen. Dies ist essenziell, wenn Sie nicht für jeden Durchlauf die Aussprache
immer neu „modellieren“ möchten. Dazu bieten die Softwaremaschinen unterschiedliche

Seite 10 von 13
Möglichkeiten, die Aussprache für Wörter festzulegen. Dies kann mittels spezieller Zeichen,
phonetisch oder rein textlich erfolgen.

„partekk“ beispielsweise soll als „paarteck“ ausgesprochen werden.

Im nächsten Schritt möchten Sie eventuell die Satzmelodie oder den Satz-Rhythmus verändern. Die
Applikationen bieten hierfür verschiedene Tags an, welche im Sprechtext eingefügt werden können.
Eine Pause kann z. B. mit dem Tag <Pause=2000/> eingefügt werden. Die Melodie kann mittels
Satzzeichen beeinflusst werden.

Um für ein Informations- oder E-Learning-Modul eine brauchbare Audio-Datei zu erzeugen, sind
daher einige Durchläufe nach dem „Try-and-Error“-Verfahren mit manuellen Anpassungen
notwendig. Diese Arbeit lässt sich nicht automatisieren. Dafür nimmt der Aufwand für die
Feinabstimmung der Sprache von Mal zu Mal ab, da immer weniger Wörter im Lexikon nachgetragen
werden müssen.

Wem dies zu aufwendig ist, kann diese Arbeit auch uns überlassen. partekk bietet attraktive
Minutenkontingente fertiger Sprach-Audio-Dateien, aufgenommen mit einer Text-to-Speech-Engine,
an. Die Feinmodellierung der Aussprache und Betonung übernimmt partekk.

5 Minuten Sprache von einem virtuellen Sprecher Ihrer Wahl sind schon ab CHF 45.— zu
haben. Nachbesserungen sind bei Text-to-Speech-Aufnahmen im Preis inbegriffen!

Wünschen Sie mehr Informationen über unseren Virtual Speaker-Service oder unsere Text-to-
Speech-Produkte? Kontaktieren Sie uns, wir beraten Sie gerne.

Links zu diesem Kapitel


http://del.icio.us/partekk/Tipps_Sprach-Audio4

Seite 11 von 13
Noch erfolgreicher mit professionellen Sprechern
Die Sprache ist das erfolgreichste Kommunikationsmittel des Menschen,
um seine Gedanken, Gefühle und Wünsche zu übermitteln. Die Sprache
bezeichnet die verbale Kommunikation neben der nonverbalen
Kommunikation beispielsweise durch die Körpersprache. Fällt die
Körpersprache weg, wie beispielsweise beim Radio, wird das
gesprochene Wort und die Art seiner Aussprache entscheidend.

Die Sprache, oder genauer: der Sprechakt, besteht aus zwei Elementen:
Der erste Teil ist der inhaltlich rationale, also der Teil, der durch die
Schrift festgehalten ist. Der zweite besteht aus der gefühlsmässigen
Artikulation des Sprechers. Gemeint ist die Stimmlage, der Tonfall oder die Betonung des
Sprechaktes. Durch eine ausdrucksstarke Betonung kann der Effekt und die Bedeutung des Gesagten
verändert bzw. in seiner Wirkung potenziert werden.

Die Art und Weise, wie etwas gesagt wird, entscheidet letztendlich über die Wirkung beim
Rezipienten. Der Tonfall kann freundlich oder unfreundlich, unsicher oder bestimmend,
ängstlich oder kräftig, schüchtern oder selbstbewusst, grosszügig oder herrschend, lieblich
oder grob, begeisternd oder gelangweilt sein. Die Kanäle, die diese Eigenschaften oder
Charakteristiken empfangen, sind die unbewussten, gefühlsmässigen Prozesse der
Wahrnehmung.

Auszug aus dem Artikel: „Sprache und gesprochener Text“. Diese sehr interessante Passage aus der
Diplomarbeit von Sascha Röder aus Furtwangen können wir sehr
empfehlen.

Es ist daher auch die gefühlsmässige Ebene, die uns einen


gesprochenen Text angenehm und spannend erscheinen lässt und die
den Lerneffekt nachhaltig unterstützt. Über diese Ebene werden auch
Werte übermittelt, welche beispielsweise ein Produkt kennzeichnen
oder ausstrahlen soll. Computergenerierte Stimmen (Text-to-Speech)
sind in dieser Disziplin stark limitiert. Unsere eigene Stimme ist da
schon die bessere Wahl, jedoch fehlt uns normalerweise das Können,
um Stimmlage oder Betonung gezielt und wirkungsvoll einzusetzen.

Professionelle Sprecher sind im gekonnten Einsetzen der


Gefühlsebene geschult, um die gewünschten Kommunikationsziele zu
erreichen.

Seite 12 von 13
Professionelle Sprecher sind zwar teurer als Sprach-Audio-Dateien hergestellt im Do-it-yourself-
Verfahren oder mittels Text-to-Speech-Engine, sie sind jedoch weit günstiger, als Sie vielleicht
annehmen.

Die von der „Vereinigung Professioneller Sprecherinnen und Sprecher“ publizierten Richtpreise
geben zunächst Aufschluss darüber, in welchen Grössenordnungen normalerweise gerechnet wird.
Beispielsweise kosten 5 Minuten Sprache für den Bereich Internet oder Podcast CHF 466.— (ohne
MwSt).

Je nach Geschäftsmodell jedoch verändern sich die Kosten markant nach unten. Die partekk
handels ag bietet ein sehr attraktives Kontingentmodell an, in dem 5 Minuten schon ab CHF
200.— (ohne MwSt) zu haben sind.

Wünschen Sie mehr Informationen zu unseren „echten“ SprecherInnen? Sehr gerne erstellen wir für
Sie eine Offerte unseres Real Speaker Sprach-Services.

Als Schlusstipp empfehlen wir Ihnen, mit den Möglichkeiten der Sprache zu experimentieren und die
Wirkung zu testen. Wir unterstützen Sie dabei, verschiedene Testmodule zu erstellen, um die
Wirkung von Sprache und Visualisierung zu überprüfen.

Wir wünschen Ihnen viel Spass mit der neuen Dimension Sprache in Ihren Informations- und
Lernmodulen.

Links zu diesem Kapitel


http://del.icio.us/partekk/Tipps_Sprach-Audio5

Seite 13 von 13