Sie sind auf Seite 1von 4

Audio-Codecs zur Sprachdigitalisierung

Wie bei der Digitalisierung von Sprache für die Fernsprechübertragung arbeiten Codecs nach
dem Prinzip Sampling, Quantisierung und Kodierung. Dadurch erreicht man eine optimale
Sprachqualität, um das analoge Sprachsignal über digitale Systeme zu übertragen.
Bei 8.000 Abtastungen pro Sekunde (Sampling), mit einer Quantisierung von 8 Bit pro Abtas-
tung ergibt sich eine Bitrate von 64 kBit pro Sekunde (nach µ-Law/a-Law). Diese Technik wird
als PCM bezeichnet. Sie wird im leitungsvermittelten ISDN für die Digitalisierung der Sprache
verwendet.
In einem paketvermittelten Netz ist man immer bestrebt Bandbreite zu sparen. Deshalb werden
die Sprachdaten meistens noch komprimiert. Bei zunehmender Komprimierung nimmt die
Sprachqualität ab, die Dekomprimierungszeit und die erforderliche Rechenleistung nehmen zu.
Es gilt: Je höher die Bitrate eines Codecs ist, desto besser die Tonqualität. Je niedriger die Bit-
rate, desto schlechter die Tonqualität und höher der Bedarf an Rechenleistung. Das gilt jedoch
nicht immer. Die meisten Codecs machen sich die Eigenschaften der menschlichen Sprache zu
nutze um möglichst verlustfrei zu komprimieren.

Es gibt verschiedene Codecs, die für Multimedia-Übertragung im IP-Netzwerk geeignet sind.


G.711 (PCM) bietet die beste Sprachqualität. Er kommt ohne rechenintensive Kompression aus
und braucht deshalb auch relativ viel Bandbreite. Werden die Sprachdaten mit einem anderen
Codec komprimiert, dann wird G.711 beim Qualitätsvergleich herangezogen.

Codecs zur Sprachdigitalisierung müssen noch ein paar Bedingungen mehr erfüllen können.
Bedingt durch die Struktur des Internets (paketorientierte Übertragung und Vermittlung) müssen
sie Paketverluste (bis zu 5%) verkraften und Laufzeitunterschiede der einzelnen Pakete aus-
gleichen und in die richtige Reihenfolge sortieren können (Forward Error Correction und Jitter
Buffering). Das bedeutet, dass Paketverluste und Laufzeitschwankungen keinen Einfluss auf
die Sprachqualität haben dürfen.

MOS - Mean Opinion Score

kleiner MOS 4 größer

vergleichbar mit vergleichbar mit


der Sprachübertragung der Sprachübertragung
im Mobilfunknetz im Festnetz

Von Bell Labs wurde der "Mean Opinion Score" (MOS) definiert. Der MOS ermittelt das stati-
sche Empfinden der Sprachqualität eines Benutzers. Der MOS 4 gilt als Grenzwert. Darüber
wird die Sprachqualität besser, darunter schlechter.

MOS-Wert Bedeutung
5 / excellent keine Anstrengung zum Verständnis der Sprache notwendig
4 / good keine Anstrengung notwendig, aber Aufmerksamkeit notwendig
3 / fair leichte Anstrengung notwendig
2 / poor merkbare, deutliche Anstrengung notwendig
1 / bad trotz Anstrengung kein Verständnis

Die Auswahl eines Codecs ist immer ein Kompromiss zwischen Sprachqualität, Bitrate, Band-
breite und Rechenleistung. Muss die Sprachqualität sehr gut sein, dann ist die Bitrate sehr
groß. Entsprechend muss eine ausreichende Bandbreite über die gesamte Übertragungsstre-
cke zur Verfügung stehen. Reicht eine geringere Sprachqualität aus, dann sinkt dadurch die
Bitrate und der Bedarf an Bandbreite. Gleichzeitig steigt dabei der Bedarf an Rechenleistung,
um die Sprachdaten zu dekomprimieren.

G.711

G.711 ist der älteste Codec überhaupt. Er wurde bereits 1965 von der ITU zugelassen. Er benö-
tigt nur eine geringe Rechenleistung, erzeugt dafür einen Datenstrom von 64 kBit/s.
IP-Telefonie-Anbieter setzen häufig auf G.711. Es ist dasselbe Verfahren wie bei ISDN. Der
Vorteil liegt in der einfachen Durchleitung der Sprachdaten vom Festnetz ins IP-Netz bzw. um-
gekehrt. Eine Umkodierung der Sprachdaten ist nicht notwendig.

Für schmalbandige Internet-Zugänge oder Netzwerkverbindungen ist dieser Codec absolut un-
geeignet.

G.722

Der Codec G.722 bewertet die Signaldifferenz zwei aufeinanderfolgender Signale. So lässt sich
mit der selben Bitrate von G.711 ein Sprachsignale bis 7 kHz mit einer Abtastrate von 16 kHz
digitalisieren. Der Bandbreitenbedarf liegt bei 48, 56 oder 64 kBit/s.

G.723.1

Durch ein Prädiktionsverfahren erreicht dieser Codec mit einer Bitrate von 5,6 oder 6,3 kBit/s,
einer Audiobandbreite von 3,1 kHz und einer Bitbreite von 8 Bit eine etwas geringere Sprach-
qualität als G.711.

Die erforderliche Rechenleistung bei G.723 ist nicht zu unterschätzen. Das ist der Datenrate
geschuldet, die um den Faktor 10 niedriger ist, als bei G.711.

G.729

Bei G.729 handelt es sich um die optimierte Variante des CELP-Algorithmus für Sprachübertra-
gungen. G.729 ist mit G.723 vergleichbar. Der Bandbreitenbedarf liegt nur bei 8 kBit/s wodurch
eine geringere Rechenleistung im Vergleich zu G.723 erforderlich ist.

Für VoIP-Anwendungen wird der Codec G.729A verwendet. Er ist die Grundlage für eine gute
Sprachqualität in VoIP-Netzen. Unter Berücksichtigung des IP-Overheads, der Sprachkompri-
mierung und der Sprechpausenunterdrückung wird eine Bandbreite von ca. 10 kbit/s (1,25
kByte/s) pro Sprachverbindung benötigt. Diese Bandbreite muss das Datennetz für jedes Ge-
spräch gewährleisten.

Alternativ stellen VoIP-Anbieter Verbindungen mit G.729 zur Verfügung. Die eingesetzte Kom-
pression drückt die Datentransferrate auf fast 10%. Obwohl das Abstriche bei der Sprachquali-
tät bedeutet, ist das deutlich besser als die Sprachqualität im Mobilfunknetz.

Linear-PCM 16 (L16)

Linear-PCM 16 (L16) ist von der TIA (Telecommunications Industry Association) im Rahmen der
Spezifikation TIA 920 für Breitband-Kommunikation definiert (Breitband-Internet-Anschlüsse).
Das Sprachsignal wird 16.000 mal pro Sekunden abgetastet (Sampling). Die Sprachdaten wer-
den mit 16 Bit aufgelöst (Quantisierung). Die Übertragung findet ohne Kompression, ohne La-
tenz und ohne Umwandlung statt. L16 bietet so die beste Übertragungsqualität.
PCMA-16

PCMA-16 ist eine 16 kHz-Variante des G.711-Codecs. PCMA-16 bietet eine Abtastrate von
16.000 Samples pro Sekunde (Sampling). Die Sprachdaten werden nach dem A-Law in 8 Bit
aufgelöst (Quantisierung).

GSM

GSM ist der Codec für die Sprachübertragung im Mobilfunknetz. Die Bandbreite beträgt 13,2
kBit/s.

iLBC

Der Codec iLBC ist für schmalbandige Übetragungsstrecken im Internet entwickelt worden. Er
ist speziell darauf optimiert, im Falle von verloren gegangenen und verzögert eingetroffenen
Datenpaketen, eine gleichbleibende Sprachqualität und -verständlichkeit zu liefern. Der Codec
besitzt eine höhere Qualität als G.729. Die Bandbreite liegt bei 13,33 kBit/s.

Speex (SPX)

Speex zeichnet sich dadurch aus, dass er eine variable Bitrate hat und somit optimal an die
Sprachübertragung angepasst ist. So zum Beispiel an Sprechpausen, in denen so gut wie keine
Daten anfallen. Die Bandbreite liegt zwischen 2,15 und 24,6 kBit/s

Übersicht der Audio-Codecs

Codec Name/Bezeichnung Bandbreite MOS MIPS Delay Sprachqualität


G.711 Pulse Code Modulation (PCM) 56 oder 64 4,10 1 0,25 ms ISDN
kbit/s
G.723.1 Multiple Maximum Likelihood 5,6 - 6,3 3,90 18 67,5 ms Gut
Quantization (MP-MLQ) kbit/s
G.723 Algebraic Code Excited Linear Pre- 5,3 kbit/s 3,65
diction (A-CELP)

G.726 Adaptive Differential Pulse Code 16 - 40 3,85 Mobilfunk


Modulation (AD-PCM) kbit/s
G.728 Low Delay Code Excited Linear 16 kbit/s 3,61 30 1,25 ms ungefähr ISDN
Prediction (LD-CELP)

G.729 Conjugate Structure Algebraic 8 kbit/s 3,92 20 25 ms


Code Excited Linear Prediction
(CSA-CELP)

G.729A Conjugate Structure Algebraic 8 kbit/s 3,70 11 25 ms besser als


Code Excited Linear Prediction G.723.1
(CSA-CELP)

GSM 13 kBit/s
iLBC 15 kBit/s
Speex 2,15 - 44,2
kBit/s
LPC10 2,4 kBit/s
(Quelle: http://www.elektronik-kompendium.de/sites/net/0905121.htm)
Die Kodierung der Sprache

Ausgehend von der eben getroffenen Feststellung, dass ein rein digitales Signal die beste Qua-
lität aufweist, was gleichbedeutend mit dem MOS-Wert 5 ist, sollte die digitale Sprachübermitt-
lung ebenfalls eine sehr hohe Sprachqualität bieten. In der Tat ist dem so. Der von der ITU-T
spezifizierte und standardisierte Codec mit der Bezeichnung G.711 realisiert genau diese Um-
setzung von analoger Sprache in digitale Signale OHNE Komprimierung. Da dieser Codec die
Sprache rein auf eine 64 kBit/s breite Signalisierung umsetzt, benötigt der Datenstrom ebenfalls
eine Bandbreite von 64 kBit/s. Im Laufe der Zeit wurden in unterschiedlichen Gremien weitere
Codecs entwickelt, beschrieben und standardisiert. Stand lange Jahre die Komprimierung und
die Reduktion der erforderlichen Bandbreite im Fokus der Entwickler, so rückt endlich das ei-
gentliche Ziel, die Sprachqualität, wieder nach. Ausreichende Bandbreiten stellen wahrlich kein
ernsthaftes Problem mehr dar. Die bisher von den Kodierungsverfahren erreichte Sprachquali-
tät schon. Wenn ein Codec mit Modulationsmustern (Abtastraten) bis 8 kHz arbeitet, dann bleibt
der theoretische Bereich der menschlichen Sprache bis 20 kHz außer Acht. Das ruft die Codec-
Entwickler auf den Plan. Sie entwickelten die Breitbandcodecs, wie den G.722. Der G.722.2
wird als adaptiver Breitbandcode mit unterschiedlichen Bitraten (Adaptive Multi-rate Wideband
Speech Codec) beschrieben. Er deckt zwar auch nur ein Sprachfrequenzband zwischen 50 und
7000 Hz ab, arbeitet jedoch mit einer Abtastrate von 16 kHz. Einen Überblick über Codecs und
Kodierungen gibt die nachfolgende Tabelle.

(Quelle: Fischer, Jörg (2008): Praxisleitfaden VoIP. München)

Ein Codec codiert analoge in digitale und decodiert digitale in analoge Signale. Dabei können
gleichzeitig die anfallenden Daten komprimiert werden. Um z. B. ein Gespräch über das Internet
in ISDN-Qualität (G.711) gewährleisten zu können, wird pro Gespräch eine Bandbreite von 80–
100 kBit/s je Richtung (Up- und Downstream) benötigt. Dabei stellt der in der Datenrate be-
grenzte Upstream bei ADSL den Flaschenhals dar. In Abhängigkeit der verfügbaren Bandbreite
eines Internetanschlusses und die darüber gleichzeitig zu führenden Gespräche kann eine
Komprimierung der Sprachdaten sinnvoll sein. Daher kommen in der Praxis diverse Codecs
zum Einsatz, die auch bei geringeren Bandbreiten mehrere Gespräche gleichzeitig zulassen.
(Quelle: http://www.auerswald.de/de/deutsch.htm)