Sie sind auf Seite 1von 73

TU Dresden, Fakultat Mathematik und Naturwissenschaften, Institut f ur

Algebra.
Informationstheorie
Ausarbeitung zum Seminar
Schreiben mathematischer Texte
Bearbeiter:
Sandra Winzer Matrikel-Nr: 3396656
Dominic Hanel Matrikel-Nr: 3343358
Franziska Boitz Matrikel-Nr: 3351850
Alexander M uller Matrikel-Nr: 3265725
Betreuer:
Prof. Dr. Stefan E. Schmidt
Eingereicht am 16.06.2010
Inhaltsverzeichnis
1 Historischer Einstieg 3
1.1 Etymologie des Informationsbegris . . . . . . . . . . . . . . . 3
1.2 Informationstheorie und Computertechnik im 20. Jahrhundert 3
1.3 Historische Entwicklung der Informationstheorie (SHANNON) 4
1.3.1 Biographie Claude Elwood Shannon . . . . . . . . . . . 4
1.3.2 SHANNONs Errungenschaften in der Informationstheo-
rie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2 Informationstheorie 8
2.1 Gegenstand der Informationstheorie und Codierungstheorie . . 8
2.2 Der Begri Information und Informationsma . . . . . . . . . 9
2.3 Aufgaben und Ziele . . . . . . . . . . . . . . . . . . . . . . . . 10
3 Algebraische Grundlagen 10
3.1 Denitionen wichtiger Grundbegrie . . . . . . . . . . . . . . 10
3.2 Vektorraume . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.3 Polynome . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4 Grundlagen aus der Wahrscheinlichkeitsrechnung 17
5 Codierungstheorie 21
5.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
6 Code - Ein- und Abgrenzung 21
6.1 Denition Code . . . . . . . . . . . . . . . . . . . . . . . . . . 21
6.2 Redundanz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
6.3 Wichtige Codes . . . . . . . . . . . . . . . . . . . . . . . . . . 22
7 Ezienz eines Codierers 23
8 Vorstellung einiger Codes 25
8.1 Einordnung der Kanalcodes . . . . . . . . . . . . . . . . . . . 25
8.2 Fehlerkorrektur mit Hilfe des Hamming-Abstandes . . . . . . . 26
8.2.1 Der Hamming-Abstand . . . . . . . . . . . . . . . . . . 27
8.3 Lineare Codes . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
8.3.1 Denition . . . . . . . . . . . . . . . . . . . . . . . . . 29
8.3.2 Die Generatormatrix . . . . . . . . . . . . . . . . . . . 30
1
8.3.3 Die Kontrollmatrix . . . . . . . . . . . . . . . . . . . . 31
8.4 Zyklische Codes . . . . . . . . . . . . . . . . . . . . . . . . . . 32
8.4.1 Denition . . . . . . . . . . . . . . . . . . . . . . . . . 32
8.4.2 Darstellung als Polynome . . . . . . . . . . . . . . . . 32
8.4.3 Das Generatorpolynom . . . . . . . . . . . . . . . . . . 33
8.4.4 Codierung . . . . . . . . . . . . . . . . . . . . . . . . . 34
8.5 Anmerkung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
9 Entropie 37
9.1 Einf uhrung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
10 Verwendung von Entropie in Fachrichtungen 37
10.1 Physikalisch-chemischer Entropiebegri . . . . . . . . . . . . . 37
10.2 Entropie von Wahrscheinlichkeitsraumen . . . . . . . . . . . . 40
10.2.1 Eigenschaften der Entropie eines endlichen Wahrschein-
lichkeitsraumes . . . . . . . . . . . . . . . . . . . . . . 41
10.2.2 Eindeutigkeitssatz f ur die Entropie . . . . . . . . . . . 43
10.3 Der Entropiebegri in der Informationstheorie . . . . . . . . . 48
10.3.1 Entropie, Unsicherheit und Informationsgehalt einer
Nachricht . . . . . . . . . . . . . . . . . . . . . . . . . 49
10.3.2 Mathematische Denition der Entropie nach SHANNON 50
11 Die Satze von SHANNON 51
11.1 Der erste Satz von SHANNON . . . . . . . . . . . . . . . . . . 52
11.2 Der zweite Satz von SHANNON . . . . . . . . . . . . . . . . . 52
12 Anwendungen der Informationstheorie 54
12.1 Kryptologie - Einmalverschl usselung . . . . . . . . . . . . . . 55
12.1.1 Sicherheit . . . . . . . . . . . . . . . . . . . . . . . . . 55
12.1.2 Funktionsweise . . . . . . . . . . . . . . . . . . . . . . 56
12.1.3 Vor- und Nachteile . . . . . . . . . . . . . . . . . . . . 58
12.2 Informationstheorie in den Kognitionswissenschaften . . . . . 60
12.2.1 Symbolismus . . . . . . . . . . . . . . . . . . . . . . . 61
12.2.2 Konnektionismus . . . . . . . . . . . . . . . . . . . . . 62
12.2.3 Beispiel: Assoziativspeichermodell . . . . . . . . . . . . 63
12.2.4 Vergleich der Paradigmen . . . . . . . . . . . . . . . . 65
12.2.5 Extraterrestrische Radio ubertragungen . . . . . . . . . 66
2
1 Historischer Einstieg
1.1 Etymologie des Informationsbegris
Der Begri Information wird gegenwartig haug benutzt, jedoch lasst die-
ser Gebrauch oft den klassischen Ursprung auer Acht. Somit soll sich der
erste Abschnitt kurz mit der Herkunftsgeschichte des Informationsbegris
beschaftigen.
Im Rahmen dieser Arbeit wird die Etymologie auf wesentliche Punkte be-
schrankt. F ur eine detailliertere Ausf uhrung kann bei RAFAEL CAPURRO
(1978) nachgelesen werden. [9]
Der Informationsbegri basiert auf einem Schl usselbegri der griechischen
Philosophie. Dabei wird ein Formbegri gepragt. PLATON greift diesen
Formbegri, der die Gestalt oder das Aussehen einer Sache beschreibt, auf
und stellt sie ins Zentrum seiner Philosophie. Das heit er betrachtet die
Form als Urbild oder Idee, wobei die Form als der Materie aufgesetzt an-
gesehen wird. ARISTOTELES nimmt dies auf und bezeichnet empirische
Gegenstande als aus Materie und Form zusammengesetzt. Unser heutiger
Formbegri stammt aus der

Ubersetzung des griechischen Formbegris in
das Lateinische forma. Information nutzt der Lateiner, um die Handlung des
Formens und Gestaltens auszudr ucken. Dies geschieht auch im Zusammen-
hang von Belehrung und Unterweisung als einer Formung des Intellekts. Dem
folgt eine abstraktere Bedeutung als Vorstellung oder Begri. Das deutsche
Wort informieren stammt aus dem lateinischen Verb informare. Dabei stellt
sich eine ausschlaggebende Bedeutungs ubertragung von unterrichten zu be-
nachrichtigen heraus. Erst wurde im deutschen das Wort Bildung gegen uber
dem Wort Information vorgezogen. Somit blieb Information als neuzeitliche
Bedeutung von Information als Wissensmittlung oder Nachricht. [9]
1.2 Informationstheorie und Computertechnik im 20.
Jahrhundert
In den 30er Jahren des 20. Jahrhunderts entwickeln sich die Nachrichten-
und die Informationstheorie, womit die neuzeitlich-moderne Bedeutung von
Information als Nachricht verfestigt ist. Die mathematisierte Theorie der In-
formation geht auf Arbeiten von SHANNON, HARTLEY, WEAVER und
WIENER zur uck.
3
In der Mitte des 20. Jahrhunderts setzte eine rasante Computerentwicklung
ein, welche die nachrichtentechnische Informationstheorie stark beg unstigte.
Die Entwicklung der Computertechnik ist so grundlegend, dass hier wichtige
Abschnitte kurz genannt werden. In den 1940er Jahren entwickelte sich die
Automatentheorie und in den 1950er Jahren wurden Rechenmaschinenmo-
delle erforscht. In den sechziger und siebziger Jahren wurde ein Programm
der k unstlichen Intelligenz eingesetzt, welches menschliches Denken und Ko-
gnitionsleistungen auf einer reinen Symbolverarbeitung reduzierte. Mit der
Entwicklung von der Computersprache LISP versuchte man allgemeine Pro-
blemlosungsverfahren zu entwickeln. Heute wird das Prinzip zum Teil mit
neuronalen Netzen verbunden.
Eine Studie zum Informationsbegri entstand bereits bei ERHARD OESER
(1976). Zweifellos hat der technische Erfolg in der Informationstheorie un-
sere Gegenwart beeinusst, womit sich der charakteristische Begri des In-
formationszeitalter pragte. Wobei man heute auch von einer Wissens- oder
Bildungsgesellschaft sprechen kann. Somit sind die Begriswurzeln des latei-
nischen Wortes information als Information bzw. Bildung in gewissem Sinne
zusammenf uhrbar. [9]
1.3 Historische Entwicklung der Informationstheorie
(SHANNON)
Die moderne Informationstheorie hat sich aus den Arbeiten mehrerer Wis-
senschaftler entwickelt, wobei hier HARTLEY, GABOR, KOTELNIKOW,
K

UPFM

ULLER und SHANNON genannt seien. Im Folgenden werden die


Errungenschaften von SHANNON naher beleuchtet, wobei vorangehend eine
kurze Biographie SHANNONs erfolgt.
1.3.1 Biographie Claude Elwood Shannon
Claude Elwood Shannon wurde am 30. April 1916 in Petoskey, Michigan ge-
boren und verstarb am 24. Februar 2001 in Medford, Massachusetts. Shan-
non gilt als Begr under der Informationstheorie. Er arbeitete wahrend er die
High-School besuchte als Bote f ur die Western Union (Unternehmen von
weltweitem Geldtransfer). 1932 ging er an die University of Michigan, wo
seine Schwester Catherine bereits war und im gleichen Jahr ihr Mathema-
tikstudium abschloss. Shannon begann ein Elektrotechnik- und Mathematik-
4
studium. Mit einem Abschluss in Mathematik und Elektrotechnik wechselt
er im Jahr 1936 an das Massachusetts Institute of Technology (MIT). Seine
Abschlussarbeit zum Master in Elektrotechnik schrieb er 1937 mit dem Titel
A Symbolic Analysis of Relay and Switching Circuits. Dabei benutzte er zur
Konstruktion von digitalen Schaltkreisen die Boolesche Algebra. 1940 folgte
sein Doktortitel in Mathematik mit einer Arbeit uber theoretische Genetik
(An Algebra for Theoretical Genetics). Daraufhin arbeitete er als Forscher
am Institute for Advanced Study in Princeton, wobei er bald als Mathema-
tiker zu AT+T (nordamerikanischer Telekommunikationskonzern) Bell Labs
(Teil der Forschungs- und Entwicklungsabteilung von Alcatel-Lucent) wech-
selte. [20]
1958 ging er an das MIT, wobei er bereits seit 1956 dort eine Gastprofessur
aufgenommen hat. 1978 wurde er vom MIT emeritiert. Als Berater bei den
Bell Labs fungierte er bis 1972. Des Weiteren veroentlichte er einen Artikel
zum Thema Communication in the presence of noise, wo er die Darstel-
lung frequenzbeschrankter Funktionen betrachtet. Den Artikel uber formale
Grundlagen der Kryptographie Communication Theory of Secrecy Systems
veroentlichte er 1949. [20]
Shannon war kreativ und vielseitig interessiert. Dies zeigte sich in der Ent-
wicklung der folgenden Produkte: eine Jonglier-Maschine, raketengetriebe-
ne Frisbees, motorisierte Pogostocke, eine Maschine zum Gedankenlesen, ei-
ne mechanische Maus, die sich in Labyrinthen orientieren konnte und einen
Schachcomputer (1960). [20] Die Einheit des Informationsgehaltes einer Nach-
richt (Shannon) wurde nach ihm benannt. Des Weiteren wurde das For-
schungslabor der AT+T in Florham Park ihm zu Ehren AT+T Shannon
Laboratory benannt. [20]
Im Bereich der Booleschen Algebra hat er folgende Ergebnisse erarbeitet:
Inversionssatz sowie der Entwicklungssatz von SHANNON. [20]
1.3.2 SHANNONs Errungenschaften in der Informationstheorie
SHANNON hat die Arbeiten seiner Vorganger mathematisch untermauert
und erweitert, wobei er seine Veroentlichungen in drei Arbeiten publiziert
hat. Seine erste Arbeit war eine Erweiterung des modizierten Hartley-Gesetzes,
die auf einer geometrischen Vorstellung basierte und Folgerungen ergab. Diese
Arbeit blieb unveroentlicht. SHANNON zweite Arbeit war eine Darstellung
seiner ersten und brachte die Einf uhrung der Entropie als Ma f ur die In-
formation. Die endg ultige Arbeit stellt die ganze Theorie zusammen. Diese
5
Arbeit zur Informationstheorie war die Betrachtung des Problems, unter wel-
chen Bedingungen eine Datei, die von einem Sender kodiert wurde und die
durch einen gestorten Kommunikationskanal ubermittelt wurde, am Zielort
ohne Informationsverluste wiederhergestellt werden kann. Dabei nahm er be-
zug auf das Konzept der Entropie, welches aus der Physik bekannt ist. Der
damit gelegte Beitrag war auf dem Gebiet der Nachrichten ubertragung we-
sentlich. [11] [20]
SHANNON ging in seinen ersten beiden Arbeiten anders vor, als seine Vorlaufer.
Dabei kann man folgendes Prinzipschema einer Nachrichtenkette betrachten.
[Informationsquelle] [Sender] [verrauschterKanal] [Empfaenger] [Bestimmung]
In einer Informationsquelle entsteht eine Information. Beispiele f ur eine
solche Informationsquelle sind Fernsehbildaufnahmerohren, Mikrofone oder
eine singende oder sprechende Person. Die Nachricht setzt sich aus einer Fol-
ge von Symbolen zusammen, welche unterschiedlichen Spannungsamplituden
sein konnen. Eine chronologische Abfolge ist nicht zwingend vorausgesetzt,
sondern kann erst durch die Technik der Informationsquelle aus einer ande-
ren als zeitlicher Reihenfolge erzeugt werden. Die ubertragenen Informatio-
nen konnen auf zwei Arten entstehen. Zum einen konnen die ubertragenen
Informationen auf einer Sammlung einer endlichen Zahl diskreter Symbole
herstammen oder zum anderen aus sich fortdauernd andernden Informati-
onselementen bestehen. [11]
Die zu ubertragende Nachricht wird von der Informationsquelle zu einem
Sender geleitet. Dabei ist es wichtig die Existenz einer festgelegten Bezie-
hung zwischen der Nachricht und dem vom Sender ausgehenden Signal zu
bedenken. Dies ist immer eine Zeitfunktion. Vom Sender aus wird ein ver-
rauschter

Ubertragungskanal, der mehr oder weniger gestort ist, passiert.
Auf dessen Empfangerseite wird das Empfangssignal gebildet. Das Emp-
fangssignal kommt zum Empfanger, in dem die Dekodierung der Nachricht
aus dem gestorten Signal ausgef uhrt wird. Der sich am Ausgang bendliche
Empfanger kann ein Gerat oder eine Person sein, f ur die die Nachricht be-
stimmt ist. Der Empfanger muss charakterisiert sein, da nur Nachrichten,
die auch vom Empfanger gelesen werden konnen, auch sinnvoll zu versenden
sind. Beispielsweise muss ein Bild nicht besser ubermittelt werden, wenn
der Empfanger es qualitativ nicht besser darstellen kann. Diesem Faktor
schenkte SHANNON weniger Betrachtung, stattdessen sah er das Problem
der Nachrichten ubertragung eher als Aufgabe, die Nachricht von der Quelle
6
zum Empfanger zu bringen. [11]
SHANNON konnte auch zeigen, dass ein vom Sender gesendetes Signal der
Zeitdauer T und der Bandbreite W genau durch eine Anordnung von zwei
TW-Ziern mit einem gegenseitigen Abstand von 0,5 W Sekunden ubertragen
werden kann. Somit ist es moglich das Signal als einen Punkt in einen 2-TW-
dimensionalen Raum aufzufassen. Die TW-Ziern bzw. Koordinaten denie-
ren genau einen Punkt. SHANNON f uhrt hier eine Betrachtungsweise ein, die
es ermoglicht, geometrische Vorstellungen bei der Betrachtung von Signalen
einzusetzen und damit ubersichtliche Ergebnisse darzustellen. Da zwei TW
f ur Signale mit normalem Schwierigkeitsgrad eine sehr groe Zier ist, be-
deutet die geometrische Darstellung, dass ein einfacher Begri in einer man-
nigfaltigen Umgebung genutzt wird, um einen komplizierten Begri in einer
einfachen Umgebung darzustellen. Der Signalpunkt im mehrdimensionalen
Raum ist der einfache Begri der mannigfaltigen Umgebung. Dagegen ist
der komplizierte Begri in einer einfachen Umgebung das urspr ungliche Si-
gnal als Zeitfunktion. [11]
Eine Nachricht lasst sich immer durch eine endliche Zahl von Ziern darstel-
len, somit ist es moglich diese Zahlen als Punkte in einem mehrdimensiona-
len Raum vorzustellen. Ein Sender stellt somit die Beziehung zwischen den
Punkten des Nachrichtenraumes und denen des Signalraumes her. Shannon
zeigte auerdem, dass dem Empfanger die Aufgabe zugeschrieben wird, den
Nachrichtenpunkt auszuwahlen, der dem empfangenen Signalpunkt koordi-
niert ist. [11]
Um die Arbeit von Shannon von einer weiteren Seite zu beleuchten, sind
im nachstehenden 3 Fragen genannt, die von dieser Arbeit beantwortet wer-
den [11]:
1. Wie kann man das Geschwindigkeitsma denieren, mit dem Informa-
tionen durch eine Nachrichtenquelle erzeugt werden? Eine Grundanfor-
derung an das Ma ist die Realisierung von diskreten Symbolen und
kontinuierlich veranderlichen Symbolen. Des Weiteren muss die Wahr-
scheinlichkeitsstruktur ber ucksichtigt werden.
2. Wie viel aquivalente Zweierschritte der Nachrichten ubertragung je nach
Zeiteinheit lassen sich durch einen Nachrichtenkanal ubertragen, wenn
eine bestimmte Signalleistung, eine denierte Art und ein bestimmter
Storungspegel vorliegen?
3. Welche Codierungsmethoden lassen sich benutzen, um eine Nachricht
7
gegebenen Informationsinhalts durch einen

Ubertragungskanal gegebe-
ner Kapazitat mit der grotmoglichen Geschwindigkeit zu ubertragen,
besonders, wenn die Nachricht in ihrer urspr unglichen Form von einer
gegen uber dem Kanal verschiedenen Bandbreite ist?
2 Informationstheorie
2.1 Gegenstand der Informationstheorie und Codie-
rungstheorie
Die Informations- und Codierungstheorie unterst utzt die Beschreibung, Ana-
lyse und Bewertung informationeller Prozesse, wie zum Beispiel der Erzeu-
gung,

Ubertragung und Speicherung von Informationen. Dabei erscheint die
Information in kodierter Form, was den Zusammenhang zwischen Informations-
und Codierungstheorie zeigt. Die Informationstheorie widmet sich nur der
spezischen Seite der Information, namlich dem statistischen Aspekt. Somit
gelangt es an seine Grenzen, da es sich auf die wahrscheinlichkeitstheoretische
Verteilung der informationstragenden Elemente (z.B. Zeichen) bezieht. Daher
nennt man das Gebiet auch Statistische Informationstheorie oder SHANN-
ONsche Informationstheorie. F ur die Einbeziehung des semantischen Aspekts
(Bedeutung der Information) und des pragmatischen Aspekts (Nutzen f ur
den Informationsempfanger) ist bisher noch keine allseitige Losung gefunden.
Jedoch kann aufgrund der Einschrankung auf den statistischen Aspekt eine
mathematische Modellierung erfolgen. Somit kann die SHANNONsche Infor-
mationstheorie beispielsweise bei der

Ubertragung und Speicherung von Da-
teien eingesetzt werden (siehe auch Nachrichtenmodell im Abschnitt SHAN-
NON). [7]
Die Eektivitat bei der Informations ubertragung hangt erheblich von der
Kodierung der Information ab. Hierbei sind die folgenden zwei Aspekte zu
betrachten. Zum einen muss die Quellinformation eindeutig und rationell
in einer ubertragungsfahigen Form vorhanden sein (Quellencodierung) und
zum anderen soll sie gegen Storungen auf dem

Uberragungskanal gesch utzt
werden (Kanalcodierung). Methoden dazu liefert die Codierungstheorie. Die
Informationstheorie liefert die Moglichkeiten und Grenzen der Informati-
ons ubertragung bei einer geeigneten Codierung. [7]
8
2.2 Der Begri Information und Informationsma
Wie bereits im Abschnitt Etymologie stellen wir fest, dass es keine einheitli-
che Denition des Begries Information gibt. Beispielsweise ist es subjektiv,
ob jemand eine Vorlesung informativ oder nicht informativ fand. Also ver-
bindet man Information mit der Gewinnung von neuen Feststellungen aus
einer Quelle. Da man aus der Quelle etwas neues Erfahren mochte, liegt
eine gewisse Unbestimmtheit vor. Beispielsweise besteht die Unbestimmt-
heit beim lateinischen Alphabet (Informationsquelle) aus den verschiedenen
Auswahlmoglichkeiten der N = 27 Zeichen. Nun bestimmt der Inhalt der
Nachricht die Anordnung der Zeichen. Dies wirkt auf einen auenstehen-
den Betrachter wie ein Zufallsprozess. Mit einer konkreten Wahl beseitigt
man diese Ungewissheit uber der Angelegenheit. Daher stammt die vertrau-
te Ausf uhrung: Information ist beseitigte Unbestimmtheit. [7]
Um einen Ansatz zur quantitativen Beschreibung von Informationsprozessen
zu gewinnen, muss man das Ma dieser Unbestimmtheit als entsprechenden
Ausdruck der Informationsmenge ermitteln. [7]
Im Folgenden wird ein Ansatz, der auf HARTLAY zur uckgeht und von
SHANNON ausgebaut wurde, erwahnt. In einer Menge X = x
1
, x
2
, . . . , x
N

soll das Ereignis x


i
mit der Wahrscheinlichkeit p(x
i
) f ur i = (1, 2, . . . , N)
auftreten. Beispielsweise kann das Ereignis die Wahl eines Buchstabens des
lateinischen Alphabets sein. Das Ma H
i
f ur die Unbestimmtheit uber das
Ereignis x
i
ist der reziproke Wert von p(x
i
). Daraus folgt, dass je groer p(x
i
)
ist, H
i
umso kleiner wird (und umgekehrt). Damit ist auch gegeben, dass das
sicherer Ereignis p(x
i
) = 1 keine Unbestimmtheit enthalt, wenn man den
Logarithmus bildet. Man erhalt [7]:
H
i
= log
1
p(x
i
)
= log p(x
i
) (1)
Da Informationen als beseitigte Unbestimmtheit verstanden werden soll,
gelten f ur den Ausdruck Hi folgende zwei Gegebenheiten. Einerseits be-
schreibt H
i
das Ma der Unbestimmtheit, welche vor dem Auftreten von
x
i
vorhanden war und andererseits gilt der Ausdruck H
i
f ur das Ma der
Information, die nach dem Auftreten von x
i
gewonnen wurde. Dieses Infor-
mationsma zeigt jedoch nur den statistischen Aspekt der Information auf.
9
2.3 Aufgaben und Ziele
Hauptsachliche Aufgaben und Ziele der Informations- und Codierungstheorie
nach [7] sind:
Modellmaige Beschreibung informationstheoretischer Probleme in rea-
len Informationssystemen,
Darstellung gesetzmaiger Zusammenhange und Berechnung spezieller
Kenngroen, um die Leistungsfahigkeit von Informationssystemen zu
erkennen sowie bestimmte Parameter optimal abzustimmen,
Entwurf und Bewertung von Codes bez uglich vorgegebener Kriterien,
z.B. minimale Codewortlangen (Quellencodierung) oder hohe Storsicherheit
(Kanalcodierung). Ziel ist eine nahezu fehlerfreie Dekodierung bei op-
timalen Codeparametern.
3 Algebraische Grundlagen
Im Abschnitt der Algebraischen Grundlagen werden einige Begrie, welche
in der algebraischen Codierungstheorie genutzt werden, aufgezeigt. Dies soll
einen kurzen Einblick geben und ist somit nicht vollstandig.
3.1 Denitionen wichtiger Grundbegrie
G, heit Gruppe, falls folgende Axiome gelten [23]:
1. (Assoziativgesetz)
F ur alle x, y, z G gilt: (x y) z = x (y z).
2. (Neutrales Element)
Es gibt genau ein Element 0 G mit 0 x = x 0 = x f ur alle x G.
3. (Inverse Elemente)
Zu jedem x G gibt es genau ein inverses Element y G mit x y =
y x = 0.
Die Gruppe G heit kommutativ bzw. abelsch, wenn zusatzlich gilt:
F ur alle x, y G gilt: x y = y x (Kommutativgesetz)
(R, +, ) heit Ring, falls folgende Axiome gelten [23]:
10
1. (R, +) ist eine kommutative Gruppe.
2. (Assoziativgesetz f ur )
F ur alle x, y, z R gilt: (xy)z = x(yz)
3. (Distributivgesetze)
F ur alle x, y, z R gilt: x(y + z) = xy + xz, (x + y)z = xz + yz
Existiert bez uglich ein neutrales Element, heit er Ring mit Einsele-
ment.
Ist kommutativ, heit der Ring kommutativ.
Ein kommutativer Ring mit Einselement , indem extra f ur jedes Element
x R 0 ein inverses Element bez uglich der Operation existiert, heit
Korper.
K = (K, +, ) heit Korper, falls gilt [23]:
1. (K, +) ist eine abelsche Gruppe.
2. (K 0 , , +) ist eine abelsche Gruppe.
3. F ur alle x, y, z K gilt: x(y + z) = xy + xz.
3.2 Vektorraume
Im Folgenden ist ein Ring stets assoziativ mit Einselement und ein Korper
ist stets kommutativ.
Ein Vektorraum (V, +, ) wird deniert: Es seien V eine kommutative,
addidive Gruppe mit neutralem Element 0. Deren Elemente heien V ektoren.
Des Weiteren sei F ein Korper, dessen Elemente Skalare heien. Auerdem
sei eine Multiplikation F V V ; (, x) x gegeben, die somit jedem
Skalar F und jedem Vektor x V einen Vektor x V zuordnet.
Die Gruppe V wird Vektorraum uber F (oder F-Vektorraum) genannt, wenn
f ur alle Skalare , F und allen Vektoren x, y V die folgenden Gesetze
gelten [3]:
1. (x + y) = x + y,
11
2. ( x) = ( ) x,
3. ( + ) x = x + x,
4. 1 x = x.
Eine Teilmenge U eines Vektorraumes V uber F heit Untervektorraum
von V , falls gilt [3]
1. 0 U,
2. Aus x, y U folgt x + y U,
3. Aus F und x U folgt x U.
Der Nullraum 0 und der ganze Vektrraum V sind trivialerweise Unter-
vektorraume von V. Des Weiteren ist der mengentheoretische Durchschnitt
uber ein nichtleeres System von Untervektorraumen von V immer wieder ein
Untervektorraum von V . Mit U(V ) wird das System aller Untervektorraume
von V bezeichnet.
Der von einer Teilmenge S V erzeugte Untervektorraum S von V wird
als Durchschnitt
S :=
SUU(V )
U (2)
uber alle Untervektorraume U von V, die die Menge S beinhalten, de-
niert.
Sei S U eine Teilmenge eines Untervektorraumes U U(V ). Diese Teil-
menge heit Erzeugendensystem von U, wenn S = U gilt. Somit besteht
der von einer Teilmenge S V erzeugte Untervektorraum S aus allen Li-
nearkonbinationen von Vektoren aus S:
S =

i=1

i
s
i
; n N
0
,
1
,
2
, . . . ,
n
F, s
1
, s
2
, . . . , s
n
S

(3)
Eine Teilmenge S V heit linear abhangig, falls es eine echte Teil-
menge R ,= S mit R = S gibt. Ansonsten wird S linear abhangig
genannt. Die leere Menge ist linear unabhangig. Betrachtet man eine ein-
elementige Teilmenge x V , ist diese genau dann linear unabhangig, falls
12
x ,= 0 gilt. Eine zweielementige Menge x, y V ist somit genau dann linear
abhangig, falls x ,= 0 oder falls ein Skalar F mit y = x existiert.
Allgemein gilt: Eine Teilmenge S V ist genau dann linear abhangig, falls
es eine endliche Anzahl n 1 verschiedener Vektoren s
1
, s
2
, . . . , s
n
S und
n Skalare
1
,
2
, . . . ,
n
F( ,= 0) gibt, mit
n

i=1

i
s
i
= 0 (4)
Es sei U U(V ) ein Untervektorraum eines F-Vektorraumes V . Eine Ba-
sis von U ist ein linear unabhangiges Erzeugendensystem B U. Die Basen
von U sind somit die minimalen Erzeugendensysteme von U. Um zu zeigen,
dass die Basen von U genau die maximalen linear unabhangigen Teilmengen
von U sind, nutzt man den Austauschsatz von STEINITZ.
Des Weiteren lasst sich jede Basis von U zu einer Basis von V erganzen. Um
diesen Basiserganzungssatz zu beweisen nutzt man das Lemma von ZORN.
Damit besitzt jeder Vektorraum eine Basis.
Die Denition der Dimension ist sinnvoll, da alle Basen von U aus gleich
vielen Elementen bestehen, das heit, sie sind gleichmachtig. Dabei beschreibt
die Kardinalzahl einer Basis des F-Vektorraumes V die Dimension von V .
Diese wird mit dimV bezeichnet.
Seien V und W zwei Vektorraume uber demselben Korper F. Wir be-
trachten eine Abbildung : V W. Diese Abbildung heit linear, wenn
sie ein Homomorphismus der additiven Gruppe von V ist. Somit muss gelten:
(x + y) = (x) + (y) (5)
( x) = (x) (6)
(x, y V und F)
Als Kern von wird der folgende Untervektorraum von V bezeichnet:
Ker() := x V ; (x) = 0 (7)
13
Das Bild von wird der folgende Untervektorraum von W bezeichnet:
(V ) := (x); x V (8)
Es gilt der Dimensionssatz:
dimV = dimKer() + dim(V ) (9)
Betrachtet man zwei F-Vektorraume der gleichen Dimension, sind diese
stets isomorph. Falls wir einen n-dimensionalen Vektorraum V betrachten,
so konnen wir diesen mit dem Vektorraum V
n
(F) = F
n
aller n-Tupel x =
x
1
, x
2
, . . . , x
n
) identizieren. Als Grundlage kann man die Standard-Basis
E
n
:= (e
n
1
, e
n
n
, . . . , e
n
n
) nehmen. Diese Standard-Einheitsvektoren e
n
i
werden
f ur i = 1, 2, . . . , n mit Hilfe des KRONECKER-Symbols e
n
i
:= (
i,1
,
i,2
, . . . ,
i,n
)
deniert.
Nun mochten wir die Begrie Monomorphismus, Epimorphismus (Isomor-
phismus), Endomorphismus und Automorphismus naher beleuchten. Vorher
sei gesagt, dass der Homomorphismus eine strukturerhaltende Abbildung ist.
Nun betrachten wir eine lineare Abbildung : V W. Diese ist genau
dann ein Monomorphismus ( eine injektive lineare Abbildung), wenn der
Kern von nur aus dem Nullvektor V besteht. Dual dazu betrachten wir
den Epimorphismus, d. h. einen surjektiven Homomorphismus. Eine linea-
re Abbildung eines Vektorraumes in sich heit Endomorphismus. Und ein
bijektiver Endomorphis wird Automorphismus genannt.
Bei der Betrachtung von Determinanten wird der Umgang von Deter-
minanten quadratischer Matrizen als vertraut angenommen. Die Determi-
nantenabbildung hat die Form:
det : M
nn
(F) F; det (10)
Die Abbildung ist multiplikativ, d.h.: f ur alle , M
nn
(F) gilt det(
) = det det. In diesem Sinne kann man die Determantenabbildung auch
als Abbildung von End(V
n
(F)) auf F interpretieren. Somit denieren wir f ur
End(V
n
(F)) die Determinante von unabhangig ihrer Basis von V
n
(F),
14
als die Determinante einer ihrer Abbildungsmatrizen : det := det. Von
Null verschieden ist die Determinante det, falls es eine lineare Bijektion ist.
Die folgenden Determinanteneigenschaften sind n utzlich bei der Berechnung
[3]:
1. Das Vertauschen zweier Zeilen der zweier Spalten der Matrix bewirkt
einen Vorzeichenwechsel der Determinante.
2. Nach Multiplikation einer Zeile oder einer Spalte mit einem Skalar
F ver--facht sich der Wert der Determinante.
3. Die Addition eines skalaren Vielfachen einer Zeile bzw. einer Spalte zuz
einer anderen Zeile bzw. Spalte andert die Determinante nicht.
3.3 Polynome
Sei F ein Korper und sei F
[N
0
]
der F-Vektorraum aller Folgen (a
i
; i N
0
).
Zunachst denierten wir das Monom
z
i
:= (
i,0
,
i,1
,
i,2
. . . .). (11)
Das beschreibt diejenige Folge aus F [z], die an der Positionsnummer
i N
o
die Komponente
i,i
= 1 und an allen anderen Positionen die 0 be-
sitzt. Die Menge z
i
; i N
0
all dieser Monome ist die Standard-Basis des
Vektorraumes F [z]. Des Weiteren heit f ur jede von der Nullfolge verschie-
dene Folge a = (a
i
; i N
0
) F [z] derjenige Index n N
0
, f ur den a
n
,= 0
und a
i
= 0 i > n gilt, der Grad von dega := n. [3]
Somit ist es moglich jede Folge von a = (a
i
; i N
0
) F [z]vom Grad
dega = n eindeutig als Linearkombination
a =
n

i=0
a
i
z
i
(12)
der Monome der Standard-Basis von F [z] zu schreiben.
15
Polynome werden als Liniearkombinationen der Monome der Standard-
Basis geschrieben und bestehen aus Vektoren aus F [z]. Bei konstanten Poly-
nomen az
0
= (a, 0, 0, . . .) schreibt man a := az
0
und setzt das Korperelement
a F ein. Polynome vom Grad 1 nennt man lineare Polynome und
schreibt statt z
1
verk urzt z.
Monome lassen sich multiplizieren, indem man f ur zwei ganze Zahlen
i, j 0 das Produkt der Monome z
i
und z
j
wiefolgt bildet:
z
i
z
j
:= z
i+j
. (13)
Die Multiplikation von zwei Polynomen a(z) =

n
i=0
a
i
z
i
und b(z) =

m
j=0
b
j
z
j
ist ihr Produkt
a(z) b(z) :=
n

i=o
m

j=0
a
i
b
j
z
i+j
. (14)
Bez uglich der Addition und der Multiplikation von Polynomen bildet
F [z] einen Ring (Polynomring uber F). Des weiteren ist F [z] bez uglich der
Vektorraum- und Ringstruktur eine F-Algebra. Betrachtet man je zwei Po-
lynome a(z), b(z) F [z] gilt f ur den Grad die folgende Formel:
dega(z) b(z) = dega(z) + degb(z). (15)
Somit gilt f ur je zwei Polynome a(z), b(z), die vom Nullpolynom 0 ver-
schieden sind immer a(z) b(z) ,= 0.
Sei x ein Ringelement, welches wir in das Polynom einsetzen. F ur jedes
x R ist die Abbildung deniert:

x
: F [z] R; a(z) =
n

i=0
a
i
z
i
[a(z)]
z=x
:=
n

i=0
a
i
x
i
(16)
Diese Abbildung ordnet jedem Polynom den Wert der Polynomfunktion
R R; x a(x) an der Stelle x R zu. Genannt wird dieser Ring-
Homomorphismus Einsetzungshomomorphismus. x R wird Nullstelle von
a(z) genannt, falls die zu a(z) gehorige Polynomfunktion an der Stelle x den
Wert 0 annimmt (verschwindet): a [z]
z=x
= 0.
16
4 Grundlagen aus der Wahrscheinlichkeitsrech-
nung
Im Folgenden werden die Begrie des Ereignisses und der Ereignisalgebra
eingef uhrt. Daraus wird auf die Mengenalgebra ubergeleitet und das Kol-
mogorosche Axiomensystem der Wahrscheinlichkeitsrechnung aufgef uhrt.
[Henze, S.5]
Es sei ein Versuch gegeben, dessen moglichen Ausgange vom Zufall abhangen.
Dabei werden nur einfache mit endlichen, abzahlbar undendlichen oder uberabzahlbar
vielen Versuchsausgangen betrachtet. Solche Elementarereignissen ordnet man
ein Element einer (Elementar-)Ereignismenge zu. Jede Teilmenge A die-
ser Ereignismenge (A ) heit Ereignis. Somit besteht A aus der Ge-
samtheit der Elementarereignissen , die in A liegen [4]:
A = [ A (17)
Aus den Ereignissen A
1
, A
2
, . . . , A
i
, . . .wird ein Ereignissystem E gebil-
det. Dies ist eine Teilmenge der Potenzmenge von . [4]
Im nachstehenden werden Vereinigung, Durchschnitt und Dierenz von Er-
eignissen aufgezeigt.
1. Die Vereinigung A
i
A
k
ist das Ereignis, welches aus allen Elementarereignissen, die in A
i
und
/ oder A
k
vorkommen, besteht.
2. Der Durchschnitt A
i
A
k
= A
i
A
k
ist das Ereignis, welches aus allen Elementarereignissen, die in A
i
und
A
k
vorkommen, besteht.
3. Die Dierenz A
i
- A
k
ist das Ereignis, welches aus allen Elementarereignissen, die zu A
i
, aber
nicht zu A
k
vorkommen, besteht.
Das sogennante leere Ereignis oder unmogliche Ereignis enthalt kein
Elementarereignis und wird mit bezeichnet.
17
Die Ereignismenge wird als sicheres Ereignis bezeichnet.
Im Folgenden werden die Begrie Ereignis und Menge als synonym ange-
sehen, da der Satz von STONE (Jede Ereignisalgebra lasst sich einer Men-
genalgebra isomorph zuordnen) gilt. [4]
Gegeben sei nun ein System B von Teilmengen der Menge (Basismenge) .
B = B

heit eine - Algebra uber , wenn


1. B,
2. A B A =

A B,
3. A
i

1
, A
i
Bi

i=1
A
i
B.
Jetzt f uhren wir den Begri der Wahrscheinlichkeit mit Hilfe des Kol-
mogoroschen Axiomensystem ein.
B sei eine - Algebra uber . Des Weiteren sei f ur alle AB eine reelle Zahl
P(A) erklart. Dies ist die Wahrtscheinlichkeit des Ereignisses A (oder das
Wahrscheinlichkeitsma von A), welches die folgenden Bedingungen erf ullt:
1. P(A) 0
2. P() = 1
3. A
i
Bi; A
i
A
k
= , i ,= k; A =
i
A
i
P(A) =

i
P(A
i
)( Additi-
vitat von P)
Somit konnen wir einen Wahrscheinlichkeitsraum als Tripel (, B, P) be-
schreiben, wobei die Basismenge, B die - Algebra und P das Wahr-
scheinlichkeitsma ist. Ein endlicher Wahrscheinlichkeitsraum liegt vor, falls
die Anzahl der Ereignisse von B endlich sind.
Des Weiteren wird eine abzahlbare Menge von Ereignissen A
i
[ A
i
B ein
vollstandiges Ereignissystem genannt, falls
A
i
A
k
= , i ,= k (18)
Somit schlieen sich die Ereignisse voneinander aus und f ur das Ereignis
A =
i
A
i
=

i
A
i
gilt
18
P(A) = 1. (19)
Bei praktischen Aufgaben treten primar bedingte Wahrscheinlichkeiten
auf. Die bedingte Wahrscheinlichkeit f ur das Ereignis A B unter der Bedi-
nung, dass das Ereignis B B (mit P(B) 0) eintritt, wird wiefolgt deniert:
P(A[B) = P(AB)/P(B). (20)
Nun betrachten wir die vollstandige Wahrscheinlichkeit. Sei ein vollstandiges
Ereignissystem A
i
mit
A
i
A
k
= (i ,= k);
i
A
i
= ; P(A
i
) > 0i (21)
gegeben, so gilt f ur jedes Ereignis B B
B = B =
i
BA
i
. (22)
Somit tritt B immer mit einem der untereinander unvereinbaren Ereig-
nisse A
i
ein und damit gilt der Satz der vollstandigen Wahrscheinlichkeit:
P(B) =

i
P(BA
i
) =

i
P(B[A
i
)P(A
i
). (23)
Nun werden die Begrie Zufallsvariable, Verteilungs- und Dichtefunktion
eingef uhrt.
Sei eine Ereignismenge und ihre Elementarereignisse. Weiter sei B eine
- Algebra uber . Eine reelle Funktion = () der Elementarereignisse
heit Zufallsvariable, falls f ur jede Borel-mebare Menge A

die Menge der


Urbildereignisse A

= [() A

zu B gehort. Wobei A

eine Menge
von Werten ist. Somit wird deniert:
P( A

) = P(A

). (24)
Bei der Durchf uhrung eines Experiments mit einem bestimmten Ausgang
erhalt man die Realisierung
19
x = () (25)
der Zufallsvariable .
Damit lasst sich die Verteilungsfunktion wiefolgt denieren: Sei =
() eine Zufallsvariable auf (, B, P); dann heit die Funktion
F(x) = P( < x) = P([() < x) (26)
die Verteilungsfunktion der Zufallsvariablen . Die Funktion ist mono-
ton, nichtfallend und von links stetig. Sie besitzt hochstens abzahlbar viele
Sprungstellen. Es gelten
F() = 0, F() = 1. (27)
Falls die Verteilungsfunktion F(x) einer Zufallsvariablen dierenzierbar
ist, so ist die Ableitung
f(x) =
d
dx
F(x) (28)
die Wahrscheinlichkeitsdichte der Zufallsvariablen . Die Ableitung kann
als Wahrscheinlichkeit interpretiert werden, dass die Zufallsvariable im in-
nitesimalen Intervall [x, x+dx) liegt.
Man deniert den Erwartungswert der Zufallsvariablen durch
E() =

xdF(x) =

xf(x)dx (29)
Der Erwartungswert existiert genau dann, wenn gilt:

[x[dF(x) < (30)


Die Varianz (bzw. Streuung) wird deniert durch
D
2
() = E( E())
2
=

(x E())
2
dF(x) = E(
2
) (E())
2
. (31)
20
5 Codierungstheorie
5.1 Einleitung
Nicht nur heute, sondern auch fr uher wurden Informationen codiert. Schon
die alten

Agypter codierten 3000 v. Chr. Texte, um sie vor anderen geheim
zu halten. Die Caesar-Verschl usselungsmethode codierte ihre Texte durch
Weiterr ucken des Alphabetes f ur den gew unschten Text. Ab 1949 endete die
Phase der Geheimhaltung der Verschl usselungstechniken durch Claude Shan-
nons veroentlichen Artikel Communication Theory of Secrecy Systems. Ab
diesem Zeitpunkt wurde die Verschl usselungstechnik oder Kryptographie f ur
die Wissenschaft geonet und erhielt eine mathematische Pragung. Die Co-
dierung einer Information in der Technik lauft nach ahnlichen Schemata ab,
wie die Verschl usselung von Informationen. Man kann sagen, die Codierungs-
theorie ging zu groen Teilen aus der Kryptographie hervor, denn diese macht
auch nichts anderes, als eine gegebene Information in eine andere umzuwan-
deln, mit dem Unterschied, dass in der Elektronik vor allem die Codes aus 0
und 1 oder Spannung oder nicht Spannung bestehen. Die Codierungstheorie
beruht darauf, dass Texte, Zeichen oder andere Informationen in ein elektro-
nisches oder anderes Datentransfernetz, dem so genannten Kanal ubersetzt
werden m ussen, um von einem Empfanger wieder r uck ubersetzt werden zu
konnen.
Quelle Kanal Empfanger
Die

Ubertragung einer Information in einen Kanal erfolgt mit Hilfe eines
Codierers. Jeder Codierer benotigt einen zugrunde liegenden Code, um die
Information zu codieren. Doch was bedeutet ein Code im mathematischen
Sinne? Wie kann ein Text ezient codiert werden und wie funktionieren
einfache Kanalcodierer? Mit diesen Themen beschaftigen sich die nachsten
Seiten.
6 Code - Ein- und Abgrenzung
6.1 Denition Code
Ein Code uber den Alphabeten A und B ist eine eindeutige Abbildung
f : A B. Sie ordnet eindeutig Worter aus dem Alphabet A Worter aus
21
dem Alphabet B zu. Ein Code ist entzierbar, wenn es eine Umkehrabbil-
dung f
1
: B A gibt, die jedem Codewort aus dem Alphabet B ein Wort
aus dem Alphabet A zuordnet.
[21]
6.2 Redundanz
Redundanz bezeichnet einen Zustand von

Uberschneidung oder

Uberuss.
Ein Code kann so funktionieren, dass er Informationen in uber ussige Sym-
bole codiert. Auerdem f uhrt jede vorhersagbare Stelle in einem Code zu
Redundanz.

Uber ussige oder vorhersagbare Zeichen sollen moglichst nicht
oder mit geringen Aufwand codiert werden, um moglichst ezient zu arbei-
ten. Zum Beispiel kommt im Deutschen der Buchstabe q nicht gefolgt von
einem u aus. D.h. man konnte diesen Buchstaben ohne weiteres entfernen
und konnte trotzdem das Wort eindeutig identizieren. Redundanz hilft vor
Datenverlust und hilft bei der Fehlererkennung. Oft werden aber bei der
Codierung weitere Zeichen, so genannte redundante Stellen hinzugef ugt, um
Fehler bei der

Ubertragung festzustellen und zu berichtigen. Codes, die Feh-
ler erkennen, werden error detecting codes und Codes, die Fehler berichtigen
konnen, werden error correcting codes genannt. Diese Codes liefern dement-
sprechend eine Sicherung gegen Fehler in der

Ubertragung und damit auch
einer Sicherung gegen Informationsverfalschung.
6.3 Wichtige Codes
Die wichtigsten Codes, die in der Technik genutzt werden, sind zum einen
der ASCII, der alle Buchstaben, Satzzeichen und weitere Symbole des engli-
schen Alphabetes darstellen kann. Dieser wird jeweils aus 7Bit (Zeichen) pro
Symbol aufgestellt. Heute ist dieser durch den Uni-Code erweitert worden,
welcher alle Zeichensysteme auf dem Computer darstellen kann. Zunachst
wurde daf ur ein 17Bit-Code eingef uhrt, welcher spater durch weitere Ein-
teilung in 17 Bereiche erweitert wurde. In der Speicherung von Buchcodes
kommt der ISBN-Code zur Anwendung. Der ISSN-Code dient der eindeutigen
Identizierung von Zeitschriften und Magazinen. In der Luftfahrt kommen
auerdem noch die IATA-Codes zum Einsatz. Es gibt noch eine groe Anzahl
weiterer Codes, die f ur verschiedene Anwendungen genutzt werden.
22
7 Ezienz eines Codierers
Die Schnelligkeit einer

Ubertragung einer Information beruht zu einem groen
Teil auf der Schnelligkeit der Signal ubertragung im Kanal. Damit dieser so
wenig wie moglich Informationen zu ubermitteln hat, muss des Codierer eine
Information auf k urzeste Weise codieren. Der Codierer ist eine deterministi-
sche Vorrichtung, die eine Nachricht in eine andere Nachricht umwandelt.
Die neue Nachricht wird meistens in anderen Symbolen dargestellt. Die Um-
formungen sind reversibel( [13, S.29f]).
Ein reversibler Codierer formt Nachrichten in eineindeutiger Weise in ver-
schl usselte Nachrichten um. Die verschl usselte Nachricht enthalt den gleichen
Informationswert, wie die Ausgangsnachricht.
Wenn ein Symbol ubertragen wird, so muss die

Ubertragungsgeschwindigkeit
nicht f ur jedes Symbol gleich schnell sein, denn nicht jedes Symbol wird gleich
oft benutzt. Wir denken dabei an das Q im Deutschen im Vergleich zum N.
W urde man jedes Symbol einzeln ubertragen, so ware die Signal ubertragung
viel zu langsam. Der Codierer hat die Aufgabe, den Text so umzuformen, dass
er weniger Symbole f ur die eineindeutige Umwandlung benotigt. Es stellt sich
die Frage, wie das erreicht werden kann.
Die

Uberlegungen sollen an einem Beispiel erlautert werden:
Beispiel:
Folgender Text soll g unstig codiert werden:
ABAAABAAAAAAAA
F ur einen Text tritt der Buchstabe A mit einer Wahrscheinlichkeit von 0,9
und der Buchstabe B mit einer Wahrscheinlichkeit von 0,1 auf. Der Codie-
rer ubertragt 60 Zeichen in einer Minute. Ziel der

Uberlegung ist es, mit
so wenig wie moglich Symbolen den Text zu codieren, so dass eine schnelle

Ubertragung gewahrleistet werden kann.


Der einfachste Codierer ubertragt jeden einzelnen Buchstaben in eine Zif-
fer:
Buchstaben Wahrscheinlichkeit Ziern Gewichtete Anzahl
der Ziern
A 0,9 0 0,9
B 0,1 1 0,1
23
Die Summe der gewichteten Anzahlbetragt 1 Zier pro Buchstabe und 60
Ziern pro Minute. Der Text wird folgendermaen codiert:
A B A A A B A A A A A A A A
0 1 0 0 0 1 0 0 0 0 0 0 0 0
F ur die

Ubertragung werden 14 Ziern benotigt.
Eine Verbesserung der

Ubertragung kann dadurch erhalten werden, indem
man jeweils zwei Buchstaben zusammenf ugt und f ur diese die Wahrschein-
lichkeit bestimmt:
Buchstaben Wahrscheinlichkeit Ziern Gewichtete Anzahl
der Ziern
AA 0,81 0 0,81
AB 0,09 10 0,18
BA 0,09 110 0,27
BB 0,01 111 0,03
Die Summe der gewichteten Anzahl betragt 1,29. D.h. die mittlere Lange
eines Ziernblockes betragt 1,29. Der Codierer sendet 0,645 Ziern pro Buch-
stabe. F ur den Text ergibt sich:
AB AA AB AA AA AA AA
10 0 10 0 0 0 0
F ur die

Ubertragung werden 9 Ziern benotig. Nach dieser Methode kann
solange fortgefahren werden, bis ein Quellcodierer einen Text so mit Ziern
reduziert hat, dass er in einer bestimmten Zeiteinheit gleich oder weniger
Symbole erzeugt, wie der Kanal in der gleichen Zeit versenden kann. Das
Codierungstheorem erklart diesen Zusammenhang wie folgt:
Codierungstheorem
Gegeben sind ein Kanal und eine Nachrichtenquelle, die mit einer kleineren
Geschwindigkeit als die Kanalkapazitat Informationen erzeugt. Man kann
immer einen Codierer nden, der die Nachrichtenquelle in geeigneter Weise
codiert, so dass er durch den Kanal ubertragen werden kann.
Man ndet also immer einen Codierer, mit denen man einen Quelltext durch
einen Kanal versenden kann.
Zusammengefasst bedeutet dies, dass je hauger ein Zeichen versendet wird,
desto geringer sollte der Aufwand sein dieses zu verarbeiten und je seltener
24
ein Zeichen auftritt, desto groer kann der Aufwand sein dieses zu verar-
beiten, dadurch wird erreicht, dass der Kanal ezient mit einer geringen
Anzahl von Symbolen, aber gleichem Informationsgehalt eektiv die Infor-
mation ubertragen kann.
8 Vorstellung einiger Codes
Wie man aus der Denition f ur einen Code erkennt, handelt es sich bei der
Codierung um eine Abbildung f : A B.Wie wir im letzten Kapitel ge-
sehen haben, wird bei der Codierung einer Information in der Quelle eine
moglichst redundanzarme Darstellung angestrebt. F ur die Kanalcodierung
werden jedoch f ur viele Codes redundante Stellen hinzugef ugt, um die im
zweiten Shannonschen Codierungstheorem besagte Restfehlerwahrscheinlich-
keit klein zu halten. Das zweite Shannonsche Codierungstheorem besagt, dass

bei der

Ubertragung uber einen gestorten Kanal [...] die zu ubertragende In-
formation mit einer bestimmten Wahrscheinlichkeit verfalscht [wird]. Durch
die storungsgesch utzte [C]odierung konnen die dabei entstandenen Fehler
nicht restlos beseitigt werden, so dass die Information nach verlassen der
De[c]odierungseinrichtung noch mit einer gewissen Restfehlerwahrscheinlich-
keit [...] behaftet ist. [7, Seite 125f]
In diesem Kapitel sollen einige Kanalcodierungen vorgestellt werden. Speziell
soll es darum gehen, wie Quellcodes in Kanalcodes codiert werden und wie
deren Fehlerkorrektur ablauft.
8.1 Einordnung der Kanalcodes
Ein Ausschnitt aus der Vielfalt:
Algebraische Codes besitzen verschiedene algebraische Strukturen und ermoglichen,
wie wir kurz in Kapitel 2 gesehen haben, die Moglichkeit des verk urzten Ab-
speicherns von Daten. Eingeteilt werden die algebraischen Kanalcodes in die
binaren oder nichtbinaren Blockcodes und in die binaren, blockfreien Codes.
Ein Code ist binar, wenn er durch zwei Symbole, z.B. 0 und 1 dargestellt
werden kann. Blockcodes bestehen aus Kanalcodewortern eines Alphabetes
A mit fester Lange. Diese Codes werden in die linearen und nichtlinearen
Codes unterteilt. Wichtiger sind die linearen Codes in der Informationstheo-
25
rie. Besonders wichtig sind in diesem Fall die Hamming-Codes und die zy-
klischen Codes. Hamming-Codes werden vor allem f ur die Einfachfehlerkor-
rektur durch Rekonstruktion verwendet. Zyklische Codes werden auch zur
Einfachfehlerkorrektur genutzt, sie eignen sich aber auch zur Erkennung und
Korrektur von B undelfehlern. Sie sind besonders einfach aufgebaut und ar-
beiten ezient. Die blockfreien Codes spielen vor allem f ur den Faltungscode
eine groe Rolle. Durch Einbau einer zusatzlichen Redundanz bieten Fal-
tungscodes einen hoheren Schutz gegen

Ubertragungs- und Speicherfehlern,
auerdem wird der Informationsgehalt der einzelnen Nutzdatenstellen uber
mehrere Stellen des Codewortes verteilt, wodurch noch groere Sicherheit
garantiert werden kann. Die Einordnung der Codes ist nicht vollstandig, be-
dingt durch die groe Vielfalt der Codes.
8.2 Fehlerkorrektur mit Hilfe des Hamming-Abstandes
Mochte man einen fehlerhaften Code korrigieren, so muss zunachst eine Feh-
lererkennung durchgef uhrt werden. Die Fehlerkorrektur wird mit zwei Metho-
den angewendet. Zum einen durch Wiederholung (ARQ) und anschlieender
Entscheidungsr uckmeldung und zum weiteren durch Rekonstruktion(FEC).
Die Rekonstruktion eines Codes kann nach drei Methoden durchgef uhrt wer-
den. Zum einen mit der Maximum-Likelihood-Methode, mit Pr ufvektor oder
mit begrenzter Mindestdistanz.
Bei der Fehlerkorrektur mit Wiederholung schickt der Empfanger eines Si-
gnals das Ergebnis an den Sender zur uck. Dieser pr uft das Ergebnis und
schickt es bei Fehlern noch einmal.
26
[7, Seite 127]
Bei der Fehlerkorrektur durch Rekonstruktion werden die Fehler vom Empfanger
erkannt, sowie beseitigt.
Bei der Decodierung mit Hilfe der Maximum-Likelihood-Methode (

Ahnlich-
keitsdekodierung) wird zu einem empfangenen Vektor x zu einem Vektor c
decodiert, der mit der groten Wahrscheinlichkeit zum tatsachlich versand-
ten Codevektor c identisch ist ( [22]) Der Vektor, bei dem die wenigsten Stel-
len korrigiert werden m ussen, werden als Wahrscheinlichste angenommen,
d.h. der kleinste Hamming-Abstand besteht zwischen empfangenem und de-
codiertem Vektor. Dieser Fall wird auch als des nachstgelegenen Nachbarn
(englisch: nearest neighbor decoding) bezeichnet.
Bei der Methode mit Pr ufvektor wird ein empfangenes Signal gepr uft, ob
diese ein Codewort sind oder nicht. Eine richtige oder falsche Rekonstruk-
tion erfolgt uber den Pr ufvektor. Damit das Verfahren funktioniert, m ussen
alle moglichen Pr ufvektoren bekannt sein.
Bei der Rekonstruktion mit begrenzter Mindestdistanz wird ein Signal nur
korrigiert, wenn sich die empfangene Folge innerhalb einer Korrekturkugel
bendet.
8.2.1 Der Hamming-Abstand
Der Hamming-Abstand wurde nach dem Mathematiker Richard Wesley Ham-
ming (1915-1998) benannt. Der Abstand zweier binarer Daten mit fester
Lange kann dadurch ermittelt werden, indem man beide f ur jedes Bit ver-
gleicht und jeweils die Stelle ermittelt, die ungleich ist. Kurz ausgedr uckt
bedeutet dies:
Sei ein endliches Alphabet x = (x
1
, ..., x
n
) und y = (y
1
, ..., y
n
) aus
n
gleichlange Worter uber diesem Alphabet. Der Hamming-Abstand zwischen
x und y ist deniert als
(x, y) :=

x
i
=y
i
1 mit i = 1, ..., n
Das folgende Beispiel soll zeigen, wie der Hamming-Abstand genutzt wird.
Beispiel 1:
Ein Kanalcode A besteht aus 4 Wortern a
1
= (0011), a
2
= (1010), (a
3
=
(1100), a
4
= (1101) der Lange n = 4. Zu diesen gehort ein Quellencode B
mit b
1
= (010), b
2
= (101), (b
3
= (100) und b
4
= (011) der Lange l = 3. Der
27
Kanalcodierer transformiert dabei jeweils die Quellecodeworter in ein Kanal-
codewort.
Alphabet A = (0011), (1010), (1100), (1101)
Alphabet B = (010), (101), (100), (011)
Empfangt der Kanalcodierer das Signal a = (1010), so kann eindeutig das
Element b = (101) aus dem Alphabet B zugeordnet werden. Empfangt es
dagegen das Signal a

= (0001), so kann kein Wort aus dem Alphabet B


zugeordnet werden. Es leitet eine Korrekturmanahme ein mit Hilfe des
Hamming-Abstands:
(a
1
, a

) = 1
(a
2
, a

) = 3
(a
3
, a

) = 3
(a
4
, a

) = 2
Der Kanalcodierer sucht das Wort mit den kleinsten Hamming-Abstand und
ordnet dem fehlerhaften Wort a

das Wort a
1
zu und codiert es in das Wort
b
1
um.
Beispiel Ende
Das heit, es interessiert bez uglich der Fehlererkennbarkeit und der -korrektur
vor allem die minimale Hamming-Distanz
min
. Mochte man erreichen, dass
ein Wort a
x
immer durch ein verfalschtes Wort e
x
erkennt wird, so darf der
Hamming-Abstand niemals groer als
min
werden, da sonst e
x
nicht erkannt
wird oder sogar in ein weiteres Wort des Alphabetes A transformiert wird.
Soll der Code alle Verfalschungen erkennen konnen, so muss f ur
min
gelten:

min
= f
e
+ 1 mit f
e
...Anzahl der von Null verschiedenen Fehlerstellen
Soll auerdem der Code rekonstruiert werden konnen, so muss f ur
min
gel-
ten:

min
= 2f
k
+ 1 mit f
k
...Anzahl der verfalschten Stellen
Ist
min
geradzahlig, so gibt es eine Folge, die sich genau in der Mitte zweier
Kanalworter a
x
und a
j
bendet. Es gilt dann f ur eine korrekte Rekonstruk-
tion f ur
min
> 2fk + 1.
28
8.3 Lineare Codes
8.3.1 Denition
Eine besonders wichtige Rolle f ur die Kanalcodes stellen die linearen Codes
dar. Betrachtet wird dabei das Schema der

Ubertragung eines Quellcodewor-
tes der Lange l aus dem Alphabet A

in eine Kanalcodewort der Lange n des


Alphabetes A und der weiteren

Ubertragung in ein Empfangsfolge der Lange
l des Alphabetes A

:
Quellecode(Lange l) Kanalcode(Lange n) Empfangsfolge(Lange l)
Die linearen Blockcodes werden als

endlichdimensionale Vektorraume uber


einen endlichen Korper Vbetrachtet. Ein Code ist genau dann ein linearer
Code, falls er ein Untervektorraum C von V ist. Das heit, die Summe zweier
Codeworter aus C bildet wieder ein Codewort aus C, d.h. es gilt:
x, y C : x + y C
F ur die linearen Codes werden nur Operationen verwendet, deren algebrai-
sche Struktur eine Gruppe bildet.
Die Worter des Quellcodes sind Elemente aus der Gruppe (A, +)
l
und die
Kanalcodeworter sind Elemente aus der Gruppe (A, +)
l+k
. Das heit, die
Worter des Kanalcodes haben die Lange n = l + k. Erf ullen die Codes die
Gruppenaxiome, dann bezeichnet man die Linearcodes als Gruppencodes.
Zur vollstandigen Beschreibung des Untervektorraumes C gen ugt es die Ba-
sisvektoren zu kennen, um diesen vollstandig zu beschreiben. Die Basis kann
zum Beispiel durch die Einheitsvektoren e
i
mit i = 1 n angegeben wer-
den oder durch andere linear unabhangige Vektoren.

Alle in A enthaltenen
Vektoren werden durch die [...] Basisvektoren und samtliche Linearkombina-
tionen aus diesen gebildet. [7, Seite 144]
F ur die weitere Betrachtung wird f ur die Vektorverkn upfungsoperation die
modulo-2-Addition verwendet.
Beispiel 1:
Gegeben ist ein 7stelliges Codealphabet A mit den Kanalcodewortern:
a
1
= (1000111) a
2
= (0100110) a
3
= (0010011) a
4
= (0001101)
Weitere Kanalcodeworter lassen sich durch Linearkombination aus den Ba-
sisvektoren bilden: a
4
= a
1
+ a
2
= (1100001) a
5
= a
1
+ a
3
= (1010100)
a
6
= a
1
+ a
4
= (1001010)
29
Beispiel Ende
8.3.2 Die Generatormatrix
Mochte man eektiver sein, so stellt man die Linearcodes als Matrizen dar.
Man fasst die gebildeten Basisvektoren in einer Matrix zusammen und erhalt
die so genannte Erzeugermatrix oder Generatormatrix G:
G =

g
11
g
1n
.
.
.
.
.
.
.
.
.
g
l1
g
ln

Eine einfache Methode die Zeilen linear unabhangig anzugeben ist, in die
ersten l Spalten die Einheitsmatrix E
lxl
-Matrix zu schreiben. Dann folgt dar-
aus, dass die Zeilen linear unabhangig sind.
G =

1 0 0 0 g
1,l+1
g
1,l+2
g
1,n
0 1 0 0 g
2,l+1
g
2,l+2
g
2,n

0 0 0 1 g
l,l+1
g
l,l+2
g
l,n

Der Rang der Matrix G ist l. Diese Schreibweise gewahrleistet, dass der er-
haltene Code systematisch ist, das heit, dass die ersten Stellen des Ka-
nalcodewortes identisch zum Quellcode sind und diese durch Kontrollstellen
erweitert sind.
Beispiel 2:
Setzt man die Vektoren aus Beispiel 1 zeilenweise zu der Generatormatrix G
zusammen, so erhalt man:
G =

1 0 0 0 1 1 1
0 1 0 0 1 1 0
0 0 1 0 0 1 1
0 0 0 1 1 0 1

mit C =

1 1 1
1 1 0
0 1 1
1 0 1

Beispiel Ende
Es bleibt die Frage oen, wie man mit Hilfe der Generatormatrix G und
den Quellcodewortern a

j
die Kanalcodeworter ai erzeugt. Man erhalt die
Kanalcodeworter a
i
mit:
a
i
= a

i
G oder ausf uhrlich geschrieben
(u
i1
, u
i2
, ..., u
in
) = (u

i1
, u

i2
, ..., u

in
) G
30
8.3.3 Die Kontrollmatrix
Genauso wichtig wie die Generatormatrix G ist die Kontrollmatrix H, denn
mit groer Lange von l wird der Aufwand der Anwendung von G immer
groer. Man bestimmt aus diesem Grund aus G die Kontrollmatrix H. H bil-
det zu G einen Orthogonalraum, d.h. jeder Vektor in H ist zu jedem Vektor
in G orthogonal.
H = ()C
T
E
(nl)(nl)
F ur binare Linearcodes entfallt das Minuszeichen. Der Rang der Matrix H
ist n-l.
Auerdem gilt wegen der Orthogonalitatsbedingung: G H
T
= 0
Die Matrix H liefert eine Vorschrift zur Bildung der Kontrollstellen der Ka-
nalcodeworter. F ur die Berechnung der Kontrollelemente gilt:
u
i,l+j
= u

i,l
g
1,j
u

i,2
g
2,j
... u

i,l
g
l,j
mit j = 1, 2, ...k
Daraus ergibt sich f ur systematische Codes f ur das Kanalcodewort eine Schreib-
weise: a
i
= (u

i,1
u

i,2
...u

i,l
u
i,l+1
u
i,l+2
...u
i,l+k
)
F ur binare Linearcodes ergibt sich u
i,l+j
aus der

Summe der bitweisen


Modulo-2-Addition aus denjenigen Stellen in dem zu [c]odierenden Quel-
len[c]odewort a

i
, an deren Position in der j-ten Zeile der Kontrollmatrix H
eine 1 steht. [7, Seite 149]
Beispiel 3:
Erzeugung der Kontrollmatrix H aus G:
H =

1 1 0 1 1 0 0
1 1 1 0 0 1 0
1 0 1 1 0 0 1

Die Kontrollmatrix H wird nicht nur zur Fehlererkennung von der



Ubertragung
vom Quellcode zum Kanalcodewort genutzt, sondern auch f ur die

Uber-
tragungskontrolle vom Kanal zum Empfanger. Gilt f ur die Gleichung s =
H b
T
= 0 mit b
T
als Kanalcodewort, so ist b eine Kanalcodewort. s wird als
Syndrom von b
T
bezeichnet.
Beispiel 4:
b
1
= (1110001) b
2
= (1100001) so ergibt sich f ur die Syndrome:
s
1
= (011) s
2
= (000)
Beispiel Ende
31
Mit diesen erhaltenen Vektoren s kann nun noch Fehlerkorrektur betrieben
werden. Lineare Codes werden zum Beispiel f ur die ISBN-Codes verwendet,
sie spielen auerdem in der Codierungstheorie f ur weitere Anwendungen zum
Beispiel den Hamming-Codes oder den zyklischen Codes eine weitere wesent-
liche Rolle.
8.4 Zyklische Codes
Eine weitere wichtige Gruppe der linearen Blockcodes stellen die zyklischen
Codes dar. Sie werden vor allem in der digitalen Signalverarbeitung und
in der Nachrichtentechnik eingesetzt. Durch die einfache Handhabung der
Fehlererkennung und -korrektur haben diese vor allem f ur die BCH- und
RS-Codes eine groe Bedeutung erlangt.
8.4.1 Denition
Zyklisch bedeutet f ur diese Art von Code, dass f ur jedes Kanalcodewort
a
i
= (u
i,n1
u
i,n2
...u
i,1
u
i,0
) die zyklische Verschiebung der Elemente eines
Codewortes wieder ein g ultiges Codewort a
j
= (u
i,n2
u
i,n1
...u
i,1
u
i,0
u
i,n1
)
ergibt.
Beispiel 1:
a
i
= (01100101)
a
j
= (11001010) ist auch ein Codewort f ur einen zyklischen Code
Beispiel Ende
Auerdem gelten f ur die zyklischen Codes die Korperaxiome.
8.4.2 Darstellung als Polynome
Zyklische Codes werden zweckmaig mit dem Kanalcodewort a = (u
n1
u
n2
...u
1
u
0
)
als Koezienten eines Polynoms mit hochstmoglichen Grad n-1 dargestellt:
a(x) = u
n1
x
n1
+ u
n2
x
n2
+ ... + u
0
x
0
Die zyklische Verschiebung wird dadurch realisiert, dass das Polynom a(x)
mit x multipliziert wird und anschlieend mit x a(x)mod(x
n
1)der Rest
bestimmt wird. Der Rest der Division ergibt das verschobene Kanalcodewort:
x a
i
(x) = u
n1
x
n
+ u
n2
x
n1
+ ... + u
0
x
1
x a
i
(x)mod(x
n
1) = u
n1
Rest u
n2
x
n1
+... +u
0
x
1
u
n1
x
0
das wiederum
entspricht a
j
(x)
32
8.4.3 Das Generatorpolynom
F ur alle zyklischen Codes ist das Generatorpolynom von groer Bedeutung.
Das Generatorpolynom besteht aus dem Produkt irreduzibler Minimalpoly-
nome, die den zyklischen Code vollstandig beschreiben [7, Seite 162]
). Grundlage f ur die Bildung des Generatorpolynoms sind die so genannten
Modularpolynome. Eigenschaften der Modularpolynome sind:
(1) Sie sind irreduzibel, das heit, sie sind nicht in ein Produkt von Polyno-
men zerlegbar.
(2) Das Polynom ist primitiv, das heit, der Zyklus der Polynomreste ist
maximal.
Der Grad der Modularpolynome M(x) bestimmt somit die Kanalcodewortlange
mit k
1
= gradM(x) Der Codeparameter n bestimmt sich aus x
i
modM(x) mit
i=0,1,2,...n. F ur einen gewissen Wert p wiederholen sich die Polynomreste,
d.h.x
i
= x
i+p
modM(x).
Gilt f ur den Codeparameter n = 2
k
1
1, so ist das Polynom primitiv. In
diesem Fall ist p = n. Ist n < 2
k
1
1, so kann keine maximale Codewortlange
erreicht werden. In diesem Fall ist p < 2
k
1
1.
Besonders wichtig f ur die zyklischen Codes sind die uber dem Galois Feld
GF(2). GF(2) besteht aus der Menge 0, 1 und auf ihr ist die modulo-2-
Addition deniert.
Beispiel 2:
M
1
(x) = x
3
+ x + 1und M
2
(x) = x
3
+ 1
F ur beide Polynome betragt k
1
= gradM
1
(x) = gradM
2
(x) = 3
Daraus folgt, dass n 2
3
1 = 7 ist.
Interessanter ist die Betrachtung de Zyklen der Polynomenreste f ur beide
Polynome:
x
i
x
i
mod(x
3
+ x + 1) x
i
mod(x
3
+ 1)
x
0
1 1
x
1
x x
x
2
x
2
x
2
x
3
x + 1 1
x
4
x
2
+ x x
x
5
x
2
+ x + 1 x
2
x
6
x
2
+ 1 1
x
7
1 x
33
F ur M
1
(x) gilt damit, dass n = 7 ist und damit ist M
1
(x) primitiv. Die
Schleifenlange betragt in diesem Fall auch 7. M
2
(x) dagegen ist nicht pri-
mitiv. F ur M
2
(x) betragt die Schleifenlange n = 3. Das Codewort besteht
demnach nur aus 3 Zeichen.
Beispiel Ende
Ist der Grad des Polynoms hoch, so ist die Bestimmung der Codewortlange
aufwendiger. Eine weitere Moglichkeit bietet die Zerlegung von p in Prim-
faktoren. Ist x
p
modM(x) = 1, so ist n durch den Wert des Exponenten
bestimmt.
8.4.4 Codierung
Multiplikationsverfahren
Zur Codierung eines Quellcodewortes a

(x) wird das GeneratorpolynomM(x)


der Lange n mit a

(x) multipliziert und es entsteht das Kanalcodewort a(x):


a(x) = a

(x) M(x)
Der Grad von M(x) mit k = gradM(x) legt dabei f ur primitive Polynome
die Codelange von a(x) durch n = 2k 1 fest. Der Grad f ur a

(x) ergibt sich


damit durch grada

(x) = l 1 = n k 1. Der Grad von a

(x) kann aber


auch kleiner l-1 sein.
Beispiel 3:
Es sei ein primitives Generatorpolynom M(x) = x
3
+ x + 1 gegeben (siehe
Beispiel 2). Der Grad von M(x) ist k = 3 und damit, da M(x) primitiv ist
n = 2
3
1 = 7. D.h. die Lange der Kanalcodeworter betragt 7. Der Grad
des Polynoms f ur die Quellcodeworter ist somit 7 3 1 = 3, daraus folgt
wiederum, dass die Quellcodeworter die Lange 4 haben.
Gegeben ist das Quellcodewort a

= (1110). Es ist das Kanalcodewort a


durch Multiplikation von a

(x) mit M(x) zu bilden:


a(x) = a

(x) M(x) = (x
3
+x
2
+x) (x
3
+x+1) = x
6
+x
5
+2x
4
+2x
3
+2x
2
+x
Da wir uns im Korper GF(2) benden, erhalt man f ur a(x):
a(x) = x
6
+ x
5
+ x und damit ist a = (1100010)
Nach gleichem Schema konnen weitere Kanalcodeworter aus Quellcodewortern
a* bestimmt werden.
34
a

a
0000 0000000
0001 0001011
0010 0010110
0011 0011101
1000 1011000
1001 1010011
1110 1100010
1111 1101001
Wie man erkennt, ist dieser Code nicht systematisch. Das Divisionsverfahren
bietet eine Moglichkeit, den Code zu systematisieren.
Beispiel Ende
Divisionsverfahren Das Divisionsverfahren wird verwendet, um einen sy-
stematischen Code aus einem Quellcode mit Hilfe der zyklischen Codes zu
erzeugen. Daf ur wird die Eigenschaft genutzt, dass man einen erzeugten Code
um k redundante Stellen nach links verschiebt, um das gew unscht Codewort
zu erhalten.
Zur Codierung eines Quellcodewortes a

ist ein Generatorpolynom M(x) der


Lange n vom Grad k gegeben. Ein Kanalcodewort a entsteht durch Multipli-
kation von a

(x) mit x
k
und der anschlieenden Subtraktion eines Restpoly-
noms r(x):
a(x) = a

(x) x
k
r(x)
Dabei ist r(x) = [a

(x) x
k
]modM(x).
Das Restpolynom stellt die Belegung der Kontrollstellen in Kanalpolynom
a(x) dar. Am folgenden Beispiel soll gezeigt werden, wie sich a aus a

be-
stimmen lasst:
Beispiel 4:
Es ist das primitive Generatorpolynom M(x) = x
3
+ x + 1 gegeben. Es ist
das Quellcodewort a

= (1110) nach dem Divisionsverfahren zu codieren:


a

(x) x
3
= (x
3
+ x
2
+ x) x
3
= x
6
+ x
5
+ x
4
r(x) = [a

(x) x
3
]mod(x
3
+ x + 1) = (x
6
+ x
5
+ x
4
)mod(x
3
+ x + 1) = x
2
Daraus folgt f ur a(x):
a(x) = a

(x)x
k
r(x) = x
6
+x
5
+x
4
+x
2
daraus ergibt sich f ur a = (1110100).
Nach gleichem Schema lassen sich auch alle weiteren Quellcodeworter codie-
ren und man erhalt:
35
a

a
0000 0000000
0001 0001011
0010 0010110
0011 0011101
1000 1000101
1001 1001110
1110 1110100
1111 1111111
Dieser Code ist systematisch, denn die ersten l Stellen des Kanalcodewortes
sind identisch zu den Quellcodewortern.
Beispiel Ende
Fehlererkennung
Das Mittel zur Feststellung eines Fehlers beruht auf der Untersuchung des
Kanalcodewortes b auf eine minimale Hamming-Distanz
min
. Entsteht durch
die Storung ein Kanalcodewort, so kann man den Fehler nicht mehr erkennen.
F ur ein Kanalcodewort kann ein Fehler gefunden werden, wenn das Kanalco-
dewort b(x) kein Vielfaches von M(x) ist, dass heit, wenn b(x)modM(x) ,= 0
ist.
Beispiel 5:
Es wurde das Kanalcodewort b = (1101000) empfangen. Das Generatorpoly-
nom ist M(x) = x
3
+ x + 1. Daraus ergibt sich f ur
b(x)modM(x) = (x
6
+x
5
+x
3
)mod(x
3
+x+1) = 1 Das Ergebnis ist ungleich
0 und damit gehort b nicht zum Codealphabet A.
Beispiel Ende
36
8.5 Anmerkung
Die Codierung stellt ein weitgehendes Thema in der Informationstheorie dar.
Die letzten Seiten sollten einen kleinen Einblick in die Vielfalt der Codie-
rungstheorie gewahren. Heute wendet man die einzelnen Codes nicht einzeln
an, sondern man versucht vielmehr verschiedene Codes zu verketten, um lei-
stungsfahigere und weniger fehleranfallige Codierungen zu realisieren.
9 Entropie
9.1 Einf uhrung
Das Wort Entropie setzt sich zusammen aus dem griechischen Wortern en -
innen und trope - Umkehr und hat laut Fremdworterbuch verschiedene Be-
deutungen:
1. Die Entropie ist ein Ma f ur den Grad der Ungewissheit des Ausgangs
eines Versuchs und damit eine Groe der Wahrscheinlichkeitsrechnung.
2. Die Entropie ist eine Zustandsgroe zur Kennzeichnung des Ordnungs-
zustandes thermodynamischer Systeme, mit deren Hilfe die Richtung
des Ablaufs von Warmeprozessen angegeben werden kann [19].
3. Die Entropie ist ein Ma f ur den Informationsgehalt einer Nachricht [5].
Bereits anhand dieses Eintrages kann man sehr gut erkennen, dass das
Wort Entropie in verschiedenen Fachgebieten verwendet wird. Wir werden
sehen, dass dies durchaus sinnvoll ist, da zwar die wortlichen Denitionen
unterschiedlich sind, die mathematischen Denitionen aber durchaus inein-
ander uberf uhrbar.
10 Verwendung von Entropie in Fachrichtun-
gen
10.1 Physikalisch-chemischer Entropiebegri
In der Disziplin der Thermodynamik, welche meines Erachtens eine Disziplin
zwischen Physik und Chemie darstellt, wird Entropie als Ma f ur den Grad
37
der Unordnung eines Systems verwendet. Um dies besser greifen zu konnen,
folgt hier ein kleiner Exkurs zu abgeschlossenen Systemen, welcher sich vor
allem auf [?, 28] st utzt.
Stellen wir uns daf ur zunachst ein abgeschlossenes thermodynamisches
System, zum Beispiel einen mit Gas gef ullten Quader mit festem Volumen,
vor. Die Gasteilchen seien kugelformige Punktmassen, welche in keinerlei
Wechselwirkung zueinander treten. Sie bewegen sich mit konstanter Ge-
schwindigkeit durch den Hohlraum und rotieren dabei nicht um die eigene
Achse. Treen sie auf die Gefawand, so prallen sie von dieser ab und ie-
gen mit derselben Geschwindigkeit weiter. Dieses System aus Gasteilchen
strebt einen statistischen Gleichgewichtszustand an, das heit die Teilchen
sollen moglichst gleich im Raum verteilt sein und den grotmoglichen Ab-
stand zueinander haben. Dem Beobachter ist nun die makroskopische Ebene
der Erscheinungen dieses Prozesses zuganglich, welche er mikroskopisch in-
terpretiert:
38
1. Die Masse der Gasportion setzt sich zusammen aus allen Einzelmassen
der enthaltenen Gasteilchen.
2. Das Gesamtvolumen entspricht der Summe der Volumina der Teilchen
und des Raumes, den sie durch ihre Bewegung in Anspruch nehmen.
3. Durch das Auftreen auf die Gefawand ndet eine Impuls ubertragung
pro Flacheneineit und Zeiteinheit statt, welche als Druck messbar wird.
4. Die messbare Temperatur resultiert aus der mittleren kinetischen Ener-
gie eines Teilchens pro Freiheitsgrad.
Um aus der kinetischen Energie eines Teilchens die Temperatur zu be-
rechnen, benotigt man den Umrechnungsfaktor 0,5k mit der BOLTZMANN-
Konstante
k = 1, 38 10
38
Joule/Kelvin. (32)
Daraus folgt, dass die Warme eines Systems durch Einf uhrung der Anzahl
der Freiheitsgrade z ausgedr uckt werden kann mit
z
2
kT, (33)
wobei der Faktor z/2 k makroskopisch als spezische Warme bezeichnet
wird. Durch Zufuhr von Warme zu einem abgeschlossenen System erhoht
sich aufgrund der erhohten Geschwindigkeit der Teilchen und der damit ein-
hergehenden Stofrequenz der Druck. In diesem Zusammenhang wurde der
Begri Entropie im Jahr 1850 von CLAUSIUS eingef uhrt. Er stellte fest, dass
sich die Entropie eines Systems bei

Uberf uhrung eines Zustandes (1) in den
Zustand (2) die Entropie vermehrt. Das Dierential der dabei in das System
hineinieenden Warme bezeichnete er mit dQ un denierte die Entropiezu-
nahme mit:
S =

2
1
dQ
T
(34)
BOLTZMANN entwickelte diese Formel weiter, wobei er nach [?, 30]
zunachst folgendes festlegte: In einem abgeschlossenem Gasvolumen gibt es
m voneinander wohlunterschiedene Mikrozustande, welche mit
39
x
1
, ..., x
i
, ..., x
m
(35)
bezeichnet werden. Diesen Zustanden sind die Wahrscheinlichkeitszahlen
p((x
1
)), ..., p((x
i
)), ..., p((x
m
)) (36)
eindeutig zugeordnet. BOLTZMANN wendete dies auf die Denition der
Entropiezunahme nach CLAUSIUS an und entwickelte diese (unter Umbe-
nennung zu H) weiter zu
H = k
m

i=1
p(x
i
)ln p(x
i
). (37)
Bei Gleichverteilung der Wahrscheinlichkeiten ergibt sich daraus
H = k
m

i=1
1
m
ln
1
m
= k ln m (38)
10.2 Entropie von Wahrscheinlichkeitsraumen
Dieser Abschnitt befasst sich mit der Denition und der Verwendung des
Begris Entropie in der Wahrscheinlichkeitsrechnung. Da im Vorangegange-
nen der Wahrscheinlichkeitsraum bereits behandelt wurde, wird darauf nicht
weiter eingegangen. Vielmehr sollen die mathematischen Grundlagen f ur den
informationstheoretischen Informationsbegri gelegt werden.
Sei ein Wahrscheinlichkeitsraum A=(, B, P) mit der Ereignismenge
wie bereits im ersten Teil deniert. Zu den Elementarereignissen

1
, ...,
i
, ...,
n
(39)
seien die Wahrscheinlichkeiten
40
P(
i
) = p
i
(40)
mit
p
i
0,
n

i=1
p
i
= 1 (41)
eindeutig zugeordnet [4, 10].
Jeder Zufallsversuch, der diesem Wahrscheinlichkeitsraum zuzuordnen ist,
enthalt eine gewisse Unbestimmtheit, da sein Resultat - oenbar in Abhangigkeit
von den Eintrittswahrscheinlichkeiten der einzelnen Elementarereignisse - un-
klar ist. Als Ma f ur diese Unbestimmtheit f uhrt man nun die Entropie H ein.
Diese Unbestimmtheit ist beseitigt, sobald der Versuch durchgef uhrt wurde
und ein bestimmtes Ereignis eingetreten ist. Deniert man nun zusatzlich
eine Zufallsvariable X mit
X
i
= ld p
i
, (42)
wobei ld der Logarithmus zur Basis 2 ist, so kann man die Entropie
H des Wahrscheinlichkeitsraumes als Erwartungswert dieser Zufallsvariable
einf uhren:
H =
n

i=1
p
i
ld p
i
. (43)
Der Logarithmus zur Basis 2 wird verwendet, weil das heutige Codie-
rungssystem in der Informationstheorie und -technik auf dem Binarcode ba-
siert [4, 10].
10.2.1 Eigenschaften der Entropie eines endlichen Wahrschein-
lichkeitsraumes
Die untenstehenden Eigenschaften sind [4, S.11] entnommen und werden
hier nicht hergeleitet oder bewiesen. Herleitung und Beweise konnen der an-
gegebenen Quelle entnommen werden.
41
1. Oensichtlich ist die Entropie eines sicheren Ereignisses, also eines Er-
eignisses mit der Eintrittswahrscheinlichkeit 1, gleich Null, da hier keine
Unsicherheit uber den Versuchsausgang besteht.
2. Ebenso leuchtet ein, dass durch Hinzuf ugen unmoglicher Ereignisse zu
einem gegebenen Wahrscheinlichkeitsraum die Entropie unverandert
bleibt, da uber das Nichteintreten dieser Ereignisse Sicherheit besteht.
3. Die Entropie erreicht ihr Maximum, wenn die Wahrscheinlichkeiten
gleichverteilt sind. Zugrunde liegt die

Uberlegung, dass uber das Ein-
treten jedes Ereignisses aus der Ereignismenge dieselbe Unsicherheit
besteht.
4. Betrachten wir zwei stochastisch unabhangige Wahrscheinlichkeitsraume
A und B, so gilt f ur die Entropie ihres kartesischen Produktes:
H(A B) = H(A) + H(B). (44)
5. Sind die Wahrscheinlichkeitsraume A und B dagegen stochastisch abhangig,
ist die Entropie ihres kartesichen Produktes deniert als:
H(A B) = H(A) + H(B[A) = H(B) + H(A[B). (45)
Diese Entropie nennt man auch bedingte Entropie.
Zum besseren Verstandnis der letztgenannten Eigenschaft sei an dieser
Stelle aus [4, 14] zitiert:
Die Menge an Information, die aus der Realisierung zweier endlicher
Wahrscheinlichkeitsraume hervorgeht - aus der Durchf uhrung zweier Versu-
che auf zwei endlichen Ereignismengen - ist gleich der Information, die aus
der Kenntnis des Versuchsausganges auf einem Raum allein folgt, vermehrt
42
um die Information, die bei Kenntnis des Versuchsausganges auf dem ande-
ren Raum folgt, unter der Bedingung, dass ein beliebiges Ereignis des zuerst
betrachteten Raumes eingetreten ist.
Zusammenfassend lasst sich also sagen, dass sich bei der Betrachtung
zweier abhangiger Wahrscheinlichkeitsraume A,B die Information aus der
Realisierung von B sich unter der Bedingung der Realisierung von A nur ver-
kleinern kann, da die Unsicherheit uber das Eintreten bestimmter Ereignisse
aus B sinkt. Sind die Wahrscheinlichkeitsraume A und B dagegen unabhangig,
so ist der Informationsgehalt, der aus der Realisierung von B gewonnen wird,
immer gleich, egal ob im Vorfeld A realisiert wurde oder nicht.
10.2.2 Eindeutigkeitssatz f ur die Entropie
Die Entropie H kann als Funktion von Wahrscheinlichkeiten p1, p2, ..., pn
eines endlichen Wahrscheinlichkeitsraumes A=, B, P interpretiert werden.
Man schreibt dann
H = H(p
1
, p
2
, ..., p
n
). (46)
Der Eindeutigkeitssatz f ur die Entropie lautet wie folgt.
Sei H(p1, p2, ..., pn) eine Funktion, die f ur alle nat urlichen Zahlen nund
alle
p
i
0 mit i = 1, 2, ..., n und
n

i=1
p
i
= 1 (47)
deniert ist.
43
Besitzt diese Funktion die Eigenschaften
1. Die Funktion H(p1, p2, ..., pn) ist bez uglich aller Argumente stetig.
2. Die Funktion H(p1, p2, ..., pn) nimmt bei festem n unter der Bedingung
n

i=1
p
i
= 1 (48)
ihr Maximum f ur die Gleichverteilung pi = 1/n, i = 1, 2, ..., n an.
3. Es ist
H(A B) = H(A) + H(B[A) = H(B) + H(A[B). (49)
4. Es gilt
H(p
1
, p
2
, ..., p
n
, 0) = H(p
1
, p
2
, ..., p
n
). (50)
dann gilt mit einer positiven Konstanten
H(p
1
, p
2
, ..., p
n
) =
n

i=1
p
i
ldp
i
. (51)
(vgl. [4, 16f])
Beweis: (zitiert nach [4, 17]) Wir setzen
H(
1
n
,
1
n
, ...,
1
n
) = h(n) (52)
und erhalten mit den Eigenschaften 2 und 4
h(n) = H(
1
n
,
1
n
, ...,
1
n
, 0) H(
1
n + 1
,
1
n + 1
, ...,
1
n + 1
) = h(n + 1), (53)
also ist h(n) nicht monoton fallend in n. Seien nun k, l nat urliche Zahlen.
Wir betrachten k voneinander unabhangige Wahrscheinlichkeitsraume S1,
44
S2, ..., Sk, von denen jeder l Ereignisse gleicher Wahrscheinlichkeit besitzt,
schreiben Si auch f ur die Ereignismengen und erhalten so
S
i
= s
r
; r = 1, 2, ..., l , P(s
r
) =
1
l
(54)
und
H(S
i
) = H(
1
l
,
1
l
, ...,
1
l
) = h(l). (55)
Mit Eigenschaft 3 folgt
H(S
1
S
2
S
3
... S
k
) =
k

i=1
H(S
i
) = k h(l). (56)
Das kartesische Produkt besteht aus l hoch k Ereignissen gleicher Wahr-
scheinlichkeit, also ist die Entropie dieses Produktes gleich h(l hoch k). Wir
erhalten
h(l
k
) = k h(l) (57)
und analog f ur jedes andere Paar nat urlicher Zahlen m,n
h(m
n
) = n h(m). (58)
Wir bestimmen nun ein k so, dass f ur l,m,n
l
k
m
n
< l
k+1
. (59)
Dann gilt:
k ld l n ld m < (k + 1) ld l, (60)
k
n

ld m
ld l
<
k
n
+
1
n
. (61)
45
Mit der gezeigten Monotonie folgt sofort
h(l
k
) h(m
n
) h(l
k+1
), (62)
k h(l) n h(m) (k + 1) h(l) oder (63)
k
n

h(m)
h(l)

k
n
+
1
n
(64)
und daraus durch Subtraktion f ur beliebige n
h(m)
h(l)

ld m
ld l

1
n
. (65)
Da n beliebig gro sein darf und die linke Seite gar nicht von n abhangt,
folgt
h(m)
ld m
=
h(l)
ld l
, (66)
das heit, da m und l beliebig sind
h(n) = ld n. (67)
Wegen der oben gezeigten Monotonie ist kleinergleich 0, womit f ur pi
= 1/n die Behauptung bewiesen ist.
Wir betrachten nun den Fall, dass die pi beliebige positive, rationale Zahlen
sind. Sei also
p
i
=
g
i
g
, g = 1, 2, ..., n mit g
i
, g N und
n

i=1
g
i
= g. (68)
A sei ein endlicher Wahrscheinlichkeitsraum mit den Elementarereignis-
sen i1 und den Wahrscheinlichkeiten P(i1) = pi. B sei ein von A abhangiger
zweiter Wahrscheinlichkeitsraum, welcher g Ereignisse 12, ..., g2 enthalt,
die wir in n Gruppen zu jeweils g1, g2, ..., gn Ereignissen zusammenfassen.
Tritt nun in A das Ereignis k1 ein, so geben wir in B allen gk Ereignis-
sen der k-ten Gruppe die Wahrscheinlichkeit1/gk, wahrend alle Ereignisse
46
der anderen Gruppen die Wahrscheinlichkeit 0 erhalten. Damit ist f ur je-
des Resultat k1 1 der Wahrscheinlichkeitsraum B ein System von gk
gleichwahrscheinlichen Ereignissen. Daher ist die bedingte Entropie
H(B[
1
k
) = H(
1
g
k
, ...,
1
g
k
) = h(g
k
) = ld g
k
, (69)
das heit bei Bildung des Erwartungswertes bez uglich des Raumes A:
H(B[A) =
n

i=1
p
i
H(B[
1
i
) =
n

i=1
p
i
ld g
i
und (70)
(71)
H(A[B) =
n

i=1
p
i
ld p
i
+ ld g. (72)
Wir betrachten nun das kartesische Produkt A B, welches aus allen
Ereignissen i1,k2) mit i = 1, 2, ..., n, k = 1, 2, ..., g besteht. Ein solches
Ereignis ist nach Denition von B nur moglich, wenn k2 der i-ten Gruppe
angehort. Damit ist die Anzahl der
47
moglichen Ereignisse (i1,k2) bei festem i gleich gi. Die Anzahl aller
Ereignisse von AB ist also

i
g
i
= g. Die Wahrscheinlichkeit der Ereignisse
(i1,k2) ist oensichtlich gleich pi
1
g
i
=
1
g
, also gleichverteilt. Damit gilt
wieder
H(A B) = h(g) = ld g. (73)
Unter Ausnutzung der Eigenschaft 3 ergibt sich
H(A B) = H(B[A) + H(A), (74)
(75)
ld g =
n

i=1
p
i
ld p
i
+ ld g + H(A) (76)
und damit
H(A) =
n

i=1
p
i
ld p
i
= H(p
1
, p
2
, ..., p
n
). (77)
Dies gilt aufgrund der Stetigkeit von H(p1, p2, ..., pn) f ur beliebige, nicht-
negative pi. Damit ist der Eindeutigkeitssatz f ur die Entropie vollstandig be-
wiesen.
10.3 Der Entropiebegri in der Informationstheorie
SHANNON f uhrte in seiner Arbeit A mathematical theory of communication
den Entropiebegri in die Informationstheorie ein. Dabei nutzte er deswe-
gen denselben Begri wie in der Thermodynamik, weil die mathematische
Denition in beiden Disziplinen bis auf den Faktor k, die BOLTZMANN-
Konstante, dieselbe ist. Auch die sprachliche Interpretation dieser Deni-
tionen liegen wie wir sehen werden eng beieinander. In diesem Abschnitt
soll daher zunachst ein Beschreibung des informationstheoretischen Entro-
piebegris erfolgen. Darauf aufbauend wird die mathematische Beschreibung
geliefert und als Fazit die Parallelen zum physikalischen Entropiebegri auf-
gezeigt.
48
10.3.1 Entropie, Unsicherheit und Informationsgehalt einer Nach-
richt
Basis jeder Nachrichten ubertragung ist eine beschrankte Menge von Sym-
bolen, welche sowohl dem Sender als auch dem Empfanger einer Nachricht
bekannt ist. Aus dieser Zeichenmenge werden bei der Informationsbildung
einzelne Elemente mit einer bestimmten Wahrscheinlichkeit ausgewahlt und
in Form einer Zeichenkette an einen Codierer ubergeben. Nach Codierung,
Sendung und Empfang dieser Zeichenkette erfolgt die Bestimmung der Nach-
richt. Dabei versucht der Empfanger, die urspr ungliche Nachricht auf Grund-
lage der vereinbarten Symbolmenge zu rekonstruieren [?, 50]. Die Komple-
xitat der Zeichenkette steigt mit der Anzahl der zugrundeliegenden Symbole,
was zur Folge hat, dass sich sowohl der Informationsinhalt solch einer Ket-
te erhoht, als auch die statistische Unsicherheit f ur das Auftreten einzelner
Symbole. An dieser Stelle f uhrte SHANNON die Entropie ein. Er nahm als
Zeichenmenge ein Alphabet mit den Buchstaben
a
1
, ..., a
i
, ..., a
n
(78)
an, aus dem jeder Buchstabe von der Informationsquelle mit der eindeutig
zugeordneten Wahrscheinlichkeit
P(a
i
) = p
i
(79)
zur Erzeugung einer Zeichenkette - eines Wortes - ausgewahlt wird. Die
Information, die dabei pro Zeichen ubertragen wird, denierte er als den
negativen dualen Logarithmus der Auftrittswahrscheinlichkeit eines Buch-
stabens:
I(a
i
) = ld p
i
(80)
Es erscheint folgerichtig, dass der Erwartungswert des Informationsge-
haltes pro Buchstabe ein Ma f ur den Informationsinhalt einer Kette solcher
Buchstaben darstellt. Gleichzeitig stellte SHANNON fest, dass sich darin
auch eine gewisse Freiheit des Alphabets wiederspiegelte, ahnlich wie auch
die Entropie eines abgeschlossenen thermodynamischen Systems. Deswegen
49
und auch aufgrund der Tatsache, dass sich die mathematischen Denitio-
nen lediglich durch einen Faktor unterscheiden, nannte SHANNON den von
ihm denierten Erwartungswert f ur den Informationsgehalt eines Buchsta-
bens Entropie [?, S.32].
Im Sinne der Nachrichtenkette wird zwischen der Quellenentropie und der
Emfangerentropie unterschieden. Die Quellenentropie bezieht sich auf den
mittleren Informationsgehalt der Quelle und spiegelt auch ihre Unbestimmt-
heit wieder. Dies korrespondiert mit der Anzahl der Binarentscheidungen,
die im Mittel notwendig sind, um einen bestimmten Buchstaben aus dem Al-
phabet auszuwahlen. In diesem Zusammenhang wird der Maximalwert der
Quellenentropie auch als Entscheidungsgehalt der Quelle bezeichnet [7, 16].
Bei der

Ubertragung der Nachricht durch den verrauschten Kanal kann es
zu Informationsverlust kommen, weil einzelne Buchstaben fehlerhaft ubertragen
werden. Um den Informationsgehalt der beim Empfanger eingehenden Nach-
richt greifbar zu machen, f uhrt SHANNON den Begri der Empfangerentropie
ein. Wurde eine Nachricht fehlerfrei ubermittelt, weisen Quellen- und Empfangerentropie
keine Dierenz auf. Dieser Zustand wird in der Datenverarbeitung ange-
strebt. Auch daf ur hat SHANNON einen Losungsansatz gefunden, wie wir
spater noch sehen werden.
10.3.2 Mathematische Denition der Entropie nach SHANNON
Wie bereits erwahnt, legte SHANNON jeder Nachrichten ubertragung ein Al-
phabet mit n Buchstaben
a
i
, i = 1, 2, ..., n (81)
und den zugeordneten Wahrscheinlichkeiten
P(a
i
) = p
i
, i = 1, 2, ..., n (82)
zugrunde. Den Informationsgehalt pro Buchstabe bestimmt man mit
I(a
i
) = ld p
i
(83)
50
und die Entropie durch den Erwartungswert dieser Zufallsgroe:
H =
n

i=1
p
i
I(a
i
) =
n

i=1
p
i
ld p
i
. (84)
Vergleicht man diese Formel mit der Formel f ur die thermodynamischen
Entropie nach BOLTZMANN
H = k
n

i=1
p(x
i
)ln p(x
i
). (85)
sieht man, dass die Benutzung der Bezeichnung Entropie durch SHAN-
NON durchaus berechtigt ist, da lediglich der Umrechnungsfaktor k ln 2 zur

Uberf uhrung der informationstheoretischen in die thermodynamische Entro-


pie notwendig ist [?, 33].
Den Abschluss dieses Abschnitts soll ein Zitat liefern, weches die

Aquivalenz
der physikalischen und der informationstheoretischen Entropie in meinen Au-
gen sehr anschaulich macht [3, 126]:
So wie es nicht moglich ist, ein Kommunikationssystem herzustellen, des-
sen Empfanger mehr nutzbare Information erhalt, als die Nachrichtenquelle
liefert, so unmoglich ist es, ein perpetuum mobile der zweiten Art zu konstru-
ieren, das heit eine Maschine, die aus der Abk uhlung eines Warmereservoirs
mechanische Energie gewinnt.
11 Die Satze von SHANNON
SHANNON fand und bewies zur Entropie einer Nachrichten ubertragung, wel-
che in diesem Abschnitte vorgestellt werden sollen.
Die Durchlasskapazitat C eines Kanals ist deniert als das kartesische
Produkt aus dem Alphabet A der Quelle und dem Alphabet B des Empfangers,
also
51
C = A B. (86)
11.1 Der erste Satz von SHANNON
Gegeben sei
a) ein stationaer Kanal mit der Durchlasskapazitat C und mit endlichem
Gedachtnis der Lange m,
b) eine Quelle A mit der Entropie H kleiner C.
Dann kann bei hinreichend groem n die von der Quelle ausgesendeten
Nachrichten in das Alphabet A so codieren, dass jedes Wort aus n Buch-
staben des Alphabets A in ein Wort u aus n+m Buchstaben des Alphabets
A ubergeht, und dass bei der

Ubertragung des Wortes u uber den Kanal
aus dem Kanalausgang erhaltenen Wort (mit Buchstaben des Alphabets
B) sich das gesendete Wort u - und damit - mit einer Wahrscheinlichkeit
groer als 1-, groer 0, beliebig klein, bestimmen lasst [4, 70]
Oder, anders formuliert: Bei gegebener Quellenentropie H kleiner C kann
man immer einen Code nden, mit dessen Hilfe das von der Quelle gesendete
Wort mit einer beliebig kleinen Fehlerwahrscheinlichkeit schatzen kann.
Beweis: siehe [4, 70].
11.2 Der zweite Satz von SHANNON
Gegeben sei
a) ein stationarer Kanal [A, p, B] mit endlichen Gedachtnis der Lange m
und der Durchlasskapazitat C,
b) eine Quelle A mit der Entropie H kleiner C.
Dann kann ein Code von A nach A so gewahlt werden, dass die

Ubertragungsgeschwindigkeit
der Nachricht der Groe H beliebig nahe kommt [4, 74].
Anders ausgedr uckt: Die

Ubertragungsgeschwindigkeit einer Information
liegt beliebig nahe an der Entstehungsgeschwindigkeit der Information. Da-
52
mit ist der Informationsgehalt beliebig klein und jedes empfangene Zeichen
b enthalt mit einer Wahrscheinlichkeit 1-, 0 kleiner kleiner 1, denselben
Informationsgehalt wie das entsprechende gesendete Zeichen a.
Beweis: siehe [4, 74].
53
12 Anwendungen der Informationstheorie
Die Informationstheorie ist eine breite und tiefgreifende Theorie, daher sind
ihre Anwendungsmoglichkeiten ebenso tiefgreifend und weit gefachert. Be-
vor wir zu konkreten Anwendungsmoglichkeiten kommen, soll zunachst ein

Uberblick gegeben werden (der nat urlich keinen Anspruch auf Vollstandigkeit
erhebt).
Der Begri Information im landlaugen Sinne als

Nachricht oder

Wis-
sen wird zum Beispiel in den Kommunikations- und Medienwissenschaften
angewendet, beispielsweise f ur das Fernmeldewesen. Die

Okonomie sieht In-
formation in drei Formen: als Ware, als Ausdruck von Infrastruktur oder als
Wettbewerbsvorteil [9].
Im Bereich der Mathematik eng mit der Informationstheorie verwandt
ist die Kodierungstheorie mit ihren zahlreichen Anwendungen, einige davon
wurden bereits in Kapitel vorgestellt. Eine wissenschaftliche Disziplin, deren
Hauptschwerpunkt auf der Verarbeitung von Information liegt, ist nat urlich
die Informatik. Deren Teilgebiete sind daher ebenso eng mit dem Informa-
tionsbegri verwoben, hier seien exemplarisch die Kryptologie, Logik und
Datenkompression genannt.
Die Nahe des Informationsbegris zu anderen strukturtheoretischen Kon-
zepten wie System, Organisation, Struktur und Funktion erklart die Verbin-
dung zur Systemtheorie, deren Pionier Ludwig von Bertalanffy etwa
zeitgleich mit den Pionieren der Informationstheorie arbeitete [12]. Hierbei
sei insbesondere auf den Zusammenhang mit Theorien oener Systeme hin-
gewiesen, welcher auf die Verwandtschaft der Begrie Entropie und potenti-
elle Information zur uckgeht. Weitere Anwendungsbereiche der Informations-
theorie sind vor allem empirische Wissenschaften wie Physik, Biologie und
(Kognitions-)Psychologie.
Shannons Informationstheorie konzentriert sich ausdr ucklich nur auf die
Dimension Syntax, also das Auftreten einzelner Informationseinheiten und
ihre Beziehungen untereinander. Sie macht keine Aussagen zu Semantik (Be-
deutung von Informationseinheiten und ihrer Beziehungen) oder Pragma-
tik (Wirkung von Informationseinheiten und ihrer Beziehungen) [9]. Einige
Wissenschaften beziehen semantische und pragmatische Gesichtspunkte sehr
wohl ein, dazu gehoren unter anderem die Sprachwissenschaften. Als Beispie-
le seien die generative Grammatik von Noam Chomsky [1] und die Semiotik
von Umberto Eco [2] genannt.
In diesem Kapitel wird exemplarisch auf Kryptographie, die Kognitions-
54
wissenschaften und extraterrestrische Radio ubertragung eingegangen wer-
den.
12.1 Kryptologie - Einmalverschl usselung
Die Einmalverschl usselung oder One-Time Pad (OTP) Methode ist ein einfa-
ches Verschl usselungsverfahren, das unter bestimmten Bedingungen informa-
tionstheoretisch 100% sicher ist. Dies wurde 1949 von Claude Shannon ge-
zeigt [16]. Die OTP Methode kann nicht, wie andere Verschl usselungsverfahren,
durch computergest utztes Probieren (d.h. Brute-Force) innerhalb endlicher
Zeit geknackt werden. Sie ist das einzige Verschl usselungsverfahren, dass die-
se perfekte Sicherheit bietet [15].
Das Verfahren wurde 1917 von Gilbert Vernam (USA) erfunden und
von Joseph O. Mauborgne f ur die Verwendung mit Telex-Geraten wei-
terentwickelt. Aufgrund der perfekten Sicherheit wurde und wird es f ur sen-
sible Kommunikation genutzt, unter anderem von den USA, Russland, Ka-
nada und der ehemaligen DDR. Beispielsweise ist die bis heute bestehen-
de, hochsichere direkte Fernschreibverbindung zwischen dem amerikanischen
Prasidenten und dem sowjetischen Generalsekretar durch ein Einmalschl ussel-
Verfahren gesch utzt. Anbieter von Sicherheitsprodukten f uhren das System
bis heute in ihrem Sortiment, z.B. die osterreichische Mils Electronic [10].
12.1.1 Sicherheit
Vorraussetzung f ur die 100%ige Sicherheit des Einmalschl ussel-Verfahrens
sind:
Der Einmalschl ussel ist so lang wie der Klartext,
der Einmalschl ussel ist geheim (d.h. ist nur dem Sender und dem Empfanger
bekannt),
der Einmalschl ussel muss unvorhersagbar zufallig (also nicht mit einem
Pseudozufallsgenerator erzeugt) sein,
der Einmalschl ussel darf nur einmal verwendet werden (und muss da-
nach zerstort werden).
Sobald eine dieser Bedingungen nicht mehr gegeben ist, bietet die Ein-
malverschl usselung keine perfekte Sicherheit mehr. Wird der Einmalschl ussel
55
etwa nicht personlich ubergeben, sondern verschl usselt per E-Mail zugestellt,
ist das gesamte Verfahren nur noch so sicher wie das Verschl usselungsverfahren
f ur die Email. Die letztendliche Sicherheit eines Systems ist nur so hoch wie
die des schwachsten Glieds. Um perfekte Sicherheit zu erreichen, muss das
Verfahren selbst aber nicht geheimgehalten werden. Diese Eigenschaft stellt
einen Grundsatz der moderenen Kryptographie dar und wurde 1883 von
Auguste Kerckhoffs aufgestellt somit bezeichnet man es als Kerck-
hoffs Prinzip [15].
12.1.2 Funktionsweise
Die Einmalverschl usselung ist ein symmetrisches Verfahren, d.h. f ur das Ver-
schl usseln und Entschl usseln wird der gleiche Schl ussel verwendet. Daher
muss der Schl ussel vor der Kommunikation sowohl Sender als auch Empfanger
bekannt sein. Auerdem m ussen die oben genannten Vorraussetzungen gege-
ben sein. Im folgenden soll nun das Verfahren an einem einfachen Beispiel
erklart werden.
Die zu ubertragende geheime Nachricht im Klartext K lautet:
K = ANGRIFFIMMORGENGRAUEN
Der Schl ussel S, der beiden Kommunikationspartnern zur Verf ugung steht,
lautet:
S = WZSLXWMFQUDMPJLYQOXXB
Nun muss der Klartext mit dem Schl ussel kombiniert werden. Dazu ordnet
man jedem Buchstaben eine Zahl zu:
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
Mithilfe dieser Zuordnung werden Klartext und Schl ussel in eine Reihe von
Zahlen umgewandelt. Danach addiert man die Werte stellenweise Modulo 26.
0 13 6 17 8 5 5 8 12 12 14 17 6 4 13 6 17 0 20 4 13 (K)
+22 25 18 11 23 22 12 5 16 20 3 12 15 9 11 24 16 14 23 23 1 (S)
---------------------------------------------------------------
22 12 24 2 5 1 17 13 2 6 17 3 21 13 24 4 7 14 17 1 14
Wenn man dieses Ergebnis jetzt wieder zur uck in Buchstaben ubersetzt,
erhalt man den Geheimtext G, der nun ubertragen werden kann.
56
G = WMYCFBRNCGRDVNYEHORBO
Dieser Geheimtext erlaubt keinerlei R uckschl usse auf den Klartext. Eine sta-
tistische Auswertung der Buchstabenhaugkeiten hat keine Aussicht auf Er-
folg, denn es handelt sich nicht um eine monoalphabetische Substitution: Ein

A im Klartext wird im Geheimtext nicht immer durch den selben Buch-


staben dargestellt, im Beispiel einmal als

W und einmal als

O. Der po-
tentielle Angreifer wei nur, dass der Klartext im Beispiel aus 21 Buchstaben
besteht es gibt also eine Unmenge an Moglichkeiten f ur Zeichenkombina-
tion, die auch noch in verschiedenen Sprachen interpretiert werden konnen.
Es gibt keine weiteren Hinweise, welche der moglichen Kombinationen die
Richtige ist das ist mit perfekter Sicherheit gemeint.
Man kann sich den Schl ussel als Rauschen vorstellen, mit dem der Sender
seinen Klartext unlesbar macht. Da der Empfanger uber dasselbe Rauschen
verf ugt, kann er die Nachricht wieder entstoren und somit lesbar machen.
Eine abgefangene Nachricht ist f ur Abhorer nutzlos, da sie nur Rauschen
enthalt.
Zur Erleichterung des Verfahrens kann man die Addition der Buchstaben
modulo 26 in der folgenden Form darstellen (Abb. 1) [14]. Um eine Nach-
richt zu kodieren, sucht man den Klartextbuchstaben im Tabellenkopf, sucht
dann den Schl usselbuchstaben in der darunterliegenden Spalte (Grobuch-
stabe) und erhalt daneben den Geheimtextbuchstaben (Kleinbuchstabe). Da
in den Spalten Buchstabenpaare stehen, nennt man diese Darstellungsform
auch Bigramm-Tabelle. Um eine Nachricht zu dekodieren, benutzt man die
Bigramm Tabelle in Abb. 2. Man sucht den Geheimtextbuchstaben im Tabel-
lenkopf, sucht dann den Schl usselbuchstaben in der darunterliegenden Spalte
(Grobuchstabe) und erhalt daneben den Klartextbuchstaben (Kleinbuchsta-
be).
In der Praxis gebrauchlicher als das gerade dargestellte Beispiel ist eine
Methode, bei der die Nachricht zuerst in Zahlen ubersetzt wird und dann mit
einem Zahlen-Einmalschl ussel kombiniert wird. Dabei werden neben Zah-
len f ur einzelne Buchstaben auch Zahlenkombinationen f ur haug verwen-
dete Worter und Phrasen genutzt, um die Nachricht zu verk urzen. Diese
sind darauf optimiert, fehlerresistent gegen uber Zahlendrehern und ahnlichen
Fl uchtigkeitsfehlern zu sein (siehe Abb. 3). Man kann das Einmalschl ussel-
Verfahren auch f ur Dateien auf dem Computer verwenden. Dabei verbindet
man jedes Bit der Originaldatei und jedes Bit des Einmalschl ussels durch
eine XOR-Verkn upfung (exklusives Oder).
57
Abbildung 1: Bigramm-Tabelle zum Enkodieren
1 1 = 0
1 0 = 1
0 1 = 1
0 0 = 0
visuell
ausf uhren?
12.1.3 Vor- und Nachteile
Der herausragende Vorteil des Einmalschl ussel-Verfahrens ist nat urlich sei-
ne 100%ige Sicherheit. Dabei ist hervorzuheben, dass mit diesem Verfah-
ren verschl usselte Informationen auch in der Zukunft geheim bleiben wer-
den im Gegensatz zu anderen gangigen Verschl usselungsverfahren wie AES
oder RSA. Deren Sicherheit basiert einzig auf der Tatsache, dass deren Ent-
schl usselung durch Ausprobieren sehr vieler Moglichkeiten (sog. Brute-Force-
Methode) zur Zeit sehr rechenaufwendig istbrute und somit mehrere Jahr-
zehnte dauern w urde. Diese Algorithmen konnten in Zukunft aber nutzlos
58
Abbildung 2: Bigramm-Tabelle zum Enkodieren
werden, wenn sich die Hardware entscheidend verbessert (z.B. der Quanten-
computer anwendungsreif wird, und somit Brute-Force-Attacken lohnenswert
werden. Falls in der Mathematik enscheidende Durchbr uche erreicht werden,
z.B. ein schnelleres Verfahren zur Faktorisierung von Primzahlen entdeckt
wird, werden die klassischen Verschl usselungsverfahren ebenfalls nutzlos.
Ein weiterer Vorteil des Einmalschl ussel-Verfahrens ist seine Einfachheit,
es kann mit Bleistift und Papier umgesetzt werden. Man ist also nicht auf
einen Computer angewiesen ein klarer Vorteil, denn es muss ein erhebli-
cher Aufwand betrieben werden, um Computer f ur sensible Daten nutzen zu
konnen: Beispielsweise muss der Zugang dazu streng kontrolliert werden und
er darf er nie an ein Netzwerk angeschlossen werden. Ein Agent, der das Ein-
malschl ussel-Verfahren nutzt, tragt nur einen Einmalschl usselblock mit sich,
der leicht versteckt oder zerstort werden kann. Dar uber hinaus benotigt er
keine kompromittierenden Empfangssender oder

Ahnliches, die

Ubertragung
wird in der Regel uber Kurzwellensender realisiert, die mit handels ublichen
Weltempfangern gehort werden konnen.

Ubertragung-
mehr?
Zahlen-
sender
etc.
Doch die Seite der Nachteile des Verfahrens wiegt schwer: Erstens ge-
staltet es sich schwierig, groe Zufallstexte zu generieren. Dazu ist spezielle
59
Abbildung 3: Code-Tabelle
Hardware notig, die beispielsweise die kosmische Hintergrundstrahlung als
Quelle f ur Zufall nutzt. Zweitens ist das Schl usselmanagement uberaus un-
praktisch: Aus bereits genannten Gr unden konnen die Schl ussel nicht mit
einer anderen Verschl usselungstechnik elektronisch ubertragen werden, sie
m ussen sowohl Sender als auch Empfanger physisch und vertraulich zuge-
stellt werden ein erheblicher Aufwand. Drittens ist es anfallig gegen uber
unvorsichtigem Vorgehen: Falls eine der oben beschriebenen Bedingungen
nicht oder nur teilweise eingehalten wird, ist der Geheimtext sehr leicht zu
entschl usseln. Viertens ist das Verfahren durch aktive Angreifer gefahrdet:
Wenn ein Angreifer den Inhalt der geheimen Nachricht kennt und die ver-
schl usselte Nachricht abfangt, kann er den Schl ussel rekonstruieren und statt
des Originals eine eigene Nachricht senden. Diese muss zwar genauso lang sein
wie der Originalklartext, kann aber trotzdem einen verhangnisvollen Inhalt
haben.
Im Ergebnis wird das Einmalschl ussel-Verfahren vor allem dann einge-
setzt, wenn Sicherheit oberste Prioritat hat und damit praktische Mastabe
in den Hintergrund treten. Zur Wahrung der Privatsphare in der taglichen
Kommunikation ist es jedoch ungeeignet.
12.2 Informationstheorie in den Kognitionswissenschaf-
ten
Viele Naturwissenschaften bestanden schon lange vor der Entwicklung der
Informationstheorie und wurden im Nachhinein von ihr beeinusst und be-
60
Abbildung 4: Einmalschl usselblock
reichert. Im Gegensatz dazu entwickelten sich die Kognitionswissenschaften
etwa zeitgleich mit der Informationstheorie in den 1940er und 1950er Jah-
ren. Informationsverarbeitung spielt keine Nebenrolle, sondern ist das zen-
trale Forschungsfeld der Kognitionswissenschaften: Sie untersuchen, wie In-
formationen uber die Umwelt von Individuen aufgenommen werden, wie sie
verarbeitet werden und in Reaktionen m unden. Es gibt dabei zwei zentra-
le Herangehensweisen bzw. Paradigmen, die im folgenden erlautert werden
sollen: Der Symbolismus und der Konnektionismus [9].
12.2.1 Symbolismus
Wie bereits gesagt wurde, waren die Anfange der Automaten- und Infor-
mationstheorie zugleich die Anfange der Kognitionswissenschaften. Durch
die parallele Entwicklung erwuchs in den vierziger Jahren die Vorstellung,
menschliches Denken sei eine rechnerische (

komputationale) Fahigkeit und


damit von Maschinen nachahmbar. Dies ist das Ziel von Forschungen zur
k unstlichen Intelligenz (KI), bei denen man versucht, Problemloseverfahren
zu programmieren (z.B. mit der speziell daf ur entwickelten Programmier-
sprache LISP) und andere kognitive Simulationsverfahren zu implementie-
61
ren. Laut Alan Turing ist eine Maschine dann im Stande zu

denken,
wenn sie sich in einem Frage-Antwort-Spiel mit menschlichem Fragesteller
nicht von einem Menschen unterscheiden lasst. [18] Das KI-Paradigma lau-
tet: Menschliches Denken ist ein algorithmischer Prozess, in dem Symbolfol-
gen abgearbeitet werden. Die Ein- und Ausgabe folgt syntaktischen Regeln,
wahrend die semantische Ebene in der Programmierung nicht ber uhrt wird
(bzw. durch festgelegte Variablen bereits vorgegeben ist).
Zwar konnten einige gute Frage-Antwort-Maschinen programmiert wer-
den (z.B. der k unstliche Psychiater ELIZA von Joseph Weizenbaum), je-
doch scheiterte man an

einfachen Fahigkeiten wie Mustererkennung oder


Navigation in einer nat urlichen Umwelt. Deswegen konzentrierte man sich
zunehmend darauf, das menschliche Gehirn zu untersuchen und k unstlich
umzusetzen dies soll im folgende Abschnitt erlautert werden.
12.2.2 Konnektionismus
Wenn menschliches Denken ein Algorithmus ist, der programmiert werden
kann (das Paradigma der KI), heit das auch, dass Denken unabhangig von
der Rechenarchitektur ist, es also nur auf das Programm, nicht auf Art und
Struktur der Hardware ankommt. Die Neuroinformatik hat einen gegenteili-
gen Ansatz: Das Paradigma des Konnektionismus versucht, die Architektur
und Funktionsweise eines menschlichen Gehirns nachzuahmen. F ur ein besse-
res Verstandnis des Konnektionismus soll im folgenden ein kurzer

Uberblick
uber die neuronalen Grundlagen gegeben werden.
Das Gehirn ist ein komplexes Netzwerk, dass aus Nervenzellen (Neuro-
nen) und Verbindungen (Synapsen) besteht. Die Anzahl der Neuronen wird
auf 10
12
und die der Synapsen auf 10
15
geschatzt, es ist also ein uberaus
komplexes und gleichzeitig sehr dichtes System (jedes Neuron ist im Schnitt
uber 4 Glieder mit jedem anderen verbunden). Eine Nervenzelle erhalt uber
ihre Synapsen Signale von anderen Nervenzellen, und wenn die Summe die-
ser eingehenden Aktivitaten gro genug ist, sendet sie selbst Signale aus. Sie
funktioniert also als eine Art Schwellschalter, ein Eekt den man als syn-
aptische Plastizitat bezeichnet. Diese Signale sind kurzzeitige

Anderungen
(wenige Millisekunden) des elektrischen Potentials von ca. 50-80 Millivolt.
Im Wahrnehmungsprozess sind verschiedene groere Neuronenverbande in-
volviert, welche einzelne Merkmale aus der Menge der gegebenen Sinnes-
daten kodieren. Bei der visuellen Wahrnehmung entsteht beispielsweise der
Gesamteindruck

Ich sehe einen Baum nur aus dem Zusammenspiel unter-


62
schiedlicher neuronaler Bereiche, die jeweils auf Beurteilung von Form, Ober-
achenstruktur , Farbe usw. spezialisiert sind. Das Symbol

Baum wird also


nicht durch einzelne Neuronen reprasentiert, sondern wird subsymbolisch ge-
speichert. Weiterhin ist zu bemerken, dass dieses komplexe System durch ak-
tivitatsabhangige Selbstorganisation entsteht. Die Verbindungen und Funk-
tionen der einzelnen Neuronen sind nicht a priori festgelegt, sondern entste-
hen erst im Laufe der Entwicklung durch aktive Auseinandersetzung mit der
Umwelt.
Damit unterscheidet sich das Gehirn erheblich von der Struktur eines
handels ublichen PCs, denn die Informationsverarbeitung ndet nicht zentral
in einem Prozessor, sondern in einem Netzwerk aus Berechnungsknoten und
Verbindungen statt. Informationen werden verteilt gespeichert und parallel
verarbeitet. Man hat versucht, solche Architekturen zunachst theoretisch zu
modellieren. Ein Beispiel daf ur ist der Assoziativspeicher von Steibuch,
welcher nun auszugsweise vorgestellt werden soll.
12.2.3 Beispiel: Assoziativspeichermodell
Die Lernmatrix von Steinbuch [17] ist geeignet, das Arbeitsprinzip neuro-
naler Netze zu verdeutlichen. Betrachten wir ein einfaches Beispiel, in dem
zwei Muster in Form von Binarvektoren A und B gegeben sind:
e

A
=

1
1
0
0
1

, e

B
=

1
0
1
0
1

,
Diese Muster sollen in einer 55 Lernmatrix gespeichert werden, deren
Eintrage wir mit
i,j
bezeichnen. Sie berechnen sich gema der Lernregel

i,j

i,j
+ e
i
e
j
Dies kann mann als Netzwerkarchitektur interpretieren: Je f unf Eingangs-
und Ausgangsneuronen sind untereinander uber Synapsengewichte verbun-
den, die in der Matrix reprasentiert sind. Der Anfangszustand ist = 0 und
nun wird das Muster A gespeichert (

gelernt). Die Eintrage berechnen sich


gema der bereits genannten Lernregel w
ij
= e
A
i
e
A
j
so dass sich folgende Form
ergibt:
63
=

1 1 0 0 1
1 1 0 0 1
0 0 0 0 0
0 0 0 0 0
1 1 0 0 1

Jetzt soll das zweite Muster gespeichert werden, gema der Lernregel

i,j

i,j
+ e
B
i
e
B
j
bekommt man
=

2 1 0 0 2
1 1 0 0 1
1 0 1 0 1
0 0 0 0 0
2 1 1 0 2

Nun wollen wir aus der Lernmatrix etwas abrufen. Dazu geben wir einen
Input-Vektor

x und erhalten den Output-Vektor

y =

x . Wir geben als
erstes das bereits gespeicherte Muster A ein:
e

A
=

5
3
2
0
5

Um diese Ausgabe als binaren Mustervektor interpretieren zu konnen,


denieren wir die Schwellwertfunktion:
(x) =

1 falls x
o
0 sonst
mit
o
=
1
5

i
y
i
Der Output-Vektor berechnet sich damit als

y = (

x ). In unserem
Beispiel ist
0
= 3, wir erhalten also unser gelerntes Muster A in der Ausgabe
zur uck:

y = ( e

A
) =

(5)
(3)
(2)
(0)
(5)

1
1
0
0
1

= e

A
64
Interessanterweise gibt die Matrix sogar dann das gelernte Muster A
zur uck, wenn die Eingabe ahnlich dem Muster A ist:
e

1
1
0
0
0

A
=

y = ( e

) =

1
1
0
0
1

A
Genau das versteht man unter einem Assoziativspeicher: Unvollstandige
Eingaben werden aufgrund von bereits gespeicherten Daten vervollstandigt.
Nat urlich ist diese Vervollstandigungskapazitat begrenzt. Geben wir etwa ein
Muster ein, dass eine

Uberlagerung von Muster A und Muster B darstellt,
so bekommen wir auch eine

Uberlagerung der Muster als Ausgabe:

x =

1
1
1
0
0

=

y = (

x ) =

1
0
0
0
1

Die Lernmatrix von Steinbuch ist f ur den praktischen Einsatz oen-


sichtlich ungeeignet, denn das Verhaltnis zwischen Dimension der Matrix
und in ihr speicherbare Muster ist denkbar ung unstig. Allerdings dient es als
anschauliches Modell eines assoziativen Gedachtnisses [9]: Die Speicherung
erfolgt verteilt auf alle

Synapsen und wahrend der Verarbeitung arbeiten


alle

Synapsen parallel.
12.2.4 Vergleich der Paradigmen
Die Paradigmen des Symbolismus und des Konnektionismus bieten oen-
sichtlich unterschiedliche Herangehensweisen. Die praktischen Unterschiede
liegen in der Informationsverarbeitung (sequentiell vs. Parallel), der Speiche-
rung (lokalisiert vs. distributiv) und in der Plastizitat, also der Veranderbarkeit
des Systems. Wahrend sich unser Gehirn uberhaupt erst durch Veranderung
und Anpassung entwickeln kann, sind klassische KI-Programme starr im
Hinblick auf ihre Anwendungsbereiche und ihr Potential. Allerdings ist eine
strukturelle Anpassung auch in traditioneller KI moglich, wenn man das Pro-
gramm selbst als Teil der Eingabe versteht und somit eine Anpassung durch
neue Programmebenen moglich macht (universelle Turing-Maschine).
65
Weiterhin gibt es einen konzeptionellen Unterschied, der weiter oben be-
reits erlautert wurde: Die Art der Kodierung der Information geschieht in
KI-Systemen symbolisch, in neuronalen Netzen jedoch subsymbolisch (d.h.
merkmalskodierend). Sehen wir vor uns eine Tasse, so wird sie in unserem
Gehirn verteilt gespeichert bzw. reprasentiert: Eine Region kodiert die Kan-
ten, eine andere die Oberachenbeschaenheit und wieder eine andere die
Farbe der Tasse. Im Gegensatz dazu w urde in einem KI-Programm die Tasse
durch eine einzige Variable reprasentiert sein.
Die zentrale Frage ist allerdings, ob sich die Paradigmen des Symbolis-
mus und des Konnektionismus auch prinzipiell unterscheiden. Holger Lyre
sieht keinen prinzipiellen Untersched, denn es seien beides Berechenbarkeit-
sparadigmen, d.h. sie gehen davon aus, dass unsere physikalische Welt al-
gorithmisch beschreibbar und jede Interaktion mit der Umwelt theoretisch
berechenbar ist. Es sei aber unklar, ob unser Gehirn wirklich

rechnet, d.h.
algorithmisch arbeitet [9].
12.2.5 Extraterrestrische Radio ubertragungen
Astronomen suchen etwa seit den 1960er Jahren mit Radioteleskopen nach Si-
gnalen auerirdischer Lebewesen (SETI engl. Search for Extra-Terrestrial In-
telligence). Das Vorhaben erfreut sich groer Bekanntheit, wozu vor allem das
verteilte Rechenprojekt SETI@home Universitat Berkley (USA) beigetragen
hat. Tausende Privatanwender stellen dabei ihre ungenutzte Rechenleistung
f ur die Auswertung der Radiosignale zur Verf ugung. Bei der Auswertung wir
vor allem nach aualligen, nicht-zufalligen Signalen gesucht. Dies konnte ein
unn utzes Unterfangen sein, wie Rainer Kayser von der Universitat Hamburg
herausstellt [6]. Falls es extraterrestrische Zivilisationen gibt, dann waren sie
sicher in der Lage, ihre Radiobotschaften mit optimaler Informationsdichte
zu kodieren. Diese enthielten dann aber keine aualligen Regelmaigkeiten
und ware nicht von der normalen Warmestrahlung eines Sterns zu unterschei-
den, stellte Michael Lachmann vom Max-Planck-Institut f ur evolutionare
Anthropologie in Leipzig fest [8]. Die

Uberlegungen von Lachmann und
seinen amerikanischen Kollegen Newman und Moore sollen im folgenden
ausf uhrlich dargestellt werden.
Die Informationstheorie von Shannon betrachtet die Menge x
i
aller
moglichen Nachrichten x
i
die uber einen Nachrichtenkanal ubertragen werden
konnen. Im einfachsten Fall ist dieser Kanal rauschfrei, d.h. jede Nachricht
wird genau so empfangen, wie sie gesendet wurde. Nach Shannon bestimmt
66
Abbildung 5: Das Arecibo-Observatorium in Puerto Rico wird f ur das SE-
TI@home Projekt genutzt. Es ist mit einem Durchmesser von 304,8 m das
zweitgrote Radioteleskop der Welt.
sich der durchschnittliche Informationsgehalt pro Nachricht so
S =

i
p
i
log p
i
(87)
wobei p
i
die Wahrscheinlichkeit der

Ubertragung der Nachricht x
i
ist.

Ublicherweise steht

log f ur den nat urlichen Logarithmus. Gibt es keine wei-


teren Beschrankungen, dann wird der Informationsgehalt S maximal, wenn
alle Nachrichten mit gleicher Wahrscheinlichkeit ubertragen werden. Wenn
man also viele Nachrichten hintereinander sendet, die mit je gleicher Wahr-
scheinlichkeit aus der Menge x
i
entnommen sind, wird der Datenuss vollig
zufallig erscheinen es sei denn, der Empfanger kennt die Kodierung der
Nachrichten.
Wir ubertragen die Situation nun auf eine Nachrichten ubermittlung mit-
hilfe elektromagnetischer Strahlung. Die These lautet wie folgt: Wir gehen
davon aus, dass dem Sender der Nachricht ein begrenzter Vorrat an Ener-
gie zur Verf ugung steht. Die Frage ist, wie gro die maximale Menge an
Information ist, die mit diesem Energievorrat gesendet werden kann. Im All-
67
gemeinen lauft das auf die Maximierung der Gleichung (87) f ur Photonenen-
sembles hinaus. Die Losung ist bereits aus der statistischen Physik bekannt,
da die Formel der Shannon-Information mit der Formel f ur thermodyna-
mische Entropie identisch ist. Im Fall von elektromagnetischer Strahlung
f uhrt es zu Schwarzkorperstrahlung. Wir werden nun zeigen, dass die in-
formationsdichteste elektromagnetische

Ubertragung dasselbe Spektrum wie
Schwarzkorperstrahlung hat.
Damit wir Shannons Theorie auf elektromagnetische Strahlung anwen-
den konnen, m ussen wir das Problem als

Ubertragung von Information uber
einen Kanal modellieren. Daf ur betrachten wir folgendes Gedankenexperi-
ment: Stellen wir uns einen Zylinder mit Grundache A
t
und Lange l mit
perfekt reektierenden Wanden vor, in dessen Inneren wir jeden beliebi-
gen elektromagnetischen Mikrozustand erzeugen konnen. Jeder moglichen
Nachricht wird ein bestimmter Mikrozustand zugeordnet, und der Mikrozu-
stand wird an den Empfanger ubertragen. Der Informationsgehalt wird durch wie?
Shannons Formel (87) bestimmt, dabei ist p
i
die Wahrscheinlichkeit, dass
sich der Zylinderholraum im Mikrozustand i bendet. Diese Art der Nach-
richten ubertragung ist nicht das gleiche wie eine Radio ubertragung, aber wir
werden zeigen, dass sie den selben Informationsgehalt hat.
Wir wollen nun einen stetigen Nachrichtenstrom erzeugen, indem wir eine
Reihe von Mikrozustanden ubertragen, f ur die

Ubertragung jeder Nachricht
steht eine begrenzte Energiemenge E zur Verf ugung. Was ist dann der
hochstmogliche Informationsgehalt pro Nachricht? Daf ur m ussen wir Glei-
chung (87) maximieren, wobei jede Anzahl von Photonen im Zylinder erlaubt
ist. Das Ergebnis ist das grokanonische Enseble mit
p
i
=
exp [(E
i
N
i
)]
Z
(88)
wobei E
i
die Energie in Mikrozustand i ist, N
i
die Anzahl der Photonen,
Z die grokanonische Zustandssumme, das Temperaturpotential und das
chemische Potential. Wenn wir nun die Mikrozustande mit der Anzahl der
Photonen n
k
im jeweiligen Einzelpartikelzustand k bezeichnen, kann man
zeigen, dass der Durchschnitt der n
k
der Bose-Einstein-Verteilung folgt
n
k
=
1
e

k
1
(89)
Wir haben = 0 gesetzt weil es f ur Photonen im Vakuum kein chemisches
Potential gibt,
k
steht f ur die Energie eines Photons im Zustand k.
68
Wir erweitern das Gedankenexperiment und stellen uns vor, dass wir,
statt den gesamten Zylinderinhalt zu ubertragen, eine Deckache des Zylin-
ders onen und so die Photonen in Form einer Radio ubertragung entweichen
konnen. Der Empfanger bendet sich im Abstand d vom Zylinder und hat
die Flache A
r
(Abb. 6). Nur die Photonen, die einen Impuls innerhalb ei-
Abbildung 6: Der Versuchsaufbau des Gedankenexperiments: Links der Zy-
linderhohlraum mit dem

Sender (

Onung des Zylinders) und rechts der

Empfanger.
nes bestimmten Winkels haben, werden den Empfanger erreichen (eventuell
nachdem sie mehrmals an der Innenwand reektiert wurden). Das Volumen
unseres Hohlraumes betragt V = lA
t
und die Dichte des Einzelpartikelzu-
stands ist () =
2lAtAr
2
d
2
h
3
c
3
, hierbei ist h das Plancksche Wirkungsquantum
und c die Lichtgeschwindigkeit. Damit ist die spektrale Leistungsdichte un-
serer Nachricht
I() =
2lA
t
A
r
d
2
h
3
c
3

2
e

1
(90)
Dies bezeichnet man ublicherweise als Schwarzkorperspektrum, welches
von einer idealen thermischen Strahlungsquelle bei der Temperatur T =

1
ausgesendet wird. Die meisten astronomischen Korper senden ein sehr
ahnliches Spektrum aus. Die

Ubertragung enthalt alle notwendigen Informa-
tionen, um den urspr unglichen Mikrozustand im Zylinder zu rekonstruieren
und hat daher denselben Informationsgehalt.
Wir wollen nun einen Nachrichtenstrom erzeugen, wobei jede Nachricht
durch einen Mikrozustand des Zylinderhohlraums reprasentiert wird. Die

Ubertragungsdauer betragt dann


l
c
und die durchschnittliche

Ubertragungsintensitat
ist konstant. Die Temperatur wird von der zur Verf ugung stehenden Energie
bestimmt. Wir berechnen die durchschnittliche Energie E pro Nachricht
indem wir Gleichung (90) uber die Energie integrieren und durch
l
c
teilen.
69
F ur eine

Ubertragung mit einem Energiebudget P pro Zeiteinheit berechnet
sich die Temperatur T =
1
uber
T
4
=
15h
3
c
2
2
4
d
2
A
t
A
r
P (91)
Der Informationsgehalt pro Zeiteinheit
dS
dt
kann berechnet werden mit
S = log Z
log Z

und
log Z

= E so dass
dS
dt
=
8
4
45h
3
c
2
A
t
A
r
d
2
T
3
=

512
4
1215h
3
c
2
A
t
A
r
d
2
P
3
1
4
(92)
[] Diese Gleichung beschreibt die hochstmogliche

Ubertragungsrate f ur elek-
tromagnetische

Ubertragungen f ur eine gegebene Durchschnittsleistung P.
Sie hangt nur von den Flacheninhalten von Sender und Empfanger, von deren
Abstand und von der druchschnittlichen Sendeleistung bzw. der Temperatur
ab.
Wir konnten zeigen, dass die Optimierung der Informationsdichte f ur elek-
tromagnetische Strahlung mit einem festen Energiebudget pro Zeiteinheit ein
Spektrum erzeugt, dass nicht vom Schwarzkorperspektrum zu unterscheiden
ist. Ein Empfanger, der nicht im Besitz der Kodierung ist, wird eine Nach-
richt nicht von nat urlich auftretender Schwarzkorperstrahlung im Universum
trennen konnen. Falls also extraterrestrische Wesen diese informationsmaig
ezienteste Art der Nachrichten ubertragung nutzen, werden wir davon nie
erfahren konnen.
Literatur
[1] Noam Chomsky. Aspects of the Theory of Syntax. The MIT press,
Cambridge, Massachusetts, 1965.
[2] Umberto Eco. Einf uhrung in die Semiotik. Wilhelm Fink, M unchen,
1972.
[3] W. Heise and P. Quattrocchi. Informations-und Codierungstheorie: ma-
thematische Grundlagen der Daten-Kompression und-Sicherung in dis-
kreten Kommunikationssystemen. Springer, 1995.
70
[4] E. Henze and H.H. Homuth. Einf uhrung in die Codierungstheorie: Stu-
dienbuch f ur Mathematiker, Informatiker, Naturwissenschaftler und In-
genieure ab 3. Semester. Vieweg, 1974.
[5] Hans H. Hermann. Lechners Fremdworterbuch. Lechern Verlag, 1994.
[6] Rainer Kayser. Seti: Geht die botschaft im rauschen unter? http://
www.astronews.com/news/artikel/2004/12/0412-005.shtml, April
2010.
[7] H. Klimant, R. Piotraschke, and D. Sch
oonfeld. Informations-und Kodierungstheorie. Vieweg+ Teubner Verlag,
2006.
[8] M. Lachmann, MEJ Newman, and C. Moore. The physical limits of
communication. American Journal of Physics, 72:1290, 2004.
[9] Holger Lyre. Informationstheorie. Eine philosophisch-
naturwissenschaftliche Einf uhrung. Wilhelm Fink, M unchen, February
2002.
[10] Mils. One time key encryption. http://www.mils.com/pages/en/
technology/unbreakable/onetimekey, April 2010.
[11] P. Neidhardt. Einf uhrung in die Informationstheorie. Verlag Technik,
1957.
[12] E. Oeser. Wissenschaft und Information: Wissenschaftstheorie und em-
pirische Wissenschaftsforschung. Oldenbourg, Wien, 1976.
[13] G. Raisbeck. Informationstheorie, Eine Einf uhrung f ur Naturwissen-
schaftler und Ingenieure. Akademie-Verlag Berlin.
[14] Dirk Rijmenants. Bigram table. http://users.telenet.be/d.
rijmenants/bigram.txt, April 2010.
[15] Dirk Rijmenants. Cipher machines and cryptology: Onetimepad. http:
//users.telenet.be/d.rijmenants/en/onetimepad.htm, April 2010.
[16] Claude Elwood Shannon. Communication theory of secrecy systems.
Bell Systems Technical Journal, 28:682, 1949.
71
[17] Karl Steinbuch. Die Lernmatrix. Biological Cybernetics, 1(1):3645,
1961.
[18] Alan Mathison Turing. Computing machinery and intelligence. Mind,
59(236):433460, 1950.
[19] Ruth K ufner u.a. Groses Fremdworterbuch. VEB Bibliographisches
Institut, 1979.
[20] Wikipedia. Claude elwood shannon, December 2009.
[21] Wikipedia. Code. http://de.wikipedia.org/wiki/Code, February
2010.
[22] Wikipedia. Linearer code. http://de.wikipedia.org/wiki/
Linearer_Code, February 2010.
[23] D. Wille and M. Holz. Repetitorium der Linearen Algebra. 1. Binomi,
1991.
72

Das könnte Ihnen auch gefallen