ei
1.4. Übersicht über Sinnesmodalitäten
* • Empfindlich von etwa 20 Hz - 20 kHz (≈ 10 Oktaven)
2. Sprachkommunikation
1.3. Trends in der MMK
• Steigerung der Leistungsfähigkeit Ermittlung der geäußerten Wortfolge aus einem vorliegenden Frequenzbewertung Verfahren zur frequenzabhängigen Anpassung von
• Reduzierung der Kosten Sprachsignal und Verarbeitung dieser Information. Die Sprachkom- Schalldruckpegeln an das menschliche Hörempfinden (nichtlinear zur
• Erweiterung der Funktionalität munikation hat größtes Potential aller Eingabemethoden, da sie Lautstärke). Hierfür werden verschiedene Filterkurven verwendet: A(20–40
• Verbesserung der Bedienbarkeit auch beim Menschen die häufigste und natürlichste Kommunika- phon), B(50–70 phon), C(80–90 phon), D(sehr hohe Schalldrücke) mit
tionsform ist. gleichem Lautstärkeeindruck. Lautheit N in Sone ist angepasstes Sche-
ma.
2.1. Physikalische Wellen Frequenzgruppen (24) begrenzte Auflösung des Gehörs; jede Frequenz-
Transversalwelle: Longitudinalwelle (z.B. Schall): gruppe nimmt gleiche Länge auf Basilarmembran ein (1,3mm - unter 500
Hz = 100Hz, drüber kleine Terz 1,19 der Mittenfrequenz); Bark-Skala;
1.31 Bark = 131 mel = 131 Hz.; Blätterrauschen in Ferne L = 10dB,
Düsenjäger in 30 m L = 140dB.
Verdeckungen Hörschwelle bei Störschall (Maskierer);
• Spektrale: verbreitet sich mit steigendem Pegel überproportional.
• Zeitliche: Vorverdeckung; Simultanverdeckung; Nachverdeckung (ei-
nige hundert ms).
Kompression: Mithörschwelle über Verdeckungen ermitteln; MP3 ab 160
kBit/s.
Homepage: www.latex4ei.de – Fehler bitte sofort melden. von Fabian Göttel, Hendrik Böttcher und Lukas Kompatscher – Mail: lukas.kompatscher@tum.de Stand: 5. March 2020 um 05:08 Uhr (git 21) 1/4
2.4. Menschliche Spracherzeugung 3. Grammatiken 4. Automatentheorie 5. Spracherkennung
Natürlichsprachige Systeme; Modellierung von Dialogen. Verarbeitung von Symbolfolgen; Modellierung von Dialogen; Spracherkennung beschäftigt sich mit der Untersuchung und Ent-
wicklung von Verfahren, die Automaten, insbesondere Compu-
tern, die gesprochene Sprache der automatischen Datenerfassung
3.1. Kontextfreie Grammatiken (CFG) 4.1. Zustandsautomat zugänglich macht.
G = {V, T, P, S} mit Graphenform; bestimmte Anzahl von Knoten (Zustände) und Verbindun-
• V ≡ Variable (Großbuchstaben) gen (Transitionen).
• T ≡ Terminale (Kleinbuchstaben) Z = (S, X , T , s0 , F ) 5.1. Klassifizierung
e Zuordnung zu Bedeutungseinheiten; Merkmalsextraktion; Merkmalsvek-
• P ≡ Produktionsregel (A → α mit A ∈ {V } und α ∈ • S Set mit endlicher Anzahl Zustände
{V ∪ T }) tor; Merkmalsraum; Klassen; Training;
• X zulässiges Alphabet für die zu verarbeitende Symbolfolge X
• S ≡ Startsymbol • T Transitionsfunktionen für die Zustände in S
3.1.1. Chomsky-NormalForm (CNF) • se0 Anfangszustand 5.2. Abstandsklassifikatoren
Enthält nur Produktionsregeln, bei denen auf der rechten Seite nur zwei Distanz eines Mustervektors zu Klasse;
Variablen oder nur ein terminaler Ausdruck steht: • F ein Set von festgelegten Endzuständen
• ⃗ x unbekannter, zu klassifizierende Mustervektor
Transitionsfunktion als Regel: t(s− , xi ) = s+
A → BC oder A → a • ⃗ rk,i i-ter Referenzvektor für die k-te Klasse
Umwandlung: Zustandsautomat in Grammatik • m ⃗ k Klassenzentrum der Klasse k
3.1.2. Backus-Naur-Form (BNF)
Formal exakte Definition von Programmiersprachen. Nichtterminalsymbo- 1. Zustänge werden Variable: S ⇒ V • dk (⃗ x, m⃗ k ) Abstandsformel
le werden syntaktische Variablen genannt und durch < > gekennzeichnet. 2. Eingabealph. wird zu Terminal: X ⇒ T • kx Klasse mit minimalen Abstand zu ⃗ x
Darstellung von Wiederholungen durch Rekursion. Formeln
3. Transitionen werden Produktionsregeln: T ⇒ P,
2.4.1. Phoneme • | Alternative z.B. P = {S → aA, ArabA e
Das Phonem ist die kleinste bedeutungsunterscheidende Einheit des ge- Mk
• (. . . ) Gruppierung 4. Für jeden Endzustand sE erstelle Produktionsregel, 1 X
sprochenen Wortes. m
⃗k = ⃗
rk,i
• [. . . ] oder (. . . )? Option z.B. für B als Endzustand ⇒ P = {. . . , B → ϵ} Mk i=1
• (. . . )∗ optionale Wiederholung (keinmal, ein- oder mehrfach)
T
• (. . . )+ Wiederholung (ein- oder mehrfach) Endliche Zustandsautomaten Automat mit endlicher Menge von dk (⃗
x, m x−m
⃗ k ) = (⃗ ⃗ k) · W k · (⃗
x−m
⃗ k)
3.1.3. Erweiterte Backus-Naur-Form (EBNF) Zuständen S f
• [. . . ] Option kx = argmin dk (⃗
x, m
⃗ k)
• . . . optionale Wiederholung (keinmal, ein- oder mehrfach) Deterministische Zustandsautomaten Automat, in dem die Folge- x
• n∗ abgezählte Wiederholung zustände immer eindeutig definiert sind durch den aktuellen Zustand und
Eingabesymbol Trennfunktion:
3.1.4. Parsing
Satzgenerierung: Produktionsregeln solange anwenden, bis alle Variablen d1 (x, m1 ) − d2 (x, m2 ) = 0
V durch terminale Symbole T ersetzt sind; Parse-Tree; Ambiguitäten; Deterministisch: Nicht Deterministisch:
Gewichtsmatrix Wk entscheidend über Ergebnis; mk wird im Training
3.1.5. Anwendung von Grammatiken in KI ermittelt; x gehört zur Klasse k mit minimalen Abstand;
Sprache; Mustererkennung;
Quadratischer Abstand Wk ist Einheitsmatrix; Trennfunktion ist eine
Gerade;
3.2. Beispiele Grammatiken
Palindrom-String: Transitionsregeln in Tabellenform: Mahalanobis Abstand Inverse der Kovarianzmatrix; Abhängig von Klas-
S → aSa|bSb|a ∗ |b∗ S = {s0 , s1 , s2 , s3 } se; Bestandteil des Trainings; Trennfunktion ist Kegelschnitt (Gerade, El-
lipse, Parabel, Hyperbel).
Doppelte Anzahl a wie b: X = {0, 1}
Systematische Einteilung der Phoneme: F = {s0 } Mk
S → A|SA|AS|aSC|CSa|aSD|DSa|bSB|BSb 1 X T T
Ck = rk,i · rk,i − mk · mk
⃗
A → Bb|Ca|Da Mk i=1
e
B → aa C → ab D → ba W k = Ck
−1
4.2. Kellerautomaten
Grammatik-Grammatik: Komplexere Grammatiken; Erweiterung mit Stack (LIFO-Queue); Transi- f e " #
tion abhängig von Stack und Eingang; Stack leer ⇒ Folge akzeptiert; −1 1 d −b
S (Satz), NP (Nominalphrase), VP (Verbalphrase), PP A =
(Päpositionalphrase), DET (Determinator, Artikel), ADJ (Adjektiv), ad − bc −c a
Z = (S, X , Y, T , s0 , y0 , F )
AUX (Hilfswort), V (Verb), PRE (Präposition) und N (Nomen) e
• Y zulässiges Alphabet für den Stack
S → NP VP|VP NP 5.3. Cepstrum
• y0 Startsymbol für den Stack
NP → DET N|ADJ N|DET NP|NP PP • F ein Set von festgelegten Endzuständen (leer wenn Endzustand über
VP → V NP|AUX V|V PP|V NP|VP PP|AUX VP leeren Stack definiert ist)
PP → PRE NP • (Für S, X , T , s0 siehe Zustandsautomat)
e
DET → der“, die“, das“,... Aktionen:
” ” ” • push(x) lege x auf den Stack
ADJ → klein“, groß“,...
” ” • pop() lese und entferne oberste Stack-Element
AUX → wird“,... • ε keine Aktion Praktische Berechnung:
”
V → streicheln“,... • # leeres Stack (erster und letzter Schritt) • Selektion eines Zeitfensters für das betrachtete Sprachsignal
” • Fourier-Transformation dieses Signals in den Frequenzbereich
PRE → in“, mit“,... Beispiel für einen Kellerautomaten:
” ” • Bilden des Betrags des resultierenden (komplexen) Spektrums
N → Junge“, Hund“, Hand“,... • Logarithmierung des Amplitudenspektrums
” ” ” S = {S0 , S1 }
• Rücktransformation mit inverser FT
X = {a, b}
Y = {#, a}
y0 = #
F = {} (Ende durch leeren Stack)
Homepage: www.latex4ei.de – Fehler bitte sofort melden. von Fabian Göttel, Hendrik Böttcher und Lukas Kompatscher – Mail: lukas.kompatscher@tum.de Stand: 5. March 2020 um 05:08 Uhr (git 21) 2/4
6. Hidden-Markov-Modelle und Algorithmen 6.3. HMM in der Spracherkennung 6.4.3. Baum-Welch-Algorithmus 7. Suchverfahren
Rückwärtswahrscheinlichkeit:
Wahrscheinlichkeit Statistischer Klassifikator. Liefert Wahschein- Cepstrum; Merkmalsexrahierung; 12D Merkmalsvektor; βt (i) = P (ot+1 , ot+2 , . . . , oT |qt = si , λk ); Formulierung und Darstellung eines Problems im Zustandsraum;
lichkeit p, dass eine Beobachtung einer bestimmten Klasse zu- d.h. Wahrscheinlichkeit, die restlichen Teilbeob. zu emmttieren; Graphen-Darstellung; Suchbaum;
geordnet werden kann. Klassifizieren ganze Sequenzen (dyna- 6.3.1. Modelle
mische Folgen). Finde diejenige Klasse, die die Beobachtung Einzelworterkenner vs. fließende Sprache; Phoneme, kleinste bedeutungs- Baum-Welch-Algorithmus (Rekursiv)
” unterscheidenden Lauteinheiten; HMM pro Phonem; Pausen; Zyklische Wiederholungen unterbinden (gerichtete Kanten im
o = (o1 , o2 , . . . , ot ) am besten nachbilden kann.“. 1. Initialisierung
6.3.2. Training Baum).
Zusammenfassung der Phonem HMM zu einem HMM; βT (i) = 1 1 ≤ i ≤ N
6.3.3. Erkennung
6.1. Markov-Modelle (MM) Wörterbücher, Grammatiken, Wahrscheinlichkeiten bestimmter Phonem-
Abbildung stochastischer Prozesse, deren aktueller Zustand nur vom vor- 2. Induktion 7.1. Allgemeiner Algorithmus für Suche
kombinationen, Sprachmodelle für Wortkombinationen; N
ausgegangenen Zustand abhängt. P Suchalgorithmus
βt (i) = aij bj (ot+1 )βt+1 (j)
• Matrix der Übergangswkt.: A = p qt+1 = sj |qt = si j=1
6.4. HMM-Algorithmen 1. Initialisiere Queue
• Vektor der Einsprungswkt.: e t = T − 1, T − 2, . . . 1 1≤i≤N
e = (p(q1 = s1 ), . . . , p(q1 = sN ))T
⃗ 6.4.1. Trellis 2. Schreibe Startknoten in Queue
Mathematische Formel zur Berechnung der Beobachtungswkt. 3. Wiederhole:
Für verschiedene Wege q gilt: Wahrscheinlichkeit, dass sich dass HMM zu t im Zustand si befindet und a) Queue leer? ⇒ SZiel nicht gefunden”
T o emmitiert wird; Summe drüber ⇒ alle Aufenthalte im Zustand si“ b) Entnehme nächsten Knoten
”
Q
p(⃗ ⃗|λk ) = eq1 bq1 (o1 )
o, q aqt−1 qt bqt (ot ) Beobachtungswah-
t=2 αt (i)βt (i) c) Knoten == Ziel? ⇒ SZiel erreicht”
scheinlichkeit: γt (i) = d) Schreibe alle Kinder des Knotens in die Queue
N
P
o|λk ) =
p(⃗
X
p(⃗ ⃗|λk )
o, q αt (i)βt (i) e) Update Queue
i=1
q∈Q
Art des Algorithmus betimmt die Art der Queue, und damit die Update-
T Wahrscheinlichkeit, dass sich das HMM zu t in si und zu t+1 in sj Funktion:
X Y
= eq1 bq1 (o1 ) aqt−1 qt bqt (ot ) befindet; Summe drüber ⇒ aller Übergänge von si zu sj ;
” Suchalgorithmus Art der Queue
q∈Q t=2
αt (i)aij bj (ot+1 )βt+1 (j)
ξt (i, j) = Breitensuche FIFO-Queue
Benötigte OPS ∼ 2T · N T (sehr rechenintensiv) N
Tiefensuche LIFO-Queue (Stack)
P
αt (i)βt (i)
i=1 A-Suche Priotiy-Queue
6.4.2. Vorwärts-Algorithmus
Vorwärts-Wahrscheinlichkeit: N
X A*-Suche Priotiy-Queue mit heuristischen Kosten als Priorität
αt (i) = P(o1 , o2 , . . . , ot , qt = si |λk ) γt (i) = ξ Dijkstra Priotiy-Queue mit bisherige Weg als Heuristik
d.h. die Wahrscheinlichkeit, dass die Teilbeobachtung oi emittiert werden j=1
und das sich das HMM zu t im Zustand si befindet;
Homepage: www.latex4ei.de – Fehler bitte sofort melden. von Fabian Göttel, Hendrik Böttcher und Lukas Kompatscher – Mail: lukas.kompatscher@tum.de Stand: 5. March 2020 um 05:08 Uhr (git 21) 3/4
8. Logik und Theorembeweisen 8.4. Theorembeweis mit Resolutionsverfahren 10. Handschrifterkennung
Allgemeines Resolutionsgesetz: Schriftgröße
Wissen algorithmisch darstellen; Fakten ableiten; Behauptungen
10.1. Vorverarbeitung 1. Schätzen der Referenzlinien
bestätigen / widerlegen; (X + A) · (¬X + B) ≡ (X + A) · (¬X + B) · (A + B)
Eingabemethoden 2. Berechnung der Kernhöhe
| {z }
Resolvente 3. Normirung des Schriftzuges
8.1. Aussagenlogik 1. freie Eingabe (hohe Vorverarbeitung)
atomare Aussagen; wahr oder falsch; UND , ODER, NICHT; Implikation Spezielles Resolutionsgesetz: 2. liniengeführte Eingabe W: Höhe der Bins, P: Projektionsprofil
⇒; 3. feldgeführte Eingabe Oberlängenlinie: yober = ymax , Unterlängenlinie: yunter = ymin
(X + A) · (¬X + A) ≡ A d
Kernlinie: ykern = argmin( dj Py (j)) − 0.5)W + ymin
8.2. Prädikatenlogik Absorptionsgesetz: x(t) = (x(t), y(t), p(t))T
Eingangssignal: ⃗ d
Basislinie: ygrund = argmax( dj Py (j)) − 0.5)W + ymin
Analyse und Bewertung von Beziehungen und logischen Verknüpfungen (A + B) · A ≡ A
1. Ordnung ⇒ nur Veränderung von Objekten, nicht Prädikaten Kernhöhe: hkern = |ykern − ygrund |
Weitere Sonderfälle: x(t) x-Koordinate Normierung:
Prädikate und Funktionen, Konstanten, Variablen, Funktionen, Negation, " #
Disjunktion, Konjunktion, Existenz-Quantor, All-Quantor, Implikation, 1. A y(t) y-Koordinate x[k] − xmin
p(t) Druck (des Stifts) xnorm [k] = h 1
⃗ hkern
Äquivalenz. kern y[k] − (ygrund + )
A ⇒ B ≡ ¬A + B R≡B 2
Beispiel: In jeder Stadt gibt es einen Bürgermeister“ 2. A + B
”
(∀x) {Stadt(x) ⇒ (∃y) [Mensch(y) · Bgm(x, y)]} ¬A + B R≡B+B =B 10.2. Merkmalsextraktion
10.1.1. Abtastung
Extraktion aus dem normalisierten Schriftzug
Regeln und Zusammenhänge aufstellen; ⇒ Regelwerk (Axiome); Frage 3. A Abtastung / Neuabtastung Sekantensteigungswinkel:
(
(Theorem); Beweis durch Wahrheitstabelle oder Umformen der Regeln ∆y
¬A R ≡ N IL 1. Diskretisierung von ⃗x(t) mit n · ∆T ⇒ zeitäquidistante Abtas- arctan( ∆x )− π sgn(∆x) für ∆x ̸= 0
und Schlussfolgern (Resolution, Unifikation - effektiver); θ[k] = π 2
+ π 2
4. A ⇒ B ≡ ¬A + B tung 2
(1 − sgn(∆x)) für ∆x = 0
2. Lineare Interpolation der Stifttrajektorie ∆x = xnorm [k + 1] − xnorm [k], ∆y = ynorm [k + 1] −
B ⇒ C ≡ ¬B + C R ≡ ¬A + C ≡ A ⇒ C
3. Neuabtastung ⇒ ortsäquidistante Abtastpunkte ⃗
xre [k] ynorm [k]
Anwendung beim Theorembeweis: Richtungsänderung:
Geg.: Set von n existierenden und bewiesenen Axiomen S = r (t) = (x(t), y(t))T :
Länge einer Kurve ⃗ ∆θ[k] = θ[k + 1] − θ[k]
{S1 . . . Sn } ; Es gilt T zu beweisenn ´b
r sin(θ[k])
dx(t) 2 dy(t)
Vorgehen: Erweiterung von S zu S ∗ = {S1 . . . Sn , ¬T } Und Resolu- L(a, b) = ( dt ) + ( dt )2 dt cos(θ[k])
a
tionieren bis leere Klausel erzeugt wird. 5-dim. Merkmalsvektor: m[k]
⃗ = sin(∆θ[k])
Erklärung: Statt Beweis wird Unerfüllbarkeit seines Gegenteils gezeigt. Druckkomponente: pn = p1 + k · (p2 − p1 )
cos(∆θ[k])
Homepage: www.latex4ei.de – Fehler bitte sofort melden. von Fabian Göttel, Hendrik Böttcher und Lukas Kompatscher – Mail: lukas.kompatscher@tum.de Stand: 5. March 2020 um 05:08 Uhr (git 21) 4/4