Beruflich Dokumente
Kultur Dokumente
Linear Classifiers 3
Prof. Dr. Rudi Studer, Dr. Achim Rettinger*, Dipl.-Inform. Lei Zhang
{rudi.studer, achim.rettinger, l.zhang}@kit.edu
3 Institut AIFB
Die Datenmatrix für Überwachtes Lernen
Xj j-te Eingangsvariable
X = (X0, . . . , XM 1)T
Vektor von Eingangsvariablen
M Anzahl der Eingangsvariablen
N Anzahl der Datenpunkte
Y Ausgangsvariable
xi = (xi,0, . . . , xi,M 1)T
i-ter Eingangsvektor
xi,j j-te Komponente von xi
yi i-te Zielgröße
di = (xi,0, . . . , xi,M 1, yi)T
i-tes Muster
D = {d1, . . . , dN }
(Trainings-) Datensatz
z Testeingangsvektor
t Unbekannte Testzielgröße zu z
X = (x1, . . . xN )T design matrix
1
4 Institut AIFB
Chapter III - 1
Linear Models
5 Institut AIFB
Today: Linear Models
Next times:
ANNs: Extension to non-linear problems
6 Institut AIFB
Chaper 3.1.a
Linear Regression
7 Institut AIFB
nste-Quadrate Schätzer für lineare Regression
Concepts from Statistics in ML
(eindimensional)
Empirical Risk Minimization
Modell: Regularization
w ) = w0 + w1 x
= (w0, w1)T
dratischer Fehler:
N
X
(yi f (xi, w))2
i=1
8 Institut AIFB
•Supervised
Die einzige
• Die einzige wesentliche
Learning:
wesentliche Annahme
Annahme ist, dass
ist, dass (x,station
P (xP, y) y) station är (fest
är (fest undund unbe
unbeka
Vector of inputs: X = (X1 , X2 , ..., Xn )
• Man •definiert
Man definiert
Singleeine
eine Klasse
Klasse
output:
von Lernmaschinen
Yvon Lernmaschinen (Funktionenklasse)
(Funktionenklasse)
9 Institut AIFB
Empirische Risiko Minimierung (2)
Empirische Risiko Minimierung (2)
6
10
6
Institut AIFB
che Risiko Minimierung (3)
Empirical Risk Minimization
r Wahrscheinlichleitslehre (3/4)nimmt man an, dass P (x, y) be
(Probability)
Minimierung (3)
ine
ehretypische Aufgabe
Probability
(Probability) nimmtistman
es dann,
theory z.B.Pden
assumes
an, dass besten
(x, y) to belinearen
known Schätzer zu find
bekannt
ist es dann, z.B. den besten linearen Schätzer zu finden
er
y) Statistik istan,P (dass
x, y)
In Statistics
nimmt man P (xunbekannt;
, y) is manand
unknown
bekannt kennt nurto be
needs einen Trainingsdate
denunbekannt;
y)
hprobe, sample)
besten man
estimated
linearen kennt
from
derSch
Grätzernur
ößedata einen
zu ,D;
N withTrainingsdatensatz
finden a sample of size N
Größe N ,
D = {( x , y )} N
man kennt nur einen Trainingsdatensatz i i i=1
D = {(xi, yi)}i=1 N
nehmenN an, dass die Daten i.i.d. (independent, identically distributed) sind
i, yi)}i.i.d.
Daten i=1 (independent, identically
Assumption: data is i.i.d.distributed)
(independentsindand identically
distributed)
pendent, identically distributed) sind
11 Institut AIFB
7
Empirische Risiko Minimierung (4)
Empirische Risiko Minimierung (4)
Estimate: w, b
13 Institut AIFB
Least Squares Estimate for Linear Regression
X N
Least Squares:
RSS(w) = (yi xTi w)2
i=1
Vectorform: Ŷ = X w
T
ŵ = (X T X) 1
XT Y
(notation: RSS = R_emp in previous slides)
14 Institut AIFB
st,
inzige P (x, y) station
dasswesentliche är istist, dass P (x, y) stationär ist
Annahme
ein zu
teil: fürkomplexes
ein Modell
endliches ausgew
N wird
Regularization ein ählt (Überanpas-
zu komplexes Modell ausgewählt (Überanpas-
, overfitting)
Risk of overfitting when using Empirical Risk Minimization
zeigt
ŵLS sich Especially
sehrebenso sein not
daran,
instabil robust
dass
kann ŵLSif sehr
(wenn M ⇡instabil sein kann (wenn M ⇡ N ), das
N ), das
, sehr empfindlich
Änderungen auf kleine
der Daten Änderungen der Daten reagiert
reagiert
Solution:
Lineare Regularization
Regression(Theory of ill-conditioned
und Regularisierung
em Problem
durch behilfteines
problems)
Einführung manStrafterms
sich durch Einführung eines Strafterms
ŵP en = XT X + I XT y
Chapter 3.1.b
Linear Classifiers
16 Institut AIFB
2D Beispiel
17 Institut AIFB
Lineare Regression: X1
M
eon:
Regression: f (xi, w) = w0 + w
• Lineare Regression: M 1
Classification byMRegression
1 M
X 1 X j=1
X
f (xi, w) = w0 + wj xM 1
f (
f (xi, w) = w xi 0+
, w ) = w +
0wj xi,j w x
j i,j X
i,j
Linear Regression f (xi , w) = j=1w0 + wj xi,j = xT w
j=1 j=1 i
j=1
T = xT w
= xT
i w =•xiWir i
w definieren alsT Zielgröße yi = 1 falls Muster xi z
= xi w
falls Muster xi zu Klasse 0 gehört
Wir definieren als Zielgröße yi = 1 falls Muster xi zu Klasse 1 gehört und yi = 0
finieren i =öße
yDefine
als Zielgr
s Zielgröße yi =
1 falls 1 falls
if xiMuster
Muster is assigned
zu xi zu
Klasse 1 gehtoört
class
Klasse 1 geh
und1yand =und
iört yi = 0
0 otherwise
• Wir
falls Muster xidefinieren
zu Klasseals Zielgr
0 geh ört•ößeWir = 1 falls Muster
yi berechnen Gewichte xiwzuLSKlasse
= (X 1 Tgeh
X )ört1und
X Tyyi a
uster
zu Klasse 0 geh
xi zu ört 0 gehört
Klasse
falls Muster xi zu Klasse 0linearen gehört Regression
Wir berechnen Calculate
Gewichte
T wLS1 =TT (X 1X)T 1XT y als
T asLS-L
before.
ösung, genau wie in der
Gewichte wLS = (wXLSX=
rechnen Gewichte ) (X XX y)als X LS-Lyösung, genau
alsT LS-L wie
ösung,
1 T in der wie in der
genau
Wir berechnen Gewichte• wFLS
linearen•Regression = (Xneues
ür einen X)Muster X yz als LS-Lösung,
berechnen wir genau
f (z) wie
= zin
nonRegression
linearen
All newRegression
x are assigned to class
Klasse 1 if Tf (z) > 1/2; ansonsten ordnen wir
1 zu falls
Für einen neues Muster z berechnenTwir f (z)T = z wLS und ordnen das Muster
nen neuesz Muster
Muster berechnen wir f (z) wir
z berechnen = fz (zw)LS = und
z wordnen
LS unddasordnen
Muster
T das Muster
Klasse 1•zuFür einen
falls f (zneues Muster
) > 1/2; z berechnen
ansonsten ordnenwir (z) Muster
wirf das = z w LS und
Klasse 0 zuordnen das M
1f (zuz)falls
> 1/2;
f (Called
z)ansonsten
> 1/2;
“Linear Discriminant
ordnen
ansonstenwirordnen Function”
das Muster
wir Klasse
das 0 zu
Muster Klasse 0 zu
Klasse 1 zu falls f (z) > 1/2; ansonsten ordnen wir das Muster Klasse 0 zu
18 Institut AIFB
10
10 10
1
ExampleKlassifikation durch Regression mit linearen Funktionen
19 Institut AIFB
12
Chapter 3.2.a
The Perceptron
(Single Layer ANN)
20 Institut AIFB
Introduction
Key ideas:
Simple, adaptive computational units (artificial neurons),
Connections between neurons for information propagation.
Key properties:
ANNs are a powerful and flexible learning method,
ANNs show a black-box behavior: the eventual model is not easy to
understand for humans and hard to analyze theoretically.
21 Institut AIFB
Biological Inspiration:
Neural Information Processing
22 Institut AIFB
Biological Inspiration:
Neural Information Processing
23 Institut AIFB
Abstract Model of the Neuron
Cell body
Dendrites
Axon
Summation
Activation function
Variants:
The McCulloch-Pitts Model (1947) considers only binary inputs & weights
McCulloch, W., and W. Pitts (1947), “How We Know Universals: the Perception of Auditory and Visual Forms”, Bulletin of Mathematical
Biophysics, Vol. 9, pp. 127–147.
The Perceptron (Rosenblatt, 1958) considers any real-valued inputs & weights.
Rosenblatt, F. (1958), “The Perceptron: a Probabilistic Model for Information Storage and Organization in the Brain”, Psychological
Review, Vol. 65, pp. 386–408.
24 Institut AIFB
Formal Perceptron Model
25 Institut AIFB
Sign- (Threshold- / Step-) Function
Convention: sign(0) = -1
NB: alternative formulation for threshold b = - θ
corresponds to step function at θ .
26 Institut AIFB
Perceptron: Linear Threshold Functions
27 Institut AIFB
Linear Classifiers: Geometric Interpretation
28 Institut AIFB
Linear Classifiers: Geometric Interpretation
29 Institut AIFB
Example: Classification of Iris Setosa
30 Institut AIFB
Linear Classifiers: Alternative Formulation
33 Institut AIFB
Perceptron Training Task (1st Version)
34 Institut AIFB
“Perceptron Training” Algorithm
35 Institut AIFB
Convergence of “Perceptron Training”
36 Institut AIFB
Convergence of „Perceptron Training“
37 Institut AIFB
Example: Classification of Iris Setosa
38 Institut AIFB
Example: Classification of Iris Versicolor
??
39 Institut AIFB
Linear Separability
40 Institut AIFB
Perceptron Training Task (2nd Version)
41 Institut AIFB
Unthresholded Perceptron
vs
42 Institut AIFB
Squared Error
44 Institut AIFB
Error Surface and Gradient Descent
w1
w2
Direction of steepest descent along the error surface Figure taken from Mitchell (1997)
45 Institut AIFB
Gradient Descent
46 Institut AIFB
Derivation of Gradient for Squared Error
NB: Derivation is analogous for b = w0 (by assuming x0=1 for any input)
47 Institut AIFB
Gradient Descent Training for Perceptrons
(Batch Version)
see later
48 Institut AIFB
Gradient Descent: Batch version vs Delta Rule
49 Institut AIFB
Gradient Descent Training for Perceptrons
(Delta Rule Version)
50 Institut AIFB
Choice of Learning Rate and Termination Criterion
Learning rate α:
moderates the width of update steps, actually hard to choose
large steps may jump to far over a possible solution
small steps may lead to too many iterations
sometimes implemented as a function of the iterations which
becomes smaller over time.
51 Institut AIFB
„Perceptron Training“ vs Gradient Descent
52 Institut AIFB
Review: Perceptron – Components
Model class
Learning algorithm
Optimization criterion
58 Institut AIFB
Knowledge Discovery Lecture WS14/15
22.10.2014 Einführung
Basics, Overview
29.10.2014 Design of KD-experiments
05.11.2014 Linear Classifiers
12.11.2014 Data Warehousing & OLAP
19.11.2014 Non-Linear Classifiers (ANNs) Supervised Techniques,
26.11.2014 Kernels, SVM Vector+Label Representation
03.12.2014 entfällt
10.12.2014 Decision Trees
17.12.2014 IBL & Clustering Unsupervised Techniques
07.01.2015 Relational Learning I
Semi-supervised Techniques,
14.01.2015 Relational Learning II
Relational Representation
21.01.2015 Relational Learning III
28.01.2015 Textmining
04.01.2015 Gastvortrag Meta-Topics
11.02.2015 Crisp, Visualisierung
59 Institut AIFB