Sie sind auf Seite 1von 37

1

Regressionsanalyse

I

~

L) r

1.1

Problemstellung

1.2

Vorgehensweise

1.2.1

Modellformulierung

,1.2.2

Schätzung der Regressionsfunktion

1.2.2.1

Einfache Regression

1.2.2.2

Multiple Regression

1.2.3

Prüfung der Regressionsfunktion

1.2.3.1

Bestimmtheitsmaß

1.2.3.2

F-Statistik

1.2.3.3

Standardfehler der Schätzung

1.2.4.

Prüfung der Regressionskoeffizienten

1.2.4.1

t-Test des Regressionskoeffizienten

1.2.4.2

Konfidenzintervall des Regressionskoeffizienten

1.2.5

Prüfung der MOQ,ellprämissen

1.2.5.1

Nichtlinearität

1.2.5.1.1

Erwartungswert der Störgröße ungleich Null

1.2.5.1.2

Falsche Auswahl der Regressoren

1.2.5.2

Heteroskedastizität

1.2.5.3

Autokorrelation

1.2.5.4

1.2.5.5

Nicht-Normalverteilung der Störgrößen

1.3

Fallbeispiel

1.3.1

Blockweise Regressionsanalyse

1.3.2

Schrittweise Regressionsanalyse

1.3.3

SPSS-Kommandos

1.4

Anwendungsempfehlungen

1.5

Mathematischer Anhang

46

51

52

53

53

60

63

63

68

73

73

73

76

77

79

82

83

84

87

88

91

93

93

l04

110

112

113

.'

1.1

yrOOlemsteUung

Die Regressionsanalyse bildet eines der flexibelsten und am häufigsten eingesetz­ ten statistischen Analyseverfahren. Sie dient der Analyse von Beziehungen zwi­ schen einer abhängigen Variablen und einer oder mehreren unabhängigen Va­ riablen (Abbildung 1.1). Insbesondere wird sie eingesetzt, um

- Zusammenhänge quantitativ zu beschrei):>en und sie zu erklären, - Werte der abhängigen Variablen zu schätzen bzw. zu prognostiz~eren.

Beispiel: Untersucht wird der Zusammenhang zwischen dem Absatz eines Produk­ tes und seinem Preis sowie anderen den Absatz beeinflussenden Variablen, wie Werbung, Verkaufsf'örderung etc. Die Regressionsanalyse bietet in einem solchen Fall Hilfe bei z.B. folgenden Fragen: Wie wirkt der Preis auf die Absatzmenge? Welche Absatzmenge ist zu erwarten, wenn der Preis und gleichzeitig auch die Werbeausgaben um vorgegebene Größen verändert werden? (Abbildung 1.2)

Abbildung 1.1:

Die Variablen der Regressionsanalyse

REGRESSIONSANALYSE

eine ABHÄNGIGE VARIABLE metrisch

eine oder mehrere UNABHÄNGIGE VARIABLE metrisch und nominal

Y

Xl' Xz, Xi,"" X J

,

Abbildung 1.2:

Beispiel zur Regressionsanalyse

REGRESSIONSANALYSE

Absatzmenge eines

 

Preis

Produktes

Werbung

 

Verkaufsilirderung

 

Y

etc.

Xl' X 2

,

X j ,

,

X

J

     

r

Der primäre Anwendungsbereich der Regressionsanalyse ist die Untersuchung von Kausalbeziehungen (Ursache-Wirkungs-Beziehungen), die wir auch als Je-Desto­ Beziehungen bezeichnen können. Im einfachsten Fall läßt sich eine solche Bezie­ hung zwischen zwei Variablen, der abhängigen Variablen Y und der unabhängigen Variablen X, wie folgt ausdrücken:

Y = f(X)

(la)

Beispiel: Absatzmenge = f(Preis). Je niedriger der Preis, desto größer die abge­ setzte Menge. Die Änderungen von Y sind Wirkungen der Änderungen von X (Ursache). Mit Hilfe der Regressionsanalyse läßt sich diese Beziehung quanti­ fizieren und damit angeben, wie groß die Änderung der Absatzmenge bei einer be­ stimmten Preisänderung ist. Bei vielen Problemstellungen liegt keine monokausale Beziehung vor, sondern die zu untersuchende Variable Y wird durch zahlreiche Größen beeinflußt. So wir­

t ken neben dem Preis auch andere Maßnahmen wie Werbung, Verkaufsf'örderung etc. auf die Absatzmenge. Dies läßt sich formal wie folgt ausdrucken:

Y

Probleme der Form (la) lassen sich mittels einfacher Regressionsana/yse behan­

deln und Probleme der Form

Fall muß der Untersucher vor Durchftlhrung einer Regressionsanalyse entscheiden, welches die abhängige und welches die unabhängige(n) Variable(n) ist (sind). Die­

se Entscheidung liegt oft auf der Hand. So ist sicherlich der Absatz eines Eisver­

käufers abhängig vom Wetter und nicht umgekehrt. Manchmal "jedoch ist diese Entscheidung schwierig. Beispiel: Zu untersuchen sind .die Beziehungen zwischen dem Absatz eines Pro­ duktes und seinem Bekanntheitsgrad. Welche der beiden Variablen ist die abhän­ gige, welche die unabhängige? Eine Erhöhung des Bekanntheitsgrades eines Pro­ duktes bewirkt Ld.R. auch eine Erhöhung der Absatzmenge. Umgekehrt aber wird der Absatz und die damit verbundene Verbreitung des Produktes auch eine Erhö­ hung des Bekanntheitsgrades bewirken. Ähnlich verhält es sich z.B. im Bereich der Volkswirtschaft zwischen Angebot und Nachfrage. Derartige interdependente Beziehungen lassen sich nicht mehr mit einer einzigen Gleichung erfassen. Vielmehr sind hierftlr Mehrgleichungsmodelle (simultane Gleichungssysteme) erforderlich, deren Behandlung den hier gegebenen Rahmen allerdings sprengen würde. Wir beschränken uns hier auf Fragestellungen, in de­ nen eine einseitige Wirkungsbeziehung unterstellt werden kann. Die Bezeichnungen "abhängige" und "unabhängige" Variable dürfen nicht dar­ über hinwegtäuschen, daß es sich bei der in einer Regressionsanalyse unterstellten Kausalbeziehung oft nur um eine Hypothese handelt, d.h. eine Vermutung des Un­ tersuchers. Eine derartige Hypothese muß immer auf ihre Plausibilität geprüft wer­ den, und dazu bedarf es außerstatistischen Wissens, d.h. theoretischer und sachlo­ glscher Uberlegungen oder auch der Durchftlhrung von Experimenten. 2

= f(X 1 ,

X 2 ,

,

X j ,

;

X J )

(1 b)

(1 b) mittels multipler Regressionsanalyse. In jedem

l

­

.

1 Siehe hierzu z.B. Schneeweiß, H., 1990, S. 242ff.; Kmenta, J., 1997, S. 651 ff.; Greene,

W.H., 1997, S. 708ff.

2 Siehe hierzu z.B. Hammann, P./Erichson, B., 2000, S. 180ff.

,

,,1&u

1.15

L-'.

~yplscne l'ragestellungen der Regressionsanalyse

Fragestellung

Abhängige Variable

Unabhängige Variable

1.

Hängt die Höhe des Ver- käuferumsatzes von der Zahl der Kundenbesuche ab?

Umsatz pro Verkäufer pro Periode

Zahl der Kundenbesuche pro Verkäufer pro Periode

2,

Wie wird sich der Absatz ändern, wenn die Wer- bung verdoppelt wird?

Absatzmenge pro Periode

Ausgaben rur Werbung pro Periode oder Sekunden Werbefunk oder Zahl der Inserate etc.

3,

Reicht es aus, die Be- ziehung zwischen Absatz und Werbung zu untersu­ chen oder haben auch Preis und Zahl der Ver­ treterbesuche eine Bedeu­ tung rur den Absatz?

Absatzmenge pro Periode

Zahl der Vertreterbesuche, Preis pro Packung, Ausga­ ben rur Werbung pro Peri­ ode

 

4.

Wie läßt sich die Entwick- lung des Absatzes in den nächsten Monaten schät­ zen?

   

Absatzmenge pro Monat t

Menge pro Monat t - k

 

(k

1,2, ""

K)

5,

Wie erfaßt man die Wir- kungsverzögerung der Werbung?

Absatzmenge in Periode t

Werbung in Periode t, Werbung in Periode t - 1, Werbung in Periode t - 2 etc,

 

6,

Wie wirkt eine Preis- erhöhung Von 10 % auf den Absatz, wenn gleich­ zeitig die Werbeausgaben um 10 % erhöht werden?

Absatzmenge pro Periode

 

Ausgaben rur Werbung, Preis, Einstellung und ko­ gnitive Dissonanz

 

7,

Sind das wahrgenommene

Anteile der Wiederho-

 
 

lungskäufe einer

Marke an

Rating-Werte rur empfun­ denes Risiko, Einstellung und kognitive Dissonanz

Risiko, die Einstellung zu einer Marke und die Ab­ , neigung gegen kognitive Dissonanzen Faktoren, die die Markentreue von Kon­ sumenten beeinflussen?

allen Käufen eines be­ stimmten Produktes durch einen Käufer

Es soll hier betont werden, daß sich weder mittels Regressionsanalyse noch sonsti­ ger statistischer Verfahren Kausalitäten zweifelsfrei nachweisen lassen. Vielmehr vermag die Regressionsanalyse nur Korrelationen zwischen Variablen nachzuwei­ sen, Dies ist zwar eine notwendige aber noch keine hinreichende Bedingung für

Kausalität Im Gegensatz zu einer einfachen Korrelationsanalyse vermag die Re­ gressionsanalyse allerdings sehr viel mehr zu leisten. Typische Fragestellungen, die mit Hilfe der Regressionsanalyse untersucht wer­ den, sowie mögliche Definitionen der jeweils abhängigen und unabhängigen Va­ riablen zeigt Abbildung 1.3, Der Fall Nr. 4 in Abbildung 1.3 stellt einen Spezialfall der Regressionsanalyse dar, die Zeitreihenanalyse, Sie untersucht die Abhängig­ keit einer Variablen von der Zeit Formal beinhaltet sie die Schätzung einer Funk­ tion Y = f(t), wobei t einen Zeitindex bezeichnet. Bei Kenntnis dieser Funktion ist es möglich, die Werte der Variablen Y für zukünftige Perioden zu schätzen (pro­ gnostizieren), In das Gebiet der Zeitreihenanalyse fallen insbesondere Trendanaly­ ,) d! sen und -prognosen, aber auch die Analyse von saisonalen und konjunkturellen Schwankungen oder von Wachstums- und Sättigungsprozessen, Abbildung 1.4 faßt die in Abbildung 1.3 beispielhaft aufgeführten Fragestellungen zu den drei zentralen Anwendungsbereichen der Regressionsanalyse zusammen.

\\:

I'

Abbildung 1.4:

Anwendungsbereiche der Regressionsanalyse

Ursachenanalysen

Wie stark ist der Einfluß der unabhän­ gigen Variablen auf die abhängige Va­ riable?

Wirkungsprognosen

Wie verändert sich die abhängige Va­ riable bei einer Änderung der unab­ hängigen Variablen?

Zeitreihenanalysen

Wie verändert sich die abhängige Va­ riable im Zeitablaufund somit ceteris paribus auch in der Zukunft?

Für die Variablen der Regressionsanalyse werden unterschiedliche Bezeichnungen verwendet, was oft verwirrend wirkt Die Bezeichnungen "abhängige" und "unab­ hängige" Variable sind zwar die gebräuchlichsten, können aber, wie oben darge­ legt, Anlaß zu Mißverständnissen geben. In Abbildung 1.5 finden sich vier weitere Bezeichnungen. Die Benennung der Variablen als Regressanden und Regressoren erscheinen am neutralsten und sind somit zur Vermeidung von Mißverständnissen besonders geeignet. Der Begriff der "Regression" stammt von dem englischen Wissenschaftler Sir Francis Galton (1822 - 1911), der die Abhängigkeit der Körpergröße von Söhnen in Abhängigkeit von der Körpergröße ihrer Väter untersuchte und dabei die Ten­ denz einer Rückkehr (regress) zur durchschnittlichen Körpergröße feststellte. D.h, z.B., daß die Söhne von extrem großen Vätern tendenziell weniger groß und die von extrem kleinen Vätern tendenziell weniger klein sind.

50

Regressionsanalyse

Abbildung 1.5:

Alternative Bezeichnungen der Variablen in der Regressionsanalyse

y

Xl, X 2 , :

,

X j ,

,

X J

i

Regressand

Regressoren

   

abhängige Variable

unabhängige Variable

 

endogene Variable

exogene Variable

   

erklärte Variable

erklärende Variable

   

Prognosevariable

Prädiktorvariable

 

.

Die Regressionsanalyse ist immer anwendbar, wenn sowohl die abhängige als auch die unabhängige(n) Variable(n) metrisches Skalenniveau besitzen, es sich also um quantitative Variablen handelt. Dies ist der klassische Fall. Wir hatten aber bereits in der Einleitung darauf hingewiesen, daß sich durch Anwendung der Dummy­ Variablen-Technik qualitative (nominalskalierte) Variablen in binäre Variablen· umwandeln lassen, die dann wie metrische Variablen behandelt werden können. Allerdings steigt dadurch die Anzahl der Variablen, so daß diese Technik nur für die unabhängigen Variablen, deren Zahl zumindest prinzipiell nicht begrenzt ist, genutzt werden kann. Der Anwendungsbereich der Regressionsanalyse läßt sich damit ganz erheblich erweitern. Es ist somit grundsätzlich möglich, alle Problemstellungen der Varianzanalyse mit Hilfe der Regressionsanalyse zu behandeln (we'ungleich dies nicht immer zweckmäßig ist). Auch eine einzelne binäre Variable kann in der Regressions­ analyse als abhängige Variable fungieren, und es lassen sich so in beschränktem Umfang auch Probleme der Diskriminanzanalyse (Zwei-Gruppen-Fall) mittels der Regressionsanalyse behandeln. Eine Erweiterung der Regressionsanalyse für no­ minalskalierte abhängige Variable ist die Logistische Regression. Auch in anderen Analyseverfahren (z.B. Conjoint-Measurement, Pfadanalyse) findet die Regressi­ onsanalyse vielfältige Anwendung.

Anwendungsbeispiel

Wir wollen die Grundgedanken der Regressionsanalyse zunächst an einem kleinen Beispiel demonstrieren. Der Verkaufsleiter eines Margarineherstellers ist mit dem mengenmäßigen Absatz seiner Marke nicht zufrieden. Er stellt zunächst fest, daß der Absatz zwischen seinen Verkaufsgebieten stark differiert. Er möchte wissen, warum die Werte so stark differieren und deshalb prüfen, von welchen Faktoren, die er beeinflussen kann, im wesentlichen der Absatz abhängt. Zu diesem Zweck nimmt er eine Stichprobe von Beobachtungen aus zehn etwa gleich großen Ver­ kaufsgebieten. Er sammelt für die Untersuchungsperiode Daten über die abgesetzte Menge, den Preis, die Ausgaben für Verkaufsf6rderung sowie die Zahl der Ver­ treterbesuche. Folgendes Ergebnis zeigt sich (vgl. Abbildung 1.6). Die Rohdaten dieses Beispiels enthalten die Werte von vier Variablen, unter denen MENGE als

Vorgehensweise

51

abhängige und PREIS, AUSGABEN (für Verkaufsförderung) sowie (Zahl der Vertreter-) BESUCHE als unabhängige Variablen in Frage kommen. Der Ver­ kaufsleiter hält diese Einflußgrößen fUr relevant. Die Untersuchung soll nun Antwort auf die Frage geben, ob und wie die genann­ ten Einflußgrößen si~h auf die Absatzmenge auswirken. Wenn ein ursächlicher Zusammenhang zwischen z. B. Vertreterbesuchen und Absatzmenge gegeben wä­ re, dann müßten überdurchschnittliche oder unterdurchschnittliche Absatzmengen sich (auch) auf Unterschiede in der Zahl der Besuche zurückfUhren lassen, z. B.: je höher die Zahl der Vertreterbesuche, desto höher der Absatz. Zum besseren Verständnis wird im folgenden zunächst eine einfache Regressi­

onsanalyse dargestellt, wobei wir hier unter den Einflußgrößen die Variable BE­ SUCHE herausgreifen.

Abbildung 1.6:

Ausgangsdaten des Rechenbeispiels

Nr.

Menge

Preis pro

Ausgaben fUr

Zahl der Ver­ treter­ besuche (BESUCHE)

Kartons

Karton

Verkaufs­

pro Periode

(PREIS)

förderung

(MENGE)

(AUSGABEN)

1

2.585

12,50

2.000

109

2

1.819

10,00

550

107

I

3

1.647

9,95

1.000

99

4

1.496

11,50

800

70

5

921

12,00

0

81

6

2.278

10,00

1.500

102

7

1.810

8,00

800

110

8

1.987

9,00

1.200

92

9

1.612

9,50

1.100

87

10

1.913

12,50

1.300

79

1.2

Vorgehensweise

Bei der Regressionsanalyse geht man regelmäßig in einer bestimmten, der Metho­ de entsprechenden Schrittfolge vor. Zunächst geht es darum, das sachlich zugrunde liegende Ursache-Wirkungs-Modell in Form einer linearen Regressionsbeziehung zu bestimmen. Im Anschluß daran wird die Regressionsfunktion geschätzt. In ei· nem dritten Schritt schließlich wird die Regressionsfunktion im Hinblick auf den Beitrag zur Erreichung des Untersuchungsziels geprüft. Den Ablauf zeigt Abbildung 1.7.

Abbildung 1.7:

-.;

Ablaufschritte der Regressionsanalyse

(1) Modellformulierung

(2) Schätzung der Regressionsfunktion

(3) Prüfung der Regressionsfunktion

(4) Prüfung der Regressionskoeffizienten

(5) Prüfung der Modellprämissen

1.2.1

Modellformulierung

(5) Prüfung der Modellprämissen 1.2.1 Modellformulierung Schätzung der R e g r e s s i

Schätzung der

Regressionsfunktion

i

Regresslonsfunküon

Das zu untersuchende lineare Regressionsmodell muß aufgrund von Vorabüberlegungen des Forschers ent­ worfen werden. Dabei spielen ausschließlich fachliche Gesichtspunkte eine Rolle. Methodenanalytische Fra­

gen treten in dieser Phase zunächst in den Hintergrund. I(3) Prüfung ?er. Das Bemühen des Forschers sollte dahin gehen, daß

ein Untersuchungsansatz gewählt wird, der die vermu-.

teten Ursache-Wirkungs-Bezienungen möglichst voll­ ständig enthält. Ein solches Modell ist der methodisch saubere Einstieg in die Regressionsanalyse. (5} Prüfung der Modellprämissen I In unserel:l1 Beispiel vermutet der Verkaufsleiter auf­ grund seiner Erfahrungen bei der Einschätzung des

Marktes, daß die Absatzmenge von der Zahl der Vertreterbesuche abhängig ist. Im einfachsten Fall sollte dieser Zusammenhang linear sein. Ob eine lineare Bezie­ hung unterstellt werden kann, läßt sich eventuell (jeweils für zwei Variablen, die abhängige und je eine unabhängige) anhand eines Streudiagramms erkennen, in dem die Beobachtungswerte als Punkte eingezeichnet werden. Ein linearer Zu­ sammenhang liegt vor, wenn die Punkte eng um eine gedachte Gerade streuen. Im betrachteten Beispiel ergibt sich das in Abbildung 1.8 wiedergegebene Diagramm. Die Punkte liegen zwar ziemlich verstreut, es ist jedoch ein gewisser Zusammen­ hang zu erkennen.

Abbildung 1.8:

Vorgehensweise

53

Streudiagramm der Beobachtungswerte von Absatzmenge und Zahl der Vertreterbesuche

1

Menge Kartons

pro Periode

2650

2450

+

t

t

 

2250

 

2050

1850

1650

1450

+•

 

1250

+1

1050

I.

Zahl der Besuche pro Periode

8501

 

I

)0

 

68

78

88

98

108

1.2.2 Schätzung der Regressionsfunktion

88 98 108 1.2.2 Schätzung der Regressionsfunktion I Regressionsfunktion (4) Prüfung der

I

Regressionsfunktion

(4) Prüfung der

Regressionskoeffizlenten

l

(5) Prüfung der Model/prämissen I

1.2.2.1 Einfache Regression

Um das grundsätzliche Vorgehen der Regressions­ analyse zeigen zu können, gehen wir von der graph i­

sehen Darstellung einer empirischen Punkteverteilung [(3) Prüfu;der- in einem zweidimensionalen Koordinatensystem aus.

Der Leser möge sich noch einmal die Fragestellung der Analyse vergegenwärtigen: Es geht um die Schätzung der Wirkung der Zahl der Vertreterbesuche auf die Ab­ satzmenge. Gesucht wird also eine Schätzung der sich

ergebenden Absatzmenge für beliebige Zahlen der

1 Vertreterbesuche. Die Ermittlung dieser Beziehung soll

aufgrund von beobachteten Wertepaaren der beiden Variablen erfolgen, die in Abbildung 1.8 grafisch dargestellt sind. In Abbildung

1.9 sind zwei Punkte (Xk, Yk), die Beobachtungen 6 und 9 mit den Werten (102, 2.278) und (87, 1.612), hervorgehoben.

Regressionsanalyse

~4

Abblldung 1.9:

Streudiagramm der Beobachtungswerte:

Punkte (Xk, yJ f!lr k '" 6 und 9 hervorgehoben

Menge Kartons pro Periode 2650 D 2450 + Xa;Ye 2250 j. • 2050 (J 0
Menge Kartons
pro Periode
2650
D
2450 +
Xa;Ye
2250 j.
2050
(J
0
1850 I
0
Cl
1650
0
D Xg;Yg
1450
1250
1050 •
Zahl der Besuche
0
pro Periode
+
850
68
78
88
98
108

Zur Schätzung der abhängigen Variablen Y (Absatzmenge) spezifizieren wir fol­ gende Funktion:

Regressionsfunktion

Y

mit

=

b O + b} X

(2)

Y Schätzung der abhängigen Variablen Y

b

~j

X =

O =

Konstantes Glied Regressionskoeffizient

unabhängige Variable

Für einzelne Werte von Y und X schreiben wir:

Y

k

=

b

O

+- b} x

k

(k=I, 2,

, K)

d.h. die Funktion (2) liefert für eine Beobachtung xk den Schätzwert h.

Die Funktion (2) bildet eine Gerade und wird daher auch als Regressionsgerade bezeichnet. Abbildung 1.10 zeigt den Verlauf der gesuchten Geraden. Eine Gerade ist generell durch zwei Parameter bestimmt, in diesem Fall durch

Vorgehensweise

- das konstante Glied bO, das den Wert von Y rur X = 0 angibt,

- den Regressionskoeffizienten b 1 , der

Es gilt:

die Neigung der Geraden angibt.

55

.1.Y

bl=­

.1.X

(3)

Der b l Koeffizient gibt an, welche Wirkung eine Änderung der Variablen X hat,
I

\ ändert. Er ist daher von besonderer Wichtigkeit.

d.h. um wieviel Einheiten sich Y vermutlich ändert, wenn sich X um eine Einheit

Abbildung 1.10:

Streudiagramrn und Regressionsgerade

Menge Kartons pro Periode a~ t • 2450 • -<{ 2250 2050 • 1850 1650
Menge Kartons
pro Periode
a~ t
2450
-<{
2250
2050
1850
1650
------
1450
t>X
1250
b.
1050
Zahl der Besuche
pro Periode
850
68
78
88
98
108

Noch ist nicht genau bekannt, wie man zu der gesuchten Geraden kommt. Sie könnte sowohl eine andere Neigung als auch einen anderen Schnittpunkt mit der Y ~Achse haben. Es ist aber bereits deutlich, daß es keinen denkbaren Verlauf einer Geraden gibt, auf der alle beobachteten (x,y)-Kombinationen liegen. Es geht also vielmehr darum, einen Verlauf der gesuchten Geraden zu finden, der sich der em­ pirischen Punkteverteilung möglichst gut anpaßt. Ein Grund dafilr, daß in diesem Beispiel die Punkte nicht auf einer Geraden lie­ gen, sondern um diese streuen, liegt darin, daß neben der Zahl der Vertreterbesu­

;JO

KegresslOnsanalyse

ehe noch andere Einflußgrößen auf die Absatzmenge einwirken (z. B. Maßnahmen der Konkurrenz, Konjunktur etc.), die in der Regressionsgleichung nicht erfaßt sind. Andere Grunde für das Streuen der empirischen Werte können z. B. Beob­ achtungsfehler bzw. Meßfehler sein. Angenommen, die gesuchten Parameter bO und b 1 seien bekannt: bo = 50 und

= 20. Dann würde sich für eine Zahl von Vertreterbesuchen von x = 100 ein rechnerischer Mengenwert von

b

1

Y= 50+20·100

= 2.050

ergeben. Wenn nun aber bei x = 100 der beobachtete Wert von Y nicht 2.050, son­ dern 2.000 ist, dann ist die Differenz zwischen dem beobachteten Y-Wert und dem aufgrund der Regressionsgleichung geschätzten Wert ydiejenige Abweichung, die nicht auf die Zahl der Vertreterbesuche, sondern auf nicht erfaßte Einflußgrößen zurilckzufiihren ist. Die in einer vorgegebenen Regressionsgleichung nicht erfaßten Einflußgrößen der empirischen Y-Werte schlagen sich in Abweichungen von der Regressionsge­ raden nieder. Diese Abweichungen lassen sich durch eine Variable e repräsentie­ ren, deren Werte ek als Residuen bezeichnet werden.

Residualgröße

3

ek

=

Yk -Yk

mit

(k=l, 2,

, K)

(4)

Yk

=

Beobachtungswert der abhängigen Variablen Y für xk

h

ermittelter Schätzwert von Y für xk

ek

=

Abweichung des Schätzwertes von Beobachtungswert

K

=

Zahl der Beobachtungen

In Abbildung 1.11 sind die Abweichungen für unser Beispiel aufgelistet. Durch Umformung von (4) und unter Einbeziehung von (2) läßt sich folgende Funktion bilden:

Y=Y+e

= b

O

+ b

1

X + e

(5)

3 Auf das der Regressionsanalyse zugrundeliegende stochastische Modell wird in den Ab­ schnitten 1.2,3.2,2 und 1.2.3.4 eingegangen.

Abbildung 1.11:

Vorgehensweise

Abweichungen der Beobachtungswerte Yk vom Stichprobenmittelwert y

57

Nr.

Beobachtungswert

Mittelwert

Abweichung

k

Yk

Y

Yk - Y

1

2.585

1.806,80

778,20

2

1.819

1.806,80

12,20

3

1.647

1.806,80

- 159,80

4

1.496

1.806,80

- 310,80

5

921

1.806,80

- 885,80

6

2.278

1.806,80

471,20

7

1.810

1.806,80

3,20

8

1.987

1.806,80

180,20

9

1.612

1.806,80

- 194,80

10

1.913

1.806,80

106,20

 

--

-

Abbildung 1.12:

Systematische Komponente und Residualgröße

Menge Kartons pro Periode 2450 • 96 1450 I Zahl der Besuche 78 pro Periode
Menge Kartons
pro Periode
2450
96
1450 I
Zahl der Besuche
78
pro Periode
88 98
X
108
6

Für die einzelnen Beobachtungen gilt:

Y

k

=

b

O

+ b

l

x

k

+ e

k

(k=l, 2,

K)

Ein beobachteter Wert Yk der Absatzmenge setzt sich damit additiv zusammen aus einer systematischen Komponente, die sich linear mit der Zahl der Vertreter­ besuche ändert, und der Residualgröße ek, die durch die Regressionsfunktion bzw. die unabhängige Variable X nicht erklärt werden kann. Abbildung 1.12 ver­ anschaulicht dies grafisch. Die Zielsetzung der einfachen Regressionsanalyse kann jetzt wie folgt formuliert werden: Es ist eine lineare· Funktion zu finden, fiir die die nicht erklärten Abwei­ chungen möglichst klein sind. Grafisch gesehen ist dies eine Gerade durch die Punktwolke im Streudiagramm, die so verläuft, daß die Punkte möglichst nahe an dieser Geraden liegen. Dieses Ziel läßt sich durch folgende Funktion präzisieren:

Zielfunktion der Regressionsanalyse

K

Le~

k=l

=

K[

L

k=l

Yk; - (b o + b1xk;)]

2

~

minI

(6)

Das vorstehende Kriterium besagt, daß die unbekannten Parameter b O und b l so zu bestimmen sind, daß die Summe der quadrierten Residuen minimal wird. Diese Art der Schätzung wird als die "Methode der kleinsten Quadrate" (auch als Kleinst­ Quadrate- oder kurz KQ-Schätzung) bezeichnet. Die KQ-Methode gehört zu den wichtigsten statistischen Schätzverfahren. Durch die Quadrierung der Abweichun­ gen der Beobachtungswerte von den Schätzwerten werden größere Abweichungen stärker gewichtet und es wird vermieden, daß sich die positiven und negativen Abweichungen kompensieren. Rechnerisch erhält man die gesuchten Schätzwerte durch partielle Differentiati­ on von (6) nach bO und bl' Dadurch ergeben sich folgende Formeln:

Ermittlung der Parameter der Regressionsfunktion

4

_ K (2: x kYk) - (2: xkKLYk)

bl- K(2:x~)-(2:xk)2

Regressionskoeffizient

(7)

bO

:: y - btx

Konstantes Glied

(8)

Die Herleitung dieser Formeln ist im Anhang dieses Kapitels dargestellt. Mit den beiden Parametern b O und b 1 ist die Regressionsgleichung vollständig bestimmt. Das Beispiel soll im folgenden durchgerechnet werden, um die Vorgehensweise zu demonstrieren. Dazu ist es zweckmäßig, eine Arbeitstabelle anzulegen, wie sie Abbildung 1.13 zeigt.

4 Es sei bemerkt, daß es sich bei den Abweichungen im geometrischen Sinn um die senk­ rechten Abstände der Punkte zur Regressionsgeraden handelt.

'''''''6

''''

1.''''''"

,,''''

Abbildung 1.13:

Arbeitstabelle

Beobachtung

Menge

Besuche

2

k

Yk_Xk

xy

1

2.585

109

281.765

11.881

2

1.819

107

194.633

11.449

3

1.647

99

163.053

9.801

4

1.496

70

104.720

4.900

5

921

81

74.601

6.561

6

2.278

102

232.356

10.404

7

1.810

110

199.100

12.100

8

1.987

92

182.804

8.464

9

1.612

87

140.244

7.569

10

1.913

79

151.127

6.241

L

18.068

936

1.724.403

89.370

 

Y=1.806,8

x =93,6

x

Die Werte aus der Arbeitstabelle können nun unmittelbar in die Formeln (7) und (8) eingesetzt werden:

bl :: 10·1. 724.403 -936 ·18.068

10·89.370-(936)2

bo = 1.806,8 -

= 39,5

18,881 . 93,6

=

18881

'

Die geschätzte Regressionsgleichung lautet damit:

h =39,5 + 18,881 xk

Sie ist in Abbildung LI 0 dargestellt.

Der Regressionskoeffizient b t = 18,9 besagt,

daß eine Erhöhung der Absatzmenge um 18,9 Einheiten zu erwarten ist, wenn ein zusätzlicher Vertreterbesuch durchgeführt wird. Auf diese Weise kann der Regres­

sionskoeffizient wichtige Hinweise für eine optimale Vertriebsgestaltung geben. Mit Hilfe der gefundenen Regressionsgleichung ist man außerdem in der Lage, beliebige Y-Werte in Abhängigkeit vom X-Wert zu Beispiel: Die Zahl der Vertreterbesuche für Beobachtung Nr. 6 beträgt 102. Wie hoch ist die geschätzte Absatzmenge?

Y6 :: 39,5+18,881·102

::= 1.965

Beobachtet wurde dagegen eine Absatzmenge von 2.278 Kartons. Das Residuum beträgt demnach 2.278 - 1.965 = 313.

60

Regressionsanalyse

1.2.2.2 Multiple Regression

Für die meisten Untersuchungszwecke ist es erforderlich, mehr als eine unabhän­ gige Variable in das Modell aufzunehmen. Der Regressionsansatz hat dann fol­

gendeForm:

Y

bo + blXl + b2X2 +

+ bjXj +

+ bJXJ

(9)

Die

Ermittlung der Regressionsparameter b O ' b l , b 2 ,

, bJ erfolgt wie bei der ein­

fachen Regressionsanalyse durch Minimierung der Summe der Abweichungsqua­

drate (KQ-Kriterium).

Zielfunktion der multiplen Regressionsfunktion

l:ek ;:; l:

K

2

K

 

(bO+ blxlk + b2 x 2k +

+b jX jk+

+bJXJk))2

--;min

k=1

k=\

 

mit

ek

= Werte

der

Residualgröße (k=l,

2,

, K)

Yk

=

Werte der abhängigen Variablen (k=l, 2,

, K)

b

bj = Regressionskoeffizienten (j = 1, 2,

O

konstantes Glied

, J)

Xjk =

Werte der unabhängigen Variablen (j = 1,2,

, J; k

1,2,

, K)

J Zahl der unabhängigen Variablen

K =

Zahl der Beobachtungen

(10)

Die Auffindung von Regressionsparametern, die das Zielkriterium (10) mIni­ mieren, erfordert die Lösung eines linearen Gleichungssystems, die mit erheb­

lichem Rechenaufwand verbunden sein kann. 5

Wir kommen zurück auf unser Beispiel mi( den Daten in Abbildung 1.6. Ange­

nommen, der Verkaufsleiter mißt allen drei unabhängigen Variablen (PREIS,

AUSGABEN und BESUCHE) eine Relevanz filr die Erklärung der Absatzmenge zu. Ihre Berücksichtigung fUhrt dann zu einer multiplen Regressionsanalyse fol­

gender Form:

Y =

bO + bl' BESUCHE + b2 . PREIS + b3 . AUSGABEN

Die DurchfUhrung der multiplen Regressionsanalyse unter Anwendung des KQ­ Kriteriums in Formel (10) iiefert dann folgende Regressionsfunktion:

6

Y

- 6,9

+ 11,085· BESUCHE

+ 9,927 . PREIS + 0,655· AUSGABEN

5 Siehe hierzu die Ausfilhrungen im Anhang dieses Kapitels oder die einschlägige Litera­ tur, z.B. Bleymüller, J.lGehlert, G.lGÜlicher, R, 2002, S. 164-168; Greene, W.H., 1997, S. 236-239; Kmenta, 1.,1997, S. 395-399; Schneeweiß, 1990, S. 94-97.

6 Zur DurchfUhrung der Regressionsanalyse existieren zahlreiche Computer-Programme. Wir werden nachfolgend rur ein etwas umfangreicheres Fallbeispiel die Anwendung des Computer-Programms SPSS demonstrieren.

V orgetJenswelse

bl

Betrachten wir beispielsweise den Fall Nr. 6, indem wir die Daten aus Abbildung 1.6 in die erhaltene Regressionsfunktion einsetzen. Man erhält damit als Schätzung filr die Absatzmenge:

Y = -6,9 + 11,085·102 + 9,927·10 + 0,655·1500

2.206

Da der beobachteten Wert 2.278 ist, beträgt die Residualgröße jetzt nur noch 72. Die Übereinstimmung zwischen beobachtetem und geschätztem Wert hat sich demnach gegenüber der einfachen Regression (Residuum = 313) deutlich verbes­ sert. Die Tatsache, daß sich der Regressionskoeffizient b l filr die erste unabhän­ gige Variable (BESUCHE) verändert hat, ist auf die Einbeziehung weiterer unab­ hängiger Variablen zuruckzufilhren.

Bedeutung der Regressionskoeffizienten

Die Regressionskoeffizienten besitzen eine wichtige inhaltliche Bedeutung, da sie den marginalen Effekt der Änderung einer unabhängigen Variablen auf die abhän­ gige Variable Y angeben. Für den Verkaufsleiter in unserem Beispiel liefern sie damit wichtige Informationen filr seine Maßnahmenplanung. So sagt ihm z.B. der Regressionskoeffizient b 3 == 0,655 filr die Variable AUSGABEN, daß er 65,5 Kar­ tons mehr absetzen wird, wenn er die Ausgaben fUr VerkaufsfOrderung um 100 erhöht. Bei einem Preis von 10 ergibt dies einen Mehrerlös von 655. Unter Be­ rücksichtigung seiner sonstigen Kosten kann er damit feststellen, ob sich eine Er­ höhung der Ausgaben filr Verkaufsf6rderung lohnt. Die Größe eines Regressionskoeffizienten darf allerdings nicht als Maß filr die Wichtigkeit der betreffenden Variablen angesehen werden. Die Werte verschie­ dener Regressionskoeffizienten lassen sich nur vergleichen, wenn die Variablen in gleichen Einheiten gemessen wurden, denn der numerische Wert b j ist abhängig von der Skala, auf der die Variable X j gemessen wurde. So vergrößert sich z.B. der Regressionskoeffizient filr den Preis um den Faktor 100, wenn der Preis anstatt in Euro in Cent gemessen wird. Und die Skala filr die Variable BESUCHE ist eine völlig andere als die filr den Preis. Um sie vergleichbar zu machen, müßte man sie mit den Kosten pro Besuch in eine monetäre Skale umwandeln und könnte dann mit den so erhaltenen Werten eine erneute Regressionsanalyse durchfUhren. Eine andere Möglichkeit, die Regressionskoeffizienten miteinander vergleichbar zu machen besteht darin, sie zu standardisieren. Die standardisierten Regres­ sionskoeffizienenten, die auch als Beta-Werte bezeichnet werden, errechnen sich

wie folgt:

~ StandardabweichungvonXj b'::: b' .--------::

StandardabweichungvonY

J

J

(11)

62

Regressionsanalyse

Durch die Standardisierung werden die unterschiedlichen Meßdimensionen der Variablen, die sich in den Regressionskoeffizienten niederschlagen, eliminiert. Letztere sind daher unabhängig von linearen Transformationen der Variablen und können so als Maß für deren Wichtigkeit verwendet werden. Bei Durchführung einer Regressionsanalyse mit standardisierten Variablen würde man die Beta­ Werte als Regressionskoeffizienten erhalten. In unserem Beispiel betragen die Standardabweichungen der Variablen Y und Xl

(BESUCHE):7

SMENGE

SBESUCHE= 13,99

Damit erhält man den standardisierten Regressionskoeffizienten

= 449,23·

b

= 11 085.

13,99

= 0345

1

,

449,23

'

Analog ergeben sich für die Variablen PREIS und AUSGABEN die folgenden Werte:

SpREIS

=

1,55

b2

= 0,034

SAUSGABEN

= 544,29

b3 = 0,794

Es zeigt sich hier, daß die Variable AUSGABEN, die den kleinsten Regressions­ koeffizienten hat, den höchsten standardisierten Re~ressionskoeffizienten aufweist und somit am stärksten auf die Absatzmenge wirkt. Durch Ermittlung der standardisierten Regressionskoeffizienten werden die nicht standardisierten Regressionskoeffizienten allerdings nicht überflüssig. Da sie·den marginalen Effekt der Änderung einer unabhängigen Variablen angeben, haben sie eine wichtige inhaltliche Bedeutung. Zur Durchführung von Wirkungsprognosen sind also weiterhin die unstandardisierten Regressionskoeffizienten zu verwenden.

7 Die Standardabweichung berechnet sich durch:

I~(X k -X)2

S

x

= \i =k=,,-:-l-::---_ K-J

,

8 Bei der Beurteilung der Wichtigkeit von unabhängigen Variablen mit Hilfe der Beta­ Werte ist allerdings Vorsicht geboten, da ihre Aussagekraft durch Multikollinerarität (Korrelation zwischen den unabhängigen Variablen) stark beeinträchtll1:t werden kann

Vorgehensweise

63

1.2.3 Prüfung der Regressionsfunktion

Modellformulierung • -~ ~- FPrüfung der Regress~nskoeffizienlen (5) Prüfung der Modellpmmissen
Modellformulierung
-~
~-
FPrüfung der
Regress~nskoeffizienlen
(5) Prüfung der Modellpmmissen

Nachdem die Regressionsfunktion geschätzt wurde, ist deren Güte zu überprüfen, d.h. es ist zu klären, wie gut sie als Modell der Realität geeignet ist. Die Überprü­ fung läßt sich in zwei Bereiche gliedern.

1. Globale Prüfung der Regressionsfunktion Hier geht es um die Prüfung der Regressionsfunk tion als ganzes, d.h. ob und wie gut die abhängige Variable Y durch das Regressionsmodell erklärt wird.

2. Prüfung der Regressionskoeffizienten Hier geht es um die Frage, ob und wie gut einzelne Variable des Regressionsmodells zur Erklärung der

abhängigen Variablen Y beitragen.

Wenn sich aufgrund der Prüfung der Regressionskoeffizienten zeigt, daß eine Va­ riable keinen Beitrag zur Erklärung leistet, so ist diese aus der Regressionsfunktion zu entfernen. Zuvor aber ist die globale Güte zu überprüfen. Erweist sich das Mo­ dell insgesamt als unbrauchbar, so erübrigt sich eine Überprüfung der einzelnen Regressionskoeffizienten.

Globale Gütemaße zur Prüfung der Regressionsfunktion sind

_ das Bestimmtheitsmaß (R z ),

- die F-Statistik

- der Standardfehler.

Maße zur Prüfung der Regressionskoeffizienten sind

- der t-Wert

- der Beta-Wert.

Nachfolgend soll auf diese Maße eingegangen werden.

1.2.3.1

Bestimmtheitsmaß

Das Bestimmtheitsmaß mißt die Güte der Anpassung der Regressionsfunktion an die empirischen Daten (ltgoodness of fitlt). Die Basis hierfür bilden die Residual­ größen, d.h. die Abweichungen zwischen den Beobachtungswerten und den ge­ schätzten Werten von Y. Zur Illustration gehen wir auf die einfache Regressionsanalyse, die Beziehung zwi­ schen Absatzmenge und Zahl der Vertreterbesuche, zurück. Aufgrund obiger Schätzung der Regressionsfunktion (gemäß Formel 7 und 8) erhält man die Werte in Abbildung 1.14. Betrachtet sei beispielsweise für k 6 der Beobachtungswert y = 2.278. Der zu­ gehörige Schätzwert für x = 102 beträgt 1.965,4 Kartons. Mithin besteht eine Ab­ weichung (Residuum) von rund 313 Einheiten. Ist das viel oder wenig? Um dies

64

Regressionsanalyse

beurteilen zu können, benötigt man eine Vergleichsgröße, zu der man die Abwei­ chung in Relation setzen kann. Diese erhält man, wenn man die Gesamtabwei­ chung der Beobachtung Yk vom Mittelwert Y heranzieht. Diese läßt sich wie folgt zerlegen:

Gesamtabweichung Erklärte Abweichung + Residuum

Yk -y

Abbildung 1.14:

(yy - y)

+

(Yk -

h)

Abweichungen der Beobachtungswerte von den Schätzwerten der Re­ gressionsgleichung

Nr.

Beobachtungswert

 

Schätzwert

Residuum

 
     
 

k

Yk

 

h

 

I

2.585

 

2.097,57

487,43

2

1.819

2.059,81

-240,81

I

3

1.647

1.908,76

-261,76

4

1.496

1.361,21

134,79.

I

5

921

1.568,90

-647,90

6

2.278

1.965,40

312,60

 

7

1.810

2.116,45

-306,45

8

1.987

1.776,59

210,41

9

1.612

1.682,19

- 70,19

10

1.913

_

'--­

_

1.?31,14

,

381,86

Die Schätzung von Yk ist offenbar um so besser, je größer der Anteil der durch die unabhängige Variable erklärten Abweichung an der Gesamtabweichung ist bzw. je geringer der Anteil der Restabweichung an der Gesamtabweichung ist. Abbildung 1.15 verdeutlicht den Gedanken der Abweichungszerlegung. Betrachten wir zunächst das Wertepaar (X 6 :Y 6 ). Die Gesamtabweichung des

Stichprobenwertes Y

vom Mittelwert y (vgL Ziffer ®) läßt sich in zwei Ab­

schnitte aufteilen. Der Abstand Y6-Y wird durch die Regressionsgerade erklärt (vgl. Ziffer (i)), und wir bezeichnen sie daher als "erklärte" Abweichung. Die Ab­

weichung des Punktes (X 6 ;Y 6 ) von der Regressionsgeraden (Y6-Y6) aber kann nicht durch das Modell erklärt werden, sondern ist möglicherweise durch unbe­

kannte Einflüsse zustande gekommen. Sie bildet somit eine "nicht erklärte" Ab­ weichung (vgl. Ziffer ~), die wir als Residuum bezeichnet haben.

1.806,8 (vgL Abbildung 1.13). Damit ergibt

sich ruf Beobachtung k = 6 folgende Zerlegung der Gesamtabweichung:

Gesamtabweichung Erklärte Abweichung + Residuum

6

Für den Mittelwert gilt hier

y

Y6 -y

471,2

=

(Y6 -

y)

+

(Y6 -

Y6)

158,6

+

312,6

" V15'""U"'"'Uo:>'" "'1""'"

Die Restabweichung ist hier größer als die erklärte Abweichung und beträgt 66 % der Gesamtabweichung. Dies ist offenbar ein schlechtes Ergebnis.

Abbildung 1.15:

Zerlegung der Gesamtabweichungen

Menge Kartons pro Periode 2450 X 6 :Y6 2250 ~ <2> 2050 X 6 ;Y6
Menge Kartons
pro Periode
2450
X 6 :Y6
2250
~
<2>
2050
X 6 ;Y6
1850
<D
~---r~~~--------~--L------y
"''i,J::Z r<3l
1650 1
0
Zahl der Besuche
14501
pro Periode
78
88
98
108

Analog sei der Punkt (x9,y9) in Abbildung 1.15 betrachtet. Hier möge der Leser selbst nachvollziehen, daß das Prinzip der Abweichungszerlegung stets in gleicher Weise angewendet wird. Es kann dabei vorkommen, daß sich erklärte und nicht erklärte Abweichung zum Teil kompensieren. Im Unterschied zur Gesamtabweichung einer einzelnen Beobachtung Yk bezeich­ nen wir die Summe der quadrierten Gesamtabweichungen aller Beobachtungen als Gesamtstreuung. Analog zu der oben beschriebenen Zerlegung der Gesamtabwei­ chung einer Beobachtung gilt folgende Zerlegung der Gesamtstreuung:9

9 Während die Zerlegung einer einzelnen Gesamtabweichung trivial ist, gilt dies für die Zerlegung der Gesamtstreuung nicht. Die Streuungszerlegung gemäß (12) ergibt sich aufgrund der KQ-Schätzung und gilt nur für lineare Modelle.

66

Regressionsanalyse

Zerlegung der Gesamtstreuung

Gesamtstreuung

K

L(Yk-y)2

k=l

=

erklärte Streuung

K

L(h-y)2

k=l

+

nicht erklärte Streuung

K

2

+

L(Yk-h)

k=1

(12)

Auf

nen. Es wird mit R 2 bezeichnet und ergibt sich aus dem Verhältnis von erklärter Streuung zur Gesamtstreuung:

Bestimmtheitsmaß

Basis der Sreuungszerlegung .läßt sich das Bestimmtheitsmaß leicht berech­

R 2 =

K

;E(h -Y)

2

k=l

ts(

>;\2

'- Yk-Y'

k=\

= erklärte Streuung Gesamtstreuung

(l3a)

Das Bestimmtheitsmaß ist eine normierte Größe, dessen Wertebereich zwischen Null und Eins liegt. Es ist um so größer, je höher der Anteil der erklärten Streuung an der Gesamtstreuung ist. Im Extremfall, wenn die gesamte Streuung erklärt wird, ist R2 = 1, im anderen Extremfall entsprechend R2 = O. Man kann das Bestimmtheitsmaß auch durch Subtraktion des Verhältnisses der nicht erklärten Streuung zur Gesamtstreuung· vom Maximalwert 1 ermitteln, was rechentechnisch von Vorteil ist, da die nicht erklärte Streuung leicht zu berechnen ist und meist ohnehin vorliegt:

;E(Yk -h)

K

R 2 = l_~k-::.!.\

_

2

K

2

;E(Yk - Y) k=\

1-

K

I e k

k=\

2

K

;E(Yk -Y)

k=l

2

1_ nicht erklärte Streuung Gesamtstreuung

(13b)

Aus der Formel wird deutlich, daß das Kleinstquadrate-Kriterium, das zur Schät­ zung der Regressionsbeziehung angewendet wird, gleichbedeutend mit der Maxi­ mierung des Bestimmtheitsmaßes ist. Zur Demonstration der Berechnung soll wiederum das Beispiel dienen. Die Aus­ gangsdaten und bisherigen Ergebnisse werden wie in Abbildung 1.16 dargestellt aufbereitet. Die Ergebnisse lassen sich in Formel (13b) eintragen:

R2 = 1

1.188.684,94

0,3455.

Vorgehensweise

67

Das Ergebnis besagt, daß 34,55 % der gesamten Streuung auf die Variable BESU­ CHE erklärt werden, während 65,45% unerklärt bleiben. Die Schwankungen der ! q{ Absatzmenge Y sind also zu einem großen Anteil durch andere Einflüsse, die in t der Regressionsgleichung nicht erfaßt wurden, zurückzuführen.

Abbildung 1.16:

Aufbereitung der Daten für die Ermittlung des Bestimmtheitsmaßes

k

Yk

Yk

Yk-Yk

(Yk- Y k)2

Yk-Y

 

1

2.585

2.097,57

487,43

237.588,00

778;20

605.595,24

2

1.819

2.059,81

-240,81

57.989,46

12,20

148,84

3

1.647

1.908,76

-261,76

68.518,30

-159,80

25.536,04

4

1.496

1.361,21

134,79

18.168,34

-310,80

96.596,64

5

921

1.568,90

-647,90

419.774,41

-885,80

784.641,64

6

2.278

1.965,40

3.12,60

97.718,76

471,20

222.029,44

7

1.810

2.116,45

-306,45

93.911,60

3,20

10,24

8

1.987

1.776,59

210,41

44.272,37

180,20

32.472,04

9

1.612

1.682,19

-70,19

4.926,64

-194,80

37.947,04

10

1.913

1.531,14

381,86

145.817,06

106,20

11.278,44

Y

1.806,8

         

L:

     

1.188.684,94

 

1.816.255,60

Das Bestimmtheitsmaß läßt sich alternativ durch Streuungszerlegung (siehe For­ mel 13a) oder als Quadrat der Korrelation R zwischen den beobachteten und den geschätzten V-Werten berechnen (hieraus resultiert die Bezeichnung "R 21 ). Es be­ steht in dieser Hinsicht kein Unterschied zwischen einfacher und multipler Regres­ sionsanalyse. Da die geschätzte abhängige Variable aber im Falle der multiplen Regressionsanalyse durch lineare Verknüpfung von mehreren unabhängigen Va­ riablen gebildet wird, bezeichnet man R auch als multiplen Korrelationskoeffizien­ ten.

Das Bestimmtheitsmaß wird in seiner Höhe durch die Zahl der Regressoren be­ einflußt. Bei gegebener Stichprobengröße wird mit jedem hinzukommenden Re­ gressor ein mehr oder weniger großer Erklärungsanteil hinzugefllgt, der möglicher­ weise nur zufällig bedingt ist. Der Wert des Bestimmtheitsmaßes kann also mit der Aufnahme von irrelevanten Regressoren zunehmen, aber nicht abnehmen. Insbe­ sondere bei kleiner Zahl von Freiheitsgraden aber verschlechtern sich mit der Zahl der Regressoren die Schätzeigenschaften des Modells. Das korrigierte Bestimmtheitsmaß (Formel 13c) berücksichtigt diesen Sachver­ halt. Es vermindert das einfache Bestimmtheitsmaß um eine Korrekturgröße, die um so größer ist, je größer die Zahl der Regressoren und je kleiner die Zahl der Freiheitsgrade ist. Das korrigierte Bestimmtheitsmaß kann daher im Gegensatz

:t

~~

68

Regressionsanalyse

zum einfachen Bestimmtheitsmaß durch die Aufnahme weiterer Regressoren auch abnehmen,lO

Korrigiertes Bestimmtheitsmaß

R2

:: R 2

J,-'

2

(l_-_R--.:

)

korr

K-J-I

mit

K = Zahl der Beobachtungswerte

J = Zahl der Regressoren K - J -1 = Zahl der Freiheitsgrade

1.2.3.2

F-Statistik

(13c)

Das Bestimmtheitsmaß drückt aus, wie gut sich die Regressionsfunktion an die beobachteten Daten anpaßt. In empirischen Untersuchungen wird die Regressions­ analyse aber nicht nur deskriptiv zur Beschreibung vorliegender Daten eingesetzt. Vielmehr handelt es sich Ld.R. um Daten einer Stichprobe und es stellt sich die Frage, ob das geschätzte Modell auch über die Stichprobe hinaus fi1r die Grund­ gesamtheit Gültigkeit besitzt. Ein hierfiir geeignetes Prüfkriterium bildet die F­ Statistik, in deren Berechnung neben der obigen Streuungszerlegung zusätzlich auch der Umfang der Stichprobe eingeht. So bietet ein möglicherweise "phantasti­ sches" Bestimrntheitsmaß wenig Gewähr für die Gültigkeit eines Modells, wenn dieses aufgrund nur weniger Beobachtungswerte geschätzt wurde. Die geschätzte Regressionsfunktion (Regressionsfunktion der Stichprobe)

Y= bO + bl Xl

+ b2X2 +

+

bjXj + H. + bJXJ

läßt sich als Realisation einer "wahren" Funktion mit den unbekannten Parametern

ßO' ßl' ß2•

samtheit wiedergibt. Da diese Funktion neben dem systematischen Einfluß der Va­ riablen XI> X 2 , ••• , Xl> die auf Y wirken, auch eine Zufallsgröße u (stochastische Komponente) enthält, bezeichnet man sie als das stochastische Modell der Regres­ sionsanalyse.

, ßJ auffassen, die den Wirkungszusammenhang in der Grundge­

Vorgehensweise

69

Stochastisches Modell der Regressionsanalyse

Y=ßO + ßIXl +ß2 X 2 +

mit

+ßjXj+

+ßJXJ+u

(14)

Y = Abhängige Variable ßO = Konstantes Glied der Regressionsfunktion ßj _ Regres~io~skoeffi.zient q: 1,
Y
=
Abhängige Variable
ßO
=
Konstantes Glied der Regressionsfunktion
ßj
_
Regres~io~skoeffi.zient q: 1, 2,
, J)
Xj
-
UnabhängIge Vanable 0-1, 2,
, J)
u
=
Störgröße
In der Größe u ist die Vielzahl zufälliger Einflüsse, die neben dem systematischen
Einfluß der Variablen Xl> X2,
, Xl auf Y wirken, zusarnmengefaßt. Sie ist eine

Zufallsvariable und wird als Störgröße bezeichnet, da sie den systematischen Ein­ fluß überlagert und damit verschleiert, Die Störgröße u ist nicht beobachtbar, ma­ nifestiert sich aber in den Residuen ~. Da in der abhängigen Variablen Y die Störgröße u enthalten ist, bildet Y eben­ falls eine Zufallsvariable, und auch die Schätzwerte bj fi1r die Regressionsparame­ ter, die aus Beobachtungen von Y gewonnen wurden, sind Realisationen von Zu­ fallsvariablen. Bei wiederholten Stichproben schwanken diese um die wahren

Werte ßj. Wenn zwischen der abhängigen Variablen Y und den unabhängigen Variablen X j ein kausaler Zusammenhang besteht, wie es hypothetisch postuliert wurde, so müssen die wahren Regressionskoeffizienten ßj ungleich Null sein. Zur Prüfung des Modells wird jetzt die Gegenhypothese HO ("Nullhypothese") formuliert, die besagt, daß kein Zusammenhang besteht und somit in der Grundgesamtheit die Re­ gressionskoeffizienten alle Null sind:

HO:

Zur Prüfung dieser Nullhypothese kann ein F-Test verwendet werden. Er besteht

im Kern darin, daß ein empirischer F-Wert (F-Statistik) berechnet und mit einem

kritischen Wert verglichen wird. Bei Gültigkeit der Nullhypothese ist zu erwarten, daß der F-Wert Null ist. Weicht er dagegen stark von Null ab und überschreitet einen kritischen Wert, so ist es unwahrscheinlich, daß die Nullhypothese richtig ist. Folglich ist diese zu verwerfen und zu folgern, daß in der Grundgesamtheit ein Zusammenhang existiert und somit nicht alle ß· Null sind.

In die Berechnung der F-Statistik gehen did Streuungskomponenten ein (wie in das Bestimmtheitsmaß) und zusätzlich der Stichprobenumfang K und die Zahl der Regressoren J. Sie berechnet sich wie folgt:

ß 1 = ß =

z

= ß] = 0

IU

Kegresslonsanalyse

F-Statistik

F emp

K

L(h-y)2/ J

k=l

K

L(Yk-h)2 /(K-J -1)

k=1

erklärte Streuung / J

nicht erklärte Streuung / (K - J

1)

(I5a)

Zur Berechnung sind die erklärte und die nicht erklärte Streuung jeweils durch die Zahl ihrer Freiheitsgrade zu dividieren und ins Verhältnis zu setzen. Die Zahl der Freiheitsgrade der

- erklärten Streuung ist gleich der Zahl der unabhängigen Variablen: J

- nicht erklärten Streuung ist gleich der Zahl der Beobachtungen vermindert um die zu schätzenden Parameter in der Regressionsbeziehung: K-J-l.

Mit Hilfe von (I3a) läßt sich die F-Statistik auch als Funktion des Bestimmt­ heitsmaßes formulieren:

F emp

=

R 2 /J

2

(l-R )/(K-J-1)

Der F-Test läuft in folgenden Schritten ab:

(15b)

1. Berechnung des empirischen F-Wertes Im Beispiel hatten wir fUr das Bestimmtheitsmaß den Wert R2 = 0,3455 er­ rechnet. Mittels Formel 15b erhält man:

F

=

0,345511

= 4 223

 

emp

(1- 0,3455) /(10

1-1)

,

Der Leser möge alternativ die Berechnung mittels Formel 15a durchfUhren.

2. Vorgabe eines Signifikanzniveaus Es ist, wie bei allen statistischen Tests, eine Wahrscheinlichkeit vorzugeben, die das Vertrauen in die Verläßlichkeit des Testergebnisses ausdruckt. Übli­ cherweise wird hierflir die Vertrauenswahrscheinlichkeit 0,95 (oder auch 0,99) gewählt. Das bedeutet: Mit einer Wahrscheinlichkeit von 95 Prozent kann man sich darauf verlassen, daß der Test zu einer Annahme der Nullhypo­ these filbren wird, wenn diese korrekt ist, d.h. wenn kein Zusammenhang be­ steht. Entsprechend beträgt die Wahrscheinlichkeit, daß die Nullhypothese abge­ lehnt wird, obgleich sie richtig ist, 0. 1 - 0,95 = 5 Prozent. 0. ist die Irrtums­ wahrscheinlichkeit des Tests und wird als Signijikanzniveau bezeichnet. Die Irrtumswahrscheinlichkeit bildet das Komplement der Vertrauenswahrschein­ lichkeit 1-0

~!

tl'

:1

Vorgehensweise

71

3. Auffinden des theoretischen F-Wertes Als kritischer Wert zur Prüfung der Nullhypothese dient ein theoretischer F­ Wert, mit dem der empirische F-Wert zu vergleichen ist. Dieser ergibt sich f!1r das gewählte Signifikanzniveau aus der F-Verteilung und kann aus einer Tabelle entnommen werden. Abbildung LI7 zeigt einen Ausschnitt aus der F­ TabelIe fi1r die Vertrauenswahrscheinlichkeit 0,95 (vgl. Anhang). Der gesuchte Wert ergibt sich durch die Zahl der Freiheitsgrade im Zähler und im Nenner von Formel 15 (a oder b). Die Zahl der Freiheitsgrade im Zäh­ ler (1) bestimmt die Spalte und die der Freiheitsgrade im Nenner (8) bestimmt die Zeile der Tabelle und man erhält den Wert 5,32. Der tabellierte Wert bildet das 95%-Quantil der F-Verteilung mit der betref­ fenden Zahl von Freiheitsgraden, d.h. Werte dieser Verteilung sind mit 95 % Wahrscheinlichkeit kleiner als der tabellierte Wert.

AbbUdung 1.17:

F-Tabelle (95 % Vertrauenswahrscheinlichkeit; Ausschnitt)

K-J-I

J=I

1=2

J=3

J=4

J=5

1=6

J=7

1=8

J=9

1

161,00

200,00

216,00

225,00

230,00

234,00

237,00

129,00

241,00

2

18,50

19,00

19,20

19,20

19,30

19,30

19,40

19,40

19,40

3

10,10

9,55

9,28

9,12

9,01

8,94

8,89

8,85

8,81

4

7,71

6,94

6,59

6,39

6,26

6,16

6,09

6,04

6,00

5

6,61

5,79

5,41

5,19

5,05

4,95

4,88

4,82

4,77

6

5,99

5,14

4,76

4,53

4,39

4,28

4,21

4,15

4,10

7

5,59

4,74

4,35

4,12

3,97

3,87

3,79

3,73

3,68

8

5,32

4,46

4,07

3,84

3,69

3,58

3,50

3,44

3,39

9

5,12

4,26

3,86

3,63

3,48

3,37

3,29

3,23

3,18

10

4,96

4,10

3,71

3,48

3,33

3,22

3,14

3,07

3,02

-

-

Legende:

J

K-J-I

Zahl der erklärenden Variablen (Freiheitsgrade des Zählers); Zahl der Freiheitsgrade des Nenners (K = Zahl der Beobachtungen)

4. Vergleich des empirischen mit dem theoretischen F-Wert Das Entscheidungskriterium filr den F-Test lautet:

- Ist der empirische F-Wert (F emp ) größer als der aus der Tabelle abgelesene theoretische F-Wert (Ftab), dann ist die Nullhypothese Ho zu verwerfen. Es ist also zu folgern, daß nicht alle ß· Null sind. Der durch die Regressionsbe­ ziehung hypothetisch postulierte Zusammenhang wird damit als signifikant erachtet.

72

Regressionsanalyse

- Ist dagegen der empirische F-Wert klein und übersteigt nicht den theoreti­ schen Wert, so kann die Nullhypothese nicht verworfen werden. Die Re­ gressionsbeziehung ist damit nicht signifikant (vgl. Abbildung 1.18).

Hier ergibt sich:

4,2< 5,32

Abbildung 1.18:

F-Test

~ HO wird nicht verworfen

F emp > F emp ~

Ftab

F tab

~ HO wird verworfen

~ HO wird nicht verworfen

~ Zusammenhang ist signifikant

Da der empirische F-Wert hier kleiner ist als der Tabellenwert, kann die Nullhypo­ these nicht verworfen werden. Das bedeutet, daß der durch die Regressionsbezie­ hung postulierte Zusammenhang empirisch nicht bestätigt werden kann, d.h. er ist statistisch nicht signifikant. Dies bedeutet allerdings nicht, daß kein Zusammenhang zwischen der Zahl der Vertreterbesuche und der Absatzmenge besteht. Möglicherweise ist dieser durch andere Einflüsse überlagert und wird damit infolge des geringen Stichprobenum­ fangs nicht deutlich. Oder er wird nicht deutlich, weil relevante Einflußgrößen (wie hier der Preis oder die Ausgaben für Verkaufsförderung) nicht berucksichtigt wurden und deshalb die nicht erklärte Streuung groß ist. Prinzipiell kann die Annahme einer Nullhypothese nicht als Beweis für deren Richtigkeit angesehen werden. Sie ließe sich andernfalls immer beweisen, indem man den Stichprobenumfang klein macht und/oder die Vertrauenswahrscheinlich­ keit hinreichend groß wählt. Nur umgekehrt kann die Ablehnung der Nullhypothe­ se als Beweis dafür angesehen werden, daß diese falsch ist und somit ein Zusam­ menhang besteht. Damit wird auch deutlich, daß es keinen Sinn macht, die Ver­ trauenswahrscheinlichkeit zu groß (die Irrtumswahrscheinlichkeit zu klein) zu wählen, denn dies würde dazu führen, daß die Nullhypothese, auch wenn sie falsch ist, nicht abgelehnt wird und somit bestehende Zusammenhänge nicht erkannt werden. Man sagt dann, daß der Test an "Trennschärfe" verliert. Die zweckmäßige Wahl der Vertrauenswahrscheinlichkeit sollte berücksichti­ gen, welches Maß an Unsicherheit im Untersuchungsbereich besteht. Und sie soll­ te auch berucksichtigen, welche Risiken mit der fälschlichen An- oder Ablehnung der Nullhypothese verbunden sind. So wird man beim Bau einer Brücke eine ande­ re Vertrauenswahrscheinlichkeit wählen als bei der Untersuchung von Kaufverhal­ ten. Letztlich aber ist die Wahl der Vertrauenswahrscheinlichkeit immer mit einem gewissen Maß an Willkür behaftet.

1.2.3.3 Standardfehler der Schätzung

Vorgehensweise

73

Ein weiteres Güternaß bildet der Standardfehler der Schätzung, der angibt, welcher mittlere Fehler bei Verwendung der Regressionsfunktion zur Schätzung der ab­ hängigen Variablen Y gemacht wird. Er errechnet sich wie folgt:

s=

Lei k (K -J -1)
Lei
k
(K -J -1)

(16)

Im Beispiel ergibt sich mit dem Wert der nicht erklärten Streuung aus Abbildung 1.16:

1.188.685 =385 s =.1 (10-1-1)

Bezogen auf den Mittelwert y= 1.806,8 beträgt der Standardfehler der Schätzung damit 21 %, was wiederum nicht als gut beurteilt werden kann.

I'

1.2.4. Prüfung der RegressionskoeffIzienten

(1) Modellfonnulierung (2) Schätzung der Regressionsfunktlon
(1) Modellfonnulierung
(2) Schätzung der
Regressionsfunktlon

t - Statistik

1.2.4.1 t-Test des RegressionskoeffJZienten

Wenn die globale Prüfung der Regressionsfunktion durch den F-Test ergeben hat, daß nicht alle Regressi­ onskoeffizienten ß.j Null sind (und somit ein Zusam­ menhang in der Grundgesamtheit besteht), sind jetzt die Regressionskoeffizienten einzeln zu überprüfen, Üblicherweise wird auch hier wieder die Nullhypothe­ se Ho: ßj = 0 getestet. Prinzipiell jedoch könnte auch jeder andere Wert getestet werden. Ein geeignetes Prilfkriterium hierfür ist die t-Statistik.

b·-ß·

t

emp

= .:::L.2

Sbj

mit

t

emp

Empirischer t- Wert für den j-ten Regressor

ßj

Wahrer Regressionskoeffizient (unbekannt)

bj

Regressionskoeffizient des j-ten Regressors

Sbj

Standardfehler von bj

(17)

Wird die Nullhypothese Ho: ßj = 0 getestet, so vereinfacht sich (17) zu

74

Regressionsanalyse

 

t

emp

=

:J

Sbj

(l7a)

18,881 =2,055 t emp = 9,187

Vorgehensweise

75

indem

man ihren Regressionskoeffizienten durch dessen Standardfehler dividiert. Diese

Größe wird in den gänf/gen Computer-Programmen fUr Regressionsanalysen stan­

. Unter der Nullhypothese folgt die t-Statistik einer t-Verteilung (Student­

dardmäßig angegeben.

Der t~Wert einer unabhängigen Variablen errechnet sich also sehr einfach,

2.

Vorgabe eines Signifikanzniveaus Wir wählen wiederum eine Vertrauenswahrscheinlichkeit von 95 Prozent bzw.

a= 0,05.

3.

Auffinden des theoretischen t-Wertes Für die vorgegebene Vertrauenswahrscheinlichkeit von 95 Prozent und die Zahl der Freiheitsgrade (der nicht erklärten Streuung) K-J-1 = 10-1-1 = 8 erhält man aus Abbildung 1~14 den theoretischen t- Wert ltab = 2,306.

Verteilung) um den Mittelwert Null, die in tabellierter Form im Anhang wiederge~

ben ist (wir betrachten hier nur den zweiseitigen t-Test

Abbildung 1.19. Wiederum gilt, daß bei Gültigkeit der Nullhypothese fUr die t­

Statistik ein Wert von Null zu erwarten ist. Weicht der empirische t-Wert dagegen 4. Vergleich des empirischen mit dem theoretischen t-Wert

stark von Null ab, so ist es unwahrscheinlich, daß die Nullhypothese richtig ist. Da der t-Wert auch negativ werden kann (im Gegensatz zum F-Wert), ist des­

Folglich ist diese zu verwerfen und zu Einfluß von X j aufY existiert und somit ß j

I2

). Einen Ausschnitt zeigt

folgern, daß in der Grundgesamtheit ein ungleich Null ist.

sen Absolutbetrag mit dem theoretischen t-Wert zu vergleichen (zweiseitiger

Test). - Ist der Absolutbetrag des empirischen t-Wertes (temp) größer als der aus der Tabelle abgelesene theoretische t-W ert (ttab)' dann ist die Nullhypothese Ho

ungleich Null ist. Der Einfluß

von X j aufY wird damit als signifikant erachtet. - Ist dagegen der Absolutbetrag des empirischen t~Wertes klein und über~ steigt nicht den theoretischen Wert, so kann die Nullhypothese nicht ver­

Abbildung 1.19:

t-Verteilung (Ausschnitt)

zu verwerfen. Es ist also zu folgern, daß

ß j

Freiheitsgrade

VertrauenswahrscheiIllichkeit

 

0,90

0,95

0,99

1 6,314

12,706

63,657

2 2,920

4,303

9,925

3 2,353

3,182

5,841

4 2,132

2,776

4,604

5 2,015

2,571

4,032

6 1,943

2,447

3,707

7 1,895

2,365

3,499

8 1,860

2,306

3,355

9 1,833

2,262

3,250

10

1,812

2,228

3,169

worfen werden. Der Einfluß von Xj ist damit nicht signifikant (vgl. . Abbildung 1.20).

HO wird nicht verworfen

~

Hier ergibt sich

12,0051 < 2,306

t-Test

~~,

Abbildung 1.20:

5 1 < 2 , 3 0 6 t-Test ~~, Abbildung 1.20: > t t a

> ttab

~ HO wird verworfen

:s; ttab ~ HO wird nicht verworfen

~ Einfluß ist signifikant

Der Einfluß der unabhängigen Variablen (Zahl der Vertreterbesuche) erweist sich damit als nicht signifikant. Dieses Ergebnis wurde schon durch den F-Test vor­ weggenommen.

F-Test und t-Test

Bei nur einer unabhängigen Variablen ist der F-Test fUr das Modell (die Gesamt­ heit der Variablen) auch ein Test der einen Variablen, deren Einfluß hier durch den t-Test geprüft wurde. Im Fall der einfachen Regression reicht es daher aus, nur ei­ nen dieser beiden Tests durchzufiIhren, und wir haben hier nur aus didaktischen Gründen beide Tests durchgefUhrt. Während der t-Test nur fiIr die Prüfung einer einzelnen Variablen geeignet ist, kann der F-Test fiIr die Prüfung einer Mehrzahl von Variablen verwendet werden. Wir behandeln hier nur den F-Test fiIr die Gesamtheit der Variablen. Mit Hilfe des

Der t-Test verläuft analog zum F-Test in folgenden Schritten:

1. Berechnung des empirischen t-Wertes Fili: den Regressionskoeffizienten b l hatten wir den Wert 18,881 und fUr den Standardfehler des Regressionskoeffizienten Sbj erhält man in diesem Fall den Wert 9,187. Aus (l7a) folgt damit

11 Zur Berechnung des Standardfehlers des Regressionskoeffizienten vgl. die Ausfll.hrun­ gen im mathematischen Anhang dieses Kapitels. 12 Zur Unterscheidung von einseitigem und zweiseitigem t-Test vgl. z.B. Bortz, J., 1996, S. 112ff.; Bleymüller, J.lGehlert, G.lGÜlicher, H., 2002, S. 10lff.

I

'j

76

Regressionsanalyse

~I

li F-Tests kann jedoch in einem multiplen Regressionsmodell der Einfluß einer Un­ termen:fe der erklärenden Variablen getestet werden, was sehr nützlich sein ~ann.l Damit ist es natürlich auch immer möglich, mit dem F-Test eine einzelne Variable zu prüfen und ihn an Stelle eines t-Tests zu verwenden. In diesem Fall hat die F-Statistik nur einen Freiheitsgrad im Zähler und es gilt:

F

t

2

Man kann dies durch Vergleich der ersten Spalte einer F-Tabelle mit der t-Tabelle überprüfen. F-Test und t-Test kommen folglich in diesem Fall immer zu gleichen Aussagen. Während also der F-Test rur die Prüfung einer Mehrzahl von Variablen verwen­ det werden kann, ist fl1r die Prüfung einer einzelnen Variablen die Anwendung des

t-Tests einfacher. Überdies ermöglicht der t-Test auch die Durchfiihrung von ein­

seitigen Tests. Zur Prüfung eines multiplen Regressionsmodells sollten daher beide Tests zur Anwendung kommen.

1.2.4.2 Konfidenzintervall des RegressionskoefflZienten

Durch den t-Test wurde die Frage überprüft, ob die unbekannten, wahren Regres­

sionskoeffizienten ßj G;: 1, 2,

ein Annahmebereich fiir b j bzw. die Transformation von b j in einen t-Wert konstru­ iert. Eine andere Frage ist jetzt, welchen Wert die unbekannten, wahren Regressi­

onskoeffizienten ßj mutmaßlich haben. Dazu ist ein Konjidenzintervall fUr ßj zu '

bilden.

Die beste Schätzung fUr den unbekannten Regressionskoeffizienten ßj liefert der geschätzte Regressionskoeffizient b J Als Konfidenzintervall ist daher ein Bereich um b j zu wählen, in dem der unbekannte Wert ß· mit einer bestimmten Wahr­ scheinlichkeit liegen wird. Dazu ist wiederum die ~orgabe einer Vertrauenswahr­ scheinlichkeit erforderlich. Für diese Vertrauenswahrscheinlichkeit und die Zahl der Freiheitsgrade der nicht erklärten Streuung (K-J-I) ist sodann der betreffende t-Wert zu bestimmen (aus der t-Tabelle fur den zweiseitigen t-Test entnehmen).

Konfidenzintervall für den RegressionskoefflZienten

, J) sich von Null unterscheiden. Hierfllr wurde

bj" t . Sbj

mit

:::;

ßj

:::; b j

+ t . Sbj

(18)

ßj

Wahrer Regressionskoeffizient (unbekannt)

bj

Regressionskoeffizient der Stichprobe

t

t-Wert aus der Student-Verteilung

Sbj =

Standardfehler des Regressionskoeffizienten

Vorgehensweise

77

Die benötigten Werte sind identisch mit denen, die wir im t-Test verwendet haben. Für den Regressionskoeffizienten in unserem Beispiel erhält man damit das fol­ gende Konfidenzintervall:

18,881 - 2,306' 9,187

:::; ßl

:::; 18,881 + 2,306' 9,187

- 2,304

:::; ß1

:::; 40,066

Das Ergebnis ist wie folgt zu interpretieren: Mit einer Vertrauenswahrscheinlich­ keit von 0,95 liegt der wahre Regressionskoeffizient der Variablen BESUCHE zwischen den Werten -2,304 und 40,066. Je grc5ßer das Konfidenzintervall ist, de­ sto unsicherer ist die Schätzung der Steigung der Regressionsgeraden in der Grundgesamtheit, m. a. W. desto unzuverlässiger ist die gefundene Regressions­ funktion bezüglich dieses Parameters. Dieses gilt insbesondere dann, wenn inner­ halb des Konfidenzintervalls ein Vorzeichenwechsel liegt, die Richtung des ver­ muteten Einflusses sich also umkehren kann ("Je größer die Zahl der Besuche, de­ sto kleiner die abgesetzte Menge").

1.2.5 Prüfung der Modellprämissen

-l (1) Modellformulierung ~I (2) Schätzung der Regressionsfunktion (3) Prüfung der Regressionsfunktion
-l
(1) Modellformulierung
~I
(2) Schätzung der
Regressionsfunktion
(3) Prüfung der
Regressionsfunktion

Die Güte der Schätzung fUr die Regressionspararneter, die sich mittels der oben beschriebenen Kleinstquadra­ te-Methode erzielen lassen, sowie auch die Anwend­ barkeit der Tests zur Überprüfung der Güte hängen von gewissen Annahmen ab, die wir bislang still­ schweigend unterstellt hatten. Dabei spielt die oben eingefiihrte Störgröße eine zentrale Rolle.

Die Störgröße wurde eingefiihrt, um der bestehenden Unsicherheit bei der Modellierung empirischer Sach­ verhalte Rechnung zu tragen. Da sich die Variation ei­ ner empirischen Variablen Y nie vollständig durch eine begrenzte Menge von beobachtbaren Variablen erklä­ ren läßt, hatten wir in (14) ein stochastisches Modell formuliert, das der Regressi­ onsanalyse zugrunde gelegt wird. Für die Existenz der Störgröße sind insbesondere folgende Ursachen zu nennen:

- Unberücksichtigte Einflußgrößen

- Fehler in den Daten: Meßfehler und Auswahlfehler.

\'

Die Berücksichtigung aller möglichen Einflußgrößen von Y wäre mit einem unver­ tretbar großen Aufwand verbunden und würde das Modell unhandlich machen. Der Wert eines Modells resultiert daraus, daß es einfacher ist als die Realität und sich auf die Wiedergabe wichtiger struktureller Aspekte begrenzt. Fehler in den Daten sind insbesondere Meßfehler, bedingt durch begrenzte Meß­ genauigkeit, und Auswahlfehler, die entstehen, wenn die Daten aufgrund einer

Teilauswahl (Stichnrohe) Ilew(}nn~n WPTt1pn Pin '7lJfl:;IJ;"",~ A "n

nl.l+'~l.l~_ !_<

I.

_,

, ,

'.'

"

78 Regressionsanalyse

Denkt man bei der zu erklärenden Variablen Y an Absatzdaten (Absatzmengen, Marktanteile, Käuferreichweiten, Markenbekanntheit etc.), so handelt es sich dabei meist um Stichprobendaten, die überdies auch nie frei von Meßfehlern sind. Als Einflußgrößen wirken neben den Maßnahmen des Anbieters auch die Maßnahmen der Konkurrenten und die des Handels. Hinzu können vielfältige gesamtwirt­ schaftliche, gesellschaftliche oder sonstige Umwelteinflüsse kommen. Und schließlich resultieren die einzelnen Käufe aus den Entscheidungen von Menschen, in deren Verhalten immer ein gewisses Maß an Zufälligkeit enthalten ist. Es ist daher gerechtfertigt, die Störgröße als eine Zufallsgröße aufzufassen und der Regressionsanalyse ein stochastisches Modell zugrunde zu legen. Die beobach­ teten Daten lassen sich als Realisationen eines Prozesses auffassen, der durch die­ ses Modell generiert wird. Die Menge der Beobachtungen bildet damit eine Stich­ probe der möglichen Realisationen. Bei der Durchführung einer Regressionsanalyse werden eine Reihe von Annah­ men gemacht, die das zugrunde gelegte stochastische Modell betreffen. Nachfol­ gend wollen wir auf die Bedeutung dieser Annahmen und die Konsequenzen ihrer Verletzung eingehen. Da wir uns hier auf die lineare Regressionsanalyse be­ schränken (mit der sich sehr wohl auch nichtlineare Probleme behandeln lassen), sprechen wir im folgenden vom klassischen oder linearen Modell der Regres­ sionsana/yse.

Annahmen des linearen RegressionsmodeUs:

Al.

J

Yk=ßO+L:ßjXjk+Uk

j=1

mit

k =

1,2,

, Kund K> J+l

Das Modell ist richtig spezifiziert, d.h.

- es ist linear in den Parametern ßQ und ßj,

- es enthält die relevanten erklärenden Variablen,

- die Zahl der zu schätzenden Parameter (1+ I) ist kleiner als die Zahl der vorliegenden Beobachtungen (K).

A2.

Erw (uk) =0

Die Störgrößen haben den Erwartungswert Null.

A3.

Cov (Uk-Xjk) = 0

Es besteht keine Korrelation zwischen den erklärenden Variablen und der Störgröße.

A4.

Var(uk) = (}'2

Die Störgrößen haben eine konstante Varianz (}'2 (Homoskedastizität).

A5.

Cov(Uk,uk+r)=O

mit r * 0

Die Störgrößen sind unkorreliert (keine Autokorrelation).

Vorgehensweise

79

A6.

Zwischen den erklärenden Variablen Xj besteht keine lineare Abhängigkeit

(keine peifekte Mu/tiko//inearität).

A7.

Die Störgrößen uk sind norma/vertei/t.

Unter den Annahmen I bis.6liefert die KQ-Methode lineare Schätzjunktionen fi1r die Regressionsparameter, die alle wünschenswerten Eigenschaften von Schätzern besitzen, d.h. sie sind unverzerrt (erwartungstreu) und ejJizient. 14 Effizienz bedeu­ tet hier, daß sie unter allen linearen und unverzerrten Schätzern eine kleinstmögli­ che Varianz aufweisen. Im Englischen werden diese Eigenschaften als BLUE be­ zeichnet (Best Linear Unbiased Estimators), wobei mit "Best" die Effizienz ge­ meint ist. Zur Durchfi1hrung von Signifikanztests ist außerdem Annahme 7 von Vorteil. Diese Annahme ist auch nicht unplausibel. Da die Störgröße, wie oben dargestellt, die gemeinsame Wirkung sehr vieler und im einzelnen relativ unbedeutender Ein­ flußfaktoren repräsentiert, die voneinander weitgehend unabhängig ge­ meint ist. Zur Durchfi1hrung von Signifikanztests sind, läßt sich die Annahme der Normalverteilung durch den sind, läßt sich die Annahme der Normalverteilung durch den "zentralen Grenzwertsatz" der Stati­ stik stützen. 15

1.2.5.1

N1chtlinearität

Nichtlinearität kann in vielen verschiedenen Formen auftreten. In Abbildung 1.22 sind Beispiele nichtlinearer Beziehungen dargestellt (b, c und d). Das lineare Re­

gressionsmodell fordert lediglich, daß die Beziehung linear in den Parametern ist.

daher möglich, eine nichtlineare Beziehung durch Trans­

formation der Variablen in eine lineare Beziehung zu überfUhren. Ein Beispiel zeigt Abbildung 1.22 b. Derartige nichtlineare Beziehungen zwischen der abhängigen und einer unab­ hängigen Variablen können durch Wachstums- oder Sättigungsphänomene bedingt sein (z.B. abnehmende Ertragszuwächse der Werbeausgaben). Sie lassen sich oft leicht durch Betrachten des Punktediagramms entdecken. Die Folge von nicht ent­

deckter Nichtlinearität ist eine Verzerrung der Schätzwerte der Parameter, d.h. die

Schätzwerte b j streben mit wachsendem Stichprobenumfang nicht

In vielen Fällen ist es

mehr gegen die

wahren Werte ßj. Generell läßt sich eine Variable X durch eine Variable X'= f(X) ersetzen, wobei f eine beliebige nichtlineare Funktion bezeichnet. Folglich ist das Modell

I

!;

14 Dies ist das sog. Gauß-Markov-Theorem. Vgl. dazu z.B. Bleymüller , J./Gehlert, G./ Gülieher, H., 2002, S. 150; Kmenta, J., 1997, S. 162. Vgl. dazu z.B. Bleymüller , J./Gehlert, G./ Gülieher, H., 15 Der zentrale Grenzwertsatz der Statistik besagt, 15 Der zentrale Grenzwertsatz der Statistik besagt, daß die Summenvariable (oder der Mit­ telwert) von N unabhängigen und identisch verteilten Zufallsvariablen normalverteilt ist und zwar unabhängig von der Verteilung der Zufallsvariablen, wenn N hinreichend groß ist. In der Realität finden sich viele Zufallserscheinungen, die sieh aus der Überlagerung

T"'(,l"~t~

1

1""\

+

-.A14

n

c::.""

""a

Cl<:llf

,.

r1~f"tarf rHp! D~t,t.r"",

,.;_

80

Regressionsanalyse

Y = ßO+ ßIX' +u

mit

X' =f(X)

(20)

linear in den Parametern ßo und ßl und in X', nicht aber in X. Durch Transformati­

on von X in X' wird die Beziehung linearisiert und läßt sich mittels Regressions­ analyse schätzen. In allgemeinerer Form läßt sich das lineare Regressionsmodell unter Berück­ sichtigung nichtlinearer Transformationen der Variablen auch in folgepder Form schreiben:

J

f(Y) = ßo+:Lßj fj(Xj)+u

j=l

(21)

Abbildung 1.21 zeigt Beispiele für anwendbare nichtlineare Transformationen. Dabei ist jeweils der zulässige Wertebereich angegeben. Der Exponent c in der Po­ tenzfun.k:tion IO muß vorgegeben werden.

Abbildung 1.21:

Nichtlineare Transfonnationen

Nr.

Bezeichnung

Definition

Bereich

1

Logarithmus

In (X)

X>O

2

Exponential

exp (X)

3

Arkussinus

sin-1(X)

IXISl

4

Arkustangens

tan-1(X)

 

5

Logit

In(X/{I-X))

O<X< 1

6

Reziprok

llX

X#O

7

Quadrat

X

2

8

Wurzel

X 1I2

X:?!:O

9

Potenz

Xc

X>O

Ein spezielles nichtlineares Modell bildet das multiplikative Modell der Form

Y = ßO .XIßl .xl2

XJßJ.u

(22a)

Vorgehensweise

,

Abbildung 1.22:

Lineare und nichtlineare Regressionsbeziehungen

y

L

~.

1.22: Lineare und nichtlineare Regressionsbeziehungen y L ~. X X 81 a) Regressionsgerade (Y ßo+ ß1X)
1.22: Lineare und nichtlineare Regressionsbeziehungen y L ~. X X 81 a) Regressionsgerade (Y ßo+ ß1X)

X

X

81

a)

Regressionsgerade

(Y ßo+ ß1X)

b) nichtlineare Regressionsbeziehung (z.B.: Y '" ßo + ßl X l12 )

y

I I I I I :~.:'0' . t ••• •• • ,: I I I
I
I
I
I
I
:~.:'0'
.
t
•••
••
,:
I
I
I
. .
I
.",
~ •
.~
.
••• •
I I
.
••
••
I
:
I
I
I
I

X

c)

Strukturbruch:

Niveauänderung

y

I I I I I I I I I I I I I .'. I,
I
I
I
I
I
I
I