Sie sind auf Seite 1von 23

Lehrstuhl für Ökonomische Bildung und Wirtschaftsdidaktik

Methodisches Propädeutikum
Teil 2
Quantitative Methoden & Statistik
Victoria Vochatzer
Sitzung 8 – Lineare Regression
Lehrstuhl für Ökonomische Bildung und Wirtschaftsdidaktik

Organisatorische Infos zur Klausur


Prüfungsleistung:
• Klausur am Ende des Wintersemesters, 120 Minuten
• Inhalt: 50% Mathe / 50% Statistik (müssen nicht „getrennt“ bestanden
werden)
• Haupttermin: Donnerstag, 15.02.2024, 12-14.00 Uhr
• Nachtermin kurz vor Beginn des Sommersemesters (voraussichtlich:
Mittwoch, 10.04.24, 12-14 Uhr)

Inhalt:
• Mathe-Teil: Inhalte der Vorlesung
• Statistik-Teil: Ähnliche Aufgaben wie auf den Übungsblättern auf Ilias
• Erlaubt sind: Formelsammlung und Taschenrechner

2 | Methodisches Propädeutikum Universität Tübingen


Lehrstuhl für Ökonomische Bildung und Wirtschaftsdidaktik

Überblick Bivariate Zusammenhänge


Zusammenhangsmaße zwischen diskreten/nominalen Größen
• Odds und Odds ratio
• Chi-Quadrat-Test und Kontingenzkoeffizient
• Korrigierte Kontingenzkoeffizienten

Zusammenhangsmaße zwischen metrischen Größen


• Grafische Inspektion von Zusammenhängen
• Empirische Kovarianz
• Korrelationskoeffizient nach Bravais-Pearson
• Einführung in die lineare Regression

3 | Methodisches Propädeutikum Universität Tübingen


Lehrstuhl für Ökonomische Bildung und Wirtschaftsdidaktik

Regressionsanalyse
• Die Regressionsanalyse zielt darauf ab, die Werte
einer Variablen Y anhand der Werte eines Merkmals X
oder auch mehrerer Merkmale 𝑋𝑋1 , … 𝑋𝑋𝑘𝑘 zu erklären,
wobei der Zusammenhang über die
Regressionsfunktion modelliert wird.
• Unterscheidung:
- einfaches Regressionsmodell und multiples
Regressionsmodell
- lineares und nicht-lineares Regressionsmodell
• Annahme: der funktionale Zusammenhang gilt
nicht exakt, sondern ist durch nicht-systematische,
zufällige Störeinflüsse überlagert

4 | Methodisches Propädeutikum Universität Tübingen


Lehrstuhl für Ökonomische Bildung und Wirtschaftsdidaktik

Regressionsanalyse
• Wo ist der Unterschied zur Korrelation?
- Korrelation: Ungerichteter Zusammenhang, d. h.
gemeinsame Streuung wird betrachtet, aber es
wird keine Beeinflussung von X auf Y angenommen
- Regression: Ziel ist, die Streuung einer
abhängigen Variablen möglichst gut durch die
gemeinsame Streuung mit einer (oder auch
mehrerer) unabhängigen Variablen zu erklären
- Es wird also ein Ursache-Wirkungszusammenhang
unterstellt

5 | Methodisches Propädeutikum Universität Tübingen


Lehrstuhl für Ökonomische Bildung und Wirtschaftsdidaktik

Grundlagen der linearen Einfachregression


• Ausgangspunkt: ein unterstellter Kausalzusammenhang
𝑦𝑦𝑖𝑖 = 𝛼𝛼 + 𝛽𝛽 ∗ 𝑥𝑥𝑖𝑖 + 𝜖𝜖𝑖𝑖

𝑋𝑋: die unabhängige Variable (= Regressor, erklärende Variable,


exogene Variable)
𝑌𝑌: die abhängige Variable (= Regressand, erklärte oder zu
erklärende Variable, endogene Variable)
𝜖𝜖𝑖𝑖 : zufälliger Fehlerterm
𝛼𝛼 (Schnittpunkt mit der y-Achse) und 𝛽𝛽 (Steigung der Geraden):
Regressionskoeffizienten

6 | Methodisches Propädeutikum Universität Tübingen


Lehrstuhl für Ökonomische Bildung und Wirtschaftsdidaktik

Regressionsanalyse: Ein Beispiel aus der Forschung

Hanushek, E. A., & Woessmann, L. (2016). Knowledge capital, growth, and the
East Asian miracle. Science, 351(6271), 344-345.

7 | Methodisches Propädeutikum Universität Tübingen


Lehrstuhl für Ökonomische Bildung und Wirtschaftsdidaktik

Welche Gründe gibt es für die Verwendung von


Regressionsanalyse?
• Prüfung theoretisch postulierter Zusammenhänge
 z.B. Überprüfung des Zusammenhangs zwischen Bildung und
Ökonomischem Wachstum
• Entdeckung von kausalen Beziehungen zwischen Phänomen bzw.
Ereignissen der sozialen Welt
 Wachstum hängt weniger mit der Gesamtzahl der Schuljahre
zusammen, sondern mit der Qualität von Bildungsprozessen
• Vorhersagen: Wenn eine Variable bekannt ist, kann ich für die
andere eine begründete Annahme treffen

8 | Methodisches Propädeutikum Universität Tübingen


Lehrstuhl für Ökonomische Bildung und Wirtschaftsdidaktik

Wie werden die Parameter für die Gerade berechnet?


• Für jedes 𝑥𝑥𝑖𝑖 wird aufgrund der Geradengleichung ein Wert 𝑦𝑦�𝑖𝑖 ,
nämlich 𝛼𝛼 + 𝛽𝛽 ∗ 𝑥𝑥𝑖𝑖 für das Merkmal Y berechnet
• Die Parameter der Geradengleichung sollen dabei so definiert
werden, dass die Abweichungen der durch die Gleichung
prognostizierten Werte für y (oft: 𝑦𝑦�𝑖𝑖 ) und der für y
beobachteten Werte (oft: 𝑦𝑦𝑖𝑖 ) so gering wie möglich ist
 Bestimmung der Regressionsparameter mittels der Methode
der Kleinsten Quadrate (KQ, englisch OLS = ordinary least
squares)
 Hiermit werden die durchschnittlichen quadrierten
Abweichungen minimiert

9 | Methodisches Propädeutikum Universität Tübingen


Lehrstuhl für Ökonomische Bildung und Wirtschaftsdidaktik

Zurück zum Wohnfläche-Miete-Beispiel


Zurück zu unserer Punktewolke: Wie finden wir nun eine „passende“
Gerade („Ausgleichsgerade“), die uns den Zshg. zwischen Miete
und Wohnungsgröße adäquat erklärt?
Hinweis: Geschätzte
Größen haben immer
ein Dach über dem Wir suchen eine Gerade, die einen
Kopf!
großen Anteil der Varianz erklärt,
𝑦𝑦𝑖𝑖 − 𝑦𝑦�𝑖𝑖
also nur wenig auf den Fehler 𝜺𝜺
zurückzuführen ist

Das heißt wir minimieren die


Abstände zwischen tatsächlichem
Wert y und geschätztem 𝑦𝑦, � d.h.
𝜀𝜀𝑖𝑖 = 𝑦𝑦𝑖𝑖 − 𝑦𝑦�𝑖𝑖
Hinweis: 𝑦𝑦�𝑖𝑖 liegt auf unserer
geschätzten Ausgleichsgeraden
Quelle: Fahrmeir et al. 2016
𝑦𝑦�𝑖𝑖 = 𝛼𝛼 + 𝛽𝛽 𝑥𝑥𝑖𝑖
10 | Methodisches Propädeutikum Universität Tübingen
Lehrstuhl für Ökonomische Bildung und Wirtschaftsdidaktik

Berechnung der Ausgleichsgeraden


• Gesucht sind die Werte von 𝛼𝛼 und 𝛽𝛽 (Steigung und Y-
Achsenabschnitt der Geraden), damit die Gerade den geringsten
Abstand zu allen Punkten aufweist
• Der Abstand wird dabei für jeden Punkt über den quadrierten
Abstand zwischen dem geschätzten Wert und dem tatsächlichen
Wert erfasst.
• Es muss daher die folgende Funktion minimiert werden:
𝑛𝑛 𝑛𝑛
1 1
𝑄𝑄 𝛼𝛼, 𝛽𝛽 = �(𝑦𝑦𝑖𝑖 − 𝑦𝑦�𝑖𝑖 ) = �[(𝑦𝑦𝑖𝑖 − 𝛼𝛼 + 𝛽𝛽 ∗ 𝑥𝑥𝑖𝑖 ]2
2
𝑛𝑛 𝑛𝑛
𝑖𝑖=1 𝑖𝑖=1

[Auf die komplette Minimierung wird hier verzichtet, Fokus liegt auf
Berechnung der Parameter, ausführliche Minimierung z.B. in Fahrmeir et
al., 2016, S.146 f.]

11 | Methodisches Propädeutikum Universität Tübingen


Lehrstuhl für Ökonomische Bildung und Wirtschaftsdidaktik

Aus der Minimierung ergeben sich:

Gleichung für die Ausgleichsgerade: 𝑦𝑦� = 𝛼𝛼� + 𝛽𝛽̂ ∗ 𝑥𝑥


(alle Zeichen mit „ � " sind geschätzte Werte)

Für die Steigung 𝛽𝛽̂ gilt:

𝑠𝑠𝑥𝑥𝑥𝑥 ∑𝑛𝑛𝑖𝑖=1(𝑥𝑥𝑖𝑖 − 𝑥𝑥)(𝑦𝑦𝑖𝑖 − 𝑦𝑦) ∑𝑛𝑛𝑖𝑖=1(𝑥𝑥𝑖𝑖 ∗ 𝑦𝑦𝑖𝑖 ) − 𝑛𝑛 ∗ 𝑥𝑥 ∗ 𝑦𝑦


𝛽𝛽̂ = 2 = =
𝑠𝑠𝑥𝑥 ∑𝑛𝑛𝑖𝑖=1(𝑥𝑥𝑖𝑖 − 𝑥𝑥)2 ∑𝑛𝑛𝑖𝑖=1(𝑥𝑥𝑖𝑖2 ) − 𝑛𝑛𝑥𝑥
2

Für den Y-Achsenabschnitt α ̂


� gilt: 𝛼𝛼� = 𝑦𝑦 − 𝛽𝛽𝑥𝑥

12 | Methodisches Propädeutikum Universität Tübingen


Lehrstuhl für Ökonomische Bildung und Wirtschaftsdidaktik

Übung: Fernsehen und Schlafmangel (Daten fiktiv)


Nehmen wir an, ein Kinderpsychologe vermutet, dass sich häufiges Fernsehen negativ
auf das Schlafverhalten von Kindern auswirkt. Um dieser Frage nachzugehen, wurde bei
9 zufällig ausgewählten Kindern gleichen Alters die Dauer (Y ) der Tiefschlafphasen
einer Nacht in Stunden gemessen. Außerdem wurde ebenfalls in Stunden angegeben,
wie lange das Kind am Tag fern gesehen (X) hat. Es ergeben sich folgende
Beobachtungen:

Bestimmen Sie die Ausgleichsgerade mit Hilfe der folgenden


Hilfsgrößen: 9 9

𝑥𝑥̅ = 1,33� � 𝑦𝑦𝑖𝑖 = 50 � 𝑦𝑦𝑖𝑖 𝑥𝑥𝑖𝑖 = 62,96


𝑦𝑦� = 5,55� 𝑖𝑖=1
9
𝑖𝑖=1
9

� 𝑥𝑥𝑖𝑖 = 12 � 𝑥𝑥𝑖𝑖2 = 24,24


𝑖𝑖=1 𝑖𝑖=1

13 | Methodisches Propädeutikum Universität Tübingen


Lehrstuhl für Ökonomische Bildung und Wirtschaftsdidaktik

Lösung zur Übung 1 : Fernsehen und Schlafmangel


Schritt 1: Beta berechnen
∑𝑛𝑛
𝑖𝑖=1(𝑥𝑥𝑖𝑖 ∗𝑦𝑦𝑖𝑖 )− 𝑛𝑛∗𝑥𝑥 ∗𝑦𝑦

�∗5,55
62,69 −9∗1,33
𝛽𝛽̂ = 2 = �2
= −0,45
∑𝑛𝑛 (𝑥𝑥
𝑖𝑖=1 𝑖𝑖
2 ) −𝑛𝑛𝑥𝑥 24,24 −9∗1,33

Schritt 2: Alpha berechnen:


̂ = 5,55� + 0,45 ∗ 1,33� = 6,16
𝛼𝛼� = 𝑦𝑦 − 𝛽𝛽𝑥𝑥

Schritt 3: Gesamte Gleichung aufstellen:


𝑦𝑦� = 𝛼𝛼� + 𝛽𝛽̂ ∗ 𝑥𝑥
𝑦𝑦� = 6,16 − 0,45𝑥𝑥

14 | Methodisches Propädeutikum Universität Tübingen


Lehrstuhl für Ökonomische Bildung und Wirtschaftsdidaktik

Grafische Darstellung zu Fernsehen & Schlafmangel

Prognose und Realität:

Bei 1h Fernsehzeit:
• Prognose: 𝑦𝑦� = 6,16 − 0,45 ∗ 1 = 5,71
• Realität: 𝑦𝑦1 = 5,6 (aus Tabelle
ablesen bzw. Y-Wert des Punktes im
Streudiagram)

Bei 2,2h Fernsehzeit:


• Prog.: 𝑦𝑦� = 6,16 − 0,45 ∗ 2,2 = 5,17
• Realität: 𝑦𝑦2,2 = 4,4

Hinweis: Folien mit Lösungen werden im Anschluss an die VL ergänzt

15 | Methodisches Propädeutikum Universität Tübingen


Lehrstuhl für Ökonomische Bildung und Wirtschaftsdidaktik

Güte des Regressionsmodells: Beispiel Mietspiegel


• Die Berechnung der Kleinste-
Quadrate-Schätzer liefert für
Mietspiegeldaten, wobei x =
Wohnfläche der Wohnungen
und y = Nettomiete:

• Frage: Wie “gut” passt unsere


Gerade zu den Punkten?

(Vgl. Fahrmeir et al., 2016, S. 148 f.)

16 | Methodisches Propädeutikum Universität Tübingen


Lehrstuhl für Ökonomische Bildung und Wirtschaftsdidaktik

Güte des Regressionsmodells


Woran kann die Güte des Regressionsmodells beobachtet
werden?
• Bestimmtheitsmaß, auch Determinationskoeffizient, in kurz R2
(gesprochen R Quadrat)
• R2 gibt uns Auskunft darüber, welcher Anteil der gesamten Varianz
in y durch ein aufgestelltes Modell erklärt wird
• R2 ist definiert als Anteil der durch die Regression erklärten
Varianz an der zu erklärenden totalen Varianz
• Gesamte Varianz: 𝑆𝑆𝑆𝑆𝑆𝑆 = ∑𝑛𝑛𝑖𝑖=1 𝑦𝑦𝑖𝑖 − 𝑦𝑦� 2
[entspricht der Varianz, hier auch als Sum of Squares Total
bezeichnet]

17 | Methodisches Propädeutikum Universität Tübingen


Lehrstuhl für Ökonomische Bildung und Wirtschaftsdidaktik

Güte des Regressionsmodells


• Die Gesamtstreuung SQT ergibt sich aus der erklärten Streuung
SQE und der Residualstreuung SQR
• Streuungszerlegung:
𝑆𝑆𝑆𝑆𝑆𝑆 = 𝑆𝑆𝑆𝑆𝑆𝑆 + 𝑆𝑆𝑆𝑆𝑆𝑆
𝑛𝑛 𝑛𝑛 𝑛𝑛

� 2 = �(𝑦𝑦�𝑖𝑖 − 𝑦𝑦)
�(𝑦𝑦𝑖𝑖 − 𝑦𝑦) � 2 + �(𝑦𝑦𝑖𝑖 − 𝑦𝑦�𝑖𝑖 )2
𝑖𝑖=1 𝑖𝑖=1 𝑖𝑖=1

• Erklärte Streuung: Variation der geschätzten Datenpunkte auf der


Geraden um den Mittelwert 𝑦𝑦�
• Residualstreuung: restliche Variation, d. h. Streuung der
Datenpunkte um die Geraden

(Vgl. Fahrmeir et al., 2016, S. 149 ff.)

18 | Methodisches Propädeutikum Universität Tübingen


Lehrstuhl für Ökonomische Bildung und Wirtschaftsdidaktik

Güte des Regressionsmodells


• Aber welcher Anteil der Streuung der 𝑦𝑦𝑖𝑖 lässt sich nun durch die
Regression von Y auf X erklären?
• Hierfür dient das Bestimmtheitsmaß 𝑅𝑅2 : Quotient aus erklärter
Streuung und Gesamtstreuung
𝑆𝑆𝑆𝑆𝑆𝑆 ∑𝑛𝑛 � 2
� 𝑖𝑖 −𝑦𝑦)
𝑖𝑖=1(𝑦𝑦
R2 = = ∑𝑛𝑛 � 2
𝑆𝑆𝑆𝑆𝑆𝑆 𝑖𝑖=1(𝑦𝑦𝑖𝑖 −𝑦𝑦)
• Für den Fall der linearen Regression gilt auch:
𝑛𝑛
2
𝑆𝑆𝑆𝑆𝑆𝑆 ∑𝑖𝑖=1(𝑦𝑦𝑖𝑖 − 𝑦𝑦�𝑖𝑖 )2
R =1− =
𝑆𝑆𝑆𝑆𝑆𝑆 ∑𝑛𝑛𝑖𝑖=1(𝑦𝑦𝑖𝑖 −𝑦𝑦)
� 2
Es gilt:
• 0 ≤ R2 ≤ 1 (𝑅𝑅2 liegt zwischen 0 und 1)
2
• 𝑅𝑅2 = 𝑟𝑟𝑥𝑥𝑥𝑥 (𝑅𝑅2 ist der quadrierte Korrelationskoeffizient der beiden
Variablen)
(Vgl. Fahrmeir et al., 2016, S. 149 ff.)

19 | Methodisches Propädeutikum Universität Tübingen


Lehrstuhl für Ökonomische Bildung und Wirtschaftsdidaktik

Visualisierung – hoher und niedriger 𝑅𝑅2 Wert

„Dieses Streudiagramm zeigt


zwei konkrete empirische
Regressionsgeraden einer
linearen Einfachregression,
die jeweils bestmöglich durch
die „Punktwolke“ der
Messung gelegt wurden. Zu
erkennen ist, dass die obere
Gerade eine bessere
Anpassung an die Daten
liefert als die untere. Formal
lässt sich dies anhand eines
höheren R-Quadrat-Wertes
erkennen“
Quelle: Wikipedia, https://commons.wikimedia.org/wiki/File:R2values.svg#/media/Datei:R2values.svg

20 | Methodisches Propädeutikum Universität Tübingen


Lehrstuhl für Ökonomische Bildung und Wirtschaftsdidaktik

Übung 2: Fernsehen und Schlafmangel


• Bestimmen Sie auf Basis der folgenden Tabelle nun noch die Güte
der Regression für den Zusammenhang von Fernsehzeit und
Dauer des Tiefschlafs:
𝑖𝑖 1 2 3 4 5 6 7 8 9
𝑦𝑦𝑖𝑖 5,8 4,4 6,5 5,8 5,6 5 4,8 6 6,1
𝑦𝑦�𝑖𝑖 6,02 5,17 5,93 5,84 5,71 5,35 4,81 6,07 5,12
𝜖𝜖𝑖𝑖 -0,22 -0,77 0,57 -0,04 -0,11 -0,35 -0,01 -0,07 0,98
2
(𝑦𝑦𝑖𝑖 − 𝑦𝑦�𝑖𝑖 ) 0,05 0,59 0,32 0,00 0,01 0,12 0,00 0,00 0,96

Achten Sie immer darauf, welche Daten schon gegeben sind, und
nutzen Sie die entsprechende Formel, hier empfiehlt sich:
𝑆𝑆𝑆𝑆𝑆𝑆 ∑𝑛𝑛
𝑖𝑖=1(𝑦𝑦𝑖𝑖 −𝑦𝑦� 𝑖𝑖 )2
• R2 =1− =1− ∑𝑛𝑛 � 2
𝑆𝑆𝑆𝑆𝑆𝑆 𝑖𝑖=1(𝑦𝑦𝑖𝑖 −𝑦𝑦)

21 | Methodisches Propädeutikum Universität Tübingen


Lehrstuhl für Ökonomische Bildung und Wirtschaftsdidaktik

Lösung Übung 2: Fernsehen und Schlafmangel 1


• Schritt 1: Berechnung von 𝑦𝑦�
5,8 + 4,4 + 6,5 + 5,8 + 5,6 + 5 + 4,8 + 6 + 6,1
𝑦𝑦� = = 5,56
9
� 2
• Schritt 2: Berechnung von (𝑦𝑦𝑖𝑖 −𝑦𝑦)
[dazu Zwischenschritt in der Tabelle, Berechnung von (𝑦𝑦𝑖𝑖 −𝑦𝑦)]

𝑖𝑖 1 2 3 4 5 6 7 8 9
𝑦𝑦𝑖𝑖 5,8 4,4 6,5 5,8 5,6 5 4,8 6 6,1
𝑦𝑦�𝑖𝑖 6,02 5,17 5,93 5,84 5,71 5,35 4,81 6,07 5,12
𝜖𝜖𝑖𝑖 -0,22 -0,77 0,57 -0,04 -0,11 -0,35 -0,01 -0,07 0,98
(𝑦𝑦𝑖𝑖 − 𝑦𝑦�𝑖𝑖 )2 0,05 0,59 0,32 0,00 0,01 0,12 0,00 0,00 0,96
(𝑦𝑦𝑖𝑖 −𝑦𝑦) � 0,24 -1,16 0,94 0,24 0,04 -0,56 -0,76 0,44 0,54
(𝑦𝑦𝑖𝑖 −𝑦𝑦) � 2 0,06 1,34 0,89 0,06 0,00 0,31 0,57 0,20 0,30

22 | Methodisches Propädeutikum Universität Tübingen


Lehrstuhl für Ökonomische Bildung und Wirtschaftsdidaktik

Lösung Übung 2: Fernsehen und Schlafmangel 2


• Schritt 3: Bilden der Summen:
𝑖𝑖 1 2 3 4 5 6 7 8 9 Summe
𝑦𝑦𝑖𝑖 5,8 4,4 6,5 5,8 5,6 5 4,8 6 6,1
𝑦𝑦�𝑖𝑖 6,02 5,17 5,93 5,84 5,71 5,35 4,81 6,07 5,12
𝜖𝜖𝑖𝑖 -0,22 -0,77 0,57 -0,04 -0,11 -0,35 -0,01 -0,07 0,98
(𝑦𝑦𝑖𝑖 − 𝑦𝑦�𝑖𝑖 )2 0,05 0,59 0,32 0,00 0,01 0,12 0,00 0,00 0,96 2,07
(𝑦𝑦𝑖𝑖 −𝑦𝑦) � 0,24 -1,16 0,94 0,24 0,04 -0,56 -0,76 0,44 0,54
(𝑦𝑦𝑖𝑖 −𝑦𝑦) � 2 0,06 1,34 0,89 0,06 0,00 0,31 0,57 0,20 0,30 3,72

• Schritt 4: Einsetzen der Ergebnisse in die Formel:


∑𝑛𝑛 2
2
𝑆𝑆𝑆𝑆𝑆𝑆 𝑖𝑖=1 (𝑦𝑦𝑖𝑖 − 𝑦𝑦
� 𝑖𝑖 ) 2,07
R =1− = 1 − 𝑛𝑛 =1− = 0,44
𝑆𝑆𝑆𝑆𝑆𝑆 � 2
∑𝑖𝑖=1(𝑦𝑦𝑖𝑖 −𝑦𝑦) 3,72

Damit beträgt der Anteil der durch das Regressionsmodell erklärten


Varianz etwa 44%.
23 | Methodisches Propädeutikum Universität Tübingen

Das könnte Ihnen auch gefallen