Sie sind auf Seite 1von 6

WORKSHOP WOCHE 11

Anhand der Datenbank, die dem Workshop beigefügt ist, sollten Sie die folgenden Schritte ausführen. Denken Sie daran, bei Bedarf ein Codefeld
und/oder einen Text hinzuzufügen.

1. Schreiben Sie die Bibliotheken auf, die zum Ausführen des Codes benötigt werden.
2. Importieren und bereinigen Sie (falls erforderlich) die Datenbank ordnungsgemäß.
3. Entwickeln Sie ein multiples lineares Regressionsmodell, bei dem die erklärte Variable das Bruttoinlandsprodukt (BIP) des Landes ist.
4. Was ist der kausale Effekt, den Sie schätzen wollen? Warum ist sie interessant?
5. Ziehen Sie eine allgemeine Schlussfolgerung zu den Ergebnissen des Modells.
^. Ziehen Sie insbesondere Schlussfolgerungen aus den Ergebnissen des Modells.
7. Welche nicht berücksichtigten Variablen könnten die erklärte Variable beeinflussen? Justi^que.

from google.colab import files uploaded = files.upload()

Wählen Sie die Dateien nations_gdp_s...life_co2.csv


- nations_gdp_school_life_co2.csv(application/vnd.ms-excel) - 11654 bytes, zuletzt geändert: 26/12/2021 - 100% fertig
Speichern von nationsgdpschoollifeco2.csv in nationsgdpschoollifeco2 (1).csv

Es war nicht möglich, automatisch zu speichern. Diese Datei wurde aus der Ferne oder in einer anderen Registerkarte aktualisiert. Unterschiede aufzeigen

import statsmodels.api as sm
import statsmodels.formula.api as smf
import matplotlib.pyplot as plt
from statsmodels.graphics.regressionplots import abline_plot
numpy als np importieren
seaborn als sns importieren

import statsmodels.formula.api as smf

# Daten beobachten

io importieren

df = pd.read_csv(io.BytesIO(uploaded['nations_gdp_school_life_co2.csv']), sep=';', decimal=",",encoding='ISO-8859-1')


drucken(df)

Länderregion gdp Schule Lebe co2


n
0 Algerien Afrika 7300.399902 6.716667 72.316666 15.00
1 Benin Afrika 1338.800049 3.100000 54.733334 1.20
2 Botswana Afrika 12307.400390 8.600000 52.250000 9.20
3 Burkina Faso Afrika 1063.400024 1.300000 53.783333 0.20
4 Burundi Afrika 349.200012 2.483333 48.866665 0.10
.. ... ... ... ... ... ...
189 Samoa Ozeanien 4012.600098 10.300000 71.533333 3.10
190 Salomoninseln Ozeanien 2249.199951 4.500000 66.500000 1.40
191 Tonga Ozeanien 4072.199951 10.133333 71.833336 4.85
192 Tuvalu Ozeanien NaN NaN 66.033333 NaN
193 Vanuatu Ozeanien 3809.800049 6.700000 69.966667 1.50
[194 Zeilen x 6 Spalten] [194 Zeilen x 6 Spalten

df.head()


Land Region gdp Schule Leben co2

0 Algerien Afrika 7300.399902 6.716667 72.316666 15.0

1 Benin Afrika 1338.800049 3.100000 54.733334 1.2

2 Botswana Afrika 12307.400390 8.600000 52.250000 9.2

3 Burkina Faso Afrika 1063.400024 1.300000 53.783333 0.2

4 Burundi Afrika 349.200012 2.483333 48.866665 0.1

Es war nicht möglich, automatisch zu speichern. Diese Datei wurde aus der Ferne oder in einer anderen Registerkarte aktualisiert.
Unterschiede aufzeigen

<Klasse 'pandas.core.frame.DataFrame'>
RangeIndex: 194 Einträge, 0 bis 193
Date Spalten (insgesamt 6 Spalten):
n # Spalten Nicht-Null- D-Typ
Date Spalte Zählung
0 Land 194 Nicht-Null Objekt
1 Region 194 Nicht-Null Objekt
2 gdp 179 Nicht-Null float64
3 Schule 188 Nicht-Null float64
4 Leben 194 Nicht-Null float64
5 co2 185 Nicht-Null float64
dtypes: float64(4), object(2) Speicherverbrauch: 9.2+ KB

df.corr()

gdp Schule Leben co2

gdp 1.000000 0.573280 0.611219 0.826819

Schule 0.573280 1.000000 0.725207 0.416818

Leben 0.611219 0.725207 1.000000 0.445990


#Zeilen löschen, die NaN enthalten df.dropna(inplace=True) df.info()

<Klasse 'pandas.core.frame.DataFrame'>
Int64Index: 175 Einträge, 0 bis 193
Datenspalten (insgesamt 6 Spalten):
# Spalte Nicht-Null Zählung Dtype
0 Land 175 Nicht-Null Objekt
1 Region 175 Nicht-Null Objekt
2 gdp 175 Nicht-Null float64
3 Schule 175 Nicht-Null float64
4 Leben 175 Nicht-Null float64
5 co2 175 Nicht-Null float64
dtypes: float64(4), object(2) Speicherverbrauch: 9.6+ KB

df.corr()

Es war nicht möglich, automatisch zu speichern. Diese Datei wurde aus der Ferne oder in einer anderen Registerkarte aktualisiert.
Unterschiede aufzeigen

Lücke scnooi lire coz M

gdp 1.000000 0.580460 0.614272 0.826819

Schule 0.580460 1.000000 0.735768 0.422787

Leben 0.614272 0.735768 1.000000 0.443450

co2 0.826819 0.422787 0.443450 1.000000

sns.heatmap(df.corr(), cmap="RdBu", annot=True);


LO

1 0.58

0.9

042

# Zusammenfassung des Modells

mod = smf.ols('gdp ~Schule+Leben+co2 ', df).fit() mod.params

Schnittpunkt -19827.455018 Schule 651.858271


Leben 301.887907
co2 362.431085
dtype: float64 mod = smf.ols('gdp ~school+life+co2 mod.params print(mod.summary())

Es war nicht möglich, automatisch zu speichern. Diese Datei wurde aus der Ferne oder in einer anderen Registerkarte aktualisiert.
Unterschiede aufzeigen df).fit()

Variable Dep: gdp R-Quadrat: 0.769
Modell: OLS Adj. R-Quadrat: 0.764
Methode: Kleinste F-Statistik: 189.2
Datum: Mo Quadrate
, 27. Dezember Wahrscheinlichkeit (F- 4.26e-54
Zeit: 2021 02:43:37 Statistik):
Log-Likelihood: -1791.2
Nein. Beobachtungen: 175 AIC: 3590.
Df Residuals: 171 BIC: 3603.
Df Modell: 3 nichtrobust
Kovarianz Typ:

======================== normaler ==========


t P>||t| [0.025
coef Irrtum 0.975]
Achsenabschnitt -
1,983e+04 4250.157 -4.665 0.000 -2.82e+04 -1.14e+04
Schule 651.8583 259.089 2.516 0.013 140.434 1163.283
Leben 301.8879 78.581 3.842 0.000 146.775 457.001
co2 362.4311 22.374 16.198 0.000 318.266 406.597

======================== ==========
36.887 Durbin-Watson:
Omnibus: 1.850
Prob(Omnibus): 0.000 Jarque-Bera (JB): 67.548
Schieflage: 1.020 Prob(JB): 2.15e-15
Kurtosis: 5.258 Bedingung. 600.
Nein.

Warnungen:
[1] Standardfehler setzen voraus, dass die Kovarianzmatrix der Fehler korrekt angegeben ist.

mod.summary()

OLS-
Abhängige Variable:Regressionsergebnisse
bdp R-Quadrat: 0.769
Modell: OLS Adj. R-Quadrat: 0,764
Methode: Kleinste Quadrate F-Statistik: 189.2
Datum: Mo, 27. Dez. 2021 Wahrscheinlichkeit (F-
Statistik): 4,26e-54
Zeit: 02:08:23
Log-Wahrscheinlichkeit: -
Nein. Beobachtungen: 175
1791,2
Df Residuen: 171
AIC: 3590.
Df Modell: 3
BIC: 3603.
Kovarianz Typ: nichtrobust coef std err

t P>|t|| [0.025 0.975]


Achsenabschnitt -1.983e+04 4250.157 0,000 -2,82e+04 -1,14e+04
-4.665
Schule 651.8583 259.089 2.516 0.013 140.434 1163.283
Leben 301.8879 78.581 3.842 0.000 146.775 457.001
co2 362.4311 22.374 16.198 0.000 318.266 406.597
Omnibus: 36.887 Durbin-Watson: 1.850
Prob(Omnibus): 0,000 Jarque-Bera (JB): 67,548

Es war nicht möglich, automatisch zu speichern. Diese Datei wurde aus der Ferne oder in einer anderen Registerkarte aktualisiert. Unterschiede aufzeigen

Warnungen:
[1] Standardfehler setzen voraus, dass die Kovarianzmatrix der Fehler korrekt angegeben ist.

4. Was ist der kausale Effekt, den Sie schätzen wollen? Warum ist sie interessant?

Der kausale Effekt, den wir mit der Variable Bruttoinlandsprodukt (BIP) schätzen wollen, ist die Untervariable in Bezug auf andere Variablen
(Schulbildung, Leben und CO2-Emissionen) und wie sie die anderen beeinflussen. Durch die Durchführung eines einfachen oder multiplen linearen
Regressionsmodells lernen Sie, vorhandene Informationen zu ignorieren und herauszufinden, was wirklich relevant ist und Ihnen echte und
konsistente Informationen liefert Das Bruttoinlandsprodukt ist der Gesamtwert der Waren und Dienstleistungen, die in einem bestimmten Zeitraum
auf dem Gebiet eines Landes produziert werden, ohne dass es zu Überschneidungen kommt. Er ergibt sich aus der Differenz zwischen dem
Bruttoproduktionswert und den im Produktionsprozess selbst verbrauchten Waren und Dienstleistungen zu Anschaffungspreisen (Vorleistungen).
Diese Variable kann auch als Nettogröße ermittelt werden, indem man vom BIP die Wertschöpfung und den ^jo-Kapitalverbrauch der in der
Produktion eingesetzten Investitionsgüter abzieht.
5. Ziehen Sie eine allgemeine Schlussfolgerung zu den Ergebnissen des Modells.

Zusammenfassend lässt sich sagen, dass die BIP-Variable im Verhältnis zu den anderen untersuchten Variablen ein R-Quadrat (R2) von 76,9 %
ergibt.
^. Ziehen Sie insbesondere Schlussfolgerungen aus den Ergebnissen des Modells.

Bei einer kurzen Analyse der multiplen Regression können wir feststellen, dass Variablen, die wenig Informationen liefern, zu Variablen werden, die
das Modell verfälschen.

7. Welche nicht berücksichtigten Variablen könnten die erklärte Variable beeinflussen? Justi^que.

Zusätzlich zu den bereits analysierten Variablen sollte die Bevölkerungszahl der Länder berücksichtigt werden, um das Pro-Kopf-BIP zu bewerten
und somit das Einkommen pro Person kaufen zu können. Eine weitere Variable, die hinzugefügt werden kann, ist die In^ation, die die Länder
erfahren, und die Aufgabe, das reale BIP zu finden, das jedes Land in einem Jahr erwirtschaftet.

Es war nicht möglich, automatisch zu speichern. Diese Datei wurde aus der Ferne oder in einer anderen Registerkarte aktualisiert. Unterschiede aufzeigen

- 0 s wurde ausgeführt 23:43

Das könnte Ihnen auch gefallen