Beruflich Dokumente
Kultur Dokumente
Anhand der Datenbank, die dem Workshop beigefügt ist, sollten Sie die folgenden Schritte ausführen. Denken Sie daran, bei Bedarf ein Codefeld
und/oder einen Text hinzuzufügen.
1. Schreiben Sie die Bibliotheken auf, die zum Ausführen des Codes benötigt werden.
2. Importieren und bereinigen Sie (falls erforderlich) die Datenbank ordnungsgemäß.
3. Entwickeln Sie ein multiples lineares Regressionsmodell, bei dem die erklärte Variable das Bruttoinlandsprodukt (BIP) des Landes ist.
4. Was ist der kausale Effekt, den Sie schätzen wollen? Warum ist sie interessant?
5. Ziehen Sie eine allgemeine Schlussfolgerung zu den Ergebnissen des Modells.
^. Ziehen Sie insbesondere Schlussfolgerungen aus den Ergebnissen des Modells.
7. Welche nicht berücksichtigten Variablen könnten die erklärte Variable beeinflussen? Justi^que.
Es war nicht möglich, automatisch zu speichern. Diese Datei wurde aus der Ferne oder in einer anderen Registerkarte aktualisiert. Unterschiede aufzeigen
import statsmodels.api as sm
import statsmodels.formula.api as smf
import matplotlib.pyplot as plt
from statsmodels.graphics.regressionplots import abline_plot
numpy als np importieren
seaborn als sns importieren
# Daten beobachten
io importieren
df.head()
•
Land Region gdp Schule Leben co2
Es war nicht möglich, automatisch zu speichern. Diese Datei wurde aus der Ferne oder in einer anderen Registerkarte aktualisiert.
Unterschiede aufzeigen
<Klasse 'pandas.core.frame.DataFrame'>
RangeIndex: 194 Einträge, 0 bis 193
Date Spalten (insgesamt 6 Spalten):
n # Spalten Nicht-Null- D-Typ
Date Spalte Zählung
0 Land 194 Nicht-Null Objekt
1 Region 194 Nicht-Null Objekt
2 gdp 179 Nicht-Null float64
3 Schule 188 Nicht-Null float64
4 Leben 194 Nicht-Null float64
5 co2 185 Nicht-Null float64
dtypes: float64(4), object(2) Speicherverbrauch: 9.2+ KB
df.corr()
<Klasse 'pandas.core.frame.DataFrame'>
Int64Index: 175 Einträge, 0 bis 193
Datenspalten (insgesamt 6 Spalten):
# Spalte Nicht-Null Zählung Dtype
0 Land 175 Nicht-Null Objekt
1 Region 175 Nicht-Null Objekt
2 gdp 175 Nicht-Null float64
3 Schule 175 Nicht-Null float64
4 Leben 175 Nicht-Null float64
5 co2 175 Nicht-Null float64
dtypes: float64(4), object(2) Speicherverbrauch: 9.6+ KB
df.corr()
Es war nicht möglich, automatisch zu speichern. Diese Datei wurde aus der Ferne oder in einer anderen Registerkarte aktualisiert.
Unterschiede aufzeigen
1 0.58
0.9
042
Es war nicht möglich, automatisch zu speichern. Diese Datei wurde aus der Ferne oder in einer anderen Registerkarte aktualisiert.
Unterschiede aufzeigen df).fit()
—
Variable Dep: gdp R-Quadrat: 0.769
Modell: OLS Adj. R-Quadrat: 0.764
Methode: Kleinste F-Statistik: 189.2
Datum: Mo Quadrate
, 27. Dezember Wahrscheinlichkeit (F- 4.26e-54
Zeit: 2021 02:43:37 Statistik):
Log-Likelihood: -1791.2
Nein. Beobachtungen: 175 AIC: 3590.
Df Residuals: 171 BIC: 3603.
Df Modell: 3 nichtrobust
Kovarianz Typ:
======================== ==========
36.887 Durbin-Watson:
Omnibus: 1.850
Prob(Omnibus): 0.000 Jarque-Bera (JB): 67.548
Schieflage: 1.020 Prob(JB): 2.15e-15
Kurtosis: 5.258 Bedingung. 600.
Nein.
Warnungen:
[1] Standardfehler setzen voraus, dass die Kovarianzmatrix der Fehler korrekt angegeben ist.
mod.summary()
OLS-
Abhängige Variable:Regressionsergebnisse
bdp R-Quadrat: 0.769
Modell: OLS Adj. R-Quadrat: 0,764
Methode: Kleinste Quadrate F-Statistik: 189.2
Datum: Mo, 27. Dez. 2021 Wahrscheinlichkeit (F-
Statistik): 4,26e-54
Zeit: 02:08:23
Log-Wahrscheinlichkeit: -
Nein. Beobachtungen: 175
1791,2
Df Residuen: 171
AIC: 3590.
Df Modell: 3
BIC: 3603.
Kovarianz Typ: nichtrobust coef std err
Es war nicht möglich, automatisch zu speichern. Diese Datei wurde aus der Ferne oder in einer anderen Registerkarte aktualisiert. Unterschiede aufzeigen
Warnungen:
[1] Standardfehler setzen voraus, dass die Kovarianzmatrix der Fehler korrekt angegeben ist.
4. Was ist der kausale Effekt, den Sie schätzen wollen? Warum ist sie interessant?
Der kausale Effekt, den wir mit der Variable Bruttoinlandsprodukt (BIP) schätzen wollen, ist die Untervariable in Bezug auf andere Variablen
(Schulbildung, Leben und CO2-Emissionen) und wie sie die anderen beeinflussen. Durch die Durchführung eines einfachen oder multiplen linearen
Regressionsmodells lernen Sie, vorhandene Informationen zu ignorieren und herauszufinden, was wirklich relevant ist und Ihnen echte und
konsistente Informationen liefert Das Bruttoinlandsprodukt ist der Gesamtwert der Waren und Dienstleistungen, die in einem bestimmten Zeitraum
auf dem Gebiet eines Landes produziert werden, ohne dass es zu Überschneidungen kommt. Er ergibt sich aus der Differenz zwischen dem
Bruttoproduktionswert und den im Produktionsprozess selbst verbrauchten Waren und Dienstleistungen zu Anschaffungspreisen (Vorleistungen).
Diese Variable kann auch als Nettogröße ermittelt werden, indem man vom BIP die Wertschöpfung und den ^jo-Kapitalverbrauch der in der
Produktion eingesetzten Investitionsgüter abzieht.
5. Ziehen Sie eine allgemeine Schlussfolgerung zu den Ergebnissen des Modells.
Zusammenfassend lässt sich sagen, dass die BIP-Variable im Verhältnis zu den anderen untersuchten Variablen ein R-Quadrat (R2) von 76,9 %
ergibt.
^. Ziehen Sie insbesondere Schlussfolgerungen aus den Ergebnissen des Modells.
Bei einer kurzen Analyse der multiplen Regression können wir feststellen, dass Variablen, die wenig Informationen liefern, zu Variablen werden, die
das Modell verfälschen.
7. Welche nicht berücksichtigten Variablen könnten die erklärte Variable beeinflussen? Justi^que.
Zusätzlich zu den bereits analysierten Variablen sollte die Bevölkerungszahl der Länder berücksichtigt werden, um das Pro-Kopf-BIP zu bewerten
und somit das Einkommen pro Person kaufen zu können. Eine weitere Variable, die hinzugefügt werden kann, ist die In^ation, die die Länder
erfahren, und die Aufgabe, das reale BIP zu finden, das jedes Land in einem Jahr erwirtschaftet.
Es war nicht möglich, automatisch zu speichern. Diese Datei wurde aus der Ferne oder in einer anderen Registerkarte aktualisiert. Unterschiede aufzeigen