Sie sind auf Seite 1von 9

AB1

Von Maximilian Mayr

1A- Stetige oder diskrete Variable?


1. Stetige Variablen: Eine Variable ist stetig, wenn sie innerhalb eines bestimmten Bereichs
jeden beliebigen Wert annehmen kann. Das bedeutet, dass die Variable unendlich viele
mögliche Werte hat, auch wenn diese in der Praxis oft aufgrund von Messgenauigkeit
begrenzt sind. Beispiele für stetige Variablen sind Gewicht, Länge, Zeit und Temperatur. Sie
können in beliebig kleinen Einheiten gemessen werden, und die Messungen können
unendlich fein differenziert sein.

2. Diskrete Variablen: Eine Variable ist diskret, wenn sie nur bestimmte, getrennte Werte
annehmen kann. Diese Werte sind typischerweise ganzzahlig, aber nicht notwendigerweise.
Ein klassisches Beispiel für eine diskrete Variable ist die Anzahl von etwas (z.B. Anzahl der
Kinder in einer Familie, Anzahl der Autos in einem Haushalt). Diese Werte können nicht in
kleinere Einheiten unterteilt werden; man kann nicht 2,5 Kinder oder 3,7 Autos haben.

1B- Puls Boxplot?


Boxplot:
• liefert eine effiziente visuelle Zusammenfassung der Daten
• Es zeigt den Median, das untere und obere Quartil sowie die Extremwerte (Minimum
und Maximum) oder Ausreißer
• Quartile geben Einblick in die Streuung und Schiefe der Daten
• viel Information in einem relativ kleinen Raum darstellen, was sie ideal für die
Verwendung in Publikationen oder Präsentationen macht, wo Platz begrenzt ist

1C- Motive Innsbruck Grafik?


Kreisdiagramme:
• Veranschaulichung (Visualisierung) der relativen Anteile oder Proportionen innerhalb
eines Ganzes
• Einfache Visualisierung von Proportionen
• Schwächen- Darstellung von Unterschieden zwischen kleinen Kategorien
• Schwächen- Vergleich mehrerer Datensätze (Balkendiagramme besser)

1D- Zusammenhang Ruhepuls/Ausübung Yoga?


- Median: Der Median (die Linie in der Mitte der Box) scheint in beiden Gruppen ähnlich zu
sein, was darauf hinweist, dass der mittlere Ruhepuls zwischen den beiden Gruppen
vergleichbar ist.
- Quartile und Streuung: Die Boxen, die die interquartile Range (IQR) darstellen (d.h., den
Bereich zwischen dem 25. und 75. Prozent), scheinen in beiden Gruppen ähnlich breit zu
sein. Das bedeutet, dass die Streuung des Ruhepulses in beiden Gruppen ähnlich ist.
- Extremwerte: Die "Whisker" (die Linien, die von den Boxen nach oben und unten zu den
extremen Datenpunkten ohne Ausreißer verlaufen) sind ebenfalls in beiden Gruppen ähnlich.
Dies bedeutet, dass die Gesamtspanne der Ruhepulse in beiden Gruppen nicht wesentlich
unterschiedlich ist.
• keinen starken visuellen Beweis für einen Unterschied im Ruhepuls zwischen den
beiden Gruppen sehen
• Mediane sind ähnlich, Streuung der Daten scheint konsistent- kein eindeutiger
Zusammenhang zwischen Yoga und Ruhepuls besteht
• weitere Faktoren berücksichtigt werden müssen, wie die Intensität und Dauer der
Yoga-Praxis, das Alter der Teilnehmer, ihre Fitnesslevel und andere Lebensstilfaktoren.

1E- Ruhepuls, Schätzer, Standardfehler, Konfidenzintervall


1. Schätzer:
Ein Schätzer eine Methode zur Berechnung der Schätzung des durchschnittlichen Ruhepulses
basierend auf beobachteten Daten. Ein guter Schätzer sollte die Eigenschaften der
Erwartungstreue (unbiasedness), Konsistenz und Effizienz besitzen, was bedeutet, dass er im
Durchschnitt den wahren Wert trifft, mit zunehmender Stichprobengröße genauer wird und
unter allen unverzerrten Schätzern die kleinste Varianz hat.
mean_estimator <- mean($puls) # Mittelwert als Schätzer des Populationsmittels
oder
proportion_estimator <- mean($puls) # wenn $puls binäre Werte enthält (0 und 1)
oder
variance_estimator <- var($puls) # Varianz als Schätzer der Populationsvarianz; `var` in R die
Stichprobenvarianz berechnet, die durch n-1 dividiert wird, wobei n die Stichprobengröße ist
oder
se_estimator <- sd(your_data) / sqrt(length(your_data)) #Schätzer für den Standardfehler des
Mittelwerts

2. Standardfehler:
Der Standardfehler eines Schätzers gibt an, wie präzise der Schätzer ist, indem er die
Standardabweichung der Verteilung des Schätzers misst. Im Wesentlichen ist der
Standardfehler ein Maß dafür, wie sehr die Schätzung von Probe zu Probe variiert, wenn
wiederholt Stichproben aus derselben Population gezogen werden.
In R können Sie den Standardfehler berechnen und ein 99% Konfidenzintervall für den
Mittelwert mit folgenden Befehlen ermitteln:

Berechnung des Standardfehlers:


# Angenommen, your_data ist Ihr Datensatz oder eine Spalte in einem Datenrahmen
standard_error <- sd(your_data) / sqrt(length(your_data))

3. Konfidenzintervall:
Ein Konfidenzintervall (CI) gibt einen Bereich von Werten an, der mit einer bestimmten
Wahrscheinlichkeit (Konfidenzniveau) den unbekannten Parameter der Population enthält.
Ein 99% Konfidenzintervall bedeutet, dass wenn man unendlich viele unabhängige
Stichproben aus der Population ziehen und für jede Stichprobe ein Konfidenzintervall
berechnen würde, 99% dieser Intervalle den wahren Populationsparameter enthalten
würden.
Berechnung eines 99% Konfidenzintervalls für den Mittelwert:

# Führen Sie einen t-Test (Einstichproben-t-Test ) durch und setzen Sie das Konfidenzniveau
auf 99%
t_test_result <- t.test(your_data, conf.level = 0.99)

# Das Konfidenzintervall aus dem t-Test-Ergebnis extrahieren


confidence_interval <- t_test_result$conf.int

1F- Hypothesen überprüfen, H0 und H1 aufstellen, Absolutwert mit t-Test bestimmen?

• Nullhypothese (H0) und Alternativhypothese (H1) festlegen


• Einstichproben-t-Test
- H0: Der Mittelwert der Population ist gleich einem spezifischen Wert (zum Beispiel μ0 =
100)
- H1: Der Mittelwert der Population ist nicht gleich diesem Wert (μ ≠ 100)

# Angenommen, your_data ist Ihr Datensatz oder eine Spalte in einem Datenrahmen
# und mu ist der Mittelwert der Population unter der Nullhypothese

mu <- 100 # Der Mittelwert unter H0


t_test_result <- t.test(your_data, mu = mu)
print(t_test_result) # Ergebnisse des t-Tests anzeigen
absolute_t_value <- abs(t_test_result$statistic) #Extrahierung Wert Teststatistik

Der p-Wert ist das Maß dafür, wie kompatibel die Stichprobendaten mit der Nullhypothese
sind. Ein niedriger p-Wert (typischerweise kleiner als das Signifikanzniveau, z.B. 0.05) deutet
darauf hin, dass die Stichprobendaten unvereinbar mit der Nullhypothese sind, und führt zur
Ablehnung von H0.

1G- Überprüfung Stichprobe?

sigma
X Stichprobenmittelwert,
mu_0 Nullhypothese angenommene Populationsmittelwert,
sigma Populationsstandardabweichung
n Stichprobengröße.

1. Berechnen Sie den Stichprobenmittelwert


2. Definieren Sie die unter der Nullhypothese angenommene Populationsmittelwert
3. Definieren Sie die Populationsstandardabweichung
4. Berechnen Sie den Z-Wert.
5. Ermitteln Sie den p-Wert aus der Normalverteilung.

your_data <- c(...) # Ersetzen Sie dies mit Ihren Daten


mu_0 <- 100 # Ersetzen Sie dies mit Ihrem hypothetischen Populationsmittelwert
sigma <- 15 # Ersetzen Sie dies mit der Populationsstandardabweichung
n <- length(your_data) # Stichprobengröße

sample_mean <- mean(your_data) # Stichprobenmittelwert berechnen


z_value <- (sample_mean - mu_0) / (sigma / sqrt(n)) # Z-Wert berechnen

p_value <- 2 * (1 - pnorm(abs(z_value))) # p-Wert für den zweiseitigen Test berechnen


cat("Z-Wert:", z_value, "\n")
cat("p-Wert:", p_value, "\n")# Ergebnisse anzeigen

AB2
2A- Unterschied statistisch sinifikant Ruhepuls yoga/kein Yoga?

• t-Test für unabhängige Stichproben- vergleicht die Mittelwerte von zwei


unabhängigen Gruppen

# Angenommen Sie haben zwei Vektoren von Daten: 'yoga_puls' für Studierende, die Yoga
praktizieren,
# und 'kein_yoga_puls' für Studierende, die kein Yoga praktizieren.

yoga_puls <- c(...) # Vektor mit Ruhepulswerten der Yoga-Gruppe


kein_yoga_puls <- c(...) # Vektor mit Ruhepulswerten der Nicht-Yoga-Gruppe
t_test_result <- t.test(yoga_puls, kein_yoga_puls) # Führen Sie den t-Test durch
print(t_test_result) # Ergebnisse des t-Tests anzeigen
• zweiseitigen t-Test aus und gibt Ihnen die Teststatistik, den p-Wert und das
Konfidenzintervall
• Wenn der p-Wert unter Ihrem gewählten Signifikanzniveau liegt (üblicherweise 0,05),
können Sie die Nullhypothese ablehnen, dass kein Unterschied zwischen den
Mittelwerten besteht. Das würde bedeuten, dass ein statistisch signifikanter
Unterschied im durchschnittlichen Ruhepuls zwischen den beiden Gruppen besteht

2B- Alternativhypothese -W Studierende niedrigeren Puls


• t-Test für unabhängige Stichproben verwenden, wenn Sie zwei Gruppen haben:
weibliche und männliche Studierende
• Der einseitige t-Test prüft die Hypothese, ob der Mittelwert der einen Gruppe
signifikant kleiner ist als der der anderen.
• Angenommen, zwei Vektoren von Daten: `ruhepuls_frauen` `ruhepuls_maenner` für

ruhepuls_frauen <- c(...) # Vektor mit Ruhepulswerten der weiblichen Studierenden


ruhepuls_maenner <- c(...) # Vektor mit Ruhepulswerten der männlichen Studierenden

t_test_result <- t.test(ruhepuls_frauen, ruhepuls_maenner, alternative = "less") # Führen Sie


den einseitigen t-Test durch
print(t_test_result) # Ergebnisse des t-Tests anzeigen

Wenn der p-Wert unter Ihrem gewählten Signifikanzniveau liegt (üblicherweise 0,05), können
Sie die Nullhypothese ablehnen und die Alternativhypothese akzeptieren, dass weibliche
Studierende im Durchschnitt einen niedrigeren Ruhepuls haben.

2C- Einkommen, höhere Ausgaben, Median monatliches durchschnitteinkommen?


• t-Test für unabhängige Stichproben durchführen
• Median des monatlich verfügbaren Einkommens berechnen
• Gruppen entsprechend aufteilen
• t-Test anwenden
einkommen <- c(...) # Vektor mit den Einkommensdaten
lebensmittel_ausgaben <- c(...) # Vektor mit den Ausgabendaten für Lebensmittel

medianeinkommen <- median(einkommen) # Berechnen Sie den Median des Einkommens

ausgaben_hoheres_einkommen <- lebensmittel_ausgaben[einkommen >


medianeinkommen]
ausgaben_niedrigeres_oder_gleiches_einkommen <- lebensmittel_ausgaben[einkommen <=
medianeinkommen] # Teilen Sie die Daten in zwei Gruppen basierend auf dem
Medianeinkommen

t_test_result <- t.test(ausgaben_hoheres_einkommen,


ausgaben_niedrigeres_oder_gleiches_einkommen) # t-Test durchführen
print(t_test_result) # Ergebnisse des t-Tests anzeigen

Dieser t-Test wird standardmäßig als zweiseitiger Test durchgeführt. Wenn Sie speziell testen
möchten, ob die Gruppe mit höherem Einkommen "signifikant höhere" Ausgaben hat (also
einseitiger Test), sollten Sie das `alternative` Argument entsprechend setzen:

t_test_result <- t.test(ausgaben_hoheres_einkommen,


ausgaben_niedrigeres_oder_gleiches_einkommen, alternative = "greater")

Der p-Wert, den Sie erhalten, gibt Ihnen Aufschluss darüber, ob die Unterschiede in den
durchschnittlichen Ausgaben statistisch signifikant sind oder nicht. Ein p-Wert unter dem
gewählten Signifikanzniveau (üblicherweise 0,05) würde darauf hinweisen, dass die Gruppe
mit dem höheren Einkommen tatsächlich signifikant mehr für Lebensmittel ausgibt als die
Gruppe mit dem niedrigeren oder gleichen Einkommen.

2D- Signifikanten Zusammenhang Ruhepuls/Anzahl Stunden Ausdauersport


• signifikanter linearer Zusammenhang zwischen dem Ruhepuls und der Anzahl an
Stunden Ausdauersport pro Woche
• lineare Regression durchführen und zusätzlich ein Streudiagramm mit einer
Regressionslinie erstellen

ruhepuls <- c(...) # Vektor mit Ruhepulswerten


ausdauer_sport_stunden <- c(...) # Vektor mit den Stunden für Ausdauersport

modell <- lm(ruhepuls ~ ausdauer_sport_stunden) # Führen Sie eine lineare Regression


durch
summary(modell) # Ergebnisse der linearen Regression anzeigen

plot(ausdauer_sport_stunden, ruhepuls, main = "Zusammenhang zwischen Ruhepuls und


Ausdauersport", xlab = "Stunden Ausdauersport pro Woche", ylab = "Ruhepuls", pch = 19)
abline(modell, col = "blue") # Erstellen Sie ein Streudiagramm mit der Regressionslinie

Wichtige Kennzahlen:
• p-Wert für den Steigungskoeffizienten (der angibt, ob der Koeffizient signifikant von
Null verschieden ist)
• R², welches den Anteil der Varianz in den Daten beschreibt, der durch das Modell
erklärt wird
Wenn die p-Werte für die Regressionskoeffizienten unter Ihrem gewählten Signifikanzniveau
liegen (üblicherweise 0,05), dann können Sie schließen, dass ein signifikanter linearer
Zusammenhang besteht. Das R² gibt Ihnen Aufschluss darüber, wie gut das Modell die Daten
erklärt. Je näher R² an 1 ist, desto besser erklärt das Modell die Varianz der abhängigen
Variable.

Was ist ein lineares Regressionsmodell?

2E- Analyse deskriptiv Abhängigkeit Ruhepuls/Ausdauersportstunden, lineares


Regressionsmodell, Regressionskoeffizient?
• Abhängigkeit des Ruhepulses von der Anzahl der Stunden, in denen Studierende
Ausdauersport betreiben
ruhepuls <- c(...) # Vektor mit Ruhepulswerten
ausdauer_sport_stunden <- c(...) # Vektor mit den Stunden für Ausdauersport
modell <- lm(ruhepuls ~ ausdauer_sport_stunden) # Lineares Regressionsmodell erstellen
summary(modell) # Modell zusammenfassen und Koeffizienten interpretieren

plot(ausdauer_sport_stunden, ruhepuls, main = "Zusammenhang zwischen Ruhepuls und


Ausdauersport", xlab = "Stunden Ausdauersport pro Woche", ylab = "Ruhepuls", pch = 19)
abline(modell, col = "blue") # Streudiagramm mit Regressionsgerade
Sie verwenden die `plot()` Funktion, um das Streudiagramm zu erstellen, und `abline()`, um
die Regressionsgerade hinzuzufügen.
AB FINAL

3A- Multiples Regressionsmodell


Um ein multiples lineares Regressionsmodell für den Ruhepuls mit den erklärenden
Variablen Ausdauer (z.B. Stunden Ausdauersport pro Woche), Geschlecht, Ernährung,
Wasserkonsum, Alter und einer weiteren sinnvollen Variable zu formulieren, verwenden Sie
in R die `lm()` Funktion. Nehmen wir als weitere Variable

ruhepuls <- c(...) # Vektor mit Ruhepulswerten


ausdauer <- c(...) # Stunden Ausdauersport pro Woche
geschlecht <- factor(...) # Geschlecht, kodiert als Faktor (z.B. "männlich", "weiblich")
ernaehrung <- c(...) # Bewertung der Ernährungsqualität oder ähnliche metrische Variable
wasser <- c(...) # Täglicher Wasserkonsum in Litern
alter <- c(...) # Alter in Jahren
schlaf <- c(...) # Durchschnittliche Schlafstunden pro Nacht

modell <- lm(ruhepuls ~ ausdauer + geschlecht + ernaehrung + wasser + alter + schlaf) #


Multiples lineares Regressionsmodell erstellen
summary(modell) # Modell zusammenfassen und interpretieren

In `summary(modell)` sehen Sie die geschätzten Regressionskoeffizienten für jede Variable


sowie Statistiken wie den Standardfehler, t-Werte und p-Werte, die Ihnen helfen, die
Signifikanz und das Vorzeichen jedes Koeffizienten zu interpretieren. Ersetzen Sie `c(...)` und
`factor(...)` durch Ihre tatsächlichen Daten. Beachten Sie, dass kategoriale Variablen wie
Geschlecht als Faktoren in das Modell eingebracht werden sollten.

Das Vorzeichen und die Signifikanz der Koeffizienten geben Aufschluss darüber, wie jede
Variable mit dem Ruhepuls zusammenhängt und ob diese Zusammenhänge statistisch
signifikant sind.

3B- Berechnung multiple lineare Regressionsmodell


ruhepuls <- c(...) # Vektor mit Ruhepulswerten
ausdauer <- c(...) # Stunden Ausdauersport pro Woche
geschlecht <- factor(...) # Geschlecht, kodiert als Faktor (z.B. "männlich", "weiblich")
ernaehrung <- c(...) # Bewertung der Ernährungsqualität oder ähnliche metrische Variable
wasser <- c(...) # Täglicher Wasserkonsum in Litern
alter <- c(...) # Alter in Jahren
schlaf <- c(...) # Durchschnittliche Schlafstunden pro Nacht
modell <- lm(ruhepuls ~ ausdauer + geschlecht + ernaehrung + wasser + alter + schlaf) #
Multiples lineares Regressionsmodell erstellen
summary(modell) # Modell zusammenfassen und interpretieren

In der Zusammenfassung (`summary(modell)`) erhalten Sie die folgenden Informationen:

1. Koeffizienten: Die geschätzten Werte für jeden Regressionskoeffizienten. Ein positives


Vorzeichen bedeutet, dass mit steigendem Wert der erklärenden Variablen auch der
Ruhepuls steigt, und umgekehrt für ein negatives Vorzeichen.
2. Standardfehler: Misst die Genauigkeit der Koeffizientenschätzungen.
3. t-Werte und p-Werte: Wichtige Statistiken, um die Signifikanz der Koeffizienten zu
beurteilen. Ein p-Wert unter einem bestimmten Schwellenwert (z.B. 0,05) deutet darauf hin,
dass der Koeffizient statistisch signifikant von Null verschieden ist.
4. R² (Bestimmtheitsmaß): Misst den Anteil der Varianz der abhängigen Variablen, der durch
das Modell erklärt wird. Ein höheres R² deutet auf eine bessere Anpassung des Modells hin.
5. F-Statistik: Wird verwendet, um die Gesamtsignifikanz des Modells zu beurteilen.

3C- Body-Mass-Index Koörpergewicht/Körpergröße?


Um den Body-Mass-Index (BMI) in R zu berechnen, müssen Sie das Körpergewicht (in
Kilogramm) durch das Quadrat der Körpergröße (in Metern) teilen.

gewicht <- c(...) # Vektor mit Körpergewichten in kg


groesse <- c(...) # Vektor mit Körpergrößen in m
bmi <- gewicht / (groesse^2) # Berechnen Sie den BMI
bmi # BMI-Werte anzeigen

3D- kategoriale Variable Stresslevels


stress <- c(...) # Vektor mit Stresswerten

stress_cat <- cut(stress, breaks = c(-Inf, 33, 66, Inf), labels = c("niedrig", "mittel", "hoch"),
right = FALSE) # Kategoriale Variable 'stress_cat' erstellen
table(stress_cat) # Überprüfen Sie die erstellte kategoriale Variable

In diesem Code:
- `cut()` wird verwendet, um die numerische Variable `stress` in kategoriale Gruppen zu
unterteilen.
- Die `breaks`-Option definiert die Grenzen für die Kategorien: -∞ bis unter 33 für "niedrig",
33 bis unter 66 für "mittel" und 66 bis ∞ für "hoch".
- `labels` definiert die Namen der Kategorien.
- `right = FALSE` bedeutet, dass die Unterseite des Intervalls inklusiv und die Oberseite
exklusiv ist (d.h., 33 ist in der Kategorie "mittel" enthalten).

3E- Berechnung Regressionsmodell?


erweitertes_modell <- lm(ruhepuls ~ ausdauer + geschlecht + ernaehrung + wasser + alter +
schlaf + bmi + stress_cat) # Erweitern Sie das Modell um 'bmi' und 'stress_cat'
summary(erweitertes_modell) # Modell zusammenfassen und interpretieren
- **Koeffizienten von `bmi` und `stress_cat`**: Diese zeigen, wie sich der Ruhepuls
verändert, wenn der BMI oder der Stresslevel sich verändern, während alle anderen
Variablen konstant gehalten werden.
- **Signifikanz von `bmi` und `stress_cat`**: p-Werte zeigen, ob die Veränderungen
statistisch signifikant sind.
- **Gesamte Modellqualität**: R² und F-Statistik geben Aufschluss über die
Gesamtanpassung des Modells.

3F- Vergleich Regressionsmodell mit Modellselektionskriterien?


Das Adjustierte R-Quadrat berücksichtigt die Anzahl der Prädiktoren im Modell und bestraft
übermäßige Komplexität. AIC und BIC bieten eine Balance zwischen der Anpassung des
Modells und der Anzahl der verwendeten Prädiktoren, wobei niedrigere Werte auf ein
besseres Modell hinweisen.

summary(modell)$adj.r.squared
AIC(modell)
BIC(modell) # Berechnen Sie die Modellselektionskriterien für das erste Modell

summary(erweitertes_modell)$adj.r.squared
AIC(erweitertes_modell)
BIC(erweitertes_modell) # Berechnen Sie die Modellselektionskriterien für das erweiterte
Modell

- Adjustiertes R-Quadrat: Höhere Werte deuten auf eine bessere Modellanpassung hin. Ein
deutlich höheres adjustiertes R-Quadrat im erweiterten Modell könnte ein Hinweis darauf
sein, dass die zusätzlichen Variablen relevant sind.
- AIC und BIC: Niedrigere Werte deuten auf ein besseres Modell hin. Vergleichen Sie die AIC-
und BIC-Werte beider Modelle, um zu sehen, ob die Erhöhung der Modellkomplexität durch
die zusätzlichen Variablen gerechtfertigt ist.

Das könnte Ihnen auch gefallen