Sie sind auf Seite 1von 10

Datenanalyse SS2013 1.

Angabe
1. Beispiel
Erstellen Sei ein flchentreues Histogramm (siehe ?hist) der Variable Fe_XRF aus der Bodenschicht bhorizon. Auf diese Variable knnen Sie mit dem $-Operator zugreifen (bhorizon$Fe_XRF). Was bedeutet flchentreues Histogramm? Ist es sinnvoll bzw. notwendig die Daten zu transformieren (z.B. mit log10)? Falls Sie die Daten transformieren, geben Sie eine Begrndung an, warum. Flchentreues Histogramm ist ein Histogramm, das das Prinzip der Flchentreue erfllt. Das Prinzip der Flchentreue lutet; die Histogramme so konstruiert werden, dass die Flche des Blockes ber einer Klasse der relativen Hufigkeit entspricht. Damit kann allgemeiner fr jedes Intervall die Flche unter der Hufigkeitsdichte als Nherung der relativen Hufigkeit der Werte aus dem Intervall betrachtet werden. Nach meiner Meinung eine Log transformation ist unnoetig da die Verteilung der FE_XRF keine Lognormal Verteilung sondern eine Normal Verteilung mit Ausreissern darstellt.

Fgen Sie nun zu diesem Histogramm zwei flchentreue Histogramme fr die (transformierten) Daten hinzu und verwenden Sie dabei einmal die Methode Friedman-Diaconis fr die Anzahl der Balken, die Sie mit dem Parameter breaks="FD" einstellen knnen und einmal eine quidistante Klasseneinteilung in 8 Klassen (dazu knnen Sie den Befehl ?seq oder den Parameter breaks der hist-Funktion verwenden). Mit dem Befehl par(mfrow = c(3, 1)) knnen Sie 3 Grafiken untereinander darstellen (siehe auch ?par). Erlutern Sie kurz die Unterschiede in den Klasseneinteilungen.

Hier das erste Histogramm hat eine Klasseneinteilung mit Intervalllnge nach Sturges, was das Default fr die hist() Funktion in R. Die Intervalllaenge betraegt: > (max(bhorizon$Fe_XRF)min(bhorizon$Fe_XRF))/(ceiling(log2(length(bhorizon$Fe_XRF))+1)) [1] 9300 Das zweite Histogramm hat eine Klasseneinteilung mit Intervalllnge nach FriedmanDiaconis mit jeweils 21 Klassen. Die Intervalllnge ist gefunden mit dem R Befehl >(2*IQR(bhorizon$Fe_XRF))/(length(bhorizon$Fe_XRF)^(1/3)) [1] 4412.308 Das dritte Histogramm hat 8 quivalente Intervalle mit Intervalllnge > (max(bhorizon$Fe_XRF)-min(bhorizon$Fe_XRF))/8 [1] 12787.5

2. Beispiel
Erstellen Sie nocheinmal das flchentreue Histogramm aus Beispiel 1 der (transformierten) Daten (Standard-Einstellung fr die Anzahl der Balken) und fgen Sie zwei Kerndichteschtzungen hinzu. Die Kerndichteschtzung kann mit dem Befehl density errechnet werden. Berechnen Sie die erste Kerndichteschtzung mit dem gaussian Kern und einmal mit dem optcosine Kern und zeichnen Sie beide Kerndichteschtzungen mit dem Befehl lines in 2 unterschiedlichen Farben ein (siehe Parameter col des Befehls lines). Wie uern sich die beiden unterschiedlichen Kerne der Dichteschtzung?

Kerndichteschtzung mit Gaussian Kern hat die folgende Merkmale: x y Min. : -4777 Min. :2.178e-09 1st Qu.: 25886 1st Qu.:2.955e-07 Median : 56550 Median :1.570e-06 Mean : 56550 Mean :8.145e-06 3rd Qu.: 87214 3rd Qu.:1.654e-05 Max. :117877 Max. :2.847e-05 Kerndichteschtzung mit optcosine Kern hat die folgende Merkmale: x y Min. : -4777 Min. :0.000e+00 1st Qu.: 25886 1st Qu.:2.861e-07 Median : 56550 Median :1.606e-06 Mean : 56550 Mean :8.146e-06 3rd Qu.: 87214 3rd Qu.:1.655e-05 Max. :117877 Max. :2.839e-05 Die zwei Kerndichteschtzungen sind nicht sehr unterschiedlich voneinander. Das unterschied ist kaum zu merken wenn man die Diagramme anschaut weil, das Unterschied der Mediane ist 36 e-06. Plotten Sie nun die Kerndichteschtzung fr die (transformierte) Variable Sr aus jeder der 4 Schichten. Stellen Sie jede Kerndichteschtzung in einer anderen Farbe dar. Sind Unterschiede zwischen den Schichten erkennbar und wenn ja, welche? R Code zum Erzeugen des Plots > denSrM=(density(log(moss$Sr),kernel="gaussian")) > denSrB=(density(log(bhorizon$Sr),kernel="gaussian")) > denSrC=(density(log(chorizon$Sr),kernel="gaussian")) > denSrO=(density(log(ohorizon$Sr),kernel="gaussian")) > plot(denSrB, main="Die Kerndichteschaetzung der Material Sr aus jeder der 4 Schichten" ) > lines(denSrO,col="red") > lines(denSrC,col="blue") > lines(denSrM,col="green")

Ja es gibt eine erkennbare unterschied zwischen den Schichten. Jeder Schicht hat unterschiedliche Dichte und Merkmale. Jeder Schicht hat unterschiedliche , und Median.

3. Beispiel
Generieren Sie sich zuerst 100 Realisierungen zweier Zufallsgren die aus einer geometrischen Verteilung mit Parameter prob = 0.25 bzw. einer Exponentialverteilung mit Parameter rate = 93 stammen. Dies funktioniert mit dem Befehl x.desc <- rgeom(100, prob = 0.25) bzw. x.cont <- rexp(100, rate = 93). Zeichnen Sie nun die empirische Verteilungsfunktion (?ecdf) der beiden Zufallsvektoren mit unterschiedlichen Farben in eine Grafik. Wie ist die empirische Verteilungsfunktion definiert und welche Unterschiede fallen Ihnen zwischen der diskret und der kontinuierlich verteilten Zufallsgre auf?

Die empirische Verteilungsfunktion der diskret verteilten Zufallsgroesen ist mit Schwarz dargestellt und die empirische Verteilungsfunktion der kontinuierlich verteilten Zufallsgroesen ist mit Rot dargestellt

Die empirische Verteilungsfunktion der diskret verteilten Zufallsgroesen ist mit Rot dargestellt und die empirische Verteilungsfunktion der kontinuierlich verteilten Zufallsgroesen ist mit Schwarz dargestellt. Eine empirische Verteilungsfunktion ist wie folgendes definiert; Eine Empirische Verteilungsfunktion F(t) auch Summenhufigkeitsfunktion oder Verteilungsfunktion der Stichprobe genannt ist definiert als die Summe der relativen Hufigkeiten derjenigen Stichprobenwerte/Merkmalsausprgungen, die kleiner oder gleich t sind. Bei der kontinuierliche Variant es ist zu sehen dass es ist mehr ueber die Wertenintervall verteilt im vergleich zur diskreten Variant, wo die gleiche werte mehrmals vorkommen. Die kontinuierliche Verteilung erzeugt eine relativ kontinuierliche Grafik als der diskreten Verteilung. Plotten Sie auerdem die empirische Verteilungsfunktion fr die Variablen Th, NO3 und As aus der Schicht ohorizon (falls sinnvoll, sollten Sie die Daten zuerst transformieren). Interpretieren Sie die Ergebnisse und Unterschiede der empirschen Verteilungsfunktionen. Ja es mach Sinn die Daten zu transformieren, weil die eine Lognormal Verteilung aufweisen. Durch Transformation, die Verteilung wird sich zu einer normal Verteilung umformen.

Die Verteilung fr Th und As schauen hnlich aus, und die aufweisen eine Normal Verteilung. Die Verteilung der NO3 wie eine Normal Verteilung, die sich auf der Y Achse nach oben geschoben hat. Das ist verursacht wegen der hohe dichte zwischen 0 und -1, das ist leicht zu sehen mit Hilfe des Histogramms der log transformierten NO3 Werte.

4. Beispiel
Ziehen Sie zufllig 500 Werte aus einer Normalverteilung mit Mittelwert 55 und Standardabweichung 6.16 (x <- rnorm(500, 55, 6.16)). Erstellen Sie fr die generierten Werte mit der Funktion qqplot.das einen QQ-Plot. Sind die Parameter der zugrunde liegenden Normalverteilung im Plot ersichtlich und wenn ja, wie?

Bei dieser QQPlot wir knnen sofort erkennen das unser zufllig gewhlte Werte zustimmen zu einer theoretischen Normal Verteilung. Aus der Grafik es ist auch zu sehen dass das Mittelwert auch in der Umgebung von 55 liegt. Wir knnen aus dieser Grafik nicht sehr viel ber die Standardabweichung beschlieen, aber es ist klar das es ist weniger als 10 und mehr als 5. Stellen Sie nun den QQ-Plot der 3 (evtl. transformierten) Variablen aus Beispiel 3 dar. Der QQ-Plot der ersten Variable kann wieder mit qqplot.das erzeugt werden. Die weiteren Variablen sollen im selben Plot mit anderer Farbe aufscheinen (kann mit dem Parameter add.plot der Funktion qqplot.das erzielt werden). Lassen sich im QQ-Plot Strukturen in den Daten erkennen und untersttzen die QQ-Plots ihre Schlsse in Beispiel 3?

Schwarz: NO3, Rot :Th, Blau: As

Ja QQ Plot unterstuetzt meine Schluesse vom Beispiel 3, die Daten fuer Th und As approximieren eine Normal Verteilung ausser rechte Quantilles. Bei der NO3 koennen wir leider nicht herausschliessen das es normal Verteilt ist, da die QQ Daten fuer

transformierte NO3 nicht zustimmen zu einer Normal Verteilung. Sondern die nicht transformierte daten der NO3 aehneln zu einer verschobenen Normal Verteilung.