Sie sind auf Seite 1von 25

1

Einführung in die Datenanalyse


Projekt 3 - Zusammenfassung

Einführung in die
Datenanalyse
Projekt 3 - Zusammenfassung

Von Pratyay Godiawala


2
Einführung in die Datenanalyse
Projekt 3 - Zusammenfassung

21.
Datum:- Februar 2021.
WICHTIGSTE ERKENNTNISSE

Übersicht

In diesem Projekt wurde ich gebeten, den inchBio-Datensatz zu analysieren, visuelle


Diagramme und Grafiken des Datensatzes zu erstellen sowie die Zusammenfassung der
Ergebnisse bereitzustellen. Es ist in zwei Teile aufgeteilt, erstens sind es Statistiken, die
erklärt werden. Im ersten Teil werde ich die Datenstruktur von inchBio analysieren und die
Statistiken im Detail erläutern. Im nächsten Teil erkläre ich einige der Diagramme und
Grafiken.

Beschreibende Statistiken

Beim Druck des Datensatzes zeigte sich zunächst, dass es nur eine Fischart in der Studie gab. Es gab
jedoch 534 Zeilen, die ausgelassen wurden, da ich Screenshots von anderen Bereichen machen
wollte. Ich druckte zufällige Bereiche, die bestätigten, dass mindestens 4 Arten beteiligt waren.
Danach lief ich, als ich eine vollständige Zählung des Datensatzes durchführte und feststellte, dass
tatsächlich 8 Arten beteiligt waren.
3
Einführung in die Datenanalyse
Projekt 3 - Zusammenfassung

Wenn wir uns die Datensatzstruktur ansehen, können wir einige andere statistische Informationen
sehen, wie die Länge des Datensatzes sowie den Mittelwert, den Median, den Modus der Länge und
das Gewicht der verschiedenen Fische.

Um den Prozentsatz der Fische in dieser Studie zu ermitteln, verwenden wir die unten
gezeigte Häufigkeitsanalyse.

Nach Einsicht der Informationen scheint es, dass Largemouth Bass und Bluegill die
Population der Studie dominieren.
4
Einführung in die Datenanalyse
Projekt 3 - Zusammenfassung

Plot-Analyse

Das erste Diagramm ist ein Balkendiagramm, das die Gesamtzahlen der Fischarten in der
Studie zeigt. Wir können sehen, dass Largemouth Bass und Bluegill tatsächlich die
bevölkerungsreichste Fischart sind.

Jetzt haben wir das Balkendiagramm in die Anzeige der relativen Häufigkeit geändert.
Obwohl der Großteil des Visuellen gleich ist, können wir sehen, dass Bluegill und
Largemouth Bass zusammen die Mehrheit der Fischpopulation ausmachen
5
Einführung in die Datenanalyse
Projekt 3 - Zusammenfassung

Der einfachste Weg, diese beiden Punkte zu sehen, ist ein Pareto-Plot, der alles auf einmal
zeigt. Auf der Pareto-Karte habe ich Kumulative Zählungen auf der linken Seite der Y-Achse
und Prozentsätze auf der rechten Seite. Die grüne kumulative Zähllinie zeigt meinen
vorherigen Punkt an, dass Sie, wenn Sie den Largemouth Bass- und den Bluegill-Bestand
hinzufügen, 448 Fische haben.
6
Einführung in die Datenanalyse
Projekt 3 - Zusammenfassung

Zusammenfassung
Dabei werden weitere Informationen zum Gewässer hilfreich sein. Handelt es sich zum
Beispiel nur um ein Gewässer oder um mehrere Gewässer? Auch die geografische Lage
würde helfen.

Die Länge und das Gewicht der Fische scheinen nicht die Unterscheidungsmerkmale der
Größe der Art zu sein. Wir fanden heraus, dass der beste Fisch der Largemouth Bass war,
aber Bluegill war nicht der zweitgrößte Fisch. Die Paret-Analyse hilft uns auch, nicht nur die
qualitativen Daten, sondern auch die quantitativen Daten zu verstehen.
7
Einführung in die Datenanalyse
Projekt 3 - Zusammenfassung

Biblographie
Bluman, A. G. (2018). Elementare Statistik: Ein Schritt-für-Schritt-Ansatz. New York, NY:
McGraw-Hill Education.

Engel, C. (n.d.). Einführung in r. Abgerufen am 21. Februar 2021 von


https://cengel.github.io/R-intro/gettingstarted.html

Robk@statmethods.net, R. (n.d.). Achsen und Text. Abgerufen am 21. Februar 2021 von
http://www.statmethods.net/advgraphs/axes.html

Plyr. (n. z.). Abgerufen am 21. Februar 2021 von


http://www.rdocumentation.org/packages/plyr/versions/1.8.6/topics/count

Was ist ein Pareto-Diagramm? (n.d.). Abgerufen am 21. Februar 2021 von
https://asq.org/quality-resources/pareto
8
Einführung in die Datenanalyse
Projekt 3 - Zusammenfassung

Anhang

F1) Drucken Sie Ihren Namen oben im Skript aus und laden Sie diese Bibliotheken: FSA,
FSAdata, magrittr, dplyr, tidyr plyr und tidyverse

Q2) Importieren Sie die inchBio.csv und benennen Sie die Tabelle
9
Einführung in die Datenanalyse
Projekt 3 - Zusammenfassung

Q3) Kopf, Schwanz und Struktur von <bio> anzeigen

Konsole

F4) Erstellen Sie ein Objekt, <counts>, das alle Artendatensätze zählt und auflistet

Konsole
10
Einführung in die Datenanalyse
Projekt 3 - Zusammenfassung

Q5) Nur die 8 Ebenen (Namen) der Art anzeigen

Konsole

Q6) Erstellen Sie ein <tmp> -Objekt, das die verschiedenen Arten und die Anzahl der
Datensätze jeder Art im Datensatz anzeigt. Fügen Sie diese Informationen in Ihren
Bericht ein.

Konsole
11
Einführung in die Datenanalyse
Projekt 3 - Zusammenfassung

F7) Erstellen Sie eine Teilmenge,<tmp2> , nur der Artenvariablen und zeigen Sie die
ersten fünf Datensätze an

Konsole

Q8) Erstellen Sie eine Tabelle, , der Artenvariablen. Anzeige der Klasse von w

Konsole
12
Einführung in die Datenanalyse
Projekt 3 - Zusammenfassung

F9) Konvertieren Sie <w> in einen Datenrahmen mit dem Namen <t> und zeigen Sie die
Ergebnisse an

Konsole

Q10) Frequenzwerte aus dem <t> Dataframe extrahieren und anzeigen

Konsole
13
Einführung in die Datenanalyse
Projekt 3 - Zusammenfassung
Q11) Erstellen Sie eine Tabelle mit dem Namen < cSpec > aus dem Bio-Spezies-Attribut
(Variable) und bestätigen Sie, dass Sie eine Tabelle erstellt haben, die die Anzahl der
Arten im Datensatz anzeigt <bio>

Konsole

F12) Erstellen Sie eine Tabelle mit dem Namen <cSpecPct >, die die Arten und den
Prozentsatz der Datensätze für jede Art anzeigt. Bestätigen Sie, dass Sie eine
Tabellenklasse erstellt haben

Konsole
14
Einführung in die Datenanalyse
Projekt 3 - Zusammenfassung
Q13)Konvertieren Sie die Tabelle <cSpecPct> in einen Datenrahmen mit dem
Namen<u> und bestätigen Sie, dass <u> ein Datenrahmen ist

Konsole

Q14)Erstellen Sie ein Barplot von <cSpec >mit folgendem Titel: Fish Count mit
folgenden Spezifikationen:
• Titel: Fish Count
• Die Y-Achse ist mit "ZÄHLUNGEN" gekennzeichnet
• Färben Sie die Balken hellgrün
• Y-Achse horizontal drehen
• Stellen Sie die Schriftvergrößerung der X-Achse auf 60 % des Nennwerts ein
15
Einführung in die Datenanalyse
Projekt 3 - Zusammenfassung

Q15) Erstellen Sie ein Balkenplot von <cSpecPct > mit den folgenden Spezifikationen:
• Y-Achsengrenzen von 0 bis 4
• Y-Achse Beschriftungsfarbe Hellblau
• Titel „Relative Häufigkeit von Fischen“
16
Einführung in die Datenanalyse
Projekt 3 - Zusammenfassung

Q16) Ordnen Sie den <u> cSpec Pct-Datenrahmen in absteigender Reihenfolge der
relativen Häufigkeit an. Speichern Sie den neu angeordneten Datenrahmen als
Objekt<d>

Konsole

Q17) Benennen Sie die <d>Spalten Var 1 in Species und Freq in RelFreq um
17
Einführung in die Datenanalyse
Projekt 3 - Zusammenfassung

Konsole

F18) Fügen Sie neue Variablen zu <d> hinzu und nennen Sie sie Cumfreq, Counts und
Cumcounts

Konsole

Q19) Erstellen Sie eine Parametervariable <def_par>, um Parametervariablen zu


speichern
18
Einführung in die Datenanalyse
Projekt 3 - Zusammenfassung

Q20) Erstellen Sie ein Barplot,<pc> , mit den folgenden Spezifikationen:


• d$Zählungen der Breite 1, Abstand von 0,15
• kein Boarder
• Achsen: F
• Yaxis-Grenze 0,3,05*max
• d$counts na.rm ist wahr
• y Label ist Cummulative Counts
• x-Achse auf 70 % skalieren
• names.arg: d$Art
• Titel des Barplots ist „Species Pareto“
• las: 2)

Q21) Fügen Sie dem <pc> -Diagramm eine kumulative Zähllinie mit folgendem hinzu:
• Spez. Linientyp ist b
• Skala Plotten Text bei 70%
• Datenwerte sind durchgezogene Kreise mit der Farbe Cyan4
19
Einführung in die Datenanalyse
Projekt 3 - Zusammenfassung
Q22)Platzieren Sie eine graue Box um das Pareto-Plot.

Q23) Fügen Sie eine linke Seitenachse mit den folgenden Spezifikationen hinzu
• Horizontale Werte an Häkchen bei Kumulation auf Seite 2
• Häkchenfarbe grau62
• Die Farbe der Achse ist grau62
• Achse skaliert auf 80 % des Normalwertes

Q24) Füge die Achsdetails auf der rechten Seite der Box mit den Spezifikationen hinzu:
• Spezifikation: Seite 4
• Tickmarks bei cumcounts mit Labels von 0 bis cumfreq mit %,
• Achsenfarbe Cyan5 und Etikettenfarbe Cyan4
• Achsenschriftart skaliert auf 80 % des Nennwerts

Q25) Zeigen Sie das fertige Spezies-Pareto-Plot an (ohne die Stern-Wasserzeichen).


Geben Sie Ihren Nachnamen auf dem Grundstück an
20
Einführung in die Datenanalyse
Projekt 3 - Zusammenfassung

Flurstück für Q20-Q25

Endgültiges Skript kombiniert


#1
21
Einführung in die Datenanalyse
Projekt 3 - Zusammenfassung
print("Pratyay Godiawala")

install.packages("plyr")
install.packages(„FSA“)
install.packages(„FSAdata“)
install.packages("magrittr")
install.packages("dplyr")
install.packages("tidyr")
install.packages("tidyverse")
install.packages("plotrix")
install.packages("ggplot2")
install.packages(„Momente“)
bibliothek(Plyr)
bibliothek(FSA)
bibliothek(FSAdata)
bibliothek(magrittr)
bibliothek(dplyr)
bibliothek(tidyr)
bibliothek(tidyverse)
bibliothek(Plotrix)
bibliothek(ggplot2)
bibliothek(Momente)

setwd("C:/Programme/R")
getwd()

#2
bio <- read.csv("inchBio.csv", header=TRUE)
bio
22
Einführung in die Datenanalyse
Projekt 3 - Zusammenfassung

#3
kopfschwanz(bio, n=5)
str(bio)

#4
bio[c(1:3, 250:253, 450:453, 670:673),]

count(bio[1:676,], vars = Arten)


counts = Anzahl(bio[1:676,], vars = Arten)

#5
zählt$n <- NULL
zählt

#6
bio
tmp.species.records <-count(bio[1:676,], vars = Arten)
tmp.species.records

#7
temp2.speciesonly <- bio[c(-1,-2,-4,-5,-6,-7)]
temp2.speciesonly
kopf(temp2.speciesonly,5)

#OR*

temp3.speciesonly <- Teilmenge (bio, select = c(species))


temp3.speciesonly
23
Einführung in die Datenanalyse
Projekt 3 - Zusammenfassung
kopf(temp3.speciesonly,5)

zusammenfassung(Bio)

#8
w <- Tabelle(bio$Arten)
w
class(w)

#9
t <- as.data.frame(w)
t

#10
freq <- t[,2]
freq

#11
cSpec = Tabelle(bio$species)
cSpec

#12
cSpecPct = Tabelle(bio$species)/676
cSpecPct

klasse(cSpecPct)

#13
u = as.data.frame(cSpecPct)
24
Einführung in die Datenanalyse
Projekt 3 - Zusammenfassung
u

klasse(u)

#14
barplot(cSpec, ylab = "Counts", las=2, cex.names = .6, col="lightgreen", main="Fish
Count")

#15
barplot(cSpecPct, ylim=c(0,0,0,4), las=2, ylab="%", col="lightblue", cex.names=.5,
main="Fish Relative Frequency")

#16
d = arrangieren(u,desc(Freq))
d

#17
namen(d) [Namen(d)=="Var1"]="Art"
names(d) [names(d)=="Freq"]="RelFreq"
d

#18
d<- mutieren(d, cumfreq=cumsum(RelFreq), counts=RelFreq*676,
cumcounts=cumsum(counts))
d

#19
def_par = par()
par(mar=c(6,5,3,5))
25
Einführung in die Datenanalyse
Projekt 3 - Zusammenfassung
#20
pc <- barplot(d$counts, width=1, space=.15, border=NA, axes=F,
ylim=c(0,3.05*max(d$counts, na.rm=T)),
ylab="Kumulative Zählungen", cex.names=.7, names.arg=d$Spezies, main="Spezies
Pareto (von Pratyay Godiawala)", las=2)

#21
zeilen(pc,d$cumcounts, type="b", cex=0.7, pch = 19, col="cyan4")

#22
box(col="grey62")

#23
axis(side=2, at=c(0, d$cumcounts), las=1, col.axis="grey62", col="grey62", cex.axis=0,8)

#24
axis(side=4, at=c(0, d$cumcounts), labels=paste(c(0, round(d$cumfreq * 100)), "%", sep=""),
las = 1, col.axis = "cyan4", col="cyan4", cex.axis=0,8)

#25
axis(side=4, at=c(0, d$cumcounts), labels=paste(c(0, round (d$cumfreq * 100)), "%",
sep=""),
las = 1, col.axis = "cyan4", col="cyan4", cex.axis=0,8)

Das könnte Ihnen auch gefallen