Sie sind auf Seite 1von 2

In diesem Video geht es um deskriptive Statistik.

Wenn Sie mit der Datenanalyse


beginnen, ist es wichtig,
dass Sie zunächst Ihre Daten untersuchen, bevor Sie Zeit damit verbringen,
komplizierte Modelle zu erstellen. Eine einfache Möglichkeit, dies zu tun, ist die
Berechnung
einiger deskriptiver Statistiken für Ihre Daten. Die deskriptive statistische
Analyse hilft bei der Beschreibung
grundlegender Merkmale eines Datensatzes und liefert eine kurze Zusammenfassung
über
die Stichprobe und die Maße der Daten. Wir zeigen Ihnen ein paar nützliche
Methoden. Eine Möglichkeit, dies zu tun, besteht darin,
die Funktion describe in Pandas zu verwenden. Wenn Sie die Funktion describe
verwenden und auf
Ihren Datenrahmen anwenden, berechnet die Funktion describe automatisch die
Basisstatistiken für alle numerischen Variablen. Es zeigt den Mittelwert, die
Gesamtzahl der Datenpunkte, die Standardabweichung, die Quartile und die
Extremwerte. Alle NAN-Werte werden in dieser Statistik automatisch übersprungen.
Mit dieser Funktion erhalten Sie eine klare Vorstellung
von der Verteilung Ihrer verschiedenen strukturieren können. Sie können auch
kategoriale Variablen in Ihrem Datensatz haben. Dies sind Variablen, die in
verschiedene Kategorien oder
Gruppen eingeteilt werden können und diskrete Werte haben. In unserem Datensatz
haben wir zum Beispiel das
Antriebssystem als kategoriale Variable, die aus den Kategorien Vorderradantrieb,
Hinterradantrieb und Allradantrieb besteht. Eine Möglichkeit, die kategorialen
Daten zusammenzufassen, ist die Funktion value_counts. Wir können den Namen der
Spalte ändern,
um sie besser lesbar zu machen. Wir sehen, dass wir 118 Fahrzeuge in der Kategorie
Frontantrieb haben. 75 Fahrzeuge in der Kategorie Hinterradantrieb und 8 Fahrzeuge
in der Kategorie Allradantrieb. Boxplots eignen sich hervorragend zur
Visualisierung numerischer Daten, da sie die verschiedenen Verteilungen der Daten
veranschaulichen können. Die wichtigsten Merkmale, die das Boxplot zeigt, sind der
Median der Daten, der angibt, wo der mittlere Datenpunkt liegt. Das obere Quartil
zeigt, wo das 75. Perzentil liegt. Das untere Quartil zeigt an, wo sich das 25. Die
Daten zwischen dem oberen und unteren Quartil stellen den Interquartilsbereich dar.
Dann gibt es noch die unteren und oberen Extremitäten. Diese werden berechnet als
das 1,5-fache des Interquartilsbereichs oberhalb des 75. Perzentils und als das
1,5-fache des IQR unterhalb des 25. Schließlich werden in Boxplots auch Ausreißer
als einzelne Punkte angezeigt, die außerhalb der oberen und unteren Extremwerte
auftreten. Anhand von Boxdiagrammen können Sie Ausreißer leicht erkennen und auch
die Verteilung und Schiefe der Daten sehen. Boxplots erleichtern den Vergleich
zwischen Gruppen. In diesem Beispiel können wir mit Hilfe des Boxplots die
Verteilung der verschiedenen Kategorien der Antriebsräder über das Preismerkmal
sehen. Wir können sehen, dass die Preisverteilung zwischen dem Heckantrieb und den
anderen Kategorien deutlich ist. Die Preise für Vorderrad- und Allradantrieb sind
jedoch kaum voneinander zu unterscheiden. Oftmals neigen wir dazu, in unseren Daten
kontinuierliche Variablen zu sehen. Diese Datenpunkte sind Zahlen, die in einem
bestimmten Bereich liegen. In unserem Datensatz sind zum Beispiel Preis und
Motorgröße kontinuierliche Variablen. Was ist, wenn wir das Verhältnis zwischen
Motorgröße und Preis verstehen wollen? Kann die Motorgröße den Preis eines Autos
vorhersagen? Eine gute Möglichkeit, dies zu veranschaulichen, ist die
Verwendung eines Streudiagramms. Jede Beobachtung im Streudiagramm wird als ein
Punkt dargestellt. Dieses Diagramm zeigt die Beziehung zwischen zwei Variablen. Die
Prädiktorvariable ist die Variable, die Sie zur Vorhersage
eines Ergebnisses verwenden. In diesem Fall ist unsere Vorhersagevariable die
Motorgröße. Die Zielvariable ist die Variable, die Sie vorherzusagen versuchen. In
diesem Fall ist unsere Zielvariable der Preis. Denn das wäre das Ergebnis. In einem
Streudiagramm wird in der Regel die
Vorhersagevariable auf die x-Achse oder horizontale Achse und die Zielvariable auf
die y-Achse
oder vertikale Achse gesetzt. In diesem Fall werden wir also die Motorgröße auf der
x-Achse und den Preis auf der y-Achse auftragen. Wir verwenden hier die Matplotlib-
Funktionen scatter,
die die Variablen x und y aufnehmen. Beachten Sie, dass es immer wichtig ist, Ihre
Achsen zu beschriften und einen allgemeinen Titel für die Handlung zu schreiben,
damit Sie wissen, worauf Sie achten müssen. Wie hängt nun die variable Motorgröße
mit dem Preis zusammen? Aus dem Streudiagramm geht hervor, dass mit zunehmender
Motorgröße auch der Preis des Fahrzeugs steigt. Dies gibt uns einen ersten Hinweis
darauf, dass eine positive lineare Beziehung zwischen diesen beiden Variablen
besteht. Musik

Das könnte Ihnen auch gefallen