beginnen, ist es wichtig, dass Sie zunächst Ihre Daten untersuchen, bevor Sie Zeit damit verbringen, komplizierte Modelle zu erstellen. Eine einfache Möglichkeit, dies zu tun, ist die Berechnung einiger deskriptiver Statistiken für Ihre Daten. Die deskriptive statistische Analyse hilft bei der Beschreibung grundlegender Merkmale eines Datensatzes und liefert eine kurze Zusammenfassung über die Stichprobe und die Maße der Daten. Wir zeigen Ihnen ein paar nützliche Methoden. Eine Möglichkeit, dies zu tun, besteht darin, die Funktion describe in Pandas zu verwenden. Wenn Sie die Funktion describe verwenden und auf Ihren Datenrahmen anwenden, berechnet die Funktion describe automatisch die Basisstatistiken für alle numerischen Variablen. Es zeigt den Mittelwert, die Gesamtzahl der Datenpunkte, die Standardabweichung, die Quartile und die Extremwerte. Alle NAN-Werte werden in dieser Statistik automatisch übersprungen. Mit dieser Funktion erhalten Sie eine klare Vorstellung von der Verteilung Ihrer verschiedenen strukturieren können. Sie können auch kategoriale Variablen in Ihrem Datensatz haben. Dies sind Variablen, die in verschiedene Kategorien oder Gruppen eingeteilt werden können und diskrete Werte haben. In unserem Datensatz haben wir zum Beispiel das Antriebssystem als kategoriale Variable, die aus den Kategorien Vorderradantrieb, Hinterradantrieb und Allradantrieb besteht. Eine Möglichkeit, die kategorialen Daten zusammenzufassen, ist die Funktion value_counts. Wir können den Namen der Spalte ändern, um sie besser lesbar zu machen. Wir sehen, dass wir 118 Fahrzeuge in der Kategorie Frontantrieb haben. 75 Fahrzeuge in der Kategorie Hinterradantrieb und 8 Fahrzeuge in der Kategorie Allradantrieb. Boxplots eignen sich hervorragend zur Visualisierung numerischer Daten, da sie die verschiedenen Verteilungen der Daten veranschaulichen können. Die wichtigsten Merkmale, die das Boxplot zeigt, sind der Median der Daten, der angibt, wo der mittlere Datenpunkt liegt. Das obere Quartil zeigt, wo das 75. Perzentil liegt. Das untere Quartil zeigt an, wo sich das 25. Die Daten zwischen dem oberen und unteren Quartil stellen den Interquartilsbereich dar. Dann gibt es noch die unteren und oberen Extremitäten. Diese werden berechnet als das 1,5-fache des Interquartilsbereichs oberhalb des 75. Perzentils und als das 1,5-fache des IQR unterhalb des 25. Schließlich werden in Boxplots auch Ausreißer als einzelne Punkte angezeigt, die außerhalb der oberen und unteren Extremwerte auftreten. Anhand von Boxdiagrammen können Sie Ausreißer leicht erkennen und auch die Verteilung und Schiefe der Daten sehen. Boxplots erleichtern den Vergleich zwischen Gruppen. In diesem Beispiel können wir mit Hilfe des Boxplots die Verteilung der verschiedenen Kategorien der Antriebsräder über das Preismerkmal sehen. Wir können sehen, dass die Preisverteilung zwischen dem Heckantrieb und den anderen Kategorien deutlich ist. Die Preise für Vorderrad- und Allradantrieb sind jedoch kaum voneinander zu unterscheiden. Oftmals neigen wir dazu, in unseren Daten kontinuierliche Variablen zu sehen. Diese Datenpunkte sind Zahlen, die in einem bestimmten Bereich liegen. In unserem Datensatz sind zum Beispiel Preis und Motorgröße kontinuierliche Variablen. Was ist, wenn wir das Verhältnis zwischen Motorgröße und Preis verstehen wollen? Kann die Motorgröße den Preis eines Autos vorhersagen? Eine gute Möglichkeit, dies zu veranschaulichen, ist die Verwendung eines Streudiagramms. Jede Beobachtung im Streudiagramm wird als ein Punkt dargestellt. Dieses Diagramm zeigt die Beziehung zwischen zwei Variablen. Die Prädiktorvariable ist die Variable, die Sie zur Vorhersage eines Ergebnisses verwenden. In diesem Fall ist unsere Vorhersagevariable die Motorgröße. Die Zielvariable ist die Variable, die Sie vorherzusagen versuchen. In diesem Fall ist unsere Zielvariable der Preis. Denn das wäre das Ergebnis. In einem Streudiagramm wird in der Regel die Vorhersagevariable auf die x-Achse oder horizontale Achse und die Zielvariable auf die y-Achse oder vertikale Achse gesetzt. In diesem Fall werden wir also die Motorgröße auf der x-Achse und den Preis auf der y-Achse auftragen. Wir verwenden hier die Matplotlib- Funktionen scatter, die die Variablen x und y aufnehmen. Beachten Sie, dass es immer wichtig ist, Ihre Achsen zu beschriften und einen allgemeinen Titel für die Handlung zu schreiben, damit Sie wissen, worauf Sie achten müssen. Wie hängt nun die variable Motorgröße mit dem Preis zusammen? Aus dem Streudiagramm geht hervor, dass mit zunehmender Motorgröße auch der Preis des Fahrzeugs steigt. Dies gibt uns einen ersten Hinweis darauf, dass eine positive lineare Beziehung zwischen diesen beiden Variablen besteht. Musik