Sie sind auf Seite 1von 8

Aufgabenbasierte subjektive Fragen

1. Was könnten Sie aus Ihrer Analyse der kategorialen Variablen aus dem
Datensatz über ihre Auswirkung auf die abhängige Variable ableiten?

Antwort: Hier sind einige der Schlussfolgerungen, die ich aus meiner Analyse kategorialer
Variablen aus dem Datensatz auf die abhängige Variable (Anzahl) gezogen habe

2. Der Herbst hat den höchsten Median, was erwartet wird, da die Wetterbedingungen
am besten sind, um Fahrrad zu fahren, gefolgt von Sommer.
3. Die durchschnittlichen Fahrradmieten steigen von Jahr zu Jahr, da 2019 einen
höheren Median als 2018 hat. Dies könnte daran liegen, dass Fahrradverleihe immer
beliebter werden und die Menschen sich der Umwelt bewusster werden.
4. Die Gesamtspreizung in der Monatsdarstellung spiegelt die Saisondarstellung wider,
da die Herbstmonate einen höheren Median aufweisen.
5. Die Leute mieten mehr an Nicht-Urlauben als an Feiertagen, also könnte es sein, dass
sie es vorziehen, Zeit mit der Familie zu verbringen und ein persönliches Fahrzeug
anstelle eines Fahrradverleihs zu benutzen.
6. Der Gesamtmedian über alle Tage ist gleich, aber die Verteilung für Samstag und
Mittwoch ist größer. Es kann offensichtlich sein, dass diejenigen, die Pläne für
Samstag haben, keine Fahrräder mieten, da es sich um einen arbeitsfreien Tag
handelt.
7. Arbeits- und arbeitsfreie Tage haben fast den gleichen Median, obwohl die Streuung
für arbeitsfreie Tage größer ist, da die Leute vielleicht Pläne haben und deshalb keine
Fahrräder mieten wollen
8. Klares Wetter ist am besten für den Fahrradverleih geeignet, da gemäßigte
Temperaturen optimal sind, die Luftfeuchtigkeit geringer ist und die Temperatur
geringer ist.

2. Warum ist es wichtig, drop_first=True bei der Erstellung der Dummy-


Variablen zu verwenden?

Antwort: Eine Variable mit n Ebenen kann durch n-1 Dummy-Variablen dargestellt werden.
Wenn wir also die erste Spalte entfernen, können wir auch die Daten darstellen. Wenn der
Wert der Variablen von 2 bis n 0 ist, bedeutet dies, dass der Wert der 1. Variablen 1 ist.
Beispiel: "Beziehung" mit drei Ebenen, nämlich "Single", "In einer Beziehung" und
"Verheiratet", würde ich eine Dummy-Tabelle wie die folgende erstellen:
In einer Verheirat
Beziehungsstatus Ledig
Beziehung et
Ledig 1 0 0

In einer Beziehung 0 1 0

Verheiratet 0 0 1

Aber ich kann klar sehen, dass es nicht notwendig ist, drei verschiedene Ebenen zu
definieren. Wenn ich eine Ebene fallen lasse, sagen Sie "Single", wäre ich immer noch in der
Lage, die drei Ebenen zu erklären.
Lassen Sie uns die Dummy-Variable 'Single' aus den Spalten entfernen und sehen, wie die
Tabelle aussieht:

In einer Verheirat
Beziehungsstatus
Beziehung et
Ledig 0 0

In einer Beziehung 1 0

Verheiratet 0 1

Wenn beide Dummy-Variablen, nämlich "In einer Beziehung" und "Verheiratet", gleich Null
sind, bedeutet dies, dass die Person ledig ist. Wenn "In einer Beziehung" eins und
"Verheiratet" null ist, bedeutet das, dass die Person in einer Beziehung ist, und schließlich,
wenn "In einer Beziehung" null und "Verheiratet" 1 ist, bedeutet das, dass die Person
verheiratet ist.
3. Bei Betrachtung des Paardiagramms unter den numerischen Variablen,
welche hat die höchste Korrelation mit der Zielvariablen?

Antwort: ‘temp’ hatte den höchsten Korrelationskoeffizienten von 0,63.

4. Wie haben Sie die Annahmen der linearen Regression nach dem
Erstellen des Modells auf dem Trainingsset validiert?

Antwort: Durch Auftragen der Residuenverteilung. Es stellte sich heraus, dass es sich um
eine Normalverteilung mit einem Mittelwert von 0 handelte.

5. Welches sind basierend auf dem finalen Modell die Top-3-Features, die
wesentlich dazu beitragen, die Nachfrage der Shared Bikes zu erklären?

Antwort: Im Folgenden sind die Top-3-Funktionen aufgeführt, die wesentlich dazu beitragen,
die Anforderungen der Shared Bikes zu erklären:
• atemp (0.412)
• jahr (0,236)
• weathersit Leichter Regen (-0,275)
Allgemeine subjektive Fragen
1. Erläutern Sie den linearen Regressionsalgorithmus im Detail.

Antwort: Ein linearer Regressionsalgorithmus versucht, die Beziehung zwischen


unabhängiger und abhängiger Variable anhand einer geraden Linie zu erklären. Sie gilt nur
für numerische Variablen.
Folgende Schritte werden während der linearen Regression durchgeführt:
• Der Datensatz ist in Test- und Trainingsdaten unterteilt
• Zugdaten werden in Features(unabhängig) und Ziel (abhängig) Datensätze unterteilt
• Anhand des Trainingsdatensatzes wird ein lineares Modell angepasst. Intern
verwendet die API von Python den Gradientenabstiegsalgorithmus, um die
Koeffizienten der am besten passenden Linie zu finden. Der Gradientenabstieg-
Algorithmus arbeitet durch Minimierung der Kostenfunktion. Ein typisches Beispiel
für eine Kostenfunktion ist die Restsumme der Quadrate.
• Bei mehreren Merkmalen ist die vorhergesagte Variable eine Hyperebene anstelle
einer Linie. Die vorhergesagte Variable hat folgende Form:

Y= 0+1x1+2x2+3x3+..+ Bnxn
• Die prognostizierte Variable wird dann mit Testdaten verglichen und Annahmen
überprüft.

2. Erklären Sie das Quartett von Anscombe im Detail.

Antwort: Das Quartett von Anscombe besteht aus vier Datensätzen, die fast identische
einfache deskriptive Statistiken haben, aber bei grafischer Darstellung eine ganz
unterschiedliche Verteilung haben. Die einfachen Statistiken bestehen aus Mittelwert,
Stichprobenvarianz von x und y, Korrelationskoeffizient, linearer Regressionsgerade und R-
Quadrat-Wert. Das Quartett von Anscombe zeigt, dass sich mehrere Datensätze mit vielen
ähnlichen statistischen Eigenschaften bei der Grafik immer noch erheblich voneinander
unterscheiden können. Die Diagramme sind unten dargestellt:
Bildquelle - https://en.wikipedia.org/wiki/Anscombe%27s_quartet
3. Die erste Darstellung (oben links) scheint eine einfache lineare Beziehung zu sein
4. Das zweite Diagramm (oben rechts) ist nicht normal verteilt und der
Korrelationskoeffizient ist irrelevant, da er eine nichtlineare Beziehung zeigt
5. Das dritte Diagramm (unten links) ist linear, hat aber eine andere Regressionslinie.
Dies geschieht aufgrund der in den Daten vorhandenen Ausreißer
6. Das vierte Diagramm (unten rechts) zeigt keine lineare Beziehung, aber aufgrund von
Ausreißern wurde die Statistik angepasst.

Kurz gesagt, es ist eine bessere Praxis, Daten zu visualisieren und Ausreißer zu entfernen,
bevor sie analysiert werden.

3. Was ist Pearson's R?

Antwort: Pearsons R misst die Stärke der Assoziation von zwei Variablen. Es ist die Kovarianz
zweier Variablen dividiert durch das Produkt ihrer Standardabweichung. Es hat einen Wert
von +1 bis -1.
• Ein Wert von 1 bedeutet eine insgesamt positive lineare Korrelation. Das bedeutet,
dass, wenn eine Variable zunimmt, auch die andere zunimmt
• Ein Wert von 0 bedeutet keine Korrelation
• Ein Wert von -1 bedeutet eine insgesamt negative Korrelation. Das bedeutet, dass,
wenn eine Variable zunimmt, die andere abnimmt

4. Was ist Skalierung? Warum wird die Skalierung durchgeführt? Was ist
der Unterschied zwischen normalisierter Skalierung und
standardisierter Skalierung?

Antwort: Die Skalierung einer Variablen wird durchgeführt, um eine Variable in einem
bestimmten Bereich zu halten. Die Skalierung ist ein Vorverarbeitungsschritt in der linearen
Regressionsanalyse. Der Grund, warum wir eine Variable skalieren, besteht darin, die
Berechnung des Gradientenabstiegs zu beschleunigen. Die Schrittweite des
Gradientenabstiegs ist im Allgemeinen für die Genauigkeit gering, wenn die Daten einige
kleine Variablen (Werte im Bereich von 0-1) und einige große Variablen (Werte im Bereich
von 0-1000) aufweisen, ist die Zeit, die der Gradientenabstiegsalgorithmus benötigt, enorm.

Normierte Skalierung Standardisierte Skalierung


Min-Max-Skalierung aufgerufen, skaliert die Die Werte sind um den Mittelwert mit einer
Variable so, dass der Bereich 0-1 ist Einheitsstandardabweichung zentriert
Gut für Nicht-Gauß-Verteilung Gut für Gauß-Verteilung
Wert-ID begrenzt zwischen 0 und 1 Wert ist nicht begrenzt
Ausreißer werden ebenfalls skaliert Wirkt sich nicht auf Ausreißer aus
5. Sie haben vielleicht bemerkt, dass der Wert von Vif manchmal
unendlich ist. Warum passiert das?

Antwort: Die Formel für Vif lautet


VIFi =
1- R?
Grundsätzlich gilt: Wenn das R-Quadrat 1 ist, wird vif unendlich. Das bedeutet, dass es eine
perfekte Korrelation zwischen den Merkmalen gibt.

6. Was ist ein Q-Q-Plot? Erläutern die Verwendung und Bedeutung eines
Q-Q-Diagramms in der linearen Regression.

Antwort: Ein Q-Q-Diagramm ist ein Streudiagramm von zwei Sätzen von Quantilen
gegeneinander. Der Zweck besteht darin, zu überprüfen, ob die beiden Datensätze aus
derselben Verteilung stammen. Es ist eine visuelle Überprüfung der Daten. Wenn die Daten
aus derselben Quelle stammen, wird das Diagramm als Linie angezeigt.

Das könnte Ihnen auch gefallen