Beruflich Dokumente
Kultur Dokumente
1. Was könnten Sie aus Ihrer Analyse der kategorialen Variablen aus dem
Datensatz über ihre Auswirkung auf die abhängige Variable ableiten?
Antwort: Hier sind einige der Schlussfolgerungen, die ich aus meiner Analyse kategorialer
Variablen aus dem Datensatz auf die abhängige Variable (Anzahl) gezogen habe
2. Der Herbst hat den höchsten Median, was erwartet wird, da die Wetterbedingungen
am besten sind, um Fahrrad zu fahren, gefolgt von Sommer.
3. Die durchschnittlichen Fahrradmieten steigen von Jahr zu Jahr, da 2019 einen
höheren Median als 2018 hat. Dies könnte daran liegen, dass Fahrradverleihe immer
beliebter werden und die Menschen sich der Umwelt bewusster werden.
4. Die Gesamtspreizung in der Monatsdarstellung spiegelt die Saisondarstellung wider,
da die Herbstmonate einen höheren Median aufweisen.
5. Die Leute mieten mehr an Nicht-Urlauben als an Feiertagen, also könnte es sein, dass
sie es vorziehen, Zeit mit der Familie zu verbringen und ein persönliches Fahrzeug
anstelle eines Fahrradverleihs zu benutzen.
6. Der Gesamtmedian über alle Tage ist gleich, aber die Verteilung für Samstag und
Mittwoch ist größer. Es kann offensichtlich sein, dass diejenigen, die Pläne für
Samstag haben, keine Fahrräder mieten, da es sich um einen arbeitsfreien Tag
handelt.
7. Arbeits- und arbeitsfreie Tage haben fast den gleichen Median, obwohl die Streuung
für arbeitsfreie Tage größer ist, da die Leute vielleicht Pläne haben und deshalb keine
Fahrräder mieten wollen
8. Klares Wetter ist am besten für den Fahrradverleih geeignet, da gemäßigte
Temperaturen optimal sind, die Luftfeuchtigkeit geringer ist und die Temperatur
geringer ist.
Antwort: Eine Variable mit n Ebenen kann durch n-1 Dummy-Variablen dargestellt werden.
Wenn wir also die erste Spalte entfernen, können wir auch die Daten darstellen. Wenn der
Wert der Variablen von 2 bis n 0 ist, bedeutet dies, dass der Wert der 1. Variablen 1 ist.
Beispiel: "Beziehung" mit drei Ebenen, nämlich "Single", "In einer Beziehung" und
"Verheiratet", würde ich eine Dummy-Tabelle wie die folgende erstellen:
In einer Verheirat
Beziehungsstatus Ledig
Beziehung et
Ledig 1 0 0
In einer Beziehung 0 1 0
Verheiratet 0 0 1
Aber ich kann klar sehen, dass es nicht notwendig ist, drei verschiedene Ebenen zu
definieren. Wenn ich eine Ebene fallen lasse, sagen Sie "Single", wäre ich immer noch in der
Lage, die drei Ebenen zu erklären.
Lassen Sie uns die Dummy-Variable 'Single' aus den Spalten entfernen und sehen, wie die
Tabelle aussieht:
In einer Verheirat
Beziehungsstatus
Beziehung et
Ledig 0 0
In einer Beziehung 1 0
Verheiratet 0 1
Wenn beide Dummy-Variablen, nämlich "In einer Beziehung" und "Verheiratet", gleich Null
sind, bedeutet dies, dass die Person ledig ist. Wenn "In einer Beziehung" eins und
"Verheiratet" null ist, bedeutet das, dass die Person in einer Beziehung ist, und schließlich,
wenn "In einer Beziehung" null und "Verheiratet" 1 ist, bedeutet das, dass die Person
verheiratet ist.
3. Bei Betrachtung des Paardiagramms unter den numerischen Variablen,
welche hat die höchste Korrelation mit der Zielvariablen?
4. Wie haben Sie die Annahmen der linearen Regression nach dem
Erstellen des Modells auf dem Trainingsset validiert?
Antwort: Durch Auftragen der Residuenverteilung. Es stellte sich heraus, dass es sich um
eine Normalverteilung mit einem Mittelwert von 0 handelte.
5. Welches sind basierend auf dem finalen Modell die Top-3-Features, die
wesentlich dazu beitragen, die Nachfrage der Shared Bikes zu erklären?
Antwort: Im Folgenden sind die Top-3-Funktionen aufgeführt, die wesentlich dazu beitragen,
die Anforderungen der Shared Bikes zu erklären:
• atemp (0.412)
• jahr (0,236)
• weathersit Leichter Regen (-0,275)
Allgemeine subjektive Fragen
1. Erläutern Sie den linearen Regressionsalgorithmus im Detail.
Y= 0+1x1+2x2+3x3+..+ Bnxn
• Die prognostizierte Variable wird dann mit Testdaten verglichen und Annahmen
überprüft.
Antwort: Das Quartett von Anscombe besteht aus vier Datensätzen, die fast identische
einfache deskriptive Statistiken haben, aber bei grafischer Darstellung eine ganz
unterschiedliche Verteilung haben. Die einfachen Statistiken bestehen aus Mittelwert,
Stichprobenvarianz von x und y, Korrelationskoeffizient, linearer Regressionsgerade und R-
Quadrat-Wert. Das Quartett von Anscombe zeigt, dass sich mehrere Datensätze mit vielen
ähnlichen statistischen Eigenschaften bei der Grafik immer noch erheblich voneinander
unterscheiden können. Die Diagramme sind unten dargestellt:
Bildquelle - https://en.wikipedia.org/wiki/Anscombe%27s_quartet
3. Die erste Darstellung (oben links) scheint eine einfache lineare Beziehung zu sein
4. Das zweite Diagramm (oben rechts) ist nicht normal verteilt und der
Korrelationskoeffizient ist irrelevant, da er eine nichtlineare Beziehung zeigt
5. Das dritte Diagramm (unten links) ist linear, hat aber eine andere Regressionslinie.
Dies geschieht aufgrund der in den Daten vorhandenen Ausreißer
6. Das vierte Diagramm (unten rechts) zeigt keine lineare Beziehung, aber aufgrund von
Ausreißern wurde die Statistik angepasst.
Kurz gesagt, es ist eine bessere Praxis, Daten zu visualisieren und Ausreißer zu entfernen,
bevor sie analysiert werden.
Antwort: Pearsons R misst die Stärke der Assoziation von zwei Variablen. Es ist die Kovarianz
zweier Variablen dividiert durch das Produkt ihrer Standardabweichung. Es hat einen Wert
von +1 bis -1.
• Ein Wert von 1 bedeutet eine insgesamt positive lineare Korrelation. Das bedeutet,
dass, wenn eine Variable zunimmt, auch die andere zunimmt
• Ein Wert von 0 bedeutet keine Korrelation
• Ein Wert von -1 bedeutet eine insgesamt negative Korrelation. Das bedeutet, dass,
wenn eine Variable zunimmt, die andere abnimmt
4. Was ist Skalierung? Warum wird die Skalierung durchgeführt? Was ist
der Unterschied zwischen normalisierter Skalierung und
standardisierter Skalierung?
Antwort: Die Skalierung einer Variablen wird durchgeführt, um eine Variable in einem
bestimmten Bereich zu halten. Die Skalierung ist ein Vorverarbeitungsschritt in der linearen
Regressionsanalyse. Der Grund, warum wir eine Variable skalieren, besteht darin, die
Berechnung des Gradientenabstiegs zu beschleunigen. Die Schrittweite des
Gradientenabstiegs ist im Allgemeinen für die Genauigkeit gering, wenn die Daten einige
kleine Variablen (Werte im Bereich von 0-1) und einige große Variablen (Werte im Bereich
von 0-1000) aufweisen, ist die Zeit, die der Gradientenabstiegsalgorithmus benötigt, enorm.
6. Was ist ein Q-Q-Plot? Erläutern die Verwendung und Bedeutung eines
Q-Q-Diagramms in der linearen Regression.
Antwort: Ein Q-Q-Diagramm ist ein Streudiagramm von zwei Sätzen von Quantilen
gegeneinander. Der Zweck besteht darin, zu überprüfen, ob die beiden Datensätze aus
derselben Verteilung stammen. Es ist eine visuelle Überprüfung der Daten. Wenn die Daten
aus derselben Quelle stammen, wird das Diagramm als Linie angezeigt.