Sie sind auf Seite 1von 26

DATA MINING

PROJEKT

- Ayesha Farhat

INDEX
1
INHALT
1. Clustering
1.1 Lesen der Daten
1.2 Behandlung fehlender Werte
1.3 Prüfung auf Ausreißer

1.4 zscore-Skalierung

1,5 Dendogramm

1.6 Ellenbogenplot
1.7 SILHOUTE-WERTUNGEN
1.8 Profil der Anzeigen

1.9 Zusammenfassung
2.PCA
2.1 Lesen der Daten
2.2 Explorative Analyse
2.3 Ausreißer
2.4 z-score
2,5 Schritte für PCA
2.6 Geröllplot

2.7 PCs vergleichen


2.8 lineare Gleichung

Clustering:

2
Digitale Werbedaten:
Die ads24x7 ist ein Unternehmen für digitales Marketing, das jetzt eine Seed-Finanzierung in
Höhe von 10 Millionen US-Dollar erhalten hat. Sie bauen ihre Flügel in Marketing Analytics aus.
Sie sammelten Daten von ihrem Marketing Intelligence-Team und möchten nun, dass Sie (ihre
neu ernannte Fachkraft für Datenanalyse) die Art der Anzeigen basierend auf den
bereitgestellten Funktionen segmentieren. Verwenden Sie das Clustering-Verfahren, um
Anzeigen in homogene Gruppen zu segmentieren.
Die folgenden drei Funktionen werden häufig im digitalen Marketing verwendet:
CPM = (Gesamtausgaben der Kampagne/ Anzahl der Impressionen) * 1.000
CPC = Gesamtkosten (Ausgaben) / Anzahl der Klicks
CTR = Gesamt gemessene Klicks / Gesamt gemessene Anzeigenimpressionen x 100

1.1 Clustering: Lesen Sie die Daten und führen Sie grundlegende Analysen durch, z. B.
Drucken einiger Zeilen (Kopf und Schwanz), Informationen, Datenzusammenfassung,
NULL-Werte, doppelte Werte usw.
Antwort:

Laden und Anzeigen der Datensätze :

Anzeige der oberen 5 Zeilen:

Tab :1.1

Anzeigen der letzten 5 Zeilen:

Tab :1.2

Ansicht der Form des Datensatzes:

3
Der Datensatz hat 25857 Zeilen und 19 Spalten .

Tab :1.3

Tab :1.4

Es gibt keine doppelten Zeilen in den Daten

Anzeigen der Informationen der Daten:

1.2- Clustering: Behandeln Sie fehlende Werte in CPC, CTR und CPM mit der
angegebenen Formel.

Die fehlenden Werte in CPC, CTR und CPM werden behandelt, indem eine benutzerdefinierte Funktion
geschrieben und aufgerufen wird.

4
CPM = (Gesamtausgaben der Kampagne/ Anzahl der Impressionen) * 1.000

CPC = Gesamtkosten (Ausgaben) / Anzahl der Klicks


CTR = Gesamt gemessene Klicks / Gesamt gemessene Anzeigenimpressionen x 100
Die fehlenden Werte werden mit den obigen Formeln und der benutzerdefinierten Funktion
behandelt und mit der Rückgabefunktion aufgerufen.

Der obige Datensatz hat Spalten Zeitstempel , Bestandsart, die für das Clustering nicht sehr nützlich sind,
auch Spalten CTR, CPM, CPC sind abhängige Variablen , daher müssen wir diese Spalten löschen

1.3 Clustering: Prüfen Sie, ob es Ausreißer gibt. Glauben Sie, dass die Behandlung von
Ausreißern für das K-Means-Clustering notwendig ist? Entscheiden Sie nach Ihrem
Ermessen, ob Sie Ausreißer behandeln und wenn ja, welche Methode Sie anwenden. (Als
Analyst kann sich Ihr Urteil von dem eines anderen Analysten unterscheiden).

5
Abb. :1.2

Abb. :1.3

6
1.4 - Clustering: Führen Sie eine Z-Score-Skalierung durch und besprechen Sie, wie sie
sich auf die Geschwindigkeit des Algorithmus auswirkt.

Löschen einiger Spalten und Überprüfen der oberen 5 Zeilen:

Reiter :1,6

Tab:1.7

1.5 - Clustering: Führen Sie hierarchisch durch, indem Sie ein Dendrogramm mit
STATION und euklidischem Abstand erstellen.

Erstellen eines Dendogramms durch Aufrufen der Dendogrammfunktion:

7
Abb. :1.4

Betrachtet man die letzten 10 zusammengeführten Cluster mit truncate , erhalten wir bei
p=10:

Der Dataframe wird nun in einem Array gespeichert.

Tab:1.9

Wss:

8
1.6 - Clustering: Erstellen Sie ein Ellbogenplot (bis zu n=10) und identifizieren Sie die
optimale Anzahl von Clustern für den k-means-Algorithmus.

Abb. :1.6

Wenn wir von k=1 zu k=2 wechseln, sehen wir, dass es einen signifikanten Rückgang des Werts
gibt, auch wenn wir von k=2 zu k=3,k=3 zu k=4 wechseln, gibt es auch einen signifikanten
Rückgang.
Aber von k=4 auf k=5 , k=5 auf k=6 verringert sich der Abfall der Werte deutlich.
Mit anderen Worten, das wss fällt nicht signifikant über 4 ab, so dass 4 die optimale Anzahl von
Clustern ist.
1.7 - Clustering: Drucken Sie Silhouettenwerte für bis zu 10 Cluster und identifizieren Sie
die optimale Anzahl von Clustern.

Zwei Funktionen, die wir hier verwenden, sind Silhouette_Samples und


Silhouette_Score

Die Funktion Silhouette_Score berechnet den Durchschnitt aller Silhouettenbreiten

9
Die Funktion silhouette_samples berechnet die Silhouettenbreite für jede Zeile.

Tab: 1.10

silhouette_score:

Da der Silhouette_Score 0,5 beträgt, können wir daraus schließen, dass es sich um eine
gut unterschiedene Gruppe von Clustern handelt.

Die 4 erstellten Cluster haben einen Silhouette_Score von 0,50

Tab: 1.11

1.8 - Clustering: Profilierung der Anzeigen basierend auf der optimalen Anzahl von
Clustern unter Verwendung des Silhouette-Scores und Ihres Domänenverständnisses
[Hinweis: Gruppieren Sie die Daten nach Clustern und nehmen Sie die Summe oder den
Mittelwert, um Trends bei Klicks, Ausgaben, Einnahmen, CPM, CTR und CPC basierend
auf dem Gerätetyp zu identifizieren. Machen Sie Bar-Plots].
Cluster-Profiling:

Tab: 1.12

1.9 - Clustering: Schließen Sie das Projekt ab, indem Sie eine Zusammenfassung Ihrer
Erkenntnisse bereitstellen.

10
 Der Datensatz hat 25857 Zeilen und 19 Spalten.
 Die fehlenden Werte in CPC, CTR und CPM werden behandelt, indem die angegebenen Formeln
verwendet werden und eine benutzerdefinierte Funktion geschrieben und aufgerufen wird.
 Wir suchen nach Ausreißern, wir können sehen, dass es Ausreißer in den Variablen gibt.
 Dendogramm ist die Visualisierung und Verknüpfung zur Berechnung der Entfernungen und zum
Zusammenführen der Cluster von n zu 1.
 Die Ausgabe von Linkage wird durch Dendogram visualisiert.
 Wir werden eine Verknüpfung mit der Methode von Ward erstellen und die
Verknüpfungsfunktion auf den nutzbaren Spalten der Daten ausführen.
 Die Verknüpfung speichert nun die verschiedenen Entfernungen, in denen die n Cluster
sequentiell zu einem einzigen Cluster zusammengeführt werden.
 verwendung der Fit – Transform -Funktion und Anzeigen der Ausgabe - Der Dataframe wird nun
in einem Array gespeichert.
 Mit diesem Array können wir jetzt k-means
 Die einzige Voraussetzung, bevor wir den k-means-Algorithmus ausführen, ist zu wissen, wie
viele Cluster wir als Ausgabe benötigen
 Wir kartieren das Ellenbogenplot anhand von WSS-Werten
 Aus dem Plot haben wir folgende Beobachtungen:
 Wenn wir von k=1 zu k=2 wechseln, sehen wir, dass es einen signifikanten Rückgang des Werts
gibt, auch wenn wir von k=2 zu k=3,k=3 zu k=4 wechseln, gibt es auch einen signifikanten
Rückgang.
 Aber von k=4 auf k=5 , k=5 auf k=6 verringert sich der Abfall der Werte deutlich.
 Mit anderen Worten, das wss fällt nicht wesentlich über 4 ab.
 4 ist also die optimale Anzahl von Clustern.

11
Teil2
PCA:

PCA FH (FT): Zusammenfassung der primären Volkszählung für weibliche Haushalte ohne institutionelle
Haushalte (Indien & Staaten/UTs - Bezirksebene), geplante Stämme - 2011 PCA für weibliche Haushalte
ohne institutionelle Haushalte. Die indische Volkszählung hat den Ruf, eine der besten der Welt zu sein.
Die erste Volkszählung in Indien wurde im Jahr 1872 durchgeführt. Dies wurde zu verschiedenen
Zeitpunkten in verschiedenen Teilen des Landes durchgeführt. 1881 wurde gleichzeitig eine Volkszählung
für das gesamte Land durchgeführt. Seitdem wird die Volkszählung alle zehn Jahre ohne Unterbrechung
durchgeführt. Somit war die Volkszählung Indiens 2011 die fünfzehnte in dieser ununterbrochenen Reihe
seit 1872, die siebte nach der Unabhängigkeit und die zweite Volkszählung des dritten Jahrtausends und
des einundzwanzigsten Jahrhunderts. Die Volkszählung wurde trotz mehrerer Widrigkeiten wie Kriege,
Epidemien, Naturkatastrophen, politischer Unruhen usw. ununterbrochen fortgesetzt. Die Volkszählung
Indiens wird gemäß den Bestimmungen des Census Act 1948 und der Census Rules von 1990
durchgeführt. Die Zusammenfassung der primären Volkszählung, die eine wichtige Veröffentlichung der
Volkszählung 2011 ist, enthält grundlegende Informationen über die Fläche, die Gesamtzahl der
Haushalte, die Gesamtbevölkerung, die geplanten Kasten, die Bevölkerung der geplanten Stämme, die
Bevölkerung in der Altersgruppe 0-6, die Literaten, die Hauptarbeiter und die geringfügigen Arbeiter, die
in die vier großen industriellen Kategorien eingeteilt sind, nämlich (i) Kultivatoren, (ii) landwirtschaftliche
Arbeiter, (iii) Arbeiter der Haushaltsindustrie und (iv) andere Arbeiter und auch Nicht-Arbeiter. Die
Merkmale der Gesamtbevölkerung umfassen geplante Kasten, geplante Stämme, institutionelle und
obdachlose Bevölkerung und werden nach Geschlecht und Land-Stadt-Wohnsitz dargestellt. Die
Volkszählung 2011 umfasste 35 Staaten/Unionsterritorien, 640 Bezirke, 5.924 Unterbezirke, 7.935 Städte
und 6.40.867 Dörfer.
Die gesammelten Daten haben so viele Variablen, dass es schwierig ist, nützliche Details zu finden, ohne
Data Science-Techniken zu verwenden. Sie haben die Aufgabe, eine detaillierte EDA durchzuführen und

12
optimale Hauptkomponenten zu identifizieren, die die größte Varianz der Daten erklären. Nur Sklearn
verwenden

13
2.1 PCA: Lesen Sie die Daten und führen Sie grundlegende Überprüfungen wie
Kopfprüfung, Info, Zusammenfassung, Nullwerte und Duplikate usw. durch.

Laden und Lesen des Datensatzes.


Überprüfen der oberen 5 Zeilen mit der Kopffunktion.

Tab: 2.1

Überprüfen der Form des Datensatzes

Abb. : 2.2

Es gibt 640 Zeilen und 61 Spalten


Überprüfung der Angemessenheit von Datentypen – Nicht-Null-Zählung, Indexbereich und
Datentyp des Datensatzes

Abb. : 2.3

14
Wir sehen, dass es 640 Zeilen und 61 Datenspalten gibt

Abb.: 2.

59 von 61 Spalten sind INT-Datentypen und 2 Spalten sind kategoriale Objektdatentypen. Und
keine Nullwerte.
Prüfung auf doppelte Werte.

Abb.: 2.

2.2 PCA: Führen Sie eine detaillierte explorative Analyse durch, indem Sie bestimmte
Fragen erstellen, wie (i) Welcher Staat hat das höchste Geschlechterverhältnis
und welcher das niedrigste? (ii) Welcher Bezirk hat das höchste und niedrigste
Geschlechterverhältnis? (Beispielfragen). Wählen Sie 5 Variablen aus den
angegebenen 24 Variablen .
Antwort:

Welcher Bundesstaat hat die höchste Bevölkerungszahl?

Abb. :2.1

Welcher Staat hat die höchste weibliche Gesamtbevölkerung?

15
Abb. :2.2

16
Welcher Bundesstaat hat die höchste männliche Gesamtbevölkerung?

Abb. :2.3

17
Für EDA - Berücksichtigte Variablen:

No_HH TOT_M TOT_F TOT_WORK_M TOT_WORK_F

Anzahl der Haushalte


Gesamtbevölkerung Männlich
Gesamtbevölkerung weiblich
Gesamte männliche Arbeitnehmerpopulation
Gesamtbevölkerung weiblich
Univariate Analyse:
Zeichnen von Histogrammen und Boxplots für die oben
genannten Variablen:

Abb. :2.4

18
Bivariate Analyse:

Abb. :2.5

2.3 PCA: Wir entscheiden uns, Ausreißer in diesem Fall nicht zu behandeln. Halten
Sie die Behandlung von Ausreißern für diesen Fall für notwendig?

19
2.4 PCA: Skalieren Sie die Daten mit der Z-Score-Methode. Hat die Skalierung
Auswirkungen auf Ausreißer? Vergleichen Sie Boxplots vor und nach der
Skalierung und kommentieren Sie.

Antwort:

Nach dem Löschen einiger Spalten sieht der Datensatz folgendermaßen aus:

Tab:2.2

Wir haben 57 Funktionen.

Überprüfen Sie, ob in jedem Merkmal Ausreißer vorhanden sind

Plotten des Box-Plots vor der Skalierung der neuen Daten, die nur numerische Spalten
enthalten.

20
Abb. : 2.6

skalieren des Datensatzes mit dem Z-Score und Überprüfen der obersten 5 Zeilen des
skalierten Datensatzes :

Tabelle 2.3

Die Daten wurden skaliert .


Prüfung auf Ausreißer der skalierten Daten

Abb. : 2.7

21
Abb. : 2.8

2.5 PCA: Führen Sie alle erforderlichen Schritte für PCA durch (verwenden Sie nur
sklearn) Erstellen Sie die Kovarianzmatrix Eigenwerte und Eigenvektor abrufen.

Antwort:
Extrahieren von Eigenvektoren und Betrachten von PCA-Komponenten

Tab: 2.4

Reiter: 2,5

Erklärte Varianz=(Eigenwert jedes PCs)/(Summe der Eigenwerte aller PCs)

Prüfen Sie die erläuterte Varianz für jeden PC

22
Tab:2.6
Organisieren der oben erläuterten Varianz in einem Dataframe

Tab: 2.7

2.6 PCA: Identifizieren Sie die optimale Anzahl von PCs (für dieses Projekt nehmen
Sie mindestens 90% der erklärten Varianz). Scree-Plot anzeigen.

23
Abb. : 2.9

Tab: 2.8.

24
2.7 PCA: Vergleichen Sie PCs mit tatsächlichen Spalten und identifizieren Sie, welche
die meisten Abweichungen erklären. Schreiben Sie Rückschlüsse auf alle
Hauptkomponenten in Bezug auf die tatsächlichen Variablen.

Abb. :2.10

25
Abb. :2.10

2.8 PCA: Lineare Gleichung für den ersten PC schreiben.

PC 1 = a1x1 + a2x2 + a3X3 +a4X4 + …….+ a57x57

26

Das könnte Ihnen auch gefallen