Willkommen bei Scribd!

Data Preprocessing

Hochgeladen von

naveen kumar Malineni

0% fanden dieses Dokument nützlich (0 Abstimmungen)

51 Ansichten18 Seiten

The document discusses the key steps in data preprocessing, including data cleaning, integration, reduction, and transformation. It describes common techniques for data cleaning like filling in missing values and removing outliers. Data integration involves combining multiple data sources. Data reduction includes dimensionality reduction and data compression. Data transformation techniques mentioned are normalization, standardization, and discretization.

Originalbeschreibung:

Originaltitel

Data Preprocessing.pptx

Copyright

Verfügbare Formate

PPTX, PDF, TXT oder online auf Scribd lesen

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Dieses Dokument melden

Copyright:

Verfügbare Formate

Als PPTX, PDF, TXT herunterladen oder online auf Scribd lesen

Markieren Sie unangemessene Inhalte

0% fanden dieses Dokument nützlich (0 Abstimmungen)

51 Ansichten18 Seiten

Data Preprocessing

Hochgeladen von

naveen kumar Malineni

Copyright:

Verfügbare Formate

Als PPTX, PDF, TXT herunterladen oder online auf Scribd lesen

Markieren Sie unangemessene Inhalte

Zu Seite

Sie sind auf Seite 1von 18

Im Dokument suchen

Data Preprocessing

An Overview:
For Data Quality
Doing some Major Tasks in Data Preprocessing

Data Cleaning
Data Integration
Data Reduction
Data Transformation
 Data cleaning
 Fill in missing values, smooth noisy data, identify or remove outliers,
and resolve inconsistencies
 Data integration
 Integration of multiple databases, data cubes, or files
 Data reduction
 Dimensionality reduction
 Numerosity reduction
 Data compression
 Data transformation and data discretization
 Normalization
 Standardization
Importing necessary libraries and
reading .csv file
Understanding the dataset:
 We have one data set titled “Human_Resources_Employee_Attrition”
In the given data set Human Resources employee Attrition ( in Human
Resource terminology, refers to the phenomenon of the employees leaving
the company. Attrition in a company is usually measured with a metric called
attrition rate, which simply measures the no of employees moving out of the
company)
First five rows of given dataset: {df.head()}
 Data set information:

In the given data set salary and department are object data types
Identifying target variable and independent
variables
We are taken target(output/dependent) variable is column name “left” in the
given dataset.
In column name "left” zero belongs to employee working in organization and
one belongs to employee left the organization.
we need to find predictors(input/independent) variables changes value of
dependent variable . Now we need to find independent variables which are
affecting dependent variable(“left”)
column name(department) not affecting the target(output) variable then we
are dropping department column
Finding null values

there is no null values in the given dataset

Showing the “ how each variable distributed” by using
histogram before normalizing the data
Finding outliers using boxplot

Here lot of outliers are there because ‘average_monthly_hours’ column is not in

similar scale of values comparative to other columns, then we have to normalize the
data after splitting the data as dependent and independent variables
Finding outliers using boxplot

here we taken only four columns for detecting

outliers because these four in a same scale of values
Splitting the dataset as dependent and independent variables

 fdd x is independent variable

 y is dependent variable

Here last column(‘salary’) is non numerical column and this column is also
effected the ‘left’ column then we have to covert this column as numerical
data by using “OneHotEndcoder” because this column contains three types
values(‘low’,’medium’,’high’)
Converting character values to numerical values
Using Standard scaler to convert all the values in a similar scale
Finding outliers after converting values in a similar scale

here there are some outliers and then reducing these outliers by
using Normalizer
Using Normalizer for reducing outliers

After using Normalizer boxplot will be…

 Small amount outliers remaining in the data after using normalizer then we
have to use MinMaxScalar to reduce remaining outliers
Again checking for outliers after using MinMaxScalar

 The box plot will be….

 Finally we reduced all the outliers in the data.

Thank you

Das könnte Ihnen auch gefallen

Analisis Dan Desain Sistem - Bab 5
Dokument43 Seiten
Analisis Dan Desain Sistem - Bab 5
Nur Dzatu Ummu Khollila
Noch keine Bewertungen
Network Fundamentals: by A. Awadhi
Dokument26 Seiten
Network Fundamentals: by A. Awadhi
gurudasi007
Noch keine Bewertungen
Computer Science
Dokument10 Seiten
Computer Science
LudwigVonBeethoven
Noch keine Bewertungen
Living in Network in Centric World
Dokument43 Seiten
Living in Network in Centric World
Nazrulazhar Bahaman
Noch keine Bewertungen
Programming Module
Dokument103 Seiten
Programming Module
Mark San Andres
Noch keine Bewertungen
Introduction To Intelligent Systems
Dokument3 Seiten
Introduction To Intelligent Systems
Oana Munteanu
Noch keine Bewertungen
Tracing Cursive Letters Worksheets Alphabet
Dokument26 Seiten
Tracing Cursive Letters Worksheets Alphabet
Jaya Singh
Noch keine Bewertungen
The Context of Systems Analysis and Design Methods: C H A P T E R
Dokument46 Seiten
The Context of Systems Analysis and Design Methods: C H A P T E R
ndukayu
Noch keine Bewertungen
Subnetting
Dokument38 Seiten
Subnetting
Kenney
Noch keine Bewertungen
Test Your Understanding of Packet Tracer - Packet Tracer 101 0617
Dokument12 Seiten
Test Your Understanding of Packet Tracer - Packet Tracer 101 0617
Sebastian Alvarado
73% (11)
Artificial Intelligence Syllabus
Dokument2 Seiten
Artificial Intelligence Syllabus
Sandwip Roy
100% (1)
CCNA Chapter 3
Dokument64 Seiten
CCNA Chapter 3
veresita
Noch keine Bewertungen
The Foundations of Artificial Intelligence
Dokument31 Seiten
The Foundations of Artificial Intelligence
Paolo
Noch keine Bewertungen
Capstone Manual
Dokument15 Seiten
Capstone Manual
Denie Franza
Noch keine Bewertungen
CN Module I & II
Dokument99 Seiten
CN Module I & II
saumya ranjan sahu
Noch keine Bewertungen
SAD Documentation Parts
Dokument2 Seiten
SAD Documentation Parts
Gilbert Ormeneta
Noch keine Bewertungen
C++ Programming: From Problem Analysis To Program Design,: Fourth Edition
Dokument48 Seiten
C++ Programming: From Problem Analysis To Program Design,: Fourth Edition
Johnvee Mandal
Noch keine Bewertungen
Algorithm and Complexity Course Sillaby
Dokument3 Seiten
Algorithm and Complexity Course Sillaby
Ahmad Taqiyuddin
Noch keine Bewertungen
Name: - Partners: - Python Activity 6: Functions
Dokument22 Seiten
Name: - Partners: - Python Activity 6: Functions
GOLDEN LATOSA
Noch keine Bewertungen
University of Cagayan Valley
Dokument5 Seiten
University of Cagayan Valley
Randy Tabaog
Noch keine Bewertungen
OOP-1st Lecture - Building Block
Dokument55 Seiten
OOP-1st Lecture - Building Block
Muhammad Paras
100% (1)
Module 4
Dokument15 Seiten
Module 4
Carl Gomez
Noch keine Bewertungen
Comp Fundamentals and Programming - Syllabus
Dokument4 Seiten
Comp Fundamentals and Programming - Syllabus
Diether Linde
Noch keine Bewertungen
HCI Lecture 1 Introduction
Dokument22 Seiten
HCI Lecture 1 Introduction
Museera Iffat
Noch keine Bewertungen
Module 3 - Computer Programming Development - Problem Solving
Dokument77 Seiten
Module 3 - Computer Programming Development - Problem Solving
Bukho Tsengiwe
Noch keine Bewertungen
Capstone Project MANUAL 2019: For Information Technology Department
Dokument61 Seiten
Capstone Project MANUAL 2019: For Information Technology Department
Lowela Abogadie
Noch keine Bewertungen
1.living in A Network Centric World
Dokument34 Seiten
1.living in A Network Centric World
Rajesh Kumar
Noch keine Bewertungen
SJF Scheduling - SRTF - CPU Scheduling
Dokument9 Seiten
SJF Scheduling - SRTF - CPU Scheduling
Kushal Roy Chowdhury
Noch keine Bewertungen
Artificial Intelligence
Dokument3 Seiten
Artificial Intelligence
kuky_barbie
Noch keine Bewertungen
Interactive Media
Dokument10 Seiten
Interactive Media
Siti Izani
Noch keine Bewertungen
Title of Your Study
Dokument13 Seiten
Title of Your Study
Estiven Gier
Noch keine Bewertungen
Computer Network Module 3
Dokument188 Seiten
Computer Network Module 3
shakti139
Noch keine Bewertungen
Introduction To Email: Grade 6 Sonal Gaikwad
Dokument14 Seiten
Introduction To Email: Grade 6 Sonal Gaikwad
Samaira Savla
Noch keine Bewertungen
IT Infrastructure and Network Technologies Part 4
Dokument17 Seiten
IT Infrastructure and Network Technologies Part 4
Junice Ilagan
Noch keine Bewertungen
Module - It Ipt 02
Dokument152 Seiten
Module - It Ipt 02
Gian Jerome Rubio
Noch keine Bewertungen
PPT5 - Data Types in C++
Dokument26 Seiten
PPT5 - Data Types in C++
Meena Preethi B
100% (1)
Science Tech. Society Module 10 Finals
Dokument1 Seite
Science Tech. Society Module 10 Finals
Kenneth Charles Martin
Noch keine Bewertungen
COMP 20253 Application Development and Emerging Technologies
Dokument97 Seiten
COMP 20253 Application Development and Emerging Technologies
Sarah Jean Trajano
100% (1)
Asra College of Engineering & Technology: Faculty/Course Details
Dokument10 Seiten
Asra College of Engineering & Technology: Faculty/Course Details
asra
Noch keine Bewertungen
SAMS With SMS (Unfinished Manuscript)
Dokument109 Seiten
SAMS With SMS (Unfinished Manuscript)
Renz Lester Obligado
Noch keine Bewertungen
VTU Syllaus For Dot Net C#
Dokument2 Seiten
VTU Syllaus For Dot Net C#
get_together
Noch keine Bewertungen
Lecture On Data Base Management System
Dokument36 Seiten
Lecture On Data Base Management System
Rohit Kumar
Noch keine Bewertungen
Chapter 5 - Linked List
Dokument58 Seiten
Chapter 5 - Linked List
Tanveer Ahmed Hakro
Noch keine Bewertungen
Answers 1.1 - 5.4
Dokument11 Seiten
Answers 1.1 - 5.4
Martha Nicole Maristela
Noch keine Bewertungen
Assignment 1
Dokument3 Seiten
Assignment 1
Wanda Alexander
Noch keine Bewertungen
Module 5 - Main
Dokument14 Seiten
Module 5 - Main
Lian qq
Noch keine Bewertungen
CTS-285 Study Guide
Dokument95 Seiten
CTS-285 Study Guide
Max Potent
100% (1)
Unit1introduction 150307091201 Conversion Gate01 PDF
Dokument101 Seiten
Unit1introduction 150307091201 Conversion Gate01 PDF
Vipul Kaushik
Noch keine Bewertungen
M.daniyal (14017) - Os Manual
Dokument58 Seiten
M.daniyal (14017) - Os Manual
Safa Fatima
Noch keine Bewertungen
Slide 01 Introduction To SNA
Dokument33 Seiten
Slide 01 Introduction To SNA
girmayou
Noch keine Bewertungen
CC2063 Grid Computing Course Plan
Dokument3 Seiten
CC2063 Grid Computing Course Plan
Vanitha Janakiraman
Noch keine Bewertungen
Smart College Campus Using IoT
Dokument7 Seiten
Smart College Campus Using IoT
sri harshaphani
Noch keine Bewertungen
NC101 Module 1
Dokument6 Seiten
NC101 Module 1
Sarah May Nacion Moresco
Noch keine Bewertungen
Week1-Introduction To ICT
Dokument49 Seiten
Week1-Introduction To ICT
MAAZ CHOUDHRY
Noch keine Bewertungen
Fundamentals of Information Systems, Seventh Edition: Database Systems, Data Centers, and Business Intelligence
Dokument63 Seiten
Fundamentals of Information Systems, Seventh Edition: Database Systems, Data Centers, and Business Intelligence
Tawanda Mahere
Noch keine Bewertungen
Certificate of Grades: Lavilla, Czai Reyes
Dokument1 Seite
Certificate of Grades: Lavilla, Czai Reyes
Czai Lavilla
Noch keine Bewertungen
Zero Lecture DSA
Dokument43 Seiten
Zero Lecture DSA
Abhishek Dadhich
Noch keine Bewertungen
Bselt Syllabus
Dokument14 Seiten
Bselt Syllabus
Emmanuel Molina
Noch keine Bewertungen
Network Management System A Complete Guide - 2020 Edition
Von Everand
Network Management System A Complete Guide - 2020 Edition
Gerardus Blokdyk
Bewertung: 5 von 5 Sternen
5/5 (1)
Explorotary Data Analysis
Dokument30 Seiten
Explorotary Data Analysis
Sanjaya Kumar Khadanga
Noch keine Bewertungen
Agency Canvas Ing Presentation
Dokument27 Seiten
Agency Canvas Ing Presentation
khushi jaiswal
Noch keine Bewertungen
ADC of PIC Microcontroller
Dokument4 Seiten
ADC of PIC Microcontroller
killbill
100% (2)
Low Budget Music Promotion and Publicity
Dokument41 Seiten
Low Budget Music Promotion and Publicity
Fola Folayan
100% (3)
Trade Mark
Dokument2 Seiten
Trade Mark
Rohit Thorat
Noch keine Bewertungen
HRM
Dokument118 Seiten
HRM
Karthic Kasilia
Noch keine Bewertungen
Experiment - 1: Batch (Differential) Distillation: 1. Objective
Dokument30 Seiten
Experiment - 1: Batch (Differential) Distillation: 1. Objective
Naren Parashar
Noch keine Bewertungen
Matka Queen Jaya Bhagat
Dokument1 Seite
Matka Queen Jaya Bhagat
A.K.A. Haji
100% (4)
Gomez-Acevedo 2010 Neotropical Mutualism Between Acacia and Pseudomyrmex Phylogeny and Divergence Times
Dokument16 Seiten
Gomez-Acevedo 2010 Neotropical Mutualism Between Acacia and Pseudomyrmex Phylogeny and Divergence Times
TheChaoticFlame
Noch keine Bewertungen
Basic Econometrics Questions and Answers
Dokument3 Seiten
Basic Econometrics Questions and Answers
Rutendo Tarabuku
Noch keine Bewertungen
M. Ircham Mansyur 07224005 Microprocessor-2 (H13)
Dokument7 Seiten
M. Ircham Mansyur 07224005 Microprocessor-2 (H13)
emiier
Noch keine Bewertungen
1.SDH Basics PDF
Dokument37 Seiten
1.SDH Basics PDF
safder wahab
Noch keine Bewertungen
Seabank Statement 20220726
Dokument4 Seiten
Seabank Statement 20220726
Alesa Wahabapp
Noch keine Bewertungen
FE CH 5 Answer
Dokument12 Seiten
FE CH 5 Answer
Antony Chan
Noch keine Bewertungen
Open Source Networking
Dokument226 Seiten
Open Source Networking
yemenlinux
Noch keine Bewertungen
Ritesh Agarwal: Presented By: Bhavik Patel (Iu1981810008) ABHISHEK SHARMA (IU1981810001) VISHAL RATHI (IU1981810064)
Dokument19 Seiten
Ritesh Agarwal: Presented By: Bhavik Patel (Iu1981810008) ABHISHEK SHARMA (IU1981810001) VISHAL RATHI (IU1981810064)
Abhi Sharma
Noch keine Bewertungen
RMC 102-2017 Highlights
Dokument3 Seiten
RMC 102-2017 Highlights
mmeeeoww
Noch keine Bewertungen
DION IMPACT 9102 Series
Dokument5 Seiten
DION IMPACT 9102 Series
LENEEVERSON
Noch keine Bewertungen
Water Pump 250 Hrs Service No Unit: Date: HM: Shift
Dokument8 Seiten
Water Pump 250 Hrs Service No Unit: Date: HM: Shift
TLK Channel
Noch keine Bewertungen
MEd TG G07 EN 04-Oct Digital PDF
Dokument94 Seiten
MEd TG G07 EN 04-Oct Digital PDF
Madhan Ganesan
Noch keine Bewertungen
1 Bacterial Desease
Dokument108 Seiten
1 Bacterial Desease
chacha
Noch keine Bewertungen
Brigade Product Catalogue Edition 20 English
Dokument88 Seiten
Brigade Product Catalogue Edition 20 English
PelotudoPelotero
Noch keine Bewertungen
Csu Cep Professional Dispositions 1
Dokument6 Seiten
Csu Cep Professional Dispositions 1
api-502440235
Noch keine Bewertungen
Lspci
Dokument4 Seiten
Lspci
registroos
Noch keine Bewertungen
Maritime Academy of Asia and The Pacific-Kamaya Point Department of Academics
Dokument7 Seiten
Maritime Academy of Asia and The Pacific-Kamaya Point Department of Academics
aki sinta
Noch keine Bewertungen
Backgrounds
Dokument13 Seiten
Backgrounds
RaMinah
100% (8)
Application of Geoelectric Method For Groundwater
Dokument11 Seiten
Application of Geoelectric Method For Groundwater
Munther Dhahir
Noch keine Bewertungen
DS Agile - Enm - C6p
Dokument358 Seiten
DS Agile - Enm - C6p
ABDERRAHMANE JAF
Noch keine Bewertungen
Syllabus: What Is Artificial Intelligence? Problems
Dokument66 Seiten
Syllabus: What Is Artificial Intelligence? Problems
UdupiSri group
Noch keine Bewertungen
CS-6777 Liu Abs
Dokument103 Seiten
CS-6777 Liu Abs
ILLA PAVAN KUMAR (PA2013003013042)
Noch keine Bewertungen
Syncope
Dokument105 Seiten
Syncope
John Das
Noch keine Bewertungen