Willkommen bei Scribd!

Data Mining Homework 1

Hochgeladen von

100% fanden dieses Dokument nützlich (1 Abstimmung)

1K Ansichten2 Seiten

List and describe the five primitives for specifying a data mining task. If you're a software engineer at big university, your task is to design a system to examine the university course database. What is the mean of the data? What is the median? Can you find the first quartile and the third quartile?

Originalbeschreibung:

Copyright

Verfügbare Formate

DOC, PDF, TXT oder online auf Scribd lesen

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Dieses Dokument melden

Copyright:

Attribution Non-Commercial (BY-NC)

Verfügbare Formate

Als DOC, PDF, TXT herunterladen oder online auf Scribd lesen

Markieren Sie unangemessene Inhalte

100% fanden dieses Dokument nützlich (1 Abstimmung)

1K Ansichten2 Seiten

Data Mining Homework 1

Hochgeladen von

Joseph Chang

Copyright:

Attribution Non-Commercial (BY-NC)

Verfügbare Formate

Als DOC, PDF, TXT herunterladen oder online auf Scribd lesen

Markieren Sie unangemessene Inhalte

Zu Seite

Sie sind auf Seite 1von 2

Im Dokument suchen

Data mining Homework 1

Fall 2010, Deadline: 2010/10/4 (hardcopies in the class)

https://sites.google.com/site/dataminingcourse2009/
1. List and describe the five primitives for specifying a data mining task.
2. Suppose your task as a software engineer at Big University is to design a data
mining system to examine the university course database, which contains the
following information: the name, address, and status (e.g., undergraduate or
graduate) of each student, the courses taken, and the cumulative grade point
average (GPA). Describe the architecture you would choose. What is the purpose
of each component of this architecture?
3. Suppose that the data for analysis includes the attribute age. The age values for
the data tuples are (in increasing order) 13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25,
25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70.
(a) What is the mean of the data? What is the median?
(b) What is the mode of the data? Comment on the data’s modality (i.e., bimodal
trimodal, etc.)
(c) What is the midrange of the data?
(d) Can you find (roughly) the first quartile (Q1) and the third quartile (Q3) of
the data?
(e) Give the five-number summary of the data.
(f) Show a boxplot of the data.
(g) How is a quantile-quantile plot different from a quantile plot?
4. It is important to define or select similarity measures in data analysis. However,
there is no commonly accepted subjective similarity measure. Using different
similarity measures may be equivalent after some transformation. Suppose we
have the following two-dimensional data set:
A1 A2
x 1.5 1.7
1
x 2 1.9
2
x 1.6 1.8
3
x 1.2 1.5
4
x 1.5 1.0
5

(a) Consider the data as two-dimensional data points. Given a new data point,
x=(1.4, 1.6) as a query, rank the database points based on similarity with the
query using (1) Euclidean distance, and (2) cosine similarity
(b) Normalize the data set to make the norm of each data point equal to 1. Use
Euclidean distance on the transformed data to rank the data points.
5. Briefly compare the following concepts. You may use an example to explain
your point(s).
(a) Snowflake schema, fact constellation, starnet query model
(b) Data cleaning, data transformation, refresh
(c) Enterprise warehouse, data mart, virtual warehouse
6. What are the differences between the three main types of data warehouse usage:
information processing, analytical processing, and data mining? Discuss the
motivation behind OLAP mining (OLAM).
7. What is Principal Component Analysis (PCA)? Please describe the relationship
between PCA and Singular Value Decomposition (SVD).

Equation (1): Euclidean distance

Suppose i=(xi1, xi2, …, xin) and j=(xj1, xj2, …, xjn), Euclidean distance of two n-
dimensional data is

n
2
d (i, j ) = ∑ ( xik − x jk )
k =1

Equation (2): cosine similarity

Suppose x and y are the vectors, cosine similarity is
x t ⋅y
s ( x, y) =
x y

where xt is a transposition of vector x, ||x|| is the Euclidean norm of vector x, ||y|| is the
Euclidean norm of vector y.

Das könnte Ihnen auch gefallen

Toyota Corolla
Dokument169 Seiten
Toyota Corolla
n
Noch keine Bewertungen
Exploratory Data Mining and Data Cleansing PDF
Dokument2 Seiten
Exploratory Data Mining and Data Cleansing PDF
Todd
0% (1)
14PGP030
Dokument10 Seiten
14PGP030
Pranav Aggarwal
Noch keine Bewertungen
FDP On Data Mining Tools
Dokument2 Seiten
FDP On Data Mining Tools
surendir
Noch keine Bewertungen
Data Warehousing and Data Mining
Dokument2 Seiten
Data Warehousing and Data Mining
dineshpadhiyar
Noch keine Bewertungen
Chapter-3 DATA MINING PDF
Dokument13 Seiten
Chapter-3 DATA MINING PDF
Ramesh K
Noch keine Bewertungen
2 ASSIGNMENT 2 (Beginning Superstore)
Dokument1 Seite
2 ASSIGNMENT 2 (Beginning Superstore)
Chaitanya Chowdary
0% (1)
Social Media Mining
Dokument10 Seiten
Social Media Mining
Hari Atharsh
Noch keine Bewertungen
Data Visualization Overview
Dokument29 Seiten
Data Visualization Overview
Kumar Subrahmanya Mankala
Noch keine Bewertungen
Department 2. Employee 3. Project 4. Employee - Skills
Dokument7 Seiten
Department 2. Employee 3. Project 4. Employee - Skills
Muhammad Shahbaz
Noch keine Bewertungen
4 - Hierachical Clustering
Dokument43 Seiten
4 - Hierachical Clustering
Zhu Haoyu
Noch keine Bewertungen
AHP PPT
Dokument20 Seiten
AHP PPT
Chege Kago
Noch keine Bewertungen
Control Engineering-I Lab-1 Dated: 24-10-2007 1. What Is MATLAB
Dokument9 Seiten
Control Engineering-I Lab-1 Dated: 24-10-2007 1. What Is MATLAB
api-19807868
Noch keine Bewertungen
Key Data Mining Tasks: 1. Descriptive Analytics
Dokument10 Seiten
Key Data Mining Tasks: 1. Descriptive Analytics
sandeep
Noch keine Bewertungen
Python Slides PDF
Dokument35 Seiten
Python Slides PDF
cristianalejandro
Noch keine Bewertungen
MCQ of Microsoft Excel
Dokument11 Seiten
MCQ of Microsoft Excel
Nisha Agarwal 3
Noch keine Bewertungen
ITC6000 - Database Systems - CH 01
Dokument31 Seiten
ITC6000 - Database Systems - CH 01
SunilRaj
Noch keine Bewertungen
Data Mining Lab Manual
Dokument34 Seiten
Data Mining Lab Manual
Keerthana Sudarshan
Noch keine Bewertungen
Data Visualization: Tutorial Dr. John F. Tripp
Dokument51 Seiten
Data Visualization: Tutorial Dr. John F. Tripp
preeti agarwal
Noch keine Bewertungen
Data Exploration in Python PDF
Dokument1 Seite
Data Exploration in Python PDF
Tuncay Sakaoglu
Noch keine Bewertungen
Cluster Analysis: Concepts and Techniques - Chapter 7
Dokument60 Seiten
Cluster Analysis: Concepts and Techniques - Chapter 7
Suchithra Salilan
Noch keine Bewertungen
Iit Training Project: by Kunal Sareen
Dokument50 Seiten
Iit Training Project: by Kunal Sareen
Abhishek Sareen
Noch keine Bewertungen
Numerical Computing Extra Exercises ch.1
Dokument7 Seiten
Numerical Computing Extra Exercises ch.1
Hani.Smith
Noch keine Bewertungen
My SQL For Beginners
Dokument3 Seiten
My SQL For Beginners
Pallavi Singh
Noch keine Bewertungen
The Database Life Cycle
Dokument3 Seiten
The Database Life Cycle
Petros Gavai
Noch keine Bewertungen
Midterm Review Solution
Dokument7 Seiten
Midterm Review Solution
nurnuraddin
100% (1)
Data Visualization Complete Notes
Dokument28 Seiten
Data Visualization Complete Notes
primevideo09871234
Noch keine Bewertungen
Analytic Hierarchy Process: - Multiple-Criteria Decision-Making
Dokument16 Seiten
Analytic Hierarchy Process: - Multiple-Criteria Decision-Making
Sudhansu Sekhar Panda
Noch keine Bewertungen
AoA Important Question
Dokument3 Seiten
AoA Important Question
Shubham Kumar
Noch keine Bewertungen
CST3504 Test 1 - 60 Practice Questions For CH 1 and 6
Dokument9 Seiten
CST3504 Test 1 - 60 Practice Questions For CH 1 and 6
Randy Naraine
100% (1)
Information and Management Lab: Experiment 1 Worksheet 1
Dokument14 Seiten
Information and Management Lab: Experiment 1 Worksheet 1
Ankita Thakur
Noch keine Bewertungen
Correlation Matrix Excel Template
Dokument2 Seiten
Correlation Matrix Excel Template
Aditi SIngh
Noch keine Bewertungen
EXCEL Lab Exercise
Dokument21 Seiten
EXCEL Lab Exercise
sunil khandelwal
Noch keine Bewertungen
Assignment 1
Dokument15 Seiten
Assignment 1
Dhruvil Shah
Noch keine Bewertungen
The Simple Linear Regression Model and Correlation
Dokument64 Seiten
The Simple Linear Regression Model and Correlation
Rajesh Dwivedi
Noch keine Bewertungen
Machine Learning by Andrew NG Coursera
Dokument5 Seiten
Machine Learning by Andrew NG Coursera
sameeksha chiguru
Noch keine Bewertungen
6 1 Mining Complex Data
Dokument69 Seiten
6 1 Mining Complex Data
sujiamarnath
Noch keine Bewertungen
Dbms Unit 5.2 (Ar16)
Dokument23 Seiten
Dbms Unit 5.2 (Ar16)
X Boy
Noch keine Bewertungen
Project MovieLens 17082019 by Monalisa Ganguly
Dokument28 Seiten
Project MovieLens 17082019 by Monalisa Ganguly
Sanjib Ganguly
Noch keine Bewertungen
Cse2012 Dbms Lab Manual
Dokument69 Seiten
Cse2012 Dbms Lab Manual
Vijay
Noch keine Bewertungen
Assignment 02
Dokument9 Seiten
Assignment 02
dilhani
Noch keine Bewertungen
DATA MINING Chapter 1 and 2 Lect Slide
Dokument47 Seiten
DATA MINING Chapter 1 and 2 Lect Slide
Sanjeev Thakur
Noch keine Bewertungen
Data Visualization Using Tableau
Dokument3 Seiten
Data Visualization Using Tableau
Neeraj Verma
100% (1)
05 DFD
Dokument16 Seiten
05 DFD
Yasith Weerarathne
Noch keine Bewertungen
Data Analytics (A) CS-503, B.Tech. 5 Semester Assignment Questions
Dokument2 Seiten
Data Analytics (A) CS-503, B.Tech. 5 Semester Assignment Questions
Tele boy
Noch keine Bewertungen
Machine Learning Algorithms - Summary + R Code
Dokument34 Seiten
Machine Learning Algorithms - Summary + R Code
amiba45
Noch keine Bewertungen
Question 1,7 & 11 Answer
Dokument6 Seiten
Question 1,7 & 11 Answer
bhawika
Noch keine Bewertungen
MONGODBINSTLLATION and LAB MANUAL
Dokument15 Seiten
MONGODBINSTLLATION and LAB MANUAL
Neeraj Kumar
Noch keine Bewertungen
Credit EDA Assignment PDF
Dokument40 Seiten
Credit EDA Assignment PDF
Alisha Anand
Noch keine Bewertungen
Unit-3 PPT Notes
Dokument67 Seiten
Unit-3 PPT Notes
shivam sharma
Noch keine Bewertungen
0 Ba 7 Ef 9 D 77
Dokument6 Seiten
0 Ba 7 Ef 9 D 77
Shimanto Kabir
Noch keine Bewertungen
LJS Assignment 3
Dokument10 Seiten
LJS Assignment 3
Lee Jung Soo
Noch keine Bewertungen
Gantt Chart
Dokument4 Seiten
Gantt Chart
Mentil Maleng
Noch keine Bewertungen
Answer Summary Powerbi
Dokument65 Seiten
Answer Summary Powerbi
madhankumar.mc18
Noch keine Bewertungen
Sharda dss10 PPT 01 GE-211564
Dokument41 Seiten
Sharda dss10 PPT 01 GE-211564
hamzeh ansari
Noch keine Bewertungen
Case Study 4
Dokument10 Seiten
Case Study 4
fayre86
Noch keine Bewertungen
No 2
Dokument2 Seiten
No 2
Asyraf Gary
Noch keine Bewertungen
Final 2006
Dokument15 Seiten
Final 2006
Muhammad Murtaza
Noch keine Bewertungen
Anomaly Detection
Dokument15 Seiten
Anomaly Detection
Divya Gn
Noch keine Bewertungen
Final 2006
Dokument15 Seiten
Final 2006
유홍승
Noch keine Bewertungen
Introduction To Computer Application
Dokument56 Seiten
Introduction To Computer Application
Krithika K Muralidharan
Noch keine Bewertungen
Unit 4 Data Modeling: Structure
Dokument27 Seiten
Unit 4 Data Modeling: Structure
gaardi
Noch keine Bewertungen
Current Analytical Architecture
Dokument6 Seiten
Current Analytical Architecture
Balasaheb Chavan
Noch keine Bewertungen
Retail Management Information Systems and Retail Audit
Dokument47 Seiten
Retail Management Information Systems and Retail Audit
Honey Gupta
Noch keine Bewertungen
Chap 1
Dokument32 Seiten
Chap 1
api-27259648
Noch keine Bewertungen
lecture1&2-đã chuyển đổi
Dokument46 Seiten
lecture1&2-đã chuyển đổi
Quang Le
Noch keine Bewertungen
Imran Khan - Data Modeler-Solution Architect - v1.0
Dokument5 Seiten
Imran Khan - Data Modeler-Solution Architect - v1.0
Firoz shaik
Noch keine Bewertungen
Cognos Admin Sample Resume
Dokument5 Seiten
Cognos Admin Sample Resume
Niranjan Reddy
Noch keine Bewertungen
Prathima - Data Analyst
Dokument6 Seiten
Prathima - Data Analyst
Ashwani kumar
Noch keine Bewertungen
Selecting The Right Data Warehouse For Analytics
Dokument13 Seiten
Selecting The Right Data Warehouse For Analytics
Eric Linderhof
Noch keine Bewertungen
System Integration and Architecture
Dokument63 Seiten
System Integration and Architecture
Farah Khan
100% (5)
Intro To DDW Processes
Dokument22 Seiten
Intro To DDW Processes
api-3754320
100% (1)
Qlikview Q&A For Fresher and Experienced
Dokument8 Seiten
Qlikview Q&A For Fresher and Experienced
eswarp
Noch keine Bewertungen
IAA Poster 2006
Dokument1 Seite
IAA Poster 2006
Krishna_India
Noch keine Bewertungen
1.6 - Data Integration, 1.10 - Transformation
Dokument3 Seiten
1.6 - Data Integration, 1.10 - Transformation
dssd
Noch keine Bewertungen
Role and Importance of Data
Dokument2 Seiten
Role and Importance of Data
De Guzman JA
Noch keine Bewertungen
Role of IT in Legal System: Team 6 Reynold Educula
Dokument18 Seiten
Role of IT in Legal System: Team 6 Reynold Educula
xcygon
Noch keine Bewertungen
Edp Concepts and Types of Data
Dokument49 Seiten
Edp Concepts and Types of Data
Hersey Ann Amador
Noch keine Bewertungen
What Is ETL, ETL Vs ELT
Dokument27 Seiten
What Is ETL, ETL Vs ELT
Shaina Marie Refran
Noch keine Bewertungen
Jagrut Nimmala Resume
Dokument5 Seiten
Jagrut Nimmala Resume
Dummy Gammy
Noch keine Bewertungen
Chapter 5 Decision Support System (Dr. Mahmoud Mostafa)
Dokument21 Seiten
Chapter 5 Decision Support System (Dr. Mahmoud Mostafa)
JonathanHindi
Noch keine Bewertungen
Dbms
Dokument26 Seiten
Dbms
Soumik Das
Noch keine Bewertungen
BI Curs 3
Dokument41 Seiten
BI Curs 3
crristtinaa
Noch keine Bewertungen
Naveed Iqbal Khan Resume
Dokument2 Seiten
Naveed Iqbal Khan Resume
hina-1
Noch keine Bewertungen
Introduction To Big Data Analytics: Welcome Intro To BDA !
Dokument39 Seiten
Introduction To Big Data Analytics: Welcome Intro To BDA !
galge turo
Noch keine Bewertungen
CH 3
Dokument27 Seiten
CH 3
Nawaf Ali
Noch keine Bewertungen
Accessing BI Publisher 11g Web Services Through A JDeveloper Web Service Proxy
Dokument8 Seiten
Accessing BI Publisher 11g Web Services Through A JDeveloper Web Service Proxy
chinbom
Noch keine Bewertungen
Database Quiz
Dokument4 Seiten
Database Quiz
Blugh Beep
Noch keine Bewertungen
Introduction To Information Systems People Technology and Processes 3Rd Edition Wallace Solutions Manual Full Chapter PDF
Dokument36 Seiten
Introduction To Information Systems People Technology and Processes 3Rd Edition Wallace Solutions Manual Full Chapter PDF
sharon.turner817
100% (14)
Trends in Data Warehousing
Dokument64 Seiten
Trends in Data Warehousing
Alexis Billones
100% (1)