Willkommen bei Scribd!

Kiva Loan Time Prediction with Spark and MongoDB

Hochgeladen von

0% fanden dieses Dokument nützlich (0 Abstimmungen)

27 Ansichten24 Seiten

This document discusses a project at Kiva to predict the time it takes for loans to be fully funded using Spark and distributed data systems. The team analyzed about 2GB of loan data stored on Amazon S3 to build and test machine learning models on EC2. They encountered issues with memory size and mixed data types that were addressed by upgrading the EC2 instance and preprocessing the data in MongoDB. Future plans include more feature engineering and testing more complex models like neural networks.

Originalbeschreibung:

Originaltitel

Kiva_Spark.pdf

Copyright

Verfügbare Formate

PDF, TXT oder online auf Scribd lesen

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Dieses Dokument melden

Copyright:

Verfügbare Formate

Als PDF, TXT herunterladen oder online auf Scribd lesen

Markieren Sie unangemessene Inhalte

0% fanden dieses Dokument nützlich (0 Abstimmungen)

27 Ansichten24 Seiten

Kiva Loan Time Prediction with Spark and MongoDB

Hochgeladen von

abhi garg

Copyright:

Verfügbare Formate

Als PDF, TXT herunterladen oder online auf Scribd lesen

Markieren Sie unangemessene Inhalte

Zu Seite

Sie sind auf Seite 1von 24

Im Dokument suchen

Chuan Xu,

Jose A. Rodilla, Ting Ting Liu

Kiva Loan Time

Prediction
Project Objective
To learn how Spark and Distributed Data Systems can help
with our machine learning model at Kiva.
Analytics Goal
To predict how much time (in hours) a given loan will take
to reach full funding.
Data
~2G
Feature Description
loan_amount principal of the loans (in dollars)
status funded/expired
activity borrower activity
sector borrower sector
country_code two letter country identifier
currency country currency
posted_time timestamp of loan posted
funded_time timestamp of loan funded
term_in_months repayment conditions
borrower_genders borrower gender(s)
Data on S3
Data on S3
Amazon S3 à MongoDB
Lessons Learned
1) Problem: Memory (not Storage) Issue on EC2
• t2.micro only comes with 1 GiB (~1 GB)
• Cannot successfully load data onto MongoDB (crashes at 25%)
Lessons Learned
1) Solution: Increase Memory Size!
• With ~2G of data, t2.medium with 4 GiB Memory will successfully load the
data into MongoDB
MongoDB
MongoDB
DataFrame Creation on EC2
Lessons Learned
2) Problem: Mixed Data Type
• ex. Column with Integer and String types.
Lessons Learned
2) Solution: Preprocessing in Mongo
• ex. Remove rows/documents with empty strings.
SparkSQL on EC2
Lessons Learned
3) Problem: Preprocessing data on Spark is not efficient
• ex. Splitting Data (without shuffle/randomization)
• ex. Changing schema types for Dates
Machine Learning (Spark ML) on EC2
Machine Learning (Spark ML) on EC2
Future Plans
• Rudimentary model yielded decent results
• More Feature Engineering:
• NLP feature extraction
• Add detailed date variables
• Random Forest Interpretation
• Move to more complex models:
• Neural Networks
Thank you!

Das könnte Ihnen auch gefallen

PHP and MongoDB Web Development Beginner’s Guide
Von Everand
PHP and MongoDB Web Development Beginner’s Guide
Rubayeet Islam
Noch keine Bewertungen
Cross Border Payments Using Blockchain
Dokument8 Seiten
Cross Border Payments Using Blockchain
Krishna Yadav
Noch keine Bewertungen
Test Ansible
Dokument116 Seiten
Test Ansible
abhi garg
100% (1)
Kafka My Kafka Note v67
Dokument55 Seiten
Kafka My Kafka Note v67
abhi garg
Noch keine Bewertungen
North Campus: Final Examination Spring Semester 2020
Dokument2 Seiten
North Campus: Final Examination Spring Semester 2020
usama sarwer
Noch keine Bewertungen
Talent Test Junior It Operations Engineer
Dokument7 Seiten
Talent Test Junior It Operations Engineer
Muhd Muaz
Noch keine Bewertungen
Mongodb DBA Homework
Dokument4 Seiten
Mongodb DBA Homework
afetuieog
100% (1)
CC6001NT Advanced Database System Development Exam QP
Dokument3 Seiten
CC6001NT Advanced Database System Development Exam QP
Anonymous
Noch keine Bewertungen
Homework 4.1 Mongodb
Dokument6 Seiten
Homework 4.1 Mongodb
afnawepeaavrlj
100% (1)
Homework 3.4 Mongodb
Dokument5 Seiten
Homework 3.4 Mongodb
afodcjfwmxseea
100% (1)
Web Technologies
Dokument9 Seiten
Web Technologies
pandeyjiiiiii995
Noch keine Bewertungen
Unit 2 Lesson 1: Introducing Bytes
Dokument37 Seiten
Unit 2 Lesson 1: Introducing Bytes
Martin Sebastian Gomez Galizzi
Noch keine Bewertungen
Unit2 PDF
Dokument37 Seiten
Unit2 PDF
Martin Sebastian Gomez Galizzi
Noch keine Bewertungen
Banking Management System 002
Dokument13 Seiten
Banking Management System 002
Utkarsh Yadav
Noch keine Bewertungen
Mongodb m202 Homework
Dokument7 Seiten
Mongodb m202 Homework
eylilermg
100% (1)
AIML PGCP Project B21
Dokument6 Seiten
AIML PGCP Project B21
Murtuza Khan
Noch keine Bewertungen
Predicting Personal Loan Approval Using Machine Learning Handbook
Dokument31 Seiten
Predicting Personal Loan Approval Using Machine Learning Handbook
Ezhilarasi
Noch keine Bewertungen
Big Data Analytics (BDA) : Name of The Faculty: Affiliation: Teaching Area
Dokument8 Seiten
Big Data Analytics (BDA) : Name of The Faculty: Affiliation: Teaching Area
Sai Ganesh
Noch keine Bewertungen
Mongodb Homework 5.2
Dokument4 Seiten
Mongodb Homework 5.2
g3v2nc4k
100% (1)
CS614 FinalTerm Solved Papers
Dokument24 Seiten
CS614 FinalTerm Solved Papers
ahmed ilyas
Noch keine Bewertungen
Week 2.vikas Gupta
Dokument3 Seiten
Week 2.vikas Gupta
Vikas Gupta
Noch keine Bewertungen
Database Coursework Examples
Dokument5 Seiten
Database Coursework Examples
phewzeajd
100% (2)
Object Oriented Concepts - Key Concepts and Java Fundamentals
Dokument9 Seiten
Object Oriented Concepts - Key Concepts and Java Fundamentals
M.A raja
100% (1)
Big Data Storge Management
Dokument4 Seiten
Big Data Storge Management
V Harsha Shastri
Noch keine Bewertungen
FinalProject Description
Dokument5 Seiten
FinalProject Description
Bhanu Reddy
Noch keine Bewertungen
Bda Super Imp
Dokument35 Seiten
Bda Super Imp
WWE ROCKERS
Noch keine Bewertungen
Front End Developer - Preparation Document
Dokument3 Seiten
Front End Developer - Preparation Document
Dharmateja Palaparti
Noch keine Bewertungen
Sample SRS Report - 1
Dokument8 Seiten
Sample SRS Report - 1
Irene Sultana (183014035)
Noch keine Bewertungen
Ita5008 Database-Technologies Eth 1.0 40 Ita5008
Dokument6 Seiten
Ita5008 Database-Technologies Eth 1.0 40 Ita5008
Mukut Khandelwal 19MCA0184
Noch keine Bewertungen
Study and Analyze Gmail Software
Dokument27 Seiten
Study and Analyze Gmail Software
sampada varadkar
Noch keine Bewertungen
UNIT-3 Web Tech
Dokument103 Seiten
UNIT-3 Web Tech
Aayush Kumar
Noch keine Bewertungen
Homework 2.1 Mongodb
Dokument7 Seiten
Homework 2.1 Mongodb
afnofjmzeldfie
100% (1)
Summer
Dokument11 Seiten
Summer
satyaswagat panda
Noch keine Bewertungen
DMS Microproject
Dokument27 Seiten
DMS Microproject
Shreyas Bagate
Noch keine Bewertungen
Homework 6.3 Mongodb
Dokument8 Seiten
Homework 6.3 Mongodb
h43n4z4g
100% (1)
Chapter 6 Test Bank
Dokument28 Seiten
Chapter 6 Test Bank
mira chehab
Noch keine Bewertungen
Mongodb m102 Homework 3 Answers
Dokument7 Seiten
Mongodb m102 Homework 3 Answers
g3nwncp4
100% (1)
PPD411 - Unit 1 5 Practical Exe
Dokument29 Seiten
PPD411 - Unit 1 5 Practical Exe
Tim Murison
0% (1)
Gabungan m1-m13 Big Data
Dokument558 Seiten
Gabungan m1-m13 Big Data
Doni Mangampa
Noch keine Bewertungen
Programming for Data Science: An Introduction to Computational Thinking and Programming Concepts
Dokument5 Seiten
Programming for Data Science: An Introduction to Computational Thinking and Programming Concepts
Vivi Tandjung
Noch keine Bewertungen
Big Data
Dokument25 Seiten
Big Data
zeeshan
Noch keine Bewertungen
IDB Assignment Question - Intake 2109
Dokument4 Seiten
IDB Assignment Question - Intake 2109
tp060916
Noch keine Bewertungen
Homework 6.2 Mongodb
Dokument4 Seiten
Homework 6.2 Mongodb
ernq71xc
100% (1)
Homework 4.4 Mongodb
Dokument6 Seiten
Homework 4.4 Mongodb
afmsuaddt
Noch keine Bewertungen
Weekly-Progress-Report-Generic - Hardik - 8
Dokument4 Seiten
Weekly-Progress-Report-Generic - Hardik - 8
hardik solanki
Noch keine Bewertungen
Chapter 3 Thesis Sample Philippines
Dokument6 Seiten
Chapter 3 Thesis Sample Philippines
dianawalkermilwaukee
100% (2)
Database Template
Dokument23 Seiten
Database Template
iulia2310
Noch keine Bewertungen
Mongodb Homework 5.4 Answer
Dokument4 Seiten
Mongodb Homework 5.4 Answer
afeuwqxvd
100% (1)
Homework 3.3 Mongodb
Dokument7 Seiten
Homework 3.3 Mongodb
ert78cgp
100% (1)
Science BSC Information Technology Semester 5 2019 November Next Generation Technologies Cbcs
Dokument21 Seiten
Science BSC Information Technology Semester 5 2019 November Next Generation Technologies Cbcs
nikhilsingh9637115898
Noch keine Bewertungen
Re Level Course Brochure
Dokument18 Seiten
Re Level Course Brochure
Huneshwar Kumar Yadav
Noch keine Bewertungen
IDB Assignment Question - Intake 2206
Dokument4 Seiten
IDB Assignment Question - Intake 2206
Jang Hang Choo
Noch keine Bewertungen
Chapter 6 - Test Bank Chapter 6 - Test Bank
Dokument28 Seiten
Chapter 6 - Test Bank Chapter 6 - Test Bank
Majde Qasem
Noch keine Bewertungen
PLTW CSA Syllabus
Dokument9 Seiten
PLTW CSA Syllabus
Tammy Vaught
Noch keine Bewertungen
Mongodb m102 Homework 6
Dokument7 Seiten
Mongodb m102 Homework 6
ernttprv
100% (1)
Heq Big Data Management Sample Paper Answer Pointers
Dokument13 Seiten
Heq Big Data Management Sample Paper Answer Pointers
ASHEHU SANI
Noch keine Bewertungen
Index: Sr. No. Contents Page No. Annexure I - Micro Project Proposal 1-2
Dokument14 Seiten
Index: Sr. No. Contents Page No. Annexure I - Micro Project Proposal 1-2
Rohi shewalkar
Noch keine Bewertungen
CS363 Spring 2021 Homework 2
Dokument9 Seiten
CS363 Spring 2021 Homework 2
zubair zubair
Noch keine Bewertungen
Practical Data Science: Yossi Attas
Dokument45 Seiten
Practical Data Science: Yossi Attas
Shiena Beason
Noch keine Bewertungen
2022 Oct PAI ASG Brief PDF
Dokument6 Seiten
2022 Oct PAI ASG Brief PDF
Arul Johanna
Noch keine Bewertungen
Weekly-Progress-Report-Generic - Hardik - 7
Dokument4 Seiten
Weekly-Progress-Report-Generic - Hardik - 7
hardik solanki
Noch keine Bewertungen
Backlinko Large Scale Page Speed Analysis Methods
Dokument9 Seiten
Backlinko Large Scale Page Speed Analysis Methods
ViorelMocanu
Noch keine Bewertungen
Transit Quarters
Von Everand
Transit Quarters
Shyamala Nemana
Bewertung: 4 von 5 Sternen
4/5 (8)
AWK Cheat Sheets: Command Short Description
Dokument7 Seiten
AWK Cheat Sheets: Command Short Description
jamesyu
100% (7)
Nagios Admin Interview Questions
Dokument13 Seiten
Nagios Admin Interview Questions
abhi garg
Noch keine Bewertungen
Part 2 Deep Network Modern Practices
Dokument2 Seiten
Part 2 Deep Network Modern Practices
sarfaraz0000
Noch keine Bewertungen
GIT Interview Questions
Dokument6 Seiten
GIT Interview Questions
abhi garg
Noch keine Bewertungen
Java Collections Exercise Solutions
Dokument5 Seiten
Java Collections Exercise Solutions
Kamal Walia
Noch keine Bewertungen
Jenkins 2 Up & Running Tutorial-Chapter01
Dokument13 Seiten
Jenkins 2 Up & Running Tutorial-Chapter01
abhi garg
Noch keine Bewertungen
Sprofile23 PDF
Dokument1 Seite
Sprofile23 PDF
abhi garg
Noch keine Bewertungen
Site Reliability Engineer: About Us
Dokument2 Seiten
Site Reliability Engineer: About Us
abhi garg
Noch keine Bewertungen
ERICA INGRAM'S SOFTWARE DEVELOPMENT AND LEADERSHIP EXPERIENCE
Dokument1 Seite
ERICA INGRAM'S SOFTWARE DEVELOPMENT AND LEADERSHIP EXPERIENCE
abhi garg
Noch keine Bewertungen
Jenkins Interview Questions: 1) Mention What Is Jenkins?
Dokument3 Seiten
Jenkins Interview Questions: 1) Mention What Is Jenkins?
abhi garg
Noch keine Bewertungen
Python Sba Sms
Dokument8 Seiten
Python Sba Sms
abhi garg
Noch keine Bewertungen
Sample PDF
Dokument1 Seite
Sample PDF
abhi garg
Noch keine Bewertungen
Sprofile23 PDF
Dokument1 Seite
Sprofile23 PDF
abhi garg
Noch keine Bewertungen
Sample PDF
Dokument1 Seite
Sample PDF
abhi garg
Noch keine Bewertungen
Web Scrape For Barcodes
Dokument9 Seiten
Web Scrape For Barcodes
abhi garg
Noch keine Bewertungen
Python Sba Sms
Dokument8 Seiten
Python Sba Sms
abhi garg
Noch keine Bewertungen
Table PDF
Dokument1 Seite
Table PDF
abhi garg
Noch keine Bewertungen
Fakenews Analysis
Dokument27 Seiten
Fakenews Analysis
abhi garg
Noch keine Bewertungen
Submit Form New 4 PDF
Dokument1 Seite
Submit Form New 4 PDF
abhi garg
Noch keine Bewertungen
Website Screenshots
Dokument2 Seiten
Website Screenshots
abhi garg
Noch keine Bewertungen
Kiva Spark
Dokument24 Seiten
Kiva Spark
abhi garg
Noch keine Bewertungen
Eray Sibel CustomerAnalytics FinalProject
Dokument2 Seiten
Eray Sibel CustomerAnalytics FinalProject
abhi garg
Noch keine Bewertungen
Web Scrape For Barcodes
Dokument9 Seiten
Web Scrape For Barcodes
abhi garg
Noch keine Bewertungen
MailWizz EMA Stripe Payment Gateway Integration
Dokument1 Seite
MailWizz EMA Stripe Payment Gateway Integration
abhi garg
Noch keine Bewertungen
Website Screenshots
Dokument1 Seite
Website Screenshots
abhi garg
Noch keine Bewertungen
F
Dokument1 Seite
F
abhi garg
Noch keine Bewertungen