Sie sind auf Seite 1von 48

Introducere Data Mining n

Curs 1: Prezentare general a Lucian Sasu, Ph.D.


Universitatea Transilvania din Braov, Facultatea de Matematic i Informatic s as a

March 1, 2012

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

1 / 42

Outline

Bibliograa recomandat a Bibliograe pentru curs Bibliograe pentru laborator Data Mining - introducere Denitii, exemple i motivatie s Data Mining i Knowledge Discovery s Puncte de dicultate Originile DM Tipuri de aplicatii DM

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

2 / 42

Bibliograe pentru curs

Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to Data Mining, Addison-Wesley, 2006

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

3 / 42

Bibliograe pentru curs

Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to Data Mining, Addison-Wesley, 2006 David J. Hand, Heikki Mannila and Padhraic Smyth: Principles of Data Mining, MIT Press, 2001

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

3 / 42

Bibliograe pentru curs

Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to Data Mining, Addison-Wesley, 2006 David J. Hand, Heikki Mannila and Padhraic Smyth: Principles of Data Mining, MIT Press, 2001 Jiawei Han, Micheline Kamber, Jian Pei: Data Mining: Concepts and Techniques, 3rd ed., Morgan Kaufmann Publishers, 2011

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

3 / 42

Bibliograe pentru curs

Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to Data Mining, Addison-Wesley, 2006 David J. Hand, Heikki Mannila and Padhraic Smyth: Principles of Data Mining, MIT Press, 2001 Jiawei Han, Micheline Kamber, Jian Pei: Data Mining: Concepts and Techniques, 3rd ed., Morgan Kaufmann Publishers, 2011 Trevor Hastie, Robert Tibshirani, Jerome Friedman: The Elements of Statistical Learning: Data Mining, Inference, and Prediction, 2nd edition, Springer 2009, liber la download a

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

3 / 42

Bibliograe pentru laborator

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

4 / 42

Bibliograe pentru laborator

1 2

http://rapidminerresources.com http://rapid-i.com/content/view/36/209/lang,en/

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

4 / 42

Bibliograe pentru laborator

1 2 3

http://rapidminerresources.com http://rapid-i.com/content/view/36/209/lang,en/ Ian H. Witten, Eibe Frank: Data Mining: Practical Machine Learning Tools and Techniques, 2nd edition, Morgan Kaufmann, 2005

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

4 / 42

Unelte folosite la laborator (1)

Weka: Data Mining Software in Java, Download de aici


Weka is a collection of machine learning algorithms for data mining tasks. The algorithms can either be applied directly to a dataset or called from your own Java code. Weka contains tools for data pre-processing, classication, regression, clustering, association rules, and visualization. It is also well-suited for developing new machine learning schemes.

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

5 / 42

Unelte folosite la laborator (1)

Weka: Data Mining Software in Java, Download de aici


Weka is a collection of machine learning algorithms for data mining tasks. The algorithms can either be applied directly to a dataset or called from your own Java code. Weka contains tools for data pre-processing, classication, regression, clustering, association rules, and visualization. It is also well-suited for developing new machine learning schemes. Software multiplatform dezvoltat Java; poate folosit din GUI sau prin API-ul expus; a n posibil s se apeleze din .NET via ikvm.net. a

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

5 / 42

Unelte folosite la laborator (2)

RapidMiner Community Edition


The main product of Rapid-I, the data analysis solution RapidMiner, is the world-leading open-source system for data and text mining.

Mecanisme: Data Integration, Analytical ETL, Data Analysis, and Reporting; graphical user interface for the design of analysis processes; Repositories for process, data and meta data handling; Hundreds of data loading, data transformation, data modeling, and data visualization methods [. . . ] Alte softuri larg folosite, dar neabordate la laborator:
http://www.kdnuggets.com/software/index.html, http://www.kdnuggets.com/polls/2010/data-mining-analytics-tools.html http://www-users.cs.umn.edu/kumar/dmbook/resources.htm

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

6 / 42

Outline

Bibliograa recomandat a Bibliograe pentru curs Bibliograe pentru laborator Data Mining - introducere Denitii, exemple i motivatie s Data Mining i Knowledge Discovery s Puncte de dicultate Originile DM Tipuri de aplicatii DM

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

7 / 42

Denitii
Denitie
Data Mining este procesul descoperirii (semi)automate a informatiilor utile depozite mari de date (Tan et al). n

Denitie
Data Mining este analiza seturilor de date deseori de dimensiuni mari rezultate prin observatii pentru a gsi relatii noi i pentru sumarizarea a s datelor moduri care sunt att uor de eles ct i utile celui ce detine n a s nt a s datele (Hand et al).

Denitie
Data mining este procesul netrivial de extragere a informatiei implicite, anterior necunoscute, interesante i potential utile din date, de regul sub s a forma de modele i abloane de cunoatere (Schapiro et al). s s s
lucian.sasu@ieee.org (UNITBV) Curs 1 March 1, 2012 8 / 42

Termeni alternativi: mineritul cunotintelor din date s extragere de cunotinte (eng: Knowledge Discovery) sinonim s discutabil analiza date/abloane s Ce NU e Data Mining: gsirea datelor complete privind o persoan folosind interogare a a ntro baz de date; a gsirea paginilor web care contin anumiti termeni; a Acestea sunt activiti de regsire a informatiei. at a

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

9 / 42

Ce poate Data Mining: s descoperi c anumite nume sunt mai frecvente unele zone: a a n OBrien, ORurke, OReilly zona Boston; n gruparea clientilor pe baza unui prol de consum comun; gruparea paginilor dintr-un motor de cutare pe baza similaritilor: a at motorul search.yippi.com; predictia evolutiei preturilor la bilete de avion: farecast.com.

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

10 / 42

Clustering de pagini web in Yippi

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

11 / 42

Farecast: s cumpr sau nu acum un bilet de avion? a a

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

12 / 42

De ce Data Mining: din punctul de vedere al afacerilor (1)

O multime de date sunt colectate i depozitate prin sisteme de data s warehouse


date din Web, comert electronic cumprturi magazine/lanturi de desfacere aa n tranzactii nanciare, carduri de debit/credit

Calculatoarele au devenit tot mai ieftine i mai puternice; procesarea s distribuit este ceva comun. a

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

13 / 42

De ce Data Mining: din punctul de vedere al afacerilor (2)

Presiunea impus de competitie este motivant: aducerea unui nou a a client ntro retea de telefonie este de pn la 4 ori mai scump dect a a a a pstrarea lui: Customer attrition a Cerinte specice mediului de afaceri: customer proling, targetted marketing, fraud detection Probleme stringente: Care sunt cei mai protabili clienti?, Care produse cumprate atrag achizitia altor produse?, Care va a evolutia companiei/pietei pe segmentul . . . ?, Care sunt niele de s piat? a

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

14 / 42

De ce Data Mining: din punct de vedere tiintic s

domenii precum medicina, inginerie i tiint se acumuleaz rapid In s s a a date ce trebuie exploatate pentru a duce la noi descoperiri; Exemplu: dezvoltarea de sisteme de sateliti pentru observatii climatice; Date genetice generate prin microarrays; se dorete decodicarea s complet a genomului uman, determinarea genelor care cauzeaz a a diferite afectiuni, elegerea structurii i functionalitii genelor; nt s at DM e unealt de baz pentru bioinformatic = aplicarea statisticii i a a a s a informaticii domeniul biologiei moleculare. n

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

15 / 42

Competitii
Neix prize: 100.480.507 rating-uri date de 480.189 utilizatori pentru 17.770 lme KDDCup:
2012: User Modeling based on Microblog Data and Search Click Data 2011: Recomandare de muzic a 2010: Evaluarea performantelor studentilor 2009: Predictia relatiei cu clientii 2008: Cancer de sn a 2007: Netix prize 2006: embolism pulmonar din date tomograce 2005: clasicarea interogrilor de Internet a 2004: zica particulelor i biochimie s 2003: mineritul retelelor i analiza log-urilor s competitia merge pn 1997 a a n

Alte competitii www.kdnuggets.com


lucian.sasu@ieee.org (UNITBV) Curs 1 March 1, 2012 16 / 42

Paii unui proces de extragere de cunotinte (1) s s


Data Mining este parte integrant a domeniului Knowledge discovery a in databases (KDD), care e un ntreg proces de conversie a datelor primare cunotinte (informatie). n s Procesul const a ntro succesiune de pai: s

Datele de intrare se pot gsi a ntr-o larg varietate de formate: iere a s text, baze de date relationale, date semistructurate (e.g. XML, HTML), imagini, lme etc.
lucian.sasu@ieee.org (UNITBV) Curs 1 March 1, 2012 17 / 42

Paii unui proces de extragere de cunotinte (2) s s


Datele se selecteaz din multitudinea de surse; a Preprocesarea i transformarea pot include: selectarea dimensiunilor, s reducerea dimensionalitii, tratarea datelor incomplete, normalizarea; at Preprocesarea i transformarea pot lua chiar i 60% din durata total s s a a unui proces de extragere a cunotintelor; s Partea de Data Mining se face printro varietate de tehnici; deseori se testeaz mai multe metode; a La nal, cunotintele rezultate sunt postprocesate (e.g. se elimin s a rezultatele invalide sau neinteresante) i trebuie prezentate s ntro form inteligibil factorilor de decizie (e.g. vizualizare sau reguli de a a forma ifthen), sau integrate alte sisteme (e.g. sistemele utilizate n pentru detectare de fraude);

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

18 / 42

Atentie la ce se obtine

Tehnici folosite la preprocesare: testarea ipotezelor prin metode statistice se elimin rezultatele nerealiste; a Eliminarea cunotintelor neinteresante element subiectiv, s dependent de cunotintele anterioare; s Limitarea complexitii modelelor folosite procesul de DM: If you at n torture the data long enough, it will confess (Ronald Harry Coase, economist); Principiul lui Bonferroni: if you look harder than the quantity of data supports, you will nd a pattern that ts.

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

19 / 42

Principiul lui Bonferroni: paradoxul Rhine (1)

Joseph Rhine: parapsiholog anii 50 care a n ncercat s dovedeasc a a faptul c unii oameni au perceptie extra-senzorial; a a experimentul lui Rhine: a cerut unor oameni s ghiceasc culorile a a a 10 cartonae ascunse se tiau cele dou posibiliti: rou i albastru; s s a at s s a descoperit c aproximativ 1/1000 din oameni au ghicit toate cele a 10 cartoane a spus oamenilor respectivi c au abiliti extrasenzoriale i i-a chemat a at s pentru alte experimente la un nou experiment, oamenii de la pasul anterior nu au mai ghicit aproape deloc culoarea cartoanelor. Concluzia:

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

20 / 42

Principiul lui Bonferroni: paradoxul Rhine (2)

Nu ar trebuit s le spun oamenilor c au capaciti a a a at extra-senzoriale: asta face s i le piard!! i as a Un calcul probabilistic simplu arat c raportul de aproximativ 1/1000 a a poate explicat prin evenimente aleatoare i legea numerelor mari; s Cunoaterea principiului lui Bonferroni poate s salveze de astfel de s a descoperiri.

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

21 / 42

Scalabilitatea i dimensiunea datelor s

seturile de date ajung uor la dimensiuni de giga/tera/petabytes; s France Telecom are o baz de date folosit pentru luarea deciziilor de a a 30 TB Wal-Mart are 20 de milioane de tranzactii pe zi; 16 telescoape europene produc 1 Gb pe secund; a proiectul genomului uman: 3.4 miliarde de perechi i s ntre 20000 i s 25000 gene; problem de descoperire de medicamente: 100000 de atribute; a stabilirea reputatiei URL-urilor: 3231961 de atribute Experimentul Compact Muon Solenoid la CERNs Large Hadron Collider genereaz 40 de terabytes de date pe secund. a a

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

22 / 42

Scalabilitatea i dimensiunea datelor (2) s

variante: structuri de date specice, care s uureze interogarea a s datelor scalarea pe orizontal sau pe vertical a resurselor hardware; a a scalarea pe vertical: rareori sucient, datele nu a a ncap RAM n scalarea pe orizontal cazuri remarcabile: Apache Hadoop, Apache a Mahout proiecte opensource.

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

23 / 42

Date eterogene i complexe s

atribute eterogene: numerice, categoriale; ce faci cu datele lips? eliminarea a nregistrrilor cu goluri de date nu e a ntotdeauna o optiune; colectii de documente (e.g. pagini Web); date ADN cu structur a spatial i secvential; serii de timp as a tehnicile de DM trebuie s ia considerare relatiile dintre date a n (corelatie spatial i temporal; conectivitate de grafuri; relatie as a printecopil). a

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

24 / 42

Gestiunea i distribuirea datelor s

datele pot prezente locatii multiple, nu doar n ntro organizatie; necesitate: DM distribuit sau suport de tip Data Warehouse caz de distribuire: comunicarea necesar poate s domine timpul n a a de calcul caz de data warehouse: integrarea datelor necesit timp n a ndelungat data privacy: problem delicat, diferite aspecte legislative pot a a interveni

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

25 / 42

Analiz nestandard a

Statistica: enuntarea de ipoteze i apoi testarea lor; s Problem evident: procesul este laborios a a DM are ca scop tocmai determinarea pe ct posibil automat a astfel a a de ipoteze; timp ce statistica este mare msur tributar modelelor In n a a a parametrice, datele reale pot avea cu totul alte distributii dect cele a presupuse; Dar statistica ofer unelte utile de exemplu metode de testare, a determinarea intervalelor de condent, inferenta statistic etc. a a

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

26 / 42

Originile DM
Statistic eantionare, estimare, testarea ipotezelor, modele a s parametrice; Inteligent articial tehnici de rationament probabilist i a a s management al incertitudinii aare automat (machine learning) pornind de la date se Invt a creeaz modele adecvate a Recunoatere de abloane (pattern recognition) s s Sisteme de baze de date suport pentru stocarea (eventual distribuit a ) datelor; probleme pot aprea din cauz c nu toate a a a a datele se pot reprezenta uor sub model relational; s Calcul paraleldistribuit pentru a rezolva problema scalabilitii at aplicatiilor de DM;

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

27 / 42

Sunt dou categorii majore de aplicatii: a Predictia scopul e de a prezice valoarea concret a unui atribut pe a baza altor atribute. Atributul ce urmeaz a prezis se a numete variabil dependent sau int; cele care se folosesc s a a t a pentru predictie sunt variabile independente sau explicative; Descrierea determinarea de abloane, e.g. corelatii, tendinte, grupri, s a traiectorii, anomalii

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

28 / 42

Clasicare predictie Grupare (Clustering) descriere Determinarea relatiilor de asociere descriere Descoperirea abloanelor secventiale descriere s Regresie predictie Detectarea deviatiilor predictie

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

29 / 42

Clasicarea: denitie

Se pleac de la o colectie de a nregistrri = setul de antrenare a Fiecare nregistrare e format din atribute, dintre care unul este a clasa: bun/rau, risc mare/risc moderat/risc mic; Scopul este gsirea unui model (a unui mecanism, a unei functii) care a s determine clasa pe baza atributelor; a Modelul trebuie s fac o clasicare ct mai del pentru a a a a nregistrri a care nu fac parte din setul de test = date din setul de testare;

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

30 / 42

Clasicarea: exemplu

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

31 / 42

Clasicarea: aplicatia 1

Marketing direct: scopul: reducerea costurilor de trimitere a reclamelor prin pot prin sa alegerea unui set de consumatori pentru care ansele de achizitie a s unui produs sunt mari modalitate de lucru:
se pleac de la produse similare a pentru aceste produse tim dac au fost sau nu cumprate de ctre s a a a consumatorii cauz; asta d clasa unei n a a nregistrri, ca valoare a posibil din multimea {a cumprat, nu a cumprat} a a a se colecteaz date demograce despre clienti, istoricul tranzactiilor etc. a se folosesc aceste date pentru a construi un clasicator.

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

32 / 42

Clasicarea: aplicatia 2

Prevenirea migrrii clientului: a Scop: s se determine dac un client al serviciilor oferite este pe cale a a de a pleca la un competitor modalitate de lucru:
se folosesc nregistrri detaliate despre tranzactiile fcute de client (e.g. a a telefonie: apelurile efectuate, retelele ctre care sau efectuat, durata, a frecventa); se folosesc date demograce: situatia nanciar, starea civil etc. a a se eticheteaz clientul ca ind loial sau nu a plecnd de la acest set de antrenare se creeaz un clasicator care s a a a e utilizat pentru alti clienti

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

33 / 42

Clasicarea: aplicatia 3
Clasicarea obiectelor cereti s Scop: s se prezic clasa unor obiecte cereti pe baza imaginilor luate a a s de telescoape modalitate de lucru:
se pleac de la o colectie de imagini; caz concret: 3000 imagini cu a 23040 x 23040 pixeli pe imagine se segmenteaz imaginea a se msoar anumite trsturi a a aa se construiete un clasicator plecnd de la aceste segmente de imagini s a cu clase ataate - pentru ecare segment se tie exact ce reprezint s s a poveste de succes: sau gsit 16 noi quasari, elemente greu de a descoperit i catalogat prin mijloace traditionale. s

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

34 / 42

Clasicarea: aplicatia 4

Clasicarea galaxiilor galaxii tinere, de vrst medie, vechi. n: a a Scop: clasicarea galaxiilor relativ la stadiul de formare: galaxii tinere, de nivel intermediar, stadiu nal; set de date: 20 de milioane de galaxii, 72 de milioane de stele baza de date de 150 GB atribute: trsturi extrase din imagini, caracteristicile lungimilor de aa und primite etc. a sursa: http://aps.umn.edu

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

35 / 42

Clustering: denitie
Dnduse un set de puncte, ecare avnd un set de atribute i o a a s msur de similaritate, s se gseasc grupri (clustere) cu a a a a a a proprietatea:
punctele care apartin unui aceluiai cluster sunt similare s ntre ele punctele din clustere separate sunt mai putin similare

msur de similaritate: distanta Euclidian sau alte msuri specice a a a a deosebire fat de clasicare: printre atributele considerate nu exist a a un atribut de clas a

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

36 / 42

Clustering: exemplu

Gruparea automat de documente a scop: gsirea grupurilor de documente care sunt similare pe baza a termenilor pe care contin i modalitate de lucru
se contorizeaz cuvintele a se formeaz o msur de similaritate a a a ntre documente pe baza frecventelor pe baza similaritii se formeaz grupurile at a utilitate: pentru un nou document se descoper rapid care este a clusterul cruia apartine mod natural; a i n

utilitate: detectare de plagiate, cutare de documente similare etc. a

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

37 / 42

Analiza asocierilor: denitie

Dnduse un set de colectii de a nregistrri, s se produc regulile de a a a dependent care prezic aparitia unui item pe baza aparitiei altor itemi a

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

38 / 42

Analiza asocierilor: exemple

gsirea grupurilor de gene care au functii a nrudite identicarea paginilor Web dintrun site care sunt accesate mpreun a Market Basket Analysis: care sunt produsele care se vnd bine a mpreun; functie de aceste grupri se poate specula partea de a n a cross-selling (ieftineti un produs dar scumpeti pe un altul) sau s l s dispunerea pe raft a lor (cele care se vnd a mpreun s e dispuse a a apropiat); echiparea mainilor care particip la reparatii cu anumite unelte, s a pentru a reduce numrul de deplasri la client a a

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

39 / 42

Descoperirea abloanelor secventiale: denitie s


Dnduse un set de obiecte, ecare cu timpul la care apare, s se a a gseasc regulile care pot prezice dependintele secventiale dintre a a evenimente;

Spre deosebire de analiza asocierilor: aparitia evenimentelor este reglat de restrictii de timp. a

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

40 / 42

Regresie: denitie, exemple

Prezicerea unui atribut continuu pe baza unor atribute independente; Similar cu clasicarea, dar la regresie valorile variabilei dependente sunt numerice Intens studiat statistic i retele neurale articiale a n as Exemple:
prezicerea volumului de vnzri a a prezicerea vitezei vntului pe baza umiditii, presiunii, temperaturii a at etc. prezicerea consumului de curent ntro anumit perioad, pe o zon a a a specicat a

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

41 / 42

Detectarea anomaliilor

detectarea deviatiilor semnicative de la comportamentul normal aplicatii:


detectarea fraudelor cu card bancar detectarea intruziunilor retele de calculatoare n

lucian.sasu@ieee.org (UNITBV)

Curs 1

March 1, 2012

42 / 42

Das könnte Ihnen auch gefallen