Beruflich Dokumente
Kultur Dokumente
March 1, 2012
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
1 / 42
Outline
Bibliograa recomandat a Bibliograe pentru curs Bibliograe pentru laborator Data Mining - introducere Denitii, exemple i motivatie s Data Mining i Knowledge Discovery s Puncte de dicultate Originile DM Tipuri de aplicatii DM
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
2 / 42
Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to Data Mining, Addison-Wesley, 2006
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
3 / 42
Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to Data Mining, Addison-Wesley, 2006 David J. Hand, Heikki Mannila and Padhraic Smyth: Principles of Data Mining, MIT Press, 2001
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
3 / 42
Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to Data Mining, Addison-Wesley, 2006 David J. Hand, Heikki Mannila and Padhraic Smyth: Principles of Data Mining, MIT Press, 2001 Jiawei Han, Micheline Kamber, Jian Pei: Data Mining: Concepts and Techniques, 3rd ed., Morgan Kaufmann Publishers, 2011
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
3 / 42
Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to Data Mining, Addison-Wesley, 2006 David J. Hand, Heikki Mannila and Padhraic Smyth: Principles of Data Mining, MIT Press, 2001 Jiawei Han, Micheline Kamber, Jian Pei: Data Mining: Concepts and Techniques, 3rd ed., Morgan Kaufmann Publishers, 2011 Trevor Hastie, Robert Tibshirani, Jerome Friedman: The Elements of Statistical Learning: Data Mining, Inference, and Prediction, 2nd edition, Springer 2009, liber la download a
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
3 / 42
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
4 / 42
1 2
http://rapidminerresources.com http://rapid-i.com/content/view/36/209/lang,en/
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
4 / 42
1 2 3
http://rapidminerresources.com http://rapid-i.com/content/view/36/209/lang,en/ Ian H. Witten, Eibe Frank: Data Mining: Practical Machine Learning Tools and Techniques, 2nd edition, Morgan Kaufmann, 2005
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
4 / 42
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
5 / 42
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
5 / 42
Mecanisme: Data Integration, Analytical ETL, Data Analysis, and Reporting; graphical user interface for the design of analysis processes; Repositories for process, data and meta data handling; Hundreds of data loading, data transformation, data modeling, and data visualization methods [. . . ] Alte softuri larg folosite, dar neabordate la laborator:
http://www.kdnuggets.com/software/index.html, http://www.kdnuggets.com/polls/2010/data-mining-analytics-tools.html http://www-users.cs.umn.edu/kumar/dmbook/resources.htm
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
6 / 42
Outline
Bibliograa recomandat a Bibliograe pentru curs Bibliograe pentru laborator Data Mining - introducere Denitii, exemple i motivatie s Data Mining i Knowledge Discovery s Puncte de dicultate Originile DM Tipuri de aplicatii DM
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
7 / 42
Denitii
Denitie
Data Mining este procesul descoperirii (semi)automate a informatiilor utile depozite mari de date (Tan et al). n
Denitie
Data Mining este analiza seturilor de date deseori de dimensiuni mari rezultate prin observatii pentru a gsi relatii noi i pentru sumarizarea a s datelor moduri care sunt att uor de eles ct i utile celui ce detine n a s nt a s datele (Hand et al).
Denitie
Data mining este procesul netrivial de extragere a informatiei implicite, anterior necunoscute, interesante i potential utile din date, de regul sub s a forma de modele i abloane de cunoatere (Schapiro et al). s s s
lucian.sasu@ieee.org (UNITBV) Curs 1 March 1, 2012 8 / 42
Termeni alternativi: mineritul cunotintelor din date s extragere de cunotinte (eng: Knowledge Discovery) sinonim s discutabil analiza date/abloane s Ce NU e Data Mining: gsirea datelor complete privind o persoan folosind interogare a a ntro baz de date; a gsirea paginilor web care contin anumiti termeni; a Acestea sunt activiti de regsire a informatiei. at a
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
9 / 42
Ce poate Data Mining: s descoperi c anumite nume sunt mai frecvente unele zone: a a n OBrien, ORurke, OReilly zona Boston; n gruparea clientilor pe baza unui prol de consum comun; gruparea paginilor dintr-un motor de cutare pe baza similaritilor: a at motorul search.yippi.com; predictia evolutiei preturilor la bilete de avion: farecast.com.
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
10 / 42
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
11 / 42
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
12 / 42
Calculatoarele au devenit tot mai ieftine i mai puternice; procesarea s distribuit este ceva comun. a
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
13 / 42
Presiunea impus de competitie este motivant: aducerea unui nou a a client ntro retea de telefonie este de pn la 4 ori mai scump dect a a a a pstrarea lui: Customer attrition a Cerinte specice mediului de afaceri: customer proling, targetted marketing, fraud detection Probleme stringente: Care sunt cei mai protabili clienti?, Care produse cumprate atrag achizitia altor produse?, Care va a evolutia companiei/pietei pe segmentul . . . ?, Care sunt niele de s piat? a
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
14 / 42
domenii precum medicina, inginerie i tiint se acumuleaz rapid In s s a a date ce trebuie exploatate pentru a duce la noi descoperiri; Exemplu: dezvoltarea de sisteme de sateliti pentru observatii climatice; Date genetice generate prin microarrays; se dorete decodicarea s complet a genomului uman, determinarea genelor care cauzeaz a a diferite afectiuni, elegerea structurii i functionalitii genelor; nt s at DM e unealt de baz pentru bioinformatic = aplicarea statisticii i a a a s a informaticii domeniul biologiei moleculare. n
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
15 / 42
Competitii
Neix prize: 100.480.507 rating-uri date de 480.189 utilizatori pentru 17.770 lme KDDCup:
2012: User Modeling based on Microblog Data and Search Click Data 2011: Recomandare de muzic a 2010: Evaluarea performantelor studentilor 2009: Predictia relatiei cu clientii 2008: Cancer de sn a 2007: Netix prize 2006: embolism pulmonar din date tomograce 2005: clasicarea interogrilor de Internet a 2004: zica particulelor i biochimie s 2003: mineritul retelelor i analiza log-urilor s competitia merge pn 1997 a a n
Datele de intrare se pot gsi a ntr-o larg varietate de formate: iere a s text, baze de date relationale, date semistructurate (e.g. XML, HTML), imagini, lme etc.
lucian.sasu@ieee.org (UNITBV) Curs 1 March 1, 2012 17 / 42
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
18 / 42
Atentie la ce se obtine
Tehnici folosite la preprocesare: testarea ipotezelor prin metode statistice se elimin rezultatele nerealiste; a Eliminarea cunotintelor neinteresante element subiectiv, s dependent de cunotintele anterioare; s Limitarea complexitii modelelor folosite procesul de DM: If you at n torture the data long enough, it will confess (Ronald Harry Coase, economist); Principiul lui Bonferroni: if you look harder than the quantity of data supports, you will nd a pattern that ts.
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
19 / 42
Joseph Rhine: parapsiholog anii 50 care a n ncercat s dovedeasc a a faptul c unii oameni au perceptie extra-senzorial; a a experimentul lui Rhine: a cerut unor oameni s ghiceasc culorile a a a 10 cartonae ascunse se tiau cele dou posibiliti: rou i albastru; s s a at s s a descoperit c aproximativ 1/1000 din oameni au ghicit toate cele a 10 cartoane a spus oamenilor respectivi c au abiliti extrasenzoriale i i-a chemat a at s pentru alte experimente la un nou experiment, oamenii de la pasul anterior nu au mai ghicit aproape deloc culoarea cartoanelor. Concluzia:
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
20 / 42
Nu ar trebuit s le spun oamenilor c au capaciti a a a at extra-senzoriale: asta face s i le piard!! i as a Un calcul probabilistic simplu arat c raportul de aproximativ 1/1000 a a poate explicat prin evenimente aleatoare i legea numerelor mari; s Cunoaterea principiului lui Bonferroni poate s salveze de astfel de s a descoperiri.
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
21 / 42
seturile de date ajung uor la dimensiuni de giga/tera/petabytes; s France Telecom are o baz de date folosit pentru luarea deciziilor de a a 30 TB Wal-Mart are 20 de milioane de tranzactii pe zi; 16 telescoape europene produc 1 Gb pe secund; a proiectul genomului uman: 3.4 miliarde de perechi i s ntre 20000 i s 25000 gene; problem de descoperire de medicamente: 100000 de atribute; a stabilirea reputatiei URL-urilor: 3231961 de atribute Experimentul Compact Muon Solenoid la CERNs Large Hadron Collider genereaz 40 de terabytes de date pe secund. a a
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
22 / 42
variante: structuri de date specice, care s uureze interogarea a s datelor scalarea pe orizontal sau pe vertical a resurselor hardware; a a scalarea pe vertical: rareori sucient, datele nu a a ncap RAM n scalarea pe orizontal cazuri remarcabile: Apache Hadoop, Apache a Mahout proiecte opensource.
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
23 / 42
atribute eterogene: numerice, categoriale; ce faci cu datele lips? eliminarea a nregistrrilor cu goluri de date nu e a ntotdeauna o optiune; colectii de documente (e.g. pagini Web); date ADN cu structur a spatial i secvential; serii de timp as a tehnicile de DM trebuie s ia considerare relatiile dintre date a n (corelatie spatial i temporal; conectivitate de grafuri; relatie as a printecopil). a
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
24 / 42
datele pot prezente locatii multiple, nu doar n ntro organizatie; necesitate: DM distribuit sau suport de tip Data Warehouse caz de distribuire: comunicarea necesar poate s domine timpul n a a de calcul caz de data warehouse: integrarea datelor necesit timp n a ndelungat data privacy: problem delicat, diferite aspecte legislative pot a a interveni
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
25 / 42
Analiz nestandard a
Statistica: enuntarea de ipoteze i apoi testarea lor; s Problem evident: procesul este laborios a a DM are ca scop tocmai determinarea pe ct posibil automat a astfel a a de ipoteze; timp ce statistica este mare msur tributar modelelor In n a a a parametrice, datele reale pot avea cu totul alte distributii dect cele a presupuse; Dar statistica ofer unelte utile de exemplu metode de testare, a determinarea intervalelor de condent, inferenta statistic etc. a a
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
26 / 42
Originile DM
Statistic eantionare, estimare, testarea ipotezelor, modele a s parametrice; Inteligent articial tehnici de rationament probabilist i a a s management al incertitudinii aare automat (machine learning) pornind de la date se Invt a creeaz modele adecvate a Recunoatere de abloane (pattern recognition) s s Sisteme de baze de date suport pentru stocarea (eventual distribuit a ) datelor; probleme pot aprea din cauz c nu toate a a a a datele se pot reprezenta uor sub model relational; s Calcul paraleldistribuit pentru a rezolva problema scalabilitii at aplicatiilor de DM;
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
27 / 42
Sunt dou categorii majore de aplicatii: a Predictia scopul e de a prezice valoarea concret a unui atribut pe a baza altor atribute. Atributul ce urmeaz a prezis se a numete variabil dependent sau int; cele care se folosesc s a a t a pentru predictie sunt variabile independente sau explicative; Descrierea determinarea de abloane, e.g. corelatii, tendinte, grupri, s a traiectorii, anomalii
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
28 / 42
Clasicare predictie Grupare (Clustering) descriere Determinarea relatiilor de asociere descriere Descoperirea abloanelor secventiale descriere s Regresie predictie Detectarea deviatiilor predictie
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
29 / 42
Clasicarea: denitie
Se pleac de la o colectie de a nregistrri = setul de antrenare a Fiecare nregistrare e format din atribute, dintre care unul este a clasa: bun/rau, risc mare/risc moderat/risc mic; Scopul este gsirea unui model (a unui mecanism, a unei functii) care a s determine clasa pe baza atributelor; a Modelul trebuie s fac o clasicare ct mai del pentru a a a a nregistrri a care nu fac parte din setul de test = date din setul de testare;
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
30 / 42
Clasicarea: exemplu
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
31 / 42
Clasicarea: aplicatia 1
Marketing direct: scopul: reducerea costurilor de trimitere a reclamelor prin pot prin sa alegerea unui set de consumatori pentru care ansele de achizitie a s unui produs sunt mari modalitate de lucru:
se pleac de la produse similare a pentru aceste produse tim dac au fost sau nu cumprate de ctre s a a a consumatorii cauz; asta d clasa unei n a a nregistrri, ca valoare a posibil din multimea {a cumprat, nu a cumprat} a a a se colecteaz date demograce despre clienti, istoricul tranzactiilor etc. a se folosesc aceste date pentru a construi un clasicator.
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
32 / 42
Clasicarea: aplicatia 2
Prevenirea migrrii clientului: a Scop: s se determine dac un client al serviciilor oferite este pe cale a a de a pleca la un competitor modalitate de lucru:
se folosesc nregistrri detaliate despre tranzactiile fcute de client (e.g. a a telefonie: apelurile efectuate, retelele ctre care sau efectuat, durata, a frecventa); se folosesc date demograce: situatia nanciar, starea civil etc. a a se eticheteaz clientul ca ind loial sau nu a plecnd de la acest set de antrenare se creeaz un clasicator care s a a a e utilizat pentru alti clienti
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
33 / 42
Clasicarea: aplicatia 3
Clasicarea obiectelor cereti s Scop: s se prezic clasa unor obiecte cereti pe baza imaginilor luate a a s de telescoape modalitate de lucru:
se pleac de la o colectie de imagini; caz concret: 3000 imagini cu a 23040 x 23040 pixeli pe imagine se segmenteaz imaginea a se msoar anumite trsturi a a aa se construiete un clasicator plecnd de la aceste segmente de imagini s a cu clase ataate - pentru ecare segment se tie exact ce reprezint s s a poveste de succes: sau gsit 16 noi quasari, elemente greu de a descoperit i catalogat prin mijloace traditionale. s
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
34 / 42
Clasicarea: aplicatia 4
Clasicarea galaxiilor galaxii tinere, de vrst medie, vechi. n: a a Scop: clasicarea galaxiilor relativ la stadiul de formare: galaxii tinere, de nivel intermediar, stadiu nal; set de date: 20 de milioane de galaxii, 72 de milioane de stele baza de date de 150 GB atribute: trsturi extrase din imagini, caracteristicile lungimilor de aa und primite etc. a sursa: http://aps.umn.edu
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
35 / 42
Clustering: denitie
Dnduse un set de puncte, ecare avnd un set de atribute i o a a s msur de similaritate, s se gseasc grupri (clustere) cu a a a a a a proprietatea:
punctele care apartin unui aceluiai cluster sunt similare s ntre ele punctele din clustere separate sunt mai putin similare
msur de similaritate: distanta Euclidian sau alte msuri specice a a a a deosebire fat de clasicare: printre atributele considerate nu exist a a un atribut de clas a
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
36 / 42
Clustering: exemplu
Gruparea automat de documente a scop: gsirea grupurilor de documente care sunt similare pe baza a termenilor pe care contin i modalitate de lucru
se contorizeaz cuvintele a se formeaz o msur de similaritate a a a ntre documente pe baza frecventelor pe baza similaritii se formeaz grupurile at a utilitate: pentru un nou document se descoper rapid care este a clusterul cruia apartine mod natural; a i n
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
37 / 42
Dnduse un set de colectii de a nregistrri, s se produc regulile de a a a dependent care prezic aparitia unui item pe baza aparitiei altor itemi a
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
38 / 42
gsirea grupurilor de gene care au functii a nrudite identicarea paginilor Web dintrun site care sunt accesate mpreun a Market Basket Analysis: care sunt produsele care se vnd bine a mpreun; functie de aceste grupri se poate specula partea de a n a cross-selling (ieftineti un produs dar scumpeti pe un altul) sau s l s dispunerea pe raft a lor (cele care se vnd a mpreun s e dispuse a a apropiat); echiparea mainilor care particip la reparatii cu anumite unelte, s a pentru a reduce numrul de deplasri la client a a
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
39 / 42
Spre deosebire de analiza asocierilor: aparitia evenimentelor este reglat de restrictii de timp. a
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
40 / 42
Prezicerea unui atribut continuu pe baza unor atribute independente; Similar cu clasicarea, dar la regresie valorile variabilei dependente sunt numerice Intens studiat statistic i retele neurale articiale a n as Exemple:
prezicerea volumului de vnzri a a prezicerea vitezei vntului pe baza umiditii, presiunii, temperaturii a at etc. prezicerea consumului de curent ntro anumit perioad, pe o zon a a a specicat a
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
41 / 42
Detectarea anomaliilor
lucian.sasu@ieee.org (UNITBV)
Curs 1
March 1, 2012
42 / 42