Sie sind auf Seite 1von 14

FAKULTET ELEKTROTEHNIKE I RAUNARSTVA ZAGREB

KORELACIJA
seminarski rad Andrija Lonar

Predmet: Otkrivanje znanja u skupovima podataka Nastavnik: prof. dr. sc. Bojana Dalbelo Bai Smjer: Primijenjeno raunarstvo k. god. 2010 / 2011

Zagreb, oujak 2011.

Otkrivanje znanja u skupovima podataka Korelacija

Sadraj

Uvod ........................................................................................................................................... 3 Grafiki prikaz i interpretacija korelacije................................................................................... 4 Regresijska analiza i linija regresije ........................................................................................... 6 Pearsonov koeficijent korelacije ................................................................................................ 8 Rang koeficijenti korelacije ..................................................................................................... 10 Zakljuak i rezultati .................................................................................................................. 12 Literatura .................................................................................................................................. 14

Otkrivanje znanja u skupovima podataka Korelacija

Uvod

Korelacija je pojam koji opisuje mjeru povezanosti izmeu dvije ili vie varijabli. Kroz pojam korelacije se definira itav spektar statistikih odnosa izmeu varijabli ili izmjerenih vrijednosti. Korelacija je jedna od najbitnijih statistikih metoda unutar bivarijatne i multivarijatne statistike. Bilo koja situacija u kojoj varijable nisu matematiki neovisne predstavlja statistiku ovisnost te se moe govoriti o korelaciji izmeu varijabli. Pri tome se kao posebni sluaj uzima potpuna korelacija koja svaku vrijednost jedne varijable preslikava u jedinstvenu vrijednost drugih varijabli. Za grafiki prikaz i procjenu korelacije najee se koristi tokasti dijagram odnosno dijagram rasprenja (dotted diagram ili scatter dijagram) koji u osi na dijagramu pridruuje varijable ija se korelacija procjenjuje. Odmah na poetku bi bilo vano napomenuti da postojanje korelacije meu varijablama ne implicira nuno postojanje kauzalne povezanosti meu njima. Samo postojanje korelacije moe upuivati na kauzalnu povezanost ono ne govori nita o smjeru kauzalnosti ili o postojanju nekog dodatnog uzroka povezanosti izmeu varijabli. Za iskazivanje stupnja povezanosti odnosno korelacije koristi se pojam koeficijenta korelacije koji daje numeriku ocjenu povezanosti. Najee se koriste oznake ili r. Najee koriteni koeficijent korelacije je Pearsonov koeficijent korelacije koji iskazuje stupanj linearne povezanosti dvije ili vie varijabli. Osim Pearsonova koeficijenta korelacije postoje i druge metode za numeriku procjenu korelacije koje su robusnije ili pogodnije za nelinearno ovisne varijable.

Otkrivanje znanja u skupovima podataka Korelacija

Grafiki prikaz i interpretacija korelacije

Tokasti dijagram odnosno dijagram rasprenja (dotted diagram ili scatter dijagram) su standardni naini istodobnog prikaza vrijednosti vie varijabli. U najjednostavnijem sluaju radi se o dvodimenzionalnom dijagramu rasprenja koji x-os grafa koristi za prikaz jedne a y os za drugu varijablu. U sluaju prikaza vrijednosti dviju ovisnih varijabli kroz niz mjerenja toke na grafu e ocrtavati oblik i kvalitetu ovisnosti [1]. Uobiajeno je da se prilikom obavljanja mjerenja jedna varijabla postupno mijenja, dok se vrijednosti druge varijable mjere te se na taj nain formira skup toaka sa vrijednostima varijabli. Varijabla koju u navedenom postupku mijenjamo se zove neovisna varijabla, dok se ovisnom varijablom zove ona iju vrijednost mjerimo. U ovakvom postupku se osim korelacije moe utvrditi i stupanj kauzalne povezanosti meu varijablama. Ukoliko nije mogue utjecati ni na jednu od varijabli u mjerenju dijagram koji dobivamo kao rezultat veeg broja mjerenja i dalje prikazuje korelaciju no ne nudi podatak o postojanju i stupnju mogue kauzalne povezanosti[1]. Za prikaz stupnja povezanosti izmeu tri ili vie varijabli dvodimenzionalni prostor nije dovoljan te se dodatne dimenzije prikazuju ili kroz simuliranu treu dimenziju ili kroz neko od kvalitativnih svojstava npr. boja, intenzitet ili veliina toaka na grafu[2]. Dijagrami rasprenja daju vrlo dobru sliku ovisnosti te mogu pomoi analitiarima pri utvrivanju oblika i stupnja koreliranosti varijabli. Dijagrami rasprenja su takoer vrlo korisni kada numerika analiza podataka teko moe dati dobru sliku o stupnju koreliranosti varijabli primjerice za podatke koji su nelinearno korelirani. Takvi podatci mogu imati nizak koeficijent korelacije ukoliko se navedeni odreuje metodama prilagoenim npr. linearno koreliranim skupovima podataka poput Parsonove metode. Promatranjem dijagrama rasprenja moemo vrlo lako utvrditi i korelacijske odnose izmeu varijabli. Naime, ukoliko dijagram rasprenja pokazuje toke grupirane u oblik koji kree iz donjeg lijevog kuta grafa te ide ka gornjem desnom moemo govoriti o pozitivnoj korelaciji. Ukoliko pak toke kreu iz gornjeg lijevog te zavravaju u donjem desnom dijelu dijagrama radi se o negativnoj korelaciji[1].

Otkrivanje znanja u skupovima podataka Korelacija

Dijagrami rasprenja se mogu obogatiti sa dodatnim podacima poput linije regresije ili pominog prosjeka koji mogu dobro ilustrirati meuovisnost i pomoi analitiarima u predvianju moguih vrijednosti za neizmjerene podatke.

sl 1. Dijagram rasprenja za podatke o visinama oeva i sinova sa ucrtanim pravcem regresije. Vidljiva je slaba ovisnost izmeu dviju varijabli. Izvor podataka za dijagram [5].

Otkrivanje znanja u skupovima podataka Korelacija

Regresijska analiza i linija regresije

Linearna regresija je statistiki pristup opisivanju odnosa izmeu dvije ili vie povezanih varijabli. Pri tom se uzima da je jedna od varijabli neovisna odnosno da je promatra po volji moe mijenjati, dok su druge varijable ovisne te se njihova vrijednost mjeri. Podaci o meuovisnosti se predstavljaju putem linearnih funkcija, te se takve funkcije koriste kao sredstvo za procjenu kvalitete meuodnosa te za predvianje moguih vrijednosti varijabli. Poput svih regresijskih metoda, linearna regresija pokuava opisati ovisnu varijablu kao funkciju neovisne varijable ime se implicira postojanje kauzalnosti.[3] Iako postoji vei broj metoda linearne regresije, najee koritena metoda je metoda najmanjih kvadrata (least squares). Metoda najmanjih kvadrata je konceptualno jednostavna metoda koja omoguuje izravnu algoritamsku implementaciju. Ova metoda odreuje pravac koji prolazi kroz skup toaka (x,y) takav da je suma kvadrata odstupanja toaka na pravcu i vrijednosti na y osi minimalna. Pravac prolazi kroz centar mase ( , ). Za set od n mjerenja vrijednosti x i y varijable traimo pravac sa jednadbom:

y = + x,
takav da je suma kvadrata udaljenosti od izmjerenih vrijednosti Q najmanja:

Q( , ) = ( yi xi ) 2
i =1

Rezultat ovog uvjeta su izrazi:


n 1 n xi y j ( xi x )( yi y ) i =1 n i =1 j =1 xy xy = i =1 = n = 2 n n 2 1 ( xi x )2 ( xi2 ) n ( xi )2 x x i =1 i =1 i =1 n

xi yi

= y x,
Navedeni izrazi daju koeficijente za jednadbu pravca regresije. Pravac regresije se moe koristiti za predvianje vrijednosti ovisne varijable samo ako je kao model adekvatan odnosno ako je zavisnost varijabli linearna funkcija. Naime, ak i kod varijabli koje su nelinearno

Otkrivanje znanja u skupovima podataka Korelacija

zavisne moe se konstruirati pravac regresije, no on tada ne daje tona predvianja. Takoer, predvianja vrijednosti ovisne varijable izvan podruja u kom su mjerenja obavljena ne nudi pouzdane rezultate poto ovisnost ne mora biti linearna u cijelom podruju[3]. Nagib regresijskog pravca nam moe dati odreeni uvid u odnos izmeu varijabli x i y: Ukoliko je vrijednost koeficijenta vea od 0 radi se o pozitivno koreliranim varijablama, odnosno, sa porastom jedne varijable raste i vrijednost druge varijable. Koeficijent manji od 0 ukazuje na negativnu vezu, odnosno, kada jedna varijabla raste druga e padati i obratno. Vrijednost koeficijenta priblino jednaka 0 ukazuje na to da izmeu varijabli nema povezanosti odnosno da su varijable neovisne, da je srednja vrijednost jedne od varijabli konstantna ili pak da se radi o nekoj nelinearnoj ovisnosti meu varijablama (neki oblici nelinearnih ovisnosti imaju vrijednost =0) [3].

sl 2. Dijagram rasprenja za podatke o odnosu BDP-a i nezaposlenosti u SAD. Vidljiva je relativno snana negativna veza linearna izmeu dviju varijabli to ukazuje na smanjenje nezaposlenosti kod poveanja BDP-a. Pravac regresije ima negativan faktor nagiba . Izvor podataka za dijagram [6].

Otkrivanje znanja u skupovima podataka Korelacija

Pearsonov koeficijent korelacije

Pearsonov produkt-moment koeficijent korelacije ili jednostavnije Pearsonov koeficijent korelacije je nedimenzionalna mjera korelacije kojom se izraava linearna povezanost izmeu dviju varijabli. Naziv je dobio po Karlu Pearsonu koji ga je razvio sljedei slinu ideju Francisa Galtona iz 1880-ih. Pearsonov koeficijent korelacije moe poprimiti vrijednost rasponu od -1 do +1. Pri tom -1 ukazuje na potpuno negativno korelirane varijable, +1 na potpuno pozitivno korelirane varijable, dok bi vrijednost koeficijenta od 0 ukazivala na nepostojanje koreliranosti izmeu varijabli [1]. Pearsonov koeficijent korelacije (obino oznaen s ili r) dobivamo kao kvocijent

kovarijancije dviju varijabli i umnoka njihove standardne devijacije.

rX ,Y = corr( X , Y ) =

cov( X , Y )

XY

iz ega dobivamo da je:

rxy =

( x x )( y y )
i =1 i i

(n 1) sx s y

( x x )( y y )
i =1 i i

(x x ) ( y y)
2 i =1 i i =1 i

,
2

gdje su sx i sy standardne devijacije za x i y, dok su i uzorku. Daljnjim razvojem dolazimo do izraza:

srednje vrijednosti varijabli x i y u

rxy =

x y nxy =
i i

n xi yi xi yi n xi2 ( xi ) 2 n yi2 ( yi ) 2

(n 1) sx s y

Navedenim izrazom se koristimo za izraunavanje koeficijenta korelacije [1]. Iz samog izraza je vidljivo da su vrijednosti koje moe poprimiti unutar raspona -1, 1 odnosno da je 1 1.

Otkrivanje znanja u skupovima podataka Korelacija

Kada izraunamo koeficijent korelacije za neki set podataka potrebno je interpretirati znaenje dobivenog rezultata. U prvom redu emo pokuati ustanoviti da li je u pitanju linearna ovisnost. Iskustveno, o linearnoj ovisnosti moe govoriti tek onda kada je apsolutna vrijednost koeficijenta korelacije vea od 0.3 [1]. No u praksi je za uspostavljanje stava o vrsti i tipu povezanosti meu varijablama potrebno dobiti znaajno veu vrijednost koeficijenta korelacije. Kljuna odlika Pearsonovog koeficijenta korelacije je da ostaje konstantan pri linearnim promjenama podataka o varijablama. Drugim rijeima, ukoliko transformiramo skup vrijednosti varijabli , te transformiramo skup vrijednosti varijabli funkcijom funkcijom

pri emu su , , konstantne vrijednosti koeficijent korelacije e ostati nepromijenjen.

sl 3. Dijagrami rasprenja za tzv. Anscombeov kvartet. Svi primjeri imaju koeficijent korelacije r=0.816, te slue za prikaz utjecaja nelinearnosti i nepodobnih podataka na korelaciju. Izvor podataka za dijagram [6]. 9

Otkrivanje znanja u skupovima podataka Korelacija

Rang koeficijenti korelacije


Za podatke koji su podloni znaajnim pogrekama u mjerenju, za nelinearno korelirane podatke, te za podatke koji openito trae robusniji model procjene korelacije esto se koriste rang koeficijenti korelacije. Najee koriten model je Spearmanov rang koeficijent korelacije nazvan prema Charlesu Spearmanu koji se obino oznaava sa ili rs. Pomou Spearmanovog rang koeficijenta korelacije moemo procijeniti koliko se dobro veza izmeu dvije varijable moe opisati pomou monotone funkcije. Savrena rang korelacija s koeficijentom apsolutne vrijednosti 1 se dobiva kada je jedna varijabla savreno monotona funkcija druge varijable[3]. Spearmanova korelacija se moe promatrati i kao Pearsonova korelacija za niz vrijednosti varijabli svrstan u rangove prema izmjerenoj veliini. U praksi je izraun Spearmanovog koeficijenta neto jednostavniji zbog matematikih svojstava izraza koji to omoguuju. Spearmanov koeficijent je neparametarski, dakle ne zahtjeva normalnu distribuciju u mjerenim varijablama. Procedura izrauna Spearmanova koeficijenta poinje sa rangiranjem izmjerenih vrijednosti varijabli. Najveoj izmjerenoj vrijednosti pridjeljujemo rang 1, sljedeoj po veliini 2 i tako dalje. Najmanja izmjerena vrijednost dobiva rang N pri emu je N broj izmjerenih vrijednosti. U sluaju da je izmjerena vrijednost za dvije toke jednaka, obje dobivaju jednak rang. Ova procedura se obavlja za obje varijable. Sada kreemo s izraunom Pearsonovog koeficijenta korelacije s tim da umjesto izmjerenih vrijednosti koristimo pridijeljene rangove za obje varijable.
n

(r
i =1 n

xi

rx )(ryi ry )
n

(r
i =1

xi

rx ) 2 (ryi ry ) 2
i =1

U navedenom izrazu su rx i ry rang vrijednosti za varijable x i y , s obzirom da rangovi idu od 1 do N funkciju moemo transformirati sa:

rx = ry =
n

N +1 , 2
n i =1

(rxi rx )2 = (ryi ry )2 =
i =1

N ( N 2 1) , 12
10

Otkrivanje znanja u skupovima podataka Korelacija

u izraz koji ima svoj konani oblik:


n

= 1

6 di2 N ( N 1)
i =1 2

gdje je d razlika u rangovima izmeu varijable x i varijable y za i-tu od N toaka [3]. Osim Spearmanovog esto se koristi i Kendallov tau rang koeficijent korelacije. Nazvan prema M. Kendallu ovaj koeficijent usporeuje rangove parova toaka. Kao i Spearmanov, i Kendalov koeficijent korelacije je neparametarski. Procedura poinje rangiranjem pridjeljivanjem ranga rx i ry za varijable x i y , analogno postupku kod Spearmanovog koeficijenta korelacije. Izraz kojim raunamo vrijednost faktora je: ( ( 1) )

pri emu se za suglasne parove smatraju svi parovi toaka za koje vrijedi da su xi > xj i yi > yj ili xi < xj i yi < yj . Svi drugi se smatraju nesuglasnim [4]. Iako je osnovni algoritam za izraunavanje Kendalovog tau koeficijenta korelacije relativno jednostavan njegova je upotreba limitirana zbog apriorne sloenosti algoritma od O(N2) koja njegovo izraunavanje ini sporim za velike setove podataka. Zbog toga se obino koristi modificirani algoritam temeljen na merge-sortu koji daje apriornu sloenost od O(Nlog2N) [4]. Prednost Kendalovog koeficijenta je relativno jednostavna interpretacija: veliki broj suglasnih parova ukazuje na pozitivnu, a veliki broj nesuglasnih na negativnu korelranost.

11

Otkrivanje znanja u skupovima podataka Korelacija

Zakljuak i rezultati

Rezultati korelacijske i regresijske analize mogu dati jasnu predodbu o tome da postoji ili ne postoji veza izmeu mjerenih varijabli. No postojanje veze, odnosno znaajna koreliranost izmeu varijabli nije dovoljna za donoenje zakljuka o uzrono posljedinoj vezi. Naime smjer povezanosti nerijetko nije jasan, a ponekad postoje i dodatne varijable (eng. underlaying cause) koje utjeu na promatrane ime ih se dovodi u korelaciju. Svrha i uporaba korelacije time treba biti ograniena na detektiranje i procjenu magnitude povezanosti dviju varijabli a ne na utvrivanje uzrono-posljedine povezanosti. Pogodnost uporabe odreenog koeficijenta korelacije ovisi o prirodi mjerenih varijabli, te se u sluaju da je pretpostavljena linearna ovisnost uz normalnu razdiobu najbolje posluiti Pearsonovim koeficijentom. S druge strane, u sluaju da se radi o varijablama koje imaju oblik ovisnosti drugaiji od linearnog, kada rezultati ne prate normalnu razdiobu ili kada dodatna, skrivena, varijabla grupira rezultate, koritenje neparametarskih koeficijenata poput Spearmanovog ili Kendalovog koeficijenta moe dati bolje rezultate pri ustanovljavanju postojanja i stupnja ovisnosti izmeu varijablii. U analizi korelacije i korelacijske povezanosti varijabli grafiki prikaz putem dijagrama rasprenja esto daje najbolju informaciju o postojanju i obliku povezanosti, a linija regresije pomae pri predvianju vrijednosti ovisnih varijabli. S druge strane razni koeficijenti korelacije mogu pomoi prilikom formiranja stava o intenzitetu povezanosti izmeu varijabli. Zbog toga sam unutar ovog seminarskog rada napravio jednu jednostavnu implementaciju grafikog prikaza scatter dijagrama. Radi se o web baziranoj aplikaciji napravljenoj na Flash platformi. Intencija je bila napraviti jednostavno i intuitivno suelje koje moe posluiti u svrhu demonstracije znaajki korelacije.

12

Otkrivanje znanja u skupovima podataka Korelacija

sl 4. Aplikacija za izraun korelacijskih koeficijenata i prikaz i ureivanje dijagrama rasprenja. Izvor podataka za dijagram [7].

Kroz aplikaciju je mogue formirati korisniki definiran set toaka ili uitati neki od preddefiniranih. Aplikacija automatski rauna koeficijente korelacije za zadani skup toaka te iscrtava liniju regresije. Sa strane razine sloenosti implementacije algoritama za procjenu regresije i korelacijskih koeficijenata moemo rei da se radi o relativno jednostavnim procedurama. No u sluaju velikih setova toaka bilo je primjetno usporenje u radu aplikacije, te je trebalo u vie navrata optimizirati kod i traiti algoritamska rjeenja s manjom sloenou. Kompajlirano programsko rjeenje i izvorni kod su priloeni uz ovaj seminarski rad te se mogu pronai i na web lokaciji: http://www2.fsr.ba/priv/aloncar/korelacija/

13

Otkrivanje znanja u skupovima podataka Korelacija

Literatura
[1] Kandethody M. Ramachandran, Chris P. Tsokos. (2009) Mathematical statistics with

applications / ISBN 978-0-12-374848-5 [2] Jessica Utts (2004 3rd Edition) Seeing Through Statistics /

ISBN 978-0534394028 [3] Shirley Dowdy, Stanley Weardon, Daniel Chilko. (2004 3rd Edition) Statistics for

research / ISBN 0-471-26735-X [4] Michiel Hazewinkel (2002) Encyclopaedia of Mathematics / ISBN 1402006098

Izvori podataka za dijagrame: [5] www.sci.usq.edu.au [6] en.wikipedia.org/wiki/ [7] www.berkeley.edu/

14

Das könnte Ihnen auch gefallen