Beruflich Dokumente
Kultur Dokumente
sc, MAGDA PERI~IN dr, sc. ANTE PUUIC Graficko-likovna urednica MAlA MASLOV AR
Crteie izrodio
IVICA RENDULIC
Likavni suradnik
UVOD U STATISTIKU
XII. izdanje
Korektorica NADAANIC
,
© SKOLSKA KNIIGA, d.d., Zagreb, 1997. Nijedan dio ove knjige ne smije se umnozavati, fotokopirati ni na bilo koji naein reproducirali bez nakladnikova pismenog dopuStenja.
Objavljivanje ovog sveu~i1i~nog udzbenika odobrio je Odbor za znanstveno-nastavnu Sveu~i1ista u Zagrebu rje~enjem broj 02-37612-1992. od 27. svibnja 1992. literaturu
CIP dostupan
Zagreb, 421031030
ISBN 953-0-30315-7
SADRZAJ
PREDGOVOR UVOD 1.1. Pojam i zadaca statistike 1.2. Slatislifki skup, osnovni skup i uzorak 1.3. Vrsleobiljefja(varijabli) i njihova svcjstva 104. lzvori podalaka 1.5. Mjesto i uloga racunala U statistlci I. diD STA TISTICK[ NIZ I NJEGOVA ANALIZA 1.1. Fcrmiranje slalislitkog niza I.!.!. Nominalni i redoslijedni niz: fonnirdnjc.lubelamo i graficku pnkazivanje 1.1.2. Numeritki nizovi 1.2. Srednje vrijcdnosli 1.2.1. Arilmelitka sredlna 1.2.2. Geomelrijska sredina 1.2.3. Harmonijska sredina 1.2.4. Mod 1.2.5. Medijan 1.2.6. Kvantili ~ 1.3. Mjere disperzije 1.3.1. Raspon varijacije 1.3.2. lnterkvartil i koeficijent kvartllne devijacije 1.3.3. Varijanca, standardna devijacija i koeficijenl varijacije 1.304. Standardizirana varijabla. Pravilo {:ebi~eva 1.4. Mjerenje koncentraclje: Lorenzova krivulja, Ginijev koeflcijent koncentracjje 1.5. Mjere asimetrije 1.6. Mjera zaobljenosti II. dio REGRESUA I KORELACIJA 2.1. Uvod 2.2. Model jednostavnc regresije 2.2.1. Jednosravna llnearna regresija 2.2.2. Regresijske vrijednosti, rezidualna odstupanja i analiza varijance za model jednostavne linearne regresije 2.2.3. Analiza modelajednostavne linearne regresije na osnovi grupiranih podataka 2.204. Trnnsformacija nekih nellnearnih dvodimenzionalnih regresijskih modela u model jednostavne linearne regresije 2.3. Visestruka regresija 2.3. 1. Model visesiruke linearne regresije 2.3.2. Regrcsljskc vrijednosti, rezidualna odstupanja i analiza varijance za model multiple linearne regresije 2.3.3. Analiza odabranih nelinearnih regresijskih modela metodama analize modcla visestruke lineame regresije 2.4. Regresijska djjagnostika (pojam) 2.5. Korelacijska analiza 2.5. I. Koeficijent jednostavne Iinearne korelacije 2.5.2. Koeflcijent multiple lincarne korelacije. Koeficijenti parcijalnc korelacijc, korelacijska mat rica 2.5.3. Krivolinijska korelacija 2.6. Koefic~~ent.korel~cij~. ranga Spearmana i Kendallov koeficijent IV 2.7. Kocficijenti asOC1J3C1JC III. dio STATISTICKA ANALIZA VREMENSKIH NIZOVA 3.1. Uvod 3.1.1. Analiza vremcnskih nizova: zadaci i pristupi 3.2. Graficko priknzivanjc i usporedivanje vremenskih nizova 3.3. Brojcana analiza vrernenskih nizova 3.3.1. Osnovni numericki pokazatelji dinumikc 3.3.2. Individualni indeksi 3.3.3. Skupni indcksi 9 to 12 14 16 19 19 20 26 37 38
44
45 47 49 54 57 57 58
61
65 68 70
76
128 133 137 137 139 1~3 1~9 1~9 15* 160
"
.;;~;~~·j~;;~~~·;~·~~;;~ 173
.. .
193
..
111 [72
3 4 4 ~kspol' nenCIJalno~Ilg~3Chvanj3 . .. na l~. se~onskdl pojava, Metoda odnosa prema pomocnim prosjecima. 3.5. Pojam~:~:;~~cij::e~u=IlS.!~·pojave g ~e 3.. 0 dabrane progncsticke metode 6 3.6.1. Naivni (status quo) modeii 3.6.2. 3.6.3. 3.6.4. 3.6.5.
IV.dio
· · · · ·..· · · 211 Modeli izgladivanja; pomi~~i..p~~j~~i· ·;;;~d~i;·~b·p~~·~·~~jj~i~~~· i ;~~i~di~;;;;j~ ~~~ Prognoza.ekstrnpolacijom ~re~da.Prognoza pomocu regresijskog modela :::::::::::::::::::: 24 2 Bo~-Jen~lns?n?v prognosl~tkisu~!av:opca obilje~ja 221 lndikatori (clkhemh) promjena pnvrednih aktivnosti . ............................................................ 228
200 . 2[2
PREDGOVOR
Ovaj udzbenik sadrzi odabrane statisticke metode i namijenjen je ponajprije studentima ekonomskih fakulteta, a zatim i sirern krugu korisnika. Pri njegovu sastavljanju zeljeli smo na pristupacan nacin predociti gradivo predvideno nastavnim programom uvodnoga statistickog ko!egija, razrnisljajuci pritom 0 rnogucim potrebama korisnika statistiekih metoda. Statisticke se metode mogu izlagati na razlicitim razinama. Razina izJaganja u udzbeniku satistike ovisi 0 cilju, narnjeni i zahtjevima njegovih korisnika. Buduci daje cilj ovog udzbenika uvesti studente i ostale korisnike u, za najvec] broj njih, potpuno novo pcdrucje, to je razina izlaganja uskladena s tim ciljem. Spomenute metode dijelorn su deskriptivno-statisticke, Deskriptivna statistika pruia osnovu za razumijevanje mnogih analiziranih pojava. U ekonomskim i drugim primjenama. zbog razlicitih razloga, one su ponekad prikladne ilijedino moguee analiticke metode. Vazno su sredstvo u prethodnoj analizi i istrazivackoj analizi podataka, Nacin predocavanjaje u nekim dijelovima udZbenika takav da ornogucava relativno lak prije1az na neke postupke u sklopu analiticke (inferencijalne) statistike. Dio udzbenika pojednostav!jen je uvod u inferencijalnu statstiku. To je dio 0 metodi uzoraka iz konaene populacije i na regresijski mode! populacije. Udzbenik ima: uvod, tetiri dijela, jedan dodatak, predmetno kazalo, a na kraju je navedena literatura. U uvodnom se dijelu definira statistika, navodi njezin predmet i zadaca te karakteristike kao znanstvene metode. Opisuju se vrste obiljezja i njihova svojstva te izvori podataka. ObjaSnjeno je mjesto i uloga raeunala u statisticl. . Prvi dio udzbenika odnosi se na formiranje i analizu statistickog niza. Predotavaju se nizovi na osnovi kvalitativnog i kvantitativnog obiljezja. Izlazu se graficke i osnovne brojcane metode analize norninalnih, redoslijednih i nurneriekih nizova, Brojcana analiza obuhvaca, medu ostalim, utvrdivanje srednjih vrijednosti, mjera disperzije i ostalih statisticko-analitickih velicina, Predocena je i jedna mjera koncentracije. U drugom dijelu izlazu se rnetcde analize modela jednostavne regresije, posebno jednostavne linearne regresije. Upozorava se na transfonnacije odabranih nelineamih modela u model jednostavne linearne regresije. Dan je i opci linearni regresijski model sa K varijablorn, te model regresijskog polinoma. Uvodi se i pojam regresijske dijagnostike, Korelacijska analiza obuhvaca koeficijente jednosravne linearne korelacije (korelacijska matrical, koeficijent multiple Jinearne korelacije i koeficijente parcijalne korelacije. Uvrsten je i koeficijent korelacije ranga Spearmana i Kendallov W, te odabrani koeficijent asocijacije, Treci je dio posvecen srarisrickoj analizi vrernenskog niza. Graficki su prikazani i usporedivani vrernenski nizovi. Brojeana analiza odnosi se na relativne brojeve (pokazate7
4.2. Osnovni skup I uzorak 4.3. Proejena karakteristlka '~~~~~~~"';k~"~""';;;;;;;~'~"'''''''''''''''''''''''''''''''''''''''''''''''''' 4.3.1. Procjena aritmetieke srmi~e os~o:o k zorka 4.3.2. Procjena totala osnovno sku g s upa
4.3.5. Proc~enem~ereasime.trije;no':Og~k~~~'~~"~:""""'"'''''''''''''''''''''''''''''''''''''''''''''''''''''''''' 4.3.6. Proc~enamJere zaoblJenosl1osnovnog skupa 0: _ .. 4.3. 7. Proc~en3standar~~e devij.acijeosnovnog sku~ 4.3.8. Procjena proporcue (relativne frekvencije) osnovnog sku a 4.3.9. Procjena koeficijenta korelaci"e osnovno sku' p 43 10 Prociena parametra ad I I~ g .. pa · · •.. , _a ua mea mearne regreslJe ·..· 4.3.11. Procjena vrijednosti zavisne varijable u osnov·~·~;;. .. u · · ·..· 4.4. Testiranje hipoteza P
=:::=~=:::===.=-~~~
-
;~~
~k~ ..
4.4. I. Tesli~je
~i~!~~·~);;~~~·
..i~·k~·~;;;di~~·~~~;;~~~~·;k~p~j~·d·~·~~·~~k~j· ·
· mrailanJ~nekde pre.tpost~vl~ene rijednosti v ... . ~. 0 ICIrzme u aritmeticklh sredina dvaju osnovnih sku v 4.4.4. Testl~Je h!»Oleze0 jednakosri ariunelitkih sredina vBe csnovnl h skupova po a
44 3 ~;;~::;!e~inpo~~1
4.4.2. ~~~~~~o~:t~~.:li~:;;;;;·;;;~~ici;;;;;di~~·~~~~·~·~~~·;k~~~j~d~;k~·;i·i·~~~~:
??
..
30 I 306
pret~st~vlJ~noJ proporeiji 4.4.6. Te~tl~.mJe hipoteze 0 jednakostl proporcija dvaju osnovnih skupo;~·P;;;;;;;;;~ ..·
velikih uzoraka .....
:.:.~. ieS,!ran~e h!poteze ·d~·;~·~~;;~~ij·~·;·rij~·iii ..~·i3~·~~~~·~~·i·h·~k~~~~·;;;~d~~~b~~·j~d~~k~·::::: . .. e~l~ran~e ~potezeda dlslnbucl~a. s?ovnog skupa ima odredeni oblik h o 3~6 4.4.9. Testl':<IIIJ~ll?Dteze s~ dva obllJefJa elemenara osnovnog skupa medusobno neovisna h da 3;7 4.4.10. Test~r<lll~e h~polezeda~ekoel1c!~entkorelacije osnovnog skupajednak nuli ::::: 3jO 4.4.1 ~. Tesl~ran~e h~potezeda~e koeficijenrdelenninacije osnovnog skupa jednak nuli 331 4.4.1_. Testiranje hipoteze daje Speannanov koelicijem korelacile ran a led ak r 4.4. J 3. !esliranje hi~leze daje koeficijent korelacije jednog os';ovno: sLp: nu I 332 Jcdna~ koeficijentu k~rela~ijedrugog osnovnog skupa 333 4.4. [~. Test h~poleze0 znataJnosll p'~r~metra(varijable) u regresijskom modelu " 334 4.4.1). Test hipoteze 0 autokorelaci]lgresaka (Durbin.WatsonO\·lest) 337 45. Plan uzorka (sample design). .. .
~ij
~~:~~z~~~;·:;::}~."t:;:~f':~)!:::::::::::;::!:!I::::::II ill
6
.::
Iji dinamike, stope, indeksi). Posebno su obradeni skupni indeksi cijena, koIiCina i vrijednosti, te postupak defJacioniranja i revalorizacije. Predocenaje i standardna dekompozicija vremenske serije, te model pojave bez sistematskih komponenti i odabrani modeli trenda, Obradene su i odabrane metode izgladivanja, Dana su dva modela analize sezonskih po. java. ObjaSnjen je i pojam autoregresije i autokorelacije. Prezentirane su i odabrane prognosticke metode, kao i opca obiljezja Box-lenkinsonova prognostickog sustava, U celvrtom dijelu najprije se veoma saieto definiraju osnovni pojmovi iz vjerojatnosti, Ie pojam slucajne velicine i rasporeda vieroiamosn, Od mnogobrojnih teorijskih distribucija opisuje se manji broj najvainijih. Slijedi prijelaz na metodu uzoraka. Ona se najvecim dijelom obrazlaze na modelu jednostavnoga slucajnog uzorka iz konacnog skupa. Od postupaka procjene navedenaje procjenajednim brojem i intervalorn aritmeticke sredine, totala, proporcije. varijance i drugih pararnetara, Predoceni su postupci testiranja hi. poreza (jednosmjerni i dvosmjerni) 0 pretposlavljenoj sredini, proporciji, razlici sredina, razlici proporcija, testovi 0 pararnetrirna u regresijskom modelu populacije i dr. Naposljetkuje i sazeto opisan plan uzorka, stratificiranog uzorka i uzorka skupine, Dodatak sadrzi rablice odabranih distribucija vjerojatnosti i izvadak lz tablice slucajnih brojeva. Pri opisivanju pojedinih metoda navode se primjeri. Oni su detaljno obradeni, sto se moze ciniti suvisnirn, csobito ako se ima na urnu dostupnost sredstava za racunan]e i rnogucnost uporabe programa za racunalo. IskuS1VO pokazalo da se odabranim primjeje rima i opisom postupka olaksava razumijevanje prlmijenjene metode i ispravna interpretacija rezultata, Time se dakako stvara i os nova za lakse pracenje rezultata obrade pornocu odabranog programa za racunalo, Uz udzbenik je izraden paket za statisticku analizu Statlvlasrer. Taj paket sadrzt rnnostvo programa kojima se provode predoceni (i mnogi drugi) postupci u sklopu statisticke analize, Udzbenikuje prilozena disketa s odabranim programima StatMastera. Upute za pohranjivanje programa na cvrsti disk naznacene su na disketi. Sazeti opis nacina rada s paketom nalazi se u datoteci uputesm.doc. Autori pakerajesu: dr, I. Sollie i dipl, ing, MIa. den Grbie. Uvod i prva tri dilela napisao je dr. r. Sollie. Autor cervrtog dijelaje dr. V. Serdar, U cetvnom dijelu je dr. I. Sosic autor poglavlja 0 testovima i procjenama, koji se odnose na regresijski model. Auton su zahvalni recenzentima na sugestijama. Posebno zahvaljuju doc. dr. Vlasti Bahovec za pomno titanje rukopisa i znacajnu pornoc u priprerni udzbenika za tisak. Nadaju se da ce ovaj udzbenik ornoguciti studentirna uspjesno sviadavanje ispitnog programa iz sratistike, a drugim korisnicima upoznavanje osnovnih statistickih metoda, postupaka i stjecanje sigurnosti u njihovoj primjeni i turnacenju rezultata. U Zagrebu, 1997. Autori
Uvod
:... - :::·'t...-;. r
.,". ~ ~
rna. Statisticki
rnodeli
primjenjuju
se na razini
osnovnih
ekonomskih
jedinica
(poduzeca), iii na makroekonomskoj razini (ekonometrijski modeli). Statisticke met~~e.i modeli pri.~~tni suo u e~~irijskim istrazivanjima u sociologiji, biologiji, medlc.lnl, d~m?g~afiJI .. ~ruglm ~lselphnama. Statisticki pristup znacajan je u fiziei
u ?kvl~ k~Je J~ I sta!lstlck~ .fizl~~ odnosno statisticka mehanika. Mnogi procesi u prirodi su visedimenzionalni I obiljezeni prisutnoscu varijaeija, pa im je primjereno statisticko modeliranje. Statistika je prisutna u podrucju meteorologije (statisticke progno~e) ~astrono~ij~ (st~larna a~.tronomija). Teorija informacija i komunikacija I opcenito inforrnatika jednirn se dijelorn oslanjaju na statisticku teoriju i modele. Kontrola i regulacija proizvodnih procesa ukljucuje statisticko pracenje varijabli procesa. Statisticka kontrola kvaliteta proizvoda provodi se pornocu planova kontrole, a osnova su im distribucije vjerojatnosti. Izlazne velieine dijagnostickih elektroniekih uredaja u medicinskim ispitivanjima cesto su statisticke velicine (prosjeci, mjere disperzije, intervali procjene, dijagrami). Statistika kao znanstvenoanaliticka metoda istrazivanja pojava i procesa dijeli se na deskriptivnu i inferencijalnu (analiticku, induktivnu, matematicku) statistiku. Desk~ip~ivna stat~tika. ob.u~vaca post.u~~e grupiranja (sazimanja, uredenja) vec~g.br?]a ~nformaclJa 0 ].ed~mcama statistickih skupova (podskupova) u obliku statistickih rnzova. U deskriptivnu statistiku ubrajaju se i postupci graflcke analize nizova, analize pomocu relativnih brojeva i speciflcnih mjera, kao sro su npr. srednje vrijednosti, mjere disperzije i dr. Sudovi koji se donose u okvirima deskriptivne statistike odnose se iskljucivo na dani empirijski materijal, Inferencijalna (analiticka, rnatematicka) statistika odnosi se na postupke kojima se pomocu dijela informacija (uzorka) donose sudovi 0 karakteristikama cjeline (populacije). Inferencijalna statistika je prema tome induktivna metoda. Ona se temelji na teoriji vjerojatnosti.
bez pornocnih prostorija i ima jedan iii vise posebnih ulaza. Statisticki skup turista obuhvaca osobe koje radi odmora iii rekreacije, zdravlja, studija, sporta, obiteljskih i religioznih razloga, poslova, javnih misija i skupova prenoce bar jednu nod izvan mjesta svog prebivalista u ugostiteljskom iii nekom drugom objektu za srnjestaj, Statisticki skup studenata cine osobe koje su upisane na visokoskolske ustanove i koje imaju sva studentska prava. Uoblcajeno su za velik broj skupova pojmovne definicije dane zakonom. . . Prostornom definicijom statistickog skupa oznacava se prostor kojern pnpadaju sve jedinice statistickog skupa. Na prirnjer, industrijska poduzeca u Republici Hrvatskoj, turisti u istarskoj regiji i slicno, Vremenskom definicijom statistickog skupa odreduje se vrijeme za koje su vezane sve jedinice. Statisticki se skup moze definirati u jednom vrernenskom trenutku ili vremenskom intervalu. Statisticki skup stanovnistva definira se vremenski u trenutku npr. 31. 3. 1991. Trenutacno se definira stanje ~tednih uloga, kredita, zaliha, osnovnih sredstava, broja poduzeca. Za takve skupove nema srnisla promatrati jedinice u vrernenskom intervalu. Intervalnorn definicijom omeduje se interval u kome su obuhvacene jedinice statistiekog skupa. Proizvodnja automobila vremenski se npr. definira 1992. godinom. Svi automobili proizvedeni te go dine cine statisticki skup. Intervalno su definirani npr. prodaja poduzeca u 1992. godini, broj bankovnih transakcija u trecern kvartalu 1990. godine i tome slicno, Pojmovna, prostorna i vremenska definicija osiguravaju da se u statistickom skupu nadu jedinice koje mu doista pripadaju. Statisticki skup eiji elementi zadovoljavaju spomenute definicije je homogen. Sarno takvi skupovi mogu biti predmetom statlsticke analize. Ponekad se pojmovna iIi/i prostorna definicija statistickog skupa suzavaju. Najcesce se zbog nemogucnosti obuhvata elemenata skupa suzenorn pojmovnorn definicijom iskljucuje dio njih. Cine li skup npr. nezaposlene osobe, zbog golemih troskova i teskoca identifikacije, pod nezaposlenim osobama smatrat ce se osobe registrirane u zavodima za zaposljavanje, Ispituje li se ponasanje potrosaca pretezno koncentriranih u vecim naseljima, prostornom se definicijom skupa mcgu iskljuciti rijetko naseljena iIi tesko dostupna podrucja. Ispituju li se pojave eksperimentalnim putem, nuzno je definirati eksperimentalne uvjete, eksperimentalni dizajn, eksperimentalnu jedinicu te eksperimentalne faktore i tretmane. Za razliku od statistickih skupova s jedinicama cija su svojstva dana i na koja se ne moze utjecati, skupom se mogu smatrati vrijednosti rezultata nastalih na osnovi kontroliranih i od istrazivaca utvrdenih tretmana pojedinih taktora nad eksperimentalnim jedinicama. Statisticki skupovi daju se generirati pravilorn, odnosno simulacijskim modelom. Za statisticku analizu takvih skupova neophodno je poznavati konkretno pravilo, odnosno svojstva simulacijskog modela. Predmet istrazivanja pornocu statistickih metoda nisu jedinice statistickih
prOSlorno i vremenski.
. Pojmovnom definicijom skupa utvrduje se pripadnost skupu s obzirorn na pOJa~ jedinice. Ako statisticki skup predstavijaju stanovi, pojrnovna se definicija sastoJI.od uvjeta koji moraju biti ispunjeni da bi se neki objekt smatrao stanom. U ~OPI5U 5!.~no~niStva i stanova, stanom se srnatra svaka gradevinski povezana CJehn~ ~amlJenJen.~ za stano~a?je, koju cini jedna iii vise soba s odgovarajucim pomocmm prostorijama (kuhinja, ostava, sanitarno-higijenske prostorije i dr.) ili
Ifl
skupova po sebi, nego njihova svojstva (oblljezja). Skup podataka 0 promatranom svojstvu promotren za svaku jedinicu predstavlja osnovni skup iii populaciju. Prornatra Ii se neko svojstvo na podskupu jedinica, podaci iz tog podskupa
predstavljaju uzorak. Opseg uzorka uvijek je manji od opsega osnovnog skupa. Uzorak je osnova za zakljucivanje 0 populaciji (osnovnom skupu), Po svojirn karakreristikama uzorak bi trebao vjerno odrazavati karakteristike populacije, sto 11
se u nacelu postize uporabom adekvatno m d . da uzorak saddi dio a ne sve pOdagtk 0 ela,?~_.n~snodesigna uzorka. BuduCi .' e pogresXk (samplmg errory; koja je u I· die ana Iht.;kl ce pok azate Iii sa d JI rZavatl. , pos je rca podskupa dk Uporreba uzorka u nekim je sluca.evim .. _ po at.a ~.. . npr. elektricnih zarulja proizvodae pro~ t a.~elzbjez~a. U isprtivanju kvalitete svih jedinica u takvu bi ispitivanju b·' a ~~h JI o~u. trajnost, Posljedica obuhvata n birackog lijela pred izbore analizira s~ 0 nJI ;vo flZ1Cko unistenje, Raspolozenje Pribavljanje svih podataka je praktick] porno u uzorka, odnosno dijela podataka. . IL; 1 nemoguce Rezultaf d bi . ... ekspenmentom tvore uzorak jer bi t .. k. . I 0 rvern statlstlcklm -. ,I I . N uznost pnrnjene uzorka proistjece .se eonjs .I.. rnogao b es konae onacno ponavljan. .. . jedini fi nancijs kiih razloga, a sam raspolozivi IZ nemogu<;nosh prornat ranja SVIih jedinica, e ... ki .. uzorka. rnpinjs I materija] ponekad ima obiljezje
turizam, obrtnistvo, stambeno-komunalne djelatnosti, financijske i druge usluge. .Umjesto naziva, modaliteti se u praksi oznacavaju brojevima. Nominalna varijabla, npr. zanimanje, vrsta robe, uzrok smrti i druge, pojavljuje se u veoma velikom broju oblika. Nomenklatura je ureden popis modaliteta nominalne varijable, kojima se pripisuje nomenklatumi broj. Nomenklature su konvencije, koje se donose zakonski iii dogovorom ddavnih organa iii medunarodnih organizacija. Medu veoma vaZnim nomenklaturama [esu Jedinstvena nomenklatura zanimanja, Standardna medunarodna trgovacka klasifikacija, i druge. . Nominalna varijabla i njezini modaliteti moraju se prije promatranja pojmovno definirati. Ponekad je to zamrsen zadatak, koji zahtijeva poznavanje vise razlicitih strucnih i znanstvenih podrueja. Struktura norninalne skale se ne mijenja ako se provede jednoznacna supstitucija brojcanih oznaka modaliteta. Tako npr. umjesto 0 za Muske, a 1 za Zensko varijable »spol- mogu se uvesti bilo koja dva razlicita broja za oznaku modaliteta. Ordinalna skala pridruzuje brojeve, slovne oznake iii simbole elementima skupa prema stupnju (intenzitetu) nekog svojstva. Pridruzeni brojevi (modaliteti ordinalne skale) imaju uredajno svojstvo. Ordinalna je varijabla npr. ocjena. Izraze li se njezini modaliteti brojcano od 1 do 5, one cine skalu i njihov je poredak od najrnanjeg prema najvecem broju ili obrnuto. Promatra Ii se varijabla »ekonomska razvijenost« elemenata koji tvore skup zernalja (drzava), modaliteti jesu: nerazvijene zemlje, zemlje u razvoju, razvijene zemlje. Aiternativno, rriodaliteti se mogu oznaciti brojevima: 1 = nerazvijene, 2 = zemlje u razvoju, 3 = razvijene. Nad modalitetima ordinalne varijable takoder nisu dopustene brojcane operacije (zbrajanje, oduzirnanje, mnozenje, dijeljenje), rnedutim, ima smisla koristiti se operatorima =, <, >. Elementi skupa medusobno su identicni ako na skali imaju isto mjesto. Dvije jedinice s razlicitim modalitetima ordinalne varijable medusobno se razlikuju po stupnju intenziteta mjerenog svojstva. Ordinalna se varijabla naziva i varijablom ranga. Ordinalnom skalom klasificiraju se elementi skupine s istim iii vecim/manjim rangom. Student s ocjenorn vrlo debar (4) razlikuje se od studenta s ocjenom dovoljan (2) po tome 5tO ima vecu ocjenu. Oni ima]u razlicita mjesta na ordinalnoj skali. Razlika oejena postoji, ali nerna smisla govoriti da je ocjena vrlo dobar dva puta veca od oejene dovoljan. Dopustena je transformacija brojcano izrazenih modaliteta ordinalne varijable uz uvjet da se njome ne mijenja poredak. Ako su ocjene 1,2,3,4,5, dopustena je npr. transformacija: 1~lO, 2~20, 3~30, 4~40, 5~50 . lntervalnom skalom pridruzuju se brojevi mjerenim svojstvima elemenata skupova , pri cemu jednake razlike brojeva na skali predstavljaju jednake razlike mjerenog svojstva. Za intervalnu je skalu karakteristicno sto su polozaj nule i mjerna jedinica odredeni dogovomo. Nad modalitetima intervalne varijable dopustene su sve osnovne brojcane operacije. Tipican primjer intervalne skale je temperaturna skala. U pojedinim istrazivanjirna primjenjuju se iii konstruiraju specificne skale. Ispituje Ii se stupanj slaganja iii neslaganja s nekom izjavorn iii svojstvorn objekta, ispitaniku se stavlja na raspolaganje rnogucnost izbora odgovora iz ove liste: 1. izrazito se slaze, 2. slaze se, 3. niti se slaze niti se ne slaze
13
lO~.
_. ~vojstva elemenata statistickog sku a se mi .. . zivanje brojeva iii oznaka jedinicam p iere. MJerenJ~m se srnatra prldruvanja dana su mjernim skalarna al;;~:?u redeno~'pra~llu. Pravila pridruzinominalna, ordinalna, intervalna i ~umerilkaJ Sk:~. cetm mjerne skale. To su: .Nominalna skala dana je u obliku nenumerick . (atributa, kategorija, slovnih oznaka) 0 koii og skupa ~dnos?o liste naziva ~:dusobno razlikuju. Poredak naziva te~ri. ~!~ma s~ elemenn statlstiekog skupa mzu abecednim iii nekim drugim red ~s ~ J~ ar?ltraran, prernda se uobitajeno se pridruziti brojevi Nad·· ~m. 0 aI~tetlma nommalne varijable mogu .. . nJlma msu rnedutim do' . operactje. Oni sluie kao identifikatori Norni I . 'p~~ten.~ nikakve brojcane • geografska. MOdaliteti atributivne v~ .. bl na na o~.IJezj~ dijele se na atribulivna npr. nacionalnost spol vjerska . n~a e oznacuju svojstvo (atribut) jedinice modalitet nominal~e varljable ov pnpa n?st~ ~rsta djelatnosti itd. Pokazuje Ii skoj varijabh. Takva je variJ·aJa nezano~t jedinice s prostorom, rijec je 0 geografN. pro mjesto rodenja omma[no se obiljezjs ponekad : r . obiljezje naziva aiternatillllim. Alternat"~av J~ ub~~m.~ dva modaliteta. Takvo se no tenski. iii \1. z, odnosno 0 1 N . Ii ~e 0 1.~ezJespot. Modalite ri su Muski, . ,.. , . omina na Je varijabla v -r .d . S\ J« .. ')ezini su modaluen. indusrrii . . " n a pnvre ne dJelatno, . nJa I rudarstvo , po Iionrl .. ribarstvo stlm(lrs[\o. vodoprivreda sradevi joprivreda 1 ,,,,ra evmarstvo, pro met i veze, rrgovina, ugostiteljstvo ; J2
(nema stava), 4. ne slate se, 5. izrazito se laf' .. Likertove skale i u analizi se uzima kao d . n~.s e: Ta je s~ala I?javm oblik upitno jesu Ii razlike izmedu modaliteta j'eadle knjel: 0 intervalnoj skali, premda jc na e.
(obrazaca evidencije), (d) odredivanje nacina prikupljanja podataka, odnosno provedba promatranja (anketiranjem, putem paste. telefona i sl.), U pripremnoj se fazi utvrduju pravila uredivanja podataka za obradu pornocu racunala (pravila editiranja, kodiranja), nacini kontrole, planiraju se grupiranja, tabeliranja i drugi e1ementi ovisni 0 odabranom programu i racunalu. Ako se prikupljaju podaci 0 obiljezjlma za sve jedinice promatranja, govori s~o iscrpnom promatranju ili censusu. Obuhvati li se dio jedinica, promatranje je reprezentativno. S obzirom na vrijeme kada se provode, promatranja mogu biti jednokratna, periodicna i tekuca. Jednokratna promatranja sastoje se u prikupljanju infonnacija 0 obiljefjima jedinica u kriticnl vrernenski trenutak. Tipican primjer za tu vrst promatranja je popis stanovniStva. Ponavljaju Ii se promatranja jedinica skupa u odredenim vremenskim razmacima, promatranje je periodicno. Registraeija motornih vozila je primjer periodicnog promatranja. Promatranje je tekuce ako se provodi u vremenskom intervalu. Podaci 0 rodenim, 0 proizvodnji u toku jedne godine nastaju tekucim promatranjem. Prikupljanje podataka je najvaznija faza u statistickom radu. 0 tocnosti podataka ovisi i kakvoca rezultala primjene statisncke metode. Tocnost podataka vezana je s prisutnoscu odnosno odsutnosCU greske mjerenog svojstva. Podatak jc toean ako je jednak stvarnoj (pravoj) vrijednosti mjerenog oblljezja. Greika podataka moze biti sistematska i slucajna. Sistematska greska javlja se pri opazanju (mjerenju) svojstva svake jedinice i posljedica je slabosti intrumenta (upitnice) promatranja odnosne pogresne iii nedovoljno jasne definicije varijable i njezinih modaliteta. Slucajne greske su nesistematske, ne javljaju se u svakom podatku niti su konstantne velicine. Prije primjene bilo kakve analiticke metode nuzno je otkloniti sistematske pogreske u podacima. Za slueaine greske uobicajeno se pretpostavlja da irn se utjecaji ponlstavaiuPrikupljeni podaci mogu se predociti u matrici podataka. Ako se prikupljaju podaci za obiJjezja 01> O2 •.•• , OJ, ...• OK, i to za N jedinica promatranja statistickog skupa, matrica ce imati opcenito 011 012 021 022
0=
~il ~" ..•
Omjema skala se sastoji od brojeva za koi " . da ni . predstavlja~u jednake razlike mjerenog a nJI~ove J~dna~e razli~c na nepostojanje svojstva, a nije utvrdena kao u sf l:a' . na omjernoj skali upucu]e Vrijednosti pridruzene elementima pomocu om ~e~~ mtervalne. sk~le dog~~orno. 1 stima numericke varijable iIi vriiednostirna n . skale n~va~u se vrijednovarijabla koja moze poprimiti kon!l:no iii rebr~.~.enckog ob.I~~ezja. "!umericka diskretnom. Prirnjer diskretne varijable le JIVO ~nogo vnJed?osti naziva se Hrvatske, stanje 30. 09. 1992. Diskretn~ vari.J ~po~~emh.u po~uzecl~a Repu~like obuce odraslih muskih osoba je d· k t ja a ~IJe nuzno cjelobrojna, Velicina .. IS re na varijabla k. . broi vrijednosti: .,"38 38 1/2 39 I . U k oraClma od jedne polovi ojaNpopnma itd . ' rojcane · . .. je kontinuirana ako moze poprimiti bilo koi .' d 0 o~me. u,?entka varijabla primjeri kontinuirane varijable jesu ~isin:j~e~~: ~OIS~.lZnekog intervala, Tipicni Zb k ·X ih . •. ' ,U Jma. . og pra ncrn razloga kontinuirane variiabl .k .. diskretne i obrnuto Radni s je k t. . j e ~.one ad se uzrrnaju kao da su . on muirana varijabla Ak daci na navrsene go dine radnog staza, variiabla im a ..... 0 se _po ac_' odnose varijable. Javlja Ii se diskretna varijabla l"k ob~J~Ja cJ~obroJne (diskretne) kontinuirana. u ve 1 om roju obhka, tretirat ce se kao
SV.Oj~~:~r;J~~
:roo
~ad modalitetima nurnericke oduzimanja, mnoienja i dijeljenja da ima n.aj~olja. m~tril:ka svojstva:
varijable S obzi
do
na inte, .. . . . nte,:,alno] I omjemoj skali nazivaju . ._ ,,,~. mma ne I ordinal .. bl .. kvaliuuivnin (kategoriialnih] variiabli V aflJa ble i ., e IZrafene vanja. J e • su . ud' skupini fie u . 1 l' . Statisticke varijable (obiljezja) rnjerene se kvantitativnim variiablama No . 1 svojstva su izvorne. Izvedene varijable nastai . m e.rrum Je nucarna nad izvornirn varijablama Izv d . JU provodenjem brojcanih postupaka . . e ena Je npr varijabl d. stanovniku, gustoca stanovnistva. . a naro rn dohodak po
sljedeCi sadrzai:
•..
OIK
· Poznavanje mjernih skala, odnosno vrsta ... ." Ispr~\"~og izbora statisticko-analitickih metoda N S~;.hShCklh obllJ~zja u~jet je analizi numerickih varijabli. . aj Ire rnogucnosti pruzaju se u
.'. 011
011
...
o,
OS}
•..
021,
.
OiK ONK
...
\ ON. ON]
U i-tom retku matrice nalaze se vrijednosti svakog od K obiJjezja za i-tu jedinicu promatranja. j-ti stupac mat rice sadrfi modalitete j-tog obiljezja za svaku od N jedinica. Svaki Fedak sadrfi sve podatke za odabranu jedinicu promatranja, pa se naziva entitetom. Stupac matrice podataka altemativno se naziva poljem. Matrica podataka sadrfi ukupno NX K informacija. Zbog razlicltih razloga, neki elementi te matrice nisu u praksi poznati. Podatak rnoze biti izgubljen iii uskracen. U
.;..
.. ~r:~'larnim se nazivaju podaci koii su rik li . ... ~,_'r~I~I:.::::'.Ja ~dno~?o pracenja pOjava.] Prik~ rau:~em u skladu s dan~m ciljevi.m.<l · -OJl , ... ;:'·a IstrazlVanj· a (b) od ed· . p. J .• J podataka prethodl; (a) deflOl, ._.. ,r IvanJe statlstlckoo sk .. d· . ,_ J Ilc:~ oblljezja i definiranje n .ihovih . e upa J Je Inlca promatranja, J modahteta, (d) sastavljanje upitnica
statistickoj posebnim
.....
datoteka. struktura koje oyisi 0 prirnijenjenom programu. Troskovi i organizacija prikupljanja podataka u pravilu su \·eoma veliki. Nadalje_ provodenje promatranja kao i dobivanje prvih informacija \"remenski je
. 1
1~
·,-,:",'._".'
dugotrajno. Zbog toga se, kad god je moguce, pribjegava upotrebi postojecih podataka prikupljenih i uredenih u skladu s nekim drugim ciljem istrazivanja. Za takve se podatke kafe da potjecu iz sekundarnib izvora. Analizira Ii se npr. vanjskotrgovinska djelatnost Republike Hrvatske, prirnjenjivat ce se podaci Drzavnog zavoda za statistiku, Narodne banke, carinskih i drugih organa. Sa stajalista korisnika ovdje je rijec 0 sekundarnim podacima. Knjigovodstveni i racunovodstveni podaci, kompleksni izvjestaji 0 poslovanju i drugi podaci koje pruza informacijski sustav poduzeca imaju obiljezja sekundarnih podataka. U poslovnoj i opcoj privrednoj analizi veoma je ekonornicna prirnjena statistickih sekundarnih podataka iz baza podataka vladinih ustanova, specijaliziranih agencija, poslovnih udruzenja i organizacija. Rad s bazama podataka je relativno jednostavan, Pornocu odgovarajucih programa veorna cesto je rnoguc prijenos podataka (datoteka) iz baza i njihova konverzija u oblik pogodan za primjenu statistickih analitickih programa. Poznate su npr. baze podataka OECD-a, Europske zajednice (Eurostat) i mnoge druge. Niski troskovi pribavljanja i vrernenski brza dostupnost najvaznija su pozitivna obiljezja sekundarnih izvora podataka, U istrazivanju pojava sekundarni podaci ne zadovoljavaju uvijek. Tako npr. medu obiljezjima nece ponekad biti zastupljeni svi relevantni za definirani cilj istrazivanja. Definicije varijabli odnosno njihovih modaliteta nisu ponekad jednake sa stajalista korisnika i onog od kogapotjecu podaci. Prosudba tocnosti sekundarnih podataka je otefana, itd. Prije primjene spomenutih izvora treba pomno proueiti metodoloske osnove, odnosno pojmovne i druge definicije kako bi se osigurala njihova ispravna upotreba. Statisticki podaci u pravilu su mnogobrojni. Njihovo uredenje i analiza provodi se pomocu programa za racunalo, Bez racunala ne rnoze se zamisliti suvrernena deskriptivna i inferencijalna statisticka analiza. relativno
Osnova obrade statistickih podataka pornoeu racunala jesu prograrni. Pr?g.ram je skup naloga za provodenje ~ost~~aka. nad ~od.acima. Programi za statisticku analizu javljaju se kao izvorni pisaru [ednirn od je~l~a (C, F?RTR~N, PA~C:A:-, COBOL i dr.) i primjereni su danorn zadatku III su dam u ok~'ru statistickih paketa. Za sastavljanje i provjeru izvornih programa potrebni su odredeno vrijerne i relativno velika sredstva. ., . Izvornim programima onuhvaceni su postupci obrade prem~ danom cI1Ju ~ metodama analize. Statistitki paketi sadrie gotove progr~me kojima se pr?v.od~ brojcana i graficka analiza podataka. S obzirom na nacin upot.rebe, ~tat~stlc~l paketi se dije/e u dvije skupine. U prvoj se skupini nalaze pa~etl fun.kcl.omranJ~ kojih se ternelji na nalozima danim jezikom paketa_. Stoga s~ JOS nazrvaju paketl okretani nalozima (command-driven packages). Jezik paketa una s~o~u »sintaksu« ~dnosno ngramatiku« i njezino je poznavanje neophodno za pnrnjenu paketa, Rijeci toga jezika zamjenjuju velik brojnaloga standardnogyrogr~m~ z~ ra~u~al~. Jezici paketa u pravilu su jednostavm I rnsu ~.rep:ek.~ nJl~ovoJ slr.oJ pnmjeru. Naredbom TABULATE i navodom imena varijabli njlhoVlh modahte~a prove~t ce se u jednom paketu postupak grupiranja podataka unesen na pr~plsan ~acm daje aritrneticku sredinu varijable Naredba MEAN (DOB) ..' nare db om· READ .. DaB itd. U drugoj se skupini nalaze paketi s pnklad~o. naVe?e~lm nazlvll~a postupaka. Nazivi postupaka dani su u prozoru i pre?stavlJaJu okvir izbora (":en~).. Zbog toga se i nazivaju sustavom menija (menu-dnven-system). Dok se pojedini postupei u prethodnoj skupini aktiviraju upisom na.redb~ pomocu t~~tatur~, za paket na bazi menija pokazivac se postavi na oda?ram nazl~ ~os~upka 1~1 njegov na simbol (icon) i pritisne tipku unosa. »Menu-dnve~« statisticki p~ketl veoma su jednostavni za upotrebu, ne zahtijevaju ovladavanJe pot~eb~on: sintaksom .m~ta-jezika (jezika paketa). Paketi kojima su podloga nalo~l. pisam u. danom. Jezl.ku pruzaju mnogo vece mogucnosti nego oni na susta~u meruja, U ~kVlfU poslJ~dnJ~g programi se ne mogu mijenjati niti pritagodavan po~rebama Izv.an predvidenih ... t' Irnajuci na umu veoma velike prednosti »rnenu-drivert« sustava s mogu .... nos L.... . .• • Tc ih obzirom na njihovu jednostavnost pri upotrebi, ah I potreb.u uvodenja s~ec~ I ~I postupaka u danoj analizi podataka, n~.ki statisticki paketi mogu funkclOmratl u komandnom modu iii rnodu izbora opcija. Statisticki postupci, obicno u manjern opsegu, zastuplj~ni su i u pro~ramski~ paketima iz drugih podrucja. Tako npr. tabli~ni ~alku.l~tor~ kao po pr~vllu sadr~e opcije za racunanje osnovnih statisticko-analitlcklh velieina
I konstrukClju
grafickih
Preuzirnaju Ii se podaci iz baza podataka iii iz drugih procesora, potrebno je r~.spolagali informacijama 0 strukturi datoteka i 0 mogucnostirna njihove konverzije u datoteke koje prihvaca primijenjeni program.
prikaza. . .. . Upotreba programskih paketa najcesce ne postavlja veiIklh. zahtjeva u pogledu poznavanja racunala i operativnog sustava. Pretpostavka Je upotreb~ paketa koji funkcionira u komandnom modu poznavanj~ nj.eg~va jezika, Uz .svak~ paket postoji potpora, odnosno prirucnici u kojima se .~pl:uJe smtak~a, mogucnosti i ogranicenja prirnjene, zahtjevi u P?gledu mernonje I vrste racunal.a I ~ruge pomocne mforrnacije. Isto se odnosi na paket~ druge vr.ste .. !-a djelotv ornu primjenu u toku rada sluze upute (pornoc) do kojih se dolazi pritiskorn odredene
tipke.
J DA. [.nit!al Data Analysis, prethodno ispitivanje podataka: .-vnalysis , istrazivacko ispitivanje podataka.
EDA,
Exploratory
DLlla
.J'
. 'r>
.~'
Primarni iii sekundarni sratisticki podaci te odabrani programi za rac~nalo ishodisna su tocka za provedbu analize metoda deskriptivne i inferencijalne
siatistike .
17
,W·
I. dio
1.1. FORMIRANJE
STATISTICKOG NIZA
Statisticki podaci polazna su osnovica za primjenu analitickih metoda. U opcem obliku, izvorni su podaci prikazani u matriei podataka. Predmet statistieke analize moze biti jedna variiabla (obiljezje) iii viie njih istodobno. Ako se od K obiljezja uzme jedno i analizira izdvojeno, govorit ce se 0 jednodimenzionalnoj analizi. Istodobno proucavanje kovarijacije (asocijacije) dviju iii vise varijabli provodi se metodama visedimenzionalne statistike. Podaei za jednodimenzionalnu analizu dani su u jednom stupeu matriee podataka, a za visedimenzionalnu u dva iii vise stupaca te matrice. Uvid u karakteristike pojave na temelju izvornih podataka dobiva se njihovim uredenjem. Ono se sastoji u navodenju podataka po nekom pravilu, grupiranju, tabelarnorn i grafickom prikazivanju. Saiimanje pojedinacnih informacija postize se izracunavanjem svodnih pokazatelja, kao sto su srednje vrijednosti, mjere disperzije i druge statisticke velicine.
Urede Ii se podaci 0 jednom obiljezju jedinica statistickog skupa, nastat ce statisticki niz, Medu najvaznijirn metodama uredivanja podataka je metoda grupiranja. Grupiranje je postupak rasclanjivanja skupa od N podataka u k podskupova koji se medusobno ne preklapaju. Podaci se razvrstavaju u grupe odnosno podskupove prema definiranom obiljezju i njegovirn modalitetima, te prema prineipu iserpnosti i iskljueivosti. Princip iscrpnosti govori 0 tome da se razvrstati mora svaki podatak, a princip iskljucivosti da jedan podatak rnoze biti clan sarno jedne grupe (podskupa). Grupiranje podataka rnoze biti jednostavno, ali i vrlo zarnrseno. Sastoji Ii se osnovni skup od podataka 0 spolu zaposlenih osoba, grupiranje je jednostavno. Osnovni se skup dijeli u dva podskupa prema rnodalitetima varijable spo!. U jednoj ce grupi biti zaposleni zenskog, a u drugoj muskeg spola. Grupiranje zernalja prema stupnju razvijenosti nije jednostavno. Varijabla -razvijenost« je visedimenzionalna, a njezini se modaliteti odreduju pornocu vise drugih varijabli (proporcija zaposlenih izvan poljoprivrede. razina strucne spreme radno sposobnog stanovnistva, narodni dohodak po stanovniku i dr.). Grupiranjem se gube pojedinacne informaeije 0 obiljezjima jedinica. Zbog
~,
-~.;
.','1'
19
to~a je veorna vazno da se one provede is ravno To .. .. osigurava preciznom definicijom kriterija gruPi;anja i ~ehnik~m nr~;Cltm dl~elom
frekv~::r~!!~~~U~~;eo~e~~~:o
!r;of;~:l~~:k~
skupa istog iii slicnog o blika ,O~iIjezja. Zbrot:~~~I~~~~Oj::Z:~~~~ ;s;ov;o.g ofsegu osnovnog skupa. Skup uredenih k parova modaluem obili •. . na Je elm Irekvencliama naziva se statistickim nizom Statistickih ~JezJa .s pnpada!ukoliko i vesta obiljezja. . rnzova ima onoliko Kronoloskim uredenjem podataka . . nastaju vrernenskl nizovi. Oni Ce se ana Itziran u posebnom dijelu udzbenika.
U tabeli 1.1. nalazi se nominalni (atributivni) statisticki niz. Obiljezje »oblik vlasnistva« ima cetiri modaliteta. Niz je nastao grupiranjem podataka 0 oblicima vlasnistva poduzeca u Republici Hrvatskoj.
Tabela 1.1. Poduzeca prema vrstama vlasnistva u Hrvatskoj. Stanje u Registru poduzeca na dan 31. 12. 1990. Oblik vlasnistva Broj poduzeca Struktura poduzeca u %
Ii
1 drustveno
P;
3 16.76 79.98 1.80
1.46
pn azivanje
nominalne '
privatno
zadruzno
rnjesovito Ukupno
100.00
'. (aj, f(o;», i = 1,2, "', k (1.1) predstavlja nominalni statisticki niz P dk . " nih frekvencija, koje ce se krace o~na~~~ a .t0dal~~et~ ~i 1 pr~padajucih apsolutpreglednosti modaliteti se navode abece~~~! :~~~:ljpSkl je arbt~a~afn. Zbog.~e~: prema usvojenim nomenklatur" . ~ rema ve icim rekvencija ili liteti, forrmrat ce se grupa nolsmt IllstamKa. kPoJave It s~ malo frekventirani moda» a 0« a 0 se nom I bT ". .. atributivna i geografska to ce se atribun '. lik ma .na 0 1JeLJ3 dijele na ' rvrn n12 raz I ovan od geografsko S trukrura podataka uocava se c" g. danog nominalnog obiljezja, Osim a ~~~u~;t:~ t:azdlobe fre~v~nc~ja. ~odali~eta frekvencije. Relativna frekvencija m~dart t . se .svrhu pnrnjenjuju I relatione modaliteta Ii i zbroja apsolutnih frekven~ijaa;: Jtj.~mJer apsolutne frekveneije tog
Opseg skupa iznosi 17923, koliki je i zbroj apsolutnih frekvencija. Relativne su frekvencije izracunane diobom apsolutnih frekvencija njihovim zbrojem. Izrazene su u postotku od opsega osnovnog skupa. Grupiranju podataka prethodilo je definiranje varijable »vlasnistvo« i njezinih modaliteta. Pracenjem varijacija frekvencija donosi se sud a strukturi registriranih poduzeea prema oblicima vlasnistva. Relativne frekvencije olaksavaju donosenje toga suda. Nominalni niz poduzeca prema oblicima vlasnistva prikazan je storistilkom tabelom. Tabela 1.1. je jednostavna, jer sadrzi jedan statisticki niz. Prosirena je
stupcern s relativnirn frekvencijarna.
N= _Lf(a;}
1=1
Ii
(1.2)
Relativne frekvencije se radi iakseg turnacenja uobicajeno mnos t U pravno su proporci I' ze sa so. nalnog (i svakog) ;~~~~~C~~;P:i~~U~~~~: frekvencijama. Svojsrva frekvencija nomi(a)O$.liSN,
k
L/;=N r= I
k
Lp;= ,= ~
Svaka statisticka tabela nastaje krizanjern vodoravnih i' okomitih erta. U predstupcu se navodi nazi" obiljezja i njegovi modaliteti, a u zaglavliu je opis sadrzaja stupaca. Sastavni dio zaglavlja su i oznake brojeva stupaca, Frekvencije modaliteta navedene su u stupcu, Iznad tabele je naslov, Iz naslova se saznaje na sto se odnose podaci u labeli. Ispod tabele je izvor podataka. Napomene i objasnienia, ako postoje, pre thode naznaci izvora podataka. Statistickorn tabelom povecava se preglednost grupiranih podataka. U tabeli 1.2. dani su podaci 0 zivorodenirn i umrlim u odabranim opcinama Hrvatske 1989. godine. Opcina je norninalna (geografska) varijabla i ovdje je dano pet njezinih modaliteta. Podaci 0 opcini rodenja 1441 zivorodenih grupirani su u pet grupa. Opcine Hrvatskog zagorja s pripadajucirn frekvencijarna tvore nominalni geografski niz. Na isti je nacin nastao niz umrlih. Prirodni prirastaj je razlika izmedu zivorodenih i urnrlih. Opcine s podacirna 0 prirodnom prirastaju i stopa rna zivorodenih na tisucu urnrlih Cine izvedene geografske nizove. Grupirani podaci 0 zivorodenim i umrlim po opcinarna prikazani su u skupno] tabeli. Tabela irna k tome kolone s apsolutnim frekvencijama i clanovima
21
Poduzeea pre11llJvrsti II/asniltva u Republici Hrvatskoj - stanje 31.12.1990. godine= Zivorodeni na 1000 umrlih 5 654 933 650 871 622 749 Izvor: Statistdki godiinjak Republike Hrvatske, 1991, Grafikon I.J.b 74.
opetoa
1 Klanjec Krapina Pregrada Zabok Ziatar Bistrica Ukupno
Prirodni prirastaj 4
-109
-23
-65
---
-483
sir.
izvede~og .n.iza.(prir~dni p~~a~taj). Skupnom statistickorn tabelom prikazuju se dva n~za. Ilr ~r~e nJr~~ ~oJt su nastali grupiranjem razlieitih skupova prema modalitetima istog obiljezja. Skupna tabela ima iste sastavne dijelove kao i svaka statisticka tabela. Nominalni nizovi grafilki se prikazuju povrsinskim grafikonima. Veoma Cesto su to uspravni iii polozeni stupci. Stupci su jednakih baza, pa se usporedbom nji~?":.i~ visi~a ~ocavaju v~rijacije frekvencija u odnosu na pojedine modalitete obiljezja. Osirn jednostavnih stupaca primjenjuju se dvostruki iii visestruki stupci, str.ukturni stu~ci, st:uktur~i k~govi i polukrugovi. Geografski nizovi prikazuju se osim navedemm grafikomma I kartogramirna. U kartogramima se frekvencije
Poduzeca prema v~sti vlasniitva u Republici Hrvatsko] - stante 31.12.1990. godine-
geografskog obiljezja predoEavaju geometrijskim likovima (pravokutnici, kvadrati, krugovi), tockama iii sjencanjem. Graficki prikazi kao i statlsticke tabele sredstva su deskriptivne statistike , kojima se na relativno jednostavan, pristupaean nacin dolazi do osnovne spozna]e . 0 karakteristikama statistickog niza. Svaki statisticki grafikon ima naslov, oznake mjernih jedinica frekvencija, oznake modaliteta, po potrebi legendu i izvor podataka. Nominalni niz registriranih poduzeca prema vlasnistvu prikazan je polozenirn stupcima i strukturnim krugom.
Zivoroden! I umrli u odabranim opeinama Hrvatske 1989.
700
o.
PriYlltno
o
lzvor: Statisticki godiinjak: Republike Hrvatske, 1991. sir. 74. Grafikon I.I,a
Z-voradeni
23
..
-;;-,
i umrlih
Redoslije~ni. (ordin~~ni) niz nastaje grupiranjem elemenata osnovnog skupa prema rnodalitetima v~n~able ranga, I ovdje se kao i u prethodnom slueaju skup od N podataka rasclanJu~~ u k podskupova, koji se medusobno ne preklapaju, A_psolutna ~~ekvenclla fer;) predstavlja broj elemenata osnovnog skupa s mo~ahtetom vanJable.ranga r;. Zbroj apsolutni~ frekvencija jednak je ukupnom b.~oJ~pod~taka. Rel~tlvna frek~~ncIJa p(ri) , krace Pi, je omjer apsolutne frekvenc~JeI.zbr?Ja. apsolu~mh frekvencija. Apsolutne i relativne frekvencije redoslijednog rnza imaju I.~tas~oJ.st~a kao frekvencije nominalnog niza. " R.edoshJedm rnz je skup parova oblika varijable ranga i pripadajucih frekvencija, tj.:
(r" j;),
i = 1,2, .'" k.
P~re?ak .~rupa je pr~ma stupnju intenziteta svojstva sro ga izrazavaju modaht~t.1 ~~nJable ~anga, I to polazeci od najnlzeg prerna visern iii obrnuto. <?b'IJ.ezJera~ga Je st~panj strucnog obrazovanja i pojavljuje se u osam oblika. Grupirani p.odac] 0 stupnju strucnog obrazovanja zaposlenih u drustvenom sektoru u Hrvat.skoJ 1988. g~dine dani su u tabeli 1.3! U istoj tabeli prikazani su i podaci o stupnju obrazovanja prema djelatnostima.
Tabela 1.3. Zaposlen~ u drustven~m se~toru prema stupnju Hrvatskoj, 1988. - stanje krajern godine, u 000 Stupanj strucnog obrazovanja 1 visoko obrazovanje vise obrazovanje s~ednje obrazovanje nize obrazovanje visokokvalificirani radnik kvalificirani radn ik polukvalificirani radnik nekvalificirani radnik Ukupno Zaposleni u djelatnosti privrednoj 2 78.2 70.0 245.9 39.0 132.9 424.6 148.6 149.4 1288.6 neprivrednoj 3 70.1 48.2 85.8 11.5 4.3 15.0 10.8 21.5 267.2 strucnog obrazovanja u
U rubnoj iii marginalnoj koloni nalazc sc podaci grupirani sumo prcma modnlitctim a varijable u predstupcu, neovisno varijubli u zaglavlju. Prema tome, modaliteti u predstupcu s pripadajutim frekvencijama u 4. stupcu predstavljaju redosJijedni niz. U rubnom (marginalnom) redu nalaze se frekvenci]e modaliteta varijable »vrsta djelatnosti«, tj. varijable u zaglavlju. Modaliteti te varijable s pripadajucim frekvencijama cine nom~nalni niz, d?~ su poda~i g~upiran~.ne?~is~o o varijabli u predstupcu. Sadrzaj polja tabele OVISl0 modahtetlma dVlJUili vl!e varijabli. U tabeli 1.3. frekvencija 78.2. pokazuje koliki je bio broj osoba s visokim obrazovanjem i zaposlenih u privrednim djelatnostima. Svaki podatak u toj frekvenciji povezan je s modalitetom dviju varijabli (visoko obrazovanje, privredna djelatnost). Redovi i kolone u sredisnjern dijelu tabele nazivaju se »uvjetnim«, jer je smjesta] podataka u njih uvjetovan posjedovanjem danog modaliteta dviju iii vise varijabli. Tabelarni prikaz redoslijednog niza upotpunjava se grafickim prikazom. Za prikazivanje ordinalnih nizova najcesce se primjenjuje povrsinski grafikon [ednostavnih stupaca. Usporeduje li se vise nizova, primijenit ce se vi~estruki stupci, Pored navedenih upotrebljavaju se strukturni krugovi, polukrugovi i druge vrste
grafikona. Redoslijedni niz iz tabele 1.3. prikazan je jednostavnim strupcirna i razdijeljenim stupcima, kojima je svrha pokazati varijacije strukture stupnja obrazovanja prcma vrstama djelatnosti.
Ukupan broj zaposlenih ·4 148.3 118.2 331.7 50.5 137.2 439.6 159.4 170.9 1555.8
Zaposleni u druitvenom sektoru prema stupnju strucnog obrazovanja u Hrvatskoj _ stanje krajem 1988. EIroJ zo~enih
I" lisucomal
soo
.--..---
200
.--v,S<!
~
I---
.--- ~
.~~bela naziva se ko~bi~~rano~. kombinirano] tabeli predocavaju se ;,~daCI. g.ruplrafil prem~ d~a III vl.~e obiljezja, U konkretnom slucaju podaci su ~ ~Pl~'lnl pre~a .modalll~tlma vanJ.~ble ranga »stupanj strucnog obrazovanja«, te :l~cma mod.al~tetlma nom maine ~an~able »vrsta djelarnosri« (privredne, neprivred~. KO~blmrana ~e tabe.la razlikuje od jednostavne i skupne. Kombinirana ima prcdstupac, zaglavlje , polje , rubnu kolonu i rubni redak, naslov i izvor podaraka.
!.3..
1:'
Visd<Q
Sred'je
n
N'lO
.'
lzvor: Swrislicki godislljak Republike Hrvatske, 1991, str. 126. Grafikol! J.3.a
~~
25
m
80
"/.
60
Relativna frekvencija numerickog niza je broj izrnedu nule i jedan, a zbroj im je jednak jedan, I za taj tip niza cesto se frekvencije izrazavaju u postatku. Pojedinacni par u distribuciji frekvencija predstavlja numericku grupu, odnosno broj (proporciju) iste vrijednosti varijable, Numeritke grupe nizu se ad manjih vrijednosti varijable prema vecima, rjede obrnuto, Kontinuirana varijabla poprima vrijednosti iz nekag intervala. Zbog toga se vrijednosti te varijable grupiraju na temelju razreda. Razredi se oblikuju tako da se rasp on varijacije (razmak izmedu najvece i najrnanje vrijednosti) podijeli na k podintervala, kaji se medusobno ne preklapaju. N vrijednosti varijable rasporeduju se u nurnericke grupe (razrede), i to tako da se u jednaj grupi nadu vrijednosti koje padaju izmedu donje i gornje granice razreda. Apsolutna frekvencija razreda je broj podataka razvrstan u dani razred. Svaki razred u pravilu ima donju i gornju granicu. Donja ce se granica i-tog razreda oznaciti sa LIi, a gornja sa L2i• pa je i-ti razred dan izrazom:
i=I.2
•... ,k,
Neprivredne
ojO!lotno5ti
Izvor: Statisticki godilnjak Republike Hrvatske, 1991, sir. 126. Grafikon. l.3.b
dok je njegova apsolutna frekvencija t. (Lij5Xj<Lli), odnosno fro Distribucija irekvencija kontinuirane numericke varijable je skup parova razreda i pridruzenih frekvencija, tj.: i= 1, 2, ... , k,
(1.4)
iii alternativno:
i = 1, 2, ...• k. Formiranju distribucije frekvencija za kontinuiranu numericku varijablu prethodi odredivanje broja razreda i njihove sirine, tj. velicine razreda. Buduci da ne postoji egzaktan nacin odredivanja broja razreda, u praksi se uobicajeno primjenjuje Sturgesovo pravilo. Prema tom pravilu broj razreda k za grupiranje N podataka aproksimira se izrazom:
uvid u varijacije
prufit
ce ureden
Xi::;;Xi+h
skup vrijednosti
varijable
Ka~.a je N velik broj, zakIjucivanje 0 rasporedivan]u vrijednosti nurnericke vanJ~ble. uredenj~m pojedinaenih v~jed~?sti je otezano, Zbog toga se pristupa grupiranju. Grupl.ranjem nastaje distribucija frekvenciia. .. Ako se grupira N podataka u k grupa i ako su vrijednosti diskontinuirane
varijable X: Xl> X_2, ... , Xi, .: .': Xk. ~. pripadajuce frekvencije [(XI), [(X2), ... , !(Xk). krace pisano /I, distrlbucija frekvencija je skup: . (Xi'[,)' i=1,2, ... ,k,
k i-I
... , [(Xi) •
.... = X
I
.:tmax -
Xmio
L.f;=N.
(1.3)
U (1.3.)!! su apsolutne frekvencije, koje imaju uobicajena svojstva, Do relativnih frekvencija P (Xj) odnosno Pi dolazi se diobom z-te apsolutne frekvencije zbrojem apsolutnih frekvencija, tj.:
fr
i=1,2,
... ,k.
U prethodnom izrazu Xm"" je najveca, a .:tmin najmanja vrijednost varijable. Razredi jednake sirine primjenjivat ce se za podatke koji se rasporeduju priblizno sirnetricno u odnosu na sredinu (npr. aritrneticku). Pri asirnetricnom rasporedu distribucija frekvencija forrnirat ce se na temelju varijabilne velicine razreda. Uzi su razredi na onim dijelovima raspana varijacije na kojima je veta koncentracija podataka, jer se na raj nacin grupiranjem gubi manje informacija 0 nacinu rasporeda podataka. 27
gomje granice i-tog i donje granice (i + 1) razreda vlada odredeni vrijednostdonje granice (i + 1) razreda jednaka je gornjoj granici i-tog (pretbodnog) razreda. ·U protivnom, govori se 0 nominalnim granicama razreda. Prije brojcane analize nominalne se granice razreda zamjenjuju preciznim odnosno pravim granicama. Precizne se granice odreduju razlitit9. Najte~ce se donja granica razreda umanjuje, a gornja granica uvecava za polovicu razlike izrnedu gomje granice i-tog i donje grantee (i + 1) razreda, Ako se grupira prema tezini u razrede: Izmedu
odnos, Brojcana
5-10
10-15
. najmanja i najveca vrijednost u pravilu se razIikuju. Otvorenim razredom osigurava se jednako grupiranje podataka 0 pojavi, cirp.e se olaksava njezina analiza : u vremenu. Prije grafickog prikazivanja iii brojcane analize takvih distribucija nuzno je procijeniti granice otvorenih razreda. Proejena je na temelju poznavanja pojave i provodi se od slucaja do slucaja, U analizi danih distribucija frekvencija treba poznavati nacin odredivanja vclicine razreda, kao i razredne sredine. Velicina i-tog razreda jednaka je razlici donje granice (i + 1) i donje granice /-tog razreda. Sirnbolicki:
15-20
itd., nije nuzno mijenjati granice, jer je njihov odnos ispravan, Razredi kojih se grupiraju podaei 0 visini osoba u em dani u ovom obliku: 150-154 155-159 160-169 itd. imaju nominalne graniee. Precizne graniee jesu: 149.5-154.5 154.5-159.5 159.5-169.5 itd, Ako se grupiraju podaei 0 zivotnoj dobi (kontinuirana promatranju od navrsenih godina i po razredima: -19 20-29 30-49 50--69 70 i vise varijabla) polazeci u
i=I,2,
Za donju granicu (k
... ,k.
gornjoj graniei k-tog granice
1) razreda
na temelju
razreda.
Razredna sredina tog razreda, t j .: r-tog razreda donje i gornje
i=I,2,
... ,k.
rijec je
granice
-20
20-30 30-50 50-70 70 i vise, dQlazi se do preciznih graniea, koje se jos nazivaju pravirn granicama razreda. Kada u distribuciji frekveneija prvi razred nema donje iii posljednji razred ncrna gornje graniee. takav je razred otvoren. Otvoreni se razredi primjenjuju iz prakticnih razloga. Za istu pojavu promotrenu u razlicirirn vrernenskim trenucirna
Ako je umnozak razredne sredine i apsolutne frekveneije razreda jednak zbroju vrijednosti numericke varijable u rasponu granica razreda, za takvu se razrednu sredinu kale da je prava razredna sredina. Razredna sredina imat ce svojstvo prave razredne sredina ako su vrijednosti u razredu sirnetricno rasporedene. Posljedica razlika izmedu prave razredne sredine i izracunane je unosenje pogreske u velicine koje se izracunavaju pomocu nje. Ta se greska naziva greskom grupiranja. .. Numeriiika diskontinuimna variiabla relativno se cesto pojavljuje u velikom broju oblika. Distribucija frekvencija formirana na prije objasnjen nacin mogla bi sadrzavati veoma velik broj numerickih grupa. Promatra Ii se npr. 17923 registrirana poduzeca u Republici Hrvatskoj 31. 12. 1990. prema broju zaposlenih, diskontinuirana varijabla »broj zaposlenih« mogla bi se pojaviti teorijski u isto toliko oblika. Izravan uvid u raspored poduzeca prema broju zaposlenih s obzirorn na kolicinu podataka nije prakticno moguc. Zbog toga se grupiranje podataka 0 diskontinuiranoj numerickoj varijabli provodi na isti nacin kao da je ta varijabla kontinuirana. U distribuciji frekvencija na bazi diskontinuirane varijable donja granica (i + 1) razreda i gornja granica r-tog razreda razlikuju se. Ako je varijabla cjelobrojna, razlika ce biti za jedan. U postupcima analize potrebno je odrediti preeizne granice na prije objasnjen nacin. . Nurnericki nizovi pregledno se predocavaju u statistickoj tabeli. Osim tabelarnog primjenjuje se graficki prikaz, Ima vise vrsta grafiekih prikaza, izbor kojih ovisi 0 danom slucaju, Ako su dane pojedinacne vrijednosti numericke varijable X, i ako ih je mali broj, prikladan je graficki prikaz pomocu tocaka. Tocke se uertavaju uz vodoravno polozenu dufinu na kojoj je naznaceno aritrneticko mjerilo. Polozaj tocaka pokazivat ce raspored vrijednosti u nizu. Za konstrukciju tog grafikona uzet ce se podaci 0 placi u ozujku 1992. za 15 osoba jednog manjeg poduzeca. Podaci su izrazeni u tisucama HRD i dani su kako slijedi:
Xi:
15
17
20
14
34
27
30
18
10
18
24
25
29.
29
10
14
15
17
18
18
20
24
25
27
29
30
34.
• ••
••••• • 2b 1~
Grafikon 1.4.
•
Plate (u usucama HAD)
Osim dijagrarnima s tockama, pojedinacni podaci 0 vrijednostima numericke varijable prikazuju se Tukeyjevim SoL dljagramom (Stem-and-Leaf). Po obliku se taj dijagram moze smatrati specifienom vrstom histograma. Dijagram »stabla i lista« je osobito jednostavno konstruirati ako su vrijednosti numericke varijable dvoznamenkasti brojevi. Postupak zapocinje uredenjem podataka po velicini, od najmanjeg prerna najvecern. Zatim se vodece znamenke (Stems) navedu s lijeve strane okomite crte. S desne strane okomite crte nasuprot vodecoj znamenci ispisuje se druga znamenka broja (Leaf). U primjeru placa vodece su znamenke na mjestirna desetica, odnosno 0, 1, 2, 3. Grafikon 1.5. predstavlja Sol prikaz.
Tukeyjev SoL prikaz plaea 1 2
3
U dijagramu se u drugom retku nalazi vodeca znamenka 1 s pripadajucim drugim znamenkama 0, 1, 2, 3 i 4, dok je u treeem retku s vodeeom znamenkom predvideno navodenje brojeva s drugom znamenkom 5,6,7,8 i 9. Na isti je nacin u dva reda rasporeden dio plaea iz intervala 20-29. S desne .strane naveden je broj vrijednosti s istorn znamenkom, Ako brojevi sadrfe vi~e od dvije znamenke, bez obzira na to jesu Ii cjelobrojni iIi decimalni, skaliranjem se svode na velicine prikladne za prikaz. Opis prirnijenjenog skaliranja navodi se ispod dijagrama . Dijagramom se vizualno uocava raspored podataka prema vrijednostirna numericke varijable, pri eemu se ne gube pojedinacni podaci, kao sto je slueaj pri grupiranju i grafickom prikazivanju. Podaci 0 dnevnoj prodaji gamitura sobnog namjestaja u jednom robnom centru evidentirani za 80 radnih dana posluzit Ce za konstrukciju distribucije frekvencija. Podaci 0 prodaji su sljedeci: 5 2 4 6 2 5 5 4 5 7 4 7 4 3 4 3 7 3 4 6 6 2 6 6 7 4 5 7 6 8 5 5 4 5 6 3 5 5 3 4 4 3 8 4 5 6 4 3 4 4 5 6 5 4 5 4 5 5 4 4 2 6 5 8 4 4 5 4 4 3 8 1
4
4 6 2
6 5 4 4
5 6
3 4 5 6
3 4 5 6
3 4 5 6
3 4 5 7
3 4 5 7
3 4 5 7
4 4 5 7
4 5 7
4 4 5 8
4 4 5 8
4 4 5 8
4 4 6 8
89 045788 04579
04
2 2
6 5
Varijabla »dnevna prodaja garnitura« je diskontinuirana i poprima mali broj vrijednosti. Grupirani podaci (distribucija frekvencija) dani su u tabeli 104.
Grafikon 1.5.
Prikaz Tukeyjevim dijagramom ujedno je specifican naein grupiranja podataka. Prva je vodeca znamenka nula, a prvi »Iist« 8, pa je rijec 0 broju 08, odnosno 8. Vodeca znarnenka 3 i znarnenka 4 predstavljaju broj 34. S desne strane naveden je broj vrijednosti s istom vodecom znamenkom. Rasporedivanje vrijednosti da se prikazati i detaljnije, kao na prikazu 1.6.
Tukeyjev SoL prikaz placa
Broj dana
Struktura
Pi
Kumulativni nil relativnih frekven, F.(x;) 5 0.0125 0.0750 0.1750 0.5000 0.7375 0.8875 0.9500 1.0000
h
2 1 5 8 26 19 12 5 4 80
1 1 2 3
4
1 1 2 2 3
2 2 4 2 3 2
5 6
7
8 Ukupno
40 59 71 76 80
14
31
3(1
frekvencijorn. Kada su, kao u analiziranom primjeru, uzastopne vrijednosti diskretne varijabJe jednako udaljene, osnovice Ce svih pravokutnika biti takoder jednake, pa ce njihove povrsine biti proporcionalne frekvencijama. Povrsina svih pravokutnika jednaka je zbroju apsolutnih frekvencija, odnosno 1 iii 100, ako se histogram kostruira na osnovi relativnih frekvencija. Grafikon 1.7.c predstavlja histogram distribucije iz tabele 1.4. Za isti prirnjer konstruiran je Tukeyjev SoL dijagram 1.8. Varijabla poprima cjelobrojne vrijednosti 1, 2, 3, 4, 5, 6, 7, 8. Pri konstrukciji pretpostavit ce se da su vrijednosti decimalni brojevi: 1.0,2.0, ... ,8:0.
15
10
s
o Grafikon 1.7. a Prodaja garnitura namjettaja
IIn>j 00....
)0
° prodaji
gamitura namiehaja
e... oj
gnrni.t ura
20 15 \0 5
II \ r\. I
/
V
./
r---1
;. 26
19 12 5 4
20
r--
I 0 predstavlja 1.0
Grafikon 1.8.
1\
~
6 Broj 9Qrnilu
Nl
IS 10
~
-rGrofikan i.7.c
ro
Grafikon i.7.b
Distribueiju frekvencija na osnovi diskontinuirane varijable predstavljaju vrijednosti u koloni 1 i 2 tabele 1.4. U koloni 4 te tabele nalaze se relativne frekvencije dobivene diobom apsolutnih frekvencija i njihova zbroja. Distribucija frekvencija graficki se prikazuje linijskim i povrsinskim grafikonom, odnosno histogramom. Linijski grafikon konstruira se u pravokutnom koordinatnom sustavu. Na osi apscisa nalazi se aritrneticko mjerilo za varijablu X, a na osi ordinata mjerilo za frekveneije. Linijski grafikon nastaje tako da se u locke koje predstavljaju vrijednosti X-a povuku okornite erte, velicina kojih ovisi o frekvenciji i aritmetickorn mjerilu osi ordinata. Distribucija iz tabele prikazana je linijskim grafikonom 1.7.a. Alternativno, prikaz nastaje spajanjem tocaka, koordinate kojih su vrijednosti X-a i pripadajucih frekvencija. Takav se prikaz naziva poligonom [rekvencija (1.7.b). Histogram je povrsinski grafikon koji se konstruira u pravokutnom sustavu s aritrnetickim mjerilima na osima. Urnjesto crta upotrijebe se pravokutnici. Pravokutnici se oslanjaju na os apscisa, na kojoj sc nalazi aritrneticko mjerilo za varijablu X, a visina pravokutnika odredena je
Distribucije frekvencija forrnirane na osnovi razreda prikazuju se linijskim grafikonom (poligonom frekvencija) i povrsinskim grafikonom (histogramom). Prije konstrukcije grafikona nuzno je utvrditi velicine razreda, Ako su veliiine razreda razticite, potrebno je korigirati frekvencije. Frekvencije se korigiraju tako da se podijele pripadnim velicinarna razreda iIi njima proporcionalnim vrijednostimao Poligon frekvencija nastaje spajanjem toeaka cije su koordinate odredene razrednim sredinama i (korigiranim) frekvencijama prema aritmetickim mjerilima osi apscisa i ordinata. Histogram se konstruira pomocu pravokutnika. Osnovice pravokutnika su proporcionalne velicinama razreda, a visine ovise 0 frekvencijarna, odnosno 0 korigiranim frekvencijama za distribucije nejednakih razreda. Upotreba korigirane frekvencije nuzna je zbog toga sto povrsina pravokutnika mora predstavljati numericku vrijednost frekvencije, a zbroj povrsina zbro] frckvencija. . U tabeli 1.5. navedena je distribucija osoba prijavljenih zavodima zu zaposljavanje. Grupiranje je provedeno u razrede prema vrijednostima kontinuirane numericke varijable. Prvi i posljednji razred su otvoreni, pa im je procijenjena donja odnosno gornja granica. Navod vrijednosti u zagradi upozorava da je rijec 0 procjeni. Distribueija ima pet razreda. Velicine su im: (5), 6, 15, 10 i (15), a razredne srcdine: (16.5), 22, 32.5, 45 i (57.5). Distribucija ce se prikazati poligonom frekvencija i histogramom. Pri konstrukciji obaju grafikona prirnijenit ce se 33
Tabela 1.5. Osobe prijavljene zavodima za zapo!ljavanje krajem 1990. Dob Broj osoba uOOO
u Republici Hrvatskoj,
stanje
f, 1
(14)-19 19-25
25-40
4 46.11
3.12
:-
Napornena: U izvoru su navedenc nominalnc grunice razrcdu. I2:Vor: Statistieki godisnjak Republike Hrvatske 1991, str. 130.
I
1141 19 25
I
50 (651 90dine starasfi
korigirane frekvencije dobivene diobom original nih frekvencija odgovarajucom velieinom razreda. Linljski grafikon 1.9.a konstruiran je na osnovi relativnih frekvencija, a histogram (grafikon 1.9.b) na osnovi apsolutnih frekvencija. Graficki se na istom grafikonu usporeduju numerieki nizovi. Da bi se usporediJe dvije iii vi~e distribucija na istom grafikonu, neophodno je da grupiranje podataka kojim su nastali nizovi bude provedeno prema istom obiljezju i na isti nacin. Osim toga, opsezi skupova (zbroj apsolutnih frekvencija) moraju za sve nizove biti pribliZno jednaki. Ako je ispunjen prvospomenuti uvjet, a drugi nije, usporedba ce se provesti na osnovi relativnih frekvencija. Za usporedbu se najce~ce upotrebljava Iinijski grafikon.
Struktura osoba prijavijenih zavodima za zapo!ljvallje u Republici Hrvatsko] - stanje krajem 1990. % 8.D 7.0 6.0
Kumulativni niz distribucije frekvencija »rnanje od« iii empirijska funkcija distribuzbrajanjem frekvencija. Zbrajati se mogu apsolutne iii relativne frekvencije, Za distribuciju frekvencija formiranu na osnovi vrijednosti diskontinuirane numericke varijable s apsolutnim frekvencijarna kumulativni niz nastaje ovako:
,I
I
/\
\
S,(X:5Xk)
= II
+ h + ... + t + ... + tk = N.
S.(Xj)
4.0
10
z.o
to
0.0
-,
<,
r-,
111.1 19
--
it/;,
.
; = 1,2, ..., k,
S.(Xj)
= !(X:5Xj)'
(1.6)
so
r--
1N
OS;S,(xj):5N.
. 35
(b)
Ernpirijska funkcija distribucijc numerickog niza s individuulnirn numericke varijable Xi relativnim frekveneijama je: i= 1,2, ... ,k, vrijcdnostima
S. (.,)
so (1.7)
10
I--
Umjesto relativnih frekveneija p u navedenom se izrazu mogu primjenjivati relativne frekvencije izrazene kao postoci, Svojstva empirijske funkcije distribucije formirane na osnovi relativnih frekvencija jesu:
IIJ
so
40
IIJ
0
(a)
F..(xj)=
,
10
0:5F x (xj):51,
r--
(11.1 19
-V
/'
.>
50
(jDd;1\e
(65) st"",st;
(b) Za distribuciju frekvencija u kojoj su vrijednosti varijable X dane u razredirna, empirijska funkcija distribucije formira se na analogan nacin, Tumacenje vrijednosti empirijske funkcije distribucije izvire iz nacina njezina postanka. j-ti clan S..(Xj) predstavlja broj podataka kojima je vrijednost numericke varijable jednaka iii manja od Xj. Vrijednost funkeije F(Xj) pokazuje kolika je proporcija elemenata osnovnog skupa s vrijednoscu numerieke varijable, koja je . manja ili jednaka Xj. . Ako je dana distribucija frekvencija s razredima, S.. (Xj) predstavlja broj a F(xj) proporeiju jedinica s vrijednoscu nurnericke varijable, koja je jednaka iii: rnanja od gomje graniee j-tog razreda, tj. onog razreda frekvencija kojeg je posljednja usla u kumulativni niz, Kumulativna funkcija je monotono neopadajuca, sto proistjece iz svojstava frekvencija. Ponekad se kumuliranje provodi u suprotnom smjeru. Rezultirajuci niz naziva se kumulativnim nizom »vise od«. Za nil u tabeli 1.4. izracunane su vrijednosti kumulativnog niza »rnanje od«, Vrijednost S..(5) = 59 pokazuje da je od 80 dana u njib 59 dnevno prodano pet i . manje gamitura, odnosno izmedu jedne i pet. Pripadajuea vrijednost FA5) = 0.7375 govori da je proporcija dnevne prodaje s pet i manje garnitura jednaka navedenoj vrijednosti. U tabeli 1.5. dane su vrijednosti empirijske funkcije distribucije za osobe prijavljene zavodu za zaposljavanje. Vrijednost funkcije F..(40) = 85.77 znaei da je dob 85.77% osoba prijavljenih zavodu za zaposljavan]e manja od 40 godina, odnosno da se krece izmedu 14 i 40 godina. Kada su dane pojedinacne, negrupirane vrijednosti nurnericke varijable, vrijednosti funkcije S.. i F.. mogu se odrediti na taj nacin da se najprije vrijednosti . varijable urede po velicini, a zatim se uzme u obzir da svaka od njih ima .;;;.. frekvenciju jedan. Nakon toga postupno se zbrajaju na vee objasnjeni nacin. :". Kumulativni niz »manje od« prikazuje se za diskontinuirano obiljezje stepenaSlim grafikonom, a za kontinuirano linijskirn grafikonom. Empirijske funkcije distribucije iz tabele 1.4. i 1.5. prikazane su grafikonorn 1.10.
Graflkon 1.10.
Grupiranjem, tabelarnim i grafickim prikazivanjem safirna se veci broj podataka u rnanji broj njih. Promatranjem uredenib varijacija iii grafickog prikaza dobiva se utisak 0 prirodi rasporedivanja podataka. Numerickim metodama deskriptivne statistike dolazi se do svodnih pokazatelja i dalje redukcije informacija. Pokazatelji kojima se opisuje gomilanje podataka oko neke vrijednosti nazivaju se srednjim vrijednostima iii mjerama centralne tendencije. Stupanj varijabilnosti.podataka rnjeri se mjerama disperzije (rasprsenosti), a nacin rasporedivanja u odnosu na neku vrijednost mjerama asimetrije. Mjerom zaobljenosti mjeri se oblik rasporeda podataka, Gomilanje podataka, njihova rasprsenost, nacin i oblik rasporedivanja karakteriske su pojava sto ih podaci predstavljaju. Brojcane vrijednosti pokazatelja tih karakteristika izracunane za populacijn nazivaju se parametrima. Ako su podloga racunanja vrijednosti iz uzorka, dobiveni pokazatelji su ocjene parametara.
"''''''~ii~NII
, ,
Najbolja rnetrieka svojstva imaju kvantitativne varijable, pa ce se za niz kvantitativnih podataka u principu moci utvrditi svaka srednja vrijednost, Nad modalitetima kvalitativnih varijabli nisu dopustene brojcane operacije, sto suzava izbor srednjih vrijednosti. Priroda raspolozivih podataka rakoder djeluje na izbor srednje vrijednosti. Podaci mogu pokazivati manji iii veci varijabilitet. Potpune . srednje vrijednosti osjetljive su na ekstrernno male iii ekstremno velike vrijednosti U odnosu na druge u nizu, pa ce se osirn njih odrediti polozajna srednja vrijednost. Srednje vrijednosti ima smisla izracunavati sarno za varijabilne podatkelste vrste.
Navedena se sredina naziva jednostavnom arifmetickom sredinom. Izraz se primjenjuje za racunanje sredine negrupiranih podataka. Kada su podaci grupirani, svaka se vrijednost X·a pojavljuje s nekom frekvencijom, pa se umjesto izraza za jednostavnu, primjenjuje izraz za vaganu iii ponderiranu aritmeticku sredinu. Ako se pode od vrijednosti Xi diskontinuirane numericke varijable X i njihovih frekvencija /;, aritrneticka sredina vrijednosti varijable je: - fix, x= odnosno:
i=-N'
1=('
.Lf;xi
N=
L/;. i=l
(1.9)
dana je izrazorn: i = Xl iii krace: (1.8) Kao primjer racunanja uzet ce se podaci su dobivene ove vrijednosti u rn:
Xi:
i=
1=1
Lp.x.
I
LPi= 1. i= I
(1.10)
Izraz (1.9) i (1.10) predstavlja ponderiranu (vaganu) aritmetieku sredinu. Ulogu pondera imaju apsolutne iii relativne frekvencije iii njima proporcionaine velicine, Ponderirana aritrneticka sredina nije posebna vrst sredine. Ovdje je rijee 0 kracern pisanju izraza za sredinu s obzirom na to da frekvencija pokazuje koliko se puta pojavljuje ista vrijednost numerickog obiljezja .• U tabeli 1.4. nalaze se podaci 0 prodaji garnitura narnjestaja u robnom centru evidentiranih u toku 80 dana. S obzirom na to da su podaci grupirani, valja upotrijebiti izraz za vaganu sredinu, Aritmeticka sredina u primjeru je: _ fl x=
Xl
9998
10002
9990
9996
10004
10000
10001
9989
9984
10000.
i = 4.6625 garnitura.
i = 9996.4 m.
. Prosjecna duljina niti iznosi 9996.4 m po kalemu. Nurnericki niz je graficki prikazan pornocu tocaka, Na grafikonu je naznacen polozaj aritrneticke sredine. Aritrneticka sredina rnofe se shvatiti kao teziste, sto je pokazano na grafikonu L11.
, •
•'• , mf •
•
.",
e- •
s:
Aritrneticka sredina odnosno prosjecna dnevna prodaja je u promatranom periodu iznosila 4.6625 garnitura. Kao sto se vidi, aritrneticka sredina poprima ovdje vrijednost koja se ne podudara ni s jednom opazenom vrijednosti nurnericke varijable. U distribucijama frekvencija za kontinuirana nurnericka obiljezja grupiranje se provodi po razredima. U postupku racunanja aritrneticke sredine distribucije u kojoj su dani razredi primijenit ce se izraz za vaganu aritmeticku sredinu. Vrijednost varijable X u razredu predstavljat ce razredna sredina. S obzirom na La da izracunana razredna sredina nije u pravilu jednaka pravoj razrednoj sredini • aritmeticka sredina takve distribucije izracunana kao vagana aritmeticka sredina bit ce aproksimacija stvarne aritmeticke sredine. U praksi se ta cinjenica najcesce
zanernaruje,
Grafikon 1.11.
39
Izraiunavanje aritmeticke sredine je vrlo jednostavno. Ponekad je medutim moguce i ekonomicno izvorne vrijednosti nurnericke varijable pojednostaviti. Pojednostavljenje se sastoji u smanjenju brojcanih vrijednosti, time se ubrzava postupak racunan]a. Transformacija nije bez znacenja ni u uvjetima prirnjene racunala za odredivanje nekoliko stotina sredina s tisucama podataka. Transformacijaiii kodiranje polazi od izraza: x;-a d;=-b-' i=1,2, ... ,N, (1.11)
Dob
Struktura
Pi
XI
d,
P1dl
gdje su a i b konstante, kojima se pojednostavljuju X. Izraz (1.11) se rnoze pisati u obliku: Xi=a+ b d.,
N
i=1,2,
N
i=1
Ld·
N'
i=~
~I =
«». = 29.98185,
i = 29.98godina.
+ bd,
k
i =a
d=~
d=Lp·d. i=1
(1.13)
Kodiranju prethodi izbor konstanti a i b, sto ovisi 0 danom slucaju. U distribucijarna frekvencija obicno se za a uzima vrijednost varijable odnosno razredna sredina u okolini najvecih frekvencija. Kada su razredi jednakih velicina, za pararnetar b prikladna je velicina razreda. Postupak racunanja sredine pomocu kodiranja primijenit ce se na podacima o duljini niti. U primjeru je a = 10000, a za b = 2. Prerna tome, aritrneticka sredina je: d. = x; - 10000 i=1,2, ... ,1O. i= 10000+2d, , 2 ' Vrijednosti varijable d jesu:
di:
Rasirenost primjene aritrneticke sredine izvire iz njezinih svojstava. Aritmeticka sredina irna ova svojstva: (a) Zbroj odstupanja vrijednosti varijable X od njezine aritmeticke sredine je jednak nuli:
.=1
.L
(xi- .i) = 0,
~= 1
.LJ;(Xi-i)=O.
(1.14)
1=1
."5:. XI- N i
Ni
N i = O.
-1
-5
-2 2
0 0.5
- 5.5
-8
0,
.L !.(xi-i)
=.L 1 J;xi-Ni=O. ,=
10000 + 2 (----uJ
-18)
'
i = 9996.4
m.
(b) Zbroj kvadrata odstupanja vrijednosti nurnerickog obiljezja X od aritmeticke sredine je minimalan, tj.: (1.15)
odnosno:
Buduci da je rijec 0 alternativnom postupku racunanja , dobiven je isti rezultat. Kodiranje dovodi do malih brojcanih vrijednosti, sto je veoma pogodno za izracunavanje i drugih statisticko-analitickih velicina, Za podatke 0 dobi osoba u tabeli 1.5. izracunana je aritrneticka sredina distribucije. Umjesto apsolutnih, u postupku se polazi od relativnih frekvencija. Postupak i medurezultati dani su u
tabeli 1.6.
41
.L (Xi .=1
odnosno:
~= I
X)2
X)
+ (X
- a)f
Za distribuciju
frekvencija,
1=1
prethodni
je izraz:
- i)2
.".i:. J;(Xi
- i)2
+N
(i - a)2, N =
.:i: f; 1=1
Relativni brojevi koordinacije su ornjerni brojevi, koji nastaju diobom dviju koordinirajucih veliclna. To su velicine koje se usporeduju. Primjer takvog broja je gustoca stanovnistva, dohodak po stanovniku, osnovna sredstva po zaposlenom itd. U prvom primjeru do relativnog se broja dolazi diobom broja stanovnika s povrsinom, u drugom diobom dohotka s brojern stanovnika, a u trecern diobom velicine osnovnih sredstava brojem zaposlenih. I sarna se aritmeticka sredina moze shvatiti kao relativni broj koordinacije: ona je omjer totala i broja vrijednosti . Njihova se aritmeticka sredina izracunava kao vagana sredina u kojoj su ponderi velicine iz nazivnika iii njima proporcionalne velicine. Relativni brojevi koordinacije opcenito se oznaeavaju izrazom:
Iz navedenog se zakljucuje da je zbroj kvadrata odstupanja vrijednosti obiljezja od aritrnetieke sredine rnanji od zbroja kvadrata odstupanja vrijednosti obiljezja od neke druge vrijednosti. Jednakost se dostize sarno onda ako je a = i, kada je drugi clan s desne strane prethodne jednadzbe jednak nuli. (c) Aritmetieka sredina uvijek secnalazi izrnedu najmanjc i najvece vrijednosti varijable: (1.16) (d) Ako su vrijednosti sredina te varijable jednaka nurnericke varijable jednake je toj konstanti, tj.: konstanti c, aritmetlcka
R,= B;'
V-
i = 1. 2 •... .k ,
( 1.19)
gdje su: Vi velicine pojave koja se usporeduje , B, su baze relativnog broja, odnosno vrijednosti pojave s kojorn se usporeduje pojava u brojniku. Aritrneticka sredina relativnih brojeva koordinacije definira se izrazom:
R=
tj. :
RI Bl
LRB· 1=1
I
s»
k
(1.20)
izracunana.
Ako se raspolaze s aritmetickim sredinama k podskupova u koje je rasporede no N elementa i ako se podskupovi medusobno ne preklapaju, zajednicka sredina za skup, odnosno aritmetiiika sredlna aritmetickik sredina izracunava se
pomocu izraza:
Pokaze Ii se potreba izracunavanja aritmeticke sredine postotaka, takoder ce se primijeniti izraz za vaganu aritmeticku sredinu, Aritrneticka sredina postotaka je vagana sredina, u kojoj su ponderi baze postotaka iii njirna proporcionalne velicine, Oznace Ii se postoci sa Pi, a njihove baze sa C;, i = 1, 2 .... , k, aritrneticka je sredina postotaka dana izrazorn:
p
tj.:
k
(1.21)
i=---
LNi· ,'= 1
I
'
k i=1
N= LNi•
1= 1
(1.18)
Podaci (hipoteticni)
za ilustrativni
primjer
Alternativno:
LWiii
i~IWi
i=:-k--·
Tabela 1.7. Izracunavanje aritrnetieke sredine sredina i aritrneticke sredine relativnih brojeva' ..' ..• Poduzece Broj zaposlenih Ni 1
i
I
Prosjecna
Aritmeticka sredina skupa je vagana aritmeticka sredina aritmetickih sredina podskupova u kojoj su ponderi opsezi podskupova iii njima prop?rcionalne vclicine W. Izraz (1.18) temelji se na definiciji aritrneticke sredine kao ornjera totala vrijednosti varijable i broja njezinih vrijednosti, Clanovl zbroja u brojniku '>U podtotali, a u alternativnoj formuli njima proporcionalne velicine. Na analogan se nacin racuna i aritmeticka sredina relativnih brojeva koordinacije i aritrneticka sredina postotaka. -12
placa
.\'1
Pi
5
2
2786 897 1317
3
14786 [7981 16544
~
'7$938 187987 :!9S73S4
A
B
I I
40.5 56.9
27.1
43
,_j!
_'_"',
,I
Prosjeena placa za sva tri poduzeca zajedno iznosi 15822.24 dinara i izracunana je kao vagana sredina pojedinacnih prosjeka. Pondere predstavljaju zaposleni u poduzecirna. Baza postotaka u koloni 5 tabele je nabavna vrijednost, pa je prosjecni postotak za sva tri poduzeca izracunan pomocu formule (1.21). Za pondere u prosjeku uzeta je nabavna vrijednost, Prosjecni postotak amortizacije za sva tri poduzeca iznosi 29.15 % . Izracunavanje aritrneticke sredine je jednostavno. I njezino je tumacenje jednostavno. U kompoziciji aritmeticke sredine sudjeluje svaki clan niza pa je ona svrstana u skupinu potpunih srednjih vrijednosti. Na aritrneticku sredinu, rnedutim, djelovat ce netipicno male iii netipieno velike vrijednosti u odnosu na druge u nizu. Zbog toga se u analitickirn postupcima primjenjuje i modificirana aritmeticka sredina. Modifikacija se sastoji u racunanju aritmeticke sredine pomocu clanova reduciranog niza. Smanjenje se provodi na razlicite nacine, npr. izostavljanjem prvih 25% i posljednjih 25% clanova niza uredenog po velicini. Umjesto redukcije prakticira se i zamjena dijela vrijednosti odabranim konstanlama kao npr. kvartilima. Aritmeticka sredina je najrasirenija srednja vrljednosr, ali se uz nju upotrebljavaju, dod use rjede, i druge potpune vrijednosti. Medu njima se nalazi geometrijska sredina.
Geornetrijska sredina primjenjuje se u analizi vremenskih nizova. Pomocu nje izracunava se prosjecna stopa promjene pojave. Logaritam geometrijske sredine upotrebljava se kao dobra srednja vrijednost za asimetricne rasporede podataka. Logaritmi vrijednosti takvih varijabli blize su simetricnom rasporedu, pa je u pravilu aritmeticka sredina logaritama reprezentativna srednja vrijednost. Geornetrijska sredina, kao i svaka srednja vrijednost, nalazi se izmedu najmanje i najvecevrijednosti niza za koji je izracunana. Brojcano se razlikuje od aritmeticke sredine. Geometrijska sredina manja je od aritrneticke. One su rnedusobno jednake sarno ako su svi clanovi niza medusobno jednaki. Za prije navedene podatke placama 15 zaposlenih izracunana je geometrijska sredina, i to ovako:
G= V8·15·19···29,
15,----
G= 18.203.
Aritrneticka sredina istog niza je 19.867. U primjeru je primijenjen izraz za jednostavnu sredinu. U tabeli 1.4. nalazi se distribucija frekvencija. Aritrneticka sredina te distribucije je 4.6625 gamitura dnevno. Geometrijska sredina distribucije odredit ce se pornoci izraza za vaganu sredinu. U ovom je primjeru: G=
80r--'--~
VII 2
5 •.•
84,
= 4.394.
Iz rezultata je vidljivo da je geornetrijska sredina manja od aritmeticke. Turnacenje aritrneticke sredine numerickog niza je jednostavno, sto nije sluca] s geornetrijskom sredinom.
odnosno: G=
TIxVfj;o
;=t
Xi>
0, za svaki i,
Llogx ..
J
-+-+
X2
1'
XN
Geometrijska sredina je N-ti korijen iz produkta vrijednosti numericke varijable. Logaritam geometrijske sredine nurnericke varijable X je aritmeticka sredina logaritama njezinih vrijednosti. Prethodno definirana je [ednostavna geometrijska sredina. Grupiraju Ii se podaci u distribuciju frekvencija, primijenit ce s-= izraz za vaganu geometrijskic sredinu u kojoj su ponderi frekvencije. Gcornetrijska sredina distribucije frekvencija definirana je ovako:
(1.24) Izraz (1.24) predstavlja [ednostavnu harmonijsku sredinu. Za distribucij u frekvencija harmonijska sredina se racuna tako da se uzrnu u obzir Irekvencije iii njima proporcionalne velicine kao ponderi pojedinih vrijednosti varijable X. Ponderirana harmoniiska sredina je:
N=
-1-1
tlr.
(1.23)
.~
.-
"
H=
r. +h +
fl+h+
XI
X2
:~I{;
k
1.2.4. Mod
(1.25)
iqIXr
fli..
kvalitativne iii kvantitativne varijable, odnosno modalitet s najvecom frekveneijom. Ako nomiualna varijabla poprima k oblika, mod je oblik za koji vrijedi:
j
~
I
Harrnonijska sredina moze se shvatiti kao reciprocna vrijednost aritrneticke sredine reciprocnih vrijednosti varijable X. U praksi se rijetko prirnjenjuje. Upotrebljava se za izracunavanje sredine relativnih brojeva s istim brojnicirna. Aritmeticka sredina relativnih brojeva koordinacije izracunava se kao vagana aritrneticka sredina u kojoj su ponderi nazivnici relativnih brojeva, Ako nazivniei nisu poznati, a brojnici jesu iii se lakse procjenjuju, do sredine ce se doci pomocu izraza za vaganu harmonijsku sredinu. Tipicna je primjena harmonijske sredine u izracunavanju produktivnosti rada mjerene utroskom vremena po jedinici. Pretpostavit ce se da je rijec 0 cetiri radnika koji su u toku osmosatnog radnog vremena po proizvodu utrosili: radnik A 10, B 6, C 5 i radnik D 4 minute. Primijeni Ii se za izracunavanje prosjecnog utroska radnog vremena po jediniei jednostavna aritmeticka sredina, dobit ce se prosjeeno vrijeme po jedinici u iznosu od 6.25 minuta. Prosjecno radno vrijerne po jedinici izracunava se tako da se ukupno utroseno vrijerne podijeli brojem proizvoda. Svaki je radnik radio 8 sati, pa je utroseno vrijeme svakog od njih 480 minuta, iii ukupno 1920 minuta. Ako je prvi radnik po proizvodu utrosio 10 minuta, u toku osmosatnog radnog vremena (480 minuta), izradio je 48 proizvoda, radnik B 80, radnik C 96, a radnik D 120 proizvoda, iii ukupno 344 proizvoda, Prosjecni utrosak po proizvodu za sva eetiri radnika zajedno u minutama je: 1920/344, odnosno 5.58140. Taj je rezultat ispravan, jer umnozak broja proizvoda i prosjeka daje ukupno utroseno vrijeme. Urnnofak prosjeka 6.25 sa 344 daje ukupno utroseno vrijeme od 2150 minuta, sto nije tocno. Primjenom izraza za jednostavnu harmonijsku sredinu dobiva se ispravan rezultat. Buduci da svaki radnik radi 8 sati odnosno 480 minuta, utroseno radno vrijeme po proizvodu radnika su razlomci s istirn brojnicima. Harmonijska sredina je u primjeru:
f(a])
= max
(f(a;),
i=I.2
..... k.
(1.26)
Mod nominalnog niza utvrduje se alternativno na osnovi reIativnih frekveneija (modalitet s najvecorn relativnom frekvencijorn). U tabeli .1.1. .gru~irana ~~ poduzeca prema oblieima vlasnistva. Nom~~al~a vari~abla ovdje s.e JavlJa.u C:~Ufl oblika. Mod, odnosno modalna kategorija je »Privatno vlasnistvo«, jer rrna najvecu frekveneiju. . Za dani niz vrijednosti varijable ranga r mod je najcesCi rang, tj.:
i=I,2,
... ,k.
(1.27)
U tabeli 1.3. naveden je redoslijedni niz zaposlenih prema stupnju strucnog obrazovanja. Modalna kategorija, odnosno modalni rang za ukupan broj zaposlenih je »Kvalificirani radnik«, Taj modalitet ima najvecu frekvenciju (439.6). Najcesci stupanj strucnog obrazovanja zaposlenih u privrednim djelatnostima je "Kvalificirani radnik«, a u neprivrednim »Srednje strucno obrazovanje«, Ako su dane pojedinacne vrijednosti numerdke varijable X, modalna je vrijednost najce§ca vrijednost X-a. Mod se ne rnoze odrediti ako ne postoje bar dvije jednake vrijednosti varijable, Sljedeci niz predstavlja cijene jednog proizvoda evidentirane na 10 prodajnih mjesta:
Xi:
278
290
267
288
290
250
290
276 varijable
292
290.
Najcesca
je prodajna
= 480
-+-+-+10 6
+ 480
480 = 4
+1)
U distribuciii frekvencija diskontinuirane numericke nost numericke varijable s najvecorn frekveneijom, tj.: I(x)
= max (1(x,)).
1
5
1) = 1
-+-+-+10 6
1
5
1
4
+ 0.25000'
H= 5.5814.
Harrnonijska sredina nalazi se u intervalu izmedu najmanje i najvece vrijednosri varijable. Harmonijska sredina numerickog niza manja je ad geometrijske i aritmeticke sredine tog niza. Za niz placa 15 zaposlenih aritmeticka sredina iznosi 19.867, geometrijska 18.203, a harmonijska 16.482 tisuce HRD. Te srednje vrijednosti za distribueiju iz tabele 1.4. jesu: aritrneticka sredina 4.662, geometrijska 4.394, a harmonijska 4.065 garnitura dnevno. . Kao sto je vee istaknuto, osim potpunih srednjih vrijednosti znacajno mjesto U statistickoj analizi imaju pozicijske srednje vrijednosti, Njihov naziv upucuje na 10 da su odredene polozajern u nizu. Najvaznije pozicijske srednje vrijednosti jesu mod i medijan. .
Ako su u distribuciji umjesto apsolutnih frekvencija dane relativne, identifikaeija moda provodi se na isti nacin. Mod distribucije dnevne prodaje garnitura narnjestaja (tabela 1.4) iznosi 4 garniture, tj. najcesca dnevna prodaja iznosila je 4. .. .. U distribuciit frekvencija s razredima modalna vrijednost se aproksimira na razlicite nacine, Jedan od njih sastoji se u primjeni frekvenclja ispred i iza modalnog razreda kao pondera koji utjecu na pomicanje moda od razredne sredine modalnog razreda prema donjoj odnosno gornjoj granici tog razreda. Da bi se utvrdila vrijednost moda distribueije, potrebno je pronaci modalnl Modalni razred je razred s najvecorn frekveneijom. Ako su razredi nejcdnakih velicina, modalni razred je razred s. najvecorn korigiranom frekvenci[om. Koriairana frekvencija je definirana kao ornjer frekvencije i velicine razreda iii velicini ~azreda proporcionalne velicine. Sa b ce se oznaciti najveca (korigirana) 47
razred.
~.
, ,
"
I I
to ABC- to DB
= L. + (b _ a) + (b _ c)
(b - a)
.
t.
(1.28.a)
Ib·.J
"~' --it,I I I I
Ib·<I
/1' I
I I I
I I I I
"
Iii-I
frekvencija, sa a korigirana frekvencija ispred nje, c je korigirana frekvencija iza frekvencije b, a i je velicina modalnog razreda, dok je L\ donja granica modalnog razreda. Izraz za mod west ce se pomocu histograma, kako je pokazano na grafikonu 1.12. Iz grafikona je vidljivo da je modalna vrijednost veda od donje granice modalnog razreda za nepoznati dio vrijednosti z-a. Pomocu naznacenih spojnica dobivena su dva slicna trokuta. Na temelju svojstava slicnih trokuta nepoznata velicina x dobiva se iz sljedeceg omjera:
.%: (i -.%) = (b - a): (b - c).
Za zvonolike pribliino simetricne distribucije aproksimativna vrijednost moda jednaka je razrednoj sredini modalnog razreda. U tabeli 1.8. nalazi se distribucija zaposlenih prema velicini placa u industrijskoj grani Proizvodnja obojenih metala. Za tu ce se distribuciju izracunati mod odnosno najre§ca placa. Za distribuciju su najprije utvrdene velicine razreda. Kako su one razliCite, prije izracunavanja moda treba utvrditi korigirane frekvencije. Kao jedinicna uzeta je velicina razreda od 1000, pa su korigirane frekvencije prvih dvaju razreda jednake originalnim frekvencijama. Korigirane frekvencije treceg, cetvrtog i petog razreda dobivene su diobom polaznih frekvencija sa 2, a posljednja diobom izvorne frekvencije s 8. Modalni je razred 6000.5-8000.5, jer mu pripada najveca korigirana frekvencija. Elementi za izracunavanje moda u primjeru jesu: L. = 6000.5, b = 25.35, a = 17.1, c = 10.0, i = 2000. Prema tome, vrijednost moda je ; (25.35 - 17.1) Mo = 6699.7.
Tabela 1.8. Struktura zaposlenih u grani Proizvodnja obojenih rnetala u Republici Hrvatskoj u rujnu 1990. godine Place u HRD Struktura zaposlenih u % Pi 1 4000.5- 5000.5 5000.5- 6000.5 6000.5- 8000.5 8000.5-10000.5 HIJOO. 5-12000.5 12000.5-(20000.5)
Lkupno
Velicina razreda
t,
3 1000 1000 2000 2000 2000 (8000)
1.2.5. Medijan
Medijan je vrijednost numericke varijable X, koja niz ureden po velicini dijeJi na dva jednakobrojna dijela, Prva polovica clanova niza ima vrijedncst varijable jednaku medijanu ili manju od njega, a preostalih 50% elernenata ima vrijednost
49
Napomena: U izvoru su dane nominalne gran ice razreda. lzvor: Statisticki godisnjak Republike Hrvatske , 1991.
varijable X vecu od medijana. Medijan je odreden polozajem u nizu i zbog toga se ubraja u skupinu pozicijskih srednjih vrijednosti. Odredivanje medijana svodi se na pronalafenje vrijednosti obiljezja sredisnjeg elementa u nizu. Ako je dana distribucija frekvencija s razredima, vrijednost se medijana izracunava postupkom interpolacije. . Medijan'M. N negrupiranih vrijednosti varijable X odreduje se taka da se one najprije urede po velicini, od najmanje prerna najvecoj, Ako je N neparan broj, medijan je vrijednost varijable sredisnjeg clana uredenog niza, Kada je N paran, medijan je poluzbroj vrijednosti varijable sredisnjih dvaju clanova uredenog niza. Simbolieki:
pakiranja prema broju neispravnih proizvoda Broj paklranja f; 2 35 150 200 80 30 5 500 Kumulativni niz »manje ode
SAxj)
3 35 185 385 465 500
1 0 1 2 3
x.,
X,
N "'2*INT,
1
4
5
495 -
r= INT(I) r=2·
N
+1
(1.29)
M=
•
Ukupno
+;'+
N =INT 2 '
U prethodnom izrazu INT je oznaka za »cijeli dio razlornka«. Za ilustrativni primjer uzet ce se podaci 0 mjesecnim izdacima za prehranu 15 anketiranih cetveroclanih kucanstava. Vrijednosti su dane u tisucama HRD, i to ovako:
Xi:
12 4
13 6 3 8
11 5
17 14 12 20
16.
16 17 20.
M. N je 15, tj. neparan broj, pa je redni broj clana vrijednost kojega predstavlja medijan: r = INT(NI2) + 1 = INT(1512) + 1 = 7 + 1 = 8. Medijan je vrijednost izdataka kucanstva s rednim brojem 8, tj. M. = 11 tisuca HRD. Prosiri li se niz podatkom za jos jedno kucanstvo s velicinorn izdatka od 22 tisuce HRD, niz ce imati 16 clanova (paran broj) i bit ce:
x.: 3
445
678
12 13
14 16 17 20 ~22.
i (r
M. = .!..(Xs + X9) =.! (11 + 12), M. = 11.5 tisuca HRD. 2 2 Medijan pokazuje da je prva polovica anketiranih kucanstava imala izdatke za prehranu manje od 11 tisuca, a druga vece od tog iznosa. Za prosireni niz visina tog izdatka je 11.5 tisuca HRD. Da bi se odredila vrijednost medijana za distribuciju [rekvencija diskontinuiranog nurnerickog obiljezja, nije potrebno uredivati vrijednost varijable, jerdistribucija frekvencija predstavlja ureden niz. Pronalazenje vrijednosti varijable sredisnjeg clana niza pojednostavljuje se upotrebom ernpirijske funkcije distribucije odnosno kumulativnog niza »rnanje od«. Medijan ce se odrediti za distribuciju frekvencija u tabeli 1.9.
50
U primjeru je N = 500 i paran je broj. Medijan je poluzbroj vrijednosti varijable s rednim brojem 250 i 251. Prvi clan kumulativnog niza sadrfi elemente s rednim brojem od 1 do 35, drugi ad 1 do 185, treci od 1 do 385 itd. V pakiranjima s rednim brojem od 1 do 185 broj defektnih proizvoda je izmcdu () i 1. Broj defektnih pakiranja s rednim brojem 11)6do 385 iznosi 2. Prema tome, 250-i i 251-i clan imaju vrijednost varijable 2, iz cega se zakljucuje da je medijalni broj defektnih proizvoda jednak 2. Ako su u distribuciji dane relativne trckvencijc, za mcdijan se uobicujcno uzima vrijednost varijable s prvorn kumulativnom frekvencijom, koja sadrZi vrijednost 0.5, odnosno 50, aka su frekvencije dane u postocima. Kada u kurnulativnorn nizu »rnanje od« postoji kumulativna frekvencija jednaka tocno 0.5 odnosno 50. ocito je da je broj clanova niza paran. U tom se slucaju vrijednost medijana odreduje kao poluzbroj vrijednosti varijable s kumulativnom frekvencijom 0.5 i sljedece vrijednosti varijable u nizu. U distribuciji frekvencija s razredima nema podataka 0 pojedinacnim clanovirna niza. U svakom razredu su e1ementi s vrijednoscu numerickog obiljezja izrnedu njegovih granica. Da bi se odredila vrijednost medijana u distribuciji s razredirna, pretpostavit ce se da su clanovi niza u medijalnom razredu medusobno jednako udaljeni. Medijalni razred sadrfi clan niza koji zadovoljava definiciju medijana. Po de Ii se od navedene pretpostavke 0 jednolikom rasporedu elemenata u razredu, vrijednost numerickog obiljezja s rednirn brojem r dana je sljedecirn izrazorn:
(1.30)
:t<
vcliciria tog razreda, a f njegova frekvencija, dok je j redni broj elementa u tom razrcdu, Izraz (1.30) moze se upotrijebiti za izracunavanje medijana. Ternelj
Iorrnule (1.30) pojasnit ce se primjerom. Uzet ce se da se radi 0 distribuciji s ruzredirna i da valja odrediti vrijednost obiljezja jedinice s rednim brojem 82. Clan 51
niza s tim rednim brojem je treci u razredu kojemu je donja granica 30, velicina 10, a frekvencija 5. Zbroj frekvencija do tog razredaiznosi 79. Poloza] trazene vrijednosti uocljiv je iz grafikona 1.13.
Aproksimacija vrijednosti obiljet]« jedinice u razredu
Redni broj flana -Vrijedncst x-a
Da bi se izracuaala medijalna vrijednost prodajnog prostorra, odredit ee se najprije redni broj: r = NI2 = 9941. Buduci da je N paran, medijan je jednak ovom poluzbroju:
M=
X9941
+ X9942 2
?IO l,
t:~'==~=='==~~'~-=--~I--~~'L_-:
8\. B2. 81,.
eo.
l!
3I.:IS
311
36
c,o
L2
Grafikon 1./3.
Prva apsolutna frekvencija sadrfi prodavaonice od prve do 2286, zbroj prve i druge iznosi 7918 i u njemu su elementi od prvog do 7918, zbroj prve, druge i trece iznosi 14269 i rnedu njima su i::lanovi s rednim brojem 9941 i 9942. Prema tome, medijalni je treci razred. Spomenuti zbrojevi I:lanovi su kumulativnog niza »manje od«, Medijalni razred ima frekvenciju 6351, velicina mu je 30, a donja granica 30.5 (precizna granica). Clan s rednim brojem 9941 u tom je razredu po redu 2023. Prema (1.30):
X9941 =
Iz grafickog je prikaza vidljivo da su clanovi frekvencije, koja iznosi 5, medusobno jednako udaljeni. Prema naznacenim vrijednostirna uocava se da je vrijednost varijable X clana s rednim brojem 82 jednaka 35. Do tog se rezultata dolazi izravno primjenom formule (1.30): x82=30+ Mogucnost primjene frekvencija je ocita, 10 ( S 3-2"
30.5
1) =35.
X9942
X99-Il
= 40.05361
X'l'm
= 40.05834.
medijana
distribucije
Poluzbroj prethodnih vrijednosti iznosi 40.055975 i predstavlja medijan distribucije. Zaokruzi Ii se rezultat na cijeli broj, turnacit ce se ovako: prodajni prostor prvih 50% trgovina na malo (uredenih po velicini) iznosio je 40 i manje kvadratnih metara, dok su ostale imale veci prodajni prostor. U izracunavanju medijana distribucije frekvencija s razredima moze se primijeniti sljedeci izraz:
Tabela 1.10. Trgovine na malo prema velieini prodajnog prostora i ukupni prodajni prostor u Hrvatskoj 1989. godine Prodajni prostor u kvadratnim rnetrima Broj
prodava-
(1.31) U navedenom izrazu L, je donja prava iii precizna granica medijalnog razreda. To je razred s najmanjom vrijednosti empirijske funkcije distribucije (kumulativnog niza »rnanje od«), koja ukljucuje velicinu N12. N je ovdje zbroj apsolutnih iii relativnih frekvencija. Lfl je zbroj frekvencija do medijalnog razreda, i je velicina medijalnog razreda, a fmcd je frekvencija medijalnog razreda. Izraz (1.31) izveden je na temelju pretpostavke 0 jednolikom rasporedu clanova niza u razredu i dovodi do istog rezultata kao i (1.30). Medijan distribucije frekvencija odreduje se i grafieki, Za graficko odredivanje medijana potrebno je nacrtati kumulantu, odnosno graficki prikazati empirijsku funkciju distribucije. Aproksimacija medijana dana je apscisom presjecista pravca paralelnog s osi apscisa i kumulante. Pravac prolazi tockom na osi ordinata (0; N12), odnosno (0; 0.5), ako su dane relativne frekvencije. Medijan se odreduje i za ordinalni niz. Modalitetima varijabJe ranga svojstveno je da se mogu urediti prema stupnju intenziteta danog svojstva. Medijan za uredeni niz podataka je rang koji uredeni niz podataka dijeli na dva jednakobrojna dijela. Sam postupak odredivanja medijana ordinalnog niza jednak je postupku za niz pojedinacnih vrijednosti iii za distribuciju frekvencija diskontinuirane nurnericke varijable. Modaliteti varijable ranga uobicajeno se izrazavaju
53
onica f;
Ukupni prodajni prostor T; 3 14684 125864 280921 207371 252089 242908 161415 124307 71831 238976 1720366
Struktura prod avaonica p; 4 0.1150 0.2833 0.3194 0.1333 0.0887 0.0400 0.0118 0.0046 0.0015 0.0025 l.0000
Kumulativni niz
prodava-
oniea F,(x;) 6 0.1150 0.3982 0.7177 0.8510 0.9397 0.9797 0.9915 0.9961 0.9975 1.0000
predajnog prostora Fr(TJ) 7 0.0085 0.0817 0.2450 0.3655 0.5121 0.6533 0.7471 0.8193 0.8611 1.0000
PT
5 0.0085 0.0732 0.1633 0.1205 0.1465 0.1412 0.0938 0.0723 0.0418 0.1389
1 10 Il-' .' 30 31- 60 61- 100 101- 200 201 - 500 501 -1000 1001 - 2000 2001- 3000 3001 i vise Ukupno
pomocu prvih n prirodnih brojeva. Padne li medijan izmedu dva susjedna modaliteta, uzet ce se prosjecni rang, odnosno ojihov poluzbroj. Time se cini prakticni, teorijski nedopusten, kompromis, jer nad modalitetima varijable ranga nije dopustena operacija zbrajanja. Medijan se kao srednja vrijednost nalazi izmedu najmanje i najvece vrijednosti za koje je odreden. Ima i svojstvo da je zbroj apsolutnih odstupanja podataka ad medijana minima/an, tj.:
(1.32)
frekvencija:
k
1=
I,
a*M ..
(1.33)
Medijan je izrazen u mjernim jedinicarna varijable. Lako se tumaei i jednostavno odreduje. Na vrijednost medijana ne utjecu ni male ni velike vrijednosti u nizu, Promjena vrijednosti manjih iii vecih od medijana ne uzrokuju promjenu te srednje vrijednosti, uz uvjet da se ne rnijenja broj elanova niza i njihov rang (poredak). Prikladan je kao mjera centralne tendeneije za izrazito asirnetricne rasporede, kao i za distribueije frekveneija s otvorenirn razredirna izuzevsi slucaj kada otvoreni razred sadrfi sredisnji clan niza.
deskriptivnostatisticke velicine. Primjenu nalaze u koje pret~odi s~a~stickom ~od~liranju (II?A~ ED~~. Pomocu njih se osim toga izracunavaju statlstlcko-anahtH~k~ po~~teljl dlsp~rzlje i asimetrije. Kao sto je spomenuto, kvantil reda dva je srednja vrijednost medijan, . Kvantili koji dijele statistieki niz na teliri je~nak? dijel~ naziva)~ .se kV~rlilim? Kako je u ovom slucaju red kvantila q = 4, postoje tn kvarll~a: p.rvllh dO~Jl kvartl!, drugi kvartil iIi medijan, treci iii gornj~ kvarli~ .. Odr~~lVanJe .kva~~lIa za ruz rangiranih pojedinacnih vrijednosti numericke varijable Ih za dlstn.bucIJu .f.rekven: cija na osnovi diskontinuirane varijable provodi se pron.ala~enJ~m vf1Jedno~tl varijable s rednim brojevima u skladu sa (1.34). ~ ~lstnbuelJu ~rekven.cIJ3 kontinuirane numericke varijable, odnosno za distribuciju s razredirna om se izracunava]u interpolacijom uz pomoc izraza (1.30). . .. .,. . Uzme Ii se u obzir (1.34), donji kvartil niza rangiramh pojedinacnih vrijednosti nurnericke varijable dan je ovako: ~ =foINT, N=INT N r=4'
Kvantili
su znacajne
(1.35)
'
Analogno
1.2.6. Kvantili
Kvantili su vrijednosti numericke varijable koji niz ureden po velicini dijele na q jednakih dijelova. Broj kvantila p je za jedan manji od njegova reda q. Iz prijasnjeg opisa vidljivo je da je medijan kvantil reda q = 2, pa je p = 1, 5tO je razumljivo, jer je dovoljna jedna vrijednost da se niz podijeli u dva jednakobrojna dijela, Kvantili koji dijele niz na deset jednakih dijelova nazivaju se decili. Ukupni broj decila je devet, Percentili dijele niz na sto jednakih dijelova i njih je ukupno devedeset i devet, . Odredivanje kvantila svodi se na uredivanje niza vrijednosti nurnericke varijable po velicini i pronalazenje clanova u nizu S odredenim rednim brojevima (rangorn). Ako uredeni niz sadrfi N elanova, i ako je rijec 0 vrijednosti i kvantila reda q, tada se rnoze pokazati da su redni brojevi pornocu kojih se pronalazi vrijednost kvantila dane sljedecirn izrazom': i=1,2, ... ,p. (1.34)
X"
'
r=-. 3N
Q,= {
-
X,+X'''l
-=INT 4 '
3N
(1.36)
Iz definicije kvantila proizlazi tumacenje kvartila. Donji kvartil je vrijednost varijable koja clanove niza dijeli u dvije skupine. U prvoj se skupini n~lazi 114 elemenata s vrijednostima varijable koja je jednaka ili manja od kvartila, a u drugo] su skupini 3/4 clanova s vecirn vrijednostima od ~vartila .. T~eti kva.rtil)e vrijednost varijable, koja dijeli niz na dva dijela. U prvoJ. su skupini ~lanovl, ~Jlh 3/4 s vrijednostima varijable koja je jednaka ili rnanja od gornJeg kvartila, Posljednja cetvrtina ima vrijednost obiljezja vecu od treceg kvartila. Turnacenje drugog kvartila vee je dano, jer je drugi kvartil jednak rnedijanu. lzmedu donjeg i gornjeg kvartila nalazi se 50% srediSnji_h podar~ka:. _.. Podaci izdacima za prehranu 1:1 anketiranih kueanstava POSIUZlh su za odredivanje medijana. ani ce se takoder iskoristiti za ilustraciju postupka odredivanja kvartila i deeila. Podaci uredeni po velicini jesu:
Xi:
34
567
11
12
12
13 14
16 17 20.
Donji jc
Kada Nilq nije eijeli broj, tada je rJ r2' Ako je Nilq eijeli broj, vrijednost i'lOg kvantila reda q nalazi se izmedu X-a s rednim brojem rJ i r2' Najce~ee se uzima poluzbroj velicina ).:" ir.; LSp. Clarke G.M. and D. Cooke (1984). A Basic Course in Statistics. 2nd Edt. London: Arnold. SIr. 49.
1. r = r:-\T(45/4)
= 11 + 1,
Q3
== X12' 55
D9 =X" D9=
Ako je u pitanju deveti decil, red je kvantila q = 10, dokje i = 9. (Nilq) INT, , = INT(9NI10) + 1 = INT(135/1O) + 1, r = 13 + 1, , = 14, D9 = X14,
17.
*"
(1.37) a za gornji kvartil: (1.38) Sa L. oznacena je donja granica kvartilnog razreda; N je ukupan zbroj clanova niza; 'Lfl je zbroj frekvencija do kvartilnog razreda; [kyo, je frekvencija kvartilnog razreda; i je velicina kvartilnog razreda, Pri izracunavanju kvartila urnjesto apsolutnih mogu se primjenjivati i relativne frekvencije. U tom se slucaju N izjednacava sa 1 odnosno sa 100. U postupku je donja granica prava odnosno precizna. Imajuci na umu svojstva varijable, kvantili se odreduju i za redoslijedni niz. Postupak je isti kao i za niz pojedinacnih vrijednosti nurnericke varijable, odnosno za distribuciju frekvencija diskontinuiranog obiljezja,
Prvi kvartil pokazuje da prva cetvrtina anketiranih kucanstava ima izdatke za prehranu manje od 5 tisuca HRD, a posljednje tri cetvrtin~ su s ~eCim izdacima za prehranu. Treci kvartil iznosi 14 tisuca HRD, pa prve ttl cetvrtme kudanstava imaju izdatke za prehranu manje od 14, a izdaci za prehranu posljednje .cetvrtine kucanstava yeti su od spomenutog iznosa. Pri tome se pretpostavlja .da su vrijednosti izdataka za prehranu uredene po velicini. Deveti decil je 17 tisuca HRD, pa je devet desetina kucanstava s izdacima za prehranu manjim od 17, a jedna desetina s vecim izdacima. . . U distribuciji frekvencija diskontinuirane numericke varijable, vrijednosti su vee uredene po velieini, pa se postupak odredivanja kvantila svodi na utvrdivanje rednih brojeva podataka. Postupak identifikacije se ubrzava upotrebom empirijske funkcije distribucije. Za distribuciju frekvencija u tabeli 1.9. odredit ce se kvartili. U ovom je primjeru N = 500. N/4 = INT. N/4 = 125. Prvi je kvartil: Ql QJ
= (Xll.'> = (XJ1S
+ XI26)/2,
Q.=1. Q3=2.
+ XJ16)/2,
U distribuciji frekvencija s razredima danoj u tabeli 1.10. broj clanova niza odnosno ukupan broj prodavaonica je N = 19882. Da bi se odredio donji kvartil, utvrdit ce se prema (1.35) redni broj prodavaonice kojoj je povrsina donji kvartil. U primjeru je N/4 INT, r = INT(19882f4) + 1 = 4970 + 1, r = 4971. Prema tome,
*"
S obzirom na to sto nisu poznate povrsine prodavaonica, za odredivanje kvartila sluzl interpolacijski izraz 1.30. Prodavaonica s rednim brojem 4971 nalazi se u drugom razredu. Donja granica tog razreda je 10.5 (precizna granica), njegova je frekvencija 5632. a velicina 20. U prvom su razredu prodavaonice od prve do 2286. Prodavaonica kojoj je povrsina donji kvartil je u drugom razredu, i to 2685 po redu. Donji je kvartil: QI
X4911 = X491.
QI =X4911'
=X4911.
L.
7& - ~)
= 10.5
+ 5!~2 (2685 -
t)
gornjeg
= 20.03303,
Q. = 20.03303. se i vrijednost
formule izracunava
Povrsina prvih 25% prodavaonica u distribuciji irna povrsinu prodajnog prostora do (zaokruzeno) 20 kvadratnih metara, a preostalih 75% prodavaonica je s vecorn povrsinorn. Treci kvartil govori da prvih 75% prodavaonica ima povrsinu do (zaokruzeno) 70 kvadratnih rnetara , a preostalih 25% je s vecorn povrsinorn. Izraz za izracunavanje donjeg kvartila moze se pisati alternativno na sljedeci
nacin:
57
a povecava se s njezinim povecanjem. Za niz od N negrupiranih kvantitativnih podataka raspon varijacije je dan izrazom:
(1.39)
raspon je (1.40)
Raspon varijacije distribucije frekvencija s razredima mofe se odrediti ako je poznata najveca i najmanja vrijednost varijable, sto u pravilu nije slucaj, Raspon se aproksimira kao razlika gomje granice posljednjeg i donje granice prvog razreda, iii se izracunava razlika izmedu razredne sredine posljednjeg i prvog razreda, Opcenito je odredivanje raspona varijacije u takvim distribucijama frekvencija nepouzdano. Raspon varijacije je izrazen u mjernim jedinicama varijable X i po tome se ubraja medu apsolutne mjere disperzije. Odreduje se vrlo jednostavno. Jednostavno je i tumacenje te mjere. Nedostatak joj je sto polazi sarno od dviju vrijednosti niza, i to najmanje i najvece, a ne uzima u obzir rasporedivanje preostalih podataka. Najmanja i najveca vrijednost u nekim su slucajevima . netipicne (outliers) i mogu nastati kao rezultat neuobicajenih okolnosti iii greske u opazanjima. Primjenjuje se za mjerenje varijacija, npr. cijena, promjena, tecajeva dionica na burzama. U primjeru izdataka anketiranih kueanstava najmanji izdatak za prehranu iznosi 3, a najveei 20, pa je raspon varijacije od 3 do 20 odnosno 17 tisuca HRD.
. K~eficij~nt ~vartilne ~~vijacije b~lja je mjera nego raspon varijacije. U rnJer~nJ~ rasipanja od~tranJu~e se polo_vlcapodataka (vrijednosti manje od donjeg k~art!~a ! ve~.eod go.rnJeg). TIme se ostgurava da na mjeru ne djeluju izrazito male ru ~ehke vrijednosti. Nedostatak je i te mjere sto se zasniva na upotrebi sarno dvaju podataka, a ostali na nju ne utjeeu. . . U pret~o~noj i istrafivackoj analizi kvantitativnih podataka raspon varijacije I interkvartilni razmak prikazuju se grafieki. Grafikon 1.14. ubraja se rned Tukeyjeve! dijagrame (Box-and-Whisker-Plot, B-P). u
Opti izgled
Tukeyjellog dijagrama
B-P
Grafikon 1.14.
Q:5l.
1.4
2)
~a kons~~kci~u B-~ dijagra'!"a na~prije se izracunaju vrijednosti donjeg kvartila, medijana I gornjeg kvartila, te mterkvartila. Zatim se naznaci horizontal~a ~~zin~ i na ~joj ~~itmeticko mjerilo ovisno 0 kvantilima, te 0 najmanjoj i najvecoj vnJ~dnostt varijable. Slijedi konstrukcija pravokutnika (box). Njegova se os.no~a oslanja .na spome~utu dufinu, Beene stranice pravokutnika podizu se na rnjesuma kv~rtila. Osnovicu tog pravokutnika predstavlja interkvartilni razmak. U pr.~voku.tn~kuse .nalazi ok0':lita erta i njezin je polozaj odreden medijanom. B-P sadrzi dO~J~ I gor~Ju un~tra~nJu i donju i gornju vanjsku medu. Donja unutrasnja rned~ definirana je razhko~ (Ql -1.5 Ia) dok je gornja unutrasnja meda dana zbrojem (Q3 + l.~ Ia)· Vanjske mede odred.ene su ~rijednostima (Q. - 3 la), te (Ql + 3lQ). Na dlJa~ramu se t~korler n?znaCt posebnim znakom najrnanja vrijednos,tu razm~ku. donje unutrasnje merle I prvog kvartila i najveca vrijednost izmedu treceg kva~~lla 1 gornje unutrasnje mede. Oznaka navedenih vrijednosti je s desne od~o:no hJe~e strane pra~okut~ik.a na istom pravcu, Oznake se uobicajeno spajaju okornicarna na sredine bocmh stranica pravokutnika. Vr~jednosti u nizu k?je se nalaze izvan unutrasnjih meda oznacit ce se takoder p~se?mm znakom. Radi vece preglednosti duzina na kojoj se nalazi aritmeticko mjerilo se izostavlja iIi se nacrta izdvojeno od pravokutnika.
Koeficijent kvartilne devijacije je omjer interkvartila i zbroja kvartila. Krece sc izmedu nule i jedan. Jednak je nula kada nema disperzije , a s njezinim povecanjern priblizava se jedinici.
Sf;
U~p. Mendenhall W. and T. Sincich (1988). Statistics for The Engineering and Computer SCIences. 2nd Edt. San Francisco: Dellen, str. 29.
59
B-P veoma ilustrativno prikazuje raspon varijacije i interkvartilni razmak, a slufi kao osnovno sredstvo za otkrivanje netipicnih vrijednosti varijable. Sve vrijednosti izmedu donje unutraSnje mede i prvog kvartila, kao i izmedu drugog kvartila i gomje unutrasnja mede moraju se analizirati jer su rnozda netipicne. Vrijednosti izvan unutrasnjih meda gotovo su sigumo netipicne (outliers). »Sumnjive« vrijednosti treba ispitati prije primjene bilo koje analiticke metode odnosno statistickog modela. B-P moze se konstruirati i na druge nadine, te istodobno za vi~e statistickih nizova s istovrsnom kvantitativnom varijablom. Sljedeci podaci (uredeni po velicini) pokazuju postotak nenaplacenih potrazivanja korisnika kartice trgovinskog poduzeca A u 40 fakturnih perioda: 2.71 6.49 7.75 8.32 4.69 6.68 7.77 8.63 5.39 6.92 8.00 8.86 5.58 7.03 8.02 8.89 5.78 7.27 8.14 9.18 6.08 7.29 8.22 9.19 6.16 7.40 8.23 9.40 6.21 7.45 8.28 9.52 6.33 7.59 8.29 9.61 6.37 7.71 8.31 14.70
Raspon varijacije i interkvartil su nepotpune rnjere disperzije. S obzirom na opca svojstva primjenjuju se za mjerenje disperzije numerickih i redoslijednih nizova. Najvaznija potpuna mjeradisperzije je varijanca i iz nje izvedena standardna devijacija, te odgovarajuca relativna mjera koeficijent varijacije.
Raspon varijacije za taj niz je: R" = 14.70 - 2.71, R" = 11.99. Postotak nenaplacenih potrazivanja kretao se izmedu 2.71 i 14.70% odnosno u rasponu od 11.99%. Donji kvartil niza je Ql = 6.43, dok je gomji kvartil Q3 = 8.32. Interkvartilni razmak iznosi: 1Q = Q3 - Q. = 1.89, a koeficijent kvartilne devijacije 0.12814. Raspon varijacije sredisnjih 50% podataka je 1.89, odnosno 12.8%, sto govori 0 umjerenoj disperziji spomenutih podataka. Za konstrukciju B-P dijagrama utvrdena je vrijednost medijana M. = 7.73 te vrijednosti za unutrasnje i vanjske rnede Q. - 1.510 = 3.60, QJ + 1.51Q = 11.16, QI - 31Q = 0.76, Q3 + 31Q =13.99. Donjoj unutrasn]o] medi najbliZa je vrijednost 4.69, a gornjoj 9.61. Vrijednost 2.71 je posebno oznacena jer se nalazi izmedu unutrasnjih meda. Izvan je vanjskih meda vrijednosti 14.7. Obje izdvojene vrijednosti nuzno je analizirati, jer su netipiene (moguci outliersi). B-P konstruiran na temelju navedenih podataka dan je grafikonom 1.15.
B-P prikaz niza postotaka neneplacenih potraiivanja
(X2-i),
... , (Xi-i),
... , (xN-i).
varijable X. S obzirom na to da je
.L1 (Xi -
x)
= 0,
uvijek jednaka nuli. Umjesto aritmeticke sredine razlika, kao mjera disperzije rnoze poslufiti prosjecno apsolutno odstupanje: MAD=----
L .=1
Ix·-xl
r
(1.43)
Mjera disperzije (1.43) relativno se rijetko upotrebljava. Definira se alternativno pomocu medijana, kada je minimalna.
Da bi se doslo do variiance, najprije valja pojedinacne razlike vrijednosti varijable X od aritmetieke sredine kvadrirati. Time se eliminira njihov negativni predznak. Razlike kvadrata jesu: o
(xl-i)2, (X2-X)2, ... , (X,-i)2, ... , (XN-.i)2.
o o
9 ~ pos 10101<nenaplacqn;h
~ po!nJz;VQrjn
Varijanca je aritmeticka sredina kvadrata odstupanja vrijednosti numericke varijable X od njezine aritmetiiike sredine, tj.:
Grafikon 1.15.
L (X'-X)2 0'-= N
i=[
I
(1.44)
Izraz za varijancu u razvijenom obliku je: Vrijednosti kvartila izracunane su i za distribuciju prodavaonica prema velicini prodajnog prostora. Interkvartilni razmak u tom je primjeru: IQ:;: 70.19445 - 20.03303, IQ = 50.16142. Koeficijent kvartilne devijacije iznosi 0.:55594.Rijec je ovdje 0 relativno velikoj disperziji sredisnjih 50% prodavaonica, kojima se prodajni prostor kretao u rasponu od 50 kvadratnih metara, odnosno u intervalu od 20 do 70 m2• (1.45) Prema definiciji, varijanca je mjera dana u drugom stupnju, SIO otezava njezino tumacenje. Radi lakse prosudbe stupnja varijabilnosti obiljezja definira se 61
·· ~~~Iflh'~ .....
'f
Iz (1.49) je vidljivo da se varijanca varijable X ne mijenja ako se od svake vrijednosti oduzme konstanta. Pozitivni drugi korijen iz (1.49) je standardna devij acija:
(1.46)
a=b
i=l
i-I
Ld·
N
(1.50)
odnosno:
0=
Lx· r
N
(1.47)
Raeunanje varijance', odnosno standardne devijacije ponekad je jednostavnije ako se umjesto originalnih vrijednosti upotrebljavaju kodirane (Iinearno transformirane). Tome pogoduje i sljedece svojstvo: varijanca (standardna devijacija) varijable se ne mijenja ako se od svake vrijednosti varijable oduzme isti broj. Skalira Ii se svaka razlika istim parametrom b, varijanca varijable X je jednaka umnosku kvadrata faktora skaliranja i varijance kodirane varijable. Izmedu originalne vrijednosti varijable i kodirane vrijednosti vee je prije definirana jednakost: xi=a+bd;, d, = (x; - a)lb.
Varijanca distribucije frekvencija diskontinuirane numericke varijable je vagani prosjek kvadrata odstupanja vrijednosti te varijable od njezine aritmeticke sredine. Pondere predstavljaju apsolutne frekvencije iii njima proporcionalne velicine, Definicijski izraz varijance distribucije frekvencija je:
L/;(x--i)2 u2=---;=1.
I
N=j'CI 1 ~ LJ;.
(1.51 )
k .L f,.-C;
(k)2 fiX; .L
..... 1
=tr»
(1.52)
a + bd, - (0
+ bd:),
(1.48)
b(di
d).
(1.53) Izracunavanje varijance za distribuciju frekvencija s razredima provodi se pornocu izraza (1.52) odnosno (1.53). Vrijednosti varijable X bit ce dane razrednim sredinama. Standardna devijacija je mjera varijabilnosti u istoj dimenziji kao i varijabla . X. -Standardna devijacija je prosjecno odstupanie vrijednosti numericke varijable od njezine aritmeticke sredine. Prosudba stupnja disperzije olaksava se izracunavanjem relativne mjere disperzije, koja se naziva koeficijent varijacije. Koeficijent varijacije je omjer standardne devijacije i aritmetieke sredine pomnozen sa sto, Simbolicki:
L (x·-x)Z i=1
I
N S lijeve strane prethodnog izraza je varijanca varijable X, as desne varijanca varijable d pomnozena kvadratom faktora b. Varijanca je na bazi linearno transformirane varijable jednaka:
o'~
bl~~dl - (~~d'n
~
(149)
v"" x 100, ~
(1.54)
rl""---N
j~1
(.~ Xi)2
S obzirom na to da koeficijent (1.54) ne ovisi 0 mjernim jedinicama. prikladan je za usporedivanje disperzije raznorodnih numeriekih nizova, kao i nizova istovrsnog numerickog obiljezja. ali razlicitih aritrnetickih sredina. Izracunavanje standardne devijacije i koeficijenta varijacije ilustrirat ce se najprije za niz pojedinacnih podataka numericke varijable. Podaci se odnose na mjerenje duzine namota niti na kalemovima, i navedeni su pri izracunavanju aritrneticke sredine. Podaci jesu:
Xi:
9998
Prema
(1.47) standardna
devijacija
je: 0= 6.23217 m.
, , -,
t»
I'"
,~ ~.' "
, ':,-',.
_ V999280518
0-
10
l·
::'
: ..~' \
Do istog se rezultata dolazi pomocu postupka kodirania. Pri racunanju aritmeticke sredine primijenjeni su parametri a = 10000, b = 2 i dobivene ove transformirane vrijednosti: di: Polazeci od (1.50),
-
primijenc
prikladnije
i)!"';i'~":
,;
l' ,~ .. ~"~ i
11
-5
-2 2 0
devijacija je:
0.5
- 5.5
- 8 O.
standardna =2
o Vee je prije
0=6.23217 sredina
m, rnetara, pa J<.:
:. I ~
,I':'
izracunana V=~100=
te iznosi 9996.4
koeficijent varijacije: i
,:
:
-:
.'
,i
I
v = 0.00623%.
t. j" .
L i.: i,
,,
\:.,
r.J •. /
Disperzija vrijednosti u analiziranom nizu je, vrlo mala. Prosjecno odsto ~., !:_:.duzine niti od prosjecne duzine niti (standardna devijacija) iznosi 6.2 metra iii svega 0.006% (koeficijent varijacije). U tabeli 1.11. nalaze se podaci 0 strukturi zaposlenih u grani Proizvodnja obojenih rnetala u rujnu 1990. Za tu distribuciju je prije izracunan mod, a sada ce se odrediti vrijednost standardne devijacije i koeficijenta varijacije. Tabela 1.11. Izracunavanja varijance i standardne devijacije distribucije frekvencija Pla!5euHRD Slruktura zaposlenih u %
Pi
..
rijcci u p,."'.:':"'.' Varijanca i iz jl;:: j. je. Medu mjerarna disperz.i.. srednjim \Tik(~:,0'-:' .' . -' .~ ncxc -}\lr~3~~.:;i':'.
svojstva, Podl();,:.~' , .
r::'
,'j'
... :-.·r
.. .}'
,-'
1'-, •I
':/i-
l ' 1"_'
{i~1
..'
" , "l I" ...
,:_.
Razredna sredina
Xi
=.
,- j
••••
.'
L\':!l~:~ll:: r:::.~:l:~Jlj!.
...
1 4000.5 - 5000.5 5000.5 - 6000.5 6000.5 - 8000.5 8000.5 - 10000.5 10000.5 - 12000.5 12000.5 - (20000.5) Ukupno
i-=1
I;!;;;.
LIPix, = 708000,
;:::=:1
L P~
'" 5265882975,
L P;di=7.95,
;=1
f p,le = 2:53.H75.
U distribuciji su dane relativne frekvencije. S obzirom na to da su one proporcionalne apsolutnim frekvencijarna, za izracunavanje varijance odnosno standardne devijacije upotrijebit ce se izraz (1.52) i (1.53). .
' ..
"~~:,~
'"
':,;
:!-;:""'"
.."{j j".::-di)U,.:,t
(z-obiljezje , z-skor).
\'..:..ri_i;lblc
I
Standardizirano obiljei]« je odstupanje vrijednosti numeriekog obiljefja aritrnetieke sredine izrazeno u jedinicama standardne devijacije. Izraz za obiljezje je: Z.==Xi -i ,
Iz (1.55) vidljivo je da je standardizirano obiljeZje linearna transformacija vrijednosti varijable X. Primjena standardiziranog obiljefja izvire iz njegovih svojstava. Aritmeticka sredina standardizirnog obiljezja jednaka je nuli, a standardna devijacija jedan, tj.:
i==O,
0,=
1.
1=1
ZI
1=1
f (Xi
N
.i)
Odgovor na postavljeno pitanje moze se dati pomocu standardiziranog obiljezja. Standardizirano obiljezje za prihod je z == - 1.42, a za stopu dobiti Z == - 2.29. Prihod poduzeca je manji od prosjeenog u skupini za 1.42 standardne devijacije, a stopa dobiti je manja od prosjetne za 2.29 standardnih devijacija. Polozaj poduzeca je relativno los[ji s obzirom na stopu dobiti u odnosu na polozaj prema prihodu. Standardizirana varijabla poprima razlicite vrijednosti, koje po predznaku mogu biti pozitivne i negativne. Kao po pravilu, vrijednosti numeritke varijable rijetko odstupaju od aritrneticke sredine za vise od tri standardne devijacije na Iijevu iii desnu stranu. U tom ce se pojasu naci gotovo sve vrijednosti numerickog niza. S tim u svezi primjenjuje se pravilo (teorem) Cebileva. U pojednostavljenom obliku to pravilo govori sljedeee: Najmanja proporcija clanova bilo koje populacije u intervalu .i±ko, k>l, iznosi (1 - ~ ). Prema pravilu Cebiseva pojas od
.t
1
== No
i==~=
l';I(Xi-i),
i=O.
Prema tome, vrijednost aritrneticke sredine standardizirane varijable koja je jednaka nuli posljedica je prvog svojstva aritrneticke sredine varijable X. Standardna devijacija standardiziranih vrijednosti definirana se ovako:
porciju od 0.75 odnosno 75% svih podataka, pojas ad x ± 3 0 sadrii najmanje 0.8889 iii 88.89% svih podataka, Za zvonolike distribucije vrijedi sljedece prakticno pravilo' obuhvata clanova numerickog niza po pojasima: u pojasu u pojasu u pojasu
0= l
Izraz u brojniku i izraz u nazivniku razlomka pod korijenom su jednaki, iz cega proizlazi da je 0. == 1. Standardizirano obiljezje pokazatelj je relativnog poloiaja pojedinacne vrijednosti numericke varijable u nizu, Buduci da ono ne ovisi 0 mjernim jedinicama, maze posluziti za usporedbu polozaja podatka u raznorodnim nizovirna. Kao primjer ce se uzeti sljedeci podaci: prosjecna placa u poduzecu A Iznosi 12000 HRD, s prosjecnirn odstupanjem od 2000 HRD. U poduzecu B prosjecna placa iznosi 17000 HRD s prosjecnim odstupanjem od 2500 HRD. Valja usporediti relativni polozaj osobe s placom od 15000 HRD u poduzecu A s polozajern osobe s placom od 19500 HRD u poduzecu B. Vrijednost standardiziranih obiljezja je: ZA = (XA - iA)/oA == (15000 - 12000)/2000, ZA = 1.5; ZB = (xe - iB)/oe == (19500 -15000)12500, ZB == 1.8. Obje osobe imaju iznadprosjecnu placu. Osoba iz poduzeca B u relativno je povoljnijem polozaju na platnoj listi od osobe iz poduzeca A, jer njezina plata odstupa od prosjeka za + 1.8 standardnih devijacija, dok je to odstupanje za osobu iz poduzeca A + 1.5 standardnih devijacija. ,. Razmotrimo primjer polozaja jednog poduzeca u skupini istovrsnih poduzeca. Prosjecni ostvareni ukupni godisnji prihod iznosio je 121 milijun HRD s prosjecnirn odstupanjem ad 12 milijuna HRD. Prosjecna stopa dobiti za skupinu iznosi 12. i s prosjecnirn odstupanjem ad 2.4. Prihod odabranog poduzeca iznosi 104 milijuna, a stopa dobiti 7.2. Kakav je polozaj poduzeca u skupini s obzirom na: (a) prihod, (b) stopu dobiti?
Poznavanje pravila Cebiseva i spornenutog prakticnog pravila ornogucuje jednostavnu procjenu moguce vrijednosti neke varijable kao i raspon varijacije u kojern se oceku]e odredeni dio skupa podataka. Za primjer ce se uzeti osnovni skup ad 18296 iiro-racuna kornitenata jedne banke. Prosjecno kvartalno stanje sredstava iznosi 500 tisuca HRD s prosjecnim odstupanjern od 100 tisuca HRD. Pornocu pravila Cebiseva lako je procijeniti broj racuna s prosjecnim stanjem kvartalnih stanja izrnedu 300 i 700 tisuca HRD. Komitenti sa stanjem od 300 tisuca HRD odstupaju od prosjeka za - 2, a kornitenti sa stanjem od 700 tisuca HRD za + 2 standardne devijacije. U tom se pojasu ocekuje najmanje 75% iii 13722 racuna, Za konstrukciju B-P prikaza upotrijebljeni su podaci 0 postotku nenaplacenih potrazivanja korisnika kreditnih kartica jedne robne kuce u 40 fakturnih perioda. Na temelju danih podataka izracunana je aritrneticka sredina niza 7.612 i standardna devijacija od 1.812. Najrnanja vrijednost u nizu je 2.71, a najveca 14.7. Pojas (of - 20) do (x + 20) iznosi: 3.988 do 11.236, a pojas: (x - 30) do (.t + 30) je: 2.176 do 13.048. U prvonavedenim granicarna nalazi se 38 od 40 podataka, au pojasu od ± 3 standardne devijacije je 39 od 40 podaraka. Najveea siandardizirana vrijednost varijable X je: Z == 3.912, a najrnanja: z = - 2.705. Odstupanje od 3.912 standardnih devijacija je netipicno veliko, sto uvjetuje potrebu ispitivanja te vrijednosti s obzirom na tocnost i pripadnost nizu.
":avedeni obuhvat striktno vrijedi ako je nurnericka varijabla distribuirana po normalnoj distribuciji, ~ormalna distribucija je teorijska statisticka disrribucija i opisana je u cctvrtorn dijelu udzbenika.
67
. " ..
,;.;.
Tocke za konstrukciju Lorenzove krivulje imaju koordinate: (0,0). (F(xi))' Frl_Ti), i = 1.2 •... , N. U grafickorn prikazu uobicajeno je ucrtan pravae jednolike raspodjele. Pravae prolazi toekama (0,0) i (1.1) Da bi se dobili elementi za konstrukciju Lorenzove krivulje i mjera koncentraeije za distribueiju frekvencija, potrebno je raspolagati podtotalima. Kada je distribucija dana u razredima, podtotali iii njima proporeionalne vrijednosti procjenjuju se pomocu razrednih sredina, Procijenjeni podtotal je urnnozak razredne sredine i apsolutne frekvencije, Buduci da u pravilu postoji razlika izmedu prave razredne sredine i izracunane razredne sredine, proeijenjeni pod totali, a time i totali, sadrzavat ce nepoznatu pogresku, Ta se pogreska u praksi cesto zanemaruje ili se provodi odredena korekcija. Ernpirijska funkcija distribucije za grupirane podatke prije je definirana ovako: i=j=I,2, ... ,k.
Umjesto mjerenja rasprsenosti predmet statisticke analize je ponekad mjerenje nacina razdiobe totala numerickog niza na njegove clanove. Total je definiran kao zbroj vrijednosti numerieke varijable. Spornenuta razdioba ispituje se sarno za totale sa smislenim znacenjem, Prornatra Ii se npr. skup osobnih dohodaka, total je ukupan dohodak zaposlenih. Ukupna povrsina prodajnog prostora trgovina na malo je total sa smislenim znacenjem. Zbroj stanja racuna komitenata jedne banke je takoder total. Zbrajati se rnogu visine odraslih osoba, a dobiveni total nema znacen]a, prernda slufi kao pomocna velieina za izracunavanje aritmeticke sredine. S preth.odnim u svezi govori se 0 numerickoj varijabli podobnoj za mjerenje koncentracije. Mjerama koncentracije uocavat ce se ravnomjernost odnosno neravnomjernost razdiobe dohodaka, prodajnog prostora, novcanih sredstava komitenata itd., iii opcenito totala po clanovlma statistickog skupa. Mjerenje' koneentracije provodi se na razlicite nacine mjerama razllcitlh svojstava. Medu [ednostavnim mjerama nalazi se Ginijev koeficiiem koncentracije. Za razurnijevanje te mjere korisno je poci od grafickog prikaza, koji se naziva Lorenzova krivulja. Lorenzova krivulja konstruira se u prvom kvadrantu koordinatuog sustava. Na osi apscisa nalazi se aritmeticko mjerilo za vrijednosti ernpirijske funkcije distribueije, a na osi ordinata je isto mjerilo za vrijednosti kurnulativnog niza proporeija suptotala (udjeli suptotala u totalu). Najveci clan kumulativnog niza proporcija suptotala jednak je 1, odnosno 100%. Isto vrijedi za kumulativni niz relativnih frekvencija. Tocke {';ijimspajanjem nastaje Lorenzova krivulja irnaju koordinate odredene clanovima kurnulativnih nizova. Prva je tocka dana ishodistem, a posljednja irna koordinate (1,1). odnosno (100.100). Koordinate ostalih tocaka odredene su vrijednostima clanova kurnulativnih nizova. Ako su dane pojedinacne vrijednosti numericke varijable, potrebno ih je najprije urediti po velicini. Vrijednosti empirijske funkeije distribucije u tom su slueaju: i=I,2 •... ,N. Clanovi kumulativnog niza proporcija suptotala jesu:
U prethodnom izrazu N je zbroj apsolutnih frekvencija. Clanovi kumulativnog niza proporcija podtotala jesu:
i= 1
Frl_1j) = -T-'
"Lf,x·
T= 1'=1 n "Lf,x·
(1.57)
Ako su u distribuciji dane relativne frekvencije, vrijednosti T, izracunat ce se tako da se uporijebi izraz (1.57), ali se velieine proporcionalne podtotalima rnoraju dijeliti aritmetickorn sredinom distribucije, a ne velicinom T. Nairne, umnozak izmedu zbroja apsolutnih frekvencija (N) i aritrneticke sredine jednak je totalu. Lorenzova krivulja konstruirana je za podatke u tabeli 1.10. U izvoru su navedeni podtotali, pa se potrebni elernenti za konstrukciju grafikona mogu izracunati bez pogreske. U tabeli su dani empirijska funkcija distribueije i kumulativni niz proporeija podtotala. Tooke za konstrukciju grafikona irnaju ove koordinate: (0, 0). (0.1150. 0.0085). (0.3982, 0.0817), ...• (1.0. 1.0). Grafikon 1.16. predstavlja Lorenzovu krivulju raspodjele prodajne povrsine prodavaonica u trgovini na malo. Kada bi distribucija prodajnog prostora bila potpuno ravnomj ern a, sve bi tocke lezale na pravcu, U primjeru bi to znacilo npr. da prvih 10% prodavaonica zauzima 10% ukupne povrsine, prvih 20% prodavaonica 20% prodajne povrsine itd. Takav slucaj upucuje na odsutnost koneentraeije. Suprotan bi sluca] bio kada bi jedna prodavaonica zauzimala eijelokupnu povrsinu i kada bi bila rijec 0 maksimalnoj koneentraciji. Iz tabele 1.10 je vidljivo da prvih 11.50% prodavaonica zauzima 0.85% prodajnog prostora, 39.82% od ukupnog broja prodavaonica zauzima 8.17% prodajnog prostora ltd. Ovdje je vidljiva nejednolikost razdiobe talala po jedinici skupa, koju treba izmjeriti odredenirn poka.zateljem. Jedna od relativnih mjera koneentracije je Ginijev koefieijent G. Koeficijent G se zasniva na brojcanoj vrijednosti omjera povrsine izmedu Lorenzove krivulje 69
T=
i=
Lx· I
It
i= 1,2, ..• N.
(1.56)
'-;.'.
; Vidjcti 0 mjerarna nejednakosti npr. Martie Lj. (1986). Mjere nejednakosti Zagreb: Birotehnika.
i sirornastva.
~-----r------~-----r------.-----~
02
0.4
Kumulalivne
0.6
propan:ij.
0.11
broja
prodavaoniC1l
simetrije. Uzme Ii se, primjerice, aritmeticka sredina i ispituje kako se razmjestaju podaci prerna toj vrijednosti, uoclt ce se da je u nekim slucajevima taj razmjestaj simetrican, U simetricnom razrnjestaju svakom odstupanju vrijednosti numericke varijable od aritmetieke sredine negativnog predznaka odgovara isto toliko odstupanje pozitivnog predznaka. Ako je raspored pozitivno asimetriean, svako se pozitivno odstupanje nece izravnati s negativnim, nego ce prevladati one s pozitivnim predznakom. U negativno asimetricnom slueaju prevladavaju odstupanja s negativnim predznakom, Naein rasporedivanja ispituje se promatranjem odstupanja od aritmeticke sredine, ali i drugih velicina, kao sto su npr. medijan i mod. Pode li se od odstupanja vrijednosti nurnericke varijable od aritmeticke sredine s ciljem da se izrazi naeln njihova razmjestavanja, bit ce nuzno utvrditi mjeru koja ce izrazavati tu karakteristiku podataka. Broj spomenutih odstupanja jednak je N, tj, ima ih onoliko koliko i podataka. Aritrneticka sredina odstupanja vrijednosti nurnericke varijable od njezine sredine je uvijek jednaka nuli, pa je ocito da se ne moze upotrijebiti za mjerenje asimetrije. Aritrneticka sredina kvadrata odstupanja vrijednosti numericke varijable od sredine je mjera disperzije (varijanca) i uvijek je pozitivna velicina, Za mjerenje asimetrije polazna je velicina aritmeticka sredina odstupanja vrijednosti numericke varijable od sredine podignutih na trecu potenciju. Ta se velieina naziva trecim momenlom oko sredine, odnosno trecim glavnim (centralnim) momentom. Treci moment oko sredine za niz od N negrupiranih vrijednosti numericke varijable X dan je ovirn izrazom:
i povrsine ispod pravca jednolike raspodjele (grafikon 1.16). Ocito je da je u odsutnosti koncentracije brojcani ekvivalent te povrsine 0, a prl maksimalnoj koncentraciji 1. Moze se pokazati da je izraz za racunanje Ginijeva koeficijenta koncentraciie distribucije frekvencija jednak:
(1.59) Ako su podaci grupirani, treci je moment vagana sredina odstupanja, tj.: oko sredine distribucije frekvencija
Fr(To) =0,
(1.58)
j)
U navedenom izrazu Pi su relativne frekvencije distribucije, Fr{T vrijednosti kumulativnog niza podtotala (kurnulativne proporcije podtotala). Koeficijent jedan. Na temelju ne ovisi podataka
0
su N
rnjernim jcdinicamu
lId
uulc do je:
N=
Lt.. ;=1
(1.60)
G = 1- [0.1150 (0.0085
G == 1 - [0.0009775 + 0.02555366
Ginijev koeficijent blizi je gornjoj nego donjoj granici, ~to pokazuje udaljavanje od ravnomjerne razdiobe prodajnog prostora i prisutnost vece koncentracije prostora na manji broj prodavaonica.
Pri sirnetricnorn rasporedu brojnik izraza (1.59) i (1.60) je jednak 0, jer neparna potencija ne mijenja predznak odstupanja, zato [e i treci moment oko sredine jednak nuli. Za pozitivno asimetricne rasporede veci je od nule, a za negativno asirnetricne manji od nule. S obzirom na navedena svojstva razurnljivo je da treci moment oko sredine rnoze poslufiti za mjerenje nacina rasporedivanja podataka. Treci moment oko sredine ovisi 0 mjernim jedinicama varijable X, zato je otefano izravno zakljucivanje 0 smjeru i jacini asirnetrije na temelju te velicine. Da bi se uklonio utjecaj mjernih jedinica, definira se ova relativna rnjera
asimetrije:
(1.61)
± 2, a ako je rijec
tog intervala. Izracunavanje treceg momenta oko sredine, a time i koeficijenta asirnetrije, pojednostavljuje se s razvojem formule (1.59) odnosno (1.60). Treci moment oko sredine rnoze se pisati altemativno u ovom obliku: (1.62) U prethodnom izrazu m, predstavljaju negrupirane i grupirane podatke: pomocne momente definirane za
Treci ._-nome~t. ko sredine distribucije izracunat ce se pornocu pomocnih o momenata I utvrditi standardna devijacija. Pornocni momenti na osnovi transforrnirane varijable jesu:
ml
= 1.8146341,
Prema (~.65) vrijed~os[ ~receg momenta oko sredine je: ).1.3 = 49.4815. Koristeci se po~~c~lm mome~[[ma, izracunat ce se i standardna devijacija. Iz (1.52), (1.53) te definicije pomocnih momenata zakljucuje se da je: iii alternativno:
m'=N'
Lx. i"""L
1>1
m,=~,
i'f/;r;
r= 1,2, ...
(1.63)
o=bVm'-m,2 2
I,
0=
3.0954 ha.
Nurnericka pouzdanost rezultata i pojednostavljenje se postize upotrebom kodirane (lineamo transformirane) varijable X. Pomocni momenti dani su tada ovim izrazima: m'=-- N' r
;=1
Lll ~
1>1
49.4815 3.09543
UJ
= 1.668.
r= 1,2, ...
(1.64)
_Distrib~cija je jako pozitivno asirnetricna, !ito je lako zakljuciti iz njezina grafickog prikaza (grafikon 1.17). ..Opisani k.oefic~j.ent uzima u obzir sva odstupunja vrijcdnosti numcrickc vanJabl~ od ~rHmetlc~e ~redine i p~ tome je potpuna mjera asimetrije. Os~m nJ~ postoje I druge rnjere , medu kojima se nalazi Pearsonova i Bowleyjeva mjera asimetrije.
Treci moment oko sredine izrazen pomocu pomocnih momenata (1.64) je: (1.65) Koeficijent asimetrije (ll izracunan je za niz placa 15 zaposlenih. Podaci nisu grupirani, a upotrijebljeni su za konstrukciju dijagrama tocaka, Vrijednost je: UJ = 0.1307. Raspored placa je u tom primjeru blago pozitivno asimetrican. U tabeli 1.12. dana je distribucija individualnih poljoprivrednih gospodarstava u Hrvatskoj prema povrsini zemlje. Tabela 1.12. Individualna poljoprivredna gospodarstva u Hrvatskoj 1969. godine zemlje u ha
Povrsina
ruaij2,?f~f"t<MI
1J, 0
120
[\ 1'\
gaspodarstava u 000
Broj
Razredna
sredina
Xi
100
\
1\
"
2
2.5)/0.5
4
\ \
\
I
3
(1) 2.5 6.5 (12.5)
4
256
109 124 84 42
-3
0
20
-
3 8
'\:;
I
20
I
I"'---.
615
1=
.
2
)
r--. t--...
r-
i
1171 I u ha I
(D)
l;
= 1116,
';""'1
L f;a-; = 25596.
.2.1f,d; = 37544-L
i=
S Paves.nQ ,emlJe
t.d~= 7094844
Grafikon 1.17. 73
.'
~\ -~
..
Pearsonova
moda, odnosno
u (1.66).
dolazi
se do altemativnog
izraza
za
vrijednosti ilustrirani su grafikonom 1.18. U unimodulnoj simetricnoj distribuciji sobno jednake. U pozitivno asirnetricnoj
(1.68)
Pearsonova mjera asimetrije temelji se na ogranicenom broju inforrnacija iz ni~ (ar.i~meticka sred~na, mod i.l~medijan) i predstavlja po tome nepotpunu mjeru aSlmet?J~ '. Kao sto Je vee pnje pokazano, mod se ne moze uvijek odrediti, nUme?~kl je po~ekad nestabilan: a i vrijednost medijana se ponekad aproksirnira, n~r ". interpolacijom, Sve to utjece na (nejtoenost Pearsonove rnjere, koja u pnmjenarna predstavlja aproksimativnu vrijednost. Buduci da su temeiji koeficijenta asimetrije a3 i Pearsonove mjere Sk razliciti, ne mogu se izravno usporedivati. Teorijski moraju imati isti predznak. Zbog zaokruzivanja u racunanjirna, osobito ako je rijee 0 nizu s veoma velikim brojcanim vrijednostirna i blagim asimetricnirn rasporedom, moze se pojaviti nepodudarnost predznaka pokazatelja. Za distribuciju gospodarstava prema veliCini zemlje u tabeli 1.12 izracunana j:. arit~e~ick~.sredina i = 3.407317 ha, medijan je 2.472 ha, a standardna devijaCIJ.~ distribucije 0 = 3.0954 ha. Pearsonova mjera odredena prerna (1.68) ima vrijednost Sk = 0.96490. Distribucija je pozitivno asirnetricna. S obzirom na prirodu dane distribucije i podlogu Pearsonove mjere, u konkretnom slucaju za mjerenje asimetrije, prikladniji je koeficijent a3. . !30w_~~yjev~. mjera. s~ te~elji na odnosu kvartila i medijana. U sirnetricnoj distribuciji donji kvartil je toliko udaljen od medijana koliko i gornji kvartil, tj. u simetricnoj distribuciji vrijedi:
Ie I NtQCltiwno o:.iNlrilna
di5lr'bYc ija.
Grafikon 1.lB. sredina zatirn medijan, a najmanji je mod. Ako je distribucija negativno asimetricna, najveci je mod, manji od njega je medijan, a najmanja je aritrneticka sredina. Polazeci od tog odnosa srednjih vrijednosti, razumljivo je da se razlika aritmeticke sredine i moda, odnosno razlika aritmeticke sredine i medijana moze primijeniti za mjerenje asimetrije. Ta je razlika jednaka nuli ~a sirnetricne rasporede, veca od nule za pozitivno asimetricne rasporede, a manja od nule za negativno asirnetricne rasporede. Spomenuta razlika ovisi 0 mjernim jedinic~ma nurnericke varijable, pa se dijeli standardnorn devijacijorn. Pearsonova mjera asimetrije definira se izrazom:
odnosno:
QJ + Q3-2M.= U asimetricnoj
iii: distribuciji navedene
o.
(1.69)
Q. + Q3- 2M.>O
_i-Mo Sk----'
(1.66)
(1.71) ovisno 0 tome je Ii rijec 0 pozitivno iii negativno asirnetricnorn rasporedu, S obzirom na (1.69) - (1.71) razlike kvartila i medijana rnogu posluziti za mjerenje asimetrije. Buduci da su razlike izrazene u mjernim jedinicama varijable, nuzno je odstranlti utjecaj mjernih jedinica, sto se postize njihovom diobom s interkvartilom, Tako dobivena rnjera naziva se Bowleyjevom mjerom asimetrije, a dana je ovim izrazom:
Pearsonova mjera je standardizirano odstupanje moda od aritmeticke sredine. Ako je distribucija unirnodalna i zvonolika, vrijednost pokazatelja S, ~reta.t ce se u pravilu u intervalu ± 3. To je stoga ~to je za takve rasporede mala vjercjatnost da neka vrijednost varijable (mod) odstupa od aritmeticke sredine za vise od ± 3 standardne devijacije. Ako su distribucije izrazito asimetricne, pokazatelj Sk moze
poprimiti i vrijednost
vecu od spomenute. Umjesto standardizirane razlike aritrneticke sredine i moda za racunanje rnjere asirnetrije Sk upotrebljava se standardizirana razlika aritrneticke sredine i medijana, U urnjereno asimetricnirn distribucijama udaljenost moda od aritrneticke sredine priblizno je jednaka trostrukoj udaljenosti medijana od aritrneticke sredine , rj.:
(1.67)
-.
<~.
.~
1.
(1.72) Mjera poprima vrijednosti iz zatvorenog intervala od ± 1. Ta ce se mjera odrediti za distribuciju prodavaonica danu u tabeli 1.10. Za tu distribuciju Q: = 20.03303, Q, = 70.19445, M, = 40.055975. 75
Izrazi (1.75), odnosno (1.76) razvijaju se i pojednostavljuju upotrebom pomoenih momenata (1.63) iii momenata na osnovi transformirane varijable. Cetvrti moment oko sredine izrazen pomocu momenata m, iii m; je: (1.77) i: Cetvrti moment \Ik" -rcdinc distribucijc gll~plld<lr~I\'<1 prcma vclicini ZC1Hljc izracunat ce se pornocu pomocnih momenata m~.Vrijednosti tih momenatajesu:
m[ = 1.8146341, mi = 41.619512,
mi = 610.47804,
m~ = 1.8146341, b = 0.5.
Cetvrti moment oko sredine iznosi 14 = 493.4324. Standardna devijacija distribucije je 0= 3.407317, pa je koeficijent zaobljenosti: 493.4324 a. = 3.4073174 _Alternativni je pokazatelj:
)I.
~=5.375.
a.. =
Jl4 = ~ . if J.l.2
(1.73)
=2.375.
Zaobljenost se usporeduje i mjeri pre~a i:~ob!j~?osti ~?dalno.g ~rha .?ormaine distribucije. Normalna distribucija je najvazruja teorijska distribucija u statistici i opisana je u cetvrtom dijelu udzbenika, Zaobljenost te teorijske distribucije mjerena koeficijentom (1.73) iznosi 3. Ako je za neku empirijsku distribuciju vrijednost koeficijenta veca od tri, ta j~ distribucij~ sil~ast.ija ~d norrnalne. Vrijednost koeficijenta manja od tri upucuje na to da Je distribucija plosnatija od normalne. Za pravokutnu distribuciju koeficijent je oko a za U-distribuciju manji je od 1.8. Mjera zaobljenosti alternativno se definira pomocu ovog izraza:
!.8,
)I.
= U4 -
3.
(1.74)
Buduci da je 04> 3, odnosno K> 0, distribucija je »siljastija. od normalne. Brojcane vrijednosti mjera disperzije, asimetrije i zaobljenosti u kojima je zastupljena varijanca, odnosno standardna devijacija, razlikovat ce se od prethodno definiranih ako su vrijednosti numericke varijable uzorak iz neke populacije. U velikom broju programa za racunalo a priori se pretpostavlja da su empirijski podaci uzorak, sto uvjetuje razlike u brojcanoj vrijednosti spomenutih pokazatelja u odnosu na vrijednosti dobivene u okvirima deskriptivne statistike. Mjere centralne tendencije, disperzije, asimetrije i mjera zaobljenosti predsravljaju statisticke pokazatelje kojima se opisuju i usporeduju statisticki nizovi. Kao sto je vee prije istaknuto, izbor mjera ovisi 0 prirodi obiljezja, odnosno 0 svojstvirna mjernih skala.
Da bi se izracunala vrijednost koeficijenta U4 odnosno )I., potrebno je odrediti vrijednost cetvrtog momenta oko sredine i vrijednost varijance. Cetvrti m~m~nt oko sredine je prosjecno odstupanje vrijednosti numericke varijable od nJezl~e aritmeticke sredine podignuto na cetvrtu potenciju. Izraz za njegovo izracunavanje na temelju negrupiranih podataka je:
J.l.4=----
(1.75)
a za distribuciju frekvencija:
i= I
L _{;(x, - it
r
(1.76)
77
II. dio
REGRESIJA I KORELACIJA
2.1. UYOD
Istrazuje Ii se pornocu statistickih metoda jedna pojava predocena sratistickim nizom nezavisno od drugih, govori se 0 jednodimenzionalnoj analizi. ana se sastoji u grafickom i tabelarnom predocavanju niza i u izracunavanju razlicitih brojcanih pokazatelja. Na temelju dobivenih rezultata do nose se zakljucci 0 svojstvima dane pojave. Pojave u prirodi i drustvu isprepletene suo Promjena jedne uvjetovana je prornjenama druge iii drugih. Osobna potrosnja stanovnistva ovisi 0 raspolozivorn dohotku. Na ukupne troskove proizvodnje djeluju fiksni i varijabilni troskovi, Tezina osoba ovisi 0 njihovoj visini, iivotnoj dobi i spolu. Prinos psenice na eksperimentalnim parcelama ovisi 0 tretmanima odnosno 0 kolicini i vrsti umjetnog gnojiva. Mnostvo je slucajeva koji se odnose na istrazivanje medusobnog odnosa dviju iii vise pojava, Postojanost odnosa izrnedu pojava izraz je pravilnosti, zakonitosti uzajamnih promjena. Taj odnos rnoze biti funkcionalan. Funkcionalne (deterrninisticke) veze daju se predociti izrazirna na temelju kojih se tocno utvrduje vrijednost jedne za danu vrijednost druge (drugih) pojave. ani su formalizacija odnosa »uzrok«, »posljedica«. Jednostavni je primjer takve veze izraz za povrsinu kvadrata, Povrsina kvadrata je »posljedica« velicine stranice. Za izabranu velicinu stranice uvijek je povrsina kvadrat te velicine. U stvarnosti postoje odstupanja od funkcionalnog odnosa. Potrosnja kucanstava ovisi 0 raspolozivom dohotku. Kada bi povezanost izmedu njih bila npr. dana Iinearnom funkcijom s pozna tim pararnetrima, za izabrani dohodak, potrosnju bi kucanstva predstavljala vrijednost lioearne funkcije. Funkcionalna veza upucuje ovdje na zakljucak da svako kucanstvo s istim dohotkom ima ism razinu potrosnje, sto je u proturjecnosti s njihovim srvamim odnosom. Kucanstva s istim dohotkom imaju iS1U iii slicnu razinu potrosnje. Ovdje je prisutna postojana varijacija potrosnje U ovisnosti 0 dohotku , ali ne u funkcionalnom nego u statistickom smislu. Jednoj vrijednosti dohotka odgovara u pravilu vise razlicitih vrijednosti potrosnje. Iz navedenog proizlazi da povezanost pojava moze biti ili funkcionalna iii statisticka. Statisticka analiza odnosa izrnedu dviju i vise pojava provodi se u okvirima deskriptivne i inferencijalne statistike. Deskriptivno-statisticka analiza sastoji se u 79
..:..;:..
"0·'
konstrukciji prikaza i utvrdivanju brojcanih pokazatelja i izr~ koji~a se pogodnom obliku omoguCava dono~e~je .zakljucaka 0 ko~arija.cij.ama pojava, . Istrafivati se moze [akost statistickih veza. Stupanj statistlcke povezanosn izmedu pojava mjeri se metodama koje tine podrucje kor~lacijske .a~liz~. Ako je svrha analilicki izraziti odnos izmedu pOjava,. prunlje~lt ~ se regresijski modeli. Regresijski model je algebarski ~odel 1 ? pravilu je to jednadzba koja sadrfi varijable i parametre. Opci je obhk regresijskog rnodela: (2.1)
je, Regresijska analiza modela' ukljucuje ocjenjivanje nepoznatih parametara, izraeunavan]e mjera disperzije i drugih statlsticko-analiticklh pokazatelja, te primjenu postupaka kojirna se ispituje kvaliteta dobivenih rezultata s obzirom na polazne pretpostavke 0 modelu i svojstvima varijabli u njemu (regresijska dijagnostika). Ako 5U ispunjene odredene pretpostavke, regresijski se model primjenjuje kao prognosticki izraz. Podrueja korelacijske i regresijske analize u i!';vrstojsu vezi. Istrazivanje maze zapoeeti utvrdivanjem koeficijenta korelacije, a zatim se, ako je potrebno, nastavlja analizom regresijskog modela. Put moze biti i obrnut. Ako je prirnarni cilj istrazivanja utvrdivanje prediktivnog oblika odnosa, poci ce se od regresijskog rnodela i njegove analize, a zatim nastaviti s korelacijskom analizom.
U navedenom modelu Y je zavisna varijabia. Ona predstavlja poja~.cije se promjene objasnjavaju pomocu. nezavisnih. variiabli Xl' Xz: ... , XK: VanJabla. u predstavlja nepoznata odstupanja od funkcicnalnog odnosa 1 u nekim se slui!';~jevirna javlja kao faktor produkta s funkcionalnim dije~?m modela. Zavl~na varijabla naziva se jos regresand varijabla (output), a variiable X regresorsklm, prediktorskim, kriterijskim iii input varijablama. Izbor varijabli u modelu i odredivanje njihova statusa, kao. i konkretnog oblika funkcionalnog dijela modela, zavisi od slucaja d~ ~luCaJa, a izvire IZ kvalitativne analize. Prisutnost varijabIe u posljedica je statistickog odn.osa .medu pojavama, Ako se pretpostavi da ta varijabla.podlije~~ nekom :a~onu vjerojatnosti, problem analize tretirat ce se metodarna inferencijalne statlst~ke. Model koji sadrli zavisnu i jednu nezavisnu varijablu nazlva. s~ mod~lo~ jednostavne regresije. Model sa z~~is.n.o~ i ~ dvij~ iii v~se nez~~ls~lh varijabli predstavlja model visestruke regresije III visedimenzionalni r~greslJs~1 m~~el. . Regresijska i korelacijska analiza provod~. se na o~novi stvar:~llh vn~ednostl pojava (varijabli). Slatisticki podaci za regresijsku analizu su broJc~no l~~~e.ne vrijednosti varijabli u modelu. Podaci rnogu biti u obli~u.vrernensklh senja III u obliku vrijednosti varijabIi za razlicite elemente statIstl~ko? sk~~a. u dano~ vremenu. Ovisnost narodnog dohotka 0 broju zaposlemh 1 velicini ~snov~~ sredstava u Republici Hrvatskoj moze se istrazivati pomocu vr.e~e~sklh se?Ja donotka, zaposlenih i osnovnih sredstava. Ta se ovisnost da anahzlf.at.1po~.e h se od njihovih vrijednosti po opcinama Republike Hrvatske u 1991. godini, Vnjedn~: sti varijabJi odnose se sada na prostorne jedinice u odabranom vre.~enu. U ana.11Z1 se rnoze poCi i ad podataka za industrijske grane u Republici Hf':'at~k?J u spomenutoj godini, pa se oni odnose na privredne agregate, pnvre~ne ~edm~ce u odabranom vremenu, Vrijednosti varijabli ponekad se rezuitatl. mJ~~enja ~ statistickim eksperimentima iii su dobiveni simulacijom. Por~d stvarm~ vnJedno~h varijabli u regresijskoj se analizi ja.vl~aju ~ i~dik.ator ~anJa~~e. koje u p~avllu poprimaju vrijednosti 0 i 1, stoga se JO~ nazl.V?J~. l?~rm~ varijablama. Indikator b varijable oznacava]u oblike norninalnih obiljezja ili pnsutnostlodsutnost nekog stanja (npr. mirnodopsko stanje = 0, ratno stanje = 1). . . Vee je istaknuto da je zadaca statisticke analize odn~sa lzm~du pojava da brojcano izrazi stupanj njihove povezanosti ili da ga pre~ocl pomocu algebarskog odnosno regresijskog rnodela. Brojcana analiza stuP?J.~ pov~zanostl u Ok~lru deskriptivne statistike sastoji se u izracunavanju koeflCI]e.nta J~d.~ostavne, .~lS~. strukc i parcijalne korelacije, koeficijenta korelacije ranga I koeficljenta asocijaci-
Y=/(X)+u.
(2.2)
Za statisticku analiza modela jednostavne regresije izbor oblika rnodela svodi se na izbor funkcijef(x). Funkcijaf(X) poprima razlicite oblike, izbor kojih ovisi od slucaja do slucaja, Oblik funkcije ponekad izvire iz kvalitativne analize, odnosno pretpostavke istrazivaca 0 prirodi odnosa medu pojavama. Ako se npr. pretpostavi da se potrosnja rnijenja linearno s promjenama raspclozivog dohotka, j{X) ce imati oblik Iinearne funkcije. Pornocno sredstvo za izbor oblika funkcije u modelu (2.2) je dijagram rasipanja. To je graficki prikaz, koji se konstruira u pravokutnom koordinatnom sustavu. Dijagram se sastoji od ucrtanih tocaka poloiaj kojih ovisi 0 vrijednostirna varijabli i odabranih aritmetickih mjerila na osima, Na osi apscisa nalazi se aritmeticko mjerilo za nezavisnu varijablu (varijabla X), a na osi ordinata je rnjerilo za zavisnu varijablu (varijabla Y). Ako se analiza odnosa provodi na osnovi n parova vrijednosti varijabli Xi Y, tocke imaju koordinate T[x, yJ. Prema rasporedu tocaka donosi se prvi sud 0 obIiku veze iii, sto je isto, 0 mogucern obliku funkcije [(X). Tipicna rasipanja tocaka predocena su grafikonom 2.1.
o regresijskoj
i korelacijskoj analizi postoje brojni radovi. Vidjeti npr. N. R. Draper and H. Smith (1981). Applied Regression Analysis. 2nd Edt. New York: Wiley: S. Weisberg (1980). Applied Linear Regression. New York: Wiley . 81
so
.;,.:\~
(al
• . ~b)
promjena ~x:uge. Po de ll se od pretpostavke da je rijee (2.2) funkcija f(X) bit te ovog oblika: [(X) =a+ bX.
Uzimajuci U obzir opel oblik modela i oblik linearne funkcije (2.3), model jednostavne linearne regresije postaje: Y=a+bX+u. (2.4)
..
Ie)
Tipicn! dijagrami rasipanja Grafikon 2.1.
..
(d)
..
Rasporeduiu Ii se tocke u dijagramu rasipanja od donjeg lijevog kuta kvadranta prema gornjem desnom kutu oko ~amisljenog p.ravca, odnos ~~meau pojava da se analiticki izraziti pomocu model~ jednostavne hnearn_e regrestje. Sto je rasipanje oko pravca manje, povezanost Je ~a. Raspored tocaka po pra~cu upucu]e na postojanje funkcionalne povezanosti, Raspored toc~k~ od gornjeg lijevog kuta kvadranta prema donjem desnom k~tu uzduz zamIslleno~ pravca takoder govori 0 postojanju linearne veze rnedu pOJavama. Tock~ se ?dIJ~gramu rasipanja mogu rasporedivati oko neke krivulje, pa ce u tom sluca]u biti pnklad~n model krivolinijske regresije. Rasporcdivanje toeaka moze bit! takvo da govon 0 nepostojanju kovarijacije medu varijablama. .' Na temelju dijagrama rasipanja donosi se sud 0 mogucern obliku pov.eza~osu (obliku funkcije f(X)). Ako je rijec 0 linearnoj ve~i: ist~~obno ~e zakIJuc~~e 0 smjeru veze. Po smjeru linearna veza moze biti po~t.lvna ll~ ~~gat.lv~~. PO~lhvn~ je aka porast vrijednosti nezavisne varijable pratt linearni III priblizno h~earm porast vrijednosti zavisne varijable. Povecava Ii se vrijednost nezav~s~e variJ.able, a vrijednost zavisne varijable linearno se iii priblizno linearno smanjuje, radi se 0 negativnom smjeru linearne veze. Za prvi se primjer kale da su .?ojave poziti.~n~ linearno korelirane, a za drugi da su u negativnoj korelaciji. N~ postoJ~. 11 sisternatsko rasporedivanje toc~ka u dija~ra~u, radit ce s: ? o~sut~OStl korel~.cIJ~. Sto su udaljenosti tocaka rnanje od zarnlsljenog pravca III krivulje, korelacija je jaca i obratno.
. U navedenom ~odelu je nezavisna, Y zavisna varijabla. Varijabla u izrazava ~epoznate 1.apstrahirane utjecaje na varijaciju varijable Y i predstavlja odstupanje od funkcionalnog odnosa. Zbog toga se alternativno naziva gre!kom re!acij~. Njezina prisutnost u modelu posljedica je postojanja statisticke povezanosn pojava, U modelu 2.4. a i b su parametri. Model linearne regresije temelji se na n parova vrijednosti varijabli Xi Y. Parametri a, b i vrijednosti varijable u su nepoznari. Kada bi odnos izrnedu varijabli bio funkcionalan, u rnodelu ne bi bila pr~~utna v.arija.~la ~. P.arame.tri bi se u tom slucaju odredili pomocu dva para vrijednosti varijabli X I Y. TIme bi se okoncao postupak konkretizacije modela. Ako se ~retpostavi linearni odnos izrnedu varijabli parovi kojih su vrijednosti tocke u dijagrarnu rasipanja, onda se izmedu tih tocaka mofe smjestiti beskonacno mnog? pravaca. Izbor pravca iii, sto je isto, velicine parametara a i b, odnosno fun_kcIJe.(X)_, mora poci od odredenog kriterija izbora. Ima vise kriterija koji f sl~~e tOJ S~rsl.. Izbor s~.moze provesti pode Ii se od teznje da odstupanja stvarnih vrijednosn zavisne varijable od vrijednosti funkcije (tocaka od pravca) budu mala. Odstupanja se mogu mjeriti na razlicite naclne. Uobicajeno se mjere odstupanja usporedna S osi ordinata (s vertikalnorn osi). Analiza rnodela (2.4) oslanja se na stvarne vrijednosti varijabli. Polazni model jednostavne linearne regresije za skup od n vrijednosti (Xi, Yi) varijabli Xi Y moze se napisati kao sustav jednadzbi: Yi=a+bx;+Ui iii alternativno: (2.6) gdje je
i=l,2, ... ,n,
11
(2.5)
Yi'
(2.7) (2.8)
odnosno:
Ui=Yi- a - b x;
2.2.l.
lednostavna
linearna regresija
Model jednostavne linearne regresije prikladun j..::za opisiva~je .od.~osa ~zmedu pOjU\'3. a za nj je svojstveno da promjenu jedne pojave pran prlblizna Iinearna
,~l"
".
".
.VeliCine u u prethodnom izrazu nazivaju se rezidualnim odstupanjima. Razidualna odstupanja prcd-ravljaju ocjene greske relacije u polaznom rnodelu. . Iz (2.6) je. :id.ljivo da j.;-.stvarna vrijednost zavisne varijable zbroj vrijednosti linearne ~~nkCIJe.' ?dstupanJ3 u. S obzirom na to da je rih odstupanja koliko i p~l.rovavnJe~nostr,. lzbo~ fu~kcije odnosno pravca mogao bi se terneljiti na velicini ~lJihova zbro}a. T~J zbroj nile ~obra osnovica za izbor adekvatne linearne funkcije, jer se moguca velika cdstupanja s pozitivnim predznakom mogu potirati s velikim 83
odstupanjima negativnog predznaka, pa ce zbroj odstupanja biti mali, premda [e rijet 0 pravcu slabe reprezentativnosti. Umjesto zbroja moguca osnovica ~bora je zbro] kvadrata rezidualoih odstupanja, odnosno zbroj kvadrata odstupa~~a stvarnih vrijednosti zavisne varijable od regresijskih vrijednosti lineame funkcije :9'. Za pararnetre te funkcije mogu se o~red~ti velieine za koje rezidualni .zbroj k.vadr~ta doseze minimum. Metoda odredivanja parametara na spomenutoj osnovi nazrva se metodom najmanjih' kvadrata. Ocjena parametara je prvi zadatak u statistickoj analizi regresijskog modela. IzabereIi se metoda najmanjih kvadrata, tad a je polazni izraz rezidualni zbroj kvadrata: SQ
porast vrijednosti nezavisne varijable X. Predznak koeficijenta je pozitivan ili negativan, Podaci za i1ustrativni primjer analize rnodela jednostavne Iinearne regresije odnose se na broj zaposlenih u drustvenorn i privatnom sektoru i na iznose poreza iz dohotka i osobnih dohodaka u budzetu odabranih osam zajednica opcina u Hrvatskoj u 1989. godini. Izvor podataka je Statisticki godisnjak Repub1ike Hrvatske, str. 382-387, 394-403.
Tabela 2.1. Zaposleni i prihodi od poreza Prihod u milijunima odabranih zajednica opcina
= .f (Yl- Ylf = f
p:::I1
1=1
(y;- (a
+ bx;)f·
(2.9)
Zajednica opcina
Kako su u navedenom ovisi 0 parametrima a i b. metode najmanjih kvadrata, funkcije SQ. Iz prvog uvjeta
-=
izrazu velieine Yi i Xi dane, rezidualni zbroj kvadrata Da bi se doslo do ocjena parametara a i b u smislu nuzno je primijeniti postupak odredivanja minimuma minimuma dolazi se do sljedeceg sustava jednadzbi:
-2.~
n ,al
n
v,
3 28.4 82.4 10.7 14.1 4.2 91.0 16.4 20.1 267.3
x~
4 8611.84 97593.76 1169.64 2611.21 470.89 69537.69 3014.01 3237.61 186246.65
y;
5 806.56 6789.76 114.49 198.81 17.64 8281.00 268.96 404.01 16881.23
xo,
6 2635.52 25741.76 365.94 720.51 91.14 23996.70 900.36 1143.69 55595.62
aSQ
8a
(yj-a-bxj)=O bXi)X..=O.
aSQ -ab
=-
2.~ 1(yj-a,a
Sisak Zagrebacko
podrucje Ukupno
Jednadzbe (2.10) zovu normalnim jednadzbama. Normalne jednadzbe lineame su u pararnetrima, a sadrfe dvije nepoznanice, koliko je i nepoznatih parametara. Rjesenje sustava normalnih jednadfbi je: tX;Yii=l b=----a=y-bi. Model jednostavne oblik: Iinearne regresije s ocijenjenirn y=a+bx. parametrima nxy (2.11) .
Za nezavisnu varijablu uzet je broj zaposlenih, a na zavisnu iznos poreza iz dohotka i osobnih dohodaka. Na temelju vrijednosti varijabli konstruiran je dijagram rasipanja.
PrihlXl~
[u
m,lijunima]
y lOS
..
7S
(2.12)
irna ovaj
({J
45 30
V
V _1_
V"
.lY
(2.13)
15
Oejena a u (2.13) predstavlja konstantni Clan. To je vrijednost regresijske funkcije za vrijednost nezavisne varijable x = O. b je regresijski koeficijeru, On pokazuje za koliko se linearno rnijenja vrijednost regresijske funkcije za jedinicni
lU
120
160
200
Zi.O
211)
3ZO
broj lCljlOSI."h
(u tisuCQI!lQI
Grafikon 2.2. 85
=a+b +
XI
Ui,
as ocijenjenim parametrima:
y";'a+ bx.
Ocjena pararnetra b metodorn najrnanjih kvadrata dana je izrazom (2.11). Uvrstavanjern odgovarajucih vrijednosti iz tabele, dolazi se do regresijskog koeficijenta b:
i=l
nezavisne varijable. S obzirom na to da se analizira statisticki odnos izmedu pojava, stvame vrijednosti zavisne varijable Y razlikuju se od regresijskih vrijednosti. Kako je vee definirano, ta razlika izraeunana na osnovi modela s ocijenjenim parametrima predstavlja rezidualno odstupanje. Rezldualna odstuparija su oejene gresaka relacije u polaznom modelu jednostavne linearne regresije. Jednadzba jednostavne lineame regresije s ocijenjenim parametrima metodom najrnanjih kvadrata aproksimira odnos izmedu varijabli u smislu aritmeticke sredine. Zbog toga vrijede i sljedeca svojsrva ocijenjenog modela: (a) zbroj odstupanja stvarnih vrijednosti zavisne varijable Y od regresijskih vrijednosti y jednak je 0, (b) zbroj kvadrata tih odstupanja je minimalan. To svojstvo izvire iz metode oejenjivanja, (e) zbroj produkata regresijskih vrijednosti i rezidualnih odstupanja jednak je O. Zbroj produkata vrijednosti nezavisne varijable i rezidualnih odstupanja takoder je jednak O. Kako je zbroj odstupanja empirijskih vrijednosti zavisne varijable od njezinih regresijskih vrijednosti jednak 0, to je aritmeticka sredina stvarnih vrijednosti te varijable jednaka aritrnetickoj sredini regresijskih vrijednosti.
Sirnbolicki
±x-y.-niY
I ,
b=-----
= 0.295575.
= 33.4125 -
0.295575 . 110.9625, a
= 0.614759.
y = 0.614759 + 0.295575
x.
Yi'
Regresijski koeficijent u tom primjeru turnaci se ovako: ako se broj zaposlenih poveca za jednu tisucu, regresijska vrijednost poreza od dohotka i osobnih dohodaka povecat ce se za 0.295575 milijuna. Irnajuci na umu da regresija predstavlja prosjecan odnos medu varijablama, regresijski se koeficijent moze tumaciti i ovako: ako se broj zaposlenih poveca za jednu tisucu, prihodi od poreza . povecat ce se u prosjeku za 0.295575 milijuna (bilo bi pogresno tvrditi da ce se porezi povecati za vrijednest regresijskog koeficijenta, odnosno izostaviti u turnacenju dio recenice »u prosjeku«). Konstantni clan u tom primjeru nema konkretnog znacenja, Inace, predstavlja vrijednost regresije za vrijednost regresorske varijable X = O. Da bi se donio zakljucak 0 kakvoei regresijskog rnodela sa statistickog stajalista, potrebno je odrediti vrijednosti odgovarajucih statisticko-analitickih pokazatelja. Sarna jednadzba s ocijenjenim parametrirna ne pruza podlogu za to.
Vrijednosti rezidualnih odstupanja izrazene su u mjernim jedinicama zavisne varijable. Radi jednostavnije prosudbe njihovih obiljezja racunaju se i relativna i standardizirana rezidualna odstupanja. Relativna rezidualna odsrupanja dobivaju se dijeljenjem tih odstupanja pripadajucorn stvarnorn vrijednoscu zavisne varijable, a ornjer se potom pomnoii sa sto. Izraz za relativno izrazena rezidualna odstupanja je:
u;,rel
.\';-y; = --100.
Yi
(2.15)
2.2.2. Regresijske vrijednosti, rezidualna odstupanja i analiza varijance za model jednostavne linearne regresije
Pomocu regresijske jednadzbe s ocijenjenim parametrima vrijednosti. Regresijske su vrijednosti dane izrazorn: utvrduju se, regresijske '. .
'
Yi=
(I
+ b x;
(2.14)
u •.
..
Standardizirana odstupan]a racunaju se dijeljenjem rezidualnih odstupanja regresijskorn standardnom devijacijom odnosno standardnom greskorn. U pravilu, ocijenjeni model je reprezentativniji sto su manja rezidualna odstupanja. Rezidualnih odstupanja ima koliko i regresijskih vrijednosti, odnosno parova vrijednosti varijabli X i Y. Dna predstavljaju disperziju u odnosu na regresijsku funkciju kao prosjecnu velicinu. Za analizirani primjer regresijske vrijednosti i rezidualna odstupanja dani su U tabeli 2.2. U navedenoj tabeli prva vrijednost zavisne varijable je 28.4 milijuna i odnosi sc na prihode od poreza iz dohotka i osobnih dohodaka u zajednici opcina Bjelovar, Broj zaposlenih je 92.8 tisuce. Regresijska vrijednost za zajednicu Bjclovar dobiveria je pomocu regresijske jednadzbe na sljcdeci nacin:
5'1 == (J.61475~
-r-
I).
Izracunavaju se uvrstavanjern empirijskih vrijednosti nezavisne varijable Xu jednadzbu s ocijenjenim parametrima. Te vrijednosti predstavljaju oejenu razine (ocekivanu, prosjecnu vrijednost) zavisne varijable za dane stvarne. vrijednosti
== :::'.0.0441.
","_
""
Regresijska vrijednost za Bjelovar iznosi 28.044. Prema regresiji, ocekivana ruzina prihoda spomenutog izvora za broj zaposlenih od 92.8 tisuca iznosi 28.0M87
......
Tabela 2.2. Vrijednosti zavisne varijable, regresijske vrijednosti i rezidualna odstupanja Prihodi u mil. Yi
1 28.400 82.400 10.700 14.100 4.200 91.000 16.400 20.100 Regresijske
vrijednosti Yi
2 28.044 92.952 10.723 15.719 7.029 78.558 16.842 17.433
Rezidualna
odstupanja
rezidualna odstupanja
Ui,te1
Relativna
Yi-Yi
3 0.3559 -10.552 -0.02338 -1.619 -2.829 12.442 -0.4418 2.667
Stupanj varijacije stvarnih vrijednosti zavisne varijable u odnosu na procijenjene vrijednosti pomocu regresije mjeri se razltcitim mjerama, od kojih je najvaznija varijanca i iz nje izvedena standardna devijacija te koeficijeru varijacije regresije. Mjere disperzije oko regresije sluze izmedu ostalih pokazatelja za ocjenu kvalitete modela. Statlsticko-analitlcke velicine za prosudbu reprezentativnosti regresije temelje se na rasclanjivanju zbroja kvadrata odstupanja vrijednosti zavisne varijable od njezina prosjeka. Rasclanjivanje odstupanja dana je na grafikonu 2.3. U dijugrarnu rasipanja (grafikon 2.3) nalaze se tocke i rcgresijski pravac, Regresijski pravac prolazi tockom Y(i; ji). Ako se odabere tocka Ys koordinatama (Xi; Yi), tada je vidljivo da vrijedi ova rasclamba ukupnog odstupanja:
(yj - ji) = (Yi - ji)
+ (Yi -
}Ii)'
(2.16)
Navedenih rasclambi irna koliko i parova vrijednosti, odnosno n. Kvadrira Ii se izraz (2.16), a zatim zbroje clanovi, dolazi se do jednadfbe: (2.17) Buduci da je rneduclan kvadrata binoma s desne strane jednak 0, dobiven je Izraz (2.17). Jednadzba (2.17) je temelj analize varijance. Ta jednadzba predstavlja razdiobu zbroja kvadrata odstupanja empirijskih vrijednosti zavisne varijable od njezine aritmeticke sredine (ukupni zbroj kvadrata). Prva komponenta, odnosno prvi clan s desne strane jednadzbe je zbroj kvadrata odstupanja regresijskih vrijednosti od njihove aritmeticke sredine. Ta se komponenta naziva i sumom kvadrata odstupanja protumacenih modelom (protumacena suma kvadrata). Drugu komponentu Cini zbroj kvadrata odstupanja empirijskih vrijednosti zavisne varijable od regresijskih vrijednosti, Ta se komponenta alternativno naziva neprotumacenom sumom kvadrata, odnosno rezidualnom sumom kvadrata. Ako se svaki clan u jednadzbi (2.17) podijeli ukupnim zbrojem kvadrata i ako se mane jednadzbe zamijene, dolazi se do rasclambe ukupnog zbroja kvadrata u relativnom iznosu, tj.:
milijuna. Razlika izmedu stvame velicine prihoda za tu zajednicu i regresijske . vrijednosti predstavlja prvo rezidualno odstupanje, tj.: . Yl
III
= 0.3559.
Po istom se postupku dolazi i do preostalih regresijskih vrijednosti, rezidualnih odstupanja i relativnih rezidualnih odstupanja, Prva regre~ijska vrijednost dob~o procjenjuje razinu zavisne varijable. Rezidualno odstupanje, od.nosno odst~~~nJe stvarne vrijednosti za zajednicu Bjelovar od procijenjene svega je 0.3559 milijuna ili 1.253%. I druga su rezidualna odstupanja relativno mala. Jedini je izuzetak regresijska vrijednost prihoda za zajednicu opcina Like. Ocekivana razina prihoda za 67.35% »precjenjuje« ovdje stvarnu razinu.
y+------r---------,
y.-y;
7
nacije. Korijen
(2.18) Prvi clan s Iijeve strane navedene jednadzbe naziva se koeficijentom determiiz drugog clana s iste strane jednadzbe je koeficijen: alijenacije. U razvijenorn obliku zbrojevi kvadrata dani su jednadzbama:
,= [
y,-y
y,-y
(Yi- W=
,= 1
_f y}-nji2
(2.19) (2.20)
.v)
(2.21)
89
Komponente
ukupnog
zbroja
kvadrata ANOVA).
Tabela 2.3. Tabeln ANOVA Izvor varijacija 1 protumacenih modelom rezidualna odstupanja Ukupno Stupnjevi slobode 2 SP = SR= Zbroj kvadrata 3 Sredina kvadrata 4 Empirijski F- omjer
5
1
n-2
leI
,f (5oj n ill'll n
)i)l
SPIl SR/~-2
SPI(SRlrl-2)
~tatistick~j analizi ~~jer rezidualnog zbroja kvadrata i broja stu~nJeva s.lobode nazrva se oCJe~o~. vanjance, dok je pozitivni drugi korijen tog ?mJera oCJe~a stan~ardne ~evIJacIJe. Kako se u ovisnosti 0 njoj formiraju intervalne oCJe~~ z~vlsne .vanJable za d~ne vrijednosti nezavisne varijable, ocjena standardne devlJa~lje naziva s~ alt~rnatlvno standardnom greskom ocjene. Omjer protu~acen~ ~redm~ kvadrata I rezidualne sredine kvadrata predstavlja empirijski F TaJ Je o~jer t~st velicina za ispitivanje hipoteze 0 znacajnosti Iinearne regresrje. ~Ieme~tl za .Izracu~.avanje svih spornenutih pokazatelja nalaze se u srandardnoj tabeli anahze vartjance i sastavni su dio izlaza obrade regresijskog model a pomocu programa za racunalo.
t?m primjeru.ne bi bio ~t~tisticki, ne~o deterministicki. U naeelu, mala vrijednost rih pok~zatelJa m?ze blti pokazatetj dobre reprezentativnosti analitickog izraza odnosa izmedu pojava.
""!":
~(yi-YY
n-l
ST=
;=1
~ (Yi - )i)Z
analize modela jednostavne regresije zbrojevi kvadrata koristit ce se za izracunavanje statisticko-analitickih pokazatelja disperzije, odnosno reprezentativnosti modela. Polazna velieina za mjerenje disperzije je rezidualni zbroj kvadrata. Varijanca regresije je prosjecn! rezidualni zbroj kvadrara. Simbolicki:
U okviru deskriptivnostatisticke
(2.25)
Alternativno:
r2=1----_ (2.22)
iD]
(2.26)
i~1 (Yi - ji)2 KO~ficije~t det~rminacije varira u zatvorenom intervalu od nule do jedan. Jednak je null ako je protumacen zbroj kvadrata jednak nuli, Pozeljna je velika vrijednost tog koeficijenta (blizu jedan), jer to znaci da je mala vrijednost rezidualnog zbroja kvadrata, a time i disperzija oko regresije. Kao analiticki pokazatelj u prosudbi kakvoce regresije sluii pored koeficijenta determinacije i ~origirani koeficijent determinacije. Korigirani koeficijent deterrninacije dan je izrazorn:
Oy =
(2.23)
Standardna devijacija regresije pokazuje koliko je prosjecno odstupanje empirijskih vrijednosti zavisne varijable od njezinih regresijskih vrijednosti. lzrazena je u istim mjernim jedinicama kao i zavisna varijabla, pa je po tome apsolutna rnjera disperzije oko regresije. Relativna mjera disperzije oko regresije je koeficijent varijacije. Koeficijent varijacije je ornjer standardne devijacije regresije i aritrneticke sredine zavisne varijable pomnozen sa sto, tj.: (2.24) Varijanca, odnosno standardna devijacija i koeficijent varijacije ovise 0 rezidualnorn zbroju kvadrata. Kada bi svako rezidualno odstupanje bilo jednako nula. rezidualni zbroj kvadrata bio bi jednak nuli, i u tom bi slucaju vrijednosti regresije bile jednake vrijednostima line arne funkcije , Odnos izmedu varijabli u
-, n,·=1---1 (l-r). 2 n -2
(2.27)
Korigirani koeficijent determinacije jednak je ili manji od koeficijenta Jeterminacije. Kao sto je vidljivo iz definicijskog izraza, korigirani koeficijent dererminacije ovisi i 0 broju vrijednosti (broju stupnjeva slobode). Nepovoljno IllU je obiljezje lito rnoze biti negativan. .; • Opisani analiticki pokazatelji izracunat ce se za podatke ilustrativnog primjera modela jednostavne linearne regresije. Elementi za analizu varijance za taj prirnjer dani su u tabeli 2.4.
9]
"
Tabela 2.4. Tabela analize varijance za analizirani model jednostavne Iineame regresije .
. Izvor varijacija
protumafenih modelom
Stupnjevi slobode 1
6
7
Zbroj kvadrata
7665.853 284.216 7950.069
Sredina kvadrata
7665.853
milijuna, Relativna je mjera disperzije oko regresije koeficijent varijacije regresije: V =~100==
V.=17.838%.
47.369
Za deskriptivnostatisticku analizu modela primijenit ce se dio informacija sadrzan u standardnoj tabeli analize varijance. Ukupni zbroj kvadrata naveden u tabeli ANOVA izracunan je ovako:
Stvarne vrijednosti prihoda odstupaju od procijenjenih vrijednosti (regresijskih vrijednosti) u prosjeku 17.838 %. <?ejena varijance regresije je omjer rezidualnog zbroja kvadrata i broja st~pnJeva slobode (n-2). Standardna greska ocjene je drugi korijen iz varijance oCJe~e. U primjeru u tabeli analize varijance nalazi se ocjena varijanee 47.369, dok je standardna greska oejene 6.883. Var~janca, odnosno standardna devijacija i koeficijent varijacije ornogucavaju donos~.nJe zakljuc~a ~. statistickoj reprezentativnosti modela. Istoj svrsi sluzi i koeficijent deterrninacije. Za analizirani primjer koeficijent je:
t (Yi je
y2) ==
t YJ 1
ST==7950.069.
1=
,2= i;.U\- YY _
I~
_f(y,•
y)2
7665.853 7950.069'
r2 ==0.9642.
i.e: 1
(y.'- Yir:=
'
i=ol
y; -
I-I
_tYi - b .t
II'" i
XiYi
==
SP == 7665.853.
Pomocu rezidualnog zbroja kvadrata izracunat ce se varijanca regresije i standardna devijacija. Varijanca regresije u primjeru je:
i~.(yi-
Modelom jednostavne Iinearne regresije proturnaceno je 96.42 % odstupanja, Neprotumaceni je dio 0.0358 iii 3.58 %. Korigirani je koeficijent determinacije 0.9583 i odreden je prema izrazu (2.27). Ako model s ocijenjenim parametrima zadovoljava, moze se primijeniti za procjenu razine zavisne varijable za izabranu vrijednost nezavisne varijable. Procjena (prognoza) je u deskriptivnoj statistici jedan broj, koji ima sratisticka obiljez]a: predstavlja ocekivanu, mogucu razinu. Procijenjena vrijednost zavisne varijable za pretpostavljenu vrijednost nezavisne varijable izracunava se na isti nacin kao i regresijska vrijednost. U jednadzbu regresije S ocijenjenim parametrima .?mjesto x-a uvrsti se konkretni broj i izacuna pripadajuca vrijednost regresije. Realnost te procjene ovisi 0 kvaliteti regresije, njezinoj reprezentativnosti, kao i opravdanosti pretpostavke da ce za danu velicinu varijable X vrijediti regresija oblika danog upotrijebljenom regresijskom jednadzbom. U primjeru ce se procijeniti jednirn brojem ocekivana razina prihoda za razinu zaposlenih od 310 tisuca, Procjena je:
Y (x
a~==---Y
Yil
n
284.216 8 '
a~=35.527,
Procjena budzetskih prihoda za razinu zaposlenosti od 310 tisuca iznosi 92.243 milijuna.
a standardna devijacija:
• ;~l
L (yi- Yi)2
n
Standardna devijacija regresije pokazuje da je p~osjecno odstupanje stvamih vrijednosti zavisne varijable (prihoda) od regresijskih vrijednosti prihoda 5.96
(j")
:1 t I
0 dvjema numerickirn Takvi grupirani podaci uobicajeno su prikazani u dvodimenzionalnoj Labell. Opel oblik za taj prikaz je tabela 2.5.
93
Tabela 2 5 Opti oblik tabele s grupiranim numerickim podacima Modaliteti numerieke varjjable Y
YI Y1
...
...
Ukupno
X,
Xi
...
...
/12 /22
[n
{Ii
IlJ
... ...
...
...
...
fk
/;e
t:
h
12,
Aritmeticke sredine varijable Y racunaju se za svaku vrijednost varijable X. Prema tome, pjee je 0 vaganim aritrnetiekim sredinama u kojima su ponderi frekvencije u stupcima dvodimenzionalne tabele. Tih je sredina c koliko i modaIiteta varijable X (koliko i stupaca u polju tabele), Nazivaju se uvjetnim arUmetiCkim sredinama, jer je svaka od njih dana za pojedinacnu vrijednost varijable X. Uvjetne aritrneticke sredine varijable Y dane su izrazom:
Yi
Y,
fit
f,j fj
...
...
Jr.
fr. n
Y(xi)
(2.28)
f,2
... ...
..
,
... ...
Ire Ie
Ukupno
/.1
Dijagram rasipanja sastoji se od tocaka ucrtanih u pravokutni koordinatni sustav, Na osi apscisa nalazi se aritmeticko mjerilo za vrijednosti varijable X, a na osi ordinata je aritmeticko mjerilo za uvjetne aritmeticke sredine varijable Y, pa su koordinate tocaka odredene parovima:
U tabeli 2.5. u zaglavlju su dane vrijednosti numericke varijable X, a u pretkoloni vrijednosti numerlcke varijable Y. U postupku analize poei ce se od razrednih sredina kao vrijednosti numericke varijable , ako je grupiranje provedeno na osnovi razreda, U polju te dvodimezionalne tabele frekvencija hi predstavlja broj parova s vrijednoscu Yi i Xi' Broj tih frekvencija je r X c, a njihov je zbroj jednak broju vrijednosti
(Xi; Y (Xj».
Uvjetne
u tabeli 2.6.
n.
Simbolieki:
;cl
(u tisutama) pre~a poljoprivrednoj radnoj sn3.Z1 povrsini zemljisnog posjeda u ha u Hrvatskoj 1969 godine 1 Povrsina zemlje u ha, varijabla X Ukupno
i= 1 1/
±j;==n.
sto je danih
Kolone u polju nazivaju se jos i kolonama "pod uvjetorn«. To je stoga pripadnost podatka frekvenciji polja uvjetovana istodobnim posjedovanjem
0-2 1 122
72
2-4 3 54 75 27 2
8
4-6 5
6-8
7 8
8-10
9
10-30
20 4 8
fro
modaiiteta dvaju varijabli. Frekvencija Ii. u marginalnoj koloni predstavlja broj vrijednosti Yi bez obzira na vrijednost varijable X. Skup parova (yi' Ii_) cini marginalnu distribuciju frekvencija za varijablu Y. Frekvencija i, pokazuje koliko je podataka s vrijednoscu X· varijable X bez obzira na vrijednost varijable Y. Skup parova (Xj,lj) tvori rnarginalnu distribuciju varijable X. Frekvencije marginalnih distribucija zbrojevi Sll po redovima odnosno kolonama kombinirane tabele , tj.
20
4 5
19 4
47 23 8 1
16
11
5 1
6 3
4 1 0
218
166
99
41
22
17
i == 1,2, ... ,r
te: ,
1.58
1.97
2.22
2.39
2.55
2.12
Velicine ispod granica razreda u zaglavlju tabele su razredne sredine, Prva uvjetna sredina je 1.58 te predstavlja prosjecan broj zaposlenih u poljoprivrednim kucanstvlma s povrsinorn posjeda od jednog ha, odnosno izmedu 0 i 2 ha. Izracunana je prema izrazu (2.28), tj.:
*".
.
,.,_
~:;
,.
19·3
+ 4·4 + 1·
5] = 1.58 .
95
Jednadzba s oeijenjenim parametrima notira se na uobieajen nacin, Za analizirani primjer iz tabele izracunane su ove pomocne velicine:
18 '1.6 • 30 OJ
Prosjecna poljoprivredna povrsina (aritmeticka sredina varijable X) i prosjecna velicina radne snage (aritmeticka sredina varijable Y) jesu:
'1.40 2 4 6 8 11
Analogno su izracunane i druge uvjetne sredine. Grafikon 2.4. predstavlja dijagram rasipanja za navedene podatke. Iz dijagrama je uocljiva tendeneija porasta prosjeene velicine radne snage s porastom velicine posjeda. Zakljuci Ii se da je za opisivanje odnosa pojava cije SU vrijednosti grupirane u dvodimenzionalno] tabeli prikladan model jednostavne Iinearne regresije valja za njega utvrditi jednadzbu regresije i druge statisticko-analiticke pokazatelje. Parametri u modelu na osnovi grupiranih vrijednosti varijabli oejenjuju se metodom najmanjih kvadrata, pri cemu se primjenjuju empirijske vrijednosti xI i pripadajuce uvjetne aritmeticke sredine Y(Xj). Do oejena parametara dolazi se minimiziranjem rezidualnog zbroja kvadrata. Polazni je model: (2.29) Minimizira se izraz: (2.30) Zbroj kvadrata (2.30) ovisi a nepoznatim parametrima a i b. Prema principu najmanjih kvadrata valja odrediti takve oejene parametara za koje ce rezidualni zbroj kvadrata doseci minimum. U normalnim jednadzbarna koje proizlaze iz prvog uvjeta minimuma vrijednosti varijable X i varijable Y koju izvorno predsravljaju uvjetne aritmeticke sredine u sustavu nonnalnih jednadfbi ponderiraju se odgovarajucim frekveneijama. To je razumljivo jer su podloga regresijskoj analizi grupirani podaei. Urede li se normalne jednadzbe i rijese po nepoznaniearna. doci ce se do sljedecih izraza za oejene parametara:
i= 1 i=l
< j=!.J
425.73859 7415.13386'
= 0.057415,
= 1.71244 + 0.57415 x.
Da bi se donia sud 0 reprezentativnosti regresije, potrebno je izracunati vrijednost varijanee, standardne devijaeije i drugih statisticko-analitiekih velicina. Podloga mjerama disperzije jesu kompanente ukupnog zbroja kvadrata. U jednadzbi rasclarnbe zbroja kvadrata za grupirane podatke nuzno je uvesti ponderaeijske faktore (frekveneije). Izrazi za ukupni zbroj kvadrata, proturnaceni i rezidualni dio postaju: (2.32) (2.33) (2.34) Brojcane vrijednosti zbrojeva kvadrata jesu: ST=467.40546,
= 442.95833.
SR
SP=24.44713,
Varijanea regresije je ;
±/rx-y.-niY lJ J ,
' J
b=
I, izrazirna
a =y
hi.
(2.31)
Lf'x~
- ni
~.
a za analizirani je primjer:
Oy
O~
= _'~
(2.35)
(2.31)
Y=
1r - .L ILv: n
1=
~= 442.95833 = 0 78678
563
. 97
,.\--.,~,.I
Pozitivni drugi korijen iz varijance je standardna devijacija i ona iznosi O'y= 0,88701, dok je koeficijent varijacije 46.20%. Velika vrijednost standardne devijacije i koeficijenta varijacije govori 0 slaboj reprezentativnosti regresije, te 0 moguco] neprikladnosti primijenjenog modela jednost~vne line arne regresije. Uzrok tome moze biti i atipicna vrijednost ... varijable Y (prosjeenog broja zaposlenih) za posljednju vrijednost varijable X . (povrsina posjeda 10--30ha). . Predocene metode analize modela jednostavne linearne regresije U okvirima su deskriptivne statistike, Zakljucci analize odnose se iskljucivo na dane empirijske podatke 0 pojavama. Model jednostavne linearne regresije tretira se i metodama inferencijalne statistike. Polazna je osnovica pri tome statisticka specifikacija svojstava varijabli. Ako se greska relacije u polaznom modelu definira kao slucajna velicina, a nezavisna varijabla kao fiksna (neslucajna), tada je i zavisna varijabla slucajna, pa se njezine ernpirijske vrijednosti mogu smatrati uzrokom. Zbog toga ce se neki postupci takve analize obuhvatiti u dijelu 0 metodi uzoraka, Valja napomenuti da se dio tehnike inferencijalno-statisticke analize ne razlikuje od tehnika i rezultata deskriptivnostatisticke analize.
Tabela 2.7. Transfonnacije nekih nelineamih rnodela u model jednostavne Lineameregresije Model (bez greske relacije)
(1) YI = a dOl. (2) YI=ax~
(3) YI=~ 1 a
Transforrnacije
Iny,
Transformirani model
Y,
YI
~
log Xi
vi=» + brx;
Yi = a
(5) y, = a
+ b log Xi
+ b log Xi
2.2.4. Transformacija nekih nelinearnih dvodimenzionalnih regresijskih modela u model jednostavne linearne regresije
Analizirani model jednostavne Iinearne regresije linearan je u parametrima i u variiablama (pararnetri i varijable su s potencijom jedan). U praksi se cesto uocavaju primjeri nelineamih promjena zavisne varijable za dane promjene . nezavisne varijable. Vise je razlicitih oblika nelinearnosti u dvodimenzionalnom regresijskom modelu. Prisutnost nelinearnosti u odnosima neposredno se odrazava na oblik modela i metode njegove analize. Velik broj modela prikladnom se transformaciiom svodi na model jednostavne linearne regresiie, iii se, kao sto je slucaj s regresijskim polinomom, radi s modelom visestruke regresije. Transformacija dvodimenzionalnih nelinearnih modela u linearne provodi se nad vrijednostima zavisne i nezavisne varijable iii obiju, sto ovisi 0 obliku funkcionalnog dijela modela. U tabeli 2.7. dani su neki dvodimenzionalni regresijski modeli bez greske relacije i nacini njihove transformacije u model jednostavne linearne regresije, Svi su navedeni modeli nelinearni, ali se odgovarajucorn transformacijom svode na model jednostavne linearne regresije. U modelu (1), umjesto originalnih vrijednosti varijable Y, primijenit ce se njezine logaritamske vrijednosti. U modelu (2) analiza se provodi pornocu logaritamskih vrijednosti zavisne i nezavisne varijable, Za model (3) valja odrediti reciprocne vrijednosti zavisne varijable, za model (4), umjesto originalnih vrijednosti nezavisne varijable, primijenit ce se drugi korijen iz svake vrijednosti, a u modelu (5) logaritamske vrijednosti nezavisne varijable. Umjesto dekadskirn logaritmima varijable se u modelima lransformiraju i pornocu prirodnih logaritama. Oblik funkcionalnog dijela modela identificira se pornocu dijagrarna rasipanja iii sJijedi iz kvalitativne analize. Statisticka analiza nelinearnih dvodimenzionalnih regresijskih modela koji se lincariziraju prikladnim postupkom provodi se na isti nacin kao i analiza modela
jednostavne linearne regresije. Sa stajalista metoda statisticke analize Iinearnost se prvenstveno promatra s obzirom na dimenziju nepoznatih parametara, pa su s tog stajalista navedeni modeli lineami. Medutim, pri interpretaciji rezultata nuzno je imati na umu da su sratisticko-analiticke velicine izracunane za model s transforrniranim, a ne s originalnim vrijednostima varijabli. Podaci za ilustrativni primjer odnose se na analizu kumulativa broja montiranih uredaja iste vrste (nezavisna varijabla) i prosjecnog utrosenog vremena po montaznoj jedinici. Podaci su dani u tabeli 2.8. Tabela 2.8. Kurnulativbroja montiranih uredaja i prosjecno utroseno vrijeme po uredaju
u satima
Kumulativbroja montiranihuredaja
Xi
Yi 2
70.1 62.5 59.0 55.7 53.9 52.2 51.3 50.2 49.5 -l8.8
log x, 3
0.00000 0.30103 0.47712 0.60206 0.69897 0.77815 0.84510 0.90309 0.95424 1.00000
logy,
4 1.84572 1.79588 1.77085 1.74586 1.73159 1.71767 1.71012 1.70070 1.69461 1.68842
1 1
2 3
4
5 6 7 8 9 10
Vrijednosti varijabli Xi Y. te log Xi log Y, prikazani su grafikonom 2.5. Grafikon pokazuje da je odnos izrnedu kumulativa proizvodnje i prosjecnog utrosenog vrernena po jedinici krivolinijski. Dijagram rasipanja konstruiran na osnovi logaritarnskih vrijednosti varijabli upucuje na primjenu modela jednostavne linearne regresije s logaritamskim vrijednostima varijabli,
99
Yo 72 68
64
log
1.90
r.
60 56 52
1,8
•
•
0 6
t7B
• •
,
~
ill
.
0.2 0.4 0.6
to
X;
• ••
110
0.8
log "
to
Grafikon 2.5.
Ocjena parametra log a iznosi 1.844. To je vrijednost regresije.Z8 x = 1. Antilogaritam je za tu ocjenu 69.82324 i predstavlja ocekivani utrosak radnog vremena montaze prvog uredaja. Ocjena parametra b pokazuje koliki je prosjeeni postotak promjene utroska vremena za povecanje broja montiranih uredaja od 1 %. Prema jednadzbi, svakoj promjeni broja montiranih uredaja za.1 % odgovara smanjenje regresijske vrijednosti utroska vremena za 0.1587%. U analizi produktivnosti rada i troskova analizirani se model naziva modelom ucenja, a graficki prikaz krivulja ucenja. Pornocu jednadZbe odreduju se jednostavno i marginalne promjene utroska vremena za marginalne prornjene broja montiranih uredaja . Osim ocjene parametara i za taj se model izracunavaju statistlcko-analiticke velicine kao i za prije opisani model jednostavne Iinearne regresije. U analizi se polazi ad logaritamskog oblika modela. Za navedeni primjer tabela analize varijance je:
Tabela
2.9.
Tabela ANOVA
Stupnjevi
Izvor varijacija
slobode
1
Zbroj kvadrata
0.02297 0.00004005 0.02301
Sredina kvadrata
0.02297 0.000005006
vrijednosti
odstupanja
vrijednosti od funkcije:
zavisne i nezavisne
varijable,
proturnacenih modelom
rezidualna odsrupanja
rex,) =axt.
Model se linearizira logaritamskom log Yi = log a
8
9
transformacijorn i postaje:
Ukupno
+b
log
Xj
+ log
Ej.
Sa stajalista statisticke analize, linearizirani model jednak je modelu jednostavne linearne regresije starn razlikom sto su vrijednosti varijabli u modelu (2.37) dane u obliku logaritama. Parametri se procjenjuju rnetodom najmanjih kvadrata. Traie se vrijednosti onih ocjena za koje zbroj kvadrata odstupanja logaritama vrijednosti zavisne varijable od logaritama regresijskih vrijednosti doseze minimum. Rjesenje je normalnih jednadzbi:
2=
= ---------, ~
.=1
1=1
vezom
Stan-
n logx logy
- n log x
2
loga
= logy
- b logx.
(2.38)
0.OO~~4005 = 0.002,
Jednadzba
s ocijenjenim
parametrima log
je: log x.
a koeficijent
varijacije:
y = log a + b
(2.39)
V1ogy=
~:~~~ 100,
VIOgj.=O.ll%.
U primjeru
jednadzba
glasi: log
y = 1.844
- 0.1587 log x,
au nelogaritamskom
obliku:
y = 69.82324
1 (H")
Uvrstavanjern logaritamskih vrijednosti nezavisne varijable u regresijsku jedriadzbu dolazi se do regresijskih vrijednosti, rezidualnih odstupanja, relativnih rezidualnih odstupanja i drugih velicina. Analogno tome analiziraju se i drugi spomenuti modeli nelinearni u varijabla-
X-O.IS87.
mao
101
statisticko cbiljezje. Ta varijabla izrazava odstupanja od funkcionalnog odnosa, odnosno nesistematske utjecaje na zavisnu varijablu. Njezina je prisutnost uvjetovana nederministickorn prirodom odnosa izmedu pojava. Model (2.40) predstavlja poopcenje modela jednostavne linearne regresije. Poznavanje statisticke analize tog modela omogucava relativno jednostavno pracenje postupaka analize modela visestruke linearne regresije. Empirijska analiza modela visestruke regresije temelji se na vrijednostima varijabli. Pretpostavlja se da je za svaku varijablu na raspolaganju 11. vrijednosti, pa se model (2.40) zapisuje u obliku 11. linearnih jednadzbi tj.: (2.41) Statisticka analiza rnodela ima istu zadacu kao i kod jednostavne regresije. . Valja ocijeniti nepoznate parametre, utvrditi mjere disperzi]e i druge statisticke pokazatelje, ispitati kvalitetu model a i tome slicno. Prvi se korak u analizi sastoji u ocjeni parametara. Kao i u dvodimenzionalnom slucaju, u tu se svrhu najcesce primjenjuje metoda najmanjih kvadrata. Geometrijski promatrano, problem ocjene parametara svodi se na trazenje jednadzbe hiperravnine, koja se u smislu metode najmanjih kvadrata najbolje prilagodava skupu od n vrijednosti u prostoru dimenzije (K + 1). Pri tome se pretpostavlja da se odstupanja od ravnine mjere usporedo s osi Y. Za model s dvije nezavisne varijable geometrijski prikaz dan je grafikonom 2.6.
Vrijednosti nezavisnihvarijabli
XI
XII
varijable Y
YI Y2 YI
Xz
XIZ
X22 Xa
X3
Xil X23 XiJ
XI xII
X"2j X;j
XK
XII. X2K XiK X.K
XZI
Xil
y.
X.I
XnZ
Xnl
Xflj
anal~i ~isestrukih odnosa polazni je opci aditivni model (2.1), iIi multiplikativru. Za pnmjenu modela nuzno je odrediti koja je varijabla zavisna, a koje su nezavisne, Zatim valja utvrditi oblik funkcije u modelu (deterrninisticki dio modela), te svojstva slueajne varijable. Veoma je cesto oblik [unkcije linearan a varijabla u aditivna komponenta, pa je rijec 0 modelu visestruke llneame regresij;.
.y
"
Gr(Ifikon 2.6.
Da bi se primijenila metoda najmanjih kvadrata,' potrebno rezidualnih odstupanja. Rezidualna odstupanja jesu:
je poci od (2.42)
a+
blXI
... + bKXK,
odnosno: (2.40)
~lodelom visestruke Iinearne regresije vrijednosti zavisne varijable dane su k~o .lmearne k~mbin~cije nepozn~~ih parametara, vrijednosti K nezavisnih varijabli l nepoznatih vrijednosti varijable 1I. Prisutnost varijable 1I daje modelu
]IJ2
U izrazu (2.44) poznate su vrijednosti zavisne varijable Yi i vrijednosti nezavisnih varijabli xii' Zbroj kvadrata ovisi 0 nepoznatim parametrima a, bi> j = 1,2 •... K. Da bi se doslo do njihovih oejena na temelju principa najmanjih kvadrata, derivacije potrebno je potrafiti minimum funkcije (2.44). Ako se prve parcijalne po nepoznatim parametrima izjednace s nulorn, tj.:
zavisne varijable Y ako se nezavisna varijabla 10 poveca ne mijenjaju vrijednosti preostalih nezavisnih varijabli. mogu se takoder tumaciti i kao parcijalne derivacije regresorskim varijablama. Radi pojasnjenja tumacenja pretpostavit ce se da modelu vi~estruke regresije s tri nezavisne varijable:
y
Povecajmo vrijednost
=a
a;-=
jednadi.bi oblika:
aSQ
aSQ
ab
j
= ... =
aSQ
ab
K
nezavisne
Xz
za jedan.
Vrijednost
je regresije
= 0,
tada: y* = a + b.x,
Razlika regresijskih vrijednosti
+ b2(X2 + 1) + b3X3'
-
(Y* - y) je: (a
= b2•
(2.45)
Prema tome, ako se varijabla X2 poveca za jedan, a vrijednosti varijabli XI i ostaju nepromijenjene, vrijednost regresije promijenit ce se za velicinu regresijskog koeficijenta bz• Podaci zu ilustrativni primjer oduose sc na prodaju proizvoda A u Ullll komada u 1991. (zavisna varijabla) na 10 podrueja. Prodaja se promatra u ovisnosti 0 prosjecnoj prodajnoj cijeni (prva nezavisna varijabla) i prosjecnom osobnom dohotku po stanovniku (druga nezavisna varijabla). Vrijednosti varijabli dane su u tabeli 2.11.
Jednadfbe su linearne u parametrima i njihovo rjesenje daje oejene nepoznatih parametara a, bi' j = 1.2, ... ,K. Broj normalnih jednadzbi smanjuje se za jedan ako se umjesto originalnih vrijednosti varijabli primijene njihove centrirane vrijednosti. Centriranje se provodi pomocu aritrnetickih sredina. Centriraju se vrijednosti zavisne varijable i nezavisnih, i to ovako:
Tabela 2.11. Podaci za analizu rnodela visestruke regresije, K=2 Prodaja u tisucarna kom. y, 1 49 78 80 89 90 125 61 92 40 36 740 Za nurnericku analizu izracunani Prosjecna prodajna cijena po korn u HRD
Xii
Moze se pokazati
se izracunava i to ovako: pornocu
da model s eentriranim varijablama nema clana a. Taj clan regresijskih koeficijenata b i aritmetickih sredina varijabli.
=y
- b.i. - b2i2
lineame
... -
bA - ... - bKiK.
s ocijenjenim parametrima
regresije
C jednadzbi visestruke Iinearne regresije s ocijenjenirn parametrima a predstavlja konstantni clan. Konstantni clan je vrijednost regresijske funkeije kada svaka nezavisna varijabla poprima vrijednost O. Ocjene bi' j = 1,2, ... ,K su regresijski koeficijenti. Regresijski koeficijent b, predstavlja iznos promjene regresijske vrijednosti za jedinicni porast vrijednosti nezavisne varijable Xi uz uvjet da se ne mijenjaju vrijednosti preostalils nezavisnih varijabli. Kako regresijska ravnina ima svojstva prosjeka, regresijski se koeficijenti mogu tumaciti i ovako: rcgrcsijski koeficijent b, pokazuje za koliko se u prosjeku mijenja vrijednost
104
n
i.
. >t;_
= 10,
.i=]
± Yi
= 740,
i= 1
Xii
= 400,
,i=!
Xi2
= 490,
i= l
y~ ;; 61612 105
.~
;I!IJ
X11
= 17538,
i=l
± xi2 =
25414, XI
1=]
i~1
:f
XjJX,'2
= 19769, Y = 74,
= 40,
X2
= 49.
cijene, regresijska vrijednost prodaje Altemativno, ako se dohodak poveca za jednu tisucu, a cijene ostanu nepromijenjene, oceku]e se povecanje prodaje u prosjeku za 1.94594 tisuca komada.
poveca
za jednu
tisucu, uz nepromijenjene
u analiziranom primjeru:
Yi = a + blXil
Vrijednosti varijable Y predstavljaju jedlnicne cijene proizvoda A, a varijabla varijabla tisucama jednadzba)
+ b2Xi2 + u..
opseg
Ocjena pararnetra predstavlja prvi zadatak u regresijskoj analizi. Primjenjujuci odgovarajuce metode, nuzno je odrediti pokazatelje reprezentativnosti i druge statisticko-analiticke velicine kojima se donosi sud 0 kvaliteti regresijskog modela.
prodaje, varijabla
2.3.2. Regresijske vrijednosti, rezidualna odstupanja i analiza varijance za model multiple linearne regresije
Regresijske vrijednosti predstavljaju ocekivanu razinu zavisne varijable za dane empirijske vrijednosti nezavisnih varijabli. Izracunavaju se tako da se u jednadzbu multiple linearne regresije redom uvrsravaju vrijednosti nezavisnih varijabli. Prerna tome, u opcern obliku regresijske su vrijednosti dane izrazom: (2.48) Te jednak stvarnih a njihov regresijske vrijednosti imaju prije opisana svojstva. Tako je njihov zbroj zbroju empirijskih vrijednosti zavisne varijable. Nadalje, razlike izmedu vrijednosti i regresijskih vrijednosti predstavljaju rezidualna odstupanja, je zbroj jednak nuli. Sirnbolicki su rezidualna odstupanja dana izrazorn: (2.49)
Y = a + bixi + b2X2'
Ocjene parametara su rjesenje sustava normalnih jednadzbi (2.45). S obzirom na to da model ima dvije nezavisne varijable (K = 2), i tri nepoznata pararnetra, sustav ima ove tri normalne jednadzbe:
Uvrstavanjem
vrijednosti 400bl+
jednadzbe 490b2=
postaju: 740
a u relativnom
iznosu:
(2.50)
Rjesenje
jednadzbi
Ako se odstupanja podijele standardnom devijacijom regresije (standardnom greskom), doci ce se do standardiziranih rezidualnih odstupanja. Stvarne vrijednosti zavisne varijable, regresijske vrijednosti i rezidualna odstupanja za analizirani primjer navedeni su u tabeli 2.12. Prva regresijska primjer: vrijednost izracunana je na sljedeci nacin:
a = 13.93810,
Regresijska jednadzba
s ocijenjenim
parametrima
- 0.88223·23
Y = 13.93810
- 0.88223 XI
+ 1.94594
Konstantni clan iznosi 13.93810 i nerna u tom primjeru smisleno znacenje. Nurnericki je to vrijednost regresije ako je vrijednost prve i druge regresorske varijable jednaka O. Prvi regresijski koeficijent iznosi - 0.88223. Koeficijent se tumaei ovako: regresijska vrijednost prodaje smanjit ce se za 0.88223 tisuce komada ako se cijena povecg za jedan HRD uz uvjet da se ne mijenja osobni dohodak. Alternativno, ako se cijena poveca za jedan HRD, uz nepromijenjeni dohodak, prodaja ce se !I prosjeku smanjiti za 0.88223 tisuce komada. Drugi je rcgresijski koeficijent 1.94594. TumaCi se na sljedeci nacin : ako se dohodak
Prerna regresiji procijenjen opseg prodaje za cijenu od 23 HRD i dohodak od 35 tisuca HRD iznosi 61.755 tisuca kornada. Stvarna prodaja za navedenu cijenu i dohodak iznosi 49 tisuca kornada. Prema tome, prvo rezidualno odstupanje je:
II;
iii u relativnom
IIl.,c1
= YI -
.91 = 49
- 61.755,
!II =
-12.755,
iznosu: = --100
)'; - .91
_rl
=-
P 755 _.
49·
100
ul.rol = -
26.030%. 107
Tabela 2.12. Vrijednosti zavisne varijable, regresijske vrijednosti i rezidualna odstupanja za model multiple linearne regresije Vrijednosti zavisne varijable 49.000 78.000 80.000 89.000 90.000 125.000 61.000 92.000 40.000 36.000 Regresijske vrijednosti 61.755 68.318 85.519 87.803 97.739 119.951 63.363 75.245 53.321 26.985 Rezidualna rezidualna odstupanja -12.755 9.682 - 5.519 1.197 -7.739 5.049 -2.363 16.755 -13.321 9.015 Relativna rezidualna odstupanja - 26.030 12.412 - 6.899 1.345 - 8.599 4.039 - 3.874 18.212 - 33.302 25.042 Standardizirana rezidualna odstupanja -1.113 0.8451 -0.4818 0.1045 - 0.6756 0.4407 - 0.2063 1.463 -1.163 0.7869
Prvi (!Ian s desne strane jednakosti (2.52) je koeficljenr multiple linearne determinacije, a drugi clan slufi za odredivanje koeficijenta alijenacije. Zbrojevi kvadrata i drugi elementi za deskriptivno i inferencijalno statisticku analizu uobicajeno se prikazuju u standardnoj tabeli analize varijance ,
Tabela 2.13. Tabela ANOVA za multiplu regresiju Izvor varijacija 1 proturnacenih modelom rezidualna odstupanja Ukupno Stupnjevi slobode
-..
"
Sredina kvadrata
4
"
K n-K-l n-1
1=1
r=l
.L
SPIK SRln-K-l
Regresijska vrijednost veca je odstvarne, pa je rezidualno odstupanje negativnog predznaka, Odstupanje je - 12.755 iii - 26.030%. Analogno su izracunane preostale regresijske vrijednosti i rezidualna odstupanja. Standardiziran a rezidualna odstupanja dobivena su dijeljenjem rezidualnih odstupanja ocjenom standardne devijacije odnosno standarnom greskom ocjene. Pornocu rezidualnih odstupanja uocava se disperzija vrijednosti zavisne varijable u odnosu na regresijske vrijednosti. Ona su podloga za izracunavanje rnjera disperzije i drugih statisticko-analitickih pokazatelja. U analizi modela jednostavne linearne regresije objasnjena je uloga rasclambe zbroja kvadrata odstupanja empirijskih vrijednosti zavisne varijable od regresijskih vrijednosti. Isti cilj ima ta razdioba i u analizi modela multiple linearne regresije. Jednadzba rasclanjenog ukupnog zbroja kvadrata je: (2.51) S Iijeve strane jednakosti (2.51) je ukupni zbroj kvadrata. Prvi clan s desne strane jednakosti je zbroj kvadrata odstupanja regresijskih vrijednosti od njihove aritrneticke sredine, odnosno zbroj kvadrata odstupanja protumacenih modelom visestruke linearne regresije. Drugi clan s desne strane jednakosti je zbroj kvadrata odstupanja stvarnih vrijednosti zavisne varijable od regresijskih vrijednosti. odnosno rezidualni zbroj kvadrata (neprotumaceni zbroj kvadrata). U (2.51) regresijske vrijednosti izracunavaju se pornocu jednadzbe multiple linearne regresije. Po analogiji sa (2.18), rasclarnba u komponente u relativnom iznosu je:
ST=
1=1
• .L (Yi - ji)2
Kao sto je vee istaknuto pri analizi modela jednostavne linearne regresije, komponente ukupnog zbroja kvadrata sluze za izracunavanje varijance, odnosno standardne devijacije, i koeficijenta determinacije. Varijanca multiple linearne regresije je prosjecan rezidualni zbroj kvadrata, dok je standardna devijacija regresije pozitivni drugi korijen iz varijance. Varijanca multiple regresije je dana izrazom:
(J~=---,~ 1
.±(Yi- YiY
n
(2.53)
a.i· =
(2.S-l)
Standardna devijacija pokazuje koliko je prosjecno odstupanje empirijskih vrijednosti zavisne varijable od regresijskih vrijednosti i izrazena je u mjernim jedinicarna zavisne varijable. Relativna mjera disperzije je koeficijent varijacije multiple linearne regresiie: (2.55) Sto je manja standardna devijacija, odnosno koeficijent varijacije, pravilu reprezentativnost regresije veca. Ako se rezidualni zbroj kvadrata odgovarajucim stupnjevirna slobode, doci ce se do ocjene varijance , korijen iz ocjene varijance je ocjena standardne varijacije (standardna to je u podijeli a drugi greska
,Y
,=1
±{y._
r
(2.52)
1o"
109
ocjene).
Posljednje
spomenute
velicine
utvrduju
se u okviru
inferencijalno primje-
Tabela 2.14. Tabela ANOVA za model prodaje Izvor varijacija .protumacenjh modelom rezidualna odstupanja Ukupno Stupnjevi slobode
2
(2.56)
7 9 devijacija regresije
model je:
odnosno
izraz:
za anallzirani
f
(2.57) Koeficijent Koeficijent multiple determinacije je proporcija proturnacenog zbroja u ukupnom zbroju kvadrata te poprima vrijednosti iz zatvorenog intervala od nula do jedan. Pozeljno je da je taj koeficijent sto blize jedinici. Moze se pokazati da je koeficijent multiple determinacije mono to no rastuca funkcija broja regresorskih varijabli. To znaci da se s povecanjern dimenzije modela povecava vrijednost spomenutog koeficijenta. U praksi je razurnljiva teznja da model bude 5to jednostavniji i po rnogucnosti sto ekonomicniji s obzirom na dimenziju. Za usporedbu modela razlicitih dimenzija primjenjuje se korigirani koeficijent determinacije. Taj je koeficijent dan izrazom: varijacije
;=1
(y _ -)2 ; Yi =¥918.715 rt 10
'
op = 9.585.
(2.55) iznosi:
v,= 12.95%.
Prosjecno odstupanje stvarnih vrijednosti prodaje od regresijskih vrijednosti iznosi 9.585 tisuca komada iii 12.95%. Ocjena varijance (rezidualni zbroj kvadrata podijeljen brojem stupnjeva slobode) iznosi 131.245, dok je standardna greska oejene 11.456 (ocjena standardne devijacije). Do koeficijenta
i ukupnog
(2.58)
zbroja kvadrata
multiple detenninacije (2.56) dolazi se diobom proturnacenog iz tabele ANOVA. Koeficijent determinacije je:
koeficijenta
multiple determinacije
i koeficijenta
determi-
Korigirani koeficijent
(2.59)
determinacije
(2.58) iznosi:
fl2= 0.8276.
R2
= 1-
koeficijent multiple determinacije ima nepozeljno svojstvo: u nekim slucajevima moze biti negativan. Iz izraza (2.58) vidljivo je da koeficijent uzima u obzir broj vrijednosti varijabli i broj regresorskih varijabli. Primjenjuje se kao jedno od sredstava za izbor modela S »optimalnim« brojem varijabli. Istrazivac ponekad nije siguran da li u model kao nezavisne varijable ukljuciti sve raspolofive iii sarno dio njih. Buduci da je koeficijent determinacije monotono neopadajuca funkcija broja regresorskih varijabli, ne moze sluziti izravno za posiavljanje »ekonornicnog rnodela«. Po svojirn obiljezjima u te se svrhe moze upotrijebiti korigirani koeficijent. Za analizirani primjer opsega prodaje izracunani su osim ocjena pararnetara , rcgresijskih vrijednosti, rezidualnih odstupanja i svi opisani statisticko-analiticki pokazateljt. Tabela analize varijance je: 11II
I korigirani
Koeficijent determinacije je 0.8659 i pokazuje da je regresijskim modelom prodaje s dvije varijable (cijene i dohodak) protumaceno 86.59% ukupnih odstupanja.
Pomocu rnodela s ocijenjenim para met rima da se procijeniti (prognozirati) velicina zavisne varijable za dane (pretpostavljene) vrijednosti nezavisnih varijabli, Postupak procjene istovjeran je postupku odredivanja regresijskih vrijednosti. Ako se npr. pretpostavi da je jedinicna cijena 60. a dohodak 70 tisuca HRD. procijenjena ce vrijednosr prodaje biti:
;v =
13.93810 - 0.88223
XI -
= 13.93810-0.88223·60-'-
1.9459-+ X2 1.9459-+·70,
.'·(XI
= 60,
X2
Procijenjena razina prodaje za pretpostavljenu od 70 tisuca HRD iznosi 97.220 tisuca komada.
ee se da je model regresiiskog polinoma ekvivalentan modelu vi!estruke linearne regresije. Za K = 1 rijee je 0 polinomu prvog reda, odnosno a modelu uoeit jednostavne linearne regresije. Postupak analize modela polinomne regresije formalno je jednak postupku analize modela visestruke regresije. Razlika je jedino u tome slO ulogu »regresorskih« varijahli ima [edna varijahla s potencijarna j = 1.'2..... K. Podaci za analizu model a regresijskog polinoma drugoga stupnja odnose se na verlzne indekse fizickog obujma prometa u trgovini na malo u Republici Hrvatskoj (zavisna varijabla) i verizne indekse realnih osobnih dohodaka zaposlenih (nezavisna varijabla). Verizni indeksi pokazuju relativne promjene razine pojave u uzastopnim razdobljima. Podaci su navedeni u tabeli 2.15. Tabela 2.15. Podaci za analizu modela regresijskog polinorna drugog stupnja Godina Verizni indeksi realnog dohotka zaposlenih x, 1 1979. 1980. 1981. 1982. 1983. 1984. 1985. 1986. 1987. 1988. 1989. 2 98.70 93.90 97.10 96.30 89.20 94.00 100.00 109.20 91.60 93.20 123.20 Verifni indeksi flzickog obujma prometa y, 3 106.10 96.80 100.90 99.00 93.80 97.50 99.50 106.20 99.40 94.30 98.50
devijacije, koeficijenta varijacije i koeficijenta determinacije, moze se zakljuciti da je dani model zadovoljavajuce reprezentativnosti. Regresijski koeflcijenti imaju ocekivane predznake. Ako bi se problem odnosa prodaje, cijena i dohotka smjestio u okvire inferencijalne statistike, osim navedenih nuzno bi bilo provesti i druge postupke, npr. testiranja hipoteza i ocjenjivanja intervalom i dr.
Imajuci na umu
velicinu standardne
2.3.3. Analiza odabranih nelinearnih regresijskih modela metodama analize modela visestruke linearne regresije
Vee je prije istaknuto da se prikladnim transforrnacijama nelinearni modeli svode na model jednostavne Iinearne regresije. Nadalje, premda nelinearni u regresorskim varijablama, neki modeli su sa stajalista statisticke analize linearni, jer se u pravilu model smatra lineamim ako su nepoznati parametri u prvoj dimenziji. Medu takve se ubraja i model regresijskog polinoma.
Izvor: Statisticki godisnjak Republike Hrvatske 1990, str. 55. i 69. s ocijenjeni~ parametrima u opcern je obliku:
yJ.
vrijednosti i= 1,2,... n.
varijabli
(Xi,
y = a + bo: + bp;2.
Ocjene metodom najrnanjih model multiple linearne regresije kvadrata izvedene (2.45) jesu: iz norrnalnih jednadzbi za
(2.61)
U navedenom modelu vrijednost zavisne varijable je linearna kombinacija vrijednosti nezavisne varijable podignute na potencije j = 1,2, ... ,K, K < n, nepoznatih parametara i nepoznatih vrijednosti varijable u. Varijabla u predstavlja (slucajne) nesistematske varijacije i ~ini model staristickim. Najveca potencija varijable X odreduje stupanj, odnosno red regresijskog polinorna. Teorijski, najveci stupanj polinoma je (n - 1). U praksi, rnedutim, rijetko se prirnjenjuju polinomi stupnja veceg od K = 6. To je stoga :ito su nurnericki postupei za K> 6 cesto nepouzdani. Takoder valja istaknuti da je interpretacija modela otezana vee za K;::: 3.
S
i~l
±.n=
i-=rl
±YI·
(2.63)
Model regresijskog polino rna (2.61) je linearan u parametrima, obzirorn na regresorsku varijablu. Ako se u (2.41) uvede zamjena
Sustav (2.63) ima tri nepoznanice, koliko je i nepoznatih parametara. Da bi se dobili koeficijenti uz nepoznanice. valja svaku vrijednost varijable X potencirati potencijom j = 1, 2, ... , K i potorn zbrojiti. Najveca potencija za model polinoma drugog stupnja je cetiri iii, opcenito za regresijski polinom stupnja K, najveca poteneija vrijednosti varijable X je 2K. Za oejene parametara pornocu (2.63)
113
potrebno je pomocu podataka u tabeli odrediti vrijednosti koeficijenta nice i potom rijesiti sustav od tri linearne jednadfbe ". JednadZba polinoma drugog stupnja S ocijenjenim parametrima glasi:
uz ne~?zna-
regresijskog
r=
-252.132+6.555
x - O.03008.r.
odstupania
su i uoblcajeni statisticko-analiticki pokazatelji. Zbroj k,,:adrat~ empirijskih vrijednosti zavisne varijable ?d p~~s]eka ~ukupm .~broJ kvadrata) iznosi 161.922, zbroj kvadrata odstupanja vrijednosti regresijskog polinoma od prosjeka je 105.989, a rezidualni zbroj kvadr.~ta 55.9~~. ~racun~na je i regresijska standardna devijacija od 2.255, te koefic~Jent vanJ~clje 2.27 Yo. Prerna tome, prosjecno odstupanje vrijednost~ indeksa ~~Ickog ~buJma prome~a od regresijskih vrijednosti je 2.255 indeksmh poena lit 2.27 Yo. Modelom ]e protumaceno 65.46% odstupanja. Grafikonbm 2.7. prikazani regresijski polinom.
106
Utvrdeni
Y=aX\"X'i' ...
X1' ...
X~" e'.
(2.66)
. . su podaci za anahzu
regresijskog
polinoma
U modelu (2.66) Y predstavlja zavisnu varijablu, Xi' i = 1,2, ... ,K su nezavisne varijable, E je slucajna varijabla, e baza prirodnog iogaritma, a i bi, j l,2, ... ,K su nepoznati parametri, Za n vrijednosti varijabli model postaje:
~------~--------~----------~
Navedeni ovako:
114
ln y, = Ina + bllnxi!
100
+ b2Inx,.
+ b,.:!nXiK+
E;.
I ovdje se odmah uocava slicnost izraza (2.68) i (2.41). Transformirani model (2.68) je sa stajalista metoda analize jednak modelu visestruke linearne regresije. U tom modelu zavisnu varijablu i nezavisne varijable predstavljaju njihove logaritamske vrijednosti. Model s ocijenjenim parametrima metodom najmanjih kvadrata je:
95
(2.69) Grafikon 2.7. Regresijski koeficijenti u modelu (2.69) predstavljaju ocjene koeficijenata parcijalne elasticnosti. S tim u vezi, koeficijenti b se interpretiraju na specifican nacin, Regresijski koeficijent bi pokazuje za koliko se postotaka mijenja regresijska vrijednost zavisne varijable ako se nezavisna varijabla xi poveca za 1%, uz uvjet da se ne mijenjaju vrijednosti preostalih varijabli. Primjer primjene multiplikativnog modela odnosi se na proizvodnu funkciju C.W. Cobba i P.H. Douglasa. Varijable u regresijskom modelu jesu: industrijska proizvodnja, radna snaga, kapital. Vrijednosti varijabli dane su za SAD kao indeksi na stalnoj bazi u periodu 1899-1922. Empirijske vrijednosti varijabli za regresijsku analizu nalaze se u tabeli 2.16. Model s ocijenjenim parametrima u opcern je obliku:
Izraz (2.61) predstavlja standardni model re~esijskog polino~a, koji s.e, kak~ je istaknuto, analizira na isti nacin kao i modeIVl~estruk~.regresIJe: Pos~oJe drugi oblici nelinearnog modela, u kome je varijabla X s potencijom '. Neki od tih modela mogu se svesti na standardni regresijski model. Primjer za to je model:
(2.64)
Logaritmiranjem, izraz (2.64) postaje:
y= a Xi' K2'.
Konkretna analiza ternelji se na logaritamskom
obliku: (2.70) varijable, a In
Model (2.65) jednak je modelu standardnog regresijskog P?linoma. Razli~a je jedino u tome sto se umjesto originalnih vrijednosti zav.lsne vanJable.upotreblj3vaju prirodni logaritmi (e je u izvornorn modelu baza prirodnog logantma). ll~
= In a
+ b,
In
XI
+ b~ I n X~.
115
Tabela 2.16. Vrijednosti varijabli za mutiplikativni regresijski model (Cobb-Douglasova proizvodna funkcija) Redni
broj
(POiAM)
Proizvodnja
Yi
Rad
Xii
Kapital
.r;2
Redni broj
Proizvodnja Yi
Rad
XH
Kapital
.rJ2
2 2.
3.
4.
4 100 107 114 122 131 138 149 163 176 185 198 208
5 13. 14. 15. 16. 18. 19. 20. 21. 22. 23. 24.
17.
6 153 177 184 169 189 225 227 223 218 231 179 240
7 143 152 154 149 154 182 196 200 193 193 147 161
8 216 226 236 244 266 298 335 366 387 407 417 431
I.
5. 6.
7.
8.
100 101 112 122 124 122 143 152 151 126 155 159
105 110
118
100
sustava normalnih
jednadzbi,
X2'
a model s
Osim ocjene parametara i drugih pokazatelja analiza regresijskog modela sadrfi primjenu razlititih postupaka, kojima se sa statistickog stajalista ispituje njegova kakvoca. Skup takvih metoda f:ini podrueje regresijske dijagnostike.' Velik broj tih metoda polazi ad inferencijalno statistickog pristupa modelu. Neke pak od njih su opcenite iii se rnogu tretirati kao deskriptivnostatisticke. Svrha je ispitivanja modela da se uoce njegove moguce slabosti i da se po potrebi on modificira kako bi dobiveni rezultati bili sto boljih svojstava. Medu najvaznijim metodama u podrueju dijagnostike jesu one koje se odnose na rezidualna odstupanja. Rezidualna odstupanja su ocjene gresaka relacije; bez gresaka bi model bio deterministicki. Za greske se U okviru deskriptivne statistike pretpostavlja da ne variraju na sistematski nacin, da »pomicu« vrijednosti zavisne varijable »navise« i »nanize« te da im se efekt u prosjeku ponistava, drugim rijecirna, nema sistematske kovarijacije varijable gresaka i zavisne varijable, kao ni kovarijacije te varijable s regresorskim varijablama. Analizom rezidualnih odstupanja kao ocjenama vrijednosti varijable u mogu se uoCiti slaganja sa spomenutim pretpostavkama iii odstupanja od njih. Osnovno sredstvo za ispitivanje rezidualnih odstupanja jesu dijagrami rasipanja. Tipicni dijagrarni rasipanja dani su grafikonom 2.8. lui
tJ;,+_-----__,,
• 0 •
(b)
!.I,+------__"
(e)
+ 0.8122 In Xl + 0.2311 In
Da bi se izracunali uobicajeni statisticko-analiticki pokazatelji, utvrdeni su elementi u tabeli ANOVA. Ukupni zbroj kvadrata odstupanja iznosi 1.667, protumaceni je dio 1.598, a rezidualni 0.06969. Standarna devijacija regresije ima vrijednost od 0.053886, a koeficijent varijacije 1.06%. Modelom je protumaceno 95.82% odstupanja (koeficijent determinacije). Svi su pokazatelji izracunani za logaritamski obJik modela. Ako se izmijeni notacija i varijabla Xl oznaci sa L, varijabla X2 sa C i antilogaritmira konstantni clan, model ce u nelogaritamskom obliku biti:
0+----=----1
o•
..
..
..
o
o ••
0"
o•
•
• 0"
..
\J;,+----"""T"""---
tJ;,+------,---__"
..
tJ;+----~--_,
0-1----+----1
"
11,.,
II·. •
U;.L
(d)
(f)
Vidjeti 0 tome opsirno u: S. Weisberg (1980), op. cit. D. A. Belsley et al. (1980). Regression Diagnostics. New York: Wiley; A. Madansky (1988). Prescriptions for Working Statisticians. New York: Springer.
117
U grafikonu 2.8(a) prikazana su rezidualna odstupanja, Ona se ne rasporeduju na neki prepoznatljivi, sistematski nacin, ~to odgovara pretpostavci -0 njima. Graficki prikaz 2.8(b) rezidualnih odstupanja upucuje na potrebu ukljucenja kvadratnog clana u model. Dijagram 2.8(c) ilustrira kovarijacije regresijskih vrijednosti i rezidualnih odstupanja: s povecanjem regresijskih vrijednosti povecava]u se i rezidualna odstupanja. Buduci da su rezidualna odstupanja polaine velicine za izracunavanje varijance regresije, takav raspored pokazuje da je varijanca promjenljiva. Ta se pojava naziva heteroskedasticnost, za razliku od homoskedasticnosti. Ova negativna pojava uklanja se na razlicite nacine npr. prikladnirn ponderiranjem vrijednosti zavisne varijable, prirnjenom Iogaritamskog oblika modela i sl. Grafikoni 2.8(d), (e) i (f) konstruirani su za parove uzastopnih vrijednosti rezidualnih odstupanja. Slika (d) govori 0 nepostojanju pravilnosti u rasporedivanju tocaka, sto upucuje na zakljucak da uzastopne vrijednosti ne kovariraju, odnosno da nisu medusobno korelirane, odnosno autokorelirane. Na sliei (e) vidljivo je da postoji sisternatsko rasporedivanje tocaka, odnosno autokorelacija uzastopnih vrijednosti, ito pozitivnog smjera. Posljednja slika (f) pokazuje da postoji negativna autokorelacija rezidualnih odstupanja. Postojanje autokorelacije rezidualnih odstupanja upucuje na to da greske u modelu nemaju pretpostavljena stvojstva, sto se negativno odrazava na statisticko-teorijskim osobinama rezultata. Numericko Ispltivanje autokorelacije gresaka na osnovi rezidualnih odstupanja provodi se razlicitim testovirna u okviru inferencijalne statistike. Medu najcesce upotrebljavanim je Durbin-Watsonov test. Prisutnost autokorelaci]e gresaka zahtijeva primjenu specificnih metoda ocjenjivanja para me tara odnosno prilagodbe sastava i metoda analize modela. Ocjene parametara u regresijskom modelu su rjesenje sustava normalnih jednadzbi, U primjeni rnodela uzima se da rjesenje postoji i da je jedinstveno. Moze se pokazati da to nije slucaj ako su vrijednosti nezavisnih varijabli linearno ovisne odnosno kolinearne. U nekim primjenama modela, osobito na osnovi vremenskih serija, varijable nisu tocno nego pribliino linearno ovisne. Ta se pojava nepovoljno odrazava na rjesenja sustava normalnih jednadzbi, Sustav je nurnericki vrlo nestabilan, pa dobivene oejene parametara mogu biti pogresnih predznaka. I drugi rezultati su ponekad netocni, Opisana se pojava naziva multikolinearnost i iskljucivo je vezana za obiljezja nezavisnih varijabti. Postoji vise metoda otkrivanja prisutnosti i ublazavanja negativnih posljedica multikolinearnosti na rezultate, kao sto su npr. posebne numericke metode pogodne za anaJizu nestabilnih sustava. Prornatraju Ii se vrijednosti zavisne varijable, u nekim ce se slucajevima uoeiti da npr. jedna od njih u kombinaciji s vrijednostima nezavisne (nezavisnih) varijable ne sJijedi ocekivani put. To se odrazava na velikoj vrijednosti rezidualnog odstupanja, Netipicne vrijednosti (outliers) uocavaju se na dijagramu u kojemu tocke imaju koordinate odredene vrijednostima nezavisne varijable i regresijskirn vrijednostirna, kao i na dijagrarnu rezidualnih odstupanja. Pojavu netipicnih vrijednosti istrafivac treba objasniti. Za neke se slucajeve moze utvrditi da 'je rijec o pogresnoj vrijednosti varijable. lzrazito velika vrijednost varijable rnoze biti posljedica neuobicajenih okolnosti u kojirna se odvija pojava (npr. kupovina roba u ocekivanju izrazitog skoka eijena iii predvidenih nestasica). Metode otkrivanja i rjesavanja netipicnih vrijednosti i mjerenja utjecaja pojedinacnih vrijednosti variiabli na rezultate Cine vazan dio pcdrucja regresijske dijagnostike. Veci broj
IF
tih metoda je u okvirima inferencijalne statistike. Relativno jednostavno sredstvo za uocavanje spornenutog problema su opisani grafieki prikazi rezidualnih odstupanja i drugi prikazi. Problem se ponekad rjesava izostavljanjem atipicnih vrijednosti. Takav postupak treba primijeniti sarno ako se zato nade potpora u kvalitativnoj .analizi iii ako statisticki postupci ne dovode do rjesenja,
2.5. KORELACIJSKA
ANALIZA
Regresijskim modelom analiticki se izrazava odnos izmedu pojava predocenih vrijednostirna nurnericke varijable. Buduci da se pomocu ocijenjenog modela daju procijeniti vrijednosti zavisne varijable za odabrane vrijednosti nezavisnih varijabli, regresijski je model prediktivan oblik odnosa pojava. Po de Ii se od pretpostavke 0 statistickoj prirodi odnosa, tad a se postavlja zadatak rnjerenja stupnja kovarijacije varijabli, jer su statistieke veze slabije od funkcionalnih, Mjerenje stupnja jakosti statistickih veza provodi se metodama korelacijske analize. Kao sto je vee napomenuto, korelacijska i regresijska analiza testa su povezane, premda im je zadaca razlicita. Pokazatelji stupnja statistickih veza jesu koeficijenti korelacije. Ako su odnosi dviju pojava linearni u statistickom smislu, utvrdivat ce se koeficijent jednostavne linearne korelacije. Stupanj statisricke ovisnosti jedne pojave od dviju iii viSe drugih pojava izrazava se pomocu koeficijenta multiple (line arne) korelacije. Osim spomenutih, odreduju se i koefieijenti parcijalne korelacije, te koeficijent krivolinijske korelacije.
.f
U brojniku kovarijance su produkti odstupanja vrijednosti varijabli Xi Y od njihovih sredina, Ako je bar jedan faktor produkta jednak 0 za svako i, brojnik izraza (2.71) je jednak 0, pa je i kovarijanca jednaka O. Buduci da su odstupanja
119
vrijednosti varijable od njezine aritmeticke sredine polazna velicina za racunan]e varijance, rnoze se zakljuciti da je kovarijanca dviju varijabli jednaka 0 ako je bar jedna varijanca (standardna devijacija) jednaka o. Razumljivo je da u tom slucaju nema korelacije (povezanosti) varijabli. Jedna se varijabla mijenja nezavisno od druge, Vrijednost varijance od 0 implicira da su sve vrijednosti varijable medusobno jednake, lito se u praksi ne dogada, Stoga su po pravilu brojnik kovarijance, a time i sarna kovarijanca razlieiti od nule. Predznak i vrijednost kovarijance ovisi o predznaku brojnika. U dijagramu rasipanja (2.9) naznacene su duzine koje predstavljaju odstupanja jednog para vrijednosti varijabli od njihovih aritmetickih sredina. Takav je prikaz moguc za svaku od n tocaka,
y i
z(X')
J
= XI -
ax'
z(yJ
= y; - y .
Oy
odnosno:
IT
[X:·~Hy:·y»O
_____,..___ n .. ;y:)
(2.72)
1<;-i),.O
•
ili:y)
±x.y.-nxyI I
• ••
(y:.yJ,.o
r=-----
(2.73)
•
•
ill
iii, altemativno:
(2.74)
'N Grafikon 2.9.
Iz dijagrama je vidljivo da su brojcane vrijednosti produkata odstupanja vrijednosti varijabli u paru od njihovih sredina (clanovi sume produkata u brojniku kovarijance) razlicitog predznaka. Za sve tocke u prvom i trecem kvadrantu pomaknutog koordinatnog sustava produkti odstupanja vrijednosti varijabJi od sredina su pozitivni. Predznaci produkata odstupanja u drugom i cetvrtom kvadrantu su negativni. Ako je veza izmedu pojava po smjeru pozitivna, zbroj produkata odstupanja (brojnik kovarijance) bit ce pozitivan, pa ce i sama kovarijanca biti pozitivna. Nalazi Ii se pretezan broj tocaka u drugom i cetvrtom kvadraruu, prevladat ce u zbroju Clanovi s negativnim predznakorn, pa ce kovarijanca imati negativan predznak, Time je pokazano da kovarijanca rnoze poprimiti pozitivan i negativan predznak i na taj nacin poslufiti za mjerenje srnjera linearne statisticke veze. Izravno mjerenje stupnja jakosti linearne veze pomocu kovarijance u pravilu nijc rnoguce. Kovarijanca ovisi 0 velicini i mjernim jedinicama varijabli Xi Y. Da hi sc dobio pokazatelj jakosti neovisan 0 mjernim jedinicama, vrijednosti odstupanja varijabli od njihovih sredina treba najprije izraziti u jedinicama standardne devijacije , a zatim odrediti vrijednosti kovarijance , Standardizirane vrijednosti
varijabli jesu:
Izraz (2.72) naziva se Pearsonovim koeficijentom linearne korelacije iii produkt-moment formulom. Pearsonov koeficijent linearne korelacije je kovariJanca standardiziranih vrijednosti varijabli X i Y. Izraz za koeficijent valja rnodificirati ako se izraeunava za grupirane podatke, U tom je slucaju koeficijent dan izrazom:
(2.75)
...y ~
Ako se koeficijent linea me korelacije ne izracunava kao pocetna velicina u statistickom opisivanju odnosa pojava, nego se u prvom koraku provodi regresijska analiza modela, pornocu odredenih rezultata regresijske analize dolazi se do koeficijenta linearne korelacije. Tako se npr. koeficijent linearne korelacije utvrduje pornocu koeficijenta determinacije iii pomocu produkta regresijskog koeficijenta i omjera standardnih devijacija nezavisne i zavisne varijable. Koeficijent determinacije dan je izrazorn (2.25). Koeficijent linearne korelacije jednak je drugom korijenu iz koeficijenta determinacije. Predznak koeficijenta linearne korelacije jednak je predznaku regresijskog koeficijenta b. Prema tome:
121
koeficijenta
Iineame
korelacije
kao
deskriptivnostatisticke
sign
s velicinom koeficijenta
odnosi navedeni
determina-
(r)
= sign (b).
(2.76) .
. cije, Orijentacijski
sljedeci
u tabeli 2.17.
Alternativno: (2.77)
Tabela 2.17. Odnos koeficijenta determinacije i korelacije Koeficijent determinacije Apsolutna vrijednost koeficijenta Iineame korelacije Tumaeenje
r
Polazeci od produkt-moment formule (2.74) i izraza za regresijski koeficijent, moze se pokazati da je koeficijent jednostavne linearne korelacije jednak: (2.78) Za analizirane podatke 0 odnosu prihoda budzeta i broja zaposlenih izracunan je koeficijent jednostavne linearne korelacije. Medurezultati su dani u tabeli 2.1U skladu sa (2.74) vrijednost Pearsonova koeficijenta je: r=~~~=55=5=95=.=~=-=8='=1~10=.9=6=25=.=33=.4=1=2=5~~~ 0186246.65 - 8.110.96252)(16881.23 - 8· 33.4125~) 0 0.00-0.25 0.25-0.64 0.64-1
1
Irl
0 0.00-0.50 0.50-0.80 0.80-1 1 odsutnost korelacije slaba korelaeija korelacija srednje jacine evrsta korelacija potpuna (perfektna) korelacija
r = + 0.98196. Do istog se rezultata dolazi pomocu koeficijenta izracunanog pornocu elemenata analize varijance (tabela 2.4):
r= 7665.853 = 098196. 7950.069 .
determinacije
Regresijski koeficijent je pozitivnog predznaka (b = 0.295575), pa se koeficijentu pridruzuje pozitivni predznak. Do istog se rezultata dolazi i na treci nacin, tj. :
Na temelju raspona vrijednosti koeficijenta zakljueuje se da je lineama pov~zan~st slabija ~to. je ~oeficijent bliZi nuli. PribliZavanje jedinici govori 0 sve J~e.oJ vez.l. Ipak, valja irnati n~. umu da veoma mala vrijednsot koeficijenta ne mora biti posljedica slabe korelacije, nego pogreske u primjeni koeficijenta Iinearne korelacije za mjerenje jakosti veze pojava koje su u krivolinijskom odnosu. Velika v~ijed.nost koeficijenta linearne korelacije De mora biti posljedica cvrste povezanosn pojava, nego rnoze biti rijec 0 lafnoj korelaciji, odnosno 0 mehanickoj primjeni metoda korelacije. o Iz tabele 2.17. vi~lj.i.vo je ~a vrijednosti k~~ficijenta determinacije od 0.64 (iii 64 Vo). odgovara koeficijent hnearne korelacije od 0.8, sto je relativno blizu maksimalne vrijednosti, a Iinearnom vezorn je protumaceno manje od 2/3 odst~~~nja. Pogres~a je ..praksa »precjenjivanja« stupnja korelacije na temelju koeficijenta ko.relacIJe.~Ojl t~eba tumaciti usporedo s koeficijentom determinacije. . Izracunani koeficijent ~mearne korelacije od + 0.98196 pokazuje da postoji cvr~ta povezan?st budZetskl? prihoda i broja zaposlenih za analizirane zajednice OpCIfi~. Koeficijent korelacije za grupirane podatke iznosi 0.229, pa je rijee 0 slaboj Iinearnoj korelaciji.
r=b
Ox
o, S obzirom
r= 0.98196.
na to da se radi
istog koeficijenta,
razumljivo je da su dobiveni isti rezultati. Koristeci se izrazom za koeficijent Iinearne korelacije (2.75), Izracunan je koeficijent linearne korelacije grupiranih podataka navedenih u tabeli (2.6). Vrijednost koeficijenta linearne korelacije iznosi r = + 0.229. Koeficijent dererrninacije je 0.0523074. . Kako je vee receno, koeficijentom linearne korelacije mjeri se jakost i smjer statistlcke povezanosti dviju pojava predocenih u obliku parova vrijednosti numerickih varijabli. Koeficijent varira u zatvorenorn intervalu od minus jedan do 122
2.5.2. Koeficijent multiple linearne korelacije. Koeficijenti parcijalne korelacije, korelacijska matrica
Koeficijentorn multiple line arne korelacije mjeri se jakost veze izmedu zavisne varijable Y i K nezavisnih varijabli. Prirodna osnova za odredivanje tos koeficijcnta je koeficijent multiple determinacije. Koeficijent multiple Iinearne korelacije je drugi korijen iz koeficijenta determinacije, tj.: 123
(2.81)
i~1
R yI2 .•.K--
it(y;-
(2.79)
Brojeano se vrijednost koeficijenta da odrediti na vise razlicitih. nacina. Koeficijent multiple linearne korelacije poprima vrijednosti iz zatvorenog intervala od nula do jedan. Koeficijent ce biti blize jedinici sto je veci dio proturnacenog zbroja kvadrata u ukupnom zbroju, odnosno sto su manje razlike i~~.edu stva~nih vrijednosti zavisne varijable i regresijskih vrijednosti. Stoga se k?eflclJent multl~~e linearne korelacije moze shvatiti kao koeficijent jednostavne hnearne korelacije izmedu stvamih vrijednosti zavisne varijable i pripadajucih regresijskih vrijednosti. Moze se pokazati da je koeficijent multiple linearne korelacije takoder dan
izrazorn: (2.80) Koeficijentu se ne pridruzu]e predznak jer odnosi izmedu zavisne varijable i nezavisnih varijabli mogu biti raznosmjerni. Pri tumacenju izracunanog koeficijenta multiple Iinearne korelacije nuzno je imati na umu i velicinu koeficijenta multiple determinacije. Koeficijent determinaeije rnanji je od koeficijenta korelacije. S priblizavanjem jedinici razlika je sve rnanja, a jednakost se dostize kada je koeficijent determinacije jednak jedan. U primjeru analize odnosa prodaje, cijena i dohotka koeficijent multiple determinacije je (podaci iz tabele analize varijance 2.14): Ry.J2 pa je koeficijent multiple
2 _ -
Navedenim izrazom oznacen je koeficijent varijable Y i nezavisne varijable uz neutraliziran varijabli kojih je (K -1). Predznak koeficijenta jednak je predznaku regresijskog koeficijenta bi'
;y
Simbolicki:
sign (r".) = sign (h;). (2.82)
Koeficijenti parcijalne korelacije izraeunava]u se pomocu elemenata analize varijance , koeficijeriata jednostavne linearne korelacije i na druge nacine, Sastavni su dio veceg broja izlaza programa za regresijsku analizu. Znacajna im je uloga pri izboru varijabli na osnovi statistickih kriterija (metoda postupnog prosirenja (smanjenja) modela, "stepwise selection procedure«). U analiziranom je modelu visestruke regresije zavisna varijabla prodaja, a nezavisne su dvije varijable: cijene i dohodak. Ukupni zbroj kvadrata iznosi 6852.000. Zbroj kvadrata protumacen modelom s obje nezavisne varijable (cijene i dohodak) iznosi 5933.285. Protumaten zbroj kvadrata modelom u kome je prodaja zavisna, a dohodak nezavisna iznosi 4752.058, pa je razlika protumacenog zbroja kvadrata model a s dvije nezavisne varijable i modela sarno s jednom nezavisnom varijablom (5933.285-4752.058) = 1181.227. Rezidualni zbroj kvadrata za model s regresorskom varijablom dohodak je (6852.000-4752.058) = 2099.942. Koeficijent parcijalne detenninacije je:
1,',-,:'
0.86520,
r
l
~.
linearne
Ry•12
VO.86250
= 0.930548.
Buduci da je najveca vrijednost koeficijenta multiple linearne korelacije jedan, prema izracunanoj velicini koeficijenta moze se govoriti 0 cvrstoj vezi izmedu spomenutih pojava. Koeficijent determinacije je monotono neopadajuca funkcija broja nezavisnih varijabli. Ako se u model s (K -1) nezavisnom varijablorn uvede nova regresorska varijabla (npr. Xi)' doci ce do povecanja proturnacenog dijela zbroja kvadrata. Tako je npr. protumaceni dio zbroja kvadrata za model s dvije varijable po pravilu veci nego za model s jednom varijablom. Omjer prirasta proturnacenog zbroja kvadrata nastao kao posljedica uvodenja varijable X, u model i rezidualnog zbroja kvadrata modela s (K -1) -nom preostalom varijablom naziva se koeficijentom parcijalne determinacije. Drugi korijen iz koeficijenta parcijalne deterrninacije predstavlja koeficijent parcijalne korelacije. Koeficijent parcijalne korelacije pokazuje jakost i smjer linearne veze zavisne varijable i j -te nezavisne varijable uz nepromijenjeni utjecaj preostalih (K - 1) varijabli. Koeficijent pop rima vrijednosti iz zatvorenog interval a od minus jedan do plus jedan , tj.: 12-!
:,
:_1
~
7,
';1.2
1181.227 = 2099.942
= 0.56250.
varijacije varijable Y neobjasnjene cijena. Drugi korijen iz koeficijenta
.~
Taj koeficijent pokazuje da je 56.25% varijablom dohodak, objasnjeno varijacijama parcijalne determinaeije je:
'y1.2 = -
0.7500.
korelacije pridruzen je predznak minus, jer je pokazuje da izmedu prodaje i cijena uz fiksiran utjecaj promjena dohotka postoji negativna linearna korelacija srednje jakosti. Drugi koeficijent parcijalne determinacije izracunan na analogan naCin je:
Koeficijentu
parcijalne
b,
=-
0.88223. Koeficijent
';2.1 =
dok je koeficijent
';2.1 = 0.85098,
parcijalne
= 0.92248.
prodaja
i dohodak
uz neutraliziran
utjecaj
Koeficijent parcijalne determinacije u tom pnrnjeru izracunan elementa analize varijance. Ako se pojedine velicine upotrijebljene
je pomocu u njegovu
')1_J
izracunavanju podijele ukupnim zbroje~. kvadrat~ neovisnim. 0 ~~menzijama modela doci ce se do ovih izraza za koeficijent parcijalne determinacije za model s dvije nezavisne varijable: ~ _ R;.12 (2.83)
,I.Z-
(2.87)
1-';2
r;z
_ Na gJavnoj dijagonali matrice nalaze se jedinice, jer je koeficijent linearne koretacije za parove istih vrijednosti varijabli uvijek jednak jedan. Iz navedenog je vidljivo da je korelacijska matrica simetricna, pa se ponekad u izlazima obrade pojavljuje sarno njezin donji ili gornji trokutasti dio. Korelacijska matrica u primjeru ima sljedeci sadrzaj: Prodaja Prodaja Cijene
Dohodak
i:
r;.
(2.84)
U navedenim izrazima R;.12 je koeficijent determi~~cije modela.s obje regresorske varijable, dok je ";1 koeficijen~ determ.i.nacIJe mo~eta.~ jednom regresorskom varijablom (v.~rijabla XI), a ~2 Je k~eficIJent determinacue modela jednostavne linearne regresije S regresorskom van)ab!~m X2• ." • Iz (2.83) i (2.84) proizlazi i ova ra~clamba koeficlJenta detennmacIJe. R;.l2 Takoder vrijedi:
1.00000 -0.31667
O.R~::!7R
= ~I
+ (1-
~1)ry2.1'
Element korelacijske matrice - 0.31667 je koeficijent linearne korelacije izmedu zavisne varijable (prodaja) i nezavisne varijable (cijene). Koeficijenr linearne korelacije izmedu zavisne i druge nezavisne varijable iznosi 0.83278. Vrijednost 0.11501 je koeficijent linearne korelacije izrnedu nezavisnih varijabli (cijene i dohotka). Izmedu koeficijenta jednostavne lineame korelacije i koeficijenta parcijalne korelacije postoji odreden odnos, Umjesto racunanja pornocu koeficijenta parcijalne determinacije, koeficijenti parcijalne korelacije odreduju se i pomocu koeficijenta jednostavne linearne korelacije. Koeficijenti parcijalne korelacije prvoga reda za K = 2 definiraju se pomocu koeficijenata jednostavne linearne korelacije na sljedeci nacin: r y
_
1.2 -
ryl - 'y2rl!
V(1-
?y.) (1 - rI2)'
',2.t -
f,.! -
',lrl2
(2.88)
',I
1
r21
'y2
'12
'yJ 'Il
.•. r.~·i
R;;
'2y
'2J
'il
···'Ii
••• r!.j
'iy
'Ky
'11
'KI
'i"2
... 1 ···'xi
... riK
'K2 'n
...1
Prvi redak matrice R sadrzi koeficijente [ednostavne line arne korelacije izmed~ zavisne varijable i svake od nezavisnih varijabli. I p~i st?pac .le matn.~e sadrzi koeficijente linearne korelacije izmedu svake nezavisne 1 zavisne v~nJab~e. Iz definicijskog izraza za Pearsonov koeficijent (2.7~~ vidljiva je njegova.~m~e.tncnost s obzirom na oznaku varijabli. Vrijednost koeficijenta nece se promijemtt a~~ se zamijene mjesta varijabli. lz toga proizlazi da prvi redak i prvi stupac korelacijske rnatrice imaju iste elemente. To jest: (2.86) i= 1,2, ... ,K. Ostali eIementi korelacijske matrice predstavljaju koeficijente jednostavne linearne korelacije izmedu nezavisnih varijabli. S obzirom na svojstvo simetricnosri. i ovd]e vrijedi jednakost:
Predocenirn koeficijentima mjeri se stupanj linea me statisticke povezanosti izmedu pojava. Ako je oblik veze krivolinijski, oni ce se analiticki izraziti rnodelom krivolinijske regresi]e, dok ce se jakost veze mjeriti koeficijentom krivolinijske korelacije. Koeficijent krivolinijske korelacije alternativno se naziva indeksom korelacije, a izracunan za grupirane podatke u dvodimenzionalnoj tabeli odnosom korelacije (eta). Podloga za mjerenje jakosti veze pojava u krivolinijskoj regresiji je koeficijent determinacije. Koeficijent krivolinijske korelacije je drugi korijen iz koeficijenta determinacije, Koeficijentu krivolinijske korelacije sene pridruzuje predznak s obzirorn na mogucu raznosmjernu kovarijaciju varijabli. Krivolinijski odnos izmedu varijabli predocen prikladnim regresijskim modelorn analizira se na osnovi originalnih vrijednosti varijabli iii transforrnacijorn varijabli (logaritmi, reciprocne vrijednosti i dr.). Ako je npr. rijee 0 standard nom regresijskom polinomu, u postupku se uzimaju izvorne vrijednosti varijabli. pa ce se elernenti za analizu varijance, a time i koeficijent deterrninacije i krivolinijske korelacije izracunati na osnovi tih vrijednosti, Izracunani koeficijent krivolinijske
127
korelacije u spomenutom slucaju nema svojstvo simetricnosti, To znaci da pro~jena statusa varijable ~ijenja velieinu koeficijenta korelacije, ~to nije svojstveno Pearsonovu koeficijentu, Transformiraju li se varijable u modelu s ciljem da se on linearizira, koeficijenti korelacije ce se utvrdivati polazeci od lineariz~~~~og, a ne p?~tnog ob~i.ka. O~isno 0 vrsti transformacije pokazatelji korelacije irnat Ce obiljezje koeficijenta hneame iii krivolinijske korelacije. U tabeli 2.15. nalaze se podaci za analizu regresijskog polinoma drugog stupnja. Protumacen zbroj kvadrata iznosi 105.989, a ukupan 161.922. Koeficijent determinacije je:
varijabJi ranga, odnosno 0 perfektnoj rangkorelaciji, U pravilu razlike rangova poprimaju vnjednosti razlicite po velicini i predznaku, Da bi se uklonio utjecaj predznaka na velicinu razlika, polazi se od kvadrata razlika, Koeficijent korelacije ranga Spearmana dan je izrazom:
r.=
1--3--, n -n
6.±dt ,=1
- 1:5 r,:51.
(2.90)
0.r,x' =
itl(.9; - y)2
-~---,dl
.L(y;- y)2
105.989 161.922'
0.s. ">=
0.65457,
Koeficijent korelacije ranga (2.90) izveden je pomocu Pearsonove formule (produkt moment formula), a na temelju modaliteta varijable ranga reX) i r(Y). Spearmanov koeficijent poprima vrijednosti iz zatvorenog intervala od minus jedan do plus jedan. Granicnu vrijednost od jedan poprimit ce ako postoji poklapanje rangova varijabli. Tada je svaka razlika d jednaka 0, pa je drugi clan s desne strane jednazbe (2.90) jednak 0, a koeficijent korelacije ranga je + 1Rijec je 0 potpunoj pozitivnoj korelaciji ranga. Koeficijent ce poprimiti vrijednost - 1 ako je redoslijed modaliteta prve varijable obrnut od redoslijeda rnodaliteta druge varijable. Zbroj kvadrata razlika rangova je tada najveci i iznosi:
;=1
. Koeficijent krivolinijske determinacije pokazuje da je modelom regresijskog pohnoma protumaceno 65.457% odstupanja. Koeficijent krivolinijske korelacije je 0.80905, sto je relativno visoka vrijednost.
Ld7=--.3
nJ-n
(2.91)
Kada zbroj kvadrata razlika rangova ima najvecu vrijednost, drugi clan u jednadzbi (2.90) iznosi dva, a koeficijent korelacije ranga - 1. Korelacija ranga je tada potpuna i negativnog smjera. Vrijednost koeficijenta korelacije ranga jednaka je 0 ako je zbroj kvadrata razlika rangova jednak:
n).
(2.92)
Uvrstavanje (2.92) u (2.90) daje vrijednost koeficijenta korelacije ranga jednaku 0, jer je drugi clan s desne strane jednadzbe (2.90) jednak jedan. Zakljucivanje 0 jakosti korelacije ranga donosi se usporedbom izracunane vrijednosti s granicnom vrijednosti koeficijenta, odnosno testiranjem odgovarajuce hipoteze u okviru inferencijalne statistike. Podaci za primjer raeunanja Spearmanova koeficijenta korelacije ranga odnose se na 15 robnih kuca, Robne kuce rangirane su prema kvaliteti usluge i ~k~pn.om prometu u toku jednog perioda. Na temelju podataka potrebno je ispitati stupanj korelacije izmedu navedenih varijabli. Buduci da su u pitanju modaliteti varijabli ranga, izracunat ce se vrijednost koeficijenta korelacije ranga Spearmana. Podaci i medur~zultati dani su. u tabeli 2.18. Na temelju (2.90) vrijednost koeficijenta korelacije ranga je:
r.= 1-153-15'
.Za ~odalit~te varijabli ranga pretpostavlja se da poprimaju vrijednosti prvih n p~lrodmh brojeva. Polazna velicina za rnjerenje korelacije varijabli ranga jesu razlike rangova:
d, = r(xi) - r(y,) , i= 1,2, ... .n,
6·42
r.=
+ 0.925.
(2.89)
Ak~ s~ r~ngovi varijable Xi varijable Y jednaki u svakom paru, svaka razlika O. U tom je slucaju rijec 0 potpunom slaganju varijacija
Koeficijent je pozitivnog predznaka i blizu jedinice, pa se zakljucuje da visok rang usluga prati i visok rang prom eta. Ponekad ce vise elemenata imati istu vrijednost iste varijable ranga, pa se govori 0 prisutnosti vezanih rangova. U postupku racunanja elementima ce se
.... ."'"
f:
129
Tabela 2.18. Rangovi varijabli uslugai prometa Robna kuCa Rangza usluge r(xl) Tabela 2.19. Bodovi na ispitu iz maternatike i statistike Rangza promet r(y,) 3 9 15 10 11 12 2 3 6 5 14 1 4
7
Kvadrati razlika
~andidat
Bodovi iz matematike
XI
Bodoviiz statistike
y, 3
Rangiz matematike
Rangiz statistike
Kvadrat razlike
tP;
5 1 0 4 0 9 1 4 1 1 1 1 1 16 1 42 1 A
B
1
1 2 3 4 5 6
7
2 10 15 8 11 9 3 1
7
rex,)
4 7
r(Ya
5
7 4 2
eli
7
2 34 6 9 12 20
21
30
21
-2
-3 -2 0
D
E F
5 9
2-l 2-l -l -
1.5 3
4
0 6.25 1
1
1 1
8 9 10
11
12 13 14 15
4 13 2 5 6 12 14
5 6 1.5
-
3 5.5 5.5 1
-
13
-1 -1 1 1 -1 4
1
9.00
pridruzltl prosjecni rang. Prosjecni rang se odreduje rangova koje bi imali elementi da nije rijec 0 vezanim broj vezanih rangova, nuzno je rnodificirati! izraz prirnijeniti ga u ovom obliku:
(
n J -n ) - 6
(2.93) ~=~V~(n~3~-~n~r~-~(~T~I+~T~y)~(n~3~-~n=)=+=T=IT~y
dok su Ti i T, korekcijski rangove varijable X:
Broj bodova je numericka varijabla. Vrijednosti numerickih varijabli pretvorit ranga. Najmanjoj vrijednosti pridruZuje se rang jedan, sljedecoj po velicini dva, i tako dalje, Najmanji broj bodova iz matematike je 6, a imaju ga kandidati BiG. Zato im se daje rang 1.5, tj, aritmeticka sredina rangova, koji bi im se pridruzili kada bi oni imali razliclt broj bodova. Vrijednosti 9 pridruzen je rang 3 itd. Broj bodova iz statistike varira izrnedu 4 i 30. Kandidat G ima najrnanji broj bodova iz statistike i rang jedan, C rang 2, i tako dalje. Rang 5 i 6 pripadao bi kandidatima E i F, ali oni imaju istu vrijednost numericke varijable, pa im se daje rang 5.5. Uociti se mogu vezani rangovi. Za svaku varijablu postoji [edna skupina vezanih rangova, U svakoj skupini su dva clana. Broj vezanih rangova je ovdje zanemariv. Primjenom formule (2.90) dolazi se do vrijednosti koeficijenta:
ce se u vrijednosti varijable
r, =
+ 0.83929.
rang varijabIi Xi Y, d, su razlike rangova, faktori za vezane rangove. Korektivni je faktor za vezane
Jedna je skupina vezanih rangova za varijablu X, s dva clana, pa je T,= 6 I jer je i za varijablu Y jedna skupina s dva clana, Prema (2.93) korigirani koeficijent korelacije ranga Speannana je:
T,. = 6,
(2.94)
r,
= 0.83636.
vezanih rangova, a t, broj vezanih rangova u i-toj skupini, i korektivni faktor za vezane rangove varijable Y.
Koeficijent korelacije ranga racuna se polazeci od parova vrijednosti numerickih varijabli. U tom slucaju nurnericke vrijednosti varijabli treba zamijeniti modalitetima varijabli ranga. U tabeli 2.19. nalaze se podaci 0 postignutom broju bodova na pismenom ispitu iz matematike i statistike za sedam kandidata,
L·~p. S. Siegel and 1'\. 1. Castellan (1988). Nonpararnetric Sciences, 2nd Edt. New York: McGraw·Hill, str. 239. Statistics for the Behavioral
Razlika izmedu nekorigiranog i korigiranog koeficijenta je mala, jer je u primjeru mali broj vezanih rangova. Spearmanovim koeficijentom mjeri se korelacija dviju varijabli ranga, U praksi se pokazuje ponekad potreba da se izrazi korelacija skupa od tri i vise varijabli ranga. Pri tome se primjenjuju prikladni koeficijenti, medu kojima je i Kendallov koeficiient W, koeflcijent slaganja varijacija varijabli ranga. U njegovoj primjeni pretpostavlja se da svaka varijabla ranga poprima vrijednost iz skupa prvih II prirodnih brojeva. Ako su izvorne vrijednosti modaliteti nurnericke varijable , potrebno ih je transforrnirati u varijable ranga pridruiivanjem prirodnih brojeva na prije objasnjen nacin.
131
':~
'to
:. '.~
Primjer za ispitivanje povezanosti varijabli ranga odnosi se. na ocjen~ivanje uspjesnosti rada voditelja poslovnica (podaci_prema G. A. Church~llu). Us.p]e~nos~ nezavisno ocjeojuju rangiranjem tri rukovodioca poduzeca. Podaci su dam u tabeh 2.20.
Tabela 2 20 Rangiranje voditelja poslovnica Voditelji poslovnica Rangovi dopredsjednik sektora marketing 2 glavni rnenadzer prodaje 3 4 2 odjel za istrazivanje marketinga 4 5 2 Zbroj
rangova
analizirati pomocu mjere disperzije zbrojeva rangova, U tu se svrhu primjenjuje zbroj kvadrata odstupanja vrijednosti zbrojeva rangova od opce aritmeticke sredine, odnosno varijanca zbrojeva rangova. Mala varijanca iii, Mo je isto, izraza (2.95,2.96) upucivat ce na zakljucak da je slaganje rangova slabo i obrnuto, Velika vrijednost W posljedica je cvrste veze u varijaciji varijabli ranga. Koeficijent W poprima vrijednosti izrnedu 0 i 1. U primjeru, K = 3, n =
lO'i*/7 = 13z + 7
u (2.98), pa je koeficijent KendalIa W: W= 12·3443 - 3.32.10 .112 8646 33 .10(1Ql- 1) = 8910 ' W=0.97037.
1
A B C D E F
5 13
10
2 6 8 5
3 9
10
9 3 1 5
10
9 3 1
4
H I J
7
6 8
7
6 8
29 28 8 3 15 22 23
Najmanja vrijednost koeficijenta W (potpuno neslaganje varijaeije K varijabli ranga) je 0, a najveca 1 (potpuno slaganje rangova K varijabJi ranga). Izracunana vrijednost blizu je gornje graniee, pa se rnoze zakljuciti da se ocjene (rangovi) osoba koje su oejenjivale voditelje poslovnica veorna dobro slazu. U okviru inferencijalne statistike test znacajnosti provodi se primjenom odgovarajuceg postupka.
17
2.7. KOEFICIJENTI
f{Ri-Rl
(2.95)
2 )
ASOCIJACIJE
W=---1
12n(n -1
U navedenom izrazu Ri je aritrneticka sredina rangova za i-ti redak tabele (u primjeru prosjecni rang voditelja poslovnica triju ocjenjivaca), R i.e ~pca aritrneticka sredina (zbroj svih rangova podijeljen brojem rangova). Imajuci na umu da su modaliteti varijabli ranga prirodni brojevi od jedan do n, formula (2.95) rnoze se pisati u ovom obliku:
[(In(n2
1)
(2.96)
gdje R predstavlja zbroj rangova za i-ti redak. U lzvcdenjukoeticijentawpolazl se najprije od pretpostavke da postoji podudarnost.u ~anglran]u ..U P!lmJ:ru to znaci da je svaki ocjenjivac dao rang 1 istom voditelju poslovnice, 1 dalje, za svakog voditelja postoji podudarnost ranga svakog ocjenjivaca. Ako se uzme da za svaku od K varijabli ranga ima n modaliteta, zbroj rangova bi u slucaju potpune podudarnosti iznosio: K, 2K, 3K, ... ,n K.
kosi zbrojeva rangova.
Koeficijenti korelacije normirane su mjere jakosti statisticke veze izmedu dviju iii vise pojava. Kako im je svrha mjerenja kovarijacija, Iogicno je bilo uvjetovati njihovo racunanje mjemim svojstvima varijabli. Zbog toga je upozoreno na razlike u mjerenju korelacije na osnovi numerickih varijabli i varijabli ranga. Podloga za analizu rnedusobnih odnosa mogu biti podaci koji se odnose na modalitete kvalitativnih odnosno nominalnih varijabli. Takvi se podaei uobicajeno predocavaju u tabeli kontingence, odnosno u dvodirnenzionalnoj tabeli kojoj je pojavni oblik istovjetan obliku za podatke grupirane na osnovi modaliteta numerickih varijabli. Razlika se ovdje pojavljuje u sadrzaju zaglavlja i pretkolone, U kojima se nalaze modaliteti nominalnih varijabli. Poredak rnodaliteta nominalnih varijabli je teorijski proizvoljan, pa to baca posebno svjetJo na problem definiranja i brojcanog mjerenja stupnja i smjera njihove veze. U statistlckoj analizi primjenjuje se vise mjera stupnja asocijaciie.' Medu mjerama su Cramerov koeficijent V, koeficijent kontingence Pearson a C,. koeficijent kontingence Cuprova T, koeficiient 4> i drugi. Tabela 2.21. predstavlja opci oblik tabele kontingence. Umjesto izvornih modaliteta nominalne varijable mogu se primijeniti modaliteti bilo kojeg tipa varijable, koji su podloga klasifikaciji podataka (kategorije).
Mala podudarnost (slaganje) rangova imalo bi za posljedicu priblifnu jednaIz toga se mofe zakljuciti da se stupanj slaganja da
-,'tJ..
·.'\r.
Vidjeti opsirnije u: S. Siegel and N. J. Castellan (1988), op. cit. str. 224-310. 133
'"
.~",
..."
Tabela 2.22. Zaposleni u drustvenom sektoru u trgovinskoj struenog obrazovanja u Hrvatskoj, 1988. VOlta trgovinske djelatnosti Trgovina namalo Trgovina na veliko Vanjska trgovina Ukupno Stupanj strucnog obrazovanja visoko 2562 4149 2457 9168 vi~e srednje 2722 2747 966 6435 19946 13796 3272 37014 nire 4047 3456 665 8168 VKV 9830 1932 151
djelatnosti
prema stupnju
BI
B2
Bl
A2 Ai
A,
lie 12<
IL A A
NKV
Ukupno
Ii<
I..
fe
I,.
n
Ukupno
fz
11
11913 68831
17427 163377
U tabeli kontingence nalaze se apsolutne frekvencije. Moze se pokazati da bi vrijednosti frekvencija u polju tabele u slucaju neovisnosti nominalnih (kategorijskih) varijabli trebale biti jednake »ocekivanim frekvencijama«. Ocekivane [rekvencije dane su ovim izrazorn: e.. =kfj
rJ
Zbroj fr.ekvencija iznosi n = 163377, broj redaka u polju tabele r = 3, broj kolona u polju tabele c = 8, dok je empirijski hi-kvadrat jednak: X2 = 34062.76, L = min (r,c) = min(3,8), L = 3. Koeficijent Cramera (2.98) je: V= 34062.76 163377.2' V = 0.32287.
n'
(2.97)
Ocekivane velicine apsolutnih frekvencija za neovisne nominalne varijabJe jednake su produktu marginal nih frekvencija podijeljenom zbrojem apsolutnih frekvencija (ukupnim brojem elemenata). Sto su razlike izmedu stvarnih apsolutnih i ocekivanih frekvencija rnanje, to je u principu slabija asocijacija izmedu nominalnih varijabli. Kako te razlike ovise 0 velicini frekvencija i zbroju n, potrebno je utvrditi pokazatelje neovisne 0 apsolutnim vrijednostima frekvencija i 0 dimenziji tabele kontingence. Medu takve se pokazatelje ubraja Cramerov koeficijent asocij acije: (2.98) gdje je: L = min(r,c}. Koeficijent asocijacije V poprima vrijednost od 0 do 1. Nula je u slucaju neovisnosti nominal nih varijabli. Frekvencije u polju tabele tada su jednake ocekivanim frekvencijama, svaka je razlika jednaka 0, a time i koeficijent V. Najvecu vrijednost dostize u slucaju »potpune« asocijacije , Koeficijentu se ne pridruzuje predznak, jer je poredak modaliteta kategorijskih varijabli proizvoljan. U izrazu Crarnerova koeficijenta nalazi se velicina X!' koja ~~~naziva empirijskim hi-kvadraiom. Test znacajnosti koeficijenta u okviru inferencijalne statistike provodi se na temelju te velicine i odgovarajucih drugih vrijednosti. Racunanje koeficijenta V ilustrirat ce se na podacima koji se odnose na -tupan] strucnog obrazovanja i vrstu trgovinske djelatnosti zaposlenih u drustve110m sektoru zaposlenih u Republici Hrvatskoj, stanje 31. XII. 1988. Podaci su nuvcdeni u tabeli 2.22.
Izracun~na vrijednost je relativno mala, pa se zakljucuje da postoji slaba povezanost izmedu rasporeda radnika s obzirom na vrst trgovinske djelatnosti i stupanj strucnog obrazovanja, ~olaznu ?sno.vicu za izracunavanje Pearsonova kaeficijenta kontingence takode.~ eme r~like izrnedu stvamih i oeekivanih frekvencija, odnosno empirijska vrijednost hi-kvadrata. Pearsonov koeficijent definira se formulom:
C=
VX + X
2
n'
(2.99)
Najmanj.a vrijednost koeficijenta je nula, Najveca vrijednost ovisi 0 dimenziji tabele. Ako je r = c, tj. ako tabela ima isti broj redaka i stupaca koeficijent ce se nalaziti izmedu granica: ,
05:CS
C1 :.
C = 0.4154.
. :Z:aklj~~ivanje a stupnju asocijacije na osnovi koeficijenta C je otezano, jer je naJve~a. vf1J.ednost d~na s~:n0 za tabelu s istim brojem, redaka i stupaca. Tabela 5 an~hztran~m podacl.ma OIJetakva, pa se prosudivati rnoze sarno ako se promatra donja graruca. Zakljucak 0 asocijaciji bio bi isti kao i na osnovi Crarnerova koe ficijen ta. Koeficijent Cuprova takoder ukljucuje vrijednost empirijskog hi-kvadrata, a dan je ovirn izrazorn: 135
(2.100) Najmanja vrijednost koeficijenta je jednak.~ m~la. Najveea. v~ijed~ost. je jednakajedan i moze se doseci sarno za tabele u kojirna je r = c. U pnrnjeru Je T. T=
III. dio
STATISTICKA ANALIZA VREMENSKIH NIZOVA
11
34062.76 r 163377~
T= 0.23605.
Sljedeca mjera stupnja asocijacije je koeficijent $. Taj s.e koef!cijent izrac~nava kao drugi korijen omjera empirijskog hi-kvadrata I zbroja apsolutmh frekvencij an, tj.:
$=
1ft
y;-'
(2.101)
41=
(fll/'ll - /12121)
ft.!dd2
(2.102)
3.1. UVOD
Polaznu osnovicu za analizu pojava u vremenu tini vremenski niz. Vremenski niz je skup kronoloski uredenih vrijednosti. Veliclne {Y,} , t= 1,2, ... ,n koje tvore niz nazivaju se frekvencijama. Broj frekvencija n predstavlja duljinu niza. S obzirom na nacin postanka frekvencija razlikuje se intervalni niz od trenutaiinog. Frekvencije intervalnog niza nastaju zbrajanjem vrijednosti pojave po odabranim vrernenskim intervalima. I same frekvencije tog niza mogu se zbrajati, pri cemu dobiveni zbrojevi imaju smisleno tumacenje, Intervalni niz irna svojstvo kumulativnosti. Trenutacni vrernenski niz je skup kronoloski uredenih vrijednosti, koje predstavIjaju stanja (salda) pojava u odabranim vremenskim tockama. Taj niz nema svojstvo kumulativnosti. Statisticki vremenski nizovi mogu biti lzvorni i izvedeni. U izvornom nizu frekvencije su izraz izravnog mjerenja velicine pojave po odabranim intervalima vremena iii u odabranim vremenskim tockarna, Izvedeni niz nastaje kronoloskim uredenjem vrijednosti nastalih brojcanim radnjarna nad jednim iii vise vremenskih nizova. . Primjer intervalnog niza je proizvodnja alurninija po godinama period a 1981 - 1991. u Republici Hrvatskoj, Podaci 0 zaposlenim u privrednim djelatnostima po mjesecima u 1991. godinu, stanje krajem mjeseca, u Republici Hrvatskoj predstavljaju vremenski trenutacni niz. Izveden je npr. niz narodnog dohotka po stanovniku po godinama za razdoblje 1985-1991. u Republici Hrvatskoj. Frekvencije spornenutog niza nastale su diobom narodnog dohotka i broja stanovnika. Statisticka analiza pojave u vremenu provodi se na temelju konzistentnog vremenskog niza, koji tu pojavu brojcano predstavlja, Vrernenska serija je konzistentna ako su joj frekvencije medusobno usporedive. Medusobna usporediYost clanova niza je osigurana ako se u prornatranorn rasponu vremena ne mijenja pojmovna i prostorna definicija pojave. Kada je rijec 0 intervalnom nizu, pretpostavka je izravne usporedivosti frekvencija i jednakost intervala prornatranja. Obicno se za vremenske intervale uzimaju godina, polugodiste, kvartal, mjesec, dekada, dan, skolska godina,
117
U tabeli kontingence dimenzije 2 x 2 ponekad ima smisla koeficijentu pridruziti predznak. .. . .. . Vrijednost koeficijenta za analizirani ~T1m~erJe.?.4:661. ..... Osim navedenih postoje i drugi koeficijenti asocijacije. ~re~oce~1 koefLclJen!l su monotone funkcije empirijskog hi-kvadrata. Stoga se tesur~nJe njihove znacajnosti provodi pomocu hi-kvadrat testa koji je obraden u podrueju metode uzoraka,
budzetska godina i druge vremenske jedinice. Vremenski nizovi na_j~e~oo se sast~~e od frekvencija vezanih za jednake vremenske intervale: Kon~lstentnos! se~Je narusava se u stanovitoj mjeri za serije s intervalima kracim od jedne godine, jer nominalno iste kalendarske jedinice ne predstavljaju istu ~uZi~u vrem.en~. Ta razlika moze biti znacajna npr. za mjesecna promatranja. Mjeseci se razlikuju po broju dana, a ako se pojava mjeri u toku radnih dana, razlike po m~~se~ima m~~u biti velike te rnogu onernoguciti izravnu usporedivost frekvencl~a iste .se::rlJe. Varijacije frekvencija nastale kao posljedica opisane nejed.na~os~l .uklanJaju se korekcijom frekvencija. Razlike u d~zini vec..h vrernenskih J.edlnlCa kvartala, polugodista i godina brojcano su male 1 po pravilu se .z~nemar.uJu ", Buduei da frekvencije trenutacnog niza predstavljaju stanja pojava u odabranim vremenskim trenucima, varijacije dufine istih kalendarskih jedinica ne utjecu na njihovu medusobnu usporedivost. Sa stajalista brojcane an~lize paz~ijno je da su frekvencije vezane za jednako udaljene vremenske tocke, Jer to pojednostavljuje postupke. . . . .. Frekvencije vrernenskog niza izrazene su u razlicitirn mjerrnm Jedlnt:~m~. Neke su dane vrijednosno, tj. u novcanim jedinicama. Vrije~nost .no~ca mlJ~~Ja se s vrernenom, pa taka iste koliclne u razlicitim vrememma lma_Ju ra~h~lte nominalne vrijednosti. Aka se feli pratiti razvoj takvih pojava u realnim velicinama, nuzno je odstraniti utjecaj promjena cijena na vrijednosti, tj. pojave treba pratiti po nepromijenjenim cijenama, Prije prijelaza na statisticku analizu potrebno je ukloniti postojece manjkavo-
sti podataka, koji cine seriju nekonzistentnom. U tabeli 3.1. naveden je niz proizvodnje
Hrvatskoj kao prirnjer intervainog niza,
povrsine, . . . . Vremenski niz razlikuje se od drugih po tome sto su njegovi clanovi u~ede~1 prema vremenskom pararnetru t. Zbog toga se u njihovoj analizi upotrebljavaju specificne statisticke metode.
(a) deskripcija razvoja pojave u vremenu. Opis se provodi razlicitim metodama. Medu njima su graficki prikazi jednostavni brojcani pokazatelji (reiativni brojevi). Analiticki se razvoj izrazava modelima vremenskih pojava, Modela ima velik broj, a variraju po slozenosti: od jednostavnih do vrlo zarnrsenih. Ponekad se analiza vremenske serije iscrpljuje primjenom metoda deskriptivne statistike. Kada su vremenske serije male duzine, nije rnoguca primjena slozenijih postupaka i modela. (b) objasnjenje varijacije pojave u vremellu pomocu drugih pojava. Tako npr. varijacija potrosnje stanovnistva u danom rasponu vremena na jednom podrueju da se objasniti pornocu varijacija prihoda stanovnistva i varijacije cijena dobara osobne potrosnje u vremenu. Ta se zadaca obavlja pornocu metoda regresijske i koreiacijske analize. (c) predvidanie razvoja pojave. Predvidanje je donosenje sudova 0 budueoj razini pojave. Predvida se pornocu jednostavnih rezultata, kao sto su pokazateiji dinamike iii modela vrernenskih pojava. Dobivene prognosticke vrijednosti sastavni su dio informacija na temelju kojih se donose poslovne i druge odluke. (d) kontrola procesa. Odvijanje mnogih proizvodnih procesa prati se u vremenu, Pracene karakteristike procesa pojavljuju se kao zapisi generirani pornocu analognog racunala, Zapisi su u vremenu te predstavljaju vrernensku seriju prikazanu na kontroinoj karti. Poremecaji normainog toka procesa ocitovat ce se s pojavom prevelikih iIi premalih clanova vrernenske serije i time uzrokovati potrebu regulacije procesa. U regulaciji se primjenjuju odgovarajuci modeli vremenskih serija. Predmetom analize moze biti jedna pojava (jedan vremenski niz) iii viSe njih, ovisno 0 danim slucajevima, Metode anaiize, kao sto je prije navedeno, mogu biti iz okvira deskriptive statistike i varirati S obzirom na stupanj slozenosti. Nije rijetko da su jednostavni pokazatelji varijacije frekvencija i graficki prikazi vodici pri izboru modela i prosudbi kvaiitete dobivenih rezultata. Statisticka analiza vremenskih pojava provodi se u vremensko] domeni i u
elektroenergije
i plina
domeni frekvencija',
Godina
U analizi pojave u vremensko] domeni pornocu modela postoje dva pristupa. Prvi se pristup sastoji u utvrdivanju analitickih izraza kojima se statisticki opisuje razvoj razine pojave u vrernenu, i to pornocu neke funkcije vremena. Buduci da stvarno kretanje pojave nije deterrninisticko, ocito je da ce taj opis imati statisticko obiljeije. Vrijednosti funkcije vremena zamjenjuju originalne vrijedno-
263~
2034 SIr. 179.
Usp, C. Chatfield (1989). The Analysis of Time Series. An Introduction. 4th Edition. London: Chapman and Hall. SIr. 5-7: M. G. Kendall (1973). Time Series. London: Griffin, str. 12-15.
, Analiza vrernenske serije u domeni frekvencija sastoji se u primjeni spektralnih metoda. Za razumijevanje tih metoda potrebno je dobra poznavanje teorije stohasricklh procesa,
U ovom udzbeniku te se metode necc opisivari,
:~
139
sti niza, kao sto aritmeticka sredina zarnjenjuje niz pojedinacnih vrijednosti numericke varijable iIi kao sto regresijska vrijednost procjenjuje vrijednosti zavisne varijable. Drugi pristup izvire iz teznje da se statisticki opise dinamicka struktura pojave, a ne kretanje njezine razine u vremenu, Ovdje je rijec 0 mjerenju stupnja i smjera korelacije .clanova iste serije razrnaknutih jedno razdoblje, dva iIi vise njih, kao i analitickome izrazavanju takve meduovisnosti, Prornatrati se mogu primjerice investicije u stalnirn cijenama u Republici Hrvatskoj po godinarna perioda 1960-1991, u stalnim cijenama. Ako je cilj analiticki izraziti kretanje razine pojave u tom intervalu, ucinit ce se to pornocu odredene funkcije vremena. Od interesa moze biti brojcani pokazatelj 0 ovisnosti investicija tekuceg vremena, vremena t, od investicija u prethodnom periodu, periodu 1-1, iIi 1-2, odnosno opcenito od investicija s vremenskim pomakom 't razdoblja. Poznavanje korelacije izmedu clanova iste serije razmaknutih 't razdoblja dragocjeno je za razumijevanje unutrasnje strukture pojave u vremenu. Statisticka analiza kretanja razine pojave u vremenu provodi se polazeci od klasicne raiclambe serije u komponente. Kornponente odrazavaju tipicne tokove u vremenu. Na tok pojave u vrernenu djeluje golem broj razlicitih faktora, Iskustvo je pokazalo da se vremenska pojava da predocitl pornocu manjeg broja tipicnih komponenti. To su trend, ciklicna, sezonska i slucajna kompanenta, Trend-komponenta vremenske serije predstavlja osnovnu dugorocnu (sekularnu) tendenciju njezina razvoja u vrernenu. Predstavlja se funkcijama vrernena, Ako se pojava od razdoblja do razdoblja mijenja za priblizno jednak iznos, njezin je trend linearan, Oblici trend-funkcija su razliciti i ovise 0 danom slucaju, Trend se u razvoju pojava pripisuje djelovanju postojanih faktora, kao sto su npr. razvoj znanosti i tehnologije, kretanju stanovnistva, ponasanju potrosaca i tome slicno, Trend se moze uocitt sarno ako se raspolaze s dovoljno dugim vremenskim nizom, Premda ne postoji pravilo kojim se odreduje dovoljna dufina n, u praksi se uzima niz od najrnanje deset godisnjih frekvencija. Neki autori odreduju trend i za kracu vrernensku seriju. Ciklicne promjene pojave prisutne su ako se pojava obnavlja na priblizno jednak nacin s periodom od dvije i vise godina. Privredni ciklusi pokazuju strukturne promjene, koje su posljedica privrednog razvoja. Pocetak ciklusa obiljezava relativno niska razina djelatnosti, koja se u fazi uspona povecava do neke maksimalne velicine, nakon koje slijedi pad aktivnosti. Nakon minirnuma, slijedi uspon i obnavljanje pula u vremenu na priblizno isti nacin, Prisutnost ciklicnih kolebanja statistieki se ustanovljuje pomocu vremenskog niza s dovoljno obuhvacenih obnavljanja, testa se ne raspolaze serijama s dovoljno clanova, iz cega izviru poteskoce u analizi te komponenre , Ako je npr. obnavljanje s periodom od tri godine, i ako se uzme kao kriterij dovoljnog broja obnavljanja deset. za analizu bi trebalo raspolagati serijorn od 30 godisnjih frekvencija. Za neke pojave, narocito mikroekonomske, takve serije ne postoje. Zbog tih razloga ciklicna i trend-komponenta se ne razdvajaju, sto je opravdano, osobito ako se prctpostavi da je period ciklusa velik. Ciklicna kretanja prisurna su u mnogim podrucjima, npr. u gradevinarstvu, poljoprivredi, inforrnatickoj tehnologiji itd. Obnavijanje pojave moze biti u periodu od jedne godine. Takve se promjene nazivaju sezonskim. Sezonske pojave ocituju se sarno ako se raspolaze serijom rnjcsecnih iIi kvartalnih podataka. Sezonska kolebanja su posljedica danog ritrna
I .. I H
UI~·b······~--==-~_L--------
cikli~"" kompon.ntQ
.. 0+-----~ 3
i'eguiarna komponMta
Yrijeme
<,
Grafikon 3.1. proiz~odnje, potro~nje, klimatskih i srodnih faktora. Sezonska pojava su nocenja u tunzmu, potrosnja bezalkoholnih pica, opseg gradevinskih djelatnosti u kontinenta~nom dijelu Republi~e Hrvat.sk~, itd. Za mnoge sezonske pojave postoji dovoljan bro] podataka, a I obnavljanja su u pravilu lako uocljiva, za razliku od ciklicnih s periodom od dviju i vise godina.
Trend-komponenta, cikliiina i sezonska, nazivaju se sistematskim. deterministickim komponentama jer predstavljaju kovarijacije pojave koje se daju izraziti nekom funkcijom vrernena, Za razliku od njih, slucajna komponenta je nesistematska. Ona upozorava na postojanje iregularnih prornjena. koje ne ocituju neku
pravilnost, . . Vremen~ka serija ne mora sadrzavati sve navedene komponenre i u pravilu ih I ne sadrzi. Moze ukljucivati trend i slucajne varijacije. Osnovna tendencija' razvoja maze biti eksponencijalna u kombinaciji sa slucajnom, Kretan ie maze biti ciklicno sa slucajnim promjenama. Napokon, neki vrernenski niz ne mora ocitovati kovarijaciju s vremenom. pa je rijec 0 slucajnom nizu. U empirijskoj analizi uvijek 141
'~":.h._
•.
:,~_,
jeprisutna iregulama komponenta, jer se razvoj pojava u vremenu ne da objasnitf] iskljucivo nekom funkcijom vremena. Grafikonom' 3.1. ilustrirana je rasclamba vremenske serije kao zbroj trend-komponente, sezonske, ciklicne i slucajne.· . Na temelju standardne dekompozicije postavlja se opci model vremenske pojave. Opci model javlja se u aditivnom iii multiplik~tivnom obliku, a rijetko_je·· mjesovitog oblika. Opti aditivni model vremenske pojave predocene vrernenskim nizorn je sljedeci: Y=T+ C+S+u, gdje Y predstavlja seriju; T trend, C ciklicnu, a S se~o~sk~ k?~ponentu. u je slucajna (iregularna, rezidualna) komponenta. Multiplikativni je model dan izrazom: Y"" T',
t,
T.
(:u.)
U modelu 3.2. serija je dana kao produkt komponenti. Dok su u aditivnom modelu svi clanovi izrazeni u mjernim jedinicama pojave, u multiplikativnom modelu samo je trend-komponenta U originalnim mjernim jedinicarna, a ostale su kornponente izrazene relativno, kao indeksi. Statlsticka analiza pojava na osnovi modela (3.1) iii (3.2) sastoji se u utvrdivanju analitickih izraza za svaku komponentu, kao i drugih statisticko-analitickih pokazatelja. Lako je zakljuciti da se spomenutim modelima predstavlja razvo] nlvoa pojave, a ne njezina dinamicka struktura. Analiza medusobne ovisnosti clanova iste serije temelji se na koeficijentima autokorelaciie. Koeficijenti autokorelacije racunani na osnovi stvarnih podataka jesu vrijednosti empirijske autokorelacijske funkcije. Sam izraz »aurokorelacija« pokazuje da je rijec 0 mjerenju stupnja statisticke veze izmedu clanova iste serije. AIgebarski statisticki modeli kojima se opisuje dinamicka struktura poprimaju razlicite oblike. Medu njima se nalaze autoregresijski modeli. Za autoregresijske i srodne modele karakteristicno je sto se mogu prirnjenjivati za opisivanje pojava, koje ne sadrze sistematske komponente. Trend i druge sistematske komponente odstranjuju se prije primjene tih modela. To je i razumljivo jer spornenute komponente smetaju jasnijern uocavanju unutrasnje strukture pojave. Analiza takvih modela pretezno se provodi metodarna inferencijalne statistike u okvirima stohastickih procesa i oni nece biti cjelovito analizirani u ovom udzbeniku, Prije prijelaza na brojcanu analizu uputno je vrernenski niz prikazati graficki. Graficki prikaz je znaeajno pomocno sredstvo za uocavanje karakteristika vremenske pojave, a time i sredstvo za izbor prikladnog modela. Postoji velik broj razlicitih grafickih prikaza/, od kojih ce se predociti sarno manji broj.
Intervalni niz prikazuje se povrsinskim i linijskim grofikonom. Grafikon se konstruira u prvom kvadrantu koordinatnog sustava, Na osi apscisa nalazi se aritrneticko mjerilo za vrijeme, a na osi ordinata je aritmeticko mjerilo za frekvencije. Ako intervali promatranja nisu jednaki, nuzno je korigirati frekvencije. Pri konstrukciji povrsinskog grafikona upotrebJjavaju se pravokutnici. Kako se na osi ordinata nalazi aritrneticko mjerilo, a osnovice su pravokutnika jednake, to razlike povrsina, odnosno visina pravokutnika pokazuju apsolutne razlike usporedenih frekvencija. Linijski grafikon intervalnog vremenskog niza nastaje spajanjem tocaka cije su koordinate danesredinama vremenskih razdoblja i frekvencijama, Vremenska razdoblja naznacena su u aritmetickom mjerilu na osi apscisa, dok je na osi ordinata aritmetlcko mjerilo za frekvencije. Intenzitet prornjena
Zavrseni stanovi u Hrvatsko]
! 0-
r-....
r-
1\
,.-r-,.
20
r-~
26-·
1\
1\
i
I
lS
Csp. J. C. G. Boot and E. B. Box (1970). Statistical Analysis for Managerial Decisions. \;cw York: MacGraw-HiII, str. 444. rjraficki prikazi vrernenskih serija sastavni su dio mnogih .statistickih program~ zn ~"~lInalo. Im a i specijaliziranih proizvoda poznatih rod nazrvorn »poslovna grafl~.a" ·~nosno »staristicka grafika«, U njima su znatno zastupljeni prikazi vrernenskih senJa: . ()\uje se opisuje konstrukcija nekih od njih radi cjelovirosti ud.i.benika. Ci!alac maze taj ·;;n preskociti i prijeci na druga poglavlja,
'fff .:;;;.'
'i~":~ .
',"-,
22-, 10 2:";
<2'
...
!-_
.,.",.
143
pojave odrazava se na strminamalinija, a razlike ordinata dviju tocaka predstavIjaju apsolutne razlike frekvencija. Intervalni niz: broj zavrsenih stanova u Hrvatskoj u periodu 1980-1989, prikazan je povrsinskim i linijskim grafikonom. Frekvencije trenutacnog vremenskog niza predstavljaju stanja pojava u odabranim vremenskim trenucima, Zbog toga se grafilki prikazuju linijskim dijagramom. Grafikon je smjesten u pravokutni koordinatni sustav s aritmetickim mjerilima na osima. Na horizontalnoj osi oznaci se polozaj tocaka za koje su vezane frekvencije, a na osi ordlnata aritmetieko mjerilo za frekvencije. Zatim se ucrtaju dufine usporedne 5 osi ordinata, kojima su donje rubne tocke odgovarajuce vremenske tocke na osi apscisa, a gornje su rubne toeke odredene velicinom frekvencije. Altemativno, linijski grafikon konstruira se spajanjem tocaka s apscisama, koje odgovaraju trenucima vremena, dok su ordinate ovisne 0 velicini frekvencija. Buduci da trenutacni vremenski niz nema svojstvo kumulativnosti, frekvencije niza s razlicitim udaljenostima vremenskih tocaka nije potrebno korigirati, Linijskirn grafikonom 3.3. prikazan je trenutacni vremenski niz zaposlenog osoblja u ugostiteljstvu u Hrvatskoj u razdoblju 1983-1989, stanje 30.09. 2ele Ii se istaknuti relativne promjene, upotrijebit ce se za prikaz serije polulogaritamski grafikon. Konstruira se u pravokutnom koordinatnorn sustavu. Na osi apscisa je aritmeticko mjerilo za vrijeme, a na osi ordinata logaritamsko mjerilo za frekvencije. U logaritamskom mjerilu logaritrni brojeva prikazani su odredenim dufinama. To se mjerilo konstruira tako da se odabere jedinicna
Zaposleno osoblje IL ugostiteljstvu Hrvatske Stanje 30.09.
8<oi taposter;h lu IisuCQII'QI
115 110
Registrirana osobna vozda Brq l>IlIomobiia [u tisu,;cuoo1 1000 950 IlOO 7CO
600 SOl
IL
Hrvatskoj
,..
./
....-
f"
V
100
lzvor: SGH-91,
SIr.
Grafikon 3.4.
74.
95
90
V
I
I
I
I
Il1ll
1ge1..
II
1~,
llJe6,
1'l61,
19ffi,
duzi.na, koja se podijeli na dijelove proporcionalne velicinarna logaritama brojeva od jedan do deset. Jedinicnom dui.inorn je predstavljen jedan ciklus mjerila. Jednim ciklusom obuhvaceni su brojevi u rasponu od 1: 10. Svaki ciklus ima donju i gornju granicu. Donja granica je bilo koji broj veci od nule, a gomja je granica deset puta veca od donje. Osnovno je svojstvo logaritamskog mjerila sto su jednaki omjeri predstavljeni jednakim duzinarna. Zbog toga se logaritamsko mjerilo duz~nski dijeli uvijek na isti nacin, bez obzira na danu vrijednost donje i gornje gramce. Broj upotrijebljenih ciklusa ovisi 0 odnosu najrnanje i najvece frekvencije. Ako je ornjer najvece i najmanje frekvencije manji iii jednak deset, primijenit ee se jedan ciklus. Niz u kojem je ornjer najvece i najrnanje frekvencije izmedu 101 2 i 10 prikazat ce se pomocu dva ciklusa itd. Polulogaritamski grafikon je linijski grafikon, Nastaje spajanjem tocaka, cije su koordinate dane vrijednostima varijable vrijeme prikazanim u aritrnetickom mjerilu na osi apscisa i frekvencijama prema logaritarnskom rnjerilu na osi ordinata. Strmine linija pokazuju intenzitet rela:ivnih pr~mjena frekvencija u odabranim razdobljirna. To je razumljivo jer razlika logantama predstavlja omjer (relativni broj). S obzirom na navedeno svojstvo nije potrebno prekidati grafikon, jer se neiskoristeni dio rnjerila moze jednostavno izostaviti, Grafikonorn 3.4. prikazan je trenutacni vremenski niz registriranih osobnih vozila u .~~atskoj u p~riodu 1971-1990, sa stanjern potkraj godine. Najrnanja frek,:,~nclJa Je 223, a najveca 796 tisuca, Ornjer najvece i najmanje frekvencije je rnanjt ad deset, pa je za prikaz iskoristen jedan ciklus logaritamskog mjerila na osi ordinata. Grafikonom se cesto usporeduje vise vremenskih nizova, Da bi se usporedila dva niza iii vise njih grafikonorn s aritrnetickim mjerilima na objem osima
145
lisuCattol
staro.o.
---....
,
30 25
10
--...
3S 30
<,
IS
-----
I
19119.
h
1990.
Oruilveno
Itlasnistvo
PrivuIm vicsl>St ••
Izvor: SGH-91, str. 251. Grafikon 3.6. Dosad opisani graficki prikazi konstruirani su u pravokutnom sustavu. Ako vremenski niz ima sezonsko obiljeije, i1ustrativan je prikaz tog niza polarnim dijagramom. Mreza tog grafikona nastaje ovako: kroz proizvoljno odabranu tocku (ishodiste) polofi se dvanaest duzina (radij-vektora, ako je u pitanju prikaz vremenskog niza mjesecnih podataka). Kut izmedu njih je trideset stupnjeva. Uvoz i izvoz Hrvatske
(u
potrebno je da su im frekvencije izraiene u istim mjernim jedinicama ida izmedu frekvencija ne postoje suvise velike brojcane razlike. Istodobni prikaz vise ad tri niza moze biti nepregledan. Ako su ispunjeni spomenuti uvjeti, za graficki prikaz primijene se visestruki stupci iii Iinijski grafikon. Graficki je usporeden prijevoz robe zeljeznicom i cestovni prijevoz u Hrvatskoj u periodu 1985-1990. Predstavljaju Ii vremenske serije dijeJove jedne pojave, za graficki prikaz prikladni su strukturni stupei. Strukturnim stupcima prikazano je kretanje broja zavrsenih stanova u Hrvatskoj u periodu 1980-1989, i to po sektorima viasnistva, Stupac predstavlja ukupan broj, a njegovi dijelovi frekvencije po vlasnistvu, Kada se pokazuje saldo-pojava, graficki je prikaz ilustrativan unatoc mogucim vecirn razlikama frekvencija, Za primjer je uzet prikaz izvoza i uvoza Hrvatske u periodu 1981-1990. L'sporedba vremenskih nizova cije su frekvencije na izrazito razlicitim razinama nije efikasna grafikonom s aritmetickim mjerilorn. Isto se odnosi na vrernenske nizove u kojima su frekvencije izrazene u razlicitirn mjernim j~~inicarna. L' takvirn slucajevima potrebno je koristiti se polulogaritamskim grafikonom, jer u takvu gralikonu razlike ordinata (strmine linijskih segmenata) govore 0 relet:. nirn promjcn.uuu. U tabeli 3.1. navedeni su nizovi proizvodnje elektroenergije ~ prerade nafte u Hrvatskoj. Pojave su izrazene u razlicitim mjernim .icdin.carna, pa je usporedba provedena grafikonom s logaritamskim mjerilom na o~i (;:;;nala.
60
mi{~jun1ma
dlnaro)
so
40
30
20
10
.. :
BM 6Il00
..... ........
... 1-' ...... ---
.. --~--,,"
--19B7.
- ....___
,M
Z500 ZOCO 1500
1000
----
p«>ol1lOOrjaeleklrwnerg;je
p.-oizYOilIl)Q plona
Grafieki prikazi omogucavaju stjecanje osnovne slike 0 dinamici jedne pojave iii vise njih. Premda se programima za raeunalo u okviru grafickih paketa pruiaju velike rnogucnosti zakljucivanja 0 razvoju pojava u vremenu, ipak uz graficku analizu u golemom broju slucajeva valja u pravilu provesti i brojcanu analizu. Brojcana analiza vremenske serije odnosi se na elementarne pokazatelje. U podrueje brojcane analize pripada i konkretizacija model a zasnovana na standardnoj dekompoziciji serije, kao i ona koja se odnosi na druge modele. Ovdje ce se najprije predociti veoma jednostavni pokazatelji dinamike (relativni brojevi). Slijede modeli na osnovi standardne dekompozicije, kao i sazet opis autokorelacijske funkcije i autoregresijskog modela.
2000
I
198t..
1911i 1ge6.
I
1989_
1\'&.
lzvor: SGH-90, str. 117, SGH - 91, str. 227. Graflkon 3.7.
Potom se na jedan radij-vektor naznaci aritmeticko mjerilo za frekvencije niza i nacrtaju koncentricni krugovi koji prolaze markantnirn tockama mjerila. ~adij-vektori dijele krug na dvanaest jednakih sektora, svaki sektor za jedan mjesec, Polarni dijagram nastaje spajanjem tocaka kojirna je polozaj odreden sredinom sektora za intervalni niz, a udaljenost od ishodista ovisi 0 velicini frekvencije i odabranog aritmetiekog mjerila. Sezonska se pojava moze promatrati kvartalno. Polarni dijagram konstruira se na prije opisan nacin, a ~azlik~ je u ra7diobi ~a cenri sektora. Polarnim dijagramom prikazana su nocenja tunsta u prirnorskirn
mjestima,
X
Polami
dijagram
XI
(3.3)
Promjene su izrazene u istim mjemim jedinicama kao i frekvencije, Izraz (3.3) pokazuje za koliko se apsolutno promijenila razina pojave u vremenu I prema vrernenu r - 1. Za vremenski niz od n clanova ima (n - 1) prvih diferencija. Korisnu informaciju ponekad prufa prosjeina prva diferencija. Izracunava se tako da se diferencije zbroje i podijele brojem diferencija, tj.: 1--j'-HIH--+-+---3 ..
--;;Fm---rl;m----.:i'iYl-;d:y..---~ broi noe.nja
u tisi,Jl:afI'IQ
n-l
(3.4)
Grafikon 3.8.
Prosjecna prva diferencija odreduje se pomocu posljednje i prve frekvencije, a frekvencije izrnedu njih ne utjecu na velicinu prosjeka. Zbog toga taj pokazatelj ima analiticku vrijednost ako su prve diferencije istih predznaka i ako izmedu njih ne postoje velike brojcane razlike. 149
Ako su prve diferencije frekvencija vremenskog niza priblizno jednake, ta cinjenica pokazuje da je osnovna tendencija razvoja linearna (linearni trend). Nairne, prve diferencije vrijednosti line arne funkcije za jednake promjene vrijednosti nezavisne varijabJe u apsolutnom iznosu su jednake, pa ce funkcijavrernena u modelu trenda biti linearna. Prosjeenom prvom diferencijom procjenjuje se vrijednost koeficijenta uz varijablu vrijeme (koeficijent smjera pravca koji predoCava linearni trend). Opisane mjere prornjena ovise 0 mjernim jedinicama i velicini frekvencija, zbog toga nisu uvijek prikladne za donosenje sudova 0 razvoju pojave. Njima se istodobno ne mogu usporedivati varijacije raznorodnih pojava. Uz mjere promjena ovisnih 0 mjernim jedinicama i velicinama clanova niza, primjenjuju se relativne mjere, koje nemaju spomenutih nedostataka. Tako se definira i prva relativna diferencija:
S,
Prosjecna
s = (G -l)HlO,
gdje je:
G=
(n-II ,---
Kako su koeficijenti dinamike omjeri uzastopnih trijsku sredinu rnoze se pisati ovako:
(n-Il
G=
Yl
== y,-
Y,-l
Y,-I 100 ,
t = 23 ,
,... ,n.
(3.5)
Prva relativna diferencija (3.5) se naziva pojedinacna stopa promjene. Stopa promjene je omjer prve diferencije frekvencija 6.y, i frekvencije razdoblja (t- 1) pomnozen sa sto. Stopa (3.5) pokazuje za koliko se postotaka promijenila razina pojave u vremenu t u odnosu na prethodni period. Stopa se moze pisati i na sljedece nacine:
Yn_
Yl
s,»
odnosno:
(..lL-1)100,
Y'-I
UzimajuCi u obzir izraz za geometrijsku sredinu, prosjecna se stopa da izraziti formulom: (3.6)
S,= (1',-1)100,
iii :
v,=...1!_, Y,-l
s,=
V,-100,
gdje je v, koeficijent dinamike u uzastopnim razdobljima, a V, verizni indeks. Pojedinacne stope aproksimiraju' se pomocu prvih diferencija prirodnih logaritama uzastopnih frekvencija: s, = 6.ln J,100 = (In y, -In Y,_I) 100. Za niz od n frekvencija ima (n ~ 1) stopa. Prosjecna stopa promjene odreduje se pornocu geometrijske sredine koeficijenta dinamike. Koeficijenti dinarnike primjenjuju se pri racunanju umjesto stopa, jer su to, za razliku od stopa, uvijek pozitivni brojevi.
Do tog se rezultata dolazi s razvajem funkcije In I' U Taylarov red u okolinl l' = 1 i zanernarivanjern drugih i vi~ih clallava. Slaganje stopa izracunanih pornocu prvih diferencija prirodnih logaritarna i onih izracunanih pornocu (3,5) dabro je za koeficijentc uzastopnih promjena manje ad 1.15. Ako su koeficijenti veci ad 1.15. razlike mogu biti
znacajne,
Umjesto originalnih frekvencija (posljednje i prve u nizu) za odredivanje prosjecne stope promjene mogu se prirnijeniti posljednji i prvi indeks na stalnoj bazi, pri cemu nije vafno koje je bazno razdoblje posrijedi. To je i razurnljivo jer su indeksi na stalnoj bazi upravno proporcionalni s originalnim frekvencijarna, Bez obzira na koji se nacin odredila prosjecna stopa, u njenom se racunanju upotrebljavaju sarno dvije frekvencije: posljednjeg i prvog razdoblja, dok frekvencije izmedu ta dva krajnja razdoblja ne utjecu na velicinu prosjecne stope. Prema tome, prosjecna stopa ce biti dobar reprezentant niza pojedinacnih stopa sarno ako te posljednje ne ocitu]u vel ike brojcane varijacije iii, sro je isto, ako su koeficijenti dinamike u uzastopnim razdobljima pribliino konstantni. Stope promjena, kao i prve diferencije, mogu biti veee od nule, jednake nuli i manje od nule, ovisno 0 velicini uzastopnih frekvencija. Stope za dani niz promjenljive su velicine, Ako su u nekom slucaju priblizno konstantne, prisutan je eksponencijalni trend. Postojana stopa govori da se pojava od razdoblja do razdoblja mijenja za priblizno isti relativni iznos. Svojstvo je eksponencijalne funkcije da se za istu promjenu vrijednosti argumenta vrijednost funkcije mijenja za isti relativni iznos. Stoga je razumljivo da ce u tom slucaju funkcija vrernena u modelu trenda biti eksponencijalna. Umjesto prvih diferencija i prvih relativnih diferencija u nekim se slucajevima primjenjuju i diferencije visega reda. Diferencije drugog reda definiraju se izrazom:
151
•,
"jl/",",.,>,
•.
,..••.••
: •••••
\ •• '
.....
~ ..
..
Analogno se dolazi i do diferencija visega reda, Droge diferencije predstav- . ljaju promjene promjena u uzastopnim razdobljima. Tumacen]e diferencija visega reda je otezano, Diferencije (apsolutne i relativne), na sto je vee upozoreno, mogu . poslufiti i kao pomocno sredstvo za identifikaciju nekih oblika modela trenda. Podaci za ilustrativni primjer odredivanja i tumaeenja prvih diferencija i stopa navedeni su u tabeli 3.3.
Tabela 3 3 Drustveni proizvod Hrvatske , po stalnirn cijenama 1972. godine Godina Drustveni proizvod piferencije uOOOdin. Y,
1
S obzirom na to da je s = (G - 1)100, geometri jska je sredina 0.99941. Prosjecna stopa je negativna i tumaei se ovako: u razdoblju 1981. do 1989. drustveni proizvod Hrvatske smanjivao se u prosjeku za 0.06% godisnje. Dakako da i ta prosjecna velieina nije reprezentativna s obzirom na obiljezja pojedinacnih stopa. Usporeduje Ii se razina pojave tekuceg razdoblja t s razinom pojave razdoblja b, razIike u razinama pojave usporedivanih razdoblja utvrdivat ce se izrazom: (3.7)
Relativna
Koeficijenti dinamike
v,
Diferencije uodnosu na 1981. god. 6,r; 6 0 -131 -283 -76 -62 213 203 108 -47
it
6y, 3
si
8
-131
-1.31
U navedenim izrazima y, je frekvencija tekueeg razdoblja, Yb je frekvencija baznog razdoblja, i, je koeficijent promjena u odnosu prema fiksnoj bazi. Razlike (3.7) izrazene su u mjemim jedinicama vrijednosti frekvencija niza, a relativne razIike (3.8) u postotku odstupanja od velieine baznog razdoblja. Oba pokazatelja mogu biti veca od nule, manja od nule i jednaka nuli, ovisno 0 velicini frekvencija. Spomenuti pokazatelji su izracunani za podatke u tabeli 3.3. Za bazno je razdoblje uzeta 1981. godina, pa je bazna frekvencija 9997. Razlike izmedu te frekvencije i ostalih u nizu govore 0 razlikama u velicini drustvenog proizvoda razdoblja t i njegove velicine u 1981. godini. Stope u odnosu na 1981. godinu su relativni izraz tih razlika. Osnovna analiza dinamike pornocu navedenlh pokazatelja dii se prosiriti na nizova. Ako se uzme da ih je K, promjene u uzastopnim razdobljima jesu:
dva iii viie razlicitih'
Izvor: Statisticki godisnjak Republike Hrvatske, 1991, str. 67. Promjene velicine drustvenog proizvoda u uzastopnim razdobljima racunane su oduzimanjem druge frekvencije od prve, trece od druge itd. Prosjecna je prva diferencija: .1.y == Yn - Yl == 9950 - 9997 n-1 8' .1.y =
_ 5.875.
Izracunana prosjecna diferencija pokazuje da se drustveni proizvod uzastopnim razdobljima smanjivao u prosjeku za 5.875 milijardi dinara, Oeito u tom slucaju izracunana velicina nerna analiticku vrijednost, jer su uzastopne promjene razlicitog predznaka i vrlo varijabilne. Koeficijenti dinarnike su ornjeri uzastopnih frekvencija, a stope pokazuju relativne promjene drustvenog proizvoda u uzastopnim razdobljima. Nekima je predznak negativan, sto upucuje na zakljucak 0 padu drustvenog proizvoda tekuceg razdoblja U odnosu na njegovu velicinu u prethodnom razdoblju, Stopa od -1.53 pokazuje da je drustveni proizvod Hrvatske 1989. bio za 1.53% manji u odnosu na 1988. godinu. Drustveni proizvod 1986. bio je za 2.77% veci u odnosu na drustveni proizvod prethodne godine. Prosjecna stopa promjene drustvenog proizvoda za dane podatke najlakse se odreduje pomocu izraza (3.6):
(3.9)
- Yj'- Yb'-l
Yi.t-I
100
(3.10)
s==(
152
(0-11,/-
r~:-l)lOO=(
9-
\!9950
r~-l
100= -0.05889.
Diferencije (3.9) odnose se na nizove s razlicitim mjernim jedinicama iii istim mjernim jedinicama, ali s razlicitim rasponima varijacije, pa se mogu upotrijebiti za analizu pojedinacnih nizova. Ako su izvorne serije dane po redovima tabele (vrijeme u zaglavlju, a nazivi u pretkoloni), citanje tabele je horizontal no. Diferencij a AYf' predstavlja iznos promjene frekvencija j-te serije u vremenu t prema vremenu (I - 1). Stope (3.10) mogu se usporedivati po redovima i stupcima tabele jer ne ovise 0 mjernim jedinicama. Stope u odabranom redu (varijabla vrijerne u zaglavlju) pokazuju relativne promjene u uzastopnim razdobljima za jednu seriju. Stope u odabranom stupeu govore 0 razlikama frekvencija u vrernenu ( prema vremenu (1- 1) za svaku seriju u skupini. 153
Istodobno apsolutnom i
se takoder
relativnorn
rnoze analizirati vise vremenskih serija! pri eemu se u iznosu mjere promjene tekuceg razdoblja u odnosu na
0
fiksno, bazno razdobl]e. U tabeli 3.4. nalaze se podaci i za njih ce se utvrditi stopepromjena.
turizmu
u Hrvatskoj.
.'
Tabela
sadrfi
.. tn mza,
i koeficijenti uzastopnih promjena v. Zbog toga se stopa promjene s, utvrduje tako da se od veriZnog indeksa V, oduzme sto. Verifoi indeksi vrlo su prikJadni relativni brojevi za elementarnu analizu dinamike jednog niza i za usporedbu vge raznorodnih nizova.
.;
Tabela 3.4. Ukupan broj lefajeva, broj turista i ukupan broj nocenja
SIOp~'
. Grafikon verifnih indeksa razlikuje se od standardnog linijskog grafikona. Baznu liniju predstavlja linija 100. Na toj liniji nalazi se aritmeticko mjerilo za vrijeme, a na osi ordinata aritrnetieko mjerilo za indekse. Indeksi se prikazuju duzinama, koje se sarnostalno oslanjaju na baznu liniju, i eiji nagib ovisi 0 vellcini 90/89
8
1987. 2 Broj lezajeva (000) Turisti (u 000) Nocenja, ukupno (mil.) 886 10487 68.2
89/88
7
indeksa,
Drugu vrstu cine indeksi no stalnoj bazi. Njima se promatraju varijacije clanova vrernenskog niza u odnosu na clan niza odabranog razdoblja i to u relativnom iznosu. Ako se sa Yb oznaei bazna veliCina, vrijednosti:
Yb predstavljaju
Izvor: Statistieki godi~njak Republike Hrvatske, 1991, str. 79. Jedinice mjere i rasponi varijacije nizova u tabeli.su.razliciti,. ~a}e usporedb~ dinarnike stopama za vise nizova prikladna. Stope vanraju po v~liclm: Poznav~oci tog podrucja lako ce objasniti negativne predznake stopa za mzove I razdoblja u tabeli. bli U deskriptivnostatistickoj analizi vremenske serije veoma se testo upotre ~~vaju relativni brojevi, koji se nazivaju indeksnim brojevima. ~ao sto ce se kasnije pokazati, iz indeksnih brojeva izvode se i opisane stope prornjene.
(3.12)
Indeksi na stalnoj bazi dobivaju se tako da se svaka frekvencija niza podijeli baznom frekvencijorn i omjer pomnoZi sa sto, Buduci da se frekvencije niza dijele istim brojem, indeksi na stalnoj bazi proporcionalni su velicinama iz kojih su izracunani, Zbog toga se s njima u odredenirn postupcima rnoze operirati kao da se radi S originalnim podacima. Indeksi na stalnoj bazi uvijek su pozitivni brojevi. Oni su jednaki sto, veci iii manji od sto, ovisno 0 frekvencijama danog i baznog razdoblja. lndeks na stalnoj bazi jednostavno se tumaci: indeks I, pokazuje koliko jedinica pojave u vremenu I dolazi na svakih sto jedinica pojave u razdoblju b. Prvi korak u konstrukciji tih indeksa sastoji se u izboru baznog razdoblja, odnosno u izboru baze relativnog broja. Ako zbog posebnih razloga unaprijed nije odabrano razdoblje prema kojern se usporeduje (npr. prva godina karakteristicnog perioda razvoja), za bazno razdoblje treba odabrati one koje je sa stajalista nastanka pojave »normalno«, Za bazu indeksa mofe se umjesto frekvencije niza odabrati i neka druga velicina, primjerice aritmetieka sredina frekvencija iii neka druga vrijednost. U tom slucaju tumacenje indeksa nije tako neposredno kao kada je njegova baza jedna od frekvencija niza, Indeksi na stalnoj bazi ornogucavaju jednostavno odredivanje vrijednosti s i, tj, stopa promjena prema fiksnom razdoblju. Do njih se dode ako se od indeksa oduzme sto. Indeksi na stalnoj bazi prikazuju se povrsinskirn iii Iinijskim grafikonom. Razlika u prikazu indeksa i originalnog niza je u baznoj liniji: u prikazu indeksa pravokutnici se oslanjaju na baznu Iiniju, liniju 100, 5tO nije slucaj s linijskim grafikonorn niza. Verizni indeksi i indeksi na stalnoj bazi izracunani su za podatke u tabeli 3.5. Verizni indeksi nastali su diobom uzastopnih frekvencija i rnnozenjem omjera sa 100, dok su pripadajuce stope jednake razlici veriznlh indeksa i sto. Indeks 155
YJ -1 00,.... , Y2
..l!!_ 100
)'.-1
predstavlia]u
verizne
\'erizni indeksi uvijek su pozitivni brojevi, a rnogu biti sto. veci od sto.ili m~nji oct sto, ovisno 0 velicini uzastopnih frekvencija. Verizni indeks V, pokazuJe koliko jedinica pojave u vrernenu t dolazi na svakih 100 [edlnica poj.av~ u ~remenu ~~- 1). lz definicije veriznih indeksa lako je zakljueiti da oni pruzaju iste inforrnacije kao
I-;-i
Tabela 3.5. Proizvodnja psenice u Hrvatskoj Godina Proizvodnja uOOOt y, 1 1984_ 1985_ 1986. 1987. 1988_ 1989_ 1990. 2 1361 1130 1078 1274 1434 1288 1602 Verizni indeksi V, 3 83_03 95.40 118.18 112.56 89.82 124.38 Stope
S,
Indeksi 0=100
1\ll
5 100_00 83.03 79_21 93.61 105.36 94.64 117.71
s;
6 0 -16.97 -20.79 -6.39 5.36 -5.36 17.71
11
2)
....
00 7a
<,
II
/
/
'\
1\
19116. 1!11!7. I.
"
11$ \9'JO. IndeksO ptO'zvcdnj. pOena u Republici fhatskoj 1\981.:1001
1984. lWli
proizvodnje psenice za 1986_ iznosi 95.40 i tumaci se ovako: na svakih 100 jedinica proizvodnje u 1985_ dolazilo je 95_40 jedinica u 1986. godini iIi 4.60% manje. Indeks 124.38 pokazuje da je na svakih sto jedinica proizvodnje psenice 1989. dolazilo 124.38 jedinica 1990. ili 24.38% vise, kolika [e i stopa za tu godinu. Indeksi na stalnoj bazi racunani su diobom svake frekvencije baznom frekvencijom 1361, frekvencijom razdoblja 1984, a potorn je omjer pomnozen sa sto. Indeks za 1987. iznosi 93.61 i pokazuje da je na svakih sto proizvedenih jedinica 1984. dolazilo 93.61 jedinica proizvodnje 1987. iIi 6.39% rnanje. Indeks za 1990. iznosi 117.71, pa je na svakih sto proizvedenih jedinica 1984. dolazilo 117.71 jedinica 1990. iii 17_71% vise, Prosjeena godisnja proizvodnja psenice u Hrvatskoj u navedenom sedmogodisnjem razdoblju iznosila je 1309.57 tisuca (aritrneticka sredina). Osim navedenih, izracunani su indeksi s bazom jednakoj aritmetickoj sredini: sve su frekvencije podijeljene prosjekom i potom pomnozene sa sto. Interpretacija indeksa 109.50 za 1988. je ova: na svakih sto jedinica prosjecne sedmogodisnje proizvodnje dolazilo je 1988. godine 109.50 jedinica iii 9.50% vise od prosjeka. Radi ispravnog tumacenja indeksa uvijek je nuzno navoditi vremenska razdoblja razine kojih se usporeduju indeksom, Verizni indeksi prikazani su grafikonom 3.9.a, stope grafikonom 3_9.b, indeksi na stalnoj bazi grafikonom 3_9_c. V praksi se ponekad javlja pot reba pretvaranja veriznih indeksa u indekse na stalnoj bazi, ili indeksa na stalnoj bazi u verizne, zatim promjena baze indeksa. U nekim slucajevirna rekonstruira se originalni niz koristeci se jednom vrijednoseu frekvencije itd. Veriini indeksi pretvaraja se u indekse no stalno] bazi postupkom postupnog mnaienja koeficijenta dinamike u uzastopnim razdobljima, Postupak rezultira indeksima s baznim prvim razdobljem. Izraz za tu pretvorbu je: 100,
1,= {
t=
130
o
" \0 f-20 "30
LJ
'---
nl
(bl
1/
\
LA
1985.
11166.
1987. promjen>
I.
(In!mO ~
II
\989: 1m.
nudoblju
80
I\"
~ J
19116. \967.
V
\991).
11'61. \985.
1988. 1989.
(c)
Grafikon 3.9.
. Verizni !ndek~i ~ogu s~ pretvarati u indekse na stalnoj bazi vezanoj za bilo koje razdoblje, pnrnjenorn izraza: lOO, t =b I, =
1,+1 , t < b
V'+I 1,_1 VI>
(3_14)
> b.
.~':: ..
. U izrazu (3.14) b predstavlja izabrano bazno razdoblje. Za t = b indeks je jednak 100. ~ndeks vezan za razdoblje koje prethodi baznom razdoblju dobiva se t~ko ~a s~ indeks na .stalnoj ba.zi sljedece~ razdoblja podijeli koeficijentom dinamike istog razdobl]a ., Indeksi na stalnoj bazi vezani za razdoblja nakon odabrano.g.baznog ra.~doblJ3 dobivaju se postupkom postupnog mnozenja, Razlicire operacqe provode se i nad individualnirn indeksima na Sl I . b . Indeksi tI .b . . a no! az!. 1 na s a nOJ aZIpretvaraju se u verizne indekse ili im se mijenja baza, Kako
b=1 (3.13)
,J.-'
150
157
su indeksi na stalnoj bazi upravno proporcionalni originainim ~lanovima niza, s njima se postupa kao da se radi 0 izvornim vrijednostima. Indeksi na stain oj bazi pretvaraju se u veriine tako da se indeks tekuceg razdoblja dijeli prethodnim, a. ' potom omjer pomnofi sa sto, tj.: V'=-l I,
Tabela 3.7. Postupci s indeksom na stalnoj bazi; indeksi proizvodnje televizijskih prijamnika u Hrvatsko]
"
Godina
,-I
Verizni
indeksi
V,
Proizvodnja uOOOkom. y, 5 34 30
(3.15)
1 1985. 1986. 1987. 1988. 1989. 1990.
Ii
4 100.00 88.24 82.35 88.24 73.53 55.88
Pri pretvorbi nije bitno koje je razdoblje. ~azno. rn~eksi n~. s~a.lnoj bazi preracunavaju se na drugu bazu tako da se svaki indeks u mzu podijeli indeksom novog baznog razdoblja, a zatim omjer pornnozi sa sto, odnosno:
2 136 120
10:-; 1111
t; =
:i
100.
(3.16)
In)
30 25 19
Ovdje su I, polazni indeksi, b" je novo bazno razdoblje, dok su Ii indeksi na novoj, prornijenjenoj bazi. . .. Raspolaze Ii se nizom veriznih indeksa ili nizom indeksa na stalnoj bazi 1 jednim od originalnih clanova niza, moguce je rekonstruirati originalni niz : Postupak je jednostavan: treba ustanoviti u kojem je indeksu sadrzan ra.spolozivi podatak, a zatim, koristeci se definicijskom formulom indeksa, postupno izracunavati vrijednosti preostalih frekvencija. U tabeli 3.6. nalaze se rezultati za ilustrativni primjer postupaka s veriznim indeksima.
Tabela 3.6. Postupci s verimim indeksima proizvodnje deterdzenata Godina Veriini indeksi V, Koeficijenti uzastopnih promjena
v,
100 76
u Hrvatsko] Proizvodnja deterdzenata uOOOt y, 6 113 115 120 132 142 1110 I
IP]
4 100.00 101.77 106.20 116.81 125.66 97.35 1991, str. 229.
If]
5 79.58 80.99 84.51 92.96 100.00 77.~"
1
1985. 1986. 1987. 1988. 1989. 1990.
1985 = 100 racunanl su dijeljenjem indeksa na bazi 1989 = 100 sa 136 i mnozenjem omjera sa 100. Proizvodnja televizora 1987. iznosila je 27 tisuca komada. Indeks 1989 = 100 za tu godinu iznosi 108. Pomoeu dane frekvencije i indeksa koji nju sadrfi dolazi se do velicine baze (frekvencije 1989). Na temelju baze i odgovarajucih indeksa izracunane su velicine frekvencija za navedena razdoblja. U osnovnoj analizi dinamike ponekad se istodobno promatra nekoliko indeksa. Tako npr. ako se analizira dinamika rnjesecnih prornjena, racuna se indeks kojemu je baza prosjek prethodne godine, zatirn onaj prosjek kojemu je baza isti mjesec prethodne godine (Indeks razina). U omjer se stavljaju i kumulativne razine do ukljucivo tekuceg mjeseca s kumulativnom razinom istog perioda prosle godine i sl. U tabeli 3.8. navedene su razlicite vrste mjesecnih indeksa.
Tabela 3.8. Razlicite vrste mjesecnih indeksa Djelatnost Indeksi prosjeenih nominalnih placa prema isplatarna u Hrvatskoj X.1986. X.1985. privredna neprivredna Ukupno 206.9 216.9 208.5 X.1986. IX. 1986. 117.9 111.8 116.9 I-X. 1986. I-X. 1985. 205.5 210.1 206.3 I-X. 1986. 01985. 191.9 194.5 192.3
Verizni indeksi pretvoreni su u indekse na stalnoj bazi, bazno razdoblje je 1985. godina, postupkom postupnog rnnozenja. Pornocu veriznih indeksa. primj~nom izraza (3.14) dobiveni su indeksi na stalnoj bazi 1989 = 100. Proizvodnja deterdzenata iznosila je 1990. godine UO tisuca tooa. To je frekvencija Y6 i sadrzana je u veriznom indeksu V6. Pornocu danih podataka izracunava se frckvencija Ys i druge frekvenci]e analognim postupkorn. Rezultati postupaka s indeksima na stalnoj bazi prikazani su u tabeli 3.7. Verii:ni indeksi izracunani su diobom indeksa na stalnoj bazi u vrernenu t s indcksorn u vremenu (/- 1) i mnoi:enjem omjera sa 100. lndeksi na stalnoj bazi
prornjena.
Individualni indeksi veoma su prikladni relativni brojevi kojima se analizira dinarnika pojave. Jednostavno se racunaju i lako turnace.
159
Pri izracunavanju skupnih indeksa polazi se od pretpostavke da se u skupini nalazi k pojava. Relativne promjene prate se u dva razdobija od kojih je jedno bazno i oznaceno kao nuIto razdobije ili se radi 0 pracenju u nizu vremenskih razdoblja. Pri tome se u principu polazi od vrijednosno izrazenih velicina. Vrijednosti su produkt cijena i kolicina, Kollcine se u vremenu t oznacavaju sa:
a odgovarajuce cijene:
PIIt P2J, ... , Pi" .. ., Pk,·
Vrijednost je zbroj produkata kolicina i cijena. Pornnoze Ii se kolicine u vremenu t cijenama u vremenu I, doci ce se do vrijednosti u vremenu t. Simbolicki:
qllPl,
1-1
L q"p".
Kolicine se mogu rnnoziti cijenama razlicitih razdoblja. Ako se npr. mnoze kolieine razdoblja I cijenama baznog razdoblja oznacenog sa 0, vrijednost ce biti zbroj ovih umnozaka:
ql,PIO + q'llP20 + ...
Skupni indeksi su veoma vazno analiticko sredstvo za pracen]e privrednih kretanja na razini poduzeca i na rnakroekonomskoj razini, Oni se pojavljuju s razlicitim nazivima, ali je uvijek rijee 0 skupntm indeksima cijena, skupnim indeksima kolidna i skupnom indeksu vrijednosti.
•• ,
.t - 1 2
t
, ••
"
U prethodnom izrazu PiI je cijena i-tog npr. proizvoda u vremenu tog proizvoda u baznom razdoblju,
I, a Pro
cijena
Navedeni indeksi cijena tumace se kao indeksi na stalnoj bazi. Ako se odredi jednostavna aritmeticka sredina indeksa cijena, doci ce se do pokazatelja promjena cijena za skupinu. Jednostavna je sredina indeksa cijena:
P" 100
Alternativno, skupni indeks cijena moze se definirati kao nevagani indeks omjera zbroja cijena tekuceg i baznog razdoblja pornnozenog sa sto, tj.:
161
[(pI = -k-
;:::11
z Pir
k
100.
};, I PKI ~'= Nedostatak je nevaganog skupnog indeksa sto u njernu svaka cijena ima jednak ponder. Nade Ii se u skupini neka cijena na vrlo visokoj razini, ona ee dominirati i povuci indeks na visoku razinu, pa izracunana vrijednost nece biti dobar pokazatelj dinamike za skupinu, Zbog toga se umjesto nevaganog primjenjuje vagani skupni indeks. Ponder pojedine cijene u skupini ovisi u njezinu znacenju. Pomnozi Ii se pojedinacna cijena proizvoda kolicinorn tog proizvoda, dobit ce se vrijednost, koja ce upozoravati na znacenje cijene u skupini. Prema tome, kolieine dijelova na koje se odnose jedinicne cijene su sredstvo za utvrdivanje pondera. Kako se varijacije cijena i kolicina promatraju za n razdoblja, prije racunanja indeksa potrebno je odrediti pomocu kojih ce se kolicina provesti postupak ponderiranja, Ako se ponderi cijena odreduju pomoca kolitina baznog razdoblja, doci ce se do Laspeyresova indeksa cijena. Indeks cijena Paaschea formira se ponderiranjem ciiena koliiinama tekuceg razdoblja. Laspeyresov indeks cijena dan je sljedecim izrazom:
vremena ne mijenjaju znaeajno, U tom se slucaju formira ponderacijska lista. Zbog prakticnih razloga obieno se uzima da je zbroj pondera 100, 10000 iii druga brojcano prikladna velieina, a ponderi iz ponderacijske liste primjenjuju se za obracun indeksa za vi~e razdoblja. .'_. a razliku od Laspeyresova indeksa cijena, Paascheov indeks cijena temelji Z se na ponderiranju cijena kolicinarna tekueeg razdoblja, Dok su ponderi Laspeyresoya indeksa stalni, ponderi Paascheova indeksa cijena revidiraju se za svaki period za koji se racuna taj indeks, Zbog toga nije moguta izravna usporedba indeksnih brojeva vezanih za razlicita razdoblja. Skupni indeks cijena Paaschea dan je ovako:
.Lli,qi'
Po.(q,) =-':--100, i~lPiOqi' (3.20) je agregatni oblik Paascheova indeksa cijena. Indeks se moze izaziti kao vagana sredina individualnib indeksa cijena pomocu izraza:
l=
1,2,... ,11.
(3.20)
ic I --:k---
± p~ l00W"
PiO
LWi, ;= I
t= 1,2,... ,n.
(3.21)
Iz navedenog je izraza vidljivo da se ponderiranje cijena provodi nepromijenjenim kolicinama baznog razdoblja. Prema tome, skupni indeks eijena pokazuje prosjecnu promjenu cijena skupine pojava u vremenu r u odnosu na bazno razdoblje. Formula (3.17) je agregatni oblik Laspeyresova indeksa cijena, Alternativno se taj indeks moze pisati u obliku vagane aritmeticke sredine individualnik indeksa cijena, tj.:
Ponderi Wit produkti su cijena baznog razdoblja i kolicina tekuceg razdoblja iii njima proporcionalne velicine, Ako su ponderi vrijednosti kolicina tekuceg razdoblja izrazeni cijenama baznog razdoblja, Paascheov indeks cijena postaje:
t Pi, L -1 00 PiOqi,
Po,(q,) =
i=1
Pro
k
'
t=
1,2,... ,n.
(3.22)
Po.(qo)
i=1
i~IPiOqi'
Pi'100WiO
PiO
LWiO i"CI1
'
(3.18)
izraza:
I Paascheov indeks mjeri prosjecnu promjenu cijena za skupinu pojava, jer su za mjerenje promjene cijena u dva odabrana razdoblja ponderi obracunani na osnovi fiksnih kolicina. Brojcane vrijednosti Laspeyresova i Paascheova indeksa cijena se razlikuju. Posljedica je to razlika u sadrzaju indeksa. Laspeyresov indeks eijena govori 0 prosjecnoj relativnoj prornjeni cijena skupine pojava uz nepromijenjene kolicine baznog razdoblja, odnosno neprornijenjene strukturne odnose tog razdoblja. Paascheov indeks pokazuje kolika je prosjecna prornjena cijena ako se polazi od fiksiranih kolicina tekuceg razdoblja, I jedan i drugi indeks mjere promjene cijena, jer se kolicine drze neprornijenjenim. Specificnu sintezu' tih dvaju indeksa cim
Atribur »idealan« pot jete od svojstva tog indeksa. U teoriji indeksa postoji ~esl testova l. Fishera kojima se opisuju odnosno testiraju svojstva indeksa. Indeks cijena kao geometrijska sredina osnovnih tipova indeksa zadovoljava teorijske kriterije kakvoce indeksa. Vidjeti 0 lome, R. G. Allen (1975). Index Numbers in Theory and Practice London: Macxfilan.
(3.19)
Oblici (3.17) i (3.19) ekvivalentni suo U (3.19) ponderi su vrijednosti baznog razdoblja. Ponderi WI1l u (3.18) za neke se skupine pojava u odredenom rasponu
163
!F~~~'~'~' -,J
---"'~-',.: ·~.~~i,~~~~;_ .
.. -'..
,'.'
Fisherov idealni indeks cijena. Fisherov indeks cijena [e geometrijska _, Laspeyresova i Paascheova indeksa, Taj indeks safima svojstva obaju indeksa, ali" njegovo turnacenje nije jednostavno. -Izracenavanie i tumacenje skupnih indeksa cijena ilustrirat ce se primjerom. Podaci za taj primjer navedeni su u tabeli 3.9. i odnose se na proizvodnju triju ' proizvoda A, B i C. Proizvodnja proizvoda A izrazena je u komadima, proizvoda B u tonama, a proizvoda C u kvadratnim metrima. Proizvodnja je dana po godinama razdoblja 1988 - 1991. Za svaku godinu dane su prosjecne cijene po
jedinici mjere.
indeksu prosjeean porast cijena svih triju proizvoda zajedno u 1989. godini prema 1988. iznosio je 60.49%, ito polazeci od proizvodnje (kolicina) baznog razdoblja. Indeks je izracunan prema izrazu (3.17). Po spomenutoj formuli i na spomenuti nacin racunaju se i tumace Laspeyresovi indeksi za ostala razdoblja, Do is tog bi se rezultata doslo pomocu ponderirane sredine individualnih indeksa cijena s ponderima koji odrazavaju strukturu vrijednosti baznog razdoblja. Paascheovi indeksi cijena takoder su navedeni u tabeli 3.10. Izracunani su prema izrazu (3.20). Paascheov indeks cijena za 1990. godinu iznosi 189.13. Cijene svih proizvoda zajedno povecale su se u prosjeku za 89.13 % u odnosu na 1988. godinu, polazeci od opsega proizvodnje (kolicina) u 1990. godini. Skupne indekse cijena u pravilu konstruiraju i objavljuju statistieki zavodi, i to na temelju prikupljenih podataka iz raznih podrucja privredne djelatnosti, Taka npr. indeksi cijena proizvodaca industrijskilt proizvoda izracunavaju se u Republici Hrvatskoj na osnovi podataka 0 cijenama prikupljenih od 270 poduzeca iz 33 grane industrije za oko 350 industrijskih proizvoda. Cijene proizvodaca poljoprivrednih proizvoda prate se za 53 proizvoda. Podaci 0 cijenama na malo prikupljaju se u 12 gradova Republike, i to 347 artikala i 94 vrsta usluga. Indeksi ciiena ugostiteljskih usluga, hrane, pica i prenodsta evidentiraju se u 21 gradu, odnosno u 32 hotela, 29 restorana, 6 ekspres-restorana, a obuhvacaju 63 vrste usluga. Skupni indeksi su Laspeyresova tipa i izracunavaju se kao vagana sredina individualnih . indeksa cijena, Ponderi su u odredenim razdobljima fiksni i dani u ponderacijskoj Iisti. Ponderacijske se liste povremeno.uskladuju s nastalim strukturnimm prornjenama. Medu skupnim indeksirna' vazno mjesto zauzirna indeks troskova iivola. Zadaca je tog indeksa da pruzi uvid u kretanje troskova zivota potrosackih jedinica. Potrosnju elm golem broj proizvoda i usluga. Ona se mijenja s vremenom, a razlicita je za razlicite potrosacke jedinice. Konstrukcija tog indeksa je zarnrsena, a u praksi se u nas prate cijene uzorka proizvoda i usluga i uzorka odabranog tipa potrosackih jedinica (cetveroclana nepoljoprivredna kucanstva). Odabrani proizvodi i usluge uvrsteni su u indeksnu listu. Lista obuhvaca 319 artikala i 62 vrste usluga. Grupiranje u listi je provedeno prema namjeni potrosnje te na robu i usluge. I ovdje se Iista povremeno mijenja u skladu s nastalim promjenama u strukturi potrosnje. Sam indeks izracunava se kao Laspeyresov indeks cijena u obliku vagane sredine individualnih indeksa cijena. Indivldualni indeksi su omjeri prosjecnih cijena u tekucem razdoblju i prosjecnih cijena u baznom razdoblju, Ponded se preuzimaju iz ponderacijske liste. Pri tumacenju indeksa troskova zivota potrebno je voditi racuna da je taj pokazatelj nastao na osnovi ogranicenog broja informacija 0 potrosnji odabranog tipa potrosackih jedinica, pa zbog toga nije opci pokazatelj dinamike cijena roba i usluga.
Tabela 3.9. Proizvodnja proizvoda A, B i C prodajne cijene po jedinici Proizvodnja proizvoda Godina A B
q'll
•.
Jif;.
W!-,'
c,_
ql'
1 1988. 1989. 1990. 1991. 2 516 937 679 934
q31
4 11 27 32 17
Da bi se dobio pokazatelj promjena cijena za sva tri proizvoda po godinama navedenog razdoblja, valja izracunati vrijednosti skupnih indeksa. Za bazno razdoblje uzet se godina 1988. Skupni indeksi cijena izracunani kao aritrneticke sredine individual nih indeksa (nevagane sredine) jesu: 100 za 1988, 155.04 za 1989, 187.01 za 1990. i 182.89 za 1991. Nevagane sredine kao omjeri zbrojeva cijena tekuceg i baznog razdoblja pomnozenih sa sto za navedene godine jesu: 100, 153.10, 182.48, 179.78. Laspeyresovi i Paascheovi indeksi cijena s baznirn razdobljem 1988. dani su u tabeli 3.10.
ce
-~,~.
Tabela 3.10. Skupni indeksi cijena, skupni indeksi kolicina i vrijednosti Laspeyresovi indeksi Godina cijena POt (qo) 2 1988_ 1989. 1990. 1991. Prvi skupni 100.00 160.49 192.36 188.44 indeks cijena kolicina QOt(Po) 3 100.00 138.16 124.53 172.82 Paascheovi indeksi cijena POr(q,) 4 100.00 155.82 189.13 177.63 kolieina QOr(P,) 5 100.00 134.14 122.44 162.91 Indeksi vrijednosti VOl 6 100.00 215.28 235_52 306.98
iznosi 100, jer je za bazno razdoblje uzeta godina tipa za 1989. iznosi 160.49. Prema tom
Indeksi cijena vazni su pokazatelji u analizi burzovnog poslovanja. Irna ih velik broj. Medu najpoznatijim su Dow Jonesovi prosjeci. To su indeksi cijena vrijednosnih papira na burzi u New Yorku. Dow Jonesov indeks za industriju zasniva se na praeenju promjena vrijednosti dionica 30 najznacajnijih poduzeca, Indeks je vagana sredina cijena, a ponderi iz liste pondera povremeno se revidiraju u skladu s promjenarna polozaja poduzeca. DJ indeks se ne povezuje s nekim razdobljern kao baznim. Na slican nacin konstruiraju se i indeksi Financial Timesa za burzu u Londonu i Nikkei za burzu u Tokyju, 165
.. -~'-.~If '.. .
Iz agregatnog oblika vidJjivo je da se mjere promjene fiziekog obujma, jer su . cijene nepromijenjene. U formuli (3.24) W;o su ponderi. Ako su ponderi vrijednosti baznog razdoblja (koliCine baznog razdoblja pomnozene cijenama istog razdoblja), spomenuti izraz postaje:
QIl<(Po)
i-I
L -lOOq.opiO
qiO
k
qit
1=
(3.25)
i~lqi!lPI:)
,n,
Ponderi WiOu (3.25) mogu se zarnijeniti velicinama proporcionalnim vrijednostima baznog razdoblja. Lista pondera upotrebljava se za obracun indeksa u vise razdoblja. .
Paascheov indeks koliiina (agregatni oblik} definira se izrazom:
k ,bl k
.Lq"Pi'
QIl<(P,) =
100.
1=
.L ,e 1q1JPU
Altemativno kao vagana sredina individualnih.
(3.26)
Qo,(P,) =
i=1
indeksa kolicina:
1=
2: Wit i=l
(3.27)
Uzme Ii se da su ponderi vrijednosti kolicina obracunane po cijenama treceg razdoblja, indeks (3.27) postaje:
Qo,(p,) (3.23)
iel
± !l.!!..lOOql:)pit q;o
i •
(3.28)
;~lqiOP~
Qo,(Po)
i= 1
,t=1,2,
.... n,
(3.24)
LWm i= I
Simbol Qo, oznacava skupni indeks kolicina razdoblja I, dok je 0 oznaka baznog razdoblja 10. U zagradi Pi) govori da se ponderiranje kolicina provodi polazeci od cijena baznog razdoblja.
Laspeyresov indeks kolicina pokazuje za koliko se u prosjeku relativno mijenja vrijednost fizickog obujma heterogene skupine pojava uslijed promjena kolicina pojedinih pojava uz nepromijenjene cijene baznog razdoblja. Paascheovim indeksom kolicina izrazava se prosjecna relativna promjena kolicina skupine pojava zbog promjena kolicina pojedinih pojava u skupini, polazeci od strukture vrijednosti obracunaae po cijenama tekuceg razdoblja. Ni u jednom indeksu ne dolazi do izrazaja varijabilnost cijena, jer su one stalne. Brojcane vrijednosti Laspeyresova i Paascheova indeksa medusobno se razlikuju, jer prvi polazi od strukrurnih odnosa vrijednosti u baznom, a drugi u tekucern ra.zdoblju. Na temelju tih dvaju indeksa izracunava se Fisherov indeks kolicina, i to kao njihova geometrijska sredina.
167
U tabeli 3.10. izracunani su Laspeyresovi i Paascheovi skupni indeksi kolicina, : Laspeyresov skupni indeks kolicina za 1990. iznosi 124.53. Prema tom indeksu . proizvodnja se u 1990. koiicinski povecala u prosjeku za 24.53% u odnosu na 1988. godinu, i to polazeci od strukture vrijednosti bazne (1988) godine. Paascheov indeks za istu godinu iznosi 122.44. Ako se uzme U obzir struktura proizvodnje baznog razdoblja obracunana po cijenama 1990. kolicinski se proizvodnja u'1990. u odnosu na 1988. povecala u prosjeku za 22.44%. Skupni indeksi' kolicina javljaju se s razlicitirn imenima. Ima ih velik broj. Gotovo je uvijek rijec 0 Laspeyresovu tipu indeksa. Tako se npr. indeks industrijske proizvodnje primjenjuje za prikaz dinamike fizickog obujma proizvodnje industrijskih poduzeca i neindustrijskih poduzeca koja proizvode industrijske proizvode, Kao vagana sredina indeksa racuna se kolicina s ponderima navedenim u ponderacijskoj !isti. Ponderacijski faktori odnose se na industrijske grane i industrijske proizvode. Ovise 0 znacenju jednog u odnosu na druge proizvode u skupini, odnosno jedne grane U odnosu na druge. Korekture ponderacijskog sustava provo de se svake godine na temelju zakljucnih racuna poduzeea i posebnih anketa. Indeksi Jizilkog obujma poljoprivredne proizvodnje izracunava ju se na temelju podataka 0 proizvodnji 73 poljoprivredna proizvoda. Indeks je vagana sredina individualnih indeksa kolicina, a ponderi se obraeunavaju na osnovi trogodisnjih pornicnih prosjeka cijena proizvodaca.
vrijednosti
je produktu Laspeyresova indeksa cijena i Paascheova indeksa skupni indeks vrijednosti jednak je produktu Laspeyresova indeksa kolidna i Paascheova indeksa cijena. Uzmu li se indeksi nemnozenl sa sto, simbolieki je odnos indeksa dan formulama: jednak
VOl = Qo.(Po)
pOr(qa
(3.30)
;",,1
'Lp.q. U
k
II
Vor=
(3.29)
;~JP;oqiO
U brojniku izraza (3.29) nalazi se vrijednost razdoblja t za skupinu od k pojava (zbroj umnozaka kolicina i cijena razdoblja t), a u nazivniku je vrijednost baznog razdoblja. Na temelju definicijskog izraza skupnih indeksa cijena i kolicina, te skupnog indeksa vrijednosti, lako se moze uociti njihov medusobni odnos. Skupni indeks Svi podaci 0 skupnim indeksima cijena i skupnim indeksima kolieina za Republiku Hrvatsku preuzeti su iz Statistickog godisnjaka Republike Hrvatske za 1991, poglavlje ~ rnetodoloskim objasnjenjirna, SIr. 21-52.
•
,.
I~
.I~:
Tabela 3.11. Pro met u trgovini na malo u tisucarna i indeksi cijena na malo u Hrvatskoj Godina 1 1986. 1987. 1988. 1989. 1990. Promei U tekucim cijenama 2 240544 510764 1482981 16829162 109942553 Indeksi cijena 3 100.0 220.6 663.0 8606.0 61059.6 Indeksi prometa 4 100.00 212.34 616.51 6996.29 45705.80
SIr. .. ,~,
.fr·
Iz (3.30) izlazi da je Laspeyresov indeks kolieina jednak omjeru indeksa vrijednosti i Paascheova indeksa cijena. Iz navedenih jednadzbi moze se odrediti nepoznati indeks ako su poznata dva. Pomocu podataka u tabeli 3.9. izracunani su indeksi vrijednosti proizvodnje triju proizvoda i oni se nalaze II tabeli 3.10. Do istih se rezultata dolazi mnofenjem odgovarajucih skupnih indeksa kolicina i cijena. Indeks vrijednosti za 1991. iznosi 306.98. Vrijednost proizvodnje povecala se u 1991. u odnosu na 1988. godinu (bazna godina) za 206.98%. Ta promjena nastala je pod utjecajem promjene obujma proizvodnje i promjena eijena. Vrijednosti izrazene pomocu cijena tekuceg razdoblja nazivaju se nominalnim vrijednostima. Ako cijene u vremenu nisu postojane, sto je u pravilu gotovo u svakoj privredi, prosudba stvarnog razvoja pojave u vremenu nije moguca na osnovi vrijednosti izrazenih u tekucim cijenama. Da bi se uocila stvarna dinamika, treba odstraniti utjecaj promjena cijena na vrijednosno izrazene pojave. Taj se postupak naziva deflacionlranje. Ono se provodi diobom nominalnih vrijednosti s odgovarajucirn indeksom cijena nemnoienim sa sto. Indeks cijena u tom postupku naziva se deflacijskim indeksom ill deflatorom. Izbor deflacijskog indeksa ovisi 0 danom slucaju. Tako npr. deflacijski indeks prometa u trgovini na malo mora biti indeks cijena u trgovini na malo. S tim se indeksom ne moze deflacionirati narodni dohodak, Izbor i konstrukcija deflatora su zarnrseni i zahtijevaju dobro poznavanje pojave i statisticke metodologije. Postupak deflacioniranja ilustrirat ce se najprije za podatke a prometu u trgovini na malo. Podaci i rezultati su dani u tabeli 3.11.
prornera
6 100.00 96.25 92.99 81.30 74.85
169
vrije~~.ost tih ~aterijala poveeat ce se za 10%, iIi, sto je isto, pomnofiti koeflClJe~tom dinarnike 1.10. Revalorizacija ukalkuliranih placa provest ce se . p'omoe~ indeksa troskova zivota iii indeksa promjene nominalnih plata. .... Osim .navedenih postoje i druge mnogobrojne primjene individualnih i skupnih indeksa u analizi narodne privrede i poslovanja poduzeca, Indeksi se takoder primjenjuju umjesto originalnih frekvencija u razlicitim statisticko-analilii':kim postupcima.
Tabela 3.12. Prosjecne rnjesecne place zaposlenih u privredi i indeks troskova zivota Godina 1 1987. 1988. 1989. 1990. Prosjecna placa 2 18 51 793 4506 Indeks troskova ~ivota 3 2.6 7.7 100.0 694.1 Realna placa 4 692.31 662.34 793.00 649.19 Indeksi nominalnih plaea 5 2.27 6.43 100.00 568.22 Indeksi realnih placa 6 87.30 83.52 100.00 81.84
Deflacioniranjem se nominalne vrijednosti pretvaraju u druge vrijednosti izrazene u stalnim cijenama. Ponekad se vrijednosti za niz razdoblja daju u stalnim cijenama, cljenarna jednoga vremenskog razdoblja. Takve vrijednosti zbog razlicitih razloga treba uskladiti s nastalim. promjenama cijena. Primjerice, vrijednosti osnovnih sredstava daju se u nabavnim cijenama, vrijednosti gradevinskih radova izraeunane su prema cijenama u vremenu sklapanja ugovora itd. Uocavanje stvarnih vrijednosti u tekucern vremenu nije moguce ako se cijene mijenjaju. Postupak uskladivanja vrijednosti s nastalirn promjenama cijena naziva se revalorizacija i ima suprotnu zadacu od postupka deflacioniranja, Revalorizacija se provodi rnnozenjern vrijednosti u stalnim cijenama odgovarajucirn ihdeksima cijeria nemnozenim sa sto ili pornocu propisanih koeficijenata, kao sro je slucaj s osnovnim sredstvirna. Revalorizacijski indeksi u gradevinarstvu Cine »klizrui skalu« a predstavljaju ih skupni indeksi cijena te djelatnosti, Aka je npr. pri obracunu vrijednosti gradevinskih materijala bazni mjesec travanj 1991, a skupni indeks cijena gradevinskih materijala za mjesec svibanj te godine 110, ugovorna
170
.~.-.
_.-;;.;'
(3.35) V~=~100. Y Statisticki opis pojave bez sisternatskih komponenti svodi se na odredivanje aritmeticke sredine frekvencija. Standardna devijacija kao mjera rasipanja pokazuje koliko je prosjecno odstupanje frekvencija niza od aritmeticke sredine u apsolutnom iznosu, a koeficijent varijacije koliko je to u relativnom iznosu. Da bi model (3.31) bio adekvatan za opis niza, nuzno je da rezidualna odstupanja, odnosno razlike frekvencija i aritrneticke sredine ne variraju u vremenu na sistematski nacin, tj. da se ne ocituje autokorelacija. Vremenski niz broja teretnih brodova u Hrvatskoj dan je u tabeli 3.13.
Tabela 3.13. Teretni brodovi u pomorskoj floti Hrvatske, stanje krajem razdoblja
y,= ~ + u"
1981. 1982. 1983. 1984. 1985. 1986. 1987. 1988. 1989. 1990. 225 216 220 223 224 220 224 220 225 217
U izrazu (3.31) y, su vrijednosti niza (frekvencije), I.l je nepoznata konstanta, dok su u, nepoznate vrijednosti varijable u, koja predstavlja nesistematske varijacije i uvjetuje statisticko ponasanje vrijednosti niza. Kada bi svaka vrijednost te varijable bila jednaka 0, svaka bi vrijednost serije bila jednaka konstanti, a model (3.31) ne bi bio statisticki. Prepoznavanje pojave koja bi se mogla opisati modelom (3.31) ponekad izlazi iz kvalitativne analize, grafickog prikaza iii varijacija vrijednosti pokazatelja dinamike. Osim toga, postoji vise postupaka pomocu kojih se ispituje prikladnost primjene spomenutog modela, Prihvati li se model (3.31) kao adekvatan za dani slucaj, njegova se deskriptivnostatisticka analiza sastoji u ocjeni nepoznatog para metra !J. i drugih statistickih pokazatelja. Ocjena tog parametra metodom najmanjih kvadrata jednaka je aritrnetickoj sredini frekvencija, tj.:
p.=y,
5'=-;-,
1=1
fy,
(3.32)
Aritmeticka sredina frekvencija (odnosno ocjena pararnetra J.l) iznosi 221.4, standardna je devijacija 3.105, dok je koeficijent varijacije 1.4%. Aritmetickom sredinom dobro se predstavlja niz, jer su odstupanja od nje mala. Zaokruze Ii se rezultati na cijeli bro] mjesta, tumace se kako slijedi: prosjetni gcdisnji broj brodova u razdoblju 1981-1990. iznosio je 221 s prosjecnim odstupanjem od 3 broda, odnosno 1%. Niz u tabeli je trenutacni, a kako su vremenske tocke jednako udaljene, primijenjena je jednostavna sredina. Uzme Ii se da frekvencije prestavljaju uzorak iz nekog zarnisljenog osnovnog skupa, aritmeticka sredina niza je ocjena parametra !J. jednim brojem. Primjenom odgovarajucih postupaka u okviru metode uzoraka formirat ce se interval procjene tog parametra. Upotrijebljeni model za analizu pojave bez sistematskih komponenti je aditivnog tipa. Ako su slucajne varijacije oko para metra J.l postojane u relativnom iznosu, upotrijebit ce se multiplikativni oblik: y,=~E,. Predoceni model analizirat ce se na isti nacin kao prethodno llnearizira logaritamskom transformacijorn.
:.~"""
:t.;r
y,= y,
t=
(3.33)
Reprezentativnost modela (prosjeka) prosuduje se pornocu varijance, standardne devijacije i koeficijenta varijacije. Varijanca je prosjecan zbroj kvadrata odstupanja vrijednosti frekvencija od aritmeticke sredine frekvencija. Standardna dcvijacija je korijen iz varijance, a dana je izrazom:
aditivni, posto se
3.4.2. Trend-modeli
Izvorni vremenski nizovi koji predstavljaju pojave u poslovanju poduzeca i privrednim djelatnostirna rijetko su postojanih razina U vrernenu. Velik ih broj sadrzi trend. Trend predstavlja osnovnu razvojnu tendencij u pojave Predocava se nekom funkcijom vremena. Ako se pretpostavi da ne postoje perioc.cna kretanja, aditivni je model vrernenske pojave s trendom ovog oblika:
173
·:1'
(3.34)
cok jc koeficijent varijacije:
",'
,,'.
y= f(X)
+ u.
, " " .
Ovdje je Y vremenska pojava, f(X) neka nepoznata funkcija vremena pomocu koje se izrazava opci tok pojave u vremenu, a u predstavlja slucajnu velicinu, Prisutnost velicine u je razumljiva, jer se varijacije ekonomskih pojava ne mogu opisati iskljucivo pornocu funkeije vremena, naime, na njih djeluju mnogobrojni nesistematski faktori. Ekonomske vremenske pojave medusobno se razlikuju po obliku osnovne varijacije, pa ce se i obliei funkcija vremena f(X) u (3.36) razlikovati. Premda teorijski postoji golem broj takvih funkcija, u praksi se primjenjuje manji broj njih. Najcesce se primjenjuju funkcije vremena dane u obliku standardnog, eksponencijalnog iii reciprocnog polinoma. Za pojave koje se s vremenom priblifavaju razini zasicenja, primijenit ce se odredene asimptotske funkeije. Izbor funkcije vrernena u modelu iIi, sto je isto , u trend-modelu, provodi se ad slucaja do slucaja na prije spomenute nacine.
a=y-bi.
(3.40)
",
Pojednostavljenje postupka ocjene parametara postize se centriranjem variiable vrijeme. Varijabla vrijeme centrira se tako da se izrazi u odstupanjima od aritmetieke sredine. S obzirom na to da je zbroj odstupanja vrijednosti varijable od njezine aritmeticke sredine jednak nuli, sustav normalnih [ednadzbi je lakse rjesiv, jer je konstantni clan u modelu s transformiranom varijablom vrijeme jednak aritmetickoj sredini frekvencija, a izraz za koeficijent uz varijablu vrijeme postaje jednostavniji, Varijabla vrijeme transformira se ovako:
x, -x , -<f.!NT 2
'-'")/'1'
_n
..::
x= ,
;~
{ 2(x, - i),
"2 = INT.
(3.41)
3.4.2.1. Trend-polinom
Ako se u opcem stupnja: aditivnom modelu
=a
uzme da je funkcija
vremena
polinom
K-tog
"I'~
",
U (3.41) INT oznacava »cijeli broj«, Ocito je n/2 eijeli broj ako je broj clanova niza paran, a nije cijeli broj ako je n neparan. Formula za koeficijent
uz
transformiranu
varijablu
je:
.;-
f(X)
za vrernenski
":,
niz od n clanova
(3.37)
(3.42)
U navedenom rnodelu: y, su frekveneije vremenskog niza, X je varijabla vrijerne, a dogovorno ona poprima vrijednost prvih n prirodnih brojeva, tj. x, = I = 1,2, ... ,n; a, bi, j = 1.2 •...• K su nepoznati parametri; K je stupanj polinoma, K < n; u, su nepoznate vrijednosti varijable u, Model trend-polinorna K-tog stupnja jednak je modelu regresijskog polinoma (2.61), pa se i analizira opisanim metodama regresijske analize. Ulogu regresorske varijable Xu trend-modelu ima varijabla vrijeme. Ako je K = 1. model trend-polinoma svodi se na model jednostavne linearne regresije: .1', = Model
(I
Ocjene parametara u rnodelu s originalnim vrijednostima dobivene na temelju modela s eentriranom varijablom jesu:
varijable
vrijeme
(3.43)
dok je
+ bx. + II,.
trend-polinoma prvog stupnja (3.38) uobicajeno se naziva modelom linearnog trenda jer je njegov deterrninisticki dio linearna funkcija vremena. Model linearnog trenda primijenit ce se za opis vrernenske pojave, koja se od razdoblja do razdoblja mijenja za priblizno isti apsolutni iznos. Model linearnog trenda analizira se na isti nacin kao i model [ednostavne linearne regresije. Model s oeijenjenim parametrima je:
a=Y_b(n;I).
dobivaju se uvrstavanjem vrijednosti
parametrima. Trend-vrijednosti: b x, varijable vrijeme u
'.~
jednadzbu s ocijenjenim
'.;.,
y,=a+
y
Izrazi za ocjene 17.; para me tara metodom
== a
+ b x.
kvadrata jesu:
(3.39)
isto su 5tO i regresijske vrijednosti, Predstavljaju procjenu razine pojave prema trendu. Konstantni clan a je vrijednost trenda za razdobJje koje prerhodi prvom.
b je koeficijent trend-vrijednosti uz varijablu vrijerne. Taj koeficijent pokazuje kolika je promjena aka se varijabla vrijerne poveca za jedan. Buduci da linearni trend
najrnanjih
175
b se moze tumaciti i kao iznos prosjecne linearne promjene razine pojave za jedinicno povecanje varijable vrijeme. Da bi se utvrdila reprezentativnost trenda, poci ce se od elemenata za analizu varijance. Varijanca, a time i standardna devijacija trenda, odreduje se pomocu rezidualnog zbroja kvadrata [neprotumacenog zbroja kvadrata). Standardna devijacija trenda je drugi korijen iz prosjecnog zbroja kvadrata odstupanja frekvencija niza od trend-vrijednosti. Izraz za standardnu devijaciju linearnog trenda je:
ima svojstva lineame regresije,
'~I
Tabela 3.14. Osigurane osobe, korisnici mirovina u Hrvatskoj Godina Broj korisnika Varijabla vrijeme x, 3 1 2 3 4 5 6 7 8 36 Transformirana varijabla vrijeme Trend-vrijednosti
«oeo
y, 2
x,y,
4 494.5 1036.0 1631.1 2267.2 2936.5 3667.2 4437.3 5264.0 21733.8
x, 5 -7 -5 -3 -1 1 3 5 7 0
x~
6
x,y,
7
p,
8 495.550 518.729 541.907 565.086 588.264 611.443 634.621 657.800 4613.400
(y, - y,)2 n
0,=
odnosno:
49 -3461.5 25 -2590.0 9 -1631.1 1 -566.8 1 587.3 1833.6 9 3169.5 25 49 4606.0 168 1947.0
Oy=
(3.44)
Standardna devijacija trend a pokazuje koliko je prosjecno odstupanje ernpirijskih frekvencija niza ad trend-vrijednosti. Standardna devijacija je izrazena u mjernim jedinicama frekvencija, Relativna mjera disperzije je koeficijent varijacije trenda. Definira se izrazorn:
.~I. *.
...
.:~:
Ukupno
Izvor: Statisticki godisnjak Republike Hrvatske, 1991, str. 352. 21733.8 - 8 . 4.5·576.675 204 - 8 . 4.52 je clan: 973.5
:~~l
~.,,;,~.
,L,~:
Vj=~
100.
(3.45)
Brojcane vrijednosti za odredivanje varijance i standardne devijacije trenda nalaze se u tabeli analize varijance, koja ima isti sadrzaj kao i za model jednostavne linearne regresije. Tretira Ii se trend u okviru inferencijalne statistike, ocjena varijance odnosno standardne devijacije u izlazima obrade dobiva se navedenim izrazirna, s torn razlikorn sto se za djeljitelj uzima broj stupnjeva
slobode (n-2). Pored navedenih mjera rasipanja, u analizi trenda i opcenito u analizi vremenskih serija primjenjuje se i prosjecno apsolutno odstupanje frekvencija niza od trend-vrijednosti. Ta je mjera disperzije dana kako slijedi:
I
. .
~·
="""'"42"'
4.5,
b = 23.17857.
Konstantni
a = 576.675
trenda
- 23.17857·
a = 472.37144.
parametrima glasi:
Jednadzba Iinearnog
s ocijenjenim
.~~
:~:
y = 472.37144 + 23.17857 x
x = 1, 31. 12. 1983. ledinica za x je jedna godina. Jedinica za y je tisuca osiguranika.
Ispod jednadfbe
,tly,-y,1
MAD=----
x, = 2(x, - 4.5).
(3.46) Velicina b" je prema (3.42):
Postupak analize Iinearnog trenda odnosi se na vremenski niz korisnika mirovina u Hrvatskcj, stanje krajem godine. Podaci i medurezultati su dani u tabeli 3.14. Aritmeticka sredina varijable vrijeme je i' = + 1)/2 = 4.5, dok je aritmeticka sredina frekvencija y = 576.675. Zbroj kvadrata vrijednosti varijable vrijeme
b"
1947.0 168
= 11589286 .
en
..'~;:.
brojeva, b je:
n = 8) iznosi:
,=!
i x; =.!. n (n + 1) (2n + 1) = 6
2Q4. Prema
(3.40) koeficijent
pa je b = 2b *, b = 23.17857. Konstantni clan a je izacunan kao u prethodnom postupku. U jednadzbi linearnog trenda vrijednost konstantnog clana a = 472.37144 predstavlja trend-vrijednost za 1982. godinu (razdoblje koje prerhodi prvom razdoblj u za koje je vrijednost varijable vrijeme jednaka 0). Koeficijent b pokazuje da se trend-vrijednost broja korisnika mirovina u navedenom periodu povecavala linearno za 23.17857 tisuca. Alternativno, u navedenorn periodu broj 177
osiguranika korisnika mirovina povecavao se prosjecno linearno godisnje za 23.17857 tisuca. Da bi se ocijenila reprezentativnost lineamog trenda, izracunaai su zbrojevi kvadrata: ~ (y, _ y)l
1=
88' 1
= 22573.675,
f=l
~ (y,- y)2
= 22564.339,
Iml
~ (y,- y,)2
= 9.336.
Model parabolicnog trenda jednak je modelu regresijskog polinoma drugoga stupnja i analizira se na isti nacin kao spomenuti model. Nepoznati parametri . ocjenjuju se metodom najmanjih kvadrata, a same su ocjene rjesenje sustava normalnih jednadfbi (2.63). . JednadZba parabolicnog trenda s ocijenjenim parametrima predocava se u ovom obliku:
y = a + b1x + bzxz.
Ispod jednadzbe trenda stavljaju se iste oznake kao i kod linearnog trenda. Numericki postupak rjesavanja sustava narmalnih jednadzbi se ubrzava aka se umjesto originalnih vrijednosti varijable vrijeme upotrijebe transfarmirane vrijednosti oblika (3.41). U tom slucaju izraz (2.63) postaje: (3.48)
bj
Prema (3.44) standardna devijacija trenda iznosi OJ = 1.0828, a koeficijent varijacije trenda Vj = 0.19%. .. Prosjecno odstupanje broja osiguranika korisnlka mirovina od trend-vrijednosti iznosi 1.0828 tisuca iii 0.19%, sto govori 0 dobraj reprezentativnosti trenda. Usporedbom stvamih frekvencija niza s trend vrijednostima, uocit ce se male razlike, sto se i moze ocekivati s obzirom na to da je linearni trend dobar reprezentant razvoja u analiziranom periodu. Niz je prikazan grafikonom 3.10. i u grafikon je ucrtana linija trenda. Za primjenu modela lineamog trend a ~ol:ui se.o~ pretpost~v~e da se pojava mijenja u uzastopnim razdobljima za priblizno Ish apsolutni ~nos .. Ako su promjene promjena po jedinici vremena priblifno jednake, umjesto hnearnog primijenit ce se parabolicni trend. Druge diferenci!e vrijednosti poli.~oma drugoga stupnja su konstantne, pa je to razlog njegova izbora kao funkcije vrernena u modelu trenda. ModeL trend-polinoma drugog stupnja je za seriju od n clanova: (3.47)
Osigurane osobe, korisnici mirovina u Hrvatsko]
,=1
Jednadzba trenda u kojoj je pocetna vrijednost jednaka jedan dobije se tako da se u obzir uzme izraz za transformaciju varijable vrijeme. Ako je n neparan, ureduje se jednadzba:
y=a$ +bi
a aka je n paran:
n+ (X--2-
1) +b~ (
X--
n-+ 2
1)2,
(3.49.a)
ru·iiS~~=ra
100 65 0
y=
(3.49.b)
600
so
500
_#
rj#'
V
19B1.. ~
11'
L."..o V'
J!l
Osim ocjena parametara utvrduju se i druge velicine, kao sto su trend-vrijednosti, rezidualna odstupanja, standardna devijacija i koeficijent varijacije. Metode izracunavanja spomenutih i drugih pokazatelja odreduju se na isti nacin kao i za model polinomne regresije. Tako je standardna devijacija dana izrazorn:
r= I
i y~ -
1=
± y, - b ± x,y, - b
j J
1=
1=
i x~y,
J
OJ
(3.50)
50
1983.
I I I III
1'l66.
1987.
1968.
III
1989.
1990.
U brojniku izraza ispod korijena je rezidualni zbroj kvadrata , koji se uobicajeno nalazi u standardnoj tabeli ANOYA. Omjer standardne devijacije i aritrneticke sredine frekvencija predstavlja koeficijent varijacije trend-polinorna drugog stupnja. Model rrend-polino rna drugog stupnja prirnijenit ce se u analizi prorneta putnika u javnom cestovnorn prometu u Hrvatskoj. Podaci i dio rnedurezultata dani su u tabeli 3.15. 179
Tabela 3.15. Prevezeni putnici u javnom putnickorn cestovnorn prometu u Hrvatskoj Godina
~= 145.38182 + 12.85245 x -
1.12937 x
!Brojputnika
u rnilijunima
Varijabla vrijeme
,x,
Centrirana varijabla
-
vrijeme r,
4 -5
-4
Trend-vrijednosti
Rezidualna odstupanja u, 6 2.895 -1.569 -2.775 -1.722 4.590 -3.839 0.9902 0.07832 3.425 Om017 -2.105 0
Relativna rezidulana odstupanja u~ ret, 7 1.809 --0.9510 -1.623 --0.9727 2.468 -2.157 0;5471 0.0445 1.980 0.0191 -1.422
y, 1 1980. 1981. 1982. 1983. 1984. 1985. 1986. 1987. 1988. 1989. 1990. Ukupno 2 165 171 177 186 178 181 176 173 161 148 1876
y,
5 157.105 166.569 173.775 178.722 181.410 181.839 180.010 175.922 169.575 160.969 150.105 1876.000
3 1 2 3 4 5 6 7 8 9 10 11 66
Na temelju dobivene jednadzbe trenda izracunane su trend-vrijednosti, rezidualna odstupanja i relativna rezidualna odstupanja. Usporedbom stvamih frekvencija i trend-vrijednosti uo15itce se relativno male razlike, Zbroj kvadrata odstupanja frekvencija od njihove aritmetieke sredine iznosi ST= 1222.7271, zbroj kvadrata protumaeen modelom iznosi SP 1148.2600, dok je rezidualni zbroj kvadrata SR = 74.4671. Standardna devijacija trenda je:
160
-3 -2 -1 0 1 2 3 4 5 0
k (y, - 5',)2
Oy=
'~l
='
y74 4671 11
,o~=2.60187.
Koeficijent varijacije je VJ = 1.53%. Prema tome, prosjecno odstupanje broja prevezenih putnika od trend-vrijednosti iznosi 2.6 milijuna ili 1.53%. Modelom je proturnaeeno 93.91 % odstupanja. Niz i trend su prikazani na grafikonu 3.11.
Prevezeni pucnici u javnom cesrovnom prometu u Hrvatskoj
Bcrj ~utni~" [u ";h~i .... l 1W
1110
+ 110 b~ = 1876
110 br
= =
-77 17791.
110 a"
+ 1958 b~
= 159.2517483,
bi = -0.70000, bI = 1.129370629.
jednadzbe parabolicnog
i 'A.
1~
.~,., . <.1;';\
"I'~"
If
IV If I)
Ij}'
~ t"-o..
...-
1\ ts
~ ~
,1,0
19l'lJ_ 1982.
llilt..
19I16.
1983.
1(~'1r!-
lWi
;J.~L
trenda, treba primijeniti izraz (3.49.a). Aritmeticka sredina varijable vrijerne je 6. Jednadzba (3.49.a) za analizirani slucaj je:
Polazeci od odgovarajuceg sustava normalnih jednadfbi i drugih postupaka, moguca je analiza trend-polinoma treceg i viseg stupnja, U praksi, medutirn, nije po pravilu uocljivo koji je polinom najpogodniji za dani slucaj, Diferencije trekvencija niza i graficki prikaz su pornocna sredstva, dok se potvrda izbora provodi na temelju numerickog postupka, U tom se postupku uobicajeno primjenjuje analiza varijance S povecanjern stupnja polinoma povecava se protumaceni dio zbroja kvadrata, a neprotumaceni smanjuje. Zbog toga treba ispitati da Ii se s uvodenjem viseg clana u model trend-polinorna znacajno srnanjuje rezidualni
181
zbroj kvadrata, S obzirom na opseg numerickih postupaka, takva analiza je ekonomicna ako se provodi pomoeu odgovarajucih programa za racunalo'. Tumacenje jednadzbe trend-polinoma drugog i viseg stupnja nije jednostavno i neposredno kao s linearnirn trendorn, Prornjene trend-vrijednosti (prve diferencije) parabolicnog trenda su funkcija vremena, a promjene tih promjena su konstantne. U primjeru druge diferencije trend-vrijednosti su negativne i upozoravaju na prisutnu tendenciju smanjivanja prometa. S obzirom na to da je drugi koeficijent pozitivan, promjene trend a su »progresivno« »degresivne«. Trend-pollnom drugog i viseg stupnja treba smatrati analiticklm izrazom dinamike pojave i uzirnati ga kao cjelovit izraz.
+ log
£,.
(3.53)
model jednak je modelu jednostavne Iineame regresije, linearnog trenda, s tom razlikom sto se umjesto frekvencija vremenske serije upotrebljavaju njihovi logaritmi. Do oejene parametara dolazi se metodom najmanjih kvadrata. Minimizira se zbroj kvadrata odstupanja logaritama frekvencija niza od logaritamskih trend-vrijednosti. Oejene parametara su rjesen]e sustava normalnih jednadzbi i dane su kako slijedi:
.-:~ logb=
, ... 1
L x7 - n.i
1
'
log a =
t=1
±logy, n
-.i 10gb.
(3.54)
log a +X 10gb.
(3.55)
,n.
(3.51)
_S.I
(3.52)
Postupak oejene pararnetara da se pojednostaviti centriranjem varijable vrijeme na nacin objasnjen u analizi linearnog trenda, Osim oejene parametara i za taj se model odreduju elernenti analize varijance, standardna devijacija trenda i koeficijent varijaeije trenda. Sve se te velicine izracunavaju na temelju logaritamskog oblika modela, Standardna devijacija trend a je drugi korijen iz aritmetieke sredine zbroja kvadrata odstupanja logaritama frekvencija od logarltamskih vrijednosti trenda, tj.:
Izraz (3.52) predstavlja model jednostavnog eksponencijalnog trenda, u kome funkcija vremena eksponencijalna funkcija:
f(X) = ab",
°logy e=
± (logy, - logy,)2
1
Svojstvo je te funkcije da se za svaku jedinicnu promjenu vrijednosti varijable X vrijednost funkcije mijenja za isti relativni iznos. Prema tome, model jednostavnag eksponencijalnog trenda upotrijebit ce se za model pojave koja se od razdoblja do razdoblja mijenja za priblizno isti relativni iznos. Na to upucuju priblizno jednaki verizni indeksi, odnosno pojedinacne stope prornjena, i graficki prikaz. U modelu (3.52) y, su frekvencije vremenskog niza, x, su vrijednosti varijable vrijeme, a i b su nepoznati pararnetri, a s, su nepoznate vrijednosti slucajnih odstupanja, za koje se pretpostavlja da im se utjecaj u prosjeku ponistava. S obzirom na to da je varijabla e u produktu s funkcionalnim dijelom modela, to znaci da je ocekivana vrijednost te varijable (aritrneticka sredina) jednakajedan. Model (3.52) obicno se linearizira logaritamskom transformacijom, pa se svi statisticki postupci provode polazeci od transforrniranog modela. Linearizirani je model:
\"umericko p'ojedno.s[~vnjenje i povecanje stllbil~oSli postupaka analize model a trend-po"noma posnze se pnrnjenorn transformacije varijable vrijerne na opisan nacin. Jos su vece ~redno.sti u numerick?j i statisticko] analizi upotrebe ortogonalnih polinoma. Vrijednosti [Jh.polinoma .su ta~ehrane. Prednost im je u tome sto vrijednosti ocjena parametara ne ovrse 0 stupnju pohnoma.
(3.56)
U navedenom izrazu log y, su trend-vrijednosti dobivene uvrstavanjern vrijednosti varijable vrijeme u jednadzbu s ocijenjenim parametrima. Koefieijent varijacije je omjer izmedu standardne devijacije i aritmeticke sredine logaritama frekvencija pomnozen sa sto, odnosno:
Vlogj'- __ -~
logy
100.
(3.57)
Model s ocijenjenim parametrima u nelogaritarnskom obliku je: y=aV Ispod jednadzbe stavljaju se uobicajene oznake. U navedenoj jednadzbi a je trend-vrijednost za razdobJje koje prethodi prvom. Koeficijent b pokazuje za koliko ce se puta promijeniti trend-vrijednost ako se varijabla vrijerne poveca za jedan. Taj koeficijenr sadrii informaciju 0 stopi promjene trend-vrijednosti, Stopa prornjene trend-vrijednosti y je: 183
Sp
= (b -
1) 100.
Stopa sp takoder se moze tumaciti i kao postotak prosjecne promjene pojave u uzastopnim razdobljima. .. Postupci statisticke analize modela jednostavnog eksponenclJalno~ trend~ primijenit ce se u analizi vremenskog niza telefonskih aparata u Hrvatskoj, Podaci za analizu dani su u tabeli 3.16.
Tabela 3 16 Telefonski aparati u Hrvatskoj Godina Aparati uooo
y,
, stanje
Ocjene parametara u modelu mogu se alternativno izracunati koristeci se transformiranom varijablom vrijeme. Za logaritamski oblik modela izracunani su: ukupni zbroj kvadrata odstupanja logaritama frekvencija od aritmeticke sredine logaritama frekvencija ST = 0.06191, zbroj kvadrata odstupanja logaritamskih trend-vrijednosti od aritrneticke sredine logaritama frekvencija SP = 0.06091 i zbroj kvadrata odstupanja logaritama frekvencija ad logaritamskih trend-vrijednosti SR = 0.0009961. Modelom eksponencijalnog trenda protumaceno je 98.39% odstupanja. Standardna devijacija je prema (3.56): 0.0009961 9
,alos)"
Vrijeme logy, 4 2.78888 2.80072 2.84073 2.84696 2.89818 2.93146 2.96332 2.99034 3.04218 26.10275
. = 0 01052
X,
logy, 5 2.77287 2.80473 2.83659 2.86845 2.90031 2.93217 2.96403 2.99589 3.02775 26.10279
y,
6 592.7 637.9 686.4 738.7 794.9 855.4 920.5 990.6 1066.0
1 1982. 1983. 1984. 1985. 1986. 1987. 1988. 1989. 1990. Ukupno
2 615 632 693 703 791 854 919 978 1102 7287
3 1 2 3 4 5 6 7 8 9 45
Koeficijent varijacije trenda Vlog~ = 0.36%. Odabrani trend dobro reprezentira kretanje broja telefonskih aparata u Republici Hrvatskoj. Prerna jednadibi, procijenjeni broj aparata u 1981. godini (clan a) iznosi 550.8 tisuca. Prosjecna godisnja stopa eksponencijalnog porasta broja aparata je: sp = (b -1) 100 = (1.07612 - 1) 100, sp = 7.6%. Prosjecna stopa pokazuje da se broj telefonskih aparata povecavao u periodu 1982-1990. za 7.6% godisnje. Tako izracunana prosjeena stopa u pravilu se razlikuje od prosjecne stope izracunane pornocu geometrijske sredine koeficijenta dinamike. Geometrijska sredina tih koeficijenata oslanja se samo na posJjednji i prvi clan niza, dok je stopa racunana pomocu koeficijenta b u jednadzbi eksponencijalnog trenda ovisna 0 svirn frekvencijama, Osim spomenutih rezultata, odredene su antilogaritmiranjem i vrijednosti trenda u mjernim jedinicama pojave. Vremenski niz i trend prikazani su grafikonom 3.12.
Telefonski aparoti u Hrvatskoj, stanje krajem razdoblja
Do ocjena parametara
slucaju ocjeoe su:
a i b dolazi se primjenom
tt~1 1200
1"00 1000
log b
==-
1.91176 60
==-
og
b ==- 0.03186
log a
26.1g275 - 0.03186·5
+ 0.03186
;.2
x.
600
y
~
1982. \~
'/
I
1984"
b?
1/
y = 550.81038·1.07611'
.1.'=
500
I. krajcm
ILJt\2.
1985.
19l16.
Hil7,
1988.
1989.
~m.
185
,-.
'.
_.
.:.,
"~,,,,'
Za opisani eksponencijalni trend je karakteristicno da je podoban za opisiva- • nje pojava kojima je svojstvena priblizno konstantna stopa rasta (pada). Neke se .. ekonomske pojave razvijaju u vremenu s promjenljivim stopama, odnosno stopa promjene ovisi 0 vremenu. Za opisivanje takvih pojava mofe biti prikladan model .' eksponencijalnog trenda drugog stupnja, odnosno logaritamske parabole. Funkcionalni je dio rnodela: .' I(x) = a a sam model za niz od n clanova je: y,=abt'bfE" Logaritamski je oblik rnodela: log y, = log a + log b,
X,
bf bf',
(3.59)
+ log
b2
X~
+ log
f,.
(3.60)
Model (3.60) je sa stajalista metoda statistieke analize jednak modelu regresijskog polinoma drugog stupnja, odnosno modelu trend-polinoma drugoga stupnja. Razlika izrnedu spomenutih modela i rnodela (3.60) je u tome sto se u posljednjem primjenjuju logaritamske, a ne originalne vrijednosti frekvencija niza, Na upotrebu modela (3.59) upozoravat ce priblizno jednake druge relativne diferencije, odnosno verizni indeksi veriznih indeksa. Pornocno je sredstvo i polulogaritamski grafikon. Ako serija sadrzi eksponencijalni trend drugog stupnja, na takvu ce se grafikonu uociti rasporedivanje tocaka oko krivulje odnosno parabole. Sami postupci analize jednaki su postupcirna predocenim u analizi regresijskog polinoma odnosno parabolicnog trenda. pri I:emu valja voditi racuna da je u tome polazni logaritamski oblik modela. Za seriju indeksa cijena na stalnoj bazi (1979 = 100) jedne skupine industrijskih proizvoda u periodu 1979-1990. dobivena je sljedeca jednadzba eksponencijalnog trenda drugoga stupnja:
Funkcija (3.61) razlikuje se od standardne eksponencijalne za parametar L, pa se zbog toga i naziva modificiranom eksponencijalnom funkcijom. Funkcija je prikazana za razlicite vrijednosti parametara grafikonom 3.13. U ekonomskim primjenama parametar L (vrijednost asimptote) je uvijek pozitivan. Funkcija monotono raste, odnosno pada, ovisno 0 predznaku parametra A. Tako npr. ako je A < 0, B < 1, krivulja je oblika (a). Krivulja monotone raste s prirastima, koji se s vremenom smanjuju. S porastom varijable X (varijable vrijeme) krivulja se priblifava horizontalnoj asimptoti L. Za A > O. B < 1, krivulja monotono pada, Vrijednosti funkcije se smanjuju s konstantnom stopom. Ovdje se radi 0 »degresivno-degresivnorn« razvoju. Model modificiranog eksponencijalnog trenda za vremenski niz od n clanova ima ovaj oblik: y, = L
+ AIr' + u,
= 1,2,... ,n.
(3.62)
y = 101.423310·
x = 1,1979.
1.l05671z• 1.02300Y'
~.
_••••••••••
_••• _ ••••••
_ ••••••••
L.
Jedinica za x je jedna godina. Jedinica za y je indeksni poen. Koeficijenti bl i b2 u navedenoj jednadfbi veci su od jedan. Trend-vrijednosti cijena u navedenom periodu povecavale su se De po stalnoj stopi, nego s ubrzanjem, odnosno »progresivno - progresivno«, Upotreba modela trend-polinoma treceg i viseg stupnja je rijetka u praksi, Tok vrijednosti polinoma viseg stupnja mijenja se vise puta, pa ne opisuje sarno trend nego i rnoguce ciklicne varijacije. Modelorn trend-polinoma i eksponencijalnog polinoma trendajzrazava se osnovni tok velikog broja pojava. Uz njih upotrebljavaju se i drugi rnodeli, npr. model reciprocnog polinoma. Osim polinoma u rnodelima su zastupljene i druge funkcije vremena. Opisuju li se pojave koje se 5 vremenorn priblizavaju razini zasicenja, deterrninisticki dio modela bit ce predoeen nekom asimptotskom funkcijom , pa ce biti rijec 0 asimptotskim trend-rnodelima.
186 o
[bl 10.<0, B>1
\~:
..........•
B,,'
··········L
[<I
10.>0,
Grafikon 3.13.
187
',_.~.";J'~'-"~'
'\'~~~'
U modelu (3.62) nepoznati su parametri L, A i B, te vrijednosti slucajne varijable u. Primijeni li se princip metode najmanjih kvadrata, doci ce se do sustava nelineamih jednadfbi. One se rjesavaju specificnirn (iterativnim) rnetodama i u pravilu uz pomoc programa za racunalo. Postupak ocjene parametara provodi se i jednostavnijim metodama, a dobivene su vrijednosti aproksi~acije ocjena, Medu takvim je i metoda parcijalnih zbrojeva. Ta se metoda oslanja na pretpostavku da su vrijednosti pojave jednake vrijednostima modificirane eksponencijalne funkcije. Do ocjena parametara metodom parcijalnih zbrojeva dolazi se tako da se .najprije niz podijeli u tri dijela s jednakirn brojem clanova. Ako je niz duzine n, u svakoj je skupini nl3 frekvencija. Kada n nije visekratnik broja tri, izostavit ce se potreban broj frekvencija razdoblja od pocetka niza, Nadalje, pretpostavlja se da su vremenski intervali (udaljenosti vremenskih tocaka) jednaki, Radi jednostavnosti uzet ce se da varijabla x poprima vrijednosti: 0,1,2, ... ,n - 1. Polazne velicine za izracunavanje ocjena parametara jesu ovi parcijalni zbrojevi:
,-
____________________________
t_
- - .._- _ ...._- --
.. -'"''''
L ------ --_ .. _-
6<1
111910,< D,
6>1
"
c
1119 >0. A
B<1
'·I;Afi .
:'
Grafikon 3.14.
"
.
Ako se pojava razvija tocno prema modificiranoj eksponencijalnoj funkciji, tada ce svaki parcijalni zbroj biti jednak zbroju odgovarajueih vrijednosti funkcije, Polazeci od te cinjenice, rnoze se pokazati da su ocjene parametara dane sljedetim izrazima:
'I~~,
:,
-,
• ,<, .i' .. ;..':
'I'
~~~
(3.64)
Gompertzova krivulja oblika (a) je nesimetricna S krivulja, koja ima dvije asimptote: donju jednaku nuli i gornju jednaku parametru L. Prikladna je za opis pojave koje prolaze kroz fazu uhodavanja, fazu izrazite ekspanzije, fazu degresivnog porasta i fazu stagnantnog razvoja . Model Gompertzova trenda za empirijsku seriju je: y, = LAB'·f,. S primjenom logaritamske transformacije log y, = log L model postaje:
A
;~ ..
~:
(3.66)
+ W" log
+ log a,
(3.67)
Vrijednosti dobivene metodom parcijalnih zbrojeva izracunavaju se tako da se polazi od pretpostavke 0 funkcionalnom razvoju pojave u vrernenu. Kako na tok pojave u vremenu djeluju i nesistematski faktori koji se ne uzimaju u obzir u postupku ocjene metodom parcijalnih zbrojeva, ocjene parametara su aproksimativne velicine, Model s oeijenjenim parametrima je:
y=L+AW.
Transformacijom je model Gompertzova trenda sveden na model modificiranog eksponencijalnog trenda. I ovdje se oejena parametara proved] nelinearnom metod om najmanjh kvadrata iii se ocjene aproksimiraju metodom parcijalnih zbrojeva. Do oejena log L, B i log A rnetodom parcijalnih zbrojeva dolazi se s primjenom izraza (3.64). Valja, rnedutim, iinati na umu da se analizira Iogaritamski oblik modela, pa se i parcijalni zbrojevi formiraju zbrajanjem logaritama frekvencija. Zbrojevi jesu:
:"~
(3.65) oblici te funkcije
vidljivi
SI
r = n/3
+ log Yz.
= LAB"
+ log Y2r+2 +
+ log YJ,
grafikona
su iz '
Osim dviju navedenih funkcija vremena u asimptotskim modelima trenda primjenjuje se i logistieka funkcija. Pojavljuje se u vise oblika, a najjednostavniji je sljedeci:
v-.
189
_..... _, Y+
o
Grafikon 3.15.
ticki pokazatelji. Usporedba frekvencija serija i trend-vrijednosti dobivenih pomocu jednadzbe utvrdene metodom parcijalnih zbrojeva daje odredenu sliku 0 kakvoci jednadzbe. U tu se svrhu izracunava prosjecno apsolutno odstupanje frekvencija od trend-vrijednosti i velicina analogna standardnoj devijaciji trenda. Za ilustrativni primjer uzet ce se podaci 0 stopi mortaliteta zivorodene dojentadi u Hrvatskoj u periodu od 1961. do 1987. lz kvalitativne analize poznato je da se stopa rnortaliteta s privrednim razvojem smanjuje i stabilizira oko »bioloskk dane stope (asimptote).
Tabela 3.17. Stope rnortaliteta dojeneadi u Hrvatskoj
f(X)=
1 L+AW'
(3.68)
Godina
Stope mortaliteta y,
Parcijalni zbrojevi
Trerld-vrijednosti
Pogreska
Postema pogreska
y,-
Tipican oblik te funkcije koristan za primjenu u ekonomskim Istrazivanjima vidljiv je iz grafikona 3.15. Predocena funkcija je oblika sirnetricne S krivulje. lednako se ponasa s lijeve i desne strane osi simetrije, koja prolazi tockom infleksije. 1ma dvije asimptote: donju jednaku nuli i gornju jednaku parametru L. Primjenjuje se kao funkcija vremena u logistickom trend-rnodelu za opis pojava tok kojih ima tri faze: fazu uhodavanja, izrazite ekspanzije i period stagnantnog razvoja. Umjesto funkcije oblika (3.68) u logistickom trend-modelu uzima se za ernpirijsku seriju njezina reciprocna vrijednost, a model logistickog trenda je:
-=
s,
3
5',
4 68.805 62.503 56.922 51.978 47.599 43.720 40.285 37.242 34.547 32.159 30.045 28.172 26.513 25.044 23.743 22.590 21.569 20.665 19.864 19.154 18.526 17.969 17.476 17.040 16.653 16.310 16.700
y,-y,
5 -5.905 -3.103 -0.5217 1.522 1.901 -2.020 1.215 3.858 3.053 2.041 -0.5449 -0.5721 -0.3133 0.1560 -0.7426 -0.1900 -0.06901 0.2353 -06638 1.446 0.3741 0.3306 1.224 -0.2398 -0.05300 -0.4104 -2.700
Y,
6
100
y,
2 62.9 59.4 56.4 53.5 49.5 41.7 41.5 41.1 37.6 34.2 29.5 27.6 26.2 25.2 23.0 22.4 21.5 20.9 19.2 20.6 18.9 18.3 18.7 16.8 16.6 15.9
U.O
1 y,
(3.69)
1961. 1962. 1963. 1964. 1965. 1966. 1967. 1968. 1969. 1970. 1971. 1972. 1973. 1974. 1975. 1976. 1977. 1978. ;it!. 1979. 1980. 1981. 1982. 1983. 1984. 1985. 1986. 1987.
51 == 443.6
-9.389 -5.225 -0.9250 2.845 3.841 -4.844 2.929 9.388 8.121 5.967 -1.847 -2.073 -1.196 0.6190 -3.2129 -0.8481 -0.3210 1.126 -3.457 7.018 1.979 1.807 6.543 -1.427 -0.3193 -2.581 -14.336
Navedenom reciprocnom transformacijom logisticki model sveden je na oblik modificiranog eksponencijalnog trenda, Razlika je u odnosu na posljednji model u tome sto se analiza transformiranog rnodela logistickog trenda provodi na osnovi reciprocnih, a ne originalnih vrijednosti frekvencija. Primjenjuje Ii se za ocjenu parametara metoda parcijalnih zbrojeva, do ocjena pararnetara L, A i B doCi ce se upotrebom izraza (3.64), s tim sto ce se parcijalni zbrojevi odredivati pornocu reciprocnih vrijednosti frekvencija. Parcijalni zbrojevi jesu:
52=230.5
S.=-+-+
YI
Y2
... +-,
v.
r=n/3
111 S2=--+--+
Yr+
1
Y,+2
... +-
Y2r
S3 -=
1
1
Y2r+
+ --
Y2r+2
1 + ... + -.
}::,
SJ == 159.0
Iz navedenih izraza za odabrane asimptotske trend-modele vidljivo je da je poznavanje metoda analize modificiranog eksponencijalnog trenda dovoljno i za analizu Gompertzova i logistickog trend-rnodela. Ako se analiza asimptotskih modela provodi pornocu nelinearne metode najrnanjih kvadrata, osim ocjena parametara utvrdit ce se i drugi statisticko-anali-
Za kretanje stope mortaliteta uzet je model modificiranog eksponencijalnog trenda, Ocjene parametara izracunane su metod om parcijalnih zbrojeva. Broj
191
i!lanova serije je 27, pa je r = 9. Parcijalni zbrojevi navedeni su u tabeli i odredeni .•, prema izrazu (3.63). Primjenom (3.64) dobivene su vrijednosti ocjena parametara;·. Jednadzba modificiranog eksponencijalnog trenda s ocijenjenim parametrima je:
Uvrstavanjem vrijednosti varijable vrijerne u navedenu jednadzbu dobivene su trend-vrijednosti, Izracunane su i razlike stvarnih vrijednosti i trend-vrijednosti, Drugi korijen iz aritrneticke sredine kvadrata razlika izmedu empirijskih vrijednosti i trend-vrijednosti iznosi 1.872. Empirijske vrijednosti i trend-vrijednosti prikazane su grafikonom 3.16. Osirn opisanih trend-rnodela postoje i drugi. Model trend-polinoma, model eksponencijalnog trenda i asimptotski trend-rnodeli u prakticnim su primjenama najcesce zastupljeni. Pri izboru trend-modela ponekad se pojavljuju poteskoce, jer je dvojbeno 0 kakvu se obliku kovarijacije pojave s vremenom radi. Posljedica toga moze biti pogresan izbor funkcije vremena. S primjenom odgovarajucih programa za racunalo relativno jednostavno se dobiju statisticko-analiticki rezultati za trend-polinome visokog stupnja, koji zadovoljavaju statisticke kriterije kakvoce, medutim, njihova primjena i turnacenje veoma su otezanl. Polinomi stupnja veceg od tri mogu izrafavati i utjecaj ciklicne komponente. Da bi se ublazio
Stope mortaliteta dojencadi u Hrvatskoj
Stq:le lIO"Iola.tu
lu ·/~I
11)
,~
·I·~~
~
problem opisa osnovne dinarnike, serija dovoljne duzine moze se podijeliti u dijelove prema prepoznatljivim oblicima kovarijacije i analiza provesti pomocu razlicitih funkcija vremena primjerenih segmentima vremenske serije. . Predocene rnetode statisticke analize trend-modela zasnivaju se na prirnjeni SVl~ raspolozivih fr.ek~encija. Svaka frekvencija ima u postupcirna isti ponder, bez obzira na to za koje Je razdoblje vezana, Primjenjuje Ii se model u prognosticke sv.rhe, po.~eljno j~ da frekvencije blize tekucem razdoblju vise utjecu na prognosticke vrIJed.nostJ od fr.e~vencija udaljenih u vremenu, Buduci da se ocjene par~metara 1 druge velieine utvrduju na osnovi svih frekvencija, trend-model naziva se globalnim. Ukljucivanje vrijednosti nove frekvencije uvjetuje potrebu preracunavanja sitih prethodno dobivenih rezultata. Trend vrijednosti predstavljaju ocjene razine pojave. Trend aproksimira stvarne vrijednosti u smislu prosjeka i rnoze se shvatiti kao sredstvo izgladivanja vremenskog niza. Osim globalnirn modelima, do ocjene trenda moze se doci lokalnim modelima odnosno metodama izgladivanja. Medu metodarna izgladivanja najvazniji s~ u statistickoj analizi vremenskih serija pornicni prosjeci i eksponencija1no izgladivanje.
'
"1.
y
i·
.;~
':
" ~
3.4.3. !"fetode izgladivanja: metoda pornicnih prosjeka, metoda jednostavnog eksponencijalnog izgladivanja
Pornicni prosjeci su aritrneticke sredine M uzastopnih frekvencija. M je broj clanova u prosjeku i manji je od n, ukupnog broja frekvencija. Postoje Ii velike fluktuacije frekvencija, pornicnirn prosjecima ce se izgladiti serija, tj. niz prosjeka imat ce rnanju varijancu od izvornog niza. Time se moze istaknuti osnovni tok pojave, sto ga zamagljuju velike i raznosmjerne varijacije frekvencija. Pornicni prosjek moze se shvatiti i kao lokalni trend-model, a same vrijednosti pomicnih prosjeka kao ocjene trend a u odabranoj tocki vremena pomocu frekvencija u okolini te tocke. Razlikuju se jednostavni pomicni prosjeci' od vaganih. Jednostavni pomicni prosjeci su jednostavne aritrneticke sredine M uzastopnih frekvencija, Vagane sredine M frekvencija predstavljaju vagane pomicne prosjeke. Ako se sa y" Y2,'''' y" ... , Yn oznace frekvencije vremenskog niza, jednostavni pornicni prosjeci tog niza definiraju se ovim izrazorn: _. _ 1 ~ y, - M,;:",YI+St t;;;m+l,m+2, ... ,(n-m). (3.70)
: -i •
i' ~t\
~~ ~~ ~~ !'"'If'!!
I
I
! ,
,...~~~
!
,
;...._
,
I
!~
r-,
10
,
!
;
U izrazu (3.70) M = 2m + 1, tj. pretpostavlja se da je broj tlanOl'a pomicnog prosjeka neparan. Vrijednost prosjeka pridrufuje se sredisnjem od razdoblja obuhvacenih pornicnirn prosjekom. Ako je M paran, tj. ako je M =- 2m, vrijeme za koje su vezane frekvencije nije sinkronizirano s vremenom za koje su izracunani
Detaljni prikaz metode pornicnih prosjeka dan je npr. u: M. G. Kendall (1973),op. cit,
1m.
lzvor: Statisticki godiinjak Republike Hrvatske 1991, str. J08. Grafikoll 3.16.
192
srr. 29 - 68.
193
prosjeci. Vrijednost pomicnog prosjeka pada izmedu dvaju razdoblja. Zbog toga se mora provesti postupak centriranja. Taj se postupak provodi prilagodbom izraza za racunanje prosjeka. Pomicni prosjeci s parnim brojem clanova i centriranim vrijednostima odreduju se pomocu sljedeceg izraza:
.9; = M
1 [1 -2Y'-"'+
(m-I)
s= - (m-I)
Yl+s+-2'Yl+m, t=m+
1]
pornieni prosjek je aritmeticka sredina druge, trece i cetvrte frekvense nastavlja sve dok se ne iscrpe sve frekvencije. •. Kako je broj clanova u cetverogodisnjem prosjeku paran, M = 4, m 2, 'nu'zno je primijeniti izraz koji ukljucuje centriranje, tj. valja primijeniti forrnulu (3.71); Sljedeci
cije. Postupak
l, ... ,(n-m).
(3.71)
Izraz (3.71) izveden je na temelju definicije centriranih pornicnih prosjeka kao jednostavnih sredina pomicnih prosjeka od po dva clana. Broj pornicnih prosjeka manji je od broja frekvencija vremenskog niza. Za niz od n frekvencija nije rnoguce izracunati pornicne prosjeke za prvih m i posljednjih m razdoblja, gdje je m = (M - 1)/2 za M neparno i m = MI2 za M parno, Drugim rijecirna, broj pornicnih prosjeka za seriju od n frekvencija je
Za prva dva razdoblja nije moguce izracunati Pornicni prosjek vezan za 1983. godinu (I = 3) je:
)' ~=
vrijednost
pomicnog
prosjeka.
_*
4" 2 YI + Y2 + Y3 + Y4 + '2 Ys
+
1025
1[1
1]
n-2m.
Postupak izraeunavan]a jednostavnih primjeru vremenskog niza u tabeli 3.18. pornicnih prosjeka objasnit ce se na = ~ [~1029 Prema formuli preostala razdoblja. Trogodisnji
+ 1002 + 993 +
1012],
.9; = 1010.125.
pomicnih prosjeka za
(3.71)
izracunane
su i vrijednosti
Tabela 3.18. Proizvodnja mlijeka u Hrvatskoj Godina Proizvodnja mlijeka umi!'l y. 1 1981. 1982. 1983. 1984. 1985. 1986. 1987. 1988. 1989. 1990. 2 1029 1025 1002 993 1012 984 1013 1002 957 907
pomicni
prosjeci
.v~
3 1018.667 1006.667 1002.333 996.333 1003.000 999.667 990.667 955.333
.vi
4
.~
..
~.
Za izracunavanje
trogodisnjih
prosjeka
-/'
Y!
3" (YI + Yl + Y)
Po motu pomicnih prosjeka izgladuje se vremenska serija, Mofe se pokazati da se njima dobro aproksimira horizontalni razvoj pojave u vremenu i razvoj pojave koja sadrii Iinearni trend. Racuna Ii se jednadzba linearnog trenda na osnovi M frekvencija s centriranom varijablom vrijeme, konstantni clan u to] jednadzbi jednak je pomicnom prosjeku, odnosno jednostavnoj aritrnetiekoj sredini M frekvencija, Osim toga, jednostavni pornicni prosjeci primjenjuju se za odstranjivanje periodiene komponente. Periodiena je sezonska i ciklicna komponenta. S primjenom jednostavnih pornicnih prosjeka nad striktno periodicnom pojavom dolazi se do niza tije se vrijednosti obnavljaju s istim periodom i istom fazom kao polazni niz, a izvedeni ce niz imati srnanjenu amplitudu. Ako je broj ckmova pomicnog prosjeka jednak periodu obnavljanja iii visekratniku tog perioda, niz pornicnih prosjeka nece hili periodican. U tom se slucaju pornienirn prosjecima u cijelosti odstranjuje periodicna komponenta. To izlazi iz sirnetricnosti vrijednosti pericdicnih funkcija nad kojima se provodi operacija pomicnih prosjeka. Uzme Ii se npr. da se niz sastoji od vrijednosti linearne funkcije izracunanih za vrijednost argumenta iz skupa prvih n prirodnih brojeva i periodicne komponente s periodom od 12, vrijednosti dvanaestoclanih pomicnih prosjeka predstavljat ce vrijednosti linearne funkcije (polinoma prvog stupnja). Spornenuta se cinjenica primjenjuje u postupcima analize sezonskih i clklicnih pojava. Pri tome valja voditi racuna 0 tome da empirijska vremenska serija gotovo po pravilu pokazuje odstupanja ad striktno periodicnog kretanja, a za pojave ciklicnog karaktera cesto nije ni poznat njezin period obnavljanja. S pornicnim prosjecima nece se u cijelosti odstraniti periodicna komponenta postoji Ii razlika izmedu perioda obnavljanja pojave i duzine pornicnog prosjeka, Jednostavni pomicni prosjek rnoze se shvatiti kao lokalni model trend-polinoma nultog i prvog stupnja. Model je lokalni, jer se u postupku umjesto 11 upotrebljava M frekvencija. }1 < II. Ako tendencija razvoja pojave nije linearna. jcdnostavni pornicni prosjeci sistematski ce precjenjivati iii podcjenjivati trend. 195
Zbog toga ce se umjesto njih prirnjenjivati vagani pomicni prosjeci. Vagani , pornicni prosjek je konstantni clan u jednadzbi trend-polinoma K-tog stupnja odreden na temelju centrirane varijable vrijeme i M uzastopnih frekvencija metodom najmanjih kvadrata. Kako se pretpostavlja da su intervali promatranja (vremenska razdoblja) u nizu jednaki, ponderi za izracunavanje vaganih. pomicnih prosjeka su poznati i tabelirani. Uobicajeno se uzima da je M neparan broj, pa su ponderi sirnetricni, a zbroj im je jednak jedan. Opci izraz za izracunavanje vaganih pornicnih prosjeka je:
jii=
:r=-m
0.240, ... }.
(3.74)
W,y,+" r=m+l,m+2,
....n-m.
(3.72) vaganih.
2 iii K
= 3,
aM
= 5,
1 W,: 35 [- 3, -12,17,
Buduci da su ponderi simetricni u odnosu na sredisnjl clan, u tablicama pondera navode se sarno prvi (m + 1). U analizi ekonomskih vremenskih serija upotrebljavaju se i drugi oblici vaganih pomicnih prosjeka. Na primjer, umetodama brojcane analize sezonskih i ciklicnih pojava zastupljeni su Spencerovi i Hendersonovi pomiiini prosjeci. ani su razlicite duzine. Tako npr. IS-ciani prosjek se zasniva na upotrebi ovih pondera: 1 W':320[-3.
Spencerovi
. Vrijednosti Hendersonovih pomicnih prosjeka jednake su vrijednostima pohnoma drugog stupnja. U tabeli 3.19. navedeni su podaci 0 proizvodnji kukuruza, te vrijednosti 15-elanih Spencerovih i 13-elanih Hendersonovih pornicnih prosjeka. Yagan.i. p?mi.~ni prosjeci izracunani. su po~ocu frekvencija i pondera (3.73) i (3.74). Serija I vrijednosti Hendersonovih pomicnih prosjeka prikazani su grafikonom 3.17. .~etoda pom.icni~ prosj~ka numericki je jednostavna. U njezinoj primjeni u analizi vrernenskih mzova ima poteskoca, Prva je poteskoca u izboru duzine pomicnog prosjeka, velicine M, i pondera frekvencija iii. sto je isto, stupnja lokalnog .modela tre~d-polinoma. Donosenje odluke 0 velicini M i K provodi se od slueaj~ do. slucaja na temelju uvida u varijacije frekvencija i na temelju poznavanJa pOJ~ve. ~a i.zbor velicine M i K ne postoji egzaktan kriterij. Kao iskustveno pravilo vrijedi da za odabrano K, i za seriju s malim nesistematskim ~arijacij~ma oko trenda treba isk~...stiti pomicni prosjek s relativno malim brojem i c1a~ova I obrnuto. Vece fluktuacije oko trenda zahtijevaju pomieni prosjek vece duzme. Tabela 3.19. Proizvodnja kukuruza u Hrvatskoj, drustveni sektor
Godina Proizvodnja u tisucarna t 2 493 478 506 453 501 436 444 481 589 463 519 402 525 455 581 563 595 641 620 698 532 519 5-18 -192 Hendersonovi pornicni prosjeci, M = 13 3 Spencerovi pomicni prosjeci, M = 15 4
-6.
-5,3,21,46,67,74,
... ).
(3.73)
pornicni prosjeci reproduciraju polinom treceg stupnja, a dobra su aproksimacija i za polinome viseg stupnja. Hendersonov 13-elani pornicni prosjek polazi od ovih pondera:
Proizvodnja kukuruza u Hrvatsko] i Hendersenovi pomicni prosjeci proizvodnje
~+,
;.~
1 1967. 1968. 1969. 1970. 197L 1972. 1973. 1974. 1975. 1976. 197i. 1978. 1979. 1980. 1981. 1982. 1983. 1984. 1985. 1986. 1987. 1988. 1989. 1990.
550
500
450
449.452 506.670 516.246 513.781 509.018 506.865 510.742 531.534 557.179 595.102 627.864 644.341
488.028 492.572 491.653 485.884 483.144 489.284 508.816 539.091 573.928 604.550
-
~I"I",,[,
1'161 -1m PrnilYDdnp
19'15.
,["',[,,,,[
11'00.
1<;65.
1990.
197
S primjenom pomicnih prosjeka dolazi se do serije s manjim varijacijama (izgladena serija). Ako se vrijednosti pomicnih prosjeka pr~mj~njuju umjest~· originalnih frekvencija, nufno je voditi racuna 0 njihovim svojstvima. Uzas~op~ pomicni prosjeci sadrze (M-l) zajednicku frekvenciju, pa su zb~g tog.a ~orehr~Dl: Tek za t> (M + 1) razmak izmedu prosjeka je takav da pripadajuci prosjeci nemaju iajedniekufrekvenciju. Operacijom pornicnih prosjeka inducira se korelacija, sto se ocituje u pojavi oscilatornih varijacija u izvedenoj seriji, Oscilacije ~isu pravilne, nemaju stalan period obnavljanja, a amplitude im mogu znacajno varirati. Ta se pojava naziva efekt Slutzky-Yulea. Nepovoljna je oznaka metode pomicnih prosjeka sto se oni ne mogu utvrditi za m prvih i m posljednjih razdoblja, Taj se nedostatak uklanja procjenom na razlicite nacine. Jedan od mogucih nacina je procjena u obliku trend-vrijednosti izracunanih na osnovi jednadzbe lokalnog trenda za prvih M frekvencija i odgovarajuce jednadzbe trend a za posljednjih M frekvencija. Osirn izgladivanja vremenske serije u obliku jednostavnih iii vaganih pornicnih prosjeka primjenjuju se i druge metode izgladivanja. Ponderiranje moze biti pomocu normaliziranih binomnih koeficijenata, Vrijednost serije u vrernenu t da se predociti kao vagana sredina frekvencija u vremenu t, t - 1, ... s ponderima koji se eksponencijalno smanjuju sa smanjivanjem vremenskog indeksa. Primijeni li se takav nacin ponderiranja, govorit ce se 0 eksponencijalnom izgladivanju. Metoda jednostavnog eksponencijalnog izgladivanja serije polazi od sljedeceg izraza:
primjenjuje se izraz (3.75). Osim konstante izgladivaodrediti i pocetnu izgladenu vrijednost. I ovdje je to rnoguce odrediti na vi~e nacina, a uobicajeno se uzirna da je prva izgladena vrijednost jednaka prvoj stvarnoj vrijednosti, tj . = YI. Model (3.75) je osnovni model eksponencijalnog izgladivanja. Primjeren je za izgladivanje serija bez sistematskih komponenti. Sadrfi Ii niz trend, iskoristit ce se model dvostrukog odnosno visestrukog eksponencijalnog izgladivanja. Prisutnost sezonske komponente uvjetovat ce takoder primjenu odgovarajuceg modela izgladivanja, Kao sto je spomenuto, rnodeli eksponencijalnog izgladivanja veoma se cesto primjenjuju za poslovno prognoziranje.
U postupku
izgladivanja
.9;
U tabeli
3.20.
nalazi
ce se izgladiti
Tabela 3.20. Prodaja proizvoda Godina, kvartal Prodaja u oookom. y, 1 1988,1. II. 2 102 117 123 112 119 107 109 110 126 128 115 106 120 120 117 119 Izgladene vrijednosti
Pogreska
y;
3 102.000 106.500 111.450 111.615 113.831 111.781 110.947 110.663 115.264 119.085 117.859 114.302 116.011 117.208 117.145 117.702
u;
4 0.000 10.500 11.550 0.385 5.169 -4.781 - 0.947 - 0.663 10.736 8.915 - 2.859 - 8.302 3.989 2.792 -0.145 1.298
5 0.00 8.97 9.39 0.34 4.34 -4.47 -0.86 -0.60 8.52 6.96 -2.49 -7.83 3.32 2.33 -0.12 1.09
O<a<1.
(3.75)
U navedenom izrazu y, predstavlja izgladenu vrijednost serije za vrijeme a je: konstanta izgladivanja. S postupnom supstitucijom izraz (3.75) postaje:
t,
a1r
III.
IV.
.9; == a(l-
a)oYt + a(l-
a)1 Yt-I
a)'-I Yt-
1989,1. II.
1990,1.
"
(3.76)
IV.
1991,1.
. == WoY, + WIY,_I n
+ ... + W,_IYI.
'(;p.'
....
II.
III.
IV.
Ponderi (3.76) cine geometrijski red. Vrijednost im se smanjuje s vremenom. Frekvencije bliie tekucern razdoblju vise utjecu na izgladenu vrijednost od frekvencija udaljenijih od tekuceg vremena. Konstanta izgladivanja odreduje brzinu kojom protekle vrijednosti pojave gube svoj utjecaj na izgladenu vrijednost u vremenu t. Sto je veta konstanta izgladivanja, gubitak utjecaja je brzi, i obrnuto. U ckonomskim primjenama obicno se uzima da je ta konstanta a broj izmedu 0.2 i 0.3. Kako ne postoji egzaktan nacin odredivanja konstante a, ona seu praksi odreduje na razlicite nacine Tako se npr. mijenja njezina vrijednost Ii koracima, a kao prikladna se uzima ona vrijednost za koju je aritrneticka sredina apsolutnih ruzlika stvarnih frekvencija od izgladenih vrijednosti najmanja.
Za postupak izgladivanja izabrana je konstanta vrijednost izjednacena s prvom frekvencijom. Izraz (3.75) za analizirani primjer je:
5';
=)'1
== 10~.
1988. iznosi:
.( =
106.500.
+ 0.7
·106.5,
.9; = 111.450
Postupak se nastavlja sve do posljednjeg razdoblja. Uspjesnost izgladivanja . rnoze se uociti promatranjem pogresaka, odnosno razlika izmedu stvarnih frekvencija prodaje i izgladenih vrijednosti, Za dani prirnjer pogreske su izracunane u apsolutnom i relativnom iznosu, a pretezan ih je broj po vrijednosti malen. Iz postupka je vidljivo da se za racunanje izgladene vrijednosti u vremenu t prirnjenjuju sarno dvije vrijednosti: stvarna frekvencija razdoblja t i izgladena vrijednost za razdoblje (r-1). Postupak je ekonomican, jer ne zahtijeva pohranjivanje svih informacija 0 pojavi.
uOOO 2
Pornicni prosjeci 3
Indeksi (2;3) 4
Sezonski faktori 5 0.2745 0.2678 0.3762 0.6161 1.017 1.43 2.748 2.809 1.267 0.6029 0.3068 0.2854 0.2745 0.2678 0.3762 0.6161 1.017 1.43 2.748 2.809 1.267 0.6029 0.3068 0.2854 0.2745 0.2678 0.3762 0.6161 1.017 1.43 2.748 2.809 1.267 0.6029 0.3068 0.2854 0.2745 0.2678 0.3762 0.6161 1.017 1.43 2.748 2.809 1.267 0.6029 0.3068 0.2854
Desezonirana serija (2: 5) 6 786.799 746.698 664.509 628.177 684.611 69 L049 716.983 634.002 623.46 605.374 644.993 679.739 699.377 653.36 792.095 613.568 677.725 660.973 735.545 680.992 651.871 641.862 730.188 770.838 815.939 813.9 693.747 809.975 716.087 788.971 749.739 752.188 762.358 744.692 850.8 833.907 772.228 813.9 542.239 732.062 84 L.992 884.095 841.818 883.545 831.017 829.279 814.942 777.846
Rezidualni faktori 7
1
8201 8202 8203 8204 8205 8206 8207 8208 8209 8210 8211 8212 8301 8302 8303 8304 8305 8306 8307 8308 8309 8310 8311 8312 8401 8402 8403 8404 8405 8406 8407 8408 8409 8410 8411 8412 8501 8502 8503 8504 8505 8506 8507 8508 8505 8510 8511 8512
3.4.4. Analiza sezonskih pojava. Metoda odnosa prema pomicnim prosjecima. Regresijski model sezonske pojave
Sezonska je pojava definirana kao periodicna pojava s ciklusom od jedne godine. U poslovnoj i opcoj gospodarskoj politici vazno je raspolagati brojcanirn velieinama kojima se izrazava stupanj sezonskih utjecaja, One su podloga za spoznavanje potreba za financijskim sredstvima, radnom snagorn, reprodukcijskim rnaterijalima i tome slicno, Statisticka analiza ima zadacu da brojcano izrazi velicinu sezonskih utjecaja. Podloga za to je model. Postoji vise modela i metoda analize pojava sa sezonskom komponentom. Sezonske pojave mogu se predociti pornocu opceg model a aditivnog iii multiplikativnog tipa, koji se zasniva na standardnoj dekornpoziciji vremenske pojave. U analizi sezonske pojave primjenjuje se model visestruke regresije i drugi statisticki modeli vrernenskih serija. Kao sto je vee navedeno, opci aditivni model vremenske pojave je:
216 200 250 387 69(i 988 1970 1781 790 365 204 194 192 175 298 378 689 945 2021 1913 826 387 224 220 224 218 261 499 728 1128 2060 2113 966 449 261 238 212 218 204 451 856 1264 2313 2482 1053 500 250 222
1.072 0.9505 0.9333 0.904 0.9941 1.019 1.048 0.9682 1.162 0.8967 0.9879 0.9608 1.065 0.982 0.9397 0.9206 1.037 1.081 1.13 1.111 0.9293 1.073 0.9434 1.036 0.9844 0.9883 1.005 0.9872 1.123 1.085 0.9839 1.004 0.6535 0.8762 1.006 1.057 1.008 1.058 0.9889 0.9823 0.9652 0.9247
669.083 667.042 668.000 669.625 668.958 666.875 667.208 674.833 681.833 684.250 686.000 687.917 690.333 693.458 693.708 697.208 703.875 713.125 722.375 732.333 746.500 754.917 759.042 761.333 761.583 761.083 758.708 754.333 757.667 768.667 784.875 810.792 829.792 835.542 837.208 836.083 835.125 835.250 840.375 844.250 844.333 841.167
2.944328 2.669997 1.182635 0.545081 0.304952 0.290909 0.287766 0.259323 0.437057 0.55243 1.004373 1.373712 2.927573 2.758639 1.190703 0.555071 0.318238 0.308501 0.310088 0.297679 0.349632 0.661 0.959104 1.481612 2.704892 2.776307 1.273217 0.595228 0.344479 0.309627 0.270107 0.268873 0.245845 0.539769 1.022446 1.511812 2.769645 2.971565 1.253012 0.592242 0.296092 0.26~919
....
Y=T+C+S+u,
dok je rnultiplikativni oblik:
}·::::Tf,l_t,.
,.;"",
Iz navedenih modela vidljivo je du je sezonska komponenta jedna od vise njih. U opce modele uvodi se ponekad i komponenta varijacije kalendara. Nadalje , cesto se trend i cikliena komponenta spajaju u jednu trend-ciklus-kornponenru, Opravdanje za to nalazi se u Cinjenici sto se za neke slucajeve te dvije komponente ne mogu razdvojiti u analiziranom razdoblju. Ekonomske vremenske pojave u pravilu od sisternatskih komponenti, osim sezonske, sadrze i trend-komponentu, Iskustvo je pokazalo da je za analizu ekonomskih vrernenskih serija pretezno prikladan mutiplikativni model. Za niz od n clanova multipIikativni je model:
y, = T,lc,ls,l". (3.78)
, .... "0:
r = 1.2, .... n.
(3.79)
.... rnodclu (3.79) rr su frekvencijc vrcrncnske serije , T, su trend vrijednosti, I" indeksi rezidualnih odstupanja, Trend vrijednosti su
201