Sie sind auf Seite 1von 224

BIOSTATISTIKA I METODE

ISTRAIVANJA NA DOMAIM
IVOTINJAMA
Miroslav Kap

Sadraj
1 UVOD ....................................................................................................................................................... 11
2 OPISNA STATISTIKA............................................................................................................................ 23
2.1 PODACI I VARIJABLE ............................................................................................................................. 23
2.2 GRAFIKE METODE ZA OPIS KVALITATIVNIH PODATAKA ......................................................................... 23
2.3 GRAFIKE METODE ZA OPIS KVANTITATIVNIH PODATAKA ....................................................................... 24
2.3.1 Konstrukcija histograma.............................................................................................................. 25
2.4 NUMERIKE METODE ZA OPIS KVANTITATIVNIH PODATAKA .................................................................... 27
2.4.1 Simbolika notacija ..................................................................................................................... 27
2.4.2 Mjere centralne tendencije .......................................................................................................... 28
2.4.3 Mjere varijabilnosti ..................................................................................................................... 29
2.4.4 Mjere relativnog poloaja.......................................................................................................... 210
2.5 SAS PROGRAM .................................................................................................................................. 211
VJEBE: .................................................................................................................................................. 212
3 VJEROJATNOST.................................................................................................................................. 314
3.1 PRAVILA O VJEROJATNOSTI JEDNOSTAVNIH DOGAAJA:........................................................................ 314
3.2 NAINI BROJANJA, PRAVILA BROJANJA ................................................................................................ 315
3.2.1 Multiplikativno pravilo .............................................................................................................. 315
3.2.2 Permutacije ............................................................................................................................... 315
3.2.3 Varijacije................................................................................................................................... 316
3.2.4 Pravilo particije ........................................................................................................................ 316
3.2.5 Kombinacije .............................................................................................................................. 316
3.2.6 Prikaz moguih naina poredaka podataka i vjerojatnosti stablo dijagramom.......................... 317
3.3 SLOENI DOGAAJI............................................................................................................................. 318
3.4 BAYESOV TEOREM.............................................................................................................................. 321
VJEBE: .................................................................................................................................................. 323
4 SLUAJNE VARIJABLE I NJIHOVE RASPODJELE ...................................................................... 424
4.1 OEKIVANJE I VARIJANCA SLUAJNE VARIJABLE................................................................................... 424
4.2 RASPODJELE VJEROJATNOSTI ZA DISKRETNE SLUAJNE VARIJABLE ........................................................ 425
4.2.1 Oekivanje i varijanca diskretne sluajne varijable ................................................................... 426
4.2.2 Binomna raspodjela................................................................................................................... 427
4.2.3 Hipergeometrijska raspodjela.................................................................................................... 429
4.2.4 Poisson raspodjela..................................................................................................................... 430
4.2.5 Multinomna raspodjela.............................................................................................................. 431
4.3 RASPODJELE VJEROJATNOSTI ZA KONTINUIRANE SLUAJNE VARIJABLE .................................................. 432
4.3.1 Uniformna raspodjela................................................................................................................ 433
4.3.2 Normalna raspodjela ................................................................................................................. 433
4.3.3 Hi kvadrat raspodjela ................................................................................................................ 439
4.3.4 Studentova (t) raspodjela ........................................................................................................... 440
4.3.5 F-raspodjela .............................................................................................................................. 441
VJEBE: .................................................................................................................................................. 441
5 POPULACIJA I UZORAK.................................................................................................................... 542
5.1 RASPODJELE VJEROJATNOSTI FUNKCIJA SLUAJNIH VARIJABLI U UZORKU .............................................. 542
5.1.1 Sredinji granini teorem........................................................................................................... 543
5.1.2 Statistike koje nemaju normalnu raspodjelu............................................................................... 543
5.2 STUPANJ SLOBODE ............................................................................................................................. 544
6 PROCJENA PARAMETARA ............................................................................................................... 645

ii

6.1 JEDINSTVENI PROCJENITELJ ................................................................................................................ 645


6.2 MAXIMUM LIKELIHOOD PROCJENA PARAMETARA ................................................................................. 645
6.3 INTERVALNA PROCJENA ...................................................................................................................... 648
6.4 PROCJENA SREDNJE VRIJEDNOSTI POPULACIJE ...................................................................................... 649
6.5 PROCJENA VARIJANCE U NORMALNOJ POPULACIJI ................................................................................. 650
VJEBE: .................................................................................................................................................. 652
7 PROVJERA HIPOTEZA ...................................................................................................................... 753
7.1 PROVJERA HIPOTEZA O PROSJEKU POPULACIJE...................................................................................... 753
7.1.1 P-vrijednost ............................................................................................................................... 757
7.1.2 Provjera hipoteza moe biti dvostrana ili jednostrana................................................................ 757
7.1.3 Provjera hipoteza o prosjeku populacije za mali uzorak............................................................. 758
7.2 PROVJERA HIPOTEZA O RAZLICI DVIJU POPULACIJA ............................................................................... 759
7.2.1 Provjera hipoteza o razlici prosjeka dviju populacija za veliki uzorak ....................................... 760
7.2.2 Provjera hipoteza o razlici prosjeka dviju populacija za mali uzorak kada su varijance iste ...... 761
7.2.3 Provjera hipoteza o razlici prosjeka dviju populacija za mali uzorak kada varijance nisu iste ... 762
7.2.4 Provjera hipoteza o razlici prosjeka dviju populacija: zavisni uzorci ......................................... 762
7.2.5 Neparametrijska provjera hipoteza o razlici dvije populacije..................................................... 763
7.3 SAS PROGRAMI ZA PROVJERU RAZLIKA DVIJU POPULACIJA.................................................................... 765
7.4 PROVJERA HIPOTEZA O PROPORCIJI POPULACIJE.................................................................................... 767
7.5 PROVJERA HIPOTEZA RAZLIKA DVIJU PROPORCIJA POPULACIJA .............................................................. 768
7.6 HI-KVADRAT PROVJERA RAZLIKE OEKIVANE I PRAVE FREKVENCIJE ...................................................... 770
7.7 SAS PROGRAM HI-KVADRAT PROVJERE ............................................................................................... 772
7.8 PROVJERA HIPOTEZA O VARIJANCI POPULACIJE ..................................................................................... 773
7.9 PROVJERA HIPOTEZA O RAZLICI VARIJANCI DVIJE POPULACIJE ............................................................... 774
7.10 KORITENJE INTERVALNE PROCJENE U PROVJERI STATISTIKIH HIPOTEZA............................................ 774
7.11 STATISTIKA I PRAKTINA ZNAAJNOST ............................................................................................ 776
7.12 TIPOVI GREKE KOD STATISTIKOG ZAKLJUIVANJA I SNAGA PROVJERE............................................... 776
7.13 VELIINA UZORKA............................................................................................................................ 777
VJEBE: .................................................................................................................................................. 778
8 JEDNOSTAVNA LINEARNA REGRESIJA........................................................................................ 880
8.1 JEDNOSTAVNI REGRESIJSKI MODEL ...................................................................................................... 880
8.2 PROCJENA PARAMETRA 0 I 1,METODA NAJMANJIH KVADRATA ............................................................ 883
8.3 OSTATAK I SVOJSTVA OSTATKA........................................................................................................... 886
8.4 PROSJECI I VARIJANCE PROCJENITELJA ................................................................................................. 887
8.5 STUDENTOVA T-PROVJERA I INTERVAL POVJERENJA PROCJENE PARAMETARA......................................... 888
8.6 INTERVAL POVJERENJA ZA 1 .............................................................................................................. 889
8.7 RALANJENJE UKUPNE VARIJABILNOSTI ............................................................................................. 890
8.7.1 Veza izmeu suma kvadrata ....................................................................................................... 891
8.7.2 Teoretske raspodjele suma kvadrata .......................................................................................... 892
8.8 PROVJERA HIPOTEZA - F- PROVJERA .................................................................................................... 893
8.8.1 Izraunavanje suma kvadrata .................................................................................................... 894
8.9 KOEFICIJENT DETERMINACIJE (R2) ...................................................................................................... 895
8.9.1 Skraeni i analogni naini raunanja suma kvadrata i koeficijenta determinacije ..................... 895
8.10 SAS PROGRAM................................................................................................................................. 896
VJEBE: .................................................................................................................................................. 897
9 KOEFICIJENT KORELACIJE............................................................................................................ 999
9.1 PROCJENA KOEFICIJENTA KORELACIJE I PROVJERA HIPOTEZA ................................................................ 999
9.2 NUMERIKA VEZA IZMEU PROCJENITELJA KOEFICIJENTA KORELACIJE (R) I KOEFICIJENTA DETERMINACIJE
(R2)....................................................................................................................................................... 9101
9.3 SAS PROGRAM ................................................................................................................................ 9102
VJEBE: ................................................................................................................................................ 9103
10 VEKTORI I MATRICE .................................................................................................................. 10104
10.1 TIPOVI I SVOJSTVA MATRICA.......................................................................................................... 10104
10.2 OPERACIJE S MATRICAMA I VEKTORIMA: ........................................................................................ 10105

iii

11 OBINA REGRESIJA U MATRINOM PRIKAZU.................................................................... 11108


12 MULTIPLA REGRESIJA ............................................................................................................... 12113
12.1 DVIJE NEZAVISNE VARIJABLE ........................................................................................................ 12114
12.1.1 Ralanjenje ukupne varijabilnosti i provjera hipoteza ........................................................ 12118
12.2 MOGUE POTEKOE KOD UPOTREBE MULTIPLE REGRESIJE............................................................. 12120
12.3 SAS PROGRAM MULTIPLE REGRESIJE ............................................................................................. 12120
12.4 KRIVOLINIJSKA REGRESIJA DRUGOG STUPNJA................................................................................. 12121
12.5 SAS PROGRAM KRIVOLINIJSKE REGRESIJE...................................................................................... 12126
13 KLASIFIKACIJSKI MODELI - ANALIZA VARIJANCE ........................................................... 13128
13.1 MODEL JEDNOSTRUKE KLASIFIKACIJE SA FIKSNIM UTJECAJIMA........................................................ 13128
13.1.1 Ralanjenje ukupne varijabilnosti na izvore varijabilnosti: ................................................ 13130
13.1.2 Postavljanje hipoteza i F-provjera ....................................................................................... 13131
13.2 USPOREDBA SREDNJIH VRIJEDNOSTI POJEDINIH GRUPA ................................................................... 13135
13.2.1 Najmanja znaajna razlika (LSD) ........................................................................................ 13135
13.2.2 Tukey provjera..................................................................................................................... 13136
13.2.3 Interval povjerenja za + i , srednju vrijednost grupe i ..................................................... 13137
13.3 MATRINI PRIKAZ JEDNOSTRUKE KLASIFIKACIJE ............................................................................ 13137
13.4 SAS PROGRAM JEDNOSTRUKE KLASIFIKACIJE SA FIKSNIM UTJECAJIMA ............................................ 13141
13.5 MODEL SA SLUAJNIM UTJECAJIMA GRUPA..................................................................................... 13143
13.6 INTRAKLASNA KORELACIJA ........................................................................................................... 13146
13.7 SAS PROGRAM JEDNOSTRUKE KLASIFIKACIJE SA SLUAJNIM UTJECAJIMA ........................................ 13147
13.8 PROVJERA HOMOGENOSTI VARIJANCE ............................................................................................ 13148
VJEBE: .............................................................................................................................................. 13149
14 OSNOVNI PRINCIPI PLANIRANJA POKUSA ............................................................................ 14150
14.1 POKUSNA JEDINICA I TRETMANI..................................................................................................... 14150
14.2 PONAVLJANJA I POKUSNA GREKA ................................................................................................. 14150
14.3 PRECIZNOST POKUSNIH PLANOVA .................................................................................................. 14152
15 POTPUNO SLUAJNI POKUSNI PLAN ...................................................................................... 15154
16 BLOKOVI U ANALIZI VARIJANCE............................................................................................ 16156
16.1 SLUAJNI BLOK PLAN (POTPUNI).................................................................................................... 16156
16.1.1 Ralanjenje ukupne sume kvadrata..................................................................................... 16158
16.1.2 Postavljanje hipoteza i F-provjera ....................................................................................... 16159
16.2 SAS PROGRAM ZA SLUAJNI BLOK PLAN ........................................................................................ 16160
VJEBE: .............................................................................................................................................. 16162
17 CHANGE OVER POKUSNI PLANOVI......................................................................................... 17163
17.1 JEDNOSTAVNI CHANGE OVER PLAN ................................................................................................ 17163
17.2 SAS PROGRAM ZA JEDNOSTAVNI CHANGE OVER PLAN .................................................................... 17165
17.3 LATINSKI KVADRAT ...................................................................................................................... 17167
17.4 SAS PROGRAM ZA LATINSKI KVADRAT .......................................................................................... 17170
VJEBE: .............................................................................................................................................. 17173
18 FAKTORIJALNI POKUS ............................................................................................................... 18174
18.1 FAKTORIJALNI POKUS 2X2............................................................................................................. 18174
18.2 SAS PROGRAM ZA FAKTORIJALNI POKUS........................................................................................ 18178
VJEBE: .............................................................................................................................................. 18180
19 HIJERARHIJSKA KLASIFIKACIJA............................................................................................ 19181
19.1 HIJERARHIJSKA KLASIFIKACIJA SA DVA FAKTORA............................................................................ 19181
19.2 SAS PROGRAM ZA HIJERARHIJSKU KLASIFIKACIJU .......................................................................... 19184
20 SPLIT PLOT POKUSNI PLAN ...................................................................................................... 20187

iv

20.1 SPLIT PLOT PLAN PRIMJENA SLUAJNOG BLOK PLANA NA GLAVNE PLOTOVE .................................. 20187
20.2 SPLIT PLOT PLAN PRIMJENA POTPUNO SLUAJNOG PLANA NA GLAVNE PLOTOVE ............................ 20189
20.3 SAS PROGRAM ZA SPLIT-PLOT PLAN .............................................................................................. 20191
VJEBE: .............................................................................................................................................. 20195
21 KLASIFIKACIJSKI MODELI SA KOVARIJABLOM - ANALIZA KOVARIJANCE............... 21196
21.1 POTPUNO SLUAJNI POKUSNI PLAN SA KOVARIJABLOM.................................................................... 21196
21.2 SAS PROGRAM ZA POTUNO SLUAJNI PLAN SA KOVARIJABLOM ....................................................... 21197
21.3 PROVJERA RAZLIKA IZMEU NAGIBA REGRESIJSKIH KRIVULJA POJEDINIH GRUPA .............................. 21199
21.4 SAS PROGRAM ZA PROVJERU RAZLIKE NAGIBA REGRESIJSKIH KRIVULJA .......................................... 21203
RJEENJA VJEBI ............................................................................................................................. 21206
STATISTIKE TABLICE ................................................................................................................... 21208
ORDINATE STANDARDNE NORMALNE KRIVULJE...................................................................................... 21209
POVRINA ISPOD STANDARDNE NORMALNE KRIVULJE (Z > Z) ................................................................ 21210
KRITINE VRIJEDNOSTI STUDENTOVE T-DISTRIBUCIJE (T > T)................................................................ 21211
KRITINE VRIJEDNOSTI HI-KVADRAT DISTRIBUCIJE, 2 > 2, = 0.05 ................................................... 21212
KRITINE VRIJEDNOSTI F DISTRIBUCIJE, F> F, = 0.05....................................................................... 21213
KRITINE VRIJEDNOSTI F DISTRIBUCIJE, F> F, = 0.05....................................................................... 21214
KRITINE VRIJEDNOSTI F DISTRIBUCIJE, F> F, = 0.01....................................................................... 21215
KRITINE VRIJEDNOSTI F DISTRIBUCIJE, F> F, = 0.01....................................................................... 21216
KRITINE VRIJEDNOSTI STUDENTIZIRANOG RASPONE, Q(A,V) ................................................................. 21217
LITERATURA...................................................................................................................................... 21218

1 Uvod
Pojam statistike povezan je sa analizom numerikih podataka. esto se pod pojmom statistika misli na
sumiranje i pregled nekih skupova podataka. Tako su kae statistika koarkake utakmice kada je dan
pregled rezultata sa ispisom broja koeva, uhvaenih i izgubljenih lopti, postotkom ubaenih koeva.
Takoer, statistika neke farme obino znai godinji izvjetaj proizvodnje i produktivnosti neke farme sa
prosjecima i postocima. Takva statistika slui ne samo za popis podataka nego i za sumiranje i
mogunost davanja nekog zakljuka. Promatrajui statistiku sa koarkake utakmice moe se zakljuiti
koji je igra bio najbolji. Statistika neke farme moe dati uvid kako ta farma posluje. Openito moemo
rei da je svrha mjerenja ili sakupljanja podataka, mogunost zakljuivanja o pojavi koju ti podaci
opisuju. Podaci se mogu dobiti mjerenjem, opaanjem ili brojanjem, a proces opaanja ili mjerenja
podataka naziva se pokus ili eksperiment. Zakljuak moe biti samo rekapitulacija stvarnog stanja, no u
mnogo sluajeva postavljamo pokus da bi doli do zakljuka o veem skupu podataka, zakljuka koji e
imati znaaj i u buduim slinim situacijama. Da bi donijeli pravilan i to vjerodostojniji zakljuak,
najee nije dovoljno samo sakupiti podatke, nego treba koristiti odreene metode. Nain na koji
dolazimo do zakljuka koristei podatke, mjerenja ili opaanja zovemo statistika metoda. Statistike
metode su znanstvena disciplina, dio su primijenjene matematike, a ukljuuju sakupljanje, organiziranje,
tabeliranje, analizu, interpretaciju, opis i prezentaciju podataka. Ono to statistike metode ini
znanstvenom disciplinom je paljivo i precizno definiranje problema koji treba rijeiti i donoenje
pravilnog zakljuka koristei matematike metode. Drugim rijeima, potrebno je postaviti cilj analize i
pronai odgovore na pitanja koje e nas dovesti do eljenog cilja.
Primjena statistikih metoda je vrlo iroka. Nema znanstvene discipline i istraivanja koja se ne koristi
statistikim metodama u donoenju zakljuaka. Tako je statistika neophodna i u biolokim znanostima.
Specijalna primjena statistike u biologiji poznata je kao biostatistika i ima svoje poetke u
istraivanjima u poljoprivredi. Biostatistika je neophodna u istraivanju na domaim ivotinjama. esta
su pitanja da li jeki obrok bolji od drugoga, da li se neka grupa ivotinja razlikuje od druge grupe
ivotinja, koja je genetska vrijednost ivotinje, da li promjena nekih mjera ima utjecaja na promjenu
drugih mjera i sl. Na ta pitanja odgovor moe dati pravilno upotrijebljena statistika metoda. Treba
naglasiti da statistika metoda treba biti pomo u razumijevanju problema i mogunost donoenja
pravilnog zakljuka, a nikako da problem napravi jo nerazumljivijim i nerjeivim.
Statistike metode povezane su sa dva tipa istraivanja:
1. Opis nekog skupa podataka, koji se zove opisna statistika,
2. Izbor uzoraka iz veeg skupa podataka i njihovo koritenje za zakljuivanje o izvoru podataka. Takvi
zakljuci se zovu statistiki zakljuci.
Bez obzira na cilj ili prirodu pokusa uvijek treba opisati i sumirati podatke koristei opisnu statistiku.
Na taj nain upoznajemo materijal na kojem e se donositi zakljuci. Opisna statistika moe i sama po
sebi biti cilj ukoliko samo elimo informacije o nekom skupu podataka. Ukoliko treba donijeti zakljuke
o velikom skupu podataka, esto i neprebrojivom, jedan od naina je da se iz njega sluajno izabere
uzorak i da se na temelju uzorka koristei statistike metode donesu zakljuci. Takav veliki skup je
izvor podataka i zove se populacija. Populacija je skup podataka koji ima neke zajednike
karakteristike, a moe biti konana ili beskonana. Konana populacija je na primjer populacija
tovljenika u jednom turnusu na nekoj farmi. Zna se tono koliko je ivotinja ulo u turnus, a sve to nas
zanima o takvoj populaciji moemo izraunati i prikazati koristei podatke svih ivotinja. Meutim, ako
definiramo populaciju goveda Simentalske pasmine u Hrvatskoj tada je takva populacija beskonana,
jer ukljuuje i ivotinje koje vie nisu ive, a i one koje e se tek oteliti. Zakljuak o cijeloj pasmini
11

mogue je donijeti samo na temelju sluajno izabranog uzorka. Evo jo jednog primjera beskonane
populacije. Pretpostavimo da smo izabrali dvije grupe ivotinja i jednu grupu hranimo novom smjesom,
a drugu kontrolnom. Ova dva uzorka moemo smatrati uzorcima dvije populacije: populacije hranjene
kontrolnom smjesom i populacije hranjene novom smjesom. Jasno da su tako definirane populacije
imaginarne i neprebrojive, ali potrebno ih je definirati na taj nain jer nas zanima kakav e openito biti
utjecaj nove smjese u odnosu na kontrolnu.
Opisni pokazatelji populacije zovu se parametri, a numeriki opisni pokazatelji izraunati iz uzorka
zovu se statistike (eng statistics). Poto su parametri uglavnom nepoznati, za njihovu procjenu i
zakljuivanje o populaciji koristi se uzorak i statistike izraunate iz uzorka. Treba napomenuti da se
parametri mogu i direktno izraunati ukoliko su sakupljeni podaci za cijelu populaciju i ukoliko
ekonomski i drugi razlozi to doputaju.
Poto se zakljuak donosi na temelju statistika uzoraka, postoji vjerojatnost da takav zakljuak i nije
korektan. Drugim rijeima mogunost pogrenog zakljuka ima neku vjerojatnost, za koju se eli da je
to manja. Statistike metode koriste zakone vjerojatnost da bi se izmjerila nesigurnost u donoenju
zakljuaka, tj. omoguuje da se matematiki izraunaju vjerojatnosti koji se koriste za iskazivanje
stupnja nesigurnosti o donesenom zakljuku.
Upotreba i primjena statistikih metoda u istraivanjima na ivotinjama mora biti provedena planski.
Istraiva mora planirati i postaviti odgovarajui statistiki pokusni plan. Koja e se statistika metoda,
ili koji pokusni statistiki plan upotrijebiti mora se znati prije nego se pokus pone provoditi, odnosno
podaci mjeriti ili sakupljati.

12

2 Opisna statistika
2.1 Podaci i varijable
Podaci su materijal sa kojim statistiar radi, a prikupljaju se mjerenjem, brojanjem ili opaanjem.
Primjeri podataka su skup teina teladi, koliina mlijeka u laktaciji, muki ili enski spol, ili plava ili
zelena boja oiju. esto se uz pojam podataka uje i rije varijabla. Varijabla znai da su mjerenja ili
opaanja razliita, tj. pokazuju varijabilnost. Varijabla je na primjer teina, koliina mlijeka, spol, boja
oiju. Podaci su vrijednosti koje varijabla poprima, na primjer teina od 200 kg, ili dnevna koliina
mlijeka od 20 kg. Neki autori upotrebljavaju rije obiljeje kada govore o varijabli. Prema vrijednostima
koje mogu poprimati, varijable mogu biti kvantitativne (numerike) ili kvalitativne (atributivne,
kategorike). Kvantitativne varijable su one ije se vrijednosti (podaci) mogu mjeriti ili brojati. To su
npr. teina ivotinja ili broj mladih u leglu, temperatura ili vrijeme. Kvalitativne varijable su one iji se
podaci ne mjere ili broje. Primjer kvalitativne varijable su boja oiju ili da li je ivotinja bolesna ili nije.
Treba rei da se kvalitativnoj varijabli moe pridruiti broj, a takav broj obino je broj podataka koji
spadaju u pojedinu kategoriju, ili se predoi proporcija broja opaanja u pojedinoj kategoriji u odnosu
na ukupni broj.
Kvantitativne varijable mogu biti diskretne ili kontinuirane. Diskretna varijabla moe biti konana ili
beskonana, ali mora biti prebrojiva, pa se obino mjeri sa cijelim ili prirodnim brojevima. Kontinuirana
varijabla je beskonana, poprima beskonano mnogo vrijednosti i obino se njene vrijednosti mjere
realnim brojevima. Primjer kontinuirane varijable su koliina mlijeka ili teina, a primjer diskretne
varijable su broj mladih u leglu ili broj snesenih jaja. Kvalitativne ili atributivne varijable mogu biti
nominalne i ordinalne. Ordinalne varijable su one kod kojih se kategorije mogu poredati po veliini, a
nominalne su one za koje se ne moe rei da je jedna kategorija vea ili manja od druge. Primjer
nominalne kvalitativne varijable je boja oiju ili koe. Za primjer ordinalne kvalitativne varijable
moemo spomenuti ocjene lakoe telenja. Na primjer, ocjena lakoe telenja moe se prikazati u pet
kategorija, u kojoj se kategorije mogu poredati po veliini gledajui lakou ili tekou telenja.
Na kraju spomenimo i pojam sluajne varijable. Sluajna varijabla je matematiki pojam i oznaava
nain kojim se podatku pridruuje neki broj. Opaanje varijable se smatra sluajnim procesom, tj.
vrijednost koje e poprimiti varijabla je sluajna. Zato se i varijabla naziva sluajna varijabla. Vie e
rijei biti o sluajnoj varijabli kasnije.

2.2 Grafike metode za opis kvalitativnih podataka


U opisu kvalitativnih podataka definiramo kategorije na taj nain da svako opaanje moe ui u jednu
od kategorija. Podaci su tada opisani brojem opaanja u pojedinoj kategoriji ili proporcijom od ukupnog
broja opaanja. Frekvencija (uestalost) za pojedinu kategoriju je broj opaanja u toj kategoriji.
Relativna frekvencija za pojedinu kategoriju je proporcija od ukupnog broja opaanja. Kao grafiki
prikaz kvalitativnih podataka mogu posluiti stupii (horizontalni ili vertikalni) ili takozvana torta
(engl. pie-chart).
Primjer: elimo grafiki prikazati zastupljenost krava u Hrvatskoj pod kontrolom i selekcijom po
pasminama. Podaci su u slijedeoj tablici.
23

Pasmina
Simental
Holstein-Friesian
Smea
Ukupno

Broj krava
62672
15195
3855
81722

Postotak
76%
19%
5%
100%

Broj krava se moe prikazati stupiima, tako da svaki stupi odgovara pojedinoj pasmini (Slika 2-1).

Pasmina

Smea

3855

Holstein

15195
62672

Simental
0

20000

40000

60000

80000

Broj krava pod kontrolom

Slika 21:Broj krava pod kontrolom po pasminama (prokazano stupiima)

Proporcije ili postotak krava u pojedinoj pasmini u odnosu na ukupni broj krava bolje je prikazati
koristei torta grafikon (Slika 2-2).
Simental
76%

Smea
5%

Holstein
19%

Slika 22: Postotak krava pod kontrolom po pasminama (torta grafikon)

2.3 Grafike metode za opis kvantitativnih podataka

24

Najraireniji grafiki prikaz za opis kvantitativnih podataka je histogram, esto nazivan i raspodjela.
Histogram predstavlja raspodjelu frekvencija nekog skupa podataka. Radi prikaza raspodjele
kvantitativni podaci se svrstavaju u razrede i grafiki se prikazuje broj opaanja u pojedinom razredu.
Histogram moe prikazivati pravu frekvenciju ili relativnu frekvenciju.

2.3.1 Konstrukcija histograma


Da bi se nacrtao histogram potrebno je uiniti nekoliko koraka:
1. Izraunati variacionu irinu:
Variaciona irina = Najvee opaanje - najmanje opaanje
2. Podjeliti varijacionu irinu u izmeu pet i 20 razreda. Na taj nain se dobije irina pojedinog razreda.
irina razreda se zaokrui na neki odgovarajui broj. Najnia granica treba biti ispod najmanjeg
opaanja i najvia granica treba biti iznad najveeg opaanja.
3. Za svaki razred treba prebrojiti opaanja koja spadaju u taj razred. Taj broj zove se (prava)
frekvencija pojedinog razreda.
4. Izraunati za svaki razred relativnu frekvenciju:
Relativna frekvencija = prava frekvencija / ukupan broj opaanja
5. Histogram je zapravo grafikon sa stupiima gdje su na jednoj osi granice razreda, a na drugoj
frekvencije prikazane kao stupii.
Primjer: Napravimo histogram za uzorak teina 100 teladi mjerenih u dobi od 7 mjeseci:
233
279
263
278
249
216
320
245
251
266

208
228
262
290
304
271
245
255
257
255

306
287
234
259
241
296
263
329
327
214

300
223
277
251
249
196
244
240
222
304

271
247
291
265
289
269
239
262
266
272

304
292
277
316
211
231
227
291
227
230

207
209
256
318
273
272
275
275
255
224

254
303
271
252
241
236
255
272
251
250

262
194
255
316
215
219
292
218
298
255

231
268
299
221
264
312
246
317
255
284

Najmanja vrijednost = 194


Najvea vrijednost = 329
Variaciona irina = 329 - 194 = 135
Uzmimo da e za ovaj skup podataka biti dovoljno 15 razreda.
Tada je irina razreda
135 / 15 = 9
Radi bolje preglednosti zaokruimo irinu razreda na 10 i napravimo slijedeu tablicu:
Prave
granice
185 - 195
195 - 205
205 - 215
215 - 225
225 - 235
235 - 245
245 - 255

Nominalne
granice
185 - 194
195 - 204
205 - 214
215 - 224
225 - 234
235 - 244
245 - 254

Sredina
razreda
190
200
210
220
230
240
250

Broj
teladi
1
1
5
8
8
6
12
25

Relativna
frekvencija(%)
1
1
5
8
8
6
12

Kumulativni
broj teladi
1
2
7
15
23
29
41

255 - 265
265 - 275
275 - 285
285 - 295
295 - 305
305 - 315
315 - 325
325 - 335

255 - 264
265 - 274
275 - 284
285 - 294
295 - 304
305 - 314
315 - 324
325 - 334

260
270
280
290
300
310
320
330

16
12
7
7
8
2
5
2

16
12
7
7
8
2
5
2

57
69
76
83
91
93
98
100

Nominalne granice definiramo da bi znali u koji razred spadaju granine vrijednosti. Naime potrebno je
unaprijed odluiti u koji razred e ii na primjer vrijednost 295. Na slici 2-3 prikazan je histogram.
Razredi su na horizontalnoj osi a broj ivotinja na vertikalnoj osi. Kao vrijednosti razreda mogu se
napisati ili granice ili sredine razreda.
16

Broj teladi

16
14
12
10
8
6
4
2
0

12
8
5
1

12

8
5
2

190 200 210 220 230 240 250 260 270 280 290 300 310 320 330

Sredine razreda

Slika 23: Histogram teine teladi i dobi od 7 mjeseci (n=100)


Drugi poznati grafiki prikaz kvantitativnih podataka je stabljika i list (eng, stem and leaf). Nain na
koji se konstruira ovaj prikaz moe se prikazati u tri koraka:
1. Svako opaanje podjeli se u dva dijela: stabljiku i list. Stabljika su vie decimalne znamenke , a
list nie decimalne znamenke.
2. Stabljike se ispiu u kolonu i poreda ih se po veliini od najmanje do najvee.
3. Odgovarajui list svakog opaanje se napie u red kod odgovarajue stabljike.
Kao primjer pogledajmo ponovo teinu teladi.
Stem Leaf
19 | 4 6
20 | 7 8 9
21 | 1 4 5 6 8 9
22 | 1 2 3 4 7 8
23 | 0 1 1 3 4 6 9
24 | 0 1 1 4 5 5 6 7 9 9
25 | 0 1 1 1 2 4 5 5 5 5 5 5 5 6 7 9
26 | 2 2 2 3 3 4 5 6 6 8 9
27 | 1 1 1 2 2 2 3 5 5 7 7 8 9
28 | 4 7 9
29 | 0 1 1 2 2 6 8 9
30 | 0 3 4 4 4 6
31 | 2 6 6 7 8
26

32 | 0 7 9
Na primjer predzadnji red ima za granu broj 31 i za listove 2, 6, 6 7 i 8. To znai da u taj razred
spadaju mjerenja 312, 316, 316, 317 i 318.

2.4 Numerike metode za opis kvantitativnih podataka


U numerike opisne mjere podataka spadaju a) mjere centralne tendencije, b) mjere varijabilnosti, c)
mjere relativnog poloaja. U slijedeoj tablici saeto su prikazane numerike opisne mjere koje se
najee koriste:
Numerike opisne mjere
a) mjere centralne tendencije

b) mjere varijabilnosti

c) mjere relativnog poloaja

- aritmetika srednja vrijednost

- variaciona irina

- percentili

- harmonijska srednja vrijednost

- varijanca

- z-vrijednost

- geometrijska srednja vrijednost

- standardna devijacija

- medijan

- koeficijent varijabilnosti

- mode
Prije nego krenemo na objanjenja numerikih metoda za opis podataka potrebno je definirati i objasniti
simbole i notaciju koja se koristi ne samo u opisnoj statistici nego u statistici openito. To su sume,
sume kvadrata i sume produkata.

1.1.1 Simbolika notacija


Grko veliko slovo (sigma) predstavlja simbol za sumu (zbroj), a yi je vrijednost obiljeja i. Simbol n
predstavlja ukupan broj podataka.
Suma od n brojeva y1, y2 do yn se moe prikazati:

i yi = y1 + y2 +.....+ yn
Suma kvadrata od n brojeva y1, y2 do yn:

i y2i = y21 + y22 +.....+ y2n


Suma produkata dva niza brojeva (x1, x2 do xn) i (y1, y2 do yn):

i xiyi = x1y1 + x2y2 +.....+ xnyn


Primjer:
Pretpostavimo skup podataka: 1, 3 i 6. Oznaimo ih sa y1 = 1, y2 = 3 i y3 = 6.
27

Suma i suma kvadrata tih brojeva mogu se prikazati:

i yi = 1 + 3 + 6 = 10
i y2i = 12 + 32 + 62 = 46
Definirajmo jo jedan skup podataka: x1 = 2, x2 = 4 i x3 = 5.
Suma produkata y i x vrijednosti je:

i xiyi = (1)(2) + (3)(4) + (6)(5) = 45


Postoje tri glavna pravila zbrajanja, odnosno upotrebe simbola za zbrajanje.
1. Suma zbroja dvije varijable jednaka je zbroju sumi:

i (xi + yi) = i x1 + i y1
2. Suma umnoka konstante k i varijable y je jednaka umnoku konstante sa sumom varijable

i k yi = k i yi
3. Suma od n konstanti jednaka je umnoku n k

i k = n k
2.4.2 Mjere centralne tendencije
Tri najee upotrebljavane mjere centralne tendencije su aritmetika srednja vrijednost, harmonijska
srednja vrijednost, geometrijska srednja vrijednost, medijan i mode.
Aritmetika srednja vrijednost, uzorka od n opaanja y1,y2,...,yn je prosjek opaanja:
y=

iy i
n

Aritmetika srednja vrijednost za grupirane podatke se izrauna iz:


y=

if i y i
n

gdje je fi frekvencija ili proporcija opaanja yi.


Vano svojstva aritmetike srednje vrijednosti su:
1. i(y i y ) = 0

tj. suma odstupanja opaanja od aritmetike sredine je jednaka nuli. To znai da je samo (n - 1)
opaanja nezavisno, a n-ti se moe prikazati kao
y n = ny y1 ... y n 1 .

28

2.

i(y i y )2 = min imum

Suma kvadrata odstupanja od aritmetike sredine je najmanja u odnosu na bilo koju drugu
vrijednost.
Medijan (med) uzorka od n opaanja y1,y2,...,yn je vrijednost opaanja koje je u sredini kad su opaanja
poredana po veliini. To je vrijednost onoga opaanja koje ima poloaj takav da je pola povrine
histograma na lijevo i pola na desno od njega. Ako je n neparan broj tada je medijan vrijednost (n+1)/2-tog
opaanja. Ako je n paran broj onda je medijan prosjek (n+2)/2-tog i (n)/2-tog opaanja
Mode uzorka od n opaanja y1,y2,...,yn je vrijednost opaanja koje se javlja u najveoj frekvenciji.

prosjek
(toka ravnote e)

50% 50%

m edijan

frekvencija

frekvencija

frekvencija

Na slici 2-4 prikazano je objanjenje i odnos prosjeka, medijana i mode na prikazu raspodjele
frekvencija. Iako je prosjek mjera koja se najvie upotrebljava, u sluajevima nesimetrinih raspodjela
mode i medijan mogu dati vie informacija o samoj pojavi. Ako u uzorku ima ili se oekuje vie
ekstremnih vrijednosti, oni e vie utjecati na promjenu aritmetike sredine nego na promjenu medijana,
pa e u tom sluaju medijan biti objektivniji pokazatelj centralne tendencije. Ukoliko nas prvenstveno
zanima relativna frekvencija opaanja tada je bolje koristiti mode.

m ode
(m aksim um )

Slika 24: Interpretacija aritmetike srednje vrijednosti, medijana i moda za podatke prikazane
raspodjelom relativnih frekvencija

2.4.3 Mjere varijabilnosti


Najee upotrebljavane mjere varijabilnosti su varijaciona irina, varijanca, standardna devijacija i
koeficijent varijacije.
Varijaciona irina je jednaka razlici izmeu najveeg i najmanjeg opaanja.
Varijanca uzorka (s2) od n opaanja (mjerenja) y1, y2,...,yn definirana je :
s

( y y) 2

i i
=

n 1
ukoliko se y izraunava iz istog uzorka, tj. srednja vrijednost populacije nije poznata. Ako je srednja
vrijednost populacije () poznata tada je:
( y i ) 2
s2 = i
n
Rijeima, varijanca je prosjeno kvadrirano odstupanje od srednje vrijednosti.

29

Suma kvadriranih odstupanja od srednje vrijednosti esto se zove korigirana suma kvadrata. Korigirana
suma kvadrata se moe izraunati i skraenim nainom:

( y )

i( y i y)

y2
i i

i i

n
Za grupirane podatke varijanca uzorka sa nepoznatom srednjom vrijednosti populacije je:
s

f ( y i y) 2

i i
=
n 1

gdje su fi frekvencije (broj opaanja ili proporcije) opaanja yi, a ukupan broj opaanja n = ifi.
Standardna devijacija uzorka (s) je jednaka drugom korijenu iz varijance, a predstavlja prosjeno
odstupanje od aritmetike sredine.
s = s2
Koeficijent varijacije (Cv) je definiran kao:
s
Cv = 100%
y
Koeficijent varijacije je relativna mjera varijabilnosti izraena u postocima. esto je lake razumjeti
varijabilnost ako se ona izrazi u postocima nego kad je izraena u apsolutnim vrijednostima. To
pogotovo vrijedi za uoavanje razlike u varijabilnosti dva skupa koji nisu mjereni u istim jedinicama.
Ako promatramo visinu u cm i teinu u kg i recimo da je primjer koeficijent varijacije 40% za teinu i
20% za visinu, tada odmah uoavamo da je teina vie varijabilna.

2.4.4 Mjere relativnog poloaja


U mjere relativnog poloaja spadaju percentili i z-vrijednost.
Percentil, p, nekih podataka je vrijednost opaanja yi takvog da je 100p% opaanja manje od yi i 100(1p)% opaanja vee od yi.
Donji kvartil je 25%-ti percentil, gornji kvartil je 75%-ti percentil, a medijan je 50%-ti percentil.
Z vrijednost je vrijednost odstupanja opaanja od prosjeka izraena u standardnim devijacijama:
zi =

yi y
s

Numerike opisne vrijednosti izraunate iz uzorka nazivaju se i statistika (eng statistics). Tako su
prosjek uzorka ( y ) i standardna devijacija (s) primjeri statistika. Za razliku od statistika koji govore o
uzorku, parametri su vrijednosti koji opisuju populaciju. Obino su nepoznati i procjenjuju se iz uzorka.
Parametri se obino oznaavaju grkim slovima. Tako je prosjek populacije, a varijanca je 2. Vidjet
emo da se uglavnom uzorak i pokazatelji izraunati iz uzorka koriste za procjenu parametara
populacije.
Primjer: Izraunajte aritmetiku sredinu, varijancu, standardnu devijaciju, koeficijent varijacije, medijan
i mode za slijedei uzorak teine teladi:
260 260 230 280 290 280 260 270 260 300 280 290 260 250 270 320 320 250 320 220

210

Aritmetika srednja vrijednost


yi
y= i
n
=
y
i i 260 + 260 + ... + 220 = 5470
5470
= 273.5
20
Varijanca uzorka:
y=

( y )

s2 =

i( y i y) 2 =

y2
i i

n 1

i i

n 1

iy i2 = (260 2 + 260 2 + ... + 220 2 ) = 1510700


s2 =

1510700

(5470)2

19

20

= 771.3158

Standardna devijacija uzorka


s = s 2 = 771.3158 = 27.77
Koeficijent varijacije:
s
27.77
Cv = 100% =
100% = 10.15%
y
273.5
Poredajmo podatke po veliini:
220 230 250 250 260 260 260 260 260 270 270 280 280 280 290 290 300 320 320 320

Mode je 260 jer je to vrijednost sa najveom frekvencijom. Poto je n= 20, paran broj, medijan je
prosjek (n+2)/2 = 11-tog i n/2 = 10-tog obiljeja kada su obiljeja poredana po veliini . Vrijednost tih
obiljeja su 270 i 270 i njihov prosjek je 270. Dakle medijan je 270.

2.5 SAS program


Pogledajmo rjeavanje primjera o uzorku teine teladi koristei SAS kompjuterske pakete: Na detaljna
objanjenja upotreba programa itaoca upuujem na iscrpnu SAS literaturu, dio koje moe vidjeti u
popisu literature na kraju ove knjige. Ovdje moemo samo ukratko spomenuti da se svaki SAS program
sastoji od dva dijela: 1) DATA step, koji slui za kreiranje skupa podataka za koje se eli napraviti
analiza, i 2) PROC step, koji slui za analizu podataka. Treba jo rei da SAS paketi daju mogunost
obrade podataka i bez pisanja programa sa instrukcijama, tj. koristei i birajui ponuene opcije za
eljenu analizu. No pisanje programa daje korisniku vee mogunosti i znanje o koritenju paketa bez
obzira na kompjutersku platformu. SAS ima tri osnovna prozora: Program prozor (PGM) u koji se
upisuje program, Output prozor (OUT) u kojem se vide rezultati nakon analize, i LOG prozor u kojem
se moe provjeriti da li je program korektno obavio analizu. Vratimo se primjeru o teinama teladi.
Izmjereni su slijedei podaci 20 teladi:
260 260 230 280 290 280 260 270 260 300 280 290 260 250 270 320 320 250 320 220

SAS program:
DATA telad;

211

INPUT tezina @@;


DATALINES;
260 260 230 280 290 280 260 270 260 300
280 290 260 250 270 320 320 250 320 220
;
PROC MEANS DATA = telad N MEAN MIN MAX VAR STD CV ;
VAR tezina;
RUN;
QUIT;

Objanjenje: SAS naredbe pisat emo uvijek velikim slovima da ih istaknemo, makar to u programu nije
potrebno, tj. program jednako tretira i velika i mala slova. Imena koju sam korisnik daje varijablama i
drugim oznakama pisat emo malim slovima. Naredba DATA definira ime datoteke koja e sadravati
podatke. Ovdje je telad ime datoteka koja e sadravati podatke. Naredba DATALINES govori da
slijede podaci. Program koristi proceduru MEANS. Da bi oznaili da je to ime procedure treba napisati
PROC MEANS. DATA = telad, definira za koju datoteku e se raunati statistika. Slijedi popis
statistika koje traimo: N = broj podataka, MEAN=aritmetika srednja vrijednost, MIN = minimum,
MAX = maksimum, VAR = varijanca, STD= standardna devijacija, CV = koeficijent varijacije;
Naredba VAR definira varijablu u datoteki (tezina) koja e se analizirati.
SAS ispis:
The SAS System

11:32 Thursday, November 9, 2000

Analysis Variable : TEZINA


N
Mean
Minimum
Maximum
Variance
Std Dev
CV
-------------------------------------------------------------------------------------20
273.5000000
220.0000000
320.0000000
771.3157895
27.7725726
10.1545055
--------------------------------------------------------------------------------------

Vjebe:
2.1. Na uzorku od 40 kokica zabiljeen je broj sneenih jaja u 30 dana.
30
23
26
27
29
25
27
24
28
26
26
26
30
26
25
29
26
23
26
30
25
28
24
26
27
25
25
28
27
28
26
30
26
25
28
28
24
27
27
29
Izraunajte opisnu statistiku i grafiki prikaite raspodjelu frekvencija.
2.2. Izraunajte varijancu uzorka ako se zna da je:
i yi = 600 (suma opaanja); i yi2 = 12656 (suma kvadriranih opaanja); n = 30 (broj opaanja)
2.3. Nacrtajte grafikon distribucije frekvencije varijable x i zadane frekvencije f:
212

X
12
14
16
18
F
1
3
4
9
Izraunajte opisnu statistiku.

20
11

22
9

24
6

26
1

28
2

2.4. Prikupljeni su slijedei podaci koliine mlijene masti (kg) Holstein krava u mjesec dana:
27 17 31 20 29 22 40 28 26 28 34 32 32 32 30 23 25
Izraunajte opisnu statistiku ovog uzorka. Pokaite da ako svakom mjerenju dodamo 3 kg, da e se
aritmetika sredina poveati za tri, a varijanca uzorka ostati ista. Pokaite da ako svako mjerenje
podijelimo sa dva, da e i aritmetika sredina biti dva puta manja, a varijanca uzorka etiri puta manja.
Koliko e se promijeniti standardna devijacija?

213

3 Vjerojatnost
Pojam vjerojatnosti upotrebljavamo kada elimo rei koliko je vjerojatno da e se neki dogaaj dogoditi.
Rei emo npr. velika je vjerojatnost da e noas padati kia. To smo zakljuili prema nekim
znakovima (opaanjima ili mjerenjima). Matematiki vjerojatnost je broj povoljnih dogaaja podijeljena
sa ukupnim brojem razliitih dogaaja. Vjerojatnost igra veliku ulogu u donoenju zakljuaka o nekim
pojavama. Kako je statistika znanost koja se bavi i donoenjem zakljuaka na temelju opaanja, jasno je
da onda mora koristiti matematike zakone vjerojatnosti.
Vjerojatnost moe biti a-priori i a-posteriori. A-priori vjerojatnost je vjerojatnost do koje dolazimo
logikim razmiljanjem na temelju ranijeg iskustava. Iskustvo nam govori da e padati kia sa velikom
vjerojatnou ukoliko je nebo oblano. Ukoliko neka ivotinja ima odreene simptome vjerojatno ima ili
e imati odreenu bolest. A-posteriori vjerojatnost je ona do koje dolazimo koristei planirani pokus.
Npr. pretpostavimo da je velika vjerojatnost da e promjena hranidbe povoljno utjecati na proizvodnju
mlijeka kod mlijenih krava. Tek kad provedemo pokus i vidimo brojano razliku moemo zakljuiti da
je vjerojatnost velika da je postignut pozitivni uinak promjenom obroka i da je vjerojatnost takva i
takva da e to vrijediti i za druge krave. Openito, svako sakupljanje podataka, bilo mjerenjem,
opaanjem ili brojanjem zove se pokus ili eksperiment. Na primjer, bacimo kocku i promatramo broj
koji smo dobili. To je opaanje ili mjerenje i takoer se moe smatrati pokusom.
Matematiki vjerojatnost je:
P=m/n
gdje su m = broj opaenih povoljnih pokuaja i n = ukupan broj pokuaja.
Opaanje pokusa koje se ne moe podijeliti na jednostavnije rezultate zove se elementarni (jednostavni)
dogaaj. Na primjer kad jedanput bacimo kocku broj koji dobijemo je jednostavni dogaaj. Skup svih
moguih jednostavnih dogaaja zove se prostor dogaaja (engl. sample space). Ako bacimo kocku skup
svih moguih rezultata je 1,2,3,4,5,6. Vjerojatnost elementarnog dogaaja je vjerojatnost da se taj
elementarni dogaaj dogodi. Ako jednostavni dogaaj oznaimo sa Ei., onda je P(Ei) vjerojatnost
elementarnog dogaaja.

3.1 Pravila o vjerojatnosti jednostavnih dogaaja:


Neka su E1, E2,......,Ek svi jednostavni dogaaji u nekom prostoru jednostavnih dogaaja.
Tada vrijedi:
i = 1 do k,
1. 0 P(Ei) 1,
vjerojatnost bilo kojeg jednostavnog dogaaja mora biti izmeu 0 i 1,
2. i P(Ei)=1,
suma vjerojatnosti svih elementarnih dogaaja nekog pokusa jednaka je 1.
Primjer. Neka se pokus sastoji od jednog bacanja kocke. Mogui rezultati su 1,2,3,4,5,6. Svaki od tih
moguih rezultata je elementarni dogaaj. Vjerojatnost svakog od tih dogaaja je 1/6, tj. P(E1) = P(E2)
= P(E3) = P(E4) = P(E5) = P(E6). Prikaimo to tablino:
314

Opaanje
1
2
3
4
5
6

Dogaaj
E1
E2
E3
E4
E5
E6

P(Ei)
P(E1) = 1/6
P(E2) = 1/6
P(E3) = 1/6
P(E4) = 1/6
P(E1) = 1/6
P(E1) = 1/6

Oba uvjeta su zadovoljena. Vjerojatnost svakog od dogaaja je (1/6) to je manje od 1. Nadalje suma
vjerojatnosti i P(Ei) je jednaka 1, odnosno vjerojatnost da se dobije bilo koji broj na kocki, dakle ili 1
ili 2 ili 3 ili 4 ili 5 ili 6 je jednaka 1.
Openito neki dogaaj A je specifini skup elementarnih dogaaja, odnosno dogaaj se sastoji od
nekoliko elementarnih dogaaja. Npr. dogaaj moe biti da dobijemo 1 i 6 u dva bacanja kocke.
Vjerojatnost nekog dogaaja A je jednak sumi vjerojatnosti jednostavnih dogaaja sadranog u
dogaaju A. Ta vjerojatnost se oznaava sa P(A).

3.2 Naini brojanja, pravila brojanja


Podsjetimo se da je matematiki vjerojatnost:
P = broj povoljnih pokuaja / ukupan broj pokuaja
Dakle, logian nain procjene (izraunavanja) vjerojatnosti je da se prebroji ukupan broj pokuaja i broj
povoljnih pokuaja. Navesti sve mogue jednostavne dogaaje ne bi uvijek bilo praktino mogue. Zato
su vani naini brojanja. Spomenut emo neka pravila.

3.2.1 Multiplikativno pravilo


Imamo k skupova elemenata veliine n1, n2,....., nk. Ako biramo sluajno po jedan element iz svakog
skupa broj razliitih rezultata je:
n1 n2 n3...... nk.
Primjer. Pretpostavimo da imamo tri boksa sa ivotinjama oznaenima sa:
Boks 1: 1,2,3
Boks 2: A,B,C
Boks 3: x,y
Broj ivotinja po boksu su n1 = 3, n2 = 3, n3 = 2.
Broj svih moguih trojki od po jedne ivotinje iz svakog boksa je: 3x3x2=18
Mogue trojke su:
1Ax, 1Ay, 1Bx, 1By, 1Cx, 1Cy
2Ax, 2Ay, 2Bx, 2By, 2Cx, 2Cy
3Ax, 3Ay, 3Bx, 3By, 3Cx, 3Cy

3.2.2 Permutacije
Imamo skup od n elemenata. Broj naina na koji se mogu ovi elementi mogu postaviti u red od n mjesta
(sloiti u n-torke u odreenom redu) je:
P(n) = n!
315

Simbol n! se zove n faktorijela i jednak je umnoku svih brojeva od 1 do n, tj.


n! = (1) (2) (3) ..... (n)
Primjer. Na koliko naina se mogu tri ivotinje x y z poredati u trojke:
xyz xzy yxz yzx zxy zyx
123 132 213 231 312 321
n=3
P(3) = 3! = 1 2 3 = 6

3.2.3 Varijacije
Neka u skupu imamo n elemenata. Broj naina da se tih n elemenata poredaju u red od k elemenata u
odreenom poretku je (da se sloe u k-torke u odreenom poretku).
Vn , k =

n!
(n k )!

Primjer. na koliko naina se mogu ivotinje x, y i z poredati u parove, a da je poredak u paru vaan, tj.
na primjer par xz je razliit nego par zx?
Mogui parovi su:
xy xz yx yz

zx

zy

Dakle ima 6 takvih parova. Formulom:


3!
=6
Vn , k =
(3 2)!

3.2.4 Pravilo particije


Neka u skupu imamo n elemenata i slaemo ih u k grupa veliine n1, n2, n3,...., nk. Broj razliitih naina
na koji se mogu ti elementi svrstati u k grupa je:

n!
n1n2 ....nk
gdje je n = n1 + n2 + ..... + nk.

3.2.5 Kombinacije
Neka u skupu imamo n elemenata. Broj naina na koji se tih n elemenata mogu poredati u red od k
elemenata bez obzira na poredak je (sloiti u k-torke bez obzira na poredak).
n
n!
n (n 1).....(n k + 1)
=
=
k!
k k! (n k )!
Primjer. Postavimo tri ivotinje x y z u parove, a da poredak u paru nije vaan (tj. xy = yx).
Moguih parovi su:
xy xz yz
Upotrebom formule:
316

n 3
3!
= =
=3
k 2 2! (3 2)!
Dakle postoje tri razliita naina.

3.2.6 Prikaz moguih naina poredaka podataka i vjerojatnosti stablo


dijagramom
Stablo dijagram je slikoviti prikaz brojanja, odnosno svih moguih kombinacija rezultata nekog
pokusa. Ovim dijagramom se moe prikazati i utvrditi i vjerojatnost pojedinog dogaaja. Napravimo
stablo dijagram na primjeru sa tri boksa sa ivotinjama oznaenim dolje:
Boks 1: 1,2,3
Boks 2: A,B,C
Boks 3: x,y
Broj svih moguih trojki je:
3x3x2=18
Stablo dijagramom se to moe ovako prikazati:
Boks I

Boks II

Boks III

A
B
C

A
B
C

A
B
C

A
B
C

A
B
C

A
B
C

Ako se svakom pojedinanom dogaaju pridrui njegova vjerojatnost tada se takav dijagram zove stablo
vjerojatnosti.

317

3.3 Sloeni dogaaji


Dogaaj se esto moe gledati kao kompozicija dva ili vie dogaaja. Takav dogaaj zovemo sloeni
dogaaj. Recimo da imamo dva dogaaja A i B. Sloeni dogaaj da se dogodi i jedan i drugi dogaaj A
i B oznaava se sa A B i zove se presjek dogaaja. Sloeni dogaaj da se dogodi jedan ili drugi
elementarni dogaaj A i B oznaava se sa A B i zove se unija dogaaja. Vjerojatnost presjeka je P(A
B) i vjerojatnost unije je P(A B). Komplement dogaaja A je dogaaj da se ne dogodi dogaaj A.
Komplement dogaaja A oznaava se sa Ac.
Primjer: Bacimo kocku. Neka je dogaaj A, takav da se dobije paran broj. Neka je dogaaj B da se
dobije broj vei od 3.
Presjek dogaaja A i B je dogaaj da se dobije paran broj i da u isto vrijeme bude vei od 3, tj. da bude
ili 4 ili 6.
Mogui rezultati dogaaja A i B su:
Dogaaj A je skup: {2,4,6}
Dogaaj B je skup: {4,5,6}
Presjek dogaaja A i B je:
(A B) = {4,6} sa vjerojatnosti:
P(A B) =P(4) + P(6) = 1/3, jer je vjerojatnost dogaaja suma vjerojatnosti elementarnih dogaaja.
Unija dogaaja A i B je dogaaj da se dobije paran broj ili broj vei od 3.
(A B) = {2,4,5,6} sa vjerojatnosti
P(A B) =P(2) + P(4) + P(5) + P(6) = 4/6
Na slici 3-1 prikazani su unija i presjek supova A i B.

Skup B

Skup A
2

4
6

4
6

AB
2

4
6

AB

Slika 31: Unija i presjek dva skupa


Uvjetovana vjerojatnost je vjerojatnost da e se neki dogaaj dogoditi ako su zadovoljeni neki uvjeti.
Odnosno vjerojatnost da e se dogoditi dogaaj B ako se zna da je se ve dogodio dogaaj A.
Uvjetovana vjerojatnost se izrauna se iz izraza:
P(B | A ) =

P (A B)
P( A )
318

Dogaaji mogu meusobno biti zavisni ili nezavisni. Pretpostavimo dva dogaaja A i B. Ukoliko su
dogaaji nezavisni tada je:
P(B|A) = P(B), tj. vjerojatnost dogaaja B ne ovisi o vjerojatnosti od A. Takoer je vjerojatnost da se
oba dogaaja dogode jednaka umnoku vjerojatnosti oba dogaaja:
P(A B) = P(A) P(B)
Ukoliko su dogaaji zavisni, na primjer dogaaj B zavisi o dogaaju A, tada je:
P (A B)
i posljedino vjerojatnost da se oba dogaaja dogode:
P( A )
P(A B) = P(A) P(B|A)
P(B | A ) =

Primjer nezavisnih dogaaja: Dva puta bacimo kocku. Koja je vjerojatnost da dobijemo dvije estice?
Oznaimo prvo bacanje kao dogaaj A i drugo bacanje kao dogaaj B. Traimo vjerojatnost P(A B).
Vjerojatnost svakog dogaaja za sebe je: P(A) = 1/6, i P(B) = 1/6. Poto su dogaaji nezavisni
P(A B).= P(A) P(B) = (1/6) (1/6) = (1/36).
Vjerojatnost da u dva bacanja dobijemo dvije estice je (1/36).
Primjer zavisnih dogaaja: Iz skupa od 52 karte biramo dvije karte. Kolika je vjerojatnost da obje karte
budu as?
Oznaimo prvo uzimanje karte kao dogaaj A, i drugo uzimanje karte kao dogaaj B. Podsjetimo se da
ima etiri asa. Traimo vjerojatnost P(A B). Dogaaji su oito zavisni, odnosno biranje druge karte
zavisi koja je karta izvuena prva.
P(A = As) = (4/52) = (1/13).
P(B = As | A = As) = (3/51), tj. Ako je izvuen as ostala je 51 karta i 3 asa. Dakle,
P(A B) = P(A) P(B|A) = (4/52) (3/51) = (1/221).
Vjerojatnost da se izvuku 2 asa je (1/221).
Evo jo jedan primjer za raunanje vjerojatnosti: U boksu se nalazi 10 telia: 2 svijetla, 2 tamna i 6
arenih. Putamo ih jednog po jednog iz boksa, a redoslijed izlaska pojedinog telia je potpuno sluajan.
Definirajmo dogaaje i pripadajuu vjerojatnost:
2 svijetla
3 tamna
5 arenih

Ai
A1
A2
A3

P(Ai)
P(svijetli) = 2/10
P(tamni) = 3/10
P(areni) = 1/2

Vjerojatnost P(Ai) ovdje predstavlja relativni broj ivotinja u pojedinoj kategoriji. Vidimo da vrijedi

i P(Ai) = 1
Odgovorimo na slijedea pitanja: Koja je vjerojatnost:
a) da prvi izabrani teli bude areni,
b) da prvi teli bude ili svijetli ili tamni,
c) da drugi teli bude svijetli ako se zna da je prvi bio areni,
d) da prvi bude areni a drugi svijetli,
e) da prva dva telia budu areni i svijetli, bez obzira na poredak.
Rjeenja:
319

a) Ukupno ima 10 telia, a 5 arenih. Broj povoljnih pokuaja je


m = 5 i ukupni broj pokuaja je n = 10. Dakle vjerojatnost da tele bude areno je
P(areni) = 5/10 = 1/2
b) vjerojatnost da prvi bude ili svijetli ili tamni je primjer unije, a jednaka je vjerojatnost da prvi ne bude
areni, to dobijemo da od 1 oduzmemo vjerojatnost da bude areni:
P (svijetli tamni ) = 1 - P (areni) = 1 - 1/2 = 1/2
c) Ovo je primjer uvjetovane vjerojatnosti.
Vjerojatnost da drugi bude svijetli je broj svijetlih podijeljen sa brojem telia koliko ih je ostalo nakon
to je areni izaao, a to je 9.
Dakle P (svijetli | areni) = 2/9
d) Ovo je primjer presjeka vjerojatnosti. Vjerojatnost da prvi bude areni je P(areni) = 0.5. Vjerojatnost
da drugi bude svijetli je (a prvi je bio areni) P(svijetli | areni) = 2/9
Vjerojatnost da prvi bude areni i drugi svijetli je vjerojatnost presjeka tih dva dogaaja, odnosno
vjerojatnost da se i jedan i drugi dogaaj dogode:
P [areni (svijetli | areni)] = (5/10) (2/9) = 1/9
e) Vidjeli smo da je vjerojatnost da prvi bude areni i drugi svijetli
P [areni (svijetli | areni)] = 1/9. Analogno je vjerojatnost da prvi bude svijetli i drugi areni P [svijetli
(areni | svijetli)] = (2/10) (5/9) = 1/9
Poto traimo par svijetli - areni bez obzira na poredak onda vrijedi ili areni - svijetli ili svijetli areni dogaaj. To je primjer za uniju dogaaja, pa je vjerojatnost:
P{[areni (svijetli | areni)] [svijetli (areni | svijetli)]} = (1/9) + (1/9) = 2/9
Ove primjere moemo prikazati i stablo dijagramom:

320

Prvi teli

Drugi teli
1 svijetli (2 / 10 ) ( 1 / 9 )

2 svijetla (2 / 10 )

3 tamna (2 / 10 ) ( 3 / 9 )
5 arenih ( 2 / 10 ) ( 5 / 9 )

2 svijetla (3 / 10 ) ( 2 / 9 )
3 tamna ( 3 / 10 )

2 tamna (3 / 10 ) ( 2 / 9 )
5 arenih ( 3 / 10 ) ( 5 / 9 )

2 svijetla (5 / 10 ) ( 2 / 9 )
5 arenih ( 5 / 10 )

3 tamna (5 / 10 ) ( 3 / 9 )
4 arenih ( 5 / 10 ) ( 4 / 9 )

3.4 Bayesov teorem


Bayesov teorem se koristi za utvrivanje vjerojatnosti nekog dogaaja A ako postoji informacija o
vjerojatnosti nekog dogaaja Y koji se dogodio poslije dogaaja A. Govorimo dakle o pokusu koji se
dogodio u dva (ili vie) koraka. Pogledajmo primjer. Recimo da imamo dva kaveza K1 i K2. U prvom
kavezu su dva smea mia i jedan bijeli, a u drugom 2 smea i dva bijela mia. Oznaimo smeeg mia
sa slovom S, i bijelog mia sa slovom B.
Kavez K1
S,S,B

Kavez K2
S,S,B,B

Kavez je izabran sluajno i onda je izabran jedan mi iz tog kaveza. Pitanje je: ako je izabrani mi
smei, koja je vjerojatnost da je iz prvog kaveza.
Prvi korak pokusa je biranje kaveza. Poto ih biramo sluajno, vjerojatnost da se izabere bilo koji kavez
je 1/2. Problem postavljamo kao uvjetovanu vjerojatnost, tj. vjerojatnost da je izabran prvi kavez ako se
zna da je mi smei:
P(K 1 | S) =

P(K 1 , S)
P(S)

Vjerojatnost da je mi iz prvog kaveza, i jo da je i smei je:


P(K1,S) = (1/2) (2/3) = (1/3),
jer prvo izabiremo kavez i onda iz tog kaveza mia. P(K1) = (1/2) i vjerojatnost da je smei u tom
kavezu je P(S|K1) = (2/3). Odnosno P(K1,S) = P(K1) P(S|K1) = (1/3)
Vjerojatnost da je mi smei bez obzira iz kojeg je kaveza je P(S), a jednaka je ili vjerojatnosti da je mi
iz prvog kaveza i sme ili da je mi iz drugog kaveza i sme, tj.
P(S) = P(K1)P(S|K1) + P(K2)P(S|K2) = (1/2) (2/3) + (1/2) (2/4) = 7/12
321

Ako to uvrstimo dobijemo:


P(K1|S) = (1/3) / (7/12) = 4/7
Ovakav problem moe se prikazati ukupnom formulom, koja se zove Bayesov teorem:
P(K 1 | S) = P(K 1 , S) / P(S) =

P( K 1 ) P(S | K 1 )
P( K 1 )P (S | K 1 ) + P (K 2 )P (S | K 2 )

Odnosno openito: Imamo dogaaj A sa k moguih rezultata A1, A2,....Ak, koji su nezavisni i zbroj
njihovih vjerojatnosti je 1. i P(Ai) = 1. Takoer imamo dogaaj E koji se dogaa poslije dogaaja A.
Tada je:
P(A i | E) =

P (A i , E )
P ( A i ) P( E | A i )
=
P( E )
P( A 1 ) P( E | A 1 ) + P (A 2 )P (E | A 2 ) + ...... + P (A k ) P( E | A k )

Za pronalaenje rjeenja Bayesovog problema moe se koristiti i stablo dijagram. Primjer sa dva
kaveza i bijelim i smeim mievima moe se ovako prikazati:

S
2
3

( 12) ( 23)

1
3

( 12) (13)

K1
1
2

B
S
2
4

1
2

( 12) ( 24)

K2
2
4

( 12) ( 24)

Iz dijagrama se lako proita ona vjerojatnost koja nas zanima. Na primjer, vjerojatnost da je mi smei i
iz prvog kaveza je (1/2) (2/3) = 1/3, a vjerojatnost da je smei i iz drugog kaveza je (1/2) (2/4) = (1/4)
Pogledajmo jo jedan primjer: Za umjetno osjemenjivanje jednog velikog stada mlijenih krava koritena
su dva bika. Bik jedan koristi se na 60% krava a bik 2 na 40% krava. Zna se podatak koliko je postotak
uspjenog osjemenjivanja po jednoj dozi za svakog bika. Prvi bik ima 65% a drugi bik ima 82%. Za
jedno tele izgubljen je podatak sa ijom spermom mu je majka oploena. Koja je vjerojatnost da je otac
tog teleta bik 2?
P(A1) = vjerojatnost koritenja bika 1 u stadu = 0.6
P(A2) = vjerojatnost koritenja bika 2 u stadu = 0.4
E = dogaaj da se tele rodi
P(E| A1) = 0.65 = vjerojatnost uspjene oplodnje ako se zna da je bik 1
322

P(E| A2) = 0.82 = vjerojatnost uspjene oplodnje ako se zna da je bik 2


P(A 2 , E )
P (A 2 )P (E | A 2 )
=
=
P( E )
P( A 1 ) P ( E | A 1 ) + P( A 2 ) P ( E | A 2 )
(.4)(.82)
=
= 0.457
(.6)(.65) + (.4)(.82)
P(A 2 | E) =

Vjebe:
3.1. Znamo da se u tali nalaze 9 krava. Njihove zabiljeene koliine mlijeka u proloj laktaciji su:
Krava
Mlijeko (kg)

1
3700

2
4200

3
4500

4
5300

5
5400

6
5700

7
6100

8
6200

9
6900

Ako sluajno izaberemo kravu koja je vjerojatnost: a) da je imala vie od 5000 kg, b) manje od 5000 kg.
Ako izaberemo sluajno dvije krave koja je vjerojatnost: c) da su obje krave imale vie od 5000, d) da je
barem jedna imala vie od 5000 kg, e) da jedna ima vie od 4000 kg, a druga vie od 5000 kg.

323

4 Sluajne varijable i njihove raspodjele


Sluajna varijabla je pravilo ili funkcija koja pridruuje numerike vrijednosti nekom opaanju ili
mjerenju. Zovemo je sluajnom varijablom jer broj koji se pridruuje opaanju je numeriki dogaaj
koji varira sluajno, tj. moe poprimiti razliite vrijednosti kod razliitih i ponovljenih mjerenja i
opaanja nekog eksperimenta. Sluajna varijabla poprima odreeni numeriki dogaaj sa odreenom
vjerojatnosti.
Simbol y e oznaavati varijablu, a yi predstavlja vrijednost i-tog opaanja. Ako mislimo na neko
odreeno opaanje subskript i emo zamijeniti brojem (y1, y2, itd). Simbol y0 oznaavat e odreenu
vrijednost koju y poprima, npr. y y0 znai da varijabla y poprima sve vrijednosti koje su manje ili
jednake nekoj vrijednosti y0.
Sluajne varijable mogu biti diskretne ili kontinuirane. Kontinuirana varijabla je ona koja moe
poprimati sve vrijednosti u nekom intervalu (realnih brojeva). Npr. teina teladi starih 6 mjeseci moe
poprimati bilo koju vrijednost u intervalu od 160 do 260 kg, recimo 180.0 ili 191.23456 itd.
Nepreciznost (ili preciznost) mjernih aparata limitira na kojoj decimalu emo vrijednost i izmjeriti.
Diskretna varijabla je ona koja poprima samo odreeni broj vrijednosti (esto cijele brojeve), ali ne sve
vrijednosti u nekom intervalu. Npr. broj latica u cvijetu, broj mladih u leglu. i sl.
Vrijednost varijable y je numeriki dogaaj i kao takav ima odreenu vjerojatnost da se dogodi. Tablica,
grafikon ili formula koji pokazuje tu vjerojatnost zove se raspodjela vjerojatnosti za sluajnu varijablu
y. Spomenuli smo da je populacija ime za osnovni skup ili izvor podataka. Ukoliko govorimo o
konanoj ili prebrojivoj populaciji, raspodjela frekvencija populacije je raspodjela vjerojatnosti sluajne
varijable. esto su populacije neprebrojive, a to pogotovo vrijedi za populacije kojima je pridruena
kontinuirana sluajna varijabla. U tom sluaju raspodjela vjerojatnosti prikazana formulom je
matematiki model prave raspodjele frekvencija. esto upotrebljavani sinonim za raspodjelu je rije
distribucija.

4.1 Oekivanje i varijanca sluajne varijable


Vani pokazatelji poloaja i varijabilnosti sluajne varijable su oekivanje (prosjek) i varijanca sluajne
varijable. esto se za prosjek kae oekivanje jer ono to oekujemo da e sluajno biti izabrano iz
skupa opaanja je prosjek, odnosno tipini predstavnik populacije . Ako se na primjer govori o
simentalskom govedu i ne navodi se nikakve posebne karakteristike, tada je slika koju slualac ima na
pameti prosjeno simentalsko govedo sa prosjenom teinom, visinom, proizvodnjom mlijeka i sl.
Oekivanje od y je:
E(y) = y
Varijanca od y je:
Var(y) = 2y = E[(y - y)2] = E(y2) - y2
Standardna devijacija je drugi korijen iz varijance:
=

424

Oekivanje i varijance prilikom mnoenja sa konstantom ili zbrajanja sa konstantom ili drugom
varijablom slijede odreena pravila. Spomenut emo slijedee teoreme o oekivanju i varijanci:
1) oekivana vrijednost konstante c je :
E(c) = c
2) oekivana vrijednost (prosjek) od cy:
E(cy) = cE(y)
3) oekivana vrijednost (prosjek) od x+y je
E(x+y) = E(x) + E(y)
4) varijanca konstante
Var(c) = 0
5) Varijanca umnoka konstante i varijable:
Var(cy) = c2 Var(y)
6) Kovarijanca dvije sluajne varijable x i y
Cov(x,y) = E[(x - x)(y - y)] =
= E(xy) E(x)E(y) =
= E(xy)-xy
Kovarijanca jepokazatelj zajednikog variranja dvije sluajne varijable.
7) Varijanca zbroja dvije sluajne varijable
Var(x+y) = var(x) + Var(y) + 2Cov(x,y)

4.2 Raspodjele vjerojatnosti za diskretne sluajne varijable


Raspodjela vjerojatnosti za diskretnu sluajnu varijablu y je tabelarni ili grafiki prikaz ili formula koja
daje vjerojatnost p(y) za svaku moguu vrijednost varijable y. Raspodjela vjerojatnosti p(y) mora
zadovoljiti dva uvjeta:
1. 0 p(y) 1
2. (svi y) p(y) = 1
Primjer: Pogledajmo na jednostavnom primjeru raspodjelu vjerojatnosti i nain provjeravanja uvjeta.
Pokus se sastoji od bacanja dva novia. Neka G i P oznaavaju glavu i pismo. Sluajna varijabla y
definirana je kao broj glava u jednom bacanju dva novia. Mogui rezultati su 0, 1, i 2. Koja je
raspodjela vjerojatnosti za varijablu y?
Napiimo radi preglednosti pokus u tablici. Oznaimo jednostavne dogaaje sa E1, E2, E3 i E4. Naime
imamo etiri mogua jednostavna dogaaja GG, GP, PG, i PP.
Jednostavni dogaaj
E1
E2
E3
E4

Opis
GG
GP
PG
PP

y
2
1
1
0

p(y)
1
/4
1
/4
1
/4
1
/4

Iz tablice slijedi:
425

Vjerojatnost da je y = 0 je p(y = 0) = p(E1) = 1/4 .


Vjerojatnost da je y = 1 je p(y = 1) = p(E2) + p(E3) = 1/4 + 1/4 = 1/2 .
Vjerojatnost da je y = 2 je p(y = 2) = p(E4) = 1/4.
Dakle raspodjela vjerojatnosti varijable y je:
y
0
1
2

p(y)
/4
1
/2
1
/4
1

Provjerimo uvjete:
1) Vjerojatnost svake vrijednosti varijable je izmeu 0 i 1,
2) Suma vjerojatnosti svake vrijednosti varijable y je jednaka 1, tj. p(y = 0) + p(y = 1) + p(y = 2) = 1.
Kumulativna raspodjela vjerojatnosti F(yi) govori o vjerojatnosti da varijabla y poprima vrijednosti
manje ili jednako nekoj vrijednosti yi:
F(yi) = P(y yi)
Koristei gornji primjer sa bacanjem dva novia, odredimo kumulativnu raspodjelu.
y
0
1
2

p(y)
1/4
1/2
1/4

F(y)
/4
3
/4
4
/4
1

Kumulativna vjerojatnost F(1) = 3/4, praktino znai koja je vjerojatnost da y bude 0 ili 1, tj. koja je
vjerojatnost da u bacanju dva novia bude barem jedno pismo.

4.2.1 Oekivanje i varijanca diskretne sluajne varijable


Oekivanje ili prosjek diskretne varijable y je definirano kao:
=E(y)=

i p(yi) yi.

i = 1 do n

Varijanca diskretne sluajne varijable y je definirana sa:


2

var(y) = 2 = E{[y-E(y)]2} = i p(yi) [yi-E(y)]

i = 1 do n

Pogledajmo izraunavanje oekivanja i varijance na primjeru sa bacanjem dva novia:


Oekivanje:
=E(y)= i p(yi) yi = (1/4) (0)+ (1/2) (1) + (1/4) (2) = 1
Oekujemo da u bacanju dva novia dobijemo jedno pismo i jednu glavu.
Varijanca:
var(y) = 2 = i p(yi) [yi-E(y)] = (1/4) (0-1)2 + (1/2) (1-1)2 + (1/4) (2-1)2 = (1/2)
2

426

Napravimo jo jedan primjer sa prikazom raspodjele vjerojatnosti, kumulativne raspodjele vjerojatnosti i


izraunavanjem prosjeka i varijance. Neka je y sluajna diskretna varijabla koja poprima vrijednosti od
1 do 5 sa slijedeom raspodjelom vjerojatnosti:
y
frekvencija
p(y)

1
1
1
/10

2
2
2
/10

3
4
4
/10

4
2
2
/10

5
1
1
/10

1) 0 p(y) 1 ==> vrijedi


2) i p(yi) = 1 ==> vrijedi
Kumulativna frekvencija od 3 = 7
F(3) = P(y 3) = P(1) + P(2) + P (3) = (1/10) + (2/10) + (4/10) = (7/10)
P(y>3) = P(4) + P(5) = (2/10) + (1/10) = (3/10) ili
P(y>3) = 1 - P(y 3) = 1 -(7/10) = (3/10)
Prosjek =E(y)=

i yi p(yi) = (1) (1/10) + (2) (2/10) + (3) (4/10) + (4) (2/10) + (5) (1/10) = (30/10) = 3

Varijanca
var(y) = E[(y-E(y)2] = i p(yi) [yi-E(y)]2 =
(1/10) (1-3)2 +(2/10) (2-3)2 +(4/10) (3-3)2 +(2/10) (4-3)2 +(1/10) (5-3)2 = 1.2

4.2.2 Binomna raspodjela


Binomna raspodjela vjerojatnosti je raspodjela sluajne binomne varijable, vezana na samo dva mogua
rezultata neke pojave, npr. DA i NE ili 0 i 1. Drugim rijeima, opaanje elementarnog dogaaja
poprime samo dvije mogue vrijednosti. Binomna raspodjela govori o raspodjeli vjerojatnosti razliitih
yi povoljnih pokuaja u ukupno n pokuaja. Karakteristike binomnog pokusa su:
1) Pokus se sastoji od n jednakovrijednih pokuaja, nezavisnih jedan o drugome,
2) Postoji samo dva mogua rezultata pokuaja. Oznait emo ih sa D (da) i N (ne).
3) Vjerojatnost da dobijemo D je ista iz pokuaja u pokuaj. Oznait emo ga sa p. Vjerojatnost od N
oznait emo sa q. Tako je p + q = 1
4. Sluajna varijabla y je broj povoljnih rezultata (D) u ukupno n pokuaja.
Raspodjela vjerojatnosti sluajne varijable y je odreena sa parametrom p i brojem pokuaja n:
n
p( y) = p y q n y
y
(y = 0,1,2,....,n)
gdje su:
p = vjerojatnost povoljnog rezultata u pojedinanom pokuaju (vjerojatnost elementarnog dogaaja).
q = 1-p = vjerojatnost nepovoljnog rezultata
Binomna raspodjela ima iroku primjenu u istraivanjima i selekciji domaih ivotinja. Pitanja kao to
su da li e tele narasti do odreene granice, da li e ivotinja oboljeti ili nee, mogu dobiti odgovor
primjenom binomne raspodjele.
Primjer. Treba pronai raspodjelu vjerojatnosti broja enskih teladi u tri telenja. Pretpostavimo da e se
oteliti samo jedno tele kod svakog telenja i da je vjerojatnost u jednom telenju da bude ensko p = 0.5.
427

Sluajna varijabla y je definirana kao broj enskih teladi u tri telenja. Mogui rezultati su 0, 1, 2 i 3.
Oito da je raspodjela vjerojatnosti binomna sa p = 0.5 i n = 3:
3
p( y) = (0.5) y (0.5) 3 y
y
(y = 0,1,2,3)
Prikaimo u tablici mogue vrijednosti y i pripadajue vjerojatnosti:
y
p(y)
3
(0.5) 0 (0.5) 3 = 0.125
0
0
1
2
3

3
(0.5)1 (0.5) 2 = 0.375
1
3
(0.5) 2 (0.5)1 = 0.375
2
3
(0.5) 3 (0.5) 0 = 0.125
3

Suma vjerojatnosti svih moguih vrijednosti sluajne varijable y je:

i p(yi) = 1
Oekivanje i varijanca binomne varijable su:
= E(y) = np

2 = var(y) = npq

Oblik raspodjele vjerojatnosti ovisi o vrijednosti parametra p. Binomna raspodjela je simetrina samo
kada je p = 0.5, a asimetrina u svim ostalim sluajevima. Slika 3-1 prikazuje binomne raspodjele za n
= 8, te kada je p=0.5 i p= 0.2.
A)

B)

0.3

fre 0.25
kve 0.2
nci
0.15
ja
0.1

0.4

fre
kve 0.3
nci
0.2
ja
0.1

0.05

0
0

broj povoljnih pokuaja

broj povoljnih pokuaja

Slika 41: Slika Binomna raspodjela (n = 8) za dva sluaja A) p=0.5 i B) p = 0.2

Primjer: U populaciji svinja neka je bolest odreena jednim gen lokusom. Taj gen ima dva alela: B i b.
Bolest je vezana na recesivni gen b, tj. samo ivotinje sa genotipom bb e pokazati bolest, dok su
ivotinje Bb samo prenosioci. Neka je proporcija bolesnog alela b jednaka 0.5 Ako parimo nerasta i
krmau sa Bb genotipom kolika je vjerojatnost da je u leglu od 10 praia:
428

a) nijedan prai nije bolestan


b) najmanje jedan prai je bolestan
c) tono pola legla bolesno
d) koliko je praia najvjerojatnije bolesno
Proporcija alela b je 0.5, a to znai da je vjerojatnost da je pojedini prai bolestan, tj da ima genotip
bb jednaka (0.5)(0.5) = 0.25. Takoer vjerojatnost da nije bolestan je 1 - 0.25 = 0.75.
Rjeenje: koristi se funkcija binomne raspodjele sa p = 0.25 i n = 10.
10
a) P( y = 0) = p 0 q 10 = 1(0.25) 0 (0.75) 10 = 0.056
0
b) P(y 1) = P( y 1) = 1 P( y = 0) = 1 0.056 = 0.944
10
10!
(0.25) 5 (.75) 5 = 0.058
c) P( y = 5) = p 5 q 5 =
5
5!5!

d) prosjek = np = 2.5, tj izmeu dva i tri praia je najvjerojatnije bolesno (P(2) = .282 i P(3) = .25)
Pogledajmo jo jedan primjer. Farmer kupuje po visokoj cijeni kravu za koju se nada da e postati
bikovska majka. Pitanje: Koliko najmanje teladi mora ta krava oteliti, da bi vjerojatnost da je barem
jedno tele muko bila vea od 0.99.
Rjeenje: Uzet emo da je vjerojatnost pojedinanog telenja da bude muko tele 0.5.
Koristimo binomnu raspodjelu
Da barem jedno tele bude muko vjerojatnost treba biti vea od 0.99:
P(y = 1) > 0.99
Koristei binomnu raspodjelu, izraz za vjerojatnost da barem jedno tele bude muko je jednaka da se od
1 oduzme vjerojatnost da tele ne bude muko:
n 0 n
P(y = 1) = 1 - P(y<1)= 1 - P(y=0) = 1- (12 ) (12 )
0
Dakle :
n 0 n
1 (12 ) (12 ) > 0.99
0
Trai se rjeenje nejednadbe za n
Rjeenje je : n > 6.64
Ili zaokrueno na cijeli broj
n=7
U ovom primjeru pretpostavili smo da je vjerojatnost da bude muko tele u pojedinom telenju nezavisna
jedna od druge, tj. ako je na primjer krava ve otelila 6 enskih teladi, u sedmom telenju gledajui
posebno, vjerojatnost da bude muko tele je opet 0.5.

4.2.3 Hipergeometrijska raspodjela


Pretpostavimo populaciju u kojoj takoer mogui pojedinani rezultat pokuaja je D ili N, ali je
populacija konana, tj. svaki slijedei pokuaj ovisi o rezultatu prethodnih. Hipergeometriska raspodjela
nam govori koliko ima povoljnih pokuaja (y) ako se iz konane populacije veliine N izabire uzorak
veliine n bez vraanja izvuenog elemenata natrag u populaciju. Takoer je poznato da u populaciji
ima R povoljnih elemenata.

429

Sluajna varijabla y je broj povoljnih pokuaja u uzorku veliine n pokuaja izvuenih iz populacije
veliine N. (konane populacije)
R N R


y n y

p( y ) =
N

n
y = sluajna varijabla, broj povoljnih pokuaja u uzorku
R = broj povoljnih elemenata u populaciji
N = veliina populacije
n = veliina uzorka
n - y = broj nepovoljnih pokuaja u uzorku
N - R = broj nepovoljnih elemenata u populaciji
Svojstva: 1. n < N
2. 0 < y < min(R,n)
Oekivanja i varijanca su:
nR
=
N
nR ( N R )
n 1
2 =
1

2
N 1
N

Pogledajmo primjer. U boksu se nalazi 12 mukih i 6 enskih praia. Ako izaberemo sluajno 6
praia koja je vjerojatnost da bude 5 mukih i jedna enska.
R N R 12 6


y n y 5 1

= 0.2559
=
p(y) =
18
N


6
n
Dakle, vjerojatnost da bude izabrano 5 mukih i jedno ensko prase je 0.2559.

4.2.4 Poisson raspodjela


Poissson raspodjela vjerojatnosti daje model za relativnu frekvenciju rijetkih dogaaja a esto se koristi
za odreivanje vjerojatnosti da e se neki dogaaj dogoditi u odreenom vremenu danom volumenu ili
povrini. Npr. broj bakterija vidljivih pod mikroskopom na odreenoj povrini, broj mutacija, ili
raspodjela ivotinja u polju. Sluajna varijabla y je broj koliko puta se neki dogaaj dogodi u
odreenom vremenu, ili danom volumenu ili povrini. Vjerojatnost da e se neki dogaaj dogoditi jednak
je za bilo koji dio vremena volumena ili povrine. Ovdje nije potrebno znati broj uspjeha, nego je
dovoljno znati proporciju povoljnih pokuaja u jedinici opaanja. Kada je p mali a n velik binomna
raspodjela se moe aproksimirati sa Poisson raspodjelom vjerojatnosti.
Funkcija vjerojatnosti je definirana sa:
e y
p(y) =
y!
Gdje je prosjean broj uspjeha u danoj jedinici vremena, volumena ili povrine, a e je baza prirodnog
logaritma (e = 2.71828).
Karakteristika poissonove varijable je da su i oekivanje i varijanca jednake parametru .:
430

=
var (y) = 2 =
Primjer. U populaciji mieva njih 2% ima rak. U grupi od 100 mieva, koja je vjerojatnost da vie od
jednog mia ima rak.
= = 100 (.02) = 2 (prosjek, oekivanje je 2% od 100)
p(y) =

e 2 2 y
y!

P(y > 1) = 1 - P(y =0) - P(y=1) = 1 - 0.1353 - 0.2706 = 0.5941


Vjerojatnost da u uzorku od 100 mieva vie od jednog ima rak je 0.5941.

4.2.5 Multinomna raspodjela


Multinomna raspodjela vjerojatnosti je generalizacija binomne raspodjele. Rezultat pokuaja nije vie
samo Da ili NE, nego moe biti vie od dva rezultata u pojedinanom pokuaju i svaki rezultat ima
svoju vjerojatnost da se dogodi. Postoji dakle, k razliitih rezultata pojedinog pokuaja svaki sa svojom
vjerojatnosti: p1, p2,...., pk. Pojedinani pokuaji su nezavisni. Sluajne varijable su broj pojedinih
rezultata u n pokuaja, tj., y1 za rezultat 1, y2 za rezultat 2, ...., yk za rezultat k. Funkcija raspodjele
vjerojatnosti je:
p( y1 , y 2 ,..., y k ) =

n!
p1y 1 p2 y 2 ...p k y k
y1! y 2 !.....y k !

Takoer mora vrijediti:


1. n = y1 +y2+ ... + yk
2. p1 +p2+ ... + pk = 1
Svaki dogaaj ima svoj prosjek i varijancu. Za dogaaj i prosjek i varijanca su:
i = npi
2i = npi(1-pi)
Kovarijanca izmeu broja rezultata dva dogaaja (ni i nj) je:
Cov(ni,nj) = -npipj
Primjer: Tekoa sa kojom se krava oteli definirana u tri kategorije: 1 2 3. Koja je vjerojatnost da od
10 krava 8 bude u prvoj kategoriji a po jedna u ostale dvije kategorije, ako se zna da je vjerojatnost
jednog telenja da bude u kategorijama 1, 2 ili 3 jednaka 0.06, 0.3 i 0.1?
p1 = 0.06, p2 = 0.3, p3 = 0.1
p(8,1,1)

10!
(0.6) 8 (0.3)1 (0.1)1 = 0.045
8!1!1!

Vjerojatnost da od 10 krava tono 8 bude u kategoriji 1, a po jedan u ostale dvije kategorije je 0.045.

431

4.3 Raspodjele vjerojatnosti za kontinuirane sluajne varijable


Kontinuirana sluajna varijabla poprima neprebrojivo mnogo vrijednosti i zato je nemogue pridruiti
vjerojatnost za svaki pojedinani numeriki dogaaj koju ona poprima. Naime, teoretski vrijednost
kontinuirane varijable je toka, a matematiki toka nema dimenzije. Zato je i vjerojatnost da sluajna
varijabla poprimi neku odreenu vrijednost jednaka nuli. Kod kontinuirane varijable vano je definirati
funkciju kumulativne raspodjele ili promatrati vjerojatnost da varijabla y poprima vrijednosti u nekom
intervalu. Tada vjerojatnost pridruujemo numerikom dogaaju koji se odnosi na neki interval.
Uzmimo na primjer sluajnu varijablu teinu teladi. Brojeve koje pridruujemo pojedinom mjerenju
zavise od preciznosti mjerenja. Ukoliko je preciznost na 1 kg, tada na primjer izmjera od 220 kg se
odnosi na skup vrijednosti u nekom intervalu okolo 220 kg, recimo 219,5 do 220.5 kg. Poto se radi o
intervalu, takav numeriki dogaaj ima svoju pridruenu vjerojatnost. Iz tog razloga kod kontinuirane
varijable ne govorimo o funkciji vjerojatnosti pojedinih dogaaja, nego o funkciji vjerojatnosti gustoe.
Rije gustoa podsjea nas da govorimo o vjerojatnosti u intervalima. Funkcija gustoe je model prave
raspodjele frekvencije, koja je kod kontinuirane varijable nepoznata.
Funkcija kumulativne raspodjele F(y0) za sluajnu varijablu y, koja poprima vrijednost y0 je jednaka:
F(y0) = P(y y0)
Praktino, ovdje se radi o vjerojatnosti koja se pridruuje svim mjerenjima manjim od na primjer 220
kg. Svojstvo sluajne kontinuirane varijable je da je njena funkcija kumulativne raspodjele neprekidna.
Ako sluajna varijabla y poprima vrijednosti izmeu y0 i y0+y, funkcija gustoe je definirana :
P( y 0 y y 0 + y)
f (y 0 ) = lim y 0
y
Takoer slijedi da je
f(y) = dF(y) / dy
tj. prva derivacija od funkcije kumulativne raspodjele, a
F( y) =

f ( y)dy

Odreeni integral funkcije odgovara povrini ispod krivulje u intervalu (-, y).
Da bi neka funkcija bila funkcije gustoe mora zadovoljavati slijedea svojstva:
1. f(yi) = 0

2.

M ( y)dy = 1

ili drugaije pisano P(- y +) = 1 tj. vjerojatnost da se dogodi bilo koji y je jednaka 1.
Oekivana vrijednost kontinuirane sluajne varijable je:

E( y) = y = yM ( y)dy

Vjerojatnost da e y poprimiti vrijednosti izmeu y1 i y2


y2

P( y1 y y 2 ) = M ( y)dy
y1

to odgovara povrni ispod f(y) ogranienoj sa y1 i y2.


432

Ponovimo jo jedanput ukratko koja su svojstva kontinuirane varijable:


1. Kumulativna raspodjela, F(y) je neprekidna
2. sluajna varijabla y poprima nebrojivo mnogo vrijednosti
3. Vjerojatnost da y poprima neku odreenu vrijednost je jednaka nuli.

4.3.1 Uniformna raspodjela


Sluajno izabrana varijabla y u intervalu a y b zove se uniformna sluajna varijabla. Uniformna
varijabla je takva varijabla koja ima istu vjerojatnost da se dogodi za bilo koju vrijednost yi u intervalu
a do b.
Funkcija gustoe ima formulu
1
f ( y) = b =a
0

ako a y b
zasvaki drugi y

Oekivanje i varijanca su:


a+b
=
2
(b a ) 2
2 =
12

4.3.2 Normalna raspodjela


Normalna krivulja predstavlja model raspodjele relativnih frekvencija u mnogim pojavama. Isto tako
normalnu raspodjelu slijede mnogi pokazatelji koji se koriste za statistiko zakljuivanje. esto se
normalna krivulja naziva i Gaussova krivulja, jer ju je C. F. Gauss prvi predloio kao model za
relativnu frekvenciju greke kod mjerenja. Normalna krivulja ima oblik zvona a njezin poloaj i oblik
odreeni sa dva parametra: prosjekom i varijancom 2. Funkcija gustoe normalne raspodjele je:
1

f ( y) =

1
2

( )
y 2

e
2 2
- < y < +

gdje su i 2.parametri funkcije, e je baza prirodnog logaritma (e=2.71828...) i = 3.14... Kratko se


moe napisati da je neka varijabla y normalna sluajna varijabla:
y a N (, 2)
Parametri i 2 predstavljaju prosjek i varijancu raspodjele. Podsjetimo se da je standardna devijacija
jednaka:
= ,
i predstavlja prosjeno odstupanje od srednje vrijednosti.
2

Normalna krivulja je simetrina s obzirom na prosjek. Toke infleksije krivulje nalaze se na


( - ) i ( + ), tj. na udaljenosti 1 standardne devijacije. Krivulja govori da se u intervalu 1.96
nalazi teoretski 95% obiljeja, tj.

433

P (1.96 y 1.96) = 0.95

2.5%

2.5%

1.96

+1.96

Slika 42: Normalna (Gaussova) krivulja


Visina i rasprenost krivulje ovisi o parametru 2, odnosno o standardnoj devijaciji . Poveanje
dovodi da krivulja smanjuje visinu i vie je rairena. Na slici 4-3 su prikazane dvije krivulje sa = 1 i
= 1.5. Obje krivulje imaju isti poloaj tj. parametar = 0.
0.4
= 1
= 1.5

Frrekvencija

0.3
0.2
0.1
0
-4

-3

-2

-1

Slika 43: Normalne krivulje sa parametrima = 1 i = 1.5

Kao i za sve funkcije gustoe i za normalnu funkciju vrijede slijedea svojstva:


1) f(yi) = 0,
vjerojatnost pojedinane vrijednosti (toke) je jednaka nuli;

2)

M ( y)dy = 1

ili drugaije pisano P(- y +) = 1, tj., vjerojatnost da se dogodi bilo koji y je jednaka 1.
Vjerojatnost da se normalna sluajna varijabla nalazi u intervalu (y1, y2) izraena je sa:
y2

P( y 1 < y < y 2 ) =
y1

1
2 2

( )

y 2

434

Primjer: Na slici 4-4 je prikazana normalna krivulja sa prosjekom = 200 i standardnom devijacijom
= 20. Iscrtano je prikazana povrina ispod krivulje u intervalu od - do y0 = 230, tj. Vrijednost
kumulativne raspodjele za y0 = 230:
F(y0) = P(y y0) = P(y 230)
Vrijednost kumulativne raspodjele za prosjek je jednaka 0.5, jer je krivulja simetrina:
F() = P(y ) = 0.5

= 200

y0 = 230

Slika 44: Normalna krivulja sa = 200 i = 20


Ponovimo jo jedanput da vjerojatnost da y bude tono y0 = 230 je jednaka nuli, tj. P(y0) = 0. Meutim
u praksi vjerojatnost da y bude 230, obino znai interval, na primjer,
P(229.5 y 230.5) i takva vjerojatnost je razliita od nule.
Primjer: Pretpostavimo iste parametre kao i u prolom primjeru, tj. = 200 i = 20. Kolika je
vjerojatnost da varijabla y poprimi vrijednosti izmeu 170 i 210.
Na slici 4-5 prikazana je povrina ograniena sa y1 = 170 i y2 = 210.
U odnosu na cijelu povrinu ispod krivulje ona predstavlja vjerojatnost da z poprima vrijednosti izmeu
170 i 210:
P(y1 y y2) = P(170 y 210)

y1 = 170

y2 = 210
= 200

Slika 45: Povrina ispod normalne krivulje ograniena vrijednostima 170 i 210
Zbog injenice da oblik krivulje ovisi samo o standardnoj devijaciji , sve normalne krivulje se mogu
standardizirati, tj. svesti na standardnu normalnu krivulju takvu da je = 0 i = 1. To se radi tako da
se sluajna normalna varijabla y izrazi u jedinicama standardne devijacije:

435

y=+z
ili drugaije pisano
z=

Obino se simboliki pie da je neka varijabla z iz standardne normalne raspodjele


z a Z ili z a N(0, 1)
Praktina vrijednost ove transformacije je u tome to sada imamo samo jednu krivulju, koju koristimo
za pronalaenje povrine ispod krivulje ogranienu nekim intervalom. Podsjetimo se da je povrina
ispod krivulje u nekom intervalu (a,b) odgovara vjerojatnosti da sluajna varijabla y poprima vrijednosti
u tom intervalu. Matematiki povrina ispod krivulje je jednaka odreenom integralu funkcije gustoe.
Kako ne postoji eksplicitna formula za taj integral, sluimo se tablicama (bilo iz knjige ili
kompjuterskog programa). Poto je mogue sve normalne krivulje svesti na standardnu, potrebno je
imati samo jednu tablicu. Povrina ispod standardne normalne krivulje ograniena sa dvije vrijednosti
standardne normalne varijable z1 i z2, predstavlja vjerojatnost da varijabla poprime vrijednosti izmeu ta
dva broja. Ukupna povrina je jednaka jedan:
P(- z +) = 1

1.96

-1

1.96

95%

Slika 46: Standardna normalna krivulja ( = 0 i 2 = 1)


Za standardnu normalnu krivulju vrijedi P(-1.96 z 1.96) = 0.95, tj. vjerojatnost je 0.95 da e
standardna normalna varijabla z poprimiti vrijednost u intervalu od -1.96 do +1.96.
Primjer: Izraunajmo vjerojatnosti iz primjera sa = 200 i = 20. Kolika je vjerojatnost da varijabla y
poprimi vrijednosti manje od 230? Kolika je vjerojatnost da varijabla y poprimi vrijednosti vee od 230?
Zadano je:
= 200
= 20
y0 = 230

436

Prvo treba odrediti kolika je vrijednost standardne normalne varijable, recimo z0, koja odgovara
vrijednosti y0 = 230 (Slika 4-7).
230 200
= 1.5
z0 =
20
Drugim rijeima, to znai da je 230 udaljen 1.5 standardnih devijacija od prosjeka.

=230
0

y0=230

1.5

Slika 47: Prikaz normalne i standardne normalne krivulje. Prikazane su dvije skale: originalna skala y i
standardna normalna skala z. Vrijednost varijable y0 = 230 odgovara vrijednosti z0 = 1.5.

Vjerojatnost da je y manji od y0 je jednaka vjerojatnosti da je z manje od z0.


P(y y0) = P(z z0) = P(z 1.5) = 0.9332
Broj 0.9332 se proita u tablici (Prilog: Povrine ispod standardne normalne krivulje) za vrijednost
z0 = 1.5.
Poto je ukupna povrina jednaka jedan tada je vjerojatnost za je y0 vei od 230 jednaka:
P (y > y0) = 1 - P(z z0) = 0.0668
Primjer: Za normalnu raspodjelu sa istim parametrima odredimo vjerojatnost da varijabla poprima
vrijednosti od 170 do 210.
Dakle:
y1 = 170
y2 = 210
Izraunamo odgovarajue standardne vrijednosti, recimo z1 i z2:
170 200
=-1.5
20
210 200
= 0.5
z2
20
z1 =

437

Treba nai vjerojatnost da varijabla poprima vrijednosti izmeu -1.5 i 0.5 standardnih devijacija. Ne
zaboravimo da je normalna krivulja simetrina, a to znai da vrijedi:
P(z -z0) = P(z z0)

ili za na primjer

P(z -1.5) = P(z 1.5)


Vjerojatnost da je y izmeu 170 i 210 je:
P(y1 y y2) = P(170 y 210) = P(z1 z z2) = P(-1.5 z 0.5) = 0.4332 + 0.1915 = 0.6247

170
-1.5

200 210

0 0.5

Slika 48: Povrina ispod krivulje izmeu 170 i 210.

Primjer. Iz normalne raspodjele sa parametrima = 200 i = 20, treba odabrati 20% najboljih jedinki.
Koja e biti teoretska donja granica sa kojom bi ivotinja ula u najboljih 20%.
Definiranjem 20% najboljih jedinki , odreena je proporcija odnosno povrina ispod standardne
normalne krivulje od nekog broja z0 do beskonanosti:
P(z0 y + ) = 0.20
Prvo treba pronai koliki je z0.
U tablici vidimo da z0 koji odgovara povrini 0.20 je jednak 0.84.
Dakle, z0 = 0.84
Sada treba taj z0 pretvoriti u y0 tj. u prave jedinice koristei izraz.
z0 =

y0

odnosno
y0 = + z0
y0 = 200 + (0.84)(20) = 216.8
438

Teoretski bi ivotinje sa najmanje 216.8 ule u najboljih 20%.


esto je pitanje i koliki e biti prosjek odabranih ivotinja. Na slici 4-9 je prikazan problem grafiki. Na
slici je zs = prosjek z vrijednosti za koje vrijedi z > z0, z vrijednosti veih od z0. Za takvu procjenu
moemo koristiti uz tablicu povrina i tablicu ordinata standardne normalne krivulje (vidi dodatak).
Naime za standardnu normalnu krivulju vrijedi:
z'
zS =
P
Gdje su :Povrina ispod standardne normalne krivulje za z>z0, a z' je ordinata za vrijednost z0.

z'
0

z0

zS

zz

Slika 49 Prosjek odabranih z vrijednosti. z' = ordinata krivulje za z = z0, P je povrina, odnosno
vjerojatnost P(z>z0) i zS je prosjek vrijednosti veih od z0.
Primjer: Pretpostavimo normalnu raspodjelu sa parametrima = 200 i = 20. Koliki je teoretski prosjek
jedinki koje imaju vrijednost vie nego y0 = 230.
Odgovarajua z vrijednost je:
230 200
= 1.5
z0 =
20
Ve smo vidjeli iz tablice povrina ispod normalne krivulje da je:
P (y > y0) = 1 - P(z z0) = 0.0668
Vrijednost ordinate za z0 = 1.5 je (tablica Ordinate standardne normalne krivulje):
z' = 0.129518
Dakle prosjek standardiziranih vrijednosti veih od 1.5 je:
z ' 0.129518
= 1.94
zS = =
P
0.0668
Pretvorimo to u originalnu skalu:
yS = + z0 = 200 + (1.94)(20) = 238.8
Prosjek odabranih ivotinja je 238.8.

4.3.3 Hi kvadrat raspodjela


Pretpostavimo skup normalnih sluajnih varijabli zj (j = 1 do v) koje su nezavisne jedne od drugih sa
= 0 i = 1. Definirajmo sluajnu varijablu

439

2 (v) =

j z2j

Tada 2 (v) ima hi kvadrat raspodjele sa v stupnjeva slobode. Nagib i oblik hi kvadrat raspodjele zavisi
o stupnju slobode. Na slici 4-10 je prikazana hi kvadrat funkcija gustoe.

0.14
0.12
0.10
0.08
0.06
0.04
0.02
0.00
0

10

15

20

25

2 varijabla
Slika 410: Funkcija gustoe 2 (v) varijable sa stupnjem slobode v=6

4.3.4 Studentova (t) raspodjela


Neka je y normalna sluajna varijabla sa = 0 i = 1 i 2 hi-kvadrat sluajna varijabla sa v
stupnjevima slobode. Tada je:
z
tv =
(2v ) v
sluajna varijabla sa t-raspodjelom.

stupanj slobode v = 16
stupanj slobode v = 2

Slika 411: Funkcija gustoe t sluajnim varijablama sa stupnjevima slobode 16 i 2.


t raspodjela je po obliku slina normalnoj samo to sa smanjenjem stupnja slobode krivulja postaje
spljotenija u sredini, a vie razvuenija prema repovima (slika 4-11).

440

4.3.5 F-raspodjela
Neka su 21 i 22 hi-kvadrat sluajne varijable sa stupnjevima slobode v1 i v2. I neka su 21 i 22
nezavisni. Tada je:
2 v
F(v1,v2) = Fv1, v 2 = 12 1
2 v2
sluajna varijabla sa F - raspodjelom. Oblik F raspodjele ovisi o stupnjevima slobode (Slika 4-12).

Slika 412: F raspodjela

Vjebe:
4.1. Oekivana proporcija krava sa vie od 4000 kg mlijeka u standardnoj laktaciji je 30%. Ukoliko
kupimo 10 krava, a nita ne znamo o njihovom porijeklu, koja je vjerojatnost:
a) da tono 5 od njih bude sa vie od 4000 kg mlijeka u laktaciji, b) da barem dvije daju vie od 4000 kg
mlijeka.
Koristite binomnu distribuciju .
4.2. Kolika je ordinata standardne normalne krivulje za vrijednost varijable z = -1.05?
4.3. Pretpostavimo da je u populaciji krava prosjek koliine mlijene masti u laktaciji 180 kg, a
standardna devijacija je 36 kg.
Napiite teoretsku proporciju krava:
a) sa manje od 180 kg masti, b) sa vie od 250 kg masti, c) sa manje od 200 i vie od 190 kg, d) Ako
izaberemo 45% ivotinja sa najvie masti, koja e biti teoretska minimalna koliina masti sa kojom bi
pojedina ivotinja ula u najboljih 45%, d) koliki je oekivani prosjek izabranih 45% ivotinja.
4.4. Neka je E(y) = = 50, oekivana vrijednost ili prosjek sluajne varijable y.
Neka je varijanca Var (y) = 2 = 10. Napiite kolika su slijedea oekivanja i varijance:
a) E(2+y) = ,
b) Var(2+y) = ,
c) E(2 + 1.3y) =
d) Var(2 + 1.3y) =
e) E(4y + 2y) =
f) Var(4y + 2y) =
4.5. Pretpostavimo da je u populaciji krava prosjek postotka mlijene masti 4.1 %, a standardna
devijacija je .3 %.
Napiite teoretsku proporciju ivotinja:
a) sa manje od 4.0 % masti, b) sa vie od 4.0 % masti, c) sa manje od 4.5 i vie od 3.5 %, d) Ako
izaberemo 25% ivotinja sa najveim sadrajem mlijene masti, koja e biti teoretska minimalni sadraj
masti sa kojom bi pojedina ivotinja ula u najboljih 25% ivotinja, e) koliki je prosjek najboljih 25%
ivotinja?

441

5 Populacija i uzorak
Izvor podataka zove se populacija. Populacija je skup podataka koji ima neke zajednike karakteristike.
Drugim rijeima populacija je odreena definiranjem njenih karakteristika. Tako na primjer govorimo o
populaciji simentalskog goveda u Hrvatskoj, ali isto moemo rei i populacija junadi u dobi od jedne
godine hranjene nekim odreenim obrokom. Populacija moe biti konana ili beskonana. Konana
populacija je takva populacija kod koje moemo prebrojiti sve njezine lanove. Nasuprot tome
beskonana populacija je takva za koju ne znamo sve njezine lanove. Primjer konane populacije je
populacija studenata druge godine na stoarskom smjeru 2000 godine. Tono se zna koji su studenti i
njihov broj. Neprebrojiva populacija je na primjer populacija svinja u Hrvatskoj. Toan broj svinja se
ne zna, ako nita drugo zbog injenice da su neke ivotinje ve uginule, a da se svakog asa moe
oprasiti nova ivotinja. Da bi mogli opisati i donijeti zakljuke o populaciji potrebno je u najmanju ruku
znati neke karakteristike populacije kao to su mjere poloaja i varijabilnost. Idealno bi bilo kad bi znali
raspodjelu frekvencija. U najvie sluajeva to je nemogue, no esto se zato koristimo matematikim
modelom raspodjele frekvencija. Matematiki model je opisan i definiran parametrima. Parametri su
stalne vrijednosti koje govore o vezi sluajnih varijabli i njihovih frekvencija i obino de oznaavaju
grkim slovima. Tako je prosjek, a 2 je varijanca populacije. U pravilu vrijednosti parametra su
nepoznate, pa ih treba procijeniti iz uzorka. Uzorak je skup podataka izabran iz populacije. Numeriki
opisni pokazatelji izraunati iz uzorka nazivaju se statistika (eng statistics). Prosjek uzorka ( y ) i
standardna devijacija (s) primjeri su statistika. Statistike mogu biti i bilo koja funkcija sluajne
varijable, a i sami su dakle sluajne varijable. Jasno da je vano na koji se nain biraju uzorci iz
populacije, jer se vjerojatnost da smo dobro procijenili populaciju poveava ako je uzorak dobar
predstavnik populacije. Da bi dobro prezentirao populaciju uzorak mora biti sluajan. Za uzorak od n
lanova se kae da je sluajni uzorak ako je izabran na nain da svaki skup od n lanova ima jednaku
vjerojatnost da e biti izabran. Treba napomenuti da ukoliko je populacija konana i sakupljeni su
podaci za cijelu populaciju, tj. ukoliko ekonomski i drugi razlozi to doputaju, parametri se mogu i
direktno izraunati.

5.1 Raspodjele vjerojatnosti funkcija sluajnih varijabli u uzorku


Grafikim i tabelarnim opisom moemo vidjeti raspodjelu frekvencija uzorka. Ako je uzorak dovoljno
velik i reprezentativan, raspodjela uzorka je procjena raspodjele populacije iz kojeg je uzorak izabran.
No, u veini sluajeva uzorak nije dovoljno velik da bi tono prikazao raspodjelu populacije. Meutim, i
takav uzorak obino daje dovoljno informacija na temelju kojih se mogu donijeti zakljuci o populaciji.
Pokazatelji izraunati iz uzorka zovu se statistike. Statistike su funkcije sluajnih varijabli u uzorku
izabranih iz populacije. Osim aritmetike sredine i varijance uzorka mogu se izvesti i druge statistike
koje su takoer funkcije sluajnih varijabli. Kao takve moemo ih smatrati sluajnim varijablama koje
takoer imaju svoje teoretske raspodjele. Ukoliko je teoretska raspodjela poznata, lako je procijeniti
vjerojatnost sa kojom se odreena vrijednost statistike pojavljuje. Zbog toga se statistike koristite za
donoenje zakljuaka o populaciji. U klasinoj statistici pravilo je da se koriste one statistike iz uzorka
koje imaju poznatu teoretsku raspodjelu.
Zakljuivanje o populaciji moe biti dvojako: procjena nekih svojstava populacije i provjera nekih
hipoteza o populaciji. Provjera hipoteza, odnosno zakljuak o prihvaanju ili odbijanju postavljene
hipoteze bit e postavljen uz neku vjerojatnost. Neophodno je koristiti vjerojatnost, jer se zakljuci

542

temelje na jednom dijelu populacije (uzorku) i zato uvijek postoji jedan stupanj nesigurnosti da vrijede
za cijelu populaciju.

5.1.1 Sredinji granini teorem


Jedan od najvanijih teorema u statistici govori o raspodjeli aritmetikih srednjih vrijednosti uzoraka.
Teorem glasi: Ako se sluajno izabiru uzorci veliine n iz neke populacije sa srednjom vrijednosti i
varijancom 2 i kada je n dovoljno velik, raspodjela srednjih vrijednosti uzoraka moe se predoiti
normalnom funkcijom gustoe sa prosjekom
y =
i standardnom devijacijom

y =
.
n
Ova standardna devijacija se esto zove standardna greka procjene prosjeka populacije ili samo kratko
standardna greka.

Slika 51: Raspodjela srednjih vrijednosti uzoraka


Odmah kaimo da se standardna greka y moe procijeniti standardnom grekom uzorka
sy =

s
n

5.1.2 Statistike koje nemaju normalnu raspodjelu


Neke statistike kao to je aritmetika srednja vrijednost imaju normalnu raspodjelu. Meutim, iz
uzoraka se mogu izraunati i druge statistike koje nee imati normalnu raspodjelu, ali su takoer korisne
u zakljuivanju. Raspodjele tih statistika su poznate ako se pretpostavi da je uzorak izabran iz normalne
populacije. Tako na primjer omjer
2
( n 1)s 2 i ( y y)
=
2
2
ima hi-kvadrat raspodjela sa v = (n-1) stupnjevima slobode. Takoer, statistika
y
s2

n
slijedi t raspodjelu sa (n-1) stupnjeva slobode. Vidjet emo poslije da neke statistike imaju F raspodjelu.

543

5.2 Stupanj slobode


Kad smo govorili o teoretskim raspodjelama spomenuli smo stupanj slobode. Iako je matematiko
objanjenje i dokaz izvan okvira ove knjige, pokuat emo objasniti praktinu definiciju. Stupanj
slobode je broj nezavisnih opaanja povezanih sa procjenom varijance, odnosno sa izraunavanjem
sredine suma kvadrata. Stupanj slobode je ukupan broj opaanja manje broj nezavisnih parametara
koritenih u izraunavanju te varijabilnosti.
U izraunu varijance uzorka stupanj slobode je (n-1) iz razloga to su od ukupno n opaanja (mjerenja),
njih (n-1) slobodno varira, ali je n-ti odreen jer za uzorak vrijedi

i (y i y) = 0 .
Ovaj izraz se esto zove restrikcija. Odnosno prosjek uzorka je funkcija varijable y, ili drugaije reeno
samo je (n-1) opaanja nezavisno, a n-ti se moe prikazati kao
y n = ( n 1) y y1 ... y n 1 .
Definicija varijance uzorka je prosjeno kvadrirano odstupanje od aritmetike srednje vrijednosti, a ima
(n-1) nezavisnih mjerenja, pa se i prosjek kvadriranja dobije dijeljenjem sa (n-1).
Stupanj slobode moemo objasniti i ovako: pri izraunu sume kvadrata
i (y i y) 2 ,
nepoznatu srednju vrijednost populacije zamjenjujemo sa procijenjenom srednjom vrijednosti uzorka,
koji je funkcija od varijable y. Tako se n-to opaanje moe prikazati pomou aritmetike sredine i
ostalih opaanja. Na taj nain uvijek je vrijednost jednog opaanja odreena. Dakle gubimo jedan
stupanj slobode.

544

6 Procjena parametara
Zakljuci o populaciji mogu se donijeti procjenom parametara ili provjerom hipoteza. Parametri se
mogu procijeniti na dva naina: da se izrauna jedinstveni procjenitelj (engl. point estimator) ili da se
napravi intervalna procjena. Jedinstveni procjenitelj je pravilo ili formula koja govori kako izraunati
procjenu na temelju sluajnih varijabli u uzorku. Broj koji izraunamo tim pravilom zove se procjena.
Intervalni procjenitelj je formula koja nam govori kako koristiti uzorak da se izrauna interval koji
procjenjuje parametar populacije.

6.1 Jedinstveni procjenitelj


Jedinstveni procjenitelj je i statistika jer je izraunat iz uzorka kao funkcija sluajne varijable i kao
takav ima raspodjelu statistike uzorka (engl. sampling distribution). Takva raspodjela govori o
svojstvima procjenitelja. Na primjer, prema sredinjem graninom teoremu raspodjela prosjeka uzorka
e biti priblino normalna za velike uzorke ( n > 30), sa srednjom vrijednosti i standardnom
devijacijom / n . Poto je raspodjela normalna, vrijede sva pravila koja openito vrijede za
normalnu raspodjelu. Na primjer, vjerojatnost da e y biti manji od je 0.50. Nadalje, priblina
vjerojatnost je 0.95 da y nee odstupati od za vie od 1.96 / n .
Raspodjela procjenitelja je centrirana oko parametra kojega procjenjuje. Ako je neki procjenitelj koji
procjenjuje parametar i vrijedi da je:
= ,
E( )
tada se kae da je procjenitelj nepristran. Raspodjela procjenitelja treba imati i minimalnu varijancu,
tj. minimalnu rairenost oko u odnosu na sve procjenitelje. Drugim rijeima od svih nepristranih
procjenitelja najbolji je onaj koji ima najmanju varijancu.. Procjena varijabilnosti oko moe se
izraziti prosjekom sume kvadrata za :
2
MS = E

Postoji velik broj metoda za procjenu jedinstvenog procjenitelja, a najee su metoda momenta i
maximum likelihood (maksimalna vjerodostojnost). Jo neke metode koje treba spomenuti su Jackknife,
Bootstrap i Bayesove procjene. Ovdje emo dati samo kratki osvrt na metodu Maximum likelihood.

6.2 Maximum likelihood procjena parametara


Pretpostavimo sluajnu varijablu y, sa raspodjelom prikazanom kao funkcija vjerojatnosti:
p(y|)
gdje je oznaka za parametre. Ova funkcija je dakle funkcija varijable y za dane parametre .
Likelihood funkcija
L(|y) ili kratko L
645

ima isti oblik kao i funkcija vjerojatnosti p(y|) ali je ona funkcija parametara za dana mjerenja
varijable y. Takva funkcija moe posluiti za procjenu parametra za dani skup podataka varijable y, na
taj nain da se odredi maksimum te funkcije. Drugim rijeima traimo procjenitelj koji maksimizira
likelihood funkciju. Takav procjenitelj zove se maximum likelihood procjenitelj parametara. Maksimum
funkcije se moe odrediti deriviranjem funkcije po traenom parametru. esto je puno lake matematiki
izraunati maksimum logaritma funkcije, a svojstvo logaritma funkcije je da ima isti maksimum kao i
poetna funkcija. Oznaimo takvu logaritamsku funkciju sa
logL(|y) ili kratko logL.
Svojstva Maximum likelihood procjenitelja su postojanost, a za velike uzorke preciznost i da slijede
normalnu raspodjelu. Neki procjenitelji nisu nepristrani, tj. oekivanje procjenitelja nije jednako
parametru, ali se takva pristranost vrlo lako korigira jednostavnim raunskim operacijama. Loe strane
procijene je da za kompleksnije funkcije esto je teko nai globalni maksimum.
Primjer: Primijenili smo neki tretman na 10 krava i biljeili pozitivni utjecaj. Dakle, pretpostavili smo
binomnu raspodjelu:
10
p( y) = p y (1 p)10 y
y
Zabiljeili smo kod 4 krave pozitivni odgovor na tretman Dakle y = 4. Treba procijeniti parametar p.
Definirajmo likelihood funkciju:
10
L( p) = p y (1 p)10 y
y
Treba pronai p takav da maksimizira funkciju L. Jednostavnije je ako izraunamo logaritam od L:
10
log L = log + y log( p) + ( n y ) log((1 p)
y
Derivirajmo ovaj izraz po p i izjednaimo sa nulom:
log L r n y
=
=0
p
p 1 p
Rjeenjem ove jednadbe dobije se:
y
p =
n
4
= 0.4
p =
10
Primjer: Ponovo smo primijenili neki tretman na 10 krava ali svaku kravu smo tretirali 3 puta.
Promatrali smo pozitivnu utjecaj nakon svakog tretiranja. Zabiljeeno je broj krava sa odgovarajuim
brojem pozitivnih odgovora:
Broj pozitivnih odgovora (yi)
Broj krava (wi)

0
3

1
4

2
2

3
1

Ovdje je n = 3, ukupan broj moguih pozitivnih odgovora


Pretpostavili smo binomnu raspodjelu. Ako pretpostavimo da su krave nezavisne jedna od druge onda
svaka krava ima pripadajuu vrijednost yi tj. broj pozitivnih odgovora na tretman u tri tretiranja, koji
ima binomnu raspodjelu:
3
p( y i ) = p y i (1 p) 3 y i
yi
646

i likelihood funkciju:
3
L( p) = p yi (1 p) 3 y i
yi
Za yi = 0 ima tri izraza
3
L( p) = p 0 (1 p) 3 ,
0
jer ima tri krave bez pozitivnog odgovora.
Za yi = 1 ima etiri izraza
3
L( p) = p1 (1 p) 2 ,
1
jer ima etiri krave sa jednim pozitivnim odgovorom.
Za yi = 2 ima dva izraza
3
L( p) = p 2 (1 p)1 ,
2
jer ima dvije krave sa dva pozitivna odgovora.
Za yi = 3 ima jedan izraz
3
L( p) = p 3 (1 p) 0 ,
3
jer ima jedna krava sa tri pozitivna odgovora.
Likelihhood uzimajui u obzir sve podatke je produkt pojedinanih likelihooda jer su opaanja izmeu
krava nezavisna.
3
L( p) = ij p y i (1 p) 3 yi
yi
Gdje je ij oznaka za produkt, i = 1 do 3, j = 1 do wi; wi je broj krava sa vrijednosti yi.
Logaritam likelihhoda je:
10

log L( p) = ij log + y i log( p) + ( n y i ) log((1 p)


yi

Derivirajmo ovaj izraz po p i izjednaimo sa nulom:


y
n yi
log L( p)
= ij i ij
=0
p
p
1 p
Rjeenjem ove jednadbe dobije se:
ij y i
p =
ij n
0 + 0 + 0 + 1 + 1 + 1 + 1 + 2 + 2 + 3 11
=
.
(10)(3)
30
Procijenjena binomna raspodjela na temelju podataka 10 krava je:
3
y 19 3 y
p( y) = 11
( 30 )
30
y
p =

( )

Rjeenje za p moe se dobiti i grafiki, ako se nacrta L funkcija za interval vrijednosti p i proita se na
grafikonu gdje je maksimum.

647

L(p)

0.0000025
0.0000020
0.0000015
0.0000010
0.0000005
0.0000000
0

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

Slika 61 Likelihood funkcija binomne raspodjele

6.3 Intervalna procjena


Poto jedinstveni procjenitelj ima poznatu raspodjelu mogue je odrediti interval u kojem se vjerojatno
nalazi parametar koji se procjenjuje. Intervalni procjenitelj je izveden na taj nain da se vjerojatnost da
interval sadri parametar moe odrediti. Takav interval se zove interval povjerenja. Koeficijent
povjerenja za interval povjerenja je jednak vjerojatnosti da interval sadri parametar koji procjenjujemo.
Obino se oznaava sa (1-). Gornja i donja granica intervala odreuju se vrijednostima na raspodjeli
za povrinu /2 od desne i lijeve strane raspodjele. Openito je interval povjerenja:
Greka + Greka
Gdje je nepoznati parametar, i jedinstveni procjenitelj. Jedinstveni procjenitelj je ujedno i statistika i
kao takva takoer i sluajna varijabla. Greka govori o granicama intervala i ovisi o rasprenosti
raspodjele procjenitelja.
= , neka je njegova standardna greka  , i 
Primjer: Neka je takav procjenitelj da vrijedi E( )

ima normalnu raspodjelu. Tada je



z=

standardna normalna varijabla. Interval povjerenja (1 - ) 100% znai da pretpostavljamo da uz
vjerojatnost (1- ) parametar se nalazi unutar tog intervala, a konstruira se na slijedei nain:
Pronae se z vrijednost za /2 na oba kraja normalne krivulje. Oznaimo ih sa -z/2 i z/2. Tada je
vjerojatnost:
P(-z/2 z z/2) = 1 -

z/2 ) = 1
P( z / 2

P( z / 2 z / 2 ) = 1

P( z / 2 + z / 2 ) = 1
Dakle, vjerojatnost da e interval
( z / 2 , + z / 2 )
648

sadravati parametar je jednaka (1 - ). Ukoliko je = 0.05, tada je interval povjerenja:


( 1.96 , + 1.96 ) (Slika 6-1)

95%

1.96

1.96

Slika 62: Interval povjerenja za nepoznati parametar, ako procjenitelj parametra ima normalnu
raspodjelu.
Postupak intervalne procjene moe se prikazati u etiri koraka:
1) izraunaj jedinstveni procjenitelj
2) odredi statistiku (takva za koju moemo odrediti raspodjelu)
3) odredi raspodjelu statistike
4) na temelju zakona vjerojatnosti odredimo granice intervala
Interval povjerenja temelji se na tome da se odrede granice interval prema poznatoj teoretskoj raspodjeli.
Ukoliko procjenitelj ima normalnu ili studentovu raspodjelu tada je openiti izraz za interval povjerenja:
(Procjenitelj) (standardna greka) (vrijednost standardne normalne ili studentove varijable za /2)

6.4 Procjena srednje vrijednosti populacije


Jedinstveni procjenitelj prosjeka (oekivanja) populacije je aritmetika srednja vrijednost uzorka y .
Vrijedi da je
E( y) =
dakle y je nepristrani procjenitelj. Moe se pokazati da takoer ima i najmanju varijancu.
Ve smo rekli da aritmetika srednja vrijednost y ima normalnu raspodjelu sa standardnom devijacijom
y = /n.
Tada je
y
z=
y
standardna normalna varijabla. Intervalna procjena parametra je dakle:
y z /2 y
Drugim rijeima, vjerojatnost je (1 -) da interval y z /2 y sadri :
649

P( y z / 2 y y + z / 2 y ) = 1
Ukoliko ne znamo standardnu devijaciju populacije moemo je procijeniti iz uzorka, tj. standardnu
devijaciju populacije () moemo zamijeniti procjenom iz uzorka (s). Tada je interval povjerenja:
y z /2 s y ,
gdje je
sy =

s
n

Primjer: Pretpostavimo uzorak od 50 krava sa srednjom vrijednosti koliine mlijeka u laktaciji 4000 kg
i standardnom devijacijom 800 kg. elimo procijeniti prosjek populacije na temelju ovog uzorka.
Uzmimo 95% interval povjerenja.
Zadano je iz uzorka:
y = 4000
s = 800
n = 50 krava
Za 95% interval povjerenja, = 0.05, jer je (1 - ) 100% = 95%, a to znai daje (1-) = 0.95, a =
0.05. Vrijednost z/2 = z0.025 iz tablice je 1.96.
s
800
=
= 113.14
sy =
n
50
Interval povjerenja je:
y z /2 s y
4000 (1.96)(113.14)
Odnosno se nalazi unutar intervala (3778.2;4221.7) sa vjerojatnosti 0.95.
Pravilan nain kako objasniti to je interval povjerenja je: Ako se iz populacije izvue veliki broj
uzoraka veliine n i za svaki uzorak se izrauna 95% interval povjerenja, moemo oekivati da e 95%
od svih intervala sadravati pravi parametar .
Sredinji granini teorem vrijedi samo za velike uzorke. Za mali uzorak ne moemo sa sigurnou tvrditi
da je raspodjela y priblino normalna. No, ako pretpostavimo da je populacija iz koje je uzorak izabran
normalna, tada moemo koristiti studentovu t-raspodjelu. Za male uzorke (n < 30) koristi se t statistika
koja ima t-raspodjelu tako da se nae interval u kojem je vjerojatnost (1 - ) da se nalazi u tom
intervalu:
y t /2 s y .
Vrijednost ta/2 se pronae u tablicama za studentovu raspodjelu sa (n-1) stupnjeva slobode, a postupak
procjene je zatim isti kao kad se koristi z vrijednost.

6.5 Procjena varijance u normalnoj populaciji


Moe se pokazati da je nepristrani procjenitelj varijance populacije 2 jednak varijanci uzorka
650

i ( y y) 2 ,

n 1
sa n-1 stupnjem slobode, jer je E(s2) = 2.
Pokazatelji za varijancu nemaju z ili t raspodjelu. Ukoliko su y1,y2,.......,yn sluajni uzorak iz normalne
raspodjele sa prosjekom i varijancom 2. Tada je
( n 1)s 2
2 =
2
sluajna varijabla sa hi-kvadrat raspodjelom. Interval povjerenja za 2 temelji se na hi kvadrat
raspodjeli. Uz vjerojatnost (1-) imamo
P(21-/2 2 2/2) = 1 -
odnosno
( n 1)s 2
12 / 2 ) = 1
2
21-/2 i 2/2 su tabline vrijednosti 2 koje odgovaraju vjerojatnosti /2 na svakom kraju hi-kvadrat
raspodjele (slika 6-3).
P( 12 / 2

f(2)

1
2(1-/2)

2(/2)

Slika 63: Vrijednosti hi-kvadrat raspodjele koje odgovaraju (1-) vjerojatnosti.


Aritmetikim operacijama iz gornjeg izraza se dobije (1-)100% interval povjerenja za 2
( n 1)s 2
2 / 2

( n 1)s 2
(21 / 2 )

651

Vjebe:
6.1. Za uzorak iz vjebe 1.1. izraunajte interval povjerenja procjene prosjeka.
6.2. Za uzorak iz vjebe 1.3. izraunajte interval povjerenja procjene prosjeka.
6.3. Za uzorak iz vjebe 1.4. izraunajte interval povjerenja procjene prosjeka.

652

7 Provjera hipoteza
Hipoteza se moe definirati kao tvrdnja o jednoj ili vie populacija. Provjera hipoteza, odnosno
zakljuak da li je neka tvrdnja istinita ili lana neophodna je u istraivakom radu. Postoje dva tipa
hipoteze: istraivaka i statistika. Istraivaku hipotezu formulira potencijalni istraiva i obino je
rezultat sumnje ili pretpostavke bazirane na opirnim opaanjima, literaturi ili iskustvu. Statistika
hipoteza obino slijedi istraivaku hipotezu. Cilj statistike provjere je utvrditi da li je neki parametar
populacije razliit od neke hipotetske vrijednosti ili da li su parametri dvije ili vie populacija razliiti.
Postoje dvije statistike hipoteze: nul hipoteza (H0) i alternativna hipoteza (H1). Nul hipoteza, H0, je
hipoteza koju provjeravamo. Ona je uvijek postavka o nepromijenjenom stanju, o nepostojeoj razlici.
Na primjer, moemo postaviti H0 da nema razlike izmeu dvije populacije gledajui neke karakteristike
(identine srednje vrijednosti ili identine varijance. Alternativna hipoteza H1 je hipoteza o
promijenjenom stanju, o postojeoj razlici. Obino je alternativna hipoteza identina istraivakoj. Ova
hipoteza se sama po sebi ne moe provjeravati, nego se koristi provjera nul hipoteze. Provjera,
temeljena na informacijama iz podataka odgovarajueg uzorka, vodi do jedne od odluka: 1) odluka da se
H0 odbaci (jer je lana), i 2) odluka da se H0 ne odbaci, jer uzorak nije dao dovoljno dokaza da bi se H0
odbacila. Nul i alternativna hipoteza, H0 i H1, se uvijek postavljaju tako da iskljuuju jedna drugu.
Dakle, kada odbacujemo H0, pretpostavljamo da je H1 tona. Openito, lake je dokazati da je neka
hipoteza lana nego da je tona. Drugim rijeima prihvaanje H0 ne znai da je ona tona, nego da
uzorak ne daje dovoljno dokaza da je H0 lana. Prihvaamo H0 sve dok nije prikupljeno dovoljno dokaza
koji je obaraju.
Recimo da elimo dokazati da e neka smjesa A dati vee dnevne priraste nego smjesa B. Definirajmo
nul i alternativnu hipotezu. Nul hipoteza je da su dvije smjese iste, tj. da e dati iste dnevne priraste.
Alternativna hipoteza je da smjese A i B nisu iste, tj. da e smjesa A dati vee dnevne priraste.
Alternativna hipoteza je i istraivaka hipoteza. Naime, elimo dokazati da je smjesa A bolja. Bilo bi
vrlo teko dokazati da su smjese iste. Lake je dokazati da je nul hipoteza lana, nego tvrditi da su
smjese jednake. U tom smislu odbacivanje nul hipoteze znai da imamo dovoljno dokaza da moemo
rei da su smjese razliite.
Za provjeru statistikih hipoteza koriste se zakoni vjerojatnost, tj. koriste se poznate raspodjele koje
nam olakavaju primjenu zakona vjerojatnosti. Koristimo zakone vjerojatnosti da bismo dokazali ili
odbacili hipoteze, jer je nemogue potpuno sigurno utvrditi neku injenicu o populaciji iz razloga to se
obino mjerenje ili opaanje ne provodi na cijeloj populaciji.

7.1 Provjera hipoteza o prosjeku populacije.


Ovom provjerom provjeravamo da li izabrani uzorak pripada nekoj populaciji. Drugim rijeima,
provjeravamo da li je hipotetska srednja vrijednost populacije korektna, odnosno koliko se srednja
vrijednost procijenjena uzorkom znaajno razlikuje od neke zadane, hipotetske vrijednosti. Na primjeru
provjere o prosjeku populacije pokazat emo principe statistike provjere koji vrijede openito.
Prvo to istraiva mora napraviti je definirati nul i alternativnu hipotezu. Recimo da nas zanima da li je
prosjek populacije iji je predstavnik uzorak jednak nekoj vrijednosti 0. Tada su nul i alternativna
hipoteza:
H0: = 0
753

H1: 0 .
Nul hipoteza, H0, govori o tome da je prosjek populacije jednak vrijednosti 0, a alternativna hipoteza,
H1, kae da je prosjek populacije razliit od vrijednosti 0.
Slijedei korak je pronalaenje procjenitelja prosjeka populacije, a to je prosjek uzorka, y . Definirajmo
dalje statistiku za provjeru za koju znamo teoretsku raspodjelu. Prosjeci uzoraka imaju normalnu
raspodjelu, pa se za veliki uzorak moe definirati standardna normalna varijabla:
y 0
z=
y
Gdje je

y =
= standardna greka. Ovakva z statistika ima normalnu raspodjelu ako je prosjek populacije
n
= 0 , tj. ako vrijedi H0 (Slika 7-1). Posjetimo se da openito z statistika ima oblik:
Pr ocijenitel j Parametar
z=
.
Standardna greka procijenit elja

y
0

-z/2

z/2

Slika 71: Raspodjela procjenitelja prosjeka y . Donja crta prikazuje standardiziranu skalu z =

y 0
.
y

Podsjetimo se da ukoliko je varijanca populacije nepoznata, standardna greka y se moe procijeniti


standardnom grekom izraunatom iz uzorka:
sy = s/ n , pa je
z

y 0
s
n

Slijedee pitanje je koji je poloaj izraunate statistike za provjeru u teoretskoj raspodjeli. Ukoliko je
izraunata statistika neuobiajeno ekstremna, to znai da je y jako udaljen od pretpostavljenog
prosjeka 0 i moe postojati sumnja da ne pripada postavljenoj teoretskoj raspodjeli, nego da je pravi
prosjek razliit od 0. Drugim rijeima moramo odgovoriti na pitanje je da li je izraunata statistika
za provjeru dovoljno ekstremna da bismo odbacili H0. U ovom sluaju dovoljno ekstreman izraunati z
znai dovoljno razliit od nule u pozitivnom ili negativnom smjeru, odnosno y dovoljno manji ili vei od
pretpostavljenog prosjeka 0.

754

Veina istraivaa unaprijed odredi pravilo odluke u korist (ili protiv) H0 hipoteze. Pravilo je slijedee:
Izaberemo vjerojatnost i utvrdimo granine vrijednosti z/2 i - z/2 za koje vrijedi da je vjerojatnost da
se dobiju takve ili ekstremnije vrijednosti sluajne varijable z jednaka ako vrijedi H0. Piemo P(z > z
ili z < z/2) = ako vrijedi H0. Ove pretpostavljene granine vrijednosti esto se zovu i kritine
vrijednosti. Kritino podruje ine sve vrijednosti z koje su vee od z/2 , ili manje od - z/2 , tj. z > z ili
z < -z/2. Vjerojatnost zove se razina znaajnosti (slika 7-2). Obino se za razinu znaajnosti uzima
= 0.05, 0.01 a ponekad i 0.10.
razina
znaajnosti =

/2

/2

kritino
podruje

-z/2

0
kritina
vrijednost

z/2

kritino
podruje

Slika 72: Prikaz razine znaajnosti, kritine vrijednosti i kritinog podruja poznate raspodjele
Potrebno je zatim usporediti izraunatu statistiku za provjeru iz uzorka sa kritinom vrijednosti.
Ukoliko je izraunata statistika z vie ekstremna od kritinih vrijednosti z/2 i - z/2, odnosno izraunata z
statistika za provjeru se nalazi u kritinom podruju, H0 se odbacuje, tj. zakljuuje se da izraunata
statistika z ne pripada raspodjeli uz pretpostavku H0 (slika 7-3). Vjerojatnost da smo zakljuili
pogreno, tj. da ona ipak pripada raspodjeli uz H0 je jednaka . Ukoliko je izraunata statistika z manje
ekstremna od kritinih vrijednosti z/2 i - z/2, zakljuujemo da ne moemo odbaciti H0 (slika 7-4).

-z/2

z/2

Slika 73: Izraunata z statistika unutar kritinog podruja, tj. vie je ekstremnija nego kritina vrijednost
z/2,, dakle odbacuje se H0 hipoteza uz razinu znaajnosti. Vjerojatnost da izraunata statistika z pripada
hipotetikoj nultoj populaciji je manja od vrijednosti .

755

-z/2

z/2

Slika 74: Izraunata z statistika je izvan kritinog podruja, tj. manje je ekstremnija nego kritina
vrijednost z,, dakle ne odbacuje se H0 hipoteza uz razinu znaajnosti. Vjerojatnost da izraunata
statistika z pripada hipotetikoj nultoj populaciji je vea od vrijednosti .

Primjer: Pretpostavimo da imamo uzorak od 50 krava sa srednjom vrijednosti koliine mlijeka u


laktaciji 4000 kg. elimo provjeriti da li je ovo stado pripada populaciji krava sa poznatim prosjekom,
0 = 3600 kg i standardnom devijacijom = 1000 kg.
Hipotetski prosjek je 0 = 3600 pa su hipoteze:
H0: = 3600
H1: 3600
Zadano je iz uzorka:
y = 4000
= 1000
n = 50 krava
Standardan normalna varijabla je
4000 3600
= 2.828
z=
1000 50
Izraunati z (statistika za provjeru) je 2.828 standardne devijacije udaljen od nule. Drugim rijeima,
prosjek uzorka (4000 kg) je 2.828 standardne devijacije udaljen od hipotetskog prosjeka populacije
(3600 kg) ako vrijedi H0.
Pitanje je da li je tj izraunati z=2.828 dovoljno ekstreman da moemo posumnjati da na uzorak ne
pripada populaciji sa prosjekom 3600.
Definirat emo razinu znaajnosti = 0.05. Za nju iz tablice moemo vidjeti da odgovara kritinoj
vrijednosti z/2 = 1.96. To znai da ako je H0 tono, vjerojatnost je 0.05 da ima opaanja koja su
ekstremnija od 1.96, odnosno ima teoretski 5% opaanja koja su udaljenija od 1.96 standardne
devijacije od sredine raspodjele (3600) u desno ili lijevo.
Izraunati |z| > z/2 , tj. |2.828| > 1.96. To znai da je izraunati z u kritinom podruju, odnosno nalazi
se u intervalu 1.96, (slika 7-5). Prema tome, H0 se odbacuje uz 0.05 razinu znaajnosti.
Vjerojatnost je manja od 0.05 da na uzorak ipak pripada populaciji sa prosjekom 3600 i standardnom
devijacijom 1000.

756

y
3600
-1.96

4000
1.96 2.83

Slika 75: Raspodjela prosjeka uzoraka koliine mlijeka sa prosjekom m = 3600 i standardnom
devijacijom = 1000. Donja crta predstavlja skalu standardiziranih vrijednosti.
Ponovimo jo jedanput korake u provjeri hipoteza koji vrijede za bilo koju provjeru:
1) Definiramo H0 i H1
2) Izraunamo procjenitelj parametra
3) Odredimo i izraunamo statistiku za provjeru i njezinu raspodjelu kada vrijedi H0
4) Odredimo , kritinu vrijednost, kritino podruje
5) Usporedimo izraunatu statistiku za provjeru sa kritinim vrijednostima i donosimo zakljuak

7.1.1 P-vrijednost
Drugi nain da se odlui o prihvaanju ili odbijanju H0, je da se utvrdi vjerojatnost da izraunata
statistika za provjeru pripada populaciji ako H0 vrijedi. Ta vjerojatnost oznaava se kao P-vrijednost.
Mnogi kompjuterski statistiki programi daju P-vrijednost i ostavljaju istraivau da sam odlui o
prihvaanju ili odbijanju H0. P-vrijednost je opaena razina znaajnosti. Moemo rei da odbacujemo
H0 uz vjerojatnost jednaku P-vrijednosti. P-vrijednost se moe koristiti i kada je razina znaajnosti
unaprijed odreena. Ukoliko je zadana razina znaajnosti , tada ako je P-vrijednost manja od , H0 se
odbacuje uz razinu znaajnosti.

7.1.2 Provjera hipoteza moe biti dvostrana ili jednostrana.


U gornjem prikazu provjere hipoteze postavili smo pitanje da li je parametar razliit od neke
vrijednosti 0.To je dvostrana provjera. Kod dvostrane provjere dvije su kritine vrijednosti. H0 se
odbacuje ako je izraunata statistika za provjeru jednaka ili ekstremnija nego bilo koja od dvije kritine
vrijednosti. Provjera moe biti i jednostrana. U jednostranoj provjeri odreena je samo jedna kritina
vrijednost i pravilo nam govori da odbacujemo H0 ako je izraunata statistika za provjeru jednaka ili
vie ekstremna nego ta kritina vrijednost.
Ako je pitanje da li je > 0 tada je
H0: 0
H1: > 0
Za provjeru ovih hipoteza kritina vrijednost, odnosno kritino podruje se definira u desnom repu
raspodjele (slika 7-6).
757

z
Slika 76: Kritina vrijednost i kritino podruje za z > z
Neka je kritina vrijednost z. Kritino podruje ine svi oni z koji su vei od z , tj. z > z . Dakle,
vjerojatnost da sluajna varijabla z bude u intervalu (z , ) je jednako , tj. P(z > z) = . Dakle
ukoliko se z (izraunat iz uzorka) nalazi u kritinom podruju, odnosno ukoliko je vei od z,
odbacujemo H0 hipotezu uz razinu znaajnosti.
Pitanje moe biti i da li je < 0 i tada je:
H0: 0
H1: < 0
Za provjeru ovih hipoteza kritino podruje se definira u lijevom repu raspodjele (slika 7-7).

-z
Slika 77: Kritina vrijednost i kritino podruje za z < -z
Neka je kritina vrijednost -z. Kritino podruje ine svi oni z koji su manji od z , tj. z < -z . Dakle,
vjerojatnost da sluajna varijabla z bude u intervalu (- , -z) je jednako , tj. P(z < -z) = . Ukoliko
se z (izraunat iz uzorka) nalazi u kritinom podruju, odnosno ukoliko je manji od z, odbacujemo H0
hipotezu uz razinu znaajnosti.

7.1.3 Provjera hipoteza o prosjeku populacije za mali uzorak


Za mali uzorak koji je izvuen iz normalne populacije koristi se studentova t-raspodjela. Malim
uzorkom emo pretpostaviti takav uzorak koji ma manje od 30 obiljeja. Za mali uzorak, a koji je
izabran iz normalne populacije statistika za provjeru je t sluajna varijabla:
758

t=

y 0

s n
Nain zakljuivanja je slian kao i kod velikog uzorka. Provjerava se da li je izraunata t statistika
ekstremnija od kritine vrijednosti t ili t/2 uz razinu znaajnosti. Za dvostranu provjeru za mali
uzorak odbacujemo H0: =0 ako |t| > t/2, gdje je t/2 je takva vrijednost da je P(t > t/2) = /2. Za
jednostranu provjeru za mali uzorak odbacujemo H0: 0 ako t > t ili odbacujemo H0: 0 ako je
t < -t zavisno da li je desna ili lijeva provjera. Kritine vrijednosti se pogledaju u tablici Kritine
vrijednosti studentove t-raspodjele.
Primjer: Da li je aritmetika sredina koliine mlijeka uzorka od 3800 kg znaajno razliita od 4000 kg.
Veliina uzorka je 10 krava, a varijanca uzorka je 2500. Drugim rijeima da li uzorak pripada
populaciji sa prosjekom 4000.
Ovdje je 0 = 4000. i hipoteze su slijedee:
H0: = 4000
H1: 4000
Prosjek uzorka je
y = 3800
i varijanca uzorka je s2 = 2500, a to znai da je standardna devijacija uzorka s = 500.
Standardna greka procijene prosjeka je
s n = 500 10
y 0 3800 4000
=
= 1.26
t=
s n
500 10
Za = 0.05 i stupanj slobode (n-1) = 9, tablini t/2 = 2.262.
Poto izraunati t = -1.26 nije ekstremniji od kritine vrijednosti t/2 = 2.262, H0 se ne odbacuje uz 0.05
razinu znaajnosti. Ne moemo rei da je prosjek naeg uzorka znaajno razliit od 4000 kg.

7.2 Provjera hipoteza o razlici dviju populacija


Pretpostavimo uzorke iz dvije populacije sa prosjecima 1 i 2. Za provjeru hipoteze o jednakosti 1 i 2
koristi se z ili t statistika, zavisno o veliini uzorka. Provjere ovise i o tome da li su uzorci zavisni ili
nezavisni i da li su varijance homogene ili nisu.
Hipoteze se mogu postaviti s obzirom da li elimo jednostranu ili dvostranu provjeru. Hipoteze za
dvostranu provjeru su:
H0: 1 - 2 =0
H1: 1 - 2 0
H0 postavlja da su prosjeci populacija jednaki, a H1 postavlja da nisu jednaki.

759

7.2.1 Provjera hipoteza o razlici prosjeka dviju populacija za veliki uzorak


Statistika za provjeru za velike uzorke iz dvije populacije je z statistika jer moemo definirati :
procijenit elj parametar
z=
.
s tan dardana greka procijenit elja
Neka su y 1 i y 2 aritmetike sredine i n1 i n2 veliine dva uzorka izabrana iz odgovarajuih populacija.
Pitanje je da li su ta dva uzorka predstavnici dvije razliite populacije ili moemo rei da se vjerojatno
radi o istoj populaciji. Procjenitelj razlika prosjeka populacija je razlika aritmetikih sredina uzoraka.
Moemo definirati z statistiku:
(y y2 ) 0
z= 1
( y1 y 2 )
Ovdje je
( y1 y 2 ) =

12 22
+
n1 n 2

standardna greka procjene razlike izmeu prosjeka i 21 i 22 su varijance dvije populacije.


Ukoliko ne znamo varijance 21 i 22 one se mogu procijeniti iz uzoraka pa je standardan greka:
s ( y1 y 2 ) =

s12 s 22
+
n1 n 2

Gdje su s1 i s2 procjene varijance iz uzoraka.


Statistika z je:
y y2
z 1
s12 s 22
+
n1 n 2
Za veliki uzorak odbacujemo H0 ako je izraunati |z| > z/2, gdje je z/2 kritina vrijednost, tj. takva
vrijednost z da je P(z > z/2) = /2
Primjer: Dvije grupe od 40 krava hranili smo sa dvije razliita obroka ( A i B) da bi utvrdili koji od ta
dva obroka daje veu koliinu mlijeka u laktaciji. Na kraju pokusa izraunate su prosjeci i varijance
uzoraka (u 000 kg):
Prosjek( y )
varijanca (s2)
Broj krava (n)

Grupa A
5.20 kg
0.25
40

Grupa B
6.50
0.36
40

Hipoteze za dvostranu provjeru su:


H0: 1 - 2 =0
H1: 1 - 2 0
Standardna greka procjene razlike izmeu prosjeka:
s ( y1 y 2 ) =

s12 s 22
+
=
n1 n 2

0.25 0.36
+
= 0.123
40
40

760

y1 y 2 5.20 6.50
=
= 10.569
s ( y1 y 2 )
0.123

Poto je izraunati z=-10.569 ekstremniji od -z/2 = -z0.025 = -1.96, nul hipotezu odbacujemo uz 0.05
razinu znaajnosti i zakljuujemo da smjesa B daje veu koliinu mlijeka.

7.2.2 Provjera hipoteza o razlici prosjeka dviju populacija za mali uzorak kada
su varijance iste
Za mali uzorak moemo koristiti t statistiku koja ima t raspodjelu. Nain na koji se rauna t statistika
zavisi o tome dali su varijance dva uzorka jednake ili razliite. Statistika za provjeru za male uzorke i
jednake varijance je:
t=

( y1 y 2 ) 0

1
1

s 2p +
n1 n 2
gdje je
( n 1)s12 + ( n 2 1)s 22
s 2p = 1
n1 + n 2 2
ili
s 2p

( y1i y1 )
= i

+ i ( y 2 i y 2 )

n1 + n 2 2

i ( y1i ) + i ( y 2i )

(i y1i )2 (i y 2i )2

n1
n2
n1 + n 2 2
i = 1 do n1, j= 1 do n2. Poto pretpostavljamo da su varijance jednake, procjena varijance s p2 izrauna
se na temelju podataka obadva uzorka.
=

Kada je broj opaanja u obadva uzorka isti, tj. kada je n1 = n2 = n, gornji izraz za t statistiku se
pojednostavljuje na:
(y y 2 ) 0
t= 1
s12 + s 22
n
Za mali uzorak odbacujemo H0 ako je izraunati |t| > t/2, gdje je t/2 kritina vrijednost, tj takva
vrijednost t da je P(t > t/2) = /2.
Primjer: Pretpostavimo isti problem kao i kod provjere za veliki uzorak. Ovaj puta mogli smo osigurati
samo po 20 krava za svaku grupu. Iz prve grupe dvije su krave udaljene iz pokusa zbog bolesti. Dakle
dvije grupe od 18 i 20 krava hranili smo sa dva razliita obroka (A i B) da bi utvrdili koji od ta dva
obroka daje veu koliinu mlijeka u laktaciji. Na kraju pokusa izraunati su prosjeci, sume kvadrata i
varijance uzoraka (u 000 kg):
Prosjek( y )

Grupa A
5.50 kg

Grupa B
6.80
761

iyi =
iy2i =

varijanca (s2)
Broj krava (n)

s 2p

i ( y1i )

548 + 932

99

136

548
0.206
18

932
0.379
20

+ i ( y 2 i )

2
2
(
(
y1i )
y 2i )

i
i

n1
n1 + n 2 2

n2

(99 )2 (136)2

18
20 = 0.297
18 + 20 2
Uravnoteena varijanca se moe izraunati i iz:
( n 1)s12 + ( n 2 1)s 22
=
s 2p = 1
n1 + n 2 2
(18 1)(0.206) + ( 20 1)(0.379)
=
= 0.297
18 + 20 2
=

t=

( y1 y 2 ) 0
1
1

s 2p +
n1 n 2

= t=

( y1 y 2 ) 0
1
1

s 2p +
n1 n 2

(5.50 6.80) 0
1
1
0.297 +
18 20

= 7.342

Poto je izraunati t =-7.342ekstremniji od -t/2 = -t0.025 = 2.03, nul hipotezu odbacujemo uz 0.05 razinu
znaajnosti i zakljuujemo da je smjesa B bolja.

7.2.3 Provjera hipoteza o razlici prosjeka dviju populacija za mali uzorak kada
varijance nisu iste
Statistika za provjeru razlika prosjeka dviju populacija kada su uzorci mali i varijance uzoraka su
razliite:
t=

( y1 y 2 ) 0
s12 s 22
+

1 n2

Stupanj slobode v vie nije jednak (n1 + n2 -2) nego je:


v=

(s12 n1 + s 22 n 2 ) 2
(s12 n1 ) 2 (s 22 n 2 ) 2
+
n1 1
n2 1

7.2.4 Provjera hipoteza o razlici prosjeka dviju populacija: zavisni uzorci


Moe se dogoditi da dva uzorka nisu potpuno nezavisna jedno o drugom. Tipian takav primjer je
mjerenje na nekoj ivotinji prije i poslije primjene nekog tretmana. Jasno da mjerenje poslije tretiranja
ovisi ne samo o tretmanu nego i o prethodnom mjerenju, pa moemo govoriti o paru mjerenja. U takvom
762

sluaju treba izraunati razlike prije i poslije tretiranja za svaku ivotinju i provjeriti da li je prosjek tih
razlika znaajno razliit od nule. Oznaimo razliku za par opaanja sa di. Za ovu provjeru mora vrijediti
da je raspodjela razlika di priblino normalna.
Statistika za provjeru je za zavisne uzorke je:
d 0
t=
sd
n

d , i sd su aritmetika sredina i standardna devijacija razlika; n je broj uzoraka. Provjera i definiranje


kritinih vrijednosti je analogna kao to je ve naznaeno kod prijanjih primjera.
Primjer: Provjeravan je utjecaj tretiranja mlijenih krava na proizvodnju mlijeka. Izabrane su krave iste
laktacije i slinog stadija laktacije. Utjecaj laktacijske krivulje je zanemaren. Da bi se procijenio utjecaj
tretmana mjerena je koliina mlijeka prije i poslije primjene tretmana: Podaci su slijedei:
Mjerenje Krava 1 Krava 2 Krava 3 Krava 4 Krava 5 Krava 6 Krava 7 Krava 8 Krava 9
1
27
45
38
20
22
50
40
33
18
2
31
54
43
28
21
49
41
34
20
Razlika (d)
4
9
5
8
-1
-1
1
1
2

n=9
d=

id i
n

4 + 9 + ... + 2
= 3.11
9

( y )

sd =

i( y i ) 2

y2
i i

n 1
n 1
3.11 0
d 0
=
= 2.553
t=
3.655
sd
9
n

i i

= 3.655

Kritina vrijednost t-raspodjele za stupanj slobode (n-1) = 8 je t0.05 = 2.306. Poto je izraunata
statistika t = 2.553 vea od 2.306, H0 se odbacuje i zakljuujemo da je tretman utjecao na proizvodnju
mlijeka.

7.2.5 Neparametrijska provjera hipoteza o razlici dvije populacije


Ukoliko postoji opravdana sumnja da uzorci ne dolaze iz poznatih raspodjela, tada nije korektno
upotrebljavati z ili t provjere na nain kako smo pokazali do sada. Primjeri takvih uzoraka su kada se
najvea frekvencija pojavljuje vie prema repovima raspodjela ili ima opaanja koja su vie ekstremna
nego to bi se oekivalo. Poto za takve uzorke ne pretpostavljamo teoretske raspodjele, ne moemo
procjenjivati parametre, pa se zato takve provjere razlika zovu neparametrijske provjere. Mnoge
neparametrijske provjere odgovaraju na pitanja da li su odgovarajue populacije centrirane oko neke
toke. Ta toka moe biti medijan ili mode, ali esto se koristi i transformacija redoslijeda (engl. rank
transformation). Upotreba redoslijeda umanjuje znaajnost raspodjele i utjecaj ekstremnih vrijednosti u
uzorku. Jedna od takvih provjera je jednostavna provjera redoslijeda. Nul hipoteza ove provjere je da
nema utjecaja grupa, tj. raspodjele grupe su jednake (bez obzira to ne moramo znati prave raspodjele).
763

Ova provjera koristi statistiku za provjeru izraunata iz redoslijeda opaanja. Procjenitelj redoslijeda u
jednoj grupi je:
T = suma redoslijeda u jednoj grupi.
Oekivani prosjek redoslijeda u toj grupi, kada ne bi bilo razlike izmeu grupa je:
Prosjek(T) = n1 R
Gdje je n1 broj opaanja u grupi 1, a R prosjek redoslijeda gledajui obje grupe zajedno.
Standardna devijacija grupe 1 je:
n 1n 2
SD(T ) = s R
(n1 + n 2 )
Ovdje su SR = standardna devijacija gledajui obje grupe zajedno, n1 i n2 veliine grupa 1 i 2.
Ako su standardne devijacije redoslijeda za obje grupe priblino jednake, tada se raspodjela od T moe
aproksimirati standardnom normalnom raspodjelom, tj. statistika:
T mean ( T )
SD( T )
ima normalnu raspodjelu. Praktino pravilo je da veliina uzoraka mora biti vea od 5 i ne smije biti
puno vie istih vrijednosti u jednoj grupi nego to je u drugoj grupi. Redoslijed podataka se utvruje na
slijedei nain:
z=

Opaanja iz obje grupe se poredaju po veliini i pridruuje im se redoslijed. Ukoliko su pojedina


opaanja ista onda im se pridruuje njihov prosjek redoslijeda na primjer ako 10 i 11 opaanje po redu
ima istu vrijednost, recimo 20, tada je njihov redoslijed (10+11)/2 = 10.5.
Primjer: Dvije grupe od 8 krava hranili smo sa dva razliita obroka ( A i B) da bi utvrdili koji od ta dva
obroka daje veu koliinu mlijeka . Izmjerene su slijedee dnevne koliine mlijeka:
Grupa A: 19 20 21 22 23 23 25
Grupa B: 12 25 26 28 29 30 35
Poredajmo opaanja po veliini bez obzira na grupu:
Grupa
B
A
A
A
A
A
A
B
A
B
B
B
B
B

Mlijeko Redoslijed
(kg)
12
1
19
2
20
3
21
4
22
5
23
6.5
23
6.5
25
8.5
25
8.5
26
10
28
11
29
12
30
13
35
14
7.5
R
sR
4.174

n1 = 7
764

n2 = 7
T = 35.5
Prosjek(T) = n1 R = (7)(7.5) = 52.5
n1 n 2
( 7)(7)
= 4.174
= 7.809
SD(T ) = s R
(n1 + n 2 )
(7 + 7 )
z=

T mean (T ) 35.5 52.5


=
= 2.177
SD(T)
7.809

Poto je izraunati z = -2.177 ekstremniji od 1.96, nul hipoteza se odbacuje uz 0.05 razinu znaajnosti i
moemo rei razlika izmeu populacija postoji.
Moemo primijetiti da iako su obje grupe neke ekstremne vrijednosti (10 i 35) one nisu utjecale na
provjeru.
Probajmo izraunati isti primjer, ali provjeru razlika aritmetikih sredina koristei t-provjeru sa
nejednakim varijancama. Imamo slijedee izraune iz uzorka:
Prosjek( y )
varijanca (s2)
Broj krava (n)
t=

( y1 y 2 ) 0

Grupa A
21.857 kg
4.143
7
=

Grupa B
26.429
50.952
7

( 21.857 26.429) 0

= 1.629
s12 s 22
4.143 50.925
+
+

7
7

n
2
1
Ovdje je stupanj slobode v = 7 (nejednake varijance) i kritina vrijednost t raspodjele je 2.365. Poto je
izraunati t = -1.629 manji od kritine vrijednosti ne moemo rei da se nul hipoteza odbacuje. Ovdje je
ekstremna vrijednost (12) i te kako imala utjecaja na procjenu varijance druge grupe i provjeru .

7.3 SAS programi za provjeru razlika dviju populacija


Pogledajmo SAS program za primjer sa dvije grupe od 8 krava koje smo hranili smo sa dva razliita
obroka ( A i B) da bi utvrdili koji od ta dva obroka daje veu koliinu mlijeka. Izmjerene su slijedee
dnevne koliine mlijeka:
Grupa A: 20 22 10 25 27 21 23
Grupa B: 25 28 30 35 29 26 23
SAS program za provjeru razlika prosjeka dvije populacije:
DATA grupe;
INPUT grupa $ mlijeko;
DATALINES;
A 20
A 22
A 10
A 25
A 27

765

A 21
A 23
B 25
B 28
B 30
B 35
B 29
B 26
B 23
;
PROC TTEST DATA=grupe;
CLASS grupa;
VAR mlijeko;
RUN;
QUIT;

Objanjenje: Ime procedure je TTEST. Datoteka mora imati varijablu koja determinira pripadnost
opaanja grupi. Naredba koja definira u proramu kja je to varijabla je CLASS. Naredba VAR definira
varijablu koja e se analizirati.

SAS ispis:
The SAS System

1
11:32 Thursday, November 9, 2000

TTEST PROCEDURE
Variable: MLIJEKO
GRUPA
N
Mean
Std Dev
Std Error
Minimum
Maximum
-----------------------------------------------------------------------------A
7 21.85714286
2.03540098
0.76930926 19.00000000 25.00000000
B
7 26.42857143
7.13809365
2.69794580 12.00000000 35.00000000
Variances
T
DF
Prob>|T|
--------------------------------------Unequal
-1.6295
7.0
0.1475
Equal
-1.6295
12.0
0.1292
For H0: Variances are equal, F' =

12.30

DF = (6,6)

Prob>F' = 0.0076

Objanjenje: Program prvo daje opisnu statistiku za oba uzorka. N, Mean, Std Dev, Std Error,
Minimum i Maximum su veliine, prosjeci, standardne devijacije, standardne greke, minumumi i
maksimumi uzoraka. Program daje dvije t-provjere, za razliite (Unequal) i iste (Equal) varijance,
zajedno sa odgovarajuim stupnjevima slobode i P-vrijednostima (Prob>|T|). U zadnjem redu je i
provjera da li su varijance iste. Poto je F = 12.3 vei od kritine vrijednosti i P-vrijednost je 0.0076,
zakljuujemo da su varijance razliite i t-provjera za razliite varijance se treba koristiti u ovom sluaju.
P-vrijednost je 0.1475, pa zakljuujemo da H0 ne moemo odbaciti.
SAS program za neparametrijsku provjeru razlike dvije populacije:
* program koristi Wilcoxon provjeru;
PROC NPAR1WAY DATA= grupe

766

WILCOXON;
CLASS grupa;
EXACT WILCOXON;
VAR mlijeko;
RUN;
QUIT;

Objanjenje: Program koristi proceduru NPAR1WAY sa opcijom WILCOXON za Wilcoxon ili


jednostavnu provjeru redoslijeda. Naredba CLASS definira varijablu koja govori o pripadnosti podatka
grupi. Naredba VAR definira varijablu sa podacima.
The SAS System

N P A R 1 W A Y

11:32 Thursday, November 9, 2000

P R O C E D U R E

Wilcoxon Scores (Rank Sums) for Variable MLIJEKO


Classified by Variable GRUPA

GRUPA

A
B

7
7

Sum of
Scores

Std Dev
Under H0

Mean
Score

35.5000000
52.5000000
7.80901846
69.5000000
52.5000000
7.80901846
Average Scores Were Used for Ties

5.07142857
9.92857143

Wilcoxon 2-Sample Test

Expected
Under H0

S =

35.5000

Exact P-Values
(One-sided) Prob <= S
= 0.0140
(Two-sided) Prob >= |S - Mean| = 0.0280
Normal Approximation (with Continuity Correction of .5)
Z = -2.11294
Prob > |Z| = 0.0346

Objanjenje: Suma redoslijeda (Sum of scores) = 35.5. Oekivana suma redoslijeda (Expected Under
H0) = 52.5. P-vrijednosti (Prob) su dane za jednostranu (One sided) i dvostranu provjeru (Two sided) i
iznose 0.0140 i 0.280, to znai da se H0 odbacuje i zakljuuje razlike izmeu populacija. Zadnji dio
rezultata daje z vrijednost sa korekcijom na mali uzorak sa 0.5. I sa tom korekcijom zakljuujemo da su
populacije razliite jer je P-vrijednost (Prob > |z|) = 0.0345.

7.4 Provjera hipoteza o proporciji populacije


Podsjetimo se da je proporcija vjerojatnost uspjenih pokuaja u binomnom pokusu. Za uzorak veliine
n i broj uspjenih pokuaja y proporcija je jednaka
y
p= .
n
Dakle, provjera o proporciji moe koristiti binomnu raspodjelu za n veliinu uzorka. Meutim za veliki
uzorak to bi bilo prilino neprikladno. U tu svrhu se koristi normalna aproksimacija. Naime

767

procijenjena proporcija iz uzorka, p je priblino normalan ako je uzorak dovoljno velik. Uzorak se
smatra dovoljno velikim ako interval
p pq / n
ne sadri 0 ili 1. Ovdje su n veliina uzorka, q = 1 p .
Provjera se sastoji u tome da utvrdimo da li je proporcija izraunata iz uzorka znaajno razliita od
neke hipotetske vrijednosti. Drugim rijeima da li uzorak pripada populaciji sa poznatom proporcijom.
Ovdje provjera takoer moe biti jednostrana ili dvostrana. Dvostrana provjera za veliki uzorak
ukljuuje hipoteze:
H0: p =p0
H1: p p0
Kao statistiku za provjeru moemo koristiti z sluajnu varijablu:
p p 0
z=
p0q 0 n

Primjer: Pojavila se sumnja da uslijed ekolokih promjena u jednom podruju odnos spolova u
populaciji poljskih mieva nije vie 1:1 nego razliit. Pokus je postavljen tako da se uhvati uzorak od
200 mieva i odredi spol. Uhvaeno je 110 enki i 90 mujaka.
Hipoteze su:
H0: p = 1/2, H1: p 1/2
Neka je y = 90 broj mujaka, n = 200 ukupan broj uhvaenih mieva. Neka je p proporcija mujaka.
Neka je p = 90/200 = 0.45 = proporcija uhvaenih mujaka, q = 0.55, proporcija uhvaenih enki.
Hipotetska proporcija mujaka je p0 = 0.5, i hipotetska proporcija enki je 1 - p0 = 0.5.
z=

p p 0
p0q 0 n

0.45 .50
(0.50)(0.50) 200

= 1.4

Uzet emo razinu znaajnosti = .05 pa je kritina vrijednost 1.96. Poto izraunati
z = -1.4, ekstremniji od -1.96 ne moemo tvrditi da je odnos spolova razliit od 1:1.

7.5 Provjera hipoteza razlika dviju proporcija populacija


Neka y1 i y2 predstavljaju brojeve uspjenih pokuaja iz dva binomna pokusa sa veliinom uzorka n1 i
n2. Za procjenu p1-p2, gdje su p1 i p2 proporcije uspjenih pokuaja u dvije populacije, uzmimo
1 i p
 2 iz dva uzorka
proporcije p
p1 =

y1
n1

p 2 =

y2
n2

elimo provjeriti da li su proporcije dvije populacije razliite. Procjenitelj razlika proporcija je


p1 p 2 .
Takav procjenitelj ima varijancu
p1 q 1 p 2 q 2
+
n1
n2
Gdje su q1 = (1 -p1) i q2 = (1 - p2). Hipoteze za dvostranu provjeru definirane su:
768

H0: p1 - p2 = 0
H1: p1 - p2 0
Statistika za provjeru je standardizirana normalna varijabla z:
( p p 2 ) 0
z= 1
s p p2
1

Gdje je sp

2
p

 1- p 2). Poto je nul hipoteza da su


procjena standardne greke razlike proporcija ( p

proporcije iste tada se procjena proporcije vri tako da se uzme u obzir oba uzorka zajedno, tj.
y + y2
p = 1
n1 + n 2
je procjena proporcije za oba uzorka. (ukoliko su zadane proporcije uzoraka tada se procjena proporcije
moe izraunati
p n + p 2 n 2
p = 1 1
n1 + n 2
Zato je standardna greka jednaka:
pq pq
s p p 2 =
+
1
n1 n 2
odnosno
1
1

= pq +
n1 n 2
Gdje je:
q = 1 p
s p

p 2
1

Tako je
( p1 p 2 ) 0
z=
.
1

pq +
n
n
1
2
Aproksimacija proporcija normalnom raspodjelom, odnosno mogunost upotrebe z statistike mogue je
ako su uzorci dovoljno veliki. Kaemo da su uzorci dovoljno veliki ako intervali
p q
p q
p1 2 1 1 i p1 2 1 1
n1
n1
ne sadre 0 ili 1.
Odbacujemo H0 ako izraunati |z| > z/2, gdje je z/2 kritina vrijednost, tj. takva vrijednost z da je
P(z > z/2) = /2.
Primjer: elimo vidjeti da li je na dvije farme razlika izmeu proporcija krava sa vie od 4000 kg
mlijeka u laktaciji znaajno razliita.
yi = broj krava sa vie od 4000 kg na farmi i,
ni = ukupan broj krava na farmi i.
Farma 1
y1 = 40

Farma 2
y2 = 30
769

n1 = 100
p1 = .4

n2 = 100
p2 = .3

y1 + y 2
40 + 30
70
=
=
= 0.35
n1 + n 2 100 + 100 200
q = 1 0 35 = 0.65
(0.40 0.30) 0
= 1.48
z=
1
1
(0.35)(0.65) +
100 100
p =

Za razinu znaajnosti = .05, kritina vrijednost je 1.96. Poto je 1.48 manje od 1.96, moemo rei da
nismo utvrdili znaajne razlike izmeu proporcija na dvije farme uz 0.05 razinu znaajnosti.

7.6 Hi-kvadrat provjera razlike oekivane i prave frekvencije


Za provjeru razlika izmeu proporcija, odnosno frekvencija povoljnih pokuaja moe se koristiti i hi
kvadrat provjera koja koristi hi kvadrat raspodjelu. Nadalje, takva provjera nije ograniena samo na dva
uzorka, nego se mogu usporeivati povoljni pokuaji i vie uzoraka, odnosno vie kategorija. Uzmimo
prvo da imamo k kategorija i u svakoj smo kategoriji mjerili broj povoljnih pokuaja. Takoer,
pretpostavljamo hipotetski broj povoljnih pokuaja u pojedinoj kategoriji. Definirajmo nul i alternativnu
hipotezu:
H0: p1 = p1,0, p2 = p2,0, ,.........., pk = pk,0
tj H0: pi = pi,0 za svaki i.
H1: pi pi,0 za barem jedan i.
Proporcije u pojedinoj kategoriji i su:
y
pi = i
ni
i pi,0 su oekivane proporcije, ni je broj opaanja u kategoriji i.
Ukupan broj opaanja n je jednak:
n = i ni ,

i = 1 do k,

Statistika za provjeru ima hi kvadrat raspodjelu.


2 = i

[y i E(y i )]2
E(y i )

gdje je E(yi) = ni pi,0 oekivani broj opaanja za kategoriju, n je ukupan broj opaanja i ni je broj
opaanja u kategoriji i.
Odbacujemo H0 ako je izraunati 2 > 2 , gdje je 2 kritina vrijednost, tj. takva vrijednost 2 da je
P(2 > 2 ) = . Vrijednost 2 ima (k-1) stupanj slobode, a k je broj kategorija. Uzorci moraju biti
dovoljno veliki. Obino se uzima da treba biti najmanje pet opaanja po jednoj kategoriji da uzorak
bude dovoljno velik.
770

Primjer: Oekivana proporcija alela A i a u jednom gen lokusu je 0.6 i 0.4.


U uzorku od 400 ivotinja, njih 140 ima genotip AA, 240 ih ima genotip Aa i 20 ih ima genotip aa. Da
li je moemo rei da je uzorak od 400 ivotinja proporcija genotipova razliita od oekivanog?
Oekivana proporcija gena je:
A
p = 0.6
a
q = 0.4
Oekivana proporcija genotipova je :
AA
p2 = 0.36
Aa
2pq =0.48
Aa
q2 = 0.16
Prikaimo opaene i oekivane frekvencije u tablici:
Genotip
AA
Aa
Aa
2 = i

Opaena
140
240
20

Oekivana
(0.36)(400) = 144
(0.48)(400) = 192
(0.16)(400) = 64

[y i E (y i )]2 = [140 144]2 + [240 192]2 + [20 64]2


E(y i )
144
192
64

= 42.361

Kritina vrijednost hi-kvadrat raspodjele za 2 stupnja slobode i razinu znaajnosti 0.05 je 5.991. Poto
je izraunati 2 vei od kritine vrijednosti moemo zakljuiti da se uzorak razlikuje od oekivane
frekvencije genotipova uz 0.05 razinu znaajnosti.
Pitanje koje se takoer moe postaviti je da li postoji znaajna razlika izmeu kategorija u proporcijama
povoljnih pokuaja. Oekivana proporcija e tada biti jednaka u svim kategorijama a moemo je
procijeniti na temelju ukupnog broja povoljnih pokuaja uzimajui u obzir podatke iz svih kategorija
zajedno. Oekivana proporcija e biti:
yi
p0 = i
i n
i

za svaku kategoriju k.
Odnosno oekivani broj povoljnih pokuaja za kategoriju i je:
E(yi) = ni p0 ,
ni je broj opaanja u kategoriji i.
Ovdje su hipoteze:
H0: p1 = p2 =...= pk = p0
tj. H0: pi = p0 za svaki i,
H1: pi p0 za barem jedan i.
Opet je statistika za provjeru:
[y E(y i )]2
2 = i i
E(y i )
771

koja ima hi kvadrat raspodjelu sa stupnjem slobode (k-1).


Primjer: Da li je proporcija krava sa mastitisom razliita na tri farme. Broj krava na farmama A, B, C
su 96, 132 i 72. Broj krava sa mastitisom na farmama A, B i C su 31, 29 i 15.
Oekivana proporcija je
y i 31 + 29 + 15 = 0.25
p0 = i =
i n 96 + 132 + 72
i

za svaku kategoriju k.
Pokaimo tablino na primjer:
Broj krava

31

65

96

Oekivani broj
krava sa
mastitisom
(.25)(96) = 24

29

103

132

(.25)(132) = 33

15

57

72

(.25)(72) = 18

Ukupno

75

225

300

75

Farma

2 = i

Sa mastitisom

(y i E[y i ])2
E[y i ]

Bez mastitisa

Ukupno

(31 24)2 + (29 33)2 + (15 18)2


24

33

18

= 3.0265

Za stupanj slobode (3-1) = 2, Vrijednost 20.05 = 5.991, pa moemo rei da uz 5% razinu znaajnosti
nismo utvrdili razlike izmeu proporcija mastitisa na tri farme.

7.7 SAS program hi-kvadrat provjere


Izraunajmo primjer sa genotipovima AA, Aa i aa koristei SAS program.
Podsjetimo se problema: Oekivane proporcije genotipova AA, Aa i aa su 0.36, 0.48 i 0.16.
U uzorku od 400 ivotinja, njih 140 ima genotip AA, 240 ih ima genotip Aa i 20 ih ima genotip aa. Da
li je moemo rei da je uzorak od 400 ivotinja proporcija genotipova razliita od oekivanog?
SAS program:
DATA gen;
INPUT genotip$ broj;
DATALINES;
AA 140
Aa 240
aa 20
;
PROC FREQ DATA=gen;

772

WEIGHT broj;
TABLES genotip/ TESTP=(36 48 16);
RUN;
QUIT;

Objanjenje: Za provjeru hi-kvadrat korist emo proceduru FREQ. Naredba WEIGHT oznaava
varijablu koja govori o broju pojedine kategorije. Naredba TABLES definira varijablu sa kategorijama.
Opcija TESTP definira oekivane postotke u pojedinoj kategoriji.
SAS ispis:
The FREQ Procedure
Test
Cumulative
Cumulative
genotip
Frequency
Percent
Percent
Frequency
Percent
-----------------------------------------------------------------------AA
140
35.00
36.00
140
35.00
Aa
240
60.00
48.00
380
95.00
aa
20
5.00
16.00
400
100.00
Chi-Square Test
for Specified Proportions
------------------------Chi-Square
42.3611
DF
2
Pr > ChiSq
<.0001
Sample Size = 400

Objanjenje: Prva tablica pokazuje kategorije broj u pojedinoj kategoriji (Frequency), postotak
(Percent), oekivani postotak (Test Pecent), te kumulativnu frekvenciju i postotak. U drugoj tablici
prikazan je izraunati hi-kvadrat (Chi-square), stupanj slobode (DF) i P-vrijednost (Pr > ChiSq).

7.8 Provjera hipoteza o varijanci populacije


Populacije se mogu razlikovati ne samo zbog razlike u parametrima poloaja, nego i zbog razliite
rasprenosti opaanja. Drugim rijeima populacije se mogu razlikovati i zbog razliitih varijanci.
Provjera da li je varijanca razliita od hipotetske, odnosno da li uzorak pripada populaciji sa poznatom
varijancom takoer moe biti dvostrana i jednostrana. Hipoteze za dvostranu provjeru su:
H0: 2 = 20
H1: 2 20
Statistika za provjeru za procjenu varijance populacije nema z raspodjelu. Meutim, statistika
( n 1)s 2
2 =
20
ima hi-kvadrat raspodjelu. Za dvostranu provjeru odbacujemo H0 ako izraunati 2 < 21-/2 ili je
izraunati 2 > 2/2 , gdje je 2/2 takva vrijednost 2 da je P(2 > 2/2) = /2 i 21-/2 je takva vrijednost 2
da je P(2 < 21-/2) = /2.

773

7.9 Provjera hipoteza o razlici varijanci dvije populacije


Da bi provjerili da li su varijance dvije populacije razliite moemo koristiti F raspodjelu, uz uvjet da
uzorci izabrani iz normalnih populacija. Naime, kvocijent
s12 s22

12 22
ima F raspodjelu sa stupnjevima slobode (n1 -1) i (n2 - 1), gdje su n1 i n2 veliine uzoraka. Ovdje
provjera takoer moe biti dvostrana i jednostrana. Spomenut emo samo dvostranu provjeru. Hipoteze
za dvostranu provjeru mogu se napisati kao:
H0: 21 = 22
H1: 21 22
Kao statistika za provjeru ovdje nam moe posluiti kvocijent
s12
,
s 22
jer nul hipoteza govori da su varijance populacije jednake. Radi lakeg koritenja tablica u donoenju
zakljuaka moemo uvijek kvocijent varijanci izraziti tako da je u brojniku vea, a u nazivniku manja
varijanca. Odbacujemo H0 ako je
s12
F / 2,n1 1,n 2 1 ,
s 22
gdje je

F/2,n11,n2 1
kritina vrijednost, tj. takva vrijednost F da je vjerojatnost
P( F > F / 2,n1 1,n 2 1 ) = / 2 .

7.10 Koritenje intervalne procjene u provjeri statistikih hipoteza


Izraunati interval povjerenja moe se koristiti za provjeru hipoteza na taj nain, da ukoliko izraunati
interval sadri hipotetsku vrijednost parametra tada se nul hipoteza ne odbacuje. Recimo za provjeru
hipoteza o prosjeku populacije:
H0: =0
H1: 0
Koristimo interval povjerenja:
y z / 2y y + z /2 y
Ukoliko taj interval sadri 0 tada nul hipotezu ne odbacujemo.
Primjer: Pogledajmo opet primjer sa mlijenosti 50 krava. Pretpostavimo da imamo uzorak od 50 krava
sa srednjom vrijednosti koliine mlijeka u laktaciji 4000 kg. elimo provjeriti da li ovo stado pripada
populaciji krava sa poznatim prosjekom, 0 = 3600 kg i standardnom devijacijom = 1000 kg.
Hipotetski prosjek je 0 = 3600 pa su hipoteze:
H0: = 3600
H1: 3600
774

Zadano je iz uzorka:
y = 4000
n = 50 krava, i znamo da je:
= 1000
Izraunajmo 95% interval povjerenja:
y za/2 y
Za 95% interval povjerenja, = 0.05, Vrijednost z/2 = z0.025 iz tablice je 1.96.
1000
y =
=
= 141.4
n
50
Interval je:
4000 (1.96)(141.4)
Odnosno se nalazi unutar intervala (3722.9; 4277.1) sa vjerojatnosti 0.95.
Poto interval ne sadri 0 = 3600, moemo zakljuiti da uzorak ne pripada populaciji sa prosjekom
3600, tj. nae krave su bolje nego one u populaciji.
Koristei interval povjerenja moemo na slian nain provjeravati i druge hipoteze, kao to su razlike
proporcija ili prosjeka dviju populacija, itd.

775

7.11 Statistika i praktina znaajnost


Statistika znaajnost ne mora uvijek znaiti da istraivanje ima i praktinu znaajnost. Recimo da nas
zanima da li su sredine dviju populacija jednake. Dovoljno veliki uzorci e moda pronai statistiku
znaajnost razlika, ali ta razlika moe biti relativno mala i od nikakve praktine ili ekonomske vanosti.
Isto tako mali uzorci nee pronai razliku u populaciji, koja moda je od praktine vanosti. Takoer je
potreban oprez u upotrebi rijei znaajan. Rije znaajan vrijedi samo za uzorak. Tako se moe rei:
Postoji znaajna razlika izmeu prosjeka uzoraka, to znai da njihova izraunata razlika vodi do
izraunate P-vrijednosti dovoljno male da moemo odbaciti H0. Ali treba izbjegavati izraze kao
prosjeci populacije su znaajno razliiti, jer prosjeci populacije mogu biti samo praktino razliiti,
dakle oni su razliiti ili nisu razliiti. Potpuno je pogrean izraz: Alternativna hipoteza H1 je da su
sredine dviju populacije znaajno razliite, jer statistiki test hipoteza ne znai automatski i praktinu
znaajnost.

7.12 Tipovi greke kod statistikog zakljuivanja i snaga provjere


Statistika provjera moe imati samo dva odgovora: odbaciti ili ne odbaciti nul hipotezu H0. Odbaciti H0
znai isto to i prihvatiti H1. Kod zakljuivanja na temelju uzorka mogua su dva pogrena zakljuka:
a) tip I greka = odbacivanje nul hipoteze H0, a da je zapravo H0 istinita,
b) tip II greka = ne odbacivanje H0 a da je zapravo H0 lana.
Pogreno zakljuivanje takoer ima svoju vjerojatnost. Vjerojatnost greke tipa I oznaava se sa , a
vjerojatnost greke tipa II oznaava se sa . Vjerojatnost tip 1 greke je isto to i P-vrijednost ukoliko
H0 odbacimo. Vjerojatnost da se H1 prihvaa, a ujedno je H1 i tono zove se snaga testa, a jednaka je 1. U slijedeoj tablici su prikazani meusobni odnosi zakljuaka i pravih stanja i njihove vjerojatnosti:
Istinita (prava) situacija
Odluka statistike
provjere
Nije odbaena H0
Odbaena H0

H0 tono

H0 nije tono

Korektno prihvaanje
P = 1-
Tip I greka
P=

Tip II greka
P=
Korektno odbijanje
P=1-

Nain na koji se moe reducirati greke i tipa I i tipa II je poveati uzorak, smanjiti varijancu ili
poveati utjecaj (engl. effect size). Dakle snagu provjere treba razmatrati kod planiranja pokusa. Kada
je uzorak ve odreen, ne moe se istovremeno smanjiti i i . Obino se nastoji smanjiti tip I greka.
Obino se postavi = 0.05 i u veini sluajeva se ne obazire na . U svakoj statistikoj provjeri
vjerojatnost tip 1 greke (, P-vrijednost) je ili poznata ili se lako izrauna. Postavlja ju sam istraiva
kao razinu znaajnosti. Za razliku, je esto teko izraunati. Da bi se izraunala , dakle vjerojatnost
pogreke ako je H0 prihvaena, mora se pretpostaviti neka raspodjela ako je H1 tono i na temelju te
raspodjele pokuati odrediti . U poglavlju o provjeri proporcija imali smo primjer sa mievima i
provjerom da li je odnos spolova 1:1. Podsjetimo se da smo prihvatili H0., tj. nismo mogli zakljuiti da
je zaista dolo do promjena odnosa spolova. Pretpostavimo da smo donijeli krivi zakljuak i da je
proporcija mujaka u populaciji p1 = 0.4. Kolika je greka?

776

Ukupan broj mieva je bio 200. Ako vrijedi H0 tada bi broj mujaka trebao biti 0 = 100. No, ako je H1
tono, onda bi prosjeni broj mujaka trebao biti 1 = 200 (0.4) = 80. Podsjetimo se da je broj
uhvaenih mujaka bio y = 90. Za procjenu greke koristimo takoer z statistiku. Oznaimo je sa z1.
z1 =

y 1
np1q1

90 80
200(0.4)(0.6)

= 1.44

Vjerojatnost P(z < -1.44) = 0.4251, dakle = 0.4251, odnosno vjerojatnost da smo pogreno prihvatili
H0, ukoliko je proporcija mujaka 0.4 je 0.4251.

kritino podruje

Slika 78: Vjerojatnost greke tipa I


Vea snaga provjere (ili analogno mali , jer snaga je jednaka 1- ) je vana u sluaju kada ne
odbacujemo nul hipotezu. Ako provjera hipoteza ima veliku snagu i nije odbaena nul hipoteza, moemo
biti sigurniji da nul hipoteza zaista vrijedi. Ako provjera ima malu snagu i nije odbaena nul hipoteza,
zakljuak je sumnjiv i velika je ansa da radimo tip II greku. Obino ne donosimo zakljuke o
jednakosti dva ili vie parametara ba zbog esto velike vjerojatnosti , i konsekventno male snage.
Snaga provjere moe se determinirati ako pretpostavimo nekoliko specifinih alternativnih hipoteza sa
razliitim parametrima. Ako je na primjer Ho : 1 = 0 moemo determinirati snagu za nekoliko
alternativnih hipoteza Ha1 : a1 = 5 ili Ha2 : a1 = 7. Izraunati snagu je stvar procijene povrine ispod
odgovarajuih krivulja, tj (1- ). Kao to je prikazano na primjeru sa mievima.
Drugi nain procijene snage provjere je sa se kao alternativna hipoteza postavi izmjerena razlika u
uzorcima. Na temelju te razlike se postavlja teoretska raspodjela i promatra se odstupanje kada bi
razlika bila nula. Na taj nain se moe odrediti i veliina uzoraka potrebna da bi dobivena razlika bila
znaajna. Podsjetimo se da se poveanjem uzoraka standardan greka smanjuje.

7.13 Veliina uzorka


U statistikim provjerama cilj je gotovo uvijek odrediti da li su neke razlike znaajne. Pitanje svakog
planiranja pokusa je kolika je potrebna veliina uzorka da bi se ta razlika otkrila. U definiranju veliine
uzorka da se otkrije odreena razlika, mora se uzeti u obzir mogunost greke tipa 1 i tipa 2. Procjena
potrebne veliine uzorka ovisi o:
1) Procjeni 2
2) Veliini razlike koju elimo odrediti
3) Sigurnosti sa kojom elimo pronai razliku, tj., snaga provjere (1 - )
777

4) Razini znaajnosti, tj. greki tipa I


5) Jednostranoj ili dvostranoj provjeri
Ovdje emo samo spomenuti izraze kada su opaanja priblino normalna. Opa formula je za
jednostranu provjeru:
z + z 2
D ,
n=
2
a za dvostranu provjeru:
z / 2 + z 2
D
n=
2

Gdje su:
n = potrebna veliina uzorka
z, z/2 = vrijednost standardne normalne varijable odreena sa ili /2 vjerojatnosti tipa I greke
z = vrijednost standardne normalne varijable odreena sa vjerojatnosti tipa II greke
= eljena razlika koju elimo utvrditi
2D = odgovarajua varijanca razlike
Varijanca 2D se moe uzeti iz literature ili ako se zna varijaciona irina moe se aproksimirati sa:
2D = (var. irina) / 4

Vjebe:
7.1. Da li se moe rei uz 5% razinu znaajnosti da uzorak veliine 50, srednjom vrijednosti =24, i
standardnom devijacijom = 4, ne pripada populaciji sa srednjom vrijednosti = 25.
7.2. Za grupu A i B imamo slijedea mjerenja:
A
B

120
135

125
131

130
140

131
135

120
130

115
125

121
139

135
119

115
121

Da li je razlika izmeu aritmetikih sredina grupa signifikantna uz razinu 5%


a) Postavite odgovarajue hipoteze, provjerite hipoteze i napiite zakljuke
7.3. Da li je razlika izmeu aritmetikih sredina uzorka A i B statistiki znaajna ako su poznate
vrijednosti:
grupa
A
B
broj opaanja
22
22
prosjek
20
25
Standardna devijacija s
2
3
7.4. Provjeravan je novi tretman na mlijenim kravama. Ukupno 120 krava je tretirano 5 puta i
zabiljeen je broj pozitivnih reagiranja. Oekivana proporcija uspjeha u pojedinanom tretiranju je 0.4.
Da li se moe rei da krave u uzorku slijede binomnu raspodjelu sa p = 0.4.
Broj pozitivnih reagiranja
Opaeni broj krava

0
6

1
20

2
42

3
32
778

4
15

5
5

7.5. Krianjem je dobiveno 510 sivih i 130 bijelih zeia. Da li se moe prihvatiti da je hipotetski omjer
izmeu sivih i bijelih zeia 3:1?
7.6. Oekivana proporcija krava sa nepravilnim vimenom je 0.20 (ili 20%). U uzorku od 60 krava njih
20 ima nepravilno vime. Da li se moe rei da je proporcija uzorka znaajno razliita od oekivane?
7.7. Dvije grupa ovaca tretirane su na dva razliita naina. Svaka se grupa sastojala od 60 grla.
Tijekom tretiranja kod prve grupe 18 grla je imalo probavne smetnje, a kod druge grupe 5 grla je imalo
probavne smetnje. Da li se moe rei da je broj oboljelih grla posljedica razliitog tretiranja ili su razlike
sluajne.

779

8 Jednostavna linearna regresija


esto istraiva postavlja pitanje kakav utjecaj imaju varijable jedna na drugu, odnosno da li postoji
pretpostavka o funkcijskoj vezi meu varijablama. Na primjer, kako promjena vanjske temperature
utjee na promjenu konverziju hrane, ili kako promjena razine proteina u hrani utjee na promjenu
dnevnog prirasta. I u jednom i u drugom sluaju zanima nas da li postoji funkcija koja vee brojanu
promjenu jedne varijable sa brojanom promjenom druge varijable. Takvu analizu omoguuje regresija.
Regresija ukljuuje skup statistikih procedura kojima se izvode zakljuci o vezi izmeu varijabli u
nekom sustavu. Regresijska analiza prouava statistiku vezu izmeu varijabli na taj nain da se jedna
varijabla definira kao zavisna varijabla, a ostale kao nezavisne varijable. Obino se zavisna varijabla
oznaava sa y, a nezavisne varijable sa x. Regresijom elimo utvrditi kako promjena nezavisnih
varijabli utjee na promjenu zavisne varijable. U gornjim primjerima konverzija hrane i prirast su
zavisne varijable, a temperatura i razina proteina su nezavisne varijable. Ukoliko zavisnu varijablu
pokuavamo objasniti samo sa jednom nezavisnom varijablom tada govorimo o jednostavnoj linearnoj
regresiji. Multipla regresija je takva analiza kada se zavisna varijabla opisuje sa dvije ili vie nezavisne
varijable.
Dvije glavne primjene regresije jesu:
1) Procjena funkcijske zavisnosti meu varijablama koja dobije procjenama parametara regresije.
2) Predvianje buduih opaanja ili prosjeka jedne varijable na temelju novih mjerenja druge (drugih)
varijabli.

8.1 Jednostavni regresijski model


Kada regresija prouava linearnu vezu izmeu zavisne varijable i samo jedne nezavisne varijable
zovemo ju jednostavna linearna regresija. Pogledajmo primjer koji e nam rei kakvu informaciju
jednostavna linearna regresija zahtjeva iz podataka. Pretpostavimo da na temelju opsega prsa elimo
predvidjeti teinu krava. Cilj nam je pronai linearnu vezu izmeu te dvije varijable, tj. procijeniti
funkciju koja e objasniti promjenu teine, ako se mijenja opseg prsa. Ovdje je dakle opseg prsa
nezavisna varijabla, a teina zavisna varijabla. Da bi procijenili funkciju potrebno je izabrati uzorak
krava i na svakoj kravi izmjeriti i opseg i teinu. Znai trebamo parove mjerenja zavisne varijable y i
nezavisne varijable x. Simbol yi i xi predstavlja specifino mjerenja na ivotinji i. Ukoliko ima n
ivotinja tada su mjerenja:
Broj ivotinje
Opseg prsa
Teina (y)

1
x1
y1

2
x2
y2

3
x3
y3

...
...
...

n
xn
yn

Da bi objasnili brojanu vezu izmeu varijabli pretpostavit emo matematiki model. Sve procedure i
zakljuci iz regresije zavise o pretpostavljenom modelu. U prethodnom primjeru istraiva moe
pretpostaviti da je veza izmeu x varijable i y varijable linearna i moe se prikazati kao:
y = 0 + 1x +
Gdje su:
y
= zavisna varijabla (sluajna)
x
= nezavisna varijabla (fiksna)
880

0, 1

= regresijski koeficijenti (parametri)


= sluajna greka

Ovdje su 0, i 1 nepoznate konstante koje zovemo regresijski koeficijenti ili parametri. Simbol je
dodan u model zbog razloga to pretpostavljamo da model nije egzaktan. Vrijednost opisuje sluajna
neprotumaena odstupanja, do kojih dolazi zbog individualnih razlika izmeu ivotinja ili razliite
okoline, greke kod mjerenja i sl., a zove se greka modela. Openito se matematiki model u kojem se
dozvoljava da postoji i greka zove statistiki model. Za razliku od statistikog modela postoji i
deterministiki model. Deterministiki model bi bio onda kada bi opseg prsa tono opisao teinu tj.
model bi bio y = 0 + 1x . Postojanje sluajnih odstupanja je i glavna razlika izmeu deterministikog i
statistikog modela. Dok kod deterministikog modela x varijabla tono opisuje y varijablu, kod
statistikog modela x varijabla opisuju y varijablu ali se javlja i sluajna greka.
Gore prikazani statistiki model je linearni model, tj linearan u parametrima . Bilo koja regresijska
analiza primarno je vezana na izgradnju modela prema danim podacima, odnosno izraunavanje
procjena regresijskih koeficijenata. Jasno ako pretpostavljeni model ne opisuje dobro podatke bilo koji
zakljuak nee biti valjan. Treba naglasiti da je matematiki model pojednostavljenje onoga to se javlja
u prirodi, a elimo nai optimalan model koji e opisati stanje prirode.
Rekli smo da se model regresije odnosi na parove opaanja (x1,y1),(x2,y2),...,(xn,yn). Prema modelu svaki
yi se moe prikazati:
yi = 0 + 1xi + i

i = 1,.....n

Odnosno,
y1 = 0 + 1x1 + 1
y2 = 0 + 1x2 + 2
............
yn = 0 + 1xn + n
Pogledajmo brojani primjer. Izmjereni su opseg grudi i teina 6 krava. Mjere su prikazane u tablici:
Teina (kg) i opseg prsa (cm) krava:
Krava

Teina (y):

641

633

651

666

688

680

Opseg (x):

214

215

216

217

219

221

Mjerenja y se mogu prikazati kao:


641 = 0 + 1 214 + 1
633 = 0 + 1 215 + 2
651 = 0 + 1 216 + 2
666 = 0 + 1 217 + 2
688 = 0 + 1 219 + 2
680 = 0 + 1 221 + 2
Ponovimo da prema modelu pretpostavljamo da kako se mijenja x, mijenja se linearno i y, ali uz
mogunost greke . Oekivanje zavisne varijable y za zadani x je E(y|x) i predstavlja pravac (slika 81).

881

E(y|x)
*
*
*

* (xi,yi )

x
Slika 81: Pravac linearne regresije. Zvjezdicama su prikazana prava mjerenja (xi,yi), Pravac E(y|x) je
oekivanje zavisne varijable, i je odstupanje mjerenja od oekivanja.

Da bi regresijski model bio valjan trebaju biti definirane i neke pretpostavke i svojstva. Pretpostavke
modela govore o prosjeku i varijanci greke modela.
Pretpostavke modela:
A1) E(i) = 0, (prosjek greaka je jednaka nuli)
A2) Var(i) = 2 (varijanca je konstantna, za svaki i, odnosno varijanca je homogena)
A3) Cov (i,i) = 0, i i (greke modela su nezavisne, dakle i kovarijanca izmeu njih je nula)
(A4) Obino vrijedi i da su i normalno distribuirani, tj. i ~ N(0, 2). Ukoliko vrijedi da greke slijede
normalnu raspodjelu kaemo da je linearni model normalan.
Iz pretpostavka modela direktno slijede i svojstva modela.
Svojstva modela
P1) E(yi) = 0 + 1xi
i = 1,.....,n (kod neke dane vrijednosti nezavisne varijable xi , prosjek od yi je 0
+ 1xi)
P2) Var(yi) = 2 (varijanca bilo kojeg yi jednaka je varijanci od i, odnosno je konstantna, tj, bilo koji yi
ima istu varjancu)
P3) Cov (yi,yi) = 0, i i ( y su nezavisni, dakle i kovarijanca izmeu njih je nula

E(yi |xi) = 0 + 1x

y
1
1
0

x
882

Slika 82: Objanjenje parametara obine linearne regresije

Objanjenje parametara jednostavne linearne regresije prikazano je na slici 8-2. Prosjek (oekivanje) od
y uz dati x (E(yi| xi) = 0 + 1xi) predstavlja ravnu crtu, 0 = odsjeak na y osi, odnosno vrijednost
E(yi|xi) kad je x = 0, 1 = nagib crte, odnosno prirast E(yi| xi) koja odgovara prirastu x za jedinicu.
Takoer je:
Cov ( x , y)
1 =
Var( x )

8.2 Procjena parametra 0 i 1,metoda najmanjih kvadrata


Metoda najmanjih kvadrata je najrairenija metoda procjene parametara u linearnoj regresiji. Cilj
metode je da se pronae krivulja koja e najbolje opisati dani skup podataka, odnosno da se pronau
procjenitelji parametara 0 i 1. Procjenitelji parametara linearne regresije se obino oznaavaju sa 0 i
ili b0 i b1. Pravac E(y|x) je nepoznat ali se moe procijeniti prema podacima sa:
1

y i = 0 + 1x i
ili
y i = b 0 + b1x i
Takav pravac se zove procijenjeni pravac, procijenjena krivulja regresije, ili procijenjeni model. Razlika
izmeu izmjerenih i procijenjenih vrijednosti zavisne varijable zove se ostatak i oznaava se simbolom
ei:

[ (

)]

 i = yi  0 +  1xi
ei = yi y

Svako opaanje u uzorku se dakle moe napisati:


i = 1,.....n
yi = b0 + b1xi + ei
Na slici 8-3 prikazano je znaenje simbola procijenjenog pravca.

y

y
*

y i

*
*

*
*
*

ei = yi - y

* yi

x
Slika 83: Procijenjni pravac jednostavne linearne regresije.

Metodom najmanjih kvadrata izraunavamo procjenitelje b0 i b1, koji daju najmanju sumu kvadrata
ostataka:
2
ie i2 = i(y i y i ) = min imum
883

Drugim rijeima elimo ravnu crtu koja e biti to blie pravim podacima, odnosno ostaci e biti to
manji. Suma kvadrata ostatka se obino jo oznaava sa
i e i2 =SSOST

Procjenitelji b0 i b1 se pronau tako da se izraunaju parcijalne derivacije po procjeniteljima i izjednae


s nulom:

[
[

]
]

(y i b 0 b1x i )2 = 0

i
b 0

(y i b0 b1x i )2 = 0

i
b1
Dobije se sustav dvije linearne jednadbe, tkzv. normalne jednadbe:
nb 0 + b1 i x i = i y i
b 0 i x i + b1 i x 2i = i x i y i
Rjeenjem tih jednadbi dobiju se procjenitelji b1 i b0 :
SS
b1 = xy
SS xx
b0 = y b1x
Gdje su:
SS xy = i (x i x )(y i y ) = i x i y i
SS xx = i (x i x ) = i x 2i
2

(i x i )(i yi ) = suma produkata y i x.

(i x i )

= suma kvadrata od x.

n = veliina uzorka
Krivulja
y i = b0 + b1x i
zove se i krivulja najmanjih kvadrata, odnosno procijenjena krivulja.
Primjer: Upotrijebimo uzorak od 6 krava da bi procijenili pravac linearne regresije. Posjetimo se
podataka:
Krava

Teina (y):

641

633

651

666

688

680

Opseg (x):

214

215

216

217

219

221

Svako mjerenje teine yi se moe prikazati:


641 = b0 + b1 214 + e1
633 = b0 + b1 215 + e2
651 = b0 + b1 216 + e2
666 = b0 + b1 217 + e2
688 = b0 + b1 219 + e2
680 = b0 + b1 221 + e2
884

Za izraunavanje koeficijenata b0 i b1 trebamo sume (i xi i i yi ), sumu kvadrata i x2i = i sumu


produkata.

i xiyi. zato je dobro napisati slijedeu tablicu:

Teina(y)
641
633
651
666
688
680
3959

Sume

Opseg(x)
214
215
216
217
219
221
1302

x2
45796
46225
46656
47089
47961
48841
282568

xy
137174
136095
140616
144522
150672
150280
859359

n=6

i xi = 1302
i x2i = 282568
i yi = 3959
i xiyi = 859359
SS xy = i x i y i

(i x i )(i y i ) = 859359 (1302)(3959) = 256

(i x i )

SS xx = i x i2
b1 =

SS xy
SS xx

= 282568

(1302 )2
6

= 34

254
= 7.53
34

b 0 = y b1x = 974.05
Procijenjeni pravac je:
y i = - 974.05 + 7.53 x i
700

Teina (kg)

690
680
670
660
650
640
630
214

216

218

220

222

Opseg prsa (cm)

Slika 84: Regresija teine krava na opseg prsa

885

8.3 Ostatak i svojstva ostatka


Korisne informacije o valjanosti modela mogu se dobiti analizom ostatka. Ostaci su vrijednosti koje
moemo smatrati grekama modela procjene. Podsjetimo se da je greka pravog modela
i = yi E(yi)
Ostatak je definiran kao:
e i = y i y i
Suma kvadrata za ostatak je
SSOST = i (y i y i )

Varijanca modela je jednaka sredini sume kvadrata ostatka MSOST:


SS
MS OST = s 2 = OST
n2
gdje je (n-2) stupanj slobode. MSOST = s2 je procjena varijance greke u populacije 2 = Var (). Stupanj
slobode se praktinim pravilom odreuje kao:
n - (broj parametara koje treba procijeniti za dotinu sumu kvadrata)
ili
n - (broj restrikcija kod regresije)
Kod procijene jednostavne regresije koritenjem uzoraka postoje dvije restrikcije:
1) i (y i y i ) = 0
2)

i (yi yi )x i = 0

Te dvije restrikcije zovu se i svojstva ostatka. Kako su definirane dvije restrikcije, odnosno procjenjuju
se dva parametra, stupanj slobode ostatka kod jednostavne regresije je n 2.
Oekivanje ostatka je:
E(ei) = 0
Varijanca ostaka nije jednaka varijanci greke Var(ei) 2. Varijanca ostatka ovisi o xi. Za veliki n
Var(ei) 2, procijenjen sa s2., tj E(s2) = 2. Takoer je kovarijanca Cov(ei,ei) 0. Za veliki n
Cov(ei,ei) 0.
Pogledajmo tablicu sa svim ostacima, kvadratima ostatka i sumu kvadrata za ostatak za primjer sa
kravama:

Suma

641
633
651
666
688
680
2759

214
215
216
217
219
221
1062

y
637.25
644.77
652.30
659.83
674.89
689.95
2759.0

e
3.75
-11.77
-1.30
6.17
13.11
-9.95
0.0
886

e2
14.099
138.639
1.700
38.028
171.816
99.022
463.304

Suma kvadrata za ostatak je:


SS OST = i (y i y i ) = 463.304
2

Procjena varijance

s2 = MSOST = s 2 = MSOST =

SSOST 463.304
=
= 115.826
n2
4

Podsjetimo se da je varijanca greke: Var(i) = 2. Nepristrani procjenitelj varijance greke je sredina


sume kvadrata ostatka:
1
(y i y i )2 = SSOST = MSOST
s2 =

i
n2
n2
odnosno suma kvadrata ostatka podijeljena sa odgovarajuim stupnjem slobode. esto se u literaturi
zove jo i sredina sume kvadrata greke. Moe se i izraunati skraenim nainom prema izrazu:
SS yy

(SS xy ) 2
SS xx

Drugi korijen iz sredine sume kvadrata:


s = s2 =

SS OST
n2

zove se standardna greka regresijskog modela.

8.4 Prosjeci i varijance procjenitelja


U mnogo sluaja zakljuci su temeljeni na procjeniteljima b0 i b1. Zato je vano znati statistika svojstva
procjenitelja. Svojstva procjenitelja su oekivanja i varijance:
E(b1) = 1
E(b0) = 0
Odnosno oekivanja procijenitelja su jednaka parametrima to znai da su procjenitelji nepristrani.
Varijance procjenitelja su:
2
Var ( b1 ) = 2b 1 =
SSxx
1
x

Var ( b 0 ) = 2b 0 = 2 +
n SS xx
Ako pretpostavimo da yi imaju normalnu raspodjelu, onda su i b0 i b1 imaju normalnu raspodjelu jer su
linearne funkcije od yi. Poto je procjena varijance 2 jednaka s2, varijancu od b1 moemo procijeniti sa:
s2
s 2b 1 =
,
SS xx
a standardna greka procjenitelja b1 je:
sb =
1

s2
.
SS xx

887

8.5 Studentova t-provjera i interval povjerenja procjene parametara


Provjera hipoteza o nagibu krivulje, tj. o 1 moe se provesti t-provjerom. Hipoteze su slijedee:
H0: 1 = 0
H1: 1 0
Nul hipoteza je da regresije nema odnosno da je nagib regresije nula, tj pravac regresije je horizontalan.
Alternativna hipoteza je da nagib nije horizontalan tj, regresija postoji. Da bismo mogli provjeravati
hipoteze o 1 moramo pretpostaviti da su procjenitelji normalni. Podsjetimo se da openito t statistika
ima oblik:
Pr ocjenitelj Paramatar
t=
St.greska procjenite lja
Moe se pokazati da statistika za provjeru
b1 0
t=
s 2 SS xx
ima t raspodjelu sa (n-2) stupnjeva slobode, ako vrijedi H0. Odbacujemo H0 ako je izraunata statistika
|t| velika. Za razinu znaajnosti odbacujemo H0 ako |t| t/2,(n-2), gdje je t/2,(n-2) kritina vrijednost
(slika 8-5).

1 = 0
-t/2

b1
t/2

Slika 85: Teoretska distribucija procjenitelja b1 i odgovarajua skala t statistike. Simboli t/2 su kritine
vrijednosti provjere hipoteza.
Primjer: Provjerimo hipoteze za na primjer o teini i opsegu krava. Ve smo izraunali:
SSOST = 463.304, i procijenjena varijanca
SS
s 2 = OST = MSOST = 115.826 .
n2
Takoer je bilo SSxx = 34.
sb =
1

s2
115.826
=
= 1.845
SS xx
34

888

b1 0

t=

s 2 SS xx

7.53
= 4.079
1.845

t/2,(n-2) = t0.025,4 = 2.776


Poto je izraunati t=4.079 vei od kritine vrijednosti (2.776) zakljuujemo da je procjena nagiba
regresije 7.53 znaajno razliita od nule i da u populaciji regresija postoji.

8.6 Interval povjerenja za 1


Ve smo rekli da
b1 1
s 2 SSxx
ima t-raspodjelu. Dakle moe se napisati da vrijedi:

b1 1

t 2, n 2 = 1
P t 2 , n 2
2
s SS xx

gdje je t/2,n-2 kritina vrijednost na desnoj strani t raspodjele kod /2.


Dalje slijedi:

{
P{b t

P t 2 , n 2 s 2 SS xx b1 1 t 2 , n 2 s 2 SSxx = 1

2,n 2

s 2 SS xx 1 b 2 + t 2 , n 2 s 2 SSxx = 1

P b1 t 2 , n 2 s b 1 1 b 2 + t 2 , n 2 s b 1 = 1

Ovdje je
s b1 = s 2 SSxx
standardna greka procjenitelja b1.
Moemo pisati da je za 100(1-)% interval povjerenja
b1 t 2 , n 2 s b 1
Za 95% interval povjerenja (IP)
b1 s 2 SSxx t 0.25, n 2
kao obino interval povjerenja ima oblik:
Jedinstveni procjenitelj (Konstanta)(standardna greka procjenitelja)
Primjer: Napravimo 95% interval povjerenja za parametar 1, za primjer sa kravama. Imamo ve
zadano i izraunato:
= 0.05
stupanj slobode = 4
t0.025,4 = 2.776
s b1 = 1.846
b1 = 7.529
889

Tada je interval povjerenja


b1 s b1 t 0.25,n 2
7.529 (1.846)(2.776) ili se pie
IP
(2.406,12.654)

8.7 Ralanjenje ukupne varijabilnosti


Regresijskim modelom nastoji se objasniti to vei dio varijabilnosti zavisne varijable. Varijabilnost
opisana modelom zove se protumaena varijabilnost. Neprotumaena varijabilnost je dakle ona koja nije
protumaena modelom. Ukupna varjabilnost zavisne varijable, odnosno varijabilnost oko prosjeka y
mjeri se ukupnom sumom kvadrata. Neprotumaena varjabilnost, odnosno varijabilnost oko regresijske
crte ( y ) mjeri se sumom kvadrata za ostatak (slika 8-6).


y

raspodjela
yi oko y

raspodjela

*
*

yi oko y

(B)

*
*

*
*

(A )
*

x
Slika 86: Raspodjela varijabilnosti oko prosjeka i procijenjenog pravca regresije.
(B) mjeren sa sumom kvadrata za ostatak:

 i)
SSO ST = i( yi y

(A) mjeren sa ukupnom sumom kvadrata:

SS U K U P = i( yi yi)

Grafiki moemo vidjeti to znai odnos suma kvadrata na izgled trenda (slika 8-7). Ako je SSOST puno
manja od SSUKUP onda je vidljiva linearna veza izmeu x i y. Ako je SSOST priblino jednak SSUKUP
veza izmeu x i y nije jasno vidljiva.

890

y
*

*
* *
*
*
*

*
*

*
*

*
*

* *
*

*
*

Jak linearan trend: SSOST << SSUKUP

Slab linearan trend: SSOST SSUKUP

Slika 87: Odnos suma kvadrata u procjeni regresije i izgled trenda.


U regresijskoj analizi moemo vidjeti tri izvora varijabilnosti:
1.Varijabilnost opisana modelom
- protumaena varijabilnost, mjeri se sumom kvadrata za regresiju (SSREG).
2. Ukupna varijabilnost zavisne varijable
- varijabilnost oko y , mjeri se ukupnom sumom kvadrata. (SSUKUP)
3. Neprotumaena varijabilnost
- varijabilnost oko y , mjeri se sumom kvadrata za ostatak (SSOST).

8.7.1 Veza izmeu suma kvadrata


Ukoliko mjerenja y prikaemo kao odstupanja ili od prosjeka ili od procijenjenog pravca (slika xxx)
tada vrijedi:
( y i y) = ( y i y i ) + ( y i y)


yi y

*
*


y

*
yi y *
*

 y
y
x

Slika 88: Prikaz mjerenja y kao odstupanja od prosjeka i procijenjenog pravca

891

Moe se pokazati da sumiranjem po svim tokama i kvadriranjem definiranih odstupanja vrijedi:


2
2
2
i(yi yi) = i(y i y i) + i(yi y i)

to se jo kratko moe pisati kao:


SSUKUP = SSREG + SSOST
Odnosno, ukupna varijabilnost se moe ralaniti na varijabilnost protumaenu regresijom i
neprotumaenu varijabilnost.
Sume kvadrata se mogu izraunati i kratkim nainom:
1. Ukupna suma kvadrata je zapravo suma kvadrata zavisne varijable:
SSUKUP = SSyy
2. Suma kvadrata za regresiju je:
(SS xy ) 2
SS REG
SS xx
3. Suma kvadrata za ostatak je razlika ukupne sume kvadrata i sume kvadrata za regresiju:
(SS xy ) 2
2
SS OST = s = SS yy SS xx

8.7.2 Teoretske raspodjele suma kvadrata


Uz pretpostavku normalne raspodjele ostataka, SSOST ima n 2 raspodjelu. Uz uvjet da nema
2

regresije odnosno da je 1 =0, SSREG ima 1 raspodjelu i SSUKUP ima n1 raspodjelu.


Podsjetimo se da je 2 raspodjela jednaka z12 + z22 + ... gdje su zi standardne normalne varijable
y y
zi = i 2

Tada izraz
i (yi y )2 = SSyy
2
2
je suma kvadriranih standardnih normalnih varijabli i ima hi-hvadrat raspodjelu. Za izraunavanje
odgovarajuih sredina suma kvadrata potrrebno je odrediti stupnjeve slobode.Stupnjevi slobode se mogu
ralaniti slino kao i sume kvadrata:
2

SSUKUP = SSREG + SSOST


(n-1) = 1 +

(n-2)

(sume kvadrata)
(stupnjevi slobode)

Ako je n broj parova podataka ralanjenje e biti slijedee:


Ukupan stupanj slobode:
gubi se 1 stupanj slobode u procijeni aritmetike sredine
Stupanj slobode radi ostatka: gubi se 2 stupnja slobode u procijeni 0 i 1.
Stupanj slobode za regresiju: treba 1 stupanj slobode za procjenu 1.
Saeto svojstva raspodjela moemo prikazati:

892

Suma kvadrata

Stupanj slobode

Raspodjela

Uvjet

SSREG

(ako vrijedi H0)

SSOST

n-2

SSUKUP

n-1

12
2 2n 2
2 2n1
2

(ako vrijedi H0)

8.8 Provjera hipoteza - F- provjera


Raspodjele sume kvadrata nam trebaju za provjeru H0: 1 = 0, protiv HA: 1 0. Takoer se moe
pokazati da su SSREG i SSOST nezavisni. Te pretpostavka dozvoljava da se za provjeru hipoteza koristi F
- provjera. F statistika je definirana kao:
F=

(SS

(SS

OST

(ako H 0 )
2 / 1
12 1
2
2
/ (n 2 ) n 2 (n 2 )

REG

SS REG
= MSREG = sredina sume kvadrata za regresiju
1
SSOST
= MSOST = sredina sume kvadrata ostatka
n2
Sredina sume kvadrata za ostatak, MSOST = s2, procjenjuje varijancu populacije.
F statistika je dakle:
MS REG
F=
s2
tj, F statistika ima F-raspodjelu sa stupnjevima slobode 1 i (n-2) ukoliko vrijedi H0.
Oekivanja suma kvadrata su
E(SSOST) = 2(n-2)
E(SSREG) = 2 + 21SSXX =>
odnosno oekivanja sredine sume kvadrata su:
E(MSOST) = 2
E(SREG) = 2 + 21SSxx
Dakle, ako je H0 istinito, 1 = 0 i MSREG 2 i F 1. Ako je H1 istinito onda je MSREG > 2 i F > 1.
Odbacujemo H0 ako je F velik. Za razinu znaajnosti odbacujemo Ho ako F > F,1,n-2

893

F1,(n-2)

F,1,(n-2)

Slika 89: F raspodjela i kritina vrijednost za stupnjeve slobode 1 i (n-2). Izraz F,1,n-2 predstavlja kritinu
vrijednost F raspodjele.

Uobiajeno je radi preglednosti napisati izvore varijabilnosti, sume kvadrata (SS), sredine suma
kvadrata (MS) i stupnjeve slobode (St.sl.) u tablicu, koja se zove analiza varijance tablica ili kratko
ANOVA tablica.
ANOVA tablica
Izvor
Regresija

SS
SSREG

St. sl.
1

MS

Ostatak

SSOST

n-2

M S O ST = s2 = SS O ST (n 2)

Ukupno

SSUKUP

n-1

M S REG = SS REG 1

F
F=MSREG / MSOST

8.8.1 Izraunavanje suma kvadrata


Sume kvadrata za regresiju, ostatak i ukupna suma kvadrata mogu se izraunati iz suma kvadrata i
sume produkata varijabli x i y.
SS REG

SS xy )2
(
=

SS xx
SSUKUP = SSyy
SSOST = SSUKUP - SSREG
Primjer: U naem primjeru sa kravama imali smo SSxy = 256, SSxx = 24. Ukupna suma kvadrata je
suma kvadrata za y.
SS UKUP = SS yy =

y2
i i

2
(
yi )

= 2390.833

Suma kvadrata za regresiju je:


(SS xy ) 2 ( 256) 2
=
= 1927.529
SS REG =
SS xx
34
SSOST = SSUKUP - SSREG = 2390.833 -1927.529 = 463.304
ANOVA tablica
894

Izvor
Regresija
Ostatak
Ukupno

SS
1927.529
463.304
2390.833

St. sl.
1
4
5

MS
1927.529
115.826

F
16.642

P
0.0151

Kritina vrijednost F raspodjele za a = 0.05 i stupnjevima slobode v1 = 1 i v2 = 4 je:


F,v1,v2 = F0.05,1,4 = 7.71
Poto je izraunati F= 16.642 vei od kritine vrijednosti nul hipoteza se odbacuje. Obino se u
kompjutorskim programima daje i P vrijednost. U Anova tablici vidimo da je P = 0.0151. Poto je P =
0.0151 < 0.05, nul hipotezu odbacujemo.

8.9 Koeficijent determinacije (R2)


Koeficijent determinacije se esto koristi kao mjera valjanosti modela. Razlika izmeu dobrog i loeg
modela ovisi o odnosu suma kvadrata:
Dobar model SSREG SSU K U P
SS O ST SS U K U P
Lo model
Koeficijent determinacije predstavlja proporciju varijabilnosti protumaenu modelom u odnosu na
ukupnu varijabilnost:
SS REG
SSOST
=1
R2 =
SSUKUP
SS UKUP
2
Koeficijent determinacije moe poprimati vrijednosti 0 R 1. Dobar model znai da je
2
R 1.

8.9.1 Skraeni i analogni naini raunanja suma kvadrata i koeficijenta


determinacije
Sume kvadrata za regresiju i ukupna suma kvadrata se mogu napisati i kao:
SSREG = b21 SSxx
SSUKUP = SSyy
Poto je b1 =

SS xy

SS xx
Dakle, koeficijent determinacije je
SS REG
SS
= b12 xx
R2 =
SSUKUP
SS yy
SS 2xy

SS xx
2
SS
xx
R2 =
SS yy
R2 =

SS 2xy
SSxx SS yy

Primjer: Izraunajte koeficijent determinacije za primjer sa kravama.


895

SS REG =

(SS xy ) 2
SS xx

( 256) 2
= 1927.529
34

ili
SSREG = (7.529)2 (34) = 1927.529
SSUKUP = SSyy = 2390.833
SS REG
1927.529
=
= 0.81
R2 =
SS UKUP 2390.833

8.10 SAS program


Pogledajmo SAS program za izraunavanje regresije za primjer sa teinama i opsegom prsa krava:
Krava

Teina (y):

641

633

651

666

688

680

Opseg (x):

214

215

216

217

219

221

SAS program:
DATA krave;
INPUT tezina opseg;
DATALINES;
641 214
633 215
651 216
666 217
688 219
680 221
;

PROC REG;
MODEL tezina=opseg / ;
RUN;
QUIT;
*ili;
PROC GLM;
MODEL tezina=opseg / ;
RUN;
QUIT;

Objanjenje: Koristimo proceduru GLM ili proceduru REG. Naredba MODEL tezina = opseg visina
znai da je zavisna varijabla tezina, a nezavisna opseg.
SAS ispis:
Analysis of Variance

896

Source
Model
Error
C Total

DF
1
4
5

Root MSE
Dep Mean
C.V.

Sum of
Squares
1927.52941
463.30392
2390.83333

10.76225
659.83333
1.63106

Mean
Square
1927.52941
115.82598

R-square
Adj R-sq

F Value
16.642

Prob>F
0.0151

0.8062
0.7578

Parameter Estimates

Variable
INTERCEP
OPSEG

DF
1
1

Parameter
Estimate
-974.049020
7.529412

Standard
Error
400.54323178
1.84571029

T for H0:
Parameter=0
-2.432
4.079

Prob > |T|


0.0718
0.0151

Objanjenje: Prvo je dana ANOVA tablica: Izvor (Source), stupnjevi slobode (DF), Suma kvadrata
(Sum of Squares), sredina suma kvadrata (Mean Square), F vrijednost (F-value) i P-vrijednost
(Prob>F). Izvori varijabilnosti su Regresija (Model), Ostatak (Error) i Ukupno (C Total). Vidljivo je
da je F = 16.642 sa P-vrijednosti = 0.0151, to znai da je koeficijent regresije u uzorku znaajno
razliita od nule. Ispod ANOVA tablice dane su standardna greka regresijskog modela (Root MSE) =
10.76225 i koeficijent determinacije (R-square) = 0.8062. Ispod podnaslova Parameter Estimates,
moemo vidjeti procijene parametara sa standardnim grekama i t-provjerom da su procjenitelji
znaajno razliiti od nule. Ovdje je b0 (INTERCEP) = 974.046020 sa standardnom grekom (Standard
error) = 400.54323178, a b1 (OPSEG) = 7.529412 sa standardnom grekom 1.84571029. Izraunata t
statistika je 4.079, sa P-vrijednosti (Prob > |T|) = 0.0151, to pokazuje da je b1 znaajno razliit od
nule.

Vjebe:
8.1. Procijenite linearnom regresijom utjecaj teine kokica (x) na uzimanje hrane (y) u godini dana
x
y

2.3
43

2.6
46

2.4
45

2.2
46

2.8
50

2.3
46

2.6
48

2.6
49

2.4
46

2.5
47

Provjerite nul hipotezu da regresija ne postoji. Napravite intervalnu provjeru koeficijenta regresije.
Izraunajte koeficijent determinacije. Objasnite rezultate.
8.2. Cilj je bio istraiti da li teina kod klanja ima utjecaja na debljinu slanine. Izmjereno je 8 svinja
Poland China pasmine. Mjere su prikazane u slijedeoj tablici:
Teina kod klanja (kg)
Debljina lene slanine (mm)

100
42

130
38

140
53

110
34

105
35

95
31

130
45

120
43

Provjerite nul hipotezu da regresija ne postoji. Napravite intervalnu provjeru koeficijenta regresije.
Izraunajte koeficijent determinacije. Objasnite rezultate.
8.3. U razdoblju od 1980 do 1991 na ergeli je bio slijedei broj konja:
897

Godina
1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991
X
-11
-9
-7
-5
-3
-1
1
3
5
7
9
11
Broj konja 110 110 105 104 90
95
92
90
88
85
78
80
a) Prikaite linearnim trendom (regresijom) broj konja na ergeli.
b) Nacrtajte grafikon pravih i procijenjenih vrijednosti broja konja po godinama
c) Koliko bi teoretski trebalo biti konja u 1992. godini, ukoliko pretpostavimo linearni trend.

898

9 Koeficijent korelacije
Koeficijent korelacije je mjera jakosti linearne veze izmeu dvije varijable. Podsjetimo se da je glavni
cilj regresije pronai funkcijsku zavisnost zavisne varijable y o nezavisnoj varijabli x. Drugim rijeima
pitanje je kako promjena varijable x utjee na promjenu varijable y. Uloga varijabli x i y jasno je
odreena, tj. tono se zna koja od njih je zavisna a koja je nezavisna varijabla. Pretpostavimo meutim
da nas zanima koja je jakost veze dvije varijable a da ne vodimo rauna koja od njih je zavisna ili
nezavisna. Na primjer, za mjerenja opsega i teine moe nas zanimati koliko je jaka i vrsta takva veza,
tj. u kojem stupnju e se ta dva obiljeja zajedniki mijenjati. Pretpostavka je da su i x i y sluajne
varijable i njihova opaanja su iz zajednike bivarijatne raspodjele. Kada x i y imaju zajedniku
raspodjelu, postavlja se pitanje o strukturi i jaini veze. O tome nam govori koeficijent korelacije,
odnosno analiza korelacije. Koeficijent korelacije () definiran je kao:
=

xy
2x 2y

Gdje su 2y = Var(y) = varijanca od y, 2x =Var(x) = varijanca od x, i xy = Cov(x, y) = kovarijanca


izmeu x i y. Koeficijent korelacije opisuje jakost linearne veze izmeu sluajnih varijabli, i smije se
samo onda upotrebljavati kada su i x i y sluajne normalne varijable.
Podsjetimo se da kovarijanca govori o zajednikom variranju dvije sluajne varijable, i ona je apsolutna
mjera veze. Ako su varijable nezavisne kovarijanca je jednaka nuli. Korelacija je relativna mjera jakosti
veze izmeu varijabli a jednaka je kovarijanci standardiziranih varijabli x i y:
y E( y) x E( x )

= Cov
,

y
x

Koeficijent korelacije moe poprimati vrijednosti izmeu -1 i 1 ( 1 1). Ako je > 0 kae se da
su dvije varijable u pozitivnoj korelaciji, a ako je < 0 kae se da su dvije varijable u negativnoj
korelaciji. Pozitivna korelacija znai da se sa veim vrijednostima jedne od varijabli oekuju i vee
vrijednosti druge varijable. Negativna korelacija znai da se sa veim vrijednostima jedne od varijable
oekuje smanjenje vrijednosti druge varijable. Vrijednosti = 1 ili = -1 znae idealnu linearnu vezu
izmeu dvije sluajne varijable, a = 0 znai da veza ne postoji. Predznak koeficijenta korelacije isti je
kao i predznak koeficijenta linearne regresije, a numerika veza moe se vidjeti iz izvedene formule za
koeficijent korelacije:

= 1 x , jer je 1 = xy
y
2x

9.1 Procjena koeficijenta korelacije i provjera hipoteza


Analiza korelacije ukljuuje procjenu koeficijenta korelacije u populaciji i provjeru hipoteza o .
Procjenitelj koeficijenta korelacije je koeficijent korelacije uzorka, koji se oznaava sa r :
SSxy
r=
SS xx SS yy

999

Za r takoer vrijedi da moe imati vrijednosti izmeu -1 i 1. Koeficijent korelacije uzorka takoer je
jednak kovarijanci standardiziranih vrijednosti varijabli u uzorku. Openito je izraunata kovarijanca
dvije varijable x i y iz uzorka suma produkata kroz stupanj slobode:
SS xy i (x i x )(y i y )
=
Cov(x, y) =
n 1
n 1
Ako su sx i sy standardne devijacije varijabli x i y izraunate iz uzorka tada je kovarijanca
standardiziranih vrijednosti jednaka koeficijentu korelacije uzorka r:
( x x ) ( y y)
=
Cov
,

s
s
x
y

x i x
y
y
i sx 0 is y 0
=
=
n 1
(x i x )(y i y) =
= i
(n 1)s x s y

=
=

i (x i x )(y i y ) =
i (x i x )i (y i y)
SS xy

SS xx SS yy

=r

Provjera hipoteza o parametru ukljuuje nul i alternativnu hipotezu:


H0: = 0
H1: 0
Nul hipoteza govori da je koeficijent korelacije u populaciji jednak nulu, tj. da ne postoji linearna veza
izmeu varijabli u populaciji. Alternativna hipoteza govori da korelacija u populaciji postoji.
Moe se pokazati da statistika za provjeru

t=

r
sr

ima t raspodjelu sa stupnjem slobode (n-2) uz slijedee uvjete:


1) par mjerenja (xi, yi) je izvuen iz bivarijatne normalne raspodjele, tj, varijable x i y imaju bivarijatnu
normalnu raspodjelu i
2) da vrijedi nul hipoteza H0: = 0.
Ovdje je

sr =

1 r2
n 2

standardna greka koeficijenta korelacije. Iz toga slijedi da je:


r0
t=
2
1 r
n 2

ili pojednostavljeno pisano:


r n2
t=
1 r2
Statistika t ima t-raspodjelu sa (n-2) stupnjeva slobode. Moe se pokazati da je ova provjera jednaka
provjeri:

9100

t=

b1 0
s2 SS xx

koji provjerava hipotezu H0: 1= 0


Primjer: Vratimo se primjeru sa opsegom i teinama krava i recimo da nas zanima jakost linearne veze
izmeu teine (y) i opsega grudi (x). Ovdje pretpostavljamo da opseg grudi i teina imaju bivarijatnu
normalnu raspodjelu. Ve imamo izraunate sume kvadrata i sumu produkata: SSxx = 34, SSxy = 256,
SSUKUP = SSyy = 2390.833. Koeficijent korelacije uzorka (procjena koeficijenta korelacije) je:
SS xy
256
= 0.898
r=
SS xx SS yy ( 34)(2390.833)
t=

r n2
1 r

.898 6 2
1 .898

= 4.08

Kritina vrijednost za razinu znaajnosti = 0.05, i 4 stupnja slobode je


t/2,4 = t0.25,4 = 2.227.
Poto je izraunati t = 4.08 ekstremniji od 2.227, nul hipoteza se odbacuje i moe se rei da korelacija u
populaciji postoji.
Jo jedanput treba naglasiti da, iako je utvrena jaka korelacija, nije korektno bezuvjetno zakljuiti da
promjena jedne varijable uzrokuje promjenu druge varijable. Za takvu analizu potrebno je napraviti
regresiju.

9.2 Numerika veza izmeu procjenitelja koeficijenta korelacije (r) i


koeficijenta determinacije (R2).
Koeficijent determinacije ima simbol R2. Razlog tome je to postoji numerika veza izmeu koeficijenta
determinacije i koeficijenta korelacije u uzorku. Naime, vrijedi:
r 2 = R2
To se moe pokazati na slijedei nain:
SS2xy
SS REG
=
= R2
r2 =
SSxx SSyy SSUKUP
to je koeficijent determinacije.
Takoer, ako je b1x|y koeficijente regresije x na y, a b1y|x koeficijent regresije x na y, tj.
SS
SS
b1x | y = xy , b1y | x = xy
SS yy
SSxx
Tada je

2
(b1x |y )(b1y|x ) = SS(SSxySS)
yy

= r2

xx

9101

9.3 SAS program


Pogledajmo SAS program sa primjerom sa teinama i opsegom grudi krava. Recimo da nas zanima
jakost linearne veze izmeu teine (y) i opsega grudi (x). Ovdje pretpostavljamo da opseg grudi i teina
imaju bivarijatnu normalnu raspodjelu. Podsjetimo se podataka:
Krava

Teina (y):

641

633

651

666

688

680

Opseg (x):

214

215

216

217

219

221

SAS program:
DATA krave;
INPUT tezina opseg;
DATALINES;
641 214
633 215
651 216
666 217
688 219
680 221
;
PROC CORR;
VAR tezina opseg ;
RUN;
QUIT;

Objanjenje: Naredba VAR definira varijable izmeu kojih se trai korelacija.


SAS ispis:
Simple Statistics
Variable

Mean

Std Dev

Sum

Minimum

Maximum

TEZINA
OPSEG

6
6

659.83333
217.00000

21.86702
2.60768

3959
1302

633.00000
214.00000

688.00000
221.00000

Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 6


TEZINA

OPSEG

TEZINA

1.00000
0.0

0.89790
0.0151

OPSEG

0.89790
0.0151

1.00000
0.0

Objanjenje: Prvo je dana opisna statistika za teinu i opseg prsa. Procjena koeficijenta korelacije dana
je ispod naslova Pearson Correlation Coefficients. i iznosi 0.89790. Vrijednost 0.0151 predstavlja Pvrijednost. Pota je ta vrijednost manja od 0.05 moemo rei da korelacija postoji u populaciji.

9102

Vjebe:
9.1. Da li postoji korelacija izmeu broj ovuliranih folikula i broja izleenih jaja kod fazana. Izmejereno
je 11 fazana.
Broj jaja
Broj folikula

39
37

29
34

46
52

28
26

31
32

25
25

49
55

57
65

51
4

21
25

42
45

Procijenite koeficijent korelacije i provjerite nul hipotezu da korelacija u populaciji ne postoji.


9.2. Izraunat je koeficijent korelacije uzorka r= 0.65 iz uzorka veliine n = 15. Da li moemo rei da je
izraunata korelacija znaajna na 5% -tnoj razini, tj. da li postoji korelacija u populaciji?

9103

10 Vektori i matrice
Linearni modeli se mogu vrlo jednostavno prikazati koristei vektore i matrice. Matrica je skup brojeva
koji su po nekom kriteriju svrstani u redove i kolone. Primjeri matrice A i B su dani slijedeom shemom:
a 11
A = a 21

a 31
b11
B = b 21

b 31

a 12
3
1

= 1
a 22
1

a 32 3x 2 2 1 3x 2
b12
2 1

= 1 3
b 22

b 32 3x 2 1 2 3x 2

Matrica koja ima samo jednu kolonu ili samo jedan red zove se vektor. Npr. vektor b je definiran:
1
b=
2 2 x1

10.1 tipovi i svojstva matrica


Kvadratna matrica je ona matrica koja ima isti broj kolona i redova. Simetrina matrica je kvadratna
matrica kod koje je aij = aji (aij znai element u i-tom redu i j toj koloni). Npr.
2 1
C=

1 2 2 x 2
Dijagonalna matrica je kvadratna matrica kojoj su aij = 0 za svaki i j
2 0
D=

0 2 2 x 2
Jedinina matrica je dijagonalna matrica sa aii = 1
1 0 0
1 0
I2 =
, I 3 = 0 1 0

0 1
0 0 1
Nul matrica je matrica je matrica iju su svi lanovi jednaki nuli. Nul vektor je vektor iji su lanovi
jednaki nuli.
0
0 0

0=
, 0 = 0
0
0

0
Vektor iju su svi lanovi jednaki 1 obino se oznaava sa 1. Matrica iji su svi lanovi jednaki 1,
obino se oznaava sa J.

10104

1
1 1

J=
, 1 = 1
1
1

1
Transponirana matrica je matrica kojoj su kolone zamijenjene s redovima . Na primjer.:
1 1 2
A' =

3 1 1
Rank matrice je broj linearno nezavisnih kolona ili redova matrice. Kolone (redovi) su linearno zavisne
ako se neki od kolona mogu prikazati kao linearna kombinacija drugih kolona (redova). Rank odreen
prema kolonama jednak je ranku odreenom prema redovima

10.2 Operacije s matricama i vektorima:


Matrica nije samo niz vrijednosti u odreenom poretku nego se matricama mogu raditi i numerike
operacije. Zbrajanje matrica definirano je tako da se zbrajaju odgovarajui elementi matrica
a 11 + b11 a 12 + b12
A + B = a 21 + b 21 a 22 + b 22 =

a 31 + b31 a 33 + b33
3 + 1 3 4
1 + 2

A + B = 1+1
1 + 3 = 2 4

2 + 1 1 + 2 3 1
3x 2
Mnoenje matrica s brojem radi se tako da se svaki element matrice pomnoi sa tim brojem
6
2

2 A = 2
2

4 2
3x 2

Mnoenje matrica mogue je samo onda kada je broj kolona prve matrice (lijeve) jednak broju redova
druge matrice (desne). Openito ako matrica A ima dimenzije r x c, i matrica B ima dimenziju c x s,
tada produkt AB je matrica sa dimenzijom r x s i njezin element u i tom redu i j-toj koloni je definiran
sa:
c

k =1 a ik b kj
Primjer: Izraunaj AC ako je:
3
a 11 a 12
1

A = a 21 a 22
= 1
1

a 31 a 32
2 1
3x 2

3x 2

c 2 1
c
i C = 11 12

c 21 c 22 2 x 2 1 2 2 x 2

a 11 * c11 + a 12 * c 21 a 11 * c 21 + a 12 * c 22 1 * 2 + 3 * 1 1 * 2 + 3 * 1 5 5
AC = a 21 * c11 + a 22 * c 21 a 21 * c 21 + a 22 * c 22 = 1 * 2 + 1 * 1 1 * 1 + 1 * 2 = 3 3

a 31 * c11 + a 32 * c 21 a 31 * c 21 + a 32 * c 22 2 * 2 1 * 1 2 * 1 1 * 2 3 0
3x 2
10105

Primjer 2:
1
Neka je b = . Izraunaj Ab
2 2 x1
1 * 1 + 3 * 2
Ab = 1 * 1 + 1 * 2

2 * 2 1 * 1

3x1

7
= 3

0

3x1

Umnoak transponiranog vektora i vektora poznata je kao kvadratni oblik a predstavlja sumu kvadrata
y1
y
elemenata vektora. Neka je vektor y = 2 . Kvadratni oblik je:
...

y n nx 1
y1
y
y' y = [y1 y 2 .. y n ] 2 = i y i2
...

y n
Trag matrice je zbroj diagonalnih lanova matrice:
Ako je
2 4 2
A = 1 5 4 ,

3 4 11
tada je tr(A) = 2 + 5 + 11 = 18
Inverzna matrica neke matrice C je matrica C-1 takva da vrijedi C-1C = I i CC-1 = I, tj. mnoenje
matrice sa njenom inverznom daje jedininu matricu. Da bi matrica imala inverznu mora biti kvadratna i
njezini redovi i kolone moraju biti linearno nezavisni. Vektori su linearno nezavisni kada se ni jedan
vektor ne moe prikazati kao linearna kombinacija drugih vektora.
Openita inverzna matrica neke matrice C je matrica C - takva da vrijedi CC -C = C. Svaka matrica ,
pa ak i nekvadratna i sa linearno zavisnim redovima ili kolonama ima openitu inverznu matricu.
Openito ne vrijedi da je CC - ili C-C jednako jedininoj matrici I. To vrijedi samo kada je C- = C-1.
Ukoliko matrica nema inverznu matricu tada ima beskonano mnogo openitih inverznih matrica.
Nadalje moe se pokazati da svaka matrica ima beskonano mnogo openitih inverznih matrica.
Sustav linearnih jednadbi moe se prikazati matrino. Uzmimo primjer sa dvije nepoznanice.
2a1 + a2
a1 - a2

= 5
= 1

1
2
5
a
y=
a = 1 X =

1 1
1
a 2

10106

Xa = y / AX-1
X-1Xa = X-1y
a = X-1y
1

1 5 1 / 3
1 / 3 5 2
a 1 2
=
=
=
a 2 1 1 1 1 / 3 2 / 3 1 1
Normalne jednadbe definirane su sa:
XXa = Xy
(XX)-1(XX)a = (XX)-1Xy
Normalne jednadbe pogodne su za rjeavanje sustava jednadbi kada je broj jednadbi vei nego broj
nepoznanica.

10107

11 Obina regresija u matrinom


prikazu
Poto je model regresije prikazan sa skupom linearnih jednadbi u prikazu modela mogu se koristiti
matrice i vektori. Pokazali smo da je skalarni model regresije:
yi = 0 + 1xi + i

i = 1,.....n

A to znai:
y1 = 0 + 1x1 + 1
y2 = 0 + 1x2 + 2
............
yn = 0 + 1xn + n
Definirajmo vektore i matrice
y1
y
y = 2
...

yn

1 x11
1 x
21
X=
... ...

1 x n1


= 0
1

1

= 2
...

n

Gdje je y vektor opaanja, X je matrica nezavisnih konstanti, je vektor parametara, je vektor greki.
Koristei ove matrice i vektore regresijski model se moe pisati:
y = X +
Prosjek odnosno oekivanje od y je:
E( y1 ) 0 + 1x 1
E( y ) + x
2 0
1 2
=
= X
E (y ) =
...

...

E( y n ) 0 + 1 x n
Varijanca od y je:
Var(y) = 2I
Takoer je E() = 0 i Var() = 2I , odnosno oekivanje od greke modela je jednaka nuli i varijanca
greke je konstantna, a vektor 0 je vektor kojemu su svi elementi nule.
Ukoliko pretpostavimo normalni model onda vektor y sadri normalne sluajne varijable sa
multinormalnom raspodjelom sa prosjekom X i varijancom I2.

11108

Definirajmo model procjene :


y = Xb
Gdje su :
y = vektor procijenje nih vrijednos ti
b = vektor procjenitelja
b
b = 0
b1
Vektor ostataka je razlika vektora opaanja u uzorku i vektora procijenjenih vrijednosti:
e = y y
e1
e
e = 2
...

e n
Pa se vektor opaanja u uzorku moe izraziti:
y = Xb + e
Metoda najmanjih kvadrata govori da se pronau procjenitelji parametara takvi da vrijedi:
ee = minimum.
Izraz ee je suma kvadrata ostatka:
SSOST = ee =

e
i

2
i

Normalne jednadbe su:


(XX)b = Xb
Rjeenje jednadbe za b je:
b = (XX)-1Xy
Matrice X'X, X'y i (X'X)-1 imaju elemente:
n
i x i
X' X =
2
i x i i x i
y
X' y = i i
i x i y i
( X' X ) 1

1 x2
+
= n SS x
x
SS

xx

SS xx
1
SS xx

Svojstva procjenitelja odnosno oekivanje i varijanca su:


E(b) =
Cov ( b 0 , b1 )
Var ( b 0 )
Var( b ) = 2 ( X' X ) 1 =
Var ( b1 )
Cov ( b 0 , b1 )
Ukoliko koristimo procjenu varijance iz uzorka s2 tada je varijanca vektora b jednaka:
11109

s2(b) = s2(X'X)-1
Vektor procijenjenih vrijednosti zavisne varijable je:
y = Xb = X (X ' X )1 Xy
Sume kvadrata za regresiju (SSREG), ostatka (SSOST) i ukupna suma kvadrata (SSUKUP) se mogu napisati
matrino:
SS REG = ( y y )' ( y y ) = i (y i y )

SS OST = ( y y )' ( y y ) = i (y i y )

SS UKUP = ( y y )' ( y y ) = i (y i y )

ili skraeno, koristei izraunati vektor b:


SS REG = b' X ' y ny 2
SS OST = y ' y b' X ' y
SS UKUP = y' y ny 2
Primjer: Izraunajmo primjer sa opsegom i teinom krava, Treba procijeniti regresiju teine na opseg
grudi krava: Mjerenja 6 krava dana su u slijedeoj tablici:
Krava

Teina (y):

641

633

651

666

688

680

Opseg (x):

214

215

216

217

219

221

Procijenjeni model regresije je:


y = Xb
Rjeenje jednadbe za b je:
b = (XX)-1Xy
Vektor y i matrica X su:
641
633

651
y=

666
688

680

1
1

1
X=
1
1

214
215

216

217
219

221

Prva kolona matrice X sadri broj 1 jer procijenjujemo odsjeak na osi y, b0. Kada uvrstimo mjerenja
varijabli x i y model je:

11110

e1
641 1 214
e
633 1 215
2


651 1 216 b 0 e 3
+

=
666
1
217
b1 e 4


e 5
688 1 219


680 1 2211
e 6
Odnosno,
641 b 0 + b1 214 + e1
633 b + b 215 + e
1
2

0
651 b 0 + b1 216 + e 3

=
666 b 0 + b1 217 + e 4
688 b 0 + b1 219 + e 5


680 b 0 + b1 221 + e 6
Matrice X'X, X'y i (X'X)-1 su:
1 214
1 215

1
1
1
1
1 1 216
1
X' X =
=

214 215 216 217 219 221 1 217


1 219

1 2211
1302 n
6
i x i
=
=

2
1302 282568 i x i i x i
641
633

1
1
1
1
1 651
1
X' y =

214 215 216 217 219 221 666


688

680
3959 i y i
=

=
859359 i x i y i
( X' X ) 1

1 x2
+
- 6.38235 n SS
1385.137
x

=
=
- 6.38235 0.02941 x
SS

xx

SS xx
1
SS xx

Vektor procjena b je:


b = (XX)-1Xy =

11111

y b1 x
- 6.38235 3959 974.05
b 0 1385.137
SS xy
= =
859359 =
=
b
6.38235
0.02941
7
.
53
1


SS

xx
Podsjetimo se da su
SS xy = i (x i x )(y i y )
SS xx = i (x i x )

s2 = 115.826 je sredina sume kvadrata za ostatak odnosno procjena varijance. Tada je procjena
varijance vektora b jednaka:
- 6.38235
1385.137
s 2 (b) = s 2 ( X' X ) -1 = 115.826

- 6.38235 0.02941
- 739.242
160434.9
=
3.407
- 739.242
Dakle, procjena varijance za b1 je:
s2(b1) = 3.407
Provjera hipoteza se provodi kao to je ve pokazano u prolom poglavlju.

11112

12 Multipla regresija
Jednostavna linearna regresija omoguava pronalaenje funkcijskog odnosa izmeu zavisne varijable y i
samo jedne nezavisne varijable x. esto je potrebno analizirati vie nego jednu nezavisnu varijablu i
njihovu vezu sa zavisnom varijablom. Potrebno je pronai funkcijsku vezu izmeu zavisne varijable y i
skupa nezavisnih varijabli x1, x2,..... xp. Regresija koja ima dvije ili vie nezavisnih varijabli zove se
multipla regresija. Pretpostavimo da elimo teinu krava procijeniti sa opsegom grudi i visinom do
grebena. Ovdje je teina zavisna varijabla, opseg grudi i visina do grebena su nezavisne varijable.
Ciljevi multiple regresije mogu biti:
1. Pronai model (funkciju) koja najbolje opisuje zavisnost zavisne varijable o nezavisnim varijablama,
odnosno pronai parametre modela.
2. Predvianje vrijednosti zavisne varijable na temelju novih mjerenja nezavisnih varijabli
3. Prouiti vanost nezavisnih varijabli, odnosno procijeniti da li su sve ili samo neke nezavisne
varijable vane u modelu. To je izgradnja optimalnog modela.
Model multiple linearne regresije je:
y = 0 + 1xi + 2xi + ... + p-1xp-i + i
Gdje su:
yi = zavisna varijabla
x1, x2,......, xp-1 = nezavisne varijable
0 , 1 , 2 ,......, p-1 = regresijski koeficijenti (parametri)
= greka modela
Podaci koje koristi multipla regresija imaju openiti izgled kao:
y
y1
y2
.
.
yn

x1
x11
x12
.
.
x1n

x2
x22
x22
.
.
x2n

...
...
...

xp-1
x(p-1)1
x(p-1)2
.
.
x(p-1)n

...

Dakle, svako se opaanje yi moe prikazati kao:


yi = 0 + 1x1i + 2x2i + ... + p-1x(p-1)i + i

i = 1,...,n

Kao i kod jednostavne linearne regresije moraju vrijediti pretpostavke modela:


A1) E(i) = 0
A2) Var(i) = 2 (varijanca je konstantna)
A3) Cov (i,j) = 0, i razliito od j
(A4) Obino vrijedi da greke imaju normalnu raspodjelu.
Svojstva modela govore od zavisnoj varijabli:
P1) E(yi) = 0 + 1xi + 2x2i + ... + p-1x(p-1)i
P2) Var(yi) = Var(i) = 2
12113

P3) Cov (yi,yi) = 0, i i

12.1 Dvije nezavisne varijable


Za prikaz multiple linearne regresije posluit emo se modelom s dvije nezavisne varijable. Prouit
emo skalarni i matrini pristup i vidjeti numeriki primjer. Procjena viedimenzionalnih modela i
provjera hipoteza potpuno su analogni kao i kod modela sa dvije nezavisne varijable. Model linearne
regresije sa dvije nezavisne varijable i n opaanja je:
yi = 0 + 1x1i + 2x2i + i

i = 1,...,n

Gdje su:
yi = opaanja zavisne varijable y
x1i i x2i = opaanja nezavisnih varijabli x1 i x2
0 , 1 , 2 = regresijski koeficijenti (parametri)
i = greka modela,
Model procjene je:
y i = b 0 + b1x 1i + b 2 x 2i
i = 1,...,n
Gdje su
b0 , b1 i b2 procjenitelji parametara
Ostatak je razlika opaanja u uzorku i procijenjenih vrijednosti
e i = y i y i = [y i - (b 0 + b1x1i + b 2 x 2i )]
Za izraunavanje b0, b1 i b2, pogodna je metoda najmanjih kvadrata, tj. uvjet da i e2i = min.
Parcijalnom derivacijom izraza i e2i i izjednaavanje tih derivacija s nulom daje sustav tri jednadbe iz
kojih se lako izraunaju koeficijenti:
b 0 n + b1 i x1i + b 2 1 x 2 i = i y i
b 0 i x1i + b1 i x 12i + b 2 1 x1i x 2 i = i x 1i y i

b 0 i x 2i + b1 i x 1i x 2i + b 2 1 x 22i = i x 2i y i
Rjeavanjem sustava ovih jednadbi dobiju se procjene parametara.
Matrino model regresije se pie:
y = X +
Gdje su:
y je vektor zavisne varijable
b je vektor parametara
X je matrica konstanti
je vektor normalne sluajne varijable sa prosjekom E() = 0 i varijancom Var() = 2I
Ovdje su matrice i vektori definirani kao:
12114

y1
y
y = 2
...

yn

1 x 11
1 x
21
X=
... ...

1 x n1

x 12
x 12

...

x n2

0
= 1

3

1

= 2
...

n

Procijenjeni model regresije je:


y = Xb
Gdje su:
y = vektor procijenje nih vrijednos ti
b = vektor procjenitelja
e = y y = vektor ostataka
e1
e
e = 2
...

e n
Kao i kod jednostavne linearne regresije treba procijeniti parametre tako da je ee = min. Izraz e'e
predstavlja sumu kvadrata ostataka. Jedan nain je da se izraz ee parcijalno derivira po b i izjednai s
nulom. Dobiju se normalne jednadbe:
b0
b = b1

b 2

XXb = Xy
Mnoenjem i lijeve i desne strane jednadbe sa (XX)-1 dobije rjeenje za vektor b.
b = (XX)-1Xy
Gdje su:
1
X' X = x11

x 12
1
X' y = x 11

x 12

1 x11 x 12
1 ... 1
n
1
x
x
21
22
= x
x 21 ... x n1
... ...
... i i1
x 22 ... x n 2
x i2
1 x n1 x n 2 i
y
1 ... 1 1 i y i
y

x 21 ... x n1 2 = i x i1 y i
...
x 22 ... x n 2 i x i 2 y i
y n

i x i
i x i
i x 2i1 i x i1x i 2
i x i1x i2 i x 2i2

Primjer: Izmjerena je teina, opseg grudi i visina do grebena mladih bikova. Prikazat emo podatke
pretpostavljenim modelom regresije gdje je teina zavisna varijabla, a opseg grudi i visina do grebena
nezavisne varijable:
Bik:
Teina (y):

1
471

2
463

3
481

4
496
12115

5
518

6
510

Opseg (x1):
Visina (x2):

176
123

177
125

178
123

179
126

181
128

Model procjene je:


y = Xb + e
Prema podacima vektor y i matrica X su:
1
1

1
X=
1
1

471
463

481
y=

496
518

510

176 123
177 125

178 123
.
179 126
181 128

183 127

Model je:
471 1
463 1

481 1
=

496 1
518 1

510 1

176
177
178
179
181
183

123
e1
e

125
b 2
123 0 e 3
b +
126 1 e 4
b
e 5
128 2

127
e 6

ili drugaije pisano:


471 b 0 + b1 176 + b 2 123 + e1
463 b + b 177 + b 125 + e
1
2
2

0
481 b0 + b1 178 + b 2 123 + e 3

=
496 b 0 + b1 179 + b 2 126 + e 4
518 b 0 + b1 181 + b 2 128 + e 5

510 b 0 + b1 183 + b 2 127 + e 6


Vektor rjeenja b dobije se iz izraza:
b = (XX)-1Xy
1
1
1
1
1
1
1
1
1
X' X = 176 177 178 179 181 183

1
123 125 123 126 128 127
1

176 123
177 125
178 123
=
179 126
181 128

183 127

12116

183
127

1074
752 n
6

= 1074 19228 134630 = x i1


i

752 134630 94272 x i 2


i

i x i
i x i
i x 2i1 i x i1x i2
i x i1x i2 i x 2i2

471
463

1
1
1
1
1
1
481

X' y = 176 177 178 179 181 183

496

123 125 123 126 128 127


518

510
2939 i y i

X' y = 526337 = i x i1 y i

368541 x i 2 y i
i
955.29006 4.39779 1.33978
.09116
( X' X ) = 4.39779
.08840

1.33978 .09116
.14088
-1

b 0 955.29006 4.39779 1.33978 2939 885.646


b = b1 = 4.39779
.09116 526337 = 5.644
.08840


.14088 368541 2.914
b 2 1.33978 .09116
Vektor procijenjenih vrijednosti zavisne varijable je
y = Xb = X (X ' X )1 Xy
Suma kvadrata za ostatak je:
SSOST = e'e
Varijanca 2 procjenjuje se sa
SS OST
= MS OST
s2 =
n ( p + 1)
Izraz n-p je stupanj slobode. Openito je stupanj slobode = n - (broj parametara u modelu).
Drugi korijen iz procjene varijance:
s = s2
je standardna greka regresijskog modela.
Svojstva procjenitelja su oekivanje i varijanca:
E(b) =
Var(b) = 2(XX)-1
Ukoliko se koristi varijanca procijenjena iz uzorka tada je varijanca:
s2(b) = s2(XX)-1
Provjera nul hipoteze H0: i = 0, tj. provjera da li je b1 ili b2 znaajno razliit od nule, moe se provesti t
provjerom. t statistika za provjeru za procjenitelj bi je:
12117

t=

bi
s( b i )

Gdje je
s(b i ) = s 2 ( b i )
Kritina vrijednost t raspodjele odreuje se prema razini znaajnosti i stupnju slobode
(n p), gdje je p broj parametara. U ovom sluaju broj parametara je 3 pa je stupanj slobode jednak n3.
Primjer: Prema primjeru sa mladim bikovima izraunata je s2 = 134.33. Varijanca procjenitelja
parametara je
955.29006 4.39779 1.33978
2
2
-1
s (b) = s ( X' X ) = 134.33 4.39779
.09116
.08840

1.33978 .09116
.14088
12832.575 590.794 179.984
s (b) = 590.794
12.246
11.875

18.926
179.984 12.246
2

Varijanca od b1 je s2(b1) =11.975 i varijanca od b2 je s2(b2) = 18.926.


t-test za 2:
2.914
= 0.700
t=
18.926
Za razinu znaajnosti = 0.05, kritina vrijednost t raspodjele je t0.025,3 = 3.182.
Poto je izraunati t manji od kritine vrijednosti, H0 se ne odbacuje uz 5% razinu znaajnosti.

12.1.1 Ralanjenje ukupne varijabilnosti i provjera hipoteza


Kao i kod jednostavne regresije sume kvadrata su definirane:
Suma kvadrata za regresiju:
SS REG = ( y y )' ( y y ) = i (y i y )

Suma kvadrata za ostatak:

SS OST = ( y y )' ( y y ) = i (y i y )

Ukupna suma kvadrata:

SS UKUP = ( y y )' ( y y ) = i (y i y )

ili skraeno, koristei izraunati vektor b:


SSREG = b' X ' y ny 2
12118

SS OST = y ' y b' X ' y


SSUKUP = y ' y ny 2
Takoer vrijedi:
+
SSOST
SSUKUP = SSREG
Stupnjevi slobode
n-1
=
(p-1)
+
(n-p)
Ovdje je n broj ivotinja i p je broj parametara)
Nul hipoteza i alternativna hipoteza su:
H0: 1 = 2 = 0
H1 : barem jedan i 0, i = 1 do 2
Ako nul hipoteza vrijedi tada kvocijent
MS REG
F=
s2
ima F-raspodjelu sa (p-1) i (n-p) stupnjeva slobode, gdje je p broj parametara u modelu.
Za razinu znaajnosti odbacujemo Ho ako F izraunati vei od kritine vrijednosti
F,p-1,n-3 ( F > F,p-1,n-3).
Izraune prikaimo u anova tablici:

Izvor
Regresija
Ostatak
Ukupno

SS
SSREG
SSOST
SSUKUP

St.sl.
p-1
n-p
n-1

MS
MSREG = SSREG/(p-1)
MSOST = SSOST/(n-p)

F
\
F=MSREG / SSOST

Primjer sa bikovima: Izraunato je SSREG = 1987.817, SSOST = 403.017 i SSUKUP = 2390.833.


Anova tablica je:
Izvor
Regresija
Ostatak
Ukupno

SS
1987.817
403.017
2390.833

St.sl.
2
3
5

MS
993.908
134.339

Koeficijent multiple determinacije je:


SS OST
SS REG
= 1
R2 =
SS UKUP
SS UKUP
Takoer vrijedi 0 R2 1
Na primjer sa bikovima:
1987.82
= 0.83
R2 =
2390.83
12119

F
7.399

P
0.0692

12.2 Mogue potekoe kod upotrebe multiple regresije


Mogui problemi koji se javljaju kod definirana neadekvatnog modela su:
1. Regresija nije linearna
2. i nema konstantnu varijancu
3. i nisu nezavisne
4. Neka opaanja su loa
5. i nisu normalno distribuirane
6. Jedan ili vie vanih nezavisnih varijabli nisu ukljueni u model
Najjednostavnija je dijagnostika pomou grafikona. Najee se koriste grafikoni koji prikazuju
promjenu ostataka prema promjeni zavisne, ili nezavisne varijable. Takoer se moe provjeravati i
normalnost ostataka. Postoji i formalna statistika provjera, ali ona prelazi irinu koju slijedi ova knjiga.
Ukoliko se zamijeti nelinearnost esto se problem moe rijeiti dodavanjem kvadratne ili kubne
komponente u model. Nehomogenost varijance i nenormalnost esto se moe rijeiti transformacijama ili
zavisne ili nezavisnih varijabli. Neko podaci mogu pokazati znaajna odstupanja od ostalih, tako da se
javlja sumnja da li su uope lanovi iste populacije. Takvi podaci mogu imati znaajan utjecaj na
pravilnu procjenu parametara.
Na kraju, spomenimo i problem multikolinearnosti. Multikolinearnost je pojava kada postoji znaajna i
visoka korelacija izmeu nezavisnih varijabli. Drugim rijeima nezavisne varijable su priblino linearno
zavisne. U tom sluaju procjena parametara moe biti sumnjiva, jer je varijanca procjenitelja velika, a s
time i standardne greke procjenitelja. Predvianje na temelju takvih regresijskih jednadbi mogu
dovesti do vrlo nekorektnih zakljuaka.

12.3 SAS program multiple regresije


Pogledajmo SAS program za primjer sa teinom, opsegom i visinom mladih bikova: Podsjetimo se
podataka:
Bik:
Teina (y):
Opseg (x1):
Visina (x2):

1
471
176
123

2
463
177
125

3
481
178
123

4
496
179
126

SAS program koristi proceduru REG ili GLM:


DATA bikovi;
INPUT tezina opseg visina;
DATALINES;
471 176 123
463 177 125
481 178 123
496 179 126
518 181 128
510 183 127
;
PROC GLM;
MODEL tezina=opseg visina/ ;
RUN;
QUIT;

12120

5
518
181
128

6
510
183
127

Objanjenje: Koristimo proceduru GLM. Naredba MODEL tezina = opseg visina znai da je zavisna
varijabla tezina, a nezavisne opseg i visina. Napomena: za ovu analizu moe se koristiti i procedura
REG.
SAS rezultati:
General Linear Models Procedure
Dependent Variable: TEZINA
DF

Sum of
Squares

Mean
Square

2
3
5

1987.8167587
403.0165746
2390.8333333

993.9083794
134.3388582

R-Square
0.831433

C.V.
2.366206

Root MSE
11.590464

Source
OPSEG
VISINA

DF
1
1

Type I SS
1927.5294118
60.2873470

Mean Square
1927.5294118
60.2873470

F Value
14.35
0.45

Pr > F
0.0323
0.5509

Source
OPSEG
VISINA

DF
1
1

Type III SS
360.31155041
60.28734698

Mean Square
360.31155041
60.28734698

F Value
2.68
0.45

Pr > F
0.2000
0.5509

Source
Model
Error
Corrected Total

Parameter
INTERCEPT
OPSEG
VISINA

Estimate
-885.6464088
5.6436464
2.9143646

T for H0:
Parameter=0
-2.47
1.64
0.67

Pr > |T|
0.0899
0.2000
0.5509

F Value

Pr > F

7.40

0.0692

TEZINA Mean
489.83333

Std Error of
Estimate
358.2353629
3.4460496
4.3504244

Objanjenje: Na poetku ispisa pokazana je ANOVA tablica, iznad koje je je naznaeno da je zavisna
varijabla (dependent varijable) tezina. Izvori (Source) varijabilnosti su Model, Ostatak (Error) i
Ukupno (Corrected Total). Stupanj slobode je DF, Suma kvadrata je Sum of Squares, sredina sume
kvadrata je Mean Square. Vidljivo je da je F izraunati 7.40 i P-vrijednost 0.0692. Koeficijent multiple
regresije (R-square) = 0.831433. U slijedee dvije tablice dane su parcijalne F-provjere za opseg i
visinu. Ovdje F statistike i P-vrijednosti govore da li su opseg i visina potrebni u modelu. Prva tablica je
temeljena na sekvencijskim (Type I SS), a druga na parcijalnim sumama kvadrata (Type III SS).
Sekvencijska suma kvadrata je suma kvadrata korigirana samo na utjecaje koje prethode promatranom
utjecaju. Parcijalna suma kvadrata je suma kvadrata korigirana na sve ostale utjecaje u modelu i ovdje
govori o znaajnosti pojedine nezavisne varijable u opisu zavisne. Isto se moe vidjeti i u slijedeoj
tablici, u kojoj su procijene parametara (Estimate) sa standardnim grekama (Std Error of Estimate) , tstatistikama i P-vrijednostima (Pr > |T|). P-vrijednosti za b1 (OPSEG) i b2 (VISINA) su 0.200 i 0.5509.
Postoji sumnja da visina nije potrebna u modelu.

12.4 Krivolinijska regresija drugog stupnja


Moe se dogoditi da funkcijska veza zavisne i nezavisne varijable nije pravac. U tom sluaju bolje je
koristiti krivolinijsku regresiju. Model krivolinijske regresije drugog stupnja ili model kvadratne
regresije za n opaanja je:
12121

yi = 0 + 1xi + 2x2i + i
i = 1,...,n
Gdje su:
yi = opaanja zavisne varijable y
xi =opaanja nezavisne varijable x
0 , 1 , 2 = regresijski koeficijenti (parametri)
i = greka modela,
Ovaj model se moe smatrati modelom multiple regresije sa dvije nezavisne varijable x i x2, pa su
daljnje procjene parametara i provjere jednake kao i kod multiple regresije sa dvije nezavisne varijable.
Model procijene je:
y i = b 0 + b1 x1 + b 2 x12

i = 1,...,n

Gdje su
b0 , b1 i b2 procjenitelji parametara
Ostatak je razlika opaanja u uzorku i procijenjenih vrijednosti
e i = y i y i = [y i - (b 0 + b1 x1 + b 2 x 12 )]
Svako se opaanje u uzorku moe izraziti:
i = 1,...,n
yi = b0 + b1xi + b2x2i + ei
I ovdje se mogu parametri procijeniti metodom najmanjih kvadrata. Normalne jednadbe su:
b0n + b1i xi + b2i x2i = i yi
b0ixi + b1i x2i + b2i x3i = i xi yi
b0ix2i + b1i x3i + b2i x4i = i x2i yi
Rjeenjem jednadbi dobiju se rjeenja za b0, b1 i b2.
Matrino model se pie:
y = X +
Ovdje su matrice i vektori definirani kao:
y1
y
y = 2
...

yn

1 x1

1 x2
X=
... ...

1 x n

x 12

x 22
...

x 2n

0
= 1

3

1

= 2
...

n

Procijenjeni model regresije je:


y = Xb
y = vektor procijenje nih vrijednos ti
b = vektor procjenitelja
e = y y = vektor ostataka

12122

e1
e
e = 2
...

e n

b0
b = b1

b 2

Primjer: eljeli smo prikazati matematikom funkcijom rast zagorskih purana po danima. Izmjerene su
slijedee teine po danima:
Teina (y):
Dan (x):

44
1

66
7

100
14

150
21

265
28

370
35

455
42

605
49

Vektor opaanja zavisne varijable i matrica nezavisne varijable su:


44
66

100

150
y = 265

370
455

605
770

1
1

1
X = 1

1
1

1
1

1
7
14
21
28
35
42
49
56

1
49
196

441
784

1225
1764

2401
3136

Pa se vektor y moe prikazati:


44 1
66 1

100 1

150 1
265 = 1

370 1
455 1

605 1
770 1

1
7
14
21
28
35
42
49
56

1
e1
e

49
2

e 3
196

441 b 0 e 4
784 b1 + e 5


1225 b 2 e 6
e
1764

7
2401
e 8
e
3136
9

Vektor procjena parametara izrauna se iz izraza:


b = (XX)-1Xy
Za na primjer matrice X'X i X'y su:

12123

770
56

1
1

1
1
1
1
1
1
1 1
1 1
X' X = 1 7 14 21 28
35
42
49
56 1

1 49 196 441 784 1225 1764 2401 3136 1


1

1
1

253
9997 n
9

= 253
9997
444529 i x i1

9997 444529 21061573 x i 2


i

1
7
14
21
28
35
42
49
56

1
49

196

441
784 =

1225
1764

2401
3136

i x i
i x i
i x 2i1 i x i1x i2
i x i1x i2 i x i22

44
66

100

1
1
1
1
1
1
1 150 2825 iy i
1 1

35
42
49
56 265 = 117301 = ix i1 y i
X'y = 1 7 14 21 28

1 49 196 441 784 1225 1764 2401 3136 370 5419983 x i 2 y i


i
455

605

770
( X'X )

0.0006986
0.7220559 0.0493373

= 0.0493373 0.0049980 0.0000820


0.0006986 0.0000820 0.0000014

Pa je vektor b jednak:
0.0006986 2825 38.86
b 0 0.7220559 0.0493373

b = b 1 = 0.0493373 0.0049980 0.0000820 117301 = 2.07



b 2 0.0006986 0.0000820 0.0000014 5419983 0.195

12124

800

Teina (g)

700
600
500
400
300
200
100
0
0

20

40

60

Dob u danim a

Slika 121: Mjerene () i procijenjene ( __ ) vrijednosti teine zagorskih purana (g)

Provjera hipoteza se provodi kao i prije, tj.


H0: 1 = 2 = 0
H1 : barem jedan 1 0, i = 1 do 2
Ako nul hipoteza vrijedi tada kvocijent
MS REG
F=
s2
ima F-raspodjelu sa 2 i (n-3) stupnjeva slobode.
Za razinu znaajnosti odbacujemo Ho ako je F izraunati vei od kritine vrijednosti (F > F,2,n-3).
ANOVA tablica
Izvor
Regresija
Ostatak
Ukupno

SS
523870.4
1260.5
525130.9

St.sl.
2
6
8

MS
261935.2
210.1

F
1246.8

P
.000...

Ovakva F- provjera govori da je ili b1 ili b2 znaajno razliit od nule. Nas prvenstveno zanima da li je
parametar 2 potreban u modelu, odnosno da li je model kvadratne regresije valjan. Jedan od naina je
da se nul hipoteza H0: 2 = 0 provjeri t- provjerom:
b
t= 2
s( b 2 )
Procijenjena varijance i kovarijance za b0, b1 i b2 su;:
s2(b) = s2(XX)-1
Sredina sume kvadrata ostatak ili procjena varijance je s2 = 210.1. Inverzna matrica od (X'X) je:
( X' X )

.0006986
.7220559 .0493373

= .0493373 .0049980 .0000820

.0006986 .0000820 .0000014

pa je matrica varijanci i kovarijanci procjenitelja:

12125

.0006986
.7220559 .0493373

s (b) = s ( X' X ) = 210.1 .0493373 .0049980 .0000820

.0006986 .0000820 .0000014


Procijenjena varijanca od b2 je:
2

-1

s2(b2) = (210.1)(0.0000014) = 0.000304,


a standardna devijacija
s(b 2 ) = 0.000304 = 0.0174
t provjera je
0.195
= 11.207
t=
0.0174
Kritina vrijednost t0.025,6 = 2.447, te poto je izraunati t ekstremniji od kritine vrijednosti nul hipoteza
se odbacuje i moe se zakljuiti da je model kvadratne regresije dobro prikazao rast zagorskih purana.

12.5 SAS program krivolinijske regresije


SAS program za krivolinijsku regresiju pokazat emo na primjeru sa rastom purana. Podsjetimo se
podataka:
Teina (y):
Dan (x):

44
1

66
7

100
14

150
21

265
28

370
35

455
42

605
49

770
56

SAS program:
DATA bikovi;
INPUT tezina dan;
DATALINES;
44 1
66 7
100 14
150 21
265 28
370 35
455 42
605 49
770 56
;
PROC GLM;
MODEL tezina=dan dan*dan/ ;
RUN;
QUIT;

Objanjenje: Koristimo proceduru GLM. Naredba MODEL tezina = dan dan*dan znai da je zavisna
varijabla tezina, a nezavisne dan kao linearna komponenta i dan*dan kao kvadratna komponenta.
Napomena: za ovu analizu moe se koristiti i procedura REG.

12126

SAS rezultati:
General Linear Models Procedure
Dependent Variable: TEZINA
DF
2
6
8

Sum of
Squares
523870.39532
1260.49357
525130.88889

Mean
Square
261935.19766
210.08226

R-Square
0.997600

C.V.
4.617626

Root MSE
14.494215

Source
DAN
DAN*DAN

DF
1
1

Type I SS
497569.66165
26300.73366

Mean Square
497569.66165
26300.73366

F Value
2368.45
125.19

Pr > F
0.0001
0.0001

Source
DAN
DAN*DAN

DF
1
1

Type III SS
859.390183
26300.733664

Mean Square
859.390183
26300.733664

F Value
4.09
125.19

Pr > F
0.0896
0.0001

Parameter
INTERCEPT
DAN
DAN*DAN

Estimate
38.85551791
2.07249024
0.19515458

Source
Model
Error
Corrected Total

T for H0:
Parameter=0
3.15
2.02
11.19

Pr > |T|
0.0197
0.0896
0.0001

F Value
1246.82

Pr > F
0.0001

TEZINA Mean
313.88889

Std Error of
Estimate
12.31629594
1.02468881
0.01744173

Objanjenje: U ANOVA tablici moemo primijetiti izuzetno veliku vrijednost F, i analogno malu Pvrijednost (Pr > F), to nije udno za porast teine u vremenu.
Izvori (Source) varijabilnosti su Model, Ostatak (Error) i Ukupno (Corrected Total). Stupanj slobode
je DF, Suma kvadrata je Sum of Squares, sredina sume kvadrata je Mean Square. Vidljivo je da je F
izraunati 1246.82. Koeficijent multiple regresije (R-square) = 0.9976.
Pitanje je da li je koeficijent kvadratne regresije potreban u modelu ili je pojava dobro opisan i linearnim
kretanjem. U slijedeoj tablici vidljivo je da je kvadratna funkcija adekvatna ( P-vrijednost za
DAN*DAN = 0.0001), Ovdje treba gledati vrijednosti vezane za takozvanu. Sekvencionalnu sumu
kvadrata (Type I SS). Isto se moe vidjeti i u tablici na kraju, koja prikazuje procjene parametara, sa
standardnim grekama i P-vrijednostima t-provjere. Procjenitelji su: b0 (INTERCEPT) = 38.85551791,
b1 (DAN) = 2.07249024 i b2 (DAN*DAN) = 0.19515458.

12127

13 Klasifikacijski modeli - analiza


varijance
Vrlo esto se javlja potreba za provjeravanjem razlika aritmetikih sredina uzoraka izabranih iz vie
populacija. Mjerenja ili opaanja predstavljaju zavisnu varijablu, a grupa (ili nain klasificiranja) je
nezavisna varijabla. Takva nezavisna varijabla je kvalitativna ili kategorika i esto se zove i faktor.
Procedura kojom se uzimaju uzorci prema unaprijed odreenim pravilima zove se pokusni plan. Nain
na koji se mogu donositi zakljuci o tako definiranim populacijama popularno se zove analiza varijance.
Pogledajmo slijedei primjer:
Zanima nas utjecaj nekog imbenika (recimo nain dranja ili nain hranidbe) na prirast u tovu. Mogui
naini sakupljanja podataka, odnosno organiziranja pokusa mogu biti:
a) Odredit emo grupe ivotinja sluajnim izborom, razliito ih tretirati i izraunati srednje vrijednosti
grupa.
b) Izabrati emo sluajni uzorak i sluajno primijeniti tretmane (napraviti grupe) na uzorak.
Zbog toga to u ovom sluaju razliite grupe tretiramo razliito obino jo za takve grupe kaemo da su
tretmani. Ovdje nas ne zanima samo razlika izmjerena izmeu uzoraka nego i da li je ta razlika znaajna
u smislu da moemo u velikom broju takvih ponovljenih pokusa oekivati takoer slinu razliku.
Pogledajmo i drugi primjer:
Zanima nas da li se tri promatrane mlijene farme razliite po proizvedenoj koliini mlijeka po kravi.
Ovdje emo sluajno izabrati uzorak sa svake farme da bismo vidjeli da li se prosjeci farme razlikuju.
Ukoliko nas zanima trenutno stanje onda nam podatak razlika aritmetikih sredina dovoljno govori o
razlici izmeu farmi. No ukoliko elimo vidjeti da li je razlika trajnija tada moramo procijeniti
statistiku znaajnost dobivenih razlika.
Najea pitanja na koja moramo odgovoriti i procedure koje moramo provesti kod takvih pokusa su:
1. Procijeniti sredine grupa i ukupnu srednju vrijednost,
2. Odgovoriti na pitanje da li postoji utjecaj grupe, tj. da li su srednje vrijednosti pojedinih grupa
dovoljno razliite da ih moemo smatrati znaajno razliitim. Odgovore na ta pitanja daje analiza
varijance. U ovom poglavlju definirat emo neke osnovne postavke klasifikacijskih modela analize
varijance i kroz primjer upoznati tehnike raunanja.
Klasifikacijski modeli mogu se podijeliti prema broju klasifikacija na analizu varijance jednostruka
klasifikacija, analizu varijance dvostruka klasifikacija, itd.

13.1 Model jednostruke klasifikacije sa fiksnim utjecajima


Model jednostruke klasifikacije koristit emo kada nam je cilj utvrditi i provjeriti razlike izmeu
aritmetikih sredina nekoliko grupa ili tretmana. Neka je broj grupa a. Grupe ili tretmani predstavljaju
sluajne uzorke iz odgovarajuih populacija. Neka po svakom tretmanu imamo n mjerenja. Dakle,
ukupno (n a) jedinica je podijeljeno u a grupa veliine n. Princip analize varijance je da se procjenjuje
varijabilnost unutar grupa i varijabilnost izmeu grupa. Varijabilnost izmeu grupa je protumaena
varijabilnost, a varijabilnost unutar grupa je neprotumaena varijabilnost. Ukoliko je varijabilnost
izmeu grupa dovoljno velika u odnosu na varijabilnost unutar svake grupe, zakljuit emo da je utjecaj
grupa na ukupnu varijabilnost znaajan. Mjera varijabilnosti izmeu grupa je varijabilnost prosjeka
13128

grupa. Prema tome definicija analiza varijance moe biti: Analiza varijance je podjela ukupne
varijabilnosti na izvore varijabilnosti i analiza znaajnosti tih izvora. Fiksni utjecaji znae da svako
opaanje unutar specifine grupe podlijee jednakom utjecaju te grupe.
Matematiki model jednostruke klasifikacije analize varijance je:
yij = + i + ij

i = 1,.....,a

j = 1,...,n

Gdje su:
yij = Opaanje jedinice j u grupi i (tretmanu i)
= ukupni prosjek
i = fiksni utjecaji grupe ili tretmana i
ij = greka modela sa N(0, 2)
Nezavisna varijabla poprima vrijednosti razliitih tretmana, a esto se zove i faktor. Prema modelu
faktor ima utjecaj na vrijednosti zavisne varijable y.
Da bi model bio valjan i upotrebljiv treba zadovoljiti slijedee pretpostavke:
E(ij) = 0, oekivanje greke je jednako nuli.
Var(ij) = 2 , varijanca greke je konstantna (homogena)
Osnovno pitanje na koje elimo odgovoriti je da li su prosjeci populacija jednaki ili razliiti. Hipoteze
koje postavljamo za takav model su nul i alternativna hipoteza:
H0: 1 = 2 =... = a , nema utjecaja grupa ili tretmana
H1: i i za barem jedan par (i,i), utjecaj grupe ili tretmana postoji.
Prosjeci populacija procjenjuju se aritmetikim sredinama grupa. Model koji pokazuje linearni odnos
procijenjenih parametara modela i mjerenja u uzorku zove se model procjene:
Model procijene:
y ij = i = + i

i = 1,.....,a

j = 1,...,n

Gdje su:
y ij = procijenje na vrijedn ost
i = procijenje ni prosjek grupe i
= procijenje na ukupna srednja vr ijednost
i = procijenje ni utjecaj grupe i

Takoer je:
e ij = y ij i = ostatak u uzorcima, neprotumaen modelom
pa se svako mjerenje j u grupi i u uzorcima moe prikazati:
y ij = i + e ij
Recimo na primjer da imamo tri grupe i u svakoj grupi 5 opaanja, tada opaanja moemo shematski
prikazati:
Grupa

G1
y11

G2
y21

G3
y31
13129

y12
y13
y14
y15

y22
y23
y24
y25

y32
y33
y34
y35

Pogledajmo brojani primjer: Zanimalo nas je da li tri razliite smjese utjeu razliito na prirast prasadi.
Neka su smjese a, b i c. Na kraju pokusa izmjereni su slijedei prirasti:
Smjese

a
270
300
280
280
270

b
290
250
280
290
280

c
290
340
330
300
300

Oito ovdje moemo definirati tri izvora koji utjeu na varijabilnost opaanja, a to su:
a) varijabilnost izmeu prosjeka grupa,
b) varijabilnost opaanja unutar svake grupe i,
c) ukupna varijabilnost (varijabilnost opaanja koji ukljuuje varijabilnost unutar i izmeu grupa).
Podsjetimo se da je varijanca uzorka pokazatelj varijabilnosti tog uzorka:

i (yi y)2 =

y2
i i

2
(
yi )

n
n 1
n 1
Brojnik u varijanci zove se suma kvadrata korigirana na srednju vrijednost. Vidjeli smo kod analize
regresije da ta srednja vrijednost moe biti i uvjetovana srednja vrijednost. U analizi varijance, ukupna
varijabilnost je odreena ukupnom sumom kvadrata, varijabilnost izmeu grupa sumom kvadrata
izmeu grupa, a varijabilnost unutar grupa sumom kvadrata unutar grupa.
var = s 2 =

13.1.1 Ralanjenje ukupne varijabilnosti na izvore varijabilnosti:


Definirali smo sume kvadrata izvora varijabilnosti jer one imaju interesantno svojstvo, a to je da se
ukupna suma kvadrata moe podijeliti na sumu kvadrata izmeu grupa i sumu kvadrata unutar grupa,
tj. vrijedi:
Ukupna suma kvadrata = Suma kvadrata izmeu grupa (tretmane) + Suma kvadrata unutar grupa
Sinonimi za sumu kvadrata izmeu grupa su sume kvadrata za grupe ili sume kvadrata izmeu (za)
tretmane. Suma kvadrata unutar grupa esto se zove i suma kvadrata za ostatak ili suma kvadrata za
pokusnu greku.
Ako oznaimo ukupnu sumu kvadrata sa SSUKUP, sumu kvadrata za tretmane sa SSTRT i sumu kvadrata
za ostatak sa SSOST tada se moe pisati:
SS UKUP = SS TRT + SS OST
Za procjenu varijanci potrebno je odrediti stupnjeve slobode, a takoer vrijedi:
Stupanj slobode (ukupno)
= stupanj slobode (grupa) + stupanj slobode (ostatak)
(N-1)
=
(a-1)
+
(N-a)
Ovdje je N = ukupan broj mjerenja, a je broj tretmana.
13130

Kako u analizi varijance koristimo sume, prosjeke i sume kvadrata koristit emo slijedee simbole:
yi. = i yij

suma grupe i

y.. = i j yij ukupna suma (svih opaanja)


y.
prosjek grupe i
yi . = i
ni
y.. =

y..
N

prosjek svih mjerenja

N=

ukupan broj opaanja

Koristei te simbole moemo sume kvadrata napisati:


SS UKUP =
( y ij y..) 2
i
j
SS TRT =
( y i . y..) 2 = in i ( y i . y..) 2
i
j
SS OST = i j ( y ij y i .) 2
Vidimo da su odgovarajue sume kvadrata kvadrirana odstupanja od odgovarajueg prosjeka. No sume
kvadrata se mogu izraunati i kratkim nainom koji moemo prikazati u pet koraka:
1) Ukupna suma

i j yij = y..
2) Korekcija za srednju vrijednost

( y )
C=

(ukupna suma )2
( y..) 2
=
N
N
ukupni broj opazanja
3) Ukupna (korigirana) suma kvadrata
SS UKUP = i j y ij 2 C
i

j ij

4) Suma kvadrata za grupe


y 2i .
C
ni
5) Suma kvadrata za ostatak
SSOST = SSUKUP - SSTRT
SS TRT = i

Dijeljenjem suma kvadrata sa odgovarajuim stupnjevima slobode dobijemo sredine (prosjeke) suma
kvadrata:
Sredina sume kvadrata za tretmane: MSTRT = SSTRT/(a-1),
Sredina sume kvadrata za ostatak: MSOST = SSOST/(N-a)
Ove izraunate sredine sume kvadrata koriste se u provjeri hipoteza.

13.1.2 Postavljanje hipoteza i F-provjera


Hipoteze koje nas zanimaju su hipoteze o razlici prosjeka populacija. Predstavnici populacija su grupe
ili tretmani. Postavljajmo nul hipotezu H0 i alternativnu hipotezu H1.
H0: 1 = 2 =... = a , nema utjecaja grupa
H1: i i za barem jedan par (i,i), razlika izmeu grupa postoji

13131

Hipoteza se moe i ovako postaviti:


H0: i = i =... = a , prosjeci populacija su isti,
H1: i i za barem jedan par (i,i) prosjeci populacija nisu isti.
Koristei sume kvadrata i odgovarajue stupnjeve slobode moemo definirati F statistiku, koju emo
koristiti za provjeru da li je varijabilnost mjerenja potpuno sluajna ili je uvjetovana i nekim
sistematskim utjecajem (grupom ili tretmanom). Drugim rijeima da li je varijabilnost izmeu grupa
(izmeu sredina grupa) znaajna u odnosu na varijabilnost unutar grupa. Ova provjera je analogna
provjeri da li su sredine grupa ili utjecaji grupa znaajno razliiti.
Uobiajena F statistika nam govori o odnosu protumaene i neprotumaene varijabilnosti:
F = (protumaena varijabilnost) /(neprotumaena varijabilnost)
Pogledajmo to nam daje pravo da koristimo F statistiku. Uz pretpostavku normalne raspodjele
ostataka,

SSO ST
2

ima hi-kvadrat raspodjelu sa (N-a) stupnjeva slobode. Uz uvjet da nema razlike izmeu tretmana (tj. da
vrijedi H0),

SSTRT
2

ima hi-kvadrat raspodjelu sa (a-1) stupnjeva slobode i

SS U K U P
2

ima hi-kvadrat raspodjelu sa (N-1) stupnjeva slobode. Takoer se moe pokazati da su SSTRT i SSOST
nezavisni. Kvocijent dvije hi-kvadrat varijable podijeljenih sa odgovarajuim stupnjevima slobode daje
F statistiku koja je sluajna varijabla sa F raspodjelom ukoliko vrijedi H0.
(SS TRT / 2 ) (a 1)
F=
(SSOST / 2 ) ( N a )
Ovdje je:
SSTRT
= MS TRT = sredina sume kvadrata za tretmane
a 1
SSOST
= MSOST = sredina sume kvadrata za ostatak
Na
Sredina sume kvadrata ostatka procjenjuje varijancu populacije.
Dakle,
MSTRT
F=
MS OST
i ima F raspodjelu sa (a-1) i (N-a) stupnjeva slobode ( F(a-1),(N-a) ), ukoliko vrijedi H0.
Oekivanja sredina sume kvadrata su:
E(MSOST) = 2
= 2 ako H 0
E( MS TRT ) 2
> ako nije H 0
13132

E(MSTRT) = 2 + ni i2 / (a-1)
Dakle, ako je H0 istinito, MSTRT 2 i F 1. Ako je H1 istinito onda je MSTRT > 2 , i F > 1.
Odbacujemo H0 ako je F dovoljno velik, tj. F je puno vei od 1. To takoer znai da je MSTRT puno
vei od MSOST. Koristei vjerojatnost, odnosno razinu znaajnosti u donoenju zakljuka, kaemo da za
razinu znaajnosti odbacujemo Ho ako F > F,(a-1),(N-a), tj. ako je izraunata statistika F iz uzorka vea
od kritine vrijednosti (slika 12-1).

F0

F1

F,(a-1),(N-a)

Slika 13-1: Provjera hipoteza koristei F raspodjelu. Ukoliko je F0 na slici izraunati F, to znai da je F <
F,1,n-2. i nul hipotezu ne odbacujemo. Ukoliko je F1 izraunati F, tj. F > F,1,n-2. , nul hipotezu odbacujemo
uz razinu znaajnosti.
Obino se sume kvadrata stupnjevi slobode i F statistika piu u tablicu koja se zove analiza varijance
tablica ili kratko ANOVA tablica
ANOVA tablica
Izvor
SS
Grupa
SSTRT
Ostatak
SSOST
Ukupno
SSUKUP

St.sl.
a-1
N-a
N-1

MS=SS/St.sl.
MSTRT = SSTRT/(a-1)
MSOST = SSOST/(N-a)

F
F=MSTRT/MSOST

Fkritino
F,a-1,(N-a)

Pogledajmo primjer o tri smjese i prirasti prasadi da bismo bolje razumjeli tehniku raunanja i
donoenje zakljuka. Zanimalo nas je da li postoji razlika u prirastima tri grupe prasadi kojima su
davane tri razliite smjese. Oznaimo smjese sa TR1, TR2 i TR3. Radi preglednosti napiimo podatke,
sume i prosjeke u tablicu:
TR2
TR3
TR1
270
290
290
300
250
340
280
280
330
280
290
300
270
280
300 Ukupno
--------------------------------------------------------

1400
5
280

1390
5
278

1560
5
312

4350
15
290

Za izraunavanje suma kvadrata koristimo kratki nain raunanja sume kvadrata:

13133

1) Ukupna suma

i j yij = y.. = (270 + 300 + ......+ 300) = 4350


2) Korekcija za srednju vrijednost

(ukupna suma )2 = (4350)2 =


( y..) 2
=
1261500
N
ukupni broj opazanja
15
3) Ukupna (korigirana) suma kvadrata
C=

SSUKUP = i j yij2 - C = (2702 + 3002 + ......+ 3002) - C = 1268700 - 1261500 = 7200


4) Suma kvadrata za grupe
y 2i .
1400 2 1390 2 1560 2
C =
+
+
C = 1265140 1261500 = 3640
ni
5
5
5
5) Suma kvadrata za ostatak
SSOST = SSUKUP - SSTRT = 7200 - 3640 = 3560
SS TRT = i

Prikaimo anova tablicu:


Izvor i
Tretman
Ostatak
Ukupno
F=

SS
3640
3560
7200

St.sl.
3-1=2
15-3=12
15-1=14

MS=SS/St.sl.
MSTRT = 1820.0
MSOST = 296.67

F
6.13

Fkritino
3.89

MS TRT 1820.0
=
= 6.13
MSOST 296.67
F2, 12
= 0.05

3.89

6.13

Slika 13-2: F provjera za primjer sa prasadi.


Kritina vrijednost za stupnjeve slobode 2 i 12 i razinu znaajnosti 0.05 je F.05,2,12 = 3.89. Poto je
izraunati F = 6.13 vei (ekstremniji) od kritine vrijednosti, moemo zakljuiti da uz razinu znaajnosti
= 0.05 nul hipotezu odbacujemo, tj. moemo rei da postoji znaajna razlika izmeu aritmetikih
sredina grupa (slika 12-2).
Ponovimo da su osnovne pretpostavke u analizi varijance:
1. Utjecaji tretmana i okoline su aditivni
2. Neprotumaene greke () su sluajne, nezavisne i normalno distribuirane sa prosjekom 0 i
homogenom varijancom.
Odstupanja od ovih pretpostavki mogu imati utjecaja na razinu znaajnosti i senzivitet F provjere. U
sluaju nenormalnosti prava razina znaajnosti je obino vea nego to je pretpostavljeno. To rezultira
odbijanjem nul hipoteze kada je ona zapravo tona ee nego je pretpostavljena razina znaajnosti.
Istraiva moe misliti da ima 5% razinu dok je prava zapravo 7 ili 8 %. Jasno, ukoliko je raspodjela
13134

greke poznata i valjana, lake je donositi pravilne zakljuke na temelju provjere koja koristi tu
raspodjelu.

13.2 Usporedba srednjih vrijednosti pojedinih grupa


Koristei F-provjeru provjeravamo da li postoji znaajna razlika izmeu tretmana. Ako se H0 prihvati,
ini se da nije potrebno dublje analizirati problem, iako se moe postaviti pitanje da li je u sluaju
velikog broja tretmana mogue da je znaajna razlika izmeu pojedinih tretmana sakriven (tip II
greka). Ukoliko se u F-provjeri H0 odbaci, moe se postaviti pitanje koji tretman je utjecao na to,
odnosno izmeu kojih tretmana je utvrena znaajna razlika.
Neka je
i = + i
prosjek populacije koju prezentira grupa i. Cilj koji se moe postaviti je da li su prosijeci dvije
populacije i i i iji su predstavnici grupe i i i razliiti, tj da li moemo zakljuiti na temelju uzoraka

a
2

grupa da li je i i. Za a grupa ukupno postoji usporedbi u parovima. Jasno da i ovdje postoje


mogunosti greke tipa I i II.
Tip I greka: ako zakljuimo i i a zapravo je i = i
Tip II greka: ako zakljuimo i = i a zapravo je i j
Gledajui cijeli pokus moemo definirati vjerojatnost greke u zakljuivanju cijelog pokusa:
Pokusna stopa greke je (engl. experimental error rate) je vjerojatnost:
PSG = P(barem jedan zakljuak i i a da su svi i jednaki)
Postoje mnoge procedure za usporedbu srednjih vrijednosti. Ovdje emo spomenuti LSD (najmanju
znaajnu razliku, engl. Least significance difference) i Tukey proceduru.

13.2.1 Najmanja znaajna razlika (LSD)


Cilj ove procedure je utvrditi najmanju razliku koja e biti znaajna i usporediti apsolutnu vrijednost
svih parova srednjih vrijednosti tretmana sa tom vrijednou. Najmanja znaajna razlika (LSD) se
izrauna iz formule:
1
1

LSD ii ' = t / 2, N a MS OST +


n i n i'
Izraunavanju i provjeri LSD uvijek mora prethoditi F provjera pa je cijela procedura slijedea:
1.F-provjera (H0: 1 =..........= a , H1: i i za barem jedan par i,i)
2. Ukoliko H1 tada se rauna LSDii za sve parove ii.
3. Zakljuujemo i i ako
y i y i ' LSD ii ' .
F provjera mora prethoditi LSD da osiguramo razinu znaajnosti za bilo koji broj usporedbi.

13135

Prednost: Vrlo vjerojatno da e pronai razliku izmeu srednjih vrijednosti (ako postoje), tj. ima nisku
razinu tip 2 greke.
Loa strana: Pokazuje esto razlike kada i nisu. Visok tip 1 greka. Zato obavezno prvo uraditi Fprovjeru.

13.2.2 Tukey provjera


Tukey provjera koristi q statistiku koja ima Q raspodjelu a definirana je
q ,a , N a =

y Max y min
s

Vrijednost q,a,N-a odreuje kritinu vrijednost utvrene razlike izmeu najmanje i najvee srednje
vrijednosti tretmana. Tako bilo koji par srednje vrijednosti ija je razlika ista ili vea nego kritina
vrijednost kae se da je utvrena znaajna razlika meu njima.
Tukey kritina razlika (HSD) je takva da je vjerojatnost da se napravi greka tipa I (tj. da se zakljui da
postoji razlika, a da ona zapravo ne postoji) jednaka . Ta razina vrijedi za cijelu proceduru, tj. za sve
parove srednjih vrijednosti, a ne samo za pojedinanu komparaciju. HSD se izrauna:
HSD = q ,a , N a

MS OST
nt

Gdje je q vrijednost iz tablice Kritine vrijednosti studentiziranog raspone (Prilog). Zakljuujemo


i i ' ako y i y i ' HSD ii ' ,
tj. zakljuujemo da je razlika izmeu aritmetikih sreedina grupa i i znaajna uz razinu znaajnosti.
Broj opaanja po grupi (nt) mora biti jednak. Ukoliko broj opaanja po grupi nije jednak moe se
koristiti i uprosjeeni broj opaanja po grupi izraunat iz
n2
1

i i
nt =
(N
).
a 1
N
Neki autori preporuuju i upotrebu harmonijske srednje vrijednosti.
Prednost HSD metode je to ima ne toliko pogrenih zakljuaka kao LSD, ali je loa strana to ima vie
pogrenih i = i zakljuaka.
Primjer. Vratimo se naem primjeru sa tri smjese za prasad. Poto smo u naem primjeru zakljuili da
postoji znaajna razlika izmeu aritmetikih sredina grupa zanima nas da vidimo koja je to smjesa za
praie najbolja. Upotrijebimo Tukey metodu:
MS OST
HSD = q ,a , N a
nt
q3,12 = 3.77 (iz tablice )
MSOST = 296.67
nt = 5
296.67
= 29.0
HSD = 3.77
5
Kritina razlika je 29.0.

13136

Razlike izmeu aritmetikih prosjeka grupa (tretmana). Smjese TR1, TR2 i TR3.
TR1
TR2
TRT
yi
280
278
TR3
312
32
34
TR1
280
2
TR2
278
Razlike izmeu aritmetikih sredina grupa TR3 i TR1 , te TR3 i TR2, su 32.0 i 34.0, to je vee od
kritine razlike od 29.0. Prema tome zakljuujemo da je smjesa TR3 bolja i od smjese TR1 i od smjese
TR2 uz 5% razinu znaajnosti.
esto se to grafiki moe prikazati na slijedei nain. Napiu se simboli grupa po veliini njihovim
aritmetikih sredina. Vodoravnom crtom ili crtama se spoje one grupe izmeu kojih nije pronaena
znaajna razlika.

TR3

TR1

TR3

13.2.3 Interval povjerenja za + i , srednju vrijednost grupe i


Interval povjerenja za srednje vrijednosti grupa se moe procijeniti kao to je prikazano u ranijim
poglavljima. Za 100(1-)% interval povjerenja za grupu i:
MS OST
y i . t / 2, N a
ni

13.3 Matrini prikaz jednostruke klasifikacije


Skalarni model analize varijance jednostruke klasifikacije
yij = + i + ij

i = 1,.....,a

j = 1,...,n

znai da se svako opaanje yij moe prikazati kao:


y11 = + 1 + 11
y12 = + 1 + 12
...
y1n = + 1 + 1n
y21 = + 2 + 21
...
y2n = + 2 + 2n
...
...
ya1 = + a + a1
...
yan = + a + an
Ovaj skup jednadbi se moe pisati i ovako:
y12 = 1 + 11 + 02 + ... 0a + 12
y13 = 1 + 11 + 02 + ... 0a + 13
...
13137

y1n = 1 + 11 + 02 + ... 0a + 1n
y21 = 1 + 01 + 12 + ... 0a + 21
...
y2n = 1 + 01 + 12 + ... 0a + 2n
...
...
ya1 = 1 + 01 + 02 + ... 1a + a1
...
yan = 1 + 01 + 02 + ... 1a + an
Poto se radi o skupu jednadbi one se mogu prikazati i matrino:
y = X +
Gdje su:
y11
y
12
...

y1n
y 21

...

y=
y
2n
...
...

y a1
...

y an

1
1

...

1
1

...
X=
1

...
...

1
...

1
1

0
0

...
1
0
...
0
....
...
0
...
0

...
0
1
...
1
...
....
0
...
0

... 0
... 0

... ...

... 0
... 0

... ...
... 0

... ...
... ...

... 1
... ...
... 1


1
= 2

...
a

11

12
...

1n
21

...
=

2n
...
...

a1
...

an

y je vektor opaanja, X je matrica oblika koja povezuje y i , je vektor parametara, je vektor greki.
Oekivanje vektora zavisne varijable je :
E(y) = X
Varijanca od y je:
Var(y) = 2I
Takoer je E() = 0 i Var() = 2I , odnosno oekivanje od greke modela je jednaka nuli i varijanca
greke je konstantna, vektor 0 je vektor kojemu su svi elementi nule, I je jedinina matrica.
Ukoliko pretpostavimo normalni model onda vektor y sadri normalne sluajne varijable sa
multinormalnom raspodjelom sa prosjekom X i varijancom I2.
Parametri se procjenjuju iz uzoraka koristei metodu najmanjih kvadrata, tj traimo takve procjenitelje
da suma kvadrata odstupanja opaanja od procijenjenih vrijednosti bude minimalna. Dobiju se normalne
jednadbe:

13138

~
X' X = X' y
~

an n n ... n
y..
~
y .
n n 0 ... 0
1

~
X' X = n 0 n ... 0
= ~2
X' y = y 2 .

...
...
... ... ... ... ...
~
a
n 0 0 ... n
y a .
Matrica X'X nema jedinstvenu inverznu matricu jer kolone nisu linearno nezavisne. Naime, prva kolona
je jednaka zbroju svih ostali kolona. Za pronalaenje rjeenja treba koristiti openitu inverznu matricu,
pa je vektor rjeenja:
~
= ( X' X ) X' y
~
U ovom sluaju postoji mnogo rjeenja. Zbog toga i oznaka . Meutim ovakav model uvijek daje
jedinstvena rjeenja razlike utjecaja grupa, to nas u krajnjem sluaju i zanima. Takoer rjeenja koja
imaju neko znaenje mogu se dobiti upotrebom specifinih openitih inverznih matrica, koji se esto
zove i upotreba restrikcija. Jedna od restrikcija je da se pretpostavi da je zbroj utjecaja svih grupa
jednak nuli. Takoer se moe i jedan od procjenitelja postaviti na nulu, a drugi prikau kao razlika od
tog procjenitelja. U sluaju jednostruke klasifikacije ako postavimo da je
~=0

a utjecaji grupa su
~ +
~
i predstavljaju procjene prosjeka grupa:
i = +
Takva rjeenja moemo dobiti ako u prvu kolonu i prvi red matrice X'X upiemo nule. Tada je openita
inverzna matrica :
0 0 0 ... 0
0 1 0 ... 0
n

( X' X ) = 0 0 1n ... 0 .

... ... ... ... ...


0 0 0 ... 1

n
Vektor rjeenja je:
~ 0

~ +
1
1
~ ~

= 2 = + 2

... ...
~a + a
to nam daje procjene prosjeka grupa.
Sume kvadrata potrebne za provjeru hipoteza F-provjerom mogu se izraunati:
~
SS TRT = ' X ' y an ( y..) 2
~
SS OST = y ' y ' X ' y
SS UKUP = y ' y an ( y..) 2

13139

Primjer: Pogledajmo isti primjer kao i prije. Zanimalo nas je da li tri razliite smjese utjeu razliito na
prirast prasadi. Neka su smjese TR1, TR2 i TR3. Na kraju pokusa izmjereni su slijedei prirasti:
TR1
TR2
TR3
270
290
290
300
250
340
280
280
330
280
290
300
270
280
300 Ukupno
--------------------------------------------------------

1400
5
280

1390
5
278

1560
5
312

4350
15
290

Model je:
y = X +
Gdje su:
270
...

270

290
y = ...

280
290

...
300

1
...

1
X = ...

1
1

...
1

1
...
1
0

0
...
0
1

...
0
0
...
0

...
1
0
...
0

0
...
0

0
...

0
1

...
1


= 1
2

3

11
...

15

21
= ...

25

31
...

35

Normalne jednadbe su:


~
X' X = X' y
15 5 5
5 5 0
X' X =
5 0 5

5 0 0
Vektor rjeenja je:
~
= ( X' X ) X' y

5
0
0

~
~ 1
= ~
2
~
3

4350
1400

X' y =
1390

1560

Definirajui openitu inverznu matricu kao:


0 0 0 0
0 1 0 0

5
,

X'
X
=
(
)
0 0 15 0

1
0 0 0 5
vektor rjeenja je:

13140

0 0

~ + 1 280
=
=
+ 2 278

+ 3 312
Sume kvadrata potrebne za provjeru hipoteza:
4350
1400
~
(3)(5)(290) 2 = 1265140 1261500 = 3640
SS TRT = ' X ' y an ( y..) 2 = [0 280 278 312]
1390

1560
270
...

270

290

~
SS OST = y ' y ' X ' y = [270 ... 270 290 ... 280 290 ... 300] ... 1265140 =

280
290

...
300

SSOST = 1268700 - 1265140 = 3560


SS UKUP = y ' y an ( y..) 2 = 1268700 1261500 = 7200
Dakle, izraunate sume kvadrata su kao iste kao i prije. Daljnja pisanja ANOVA tablice i provjera
hipoteza radi se kao to je ve prikazano.

13.4 SAS program jednostruke klasifikacije sa fiksnim utjecajima


SAS program za jednostruku klasifikaciju prikaimo na primjeru sa tri smjese i prirasti prasadi.
Zanimalo nas je da li postoji razlika u prirastima tri grupe prasadi kojima su davane tri razliite smjese.
Oznaimo smjese sa TR1, TR2 i TR3. Podsjetimo se podataka:
TR1
TR2
TR3
270
290
290
300
250
340
280
280
330
280
290
300
270
280
300
Ukupno
-------------------------------------------------------SAS program:
DATA prasad;
INPUT tretman $ prirast @@;
DATALINES;

13141

a 270
a 300
a 280
a 280
a 270
;

b
b
b
b
b

290
250
280
290
280

c
c
c
c
c

290
340
330
300
300

PROC GLM DATA = prasad;


CLASS tretman;
MODEL prirast = tretman ;
LSMEANS tretman / P PDIFF TDIFF STDERR ADJUST=TUKEY ALPHA=0.05;
RUN;
QUIT;

Objanjenje: Koristimo proceduru GLM. CLASS definira klasifikacijsku varijablu. U programu je


potrebno naznaiti MODEL. Prirast = tretman znai da je zavisna varijabla prirast a nezavisna
tretman. LSMEANS rauna prosjeke grupa korigirane na utjecaje u modelu. Opcije iza kose crte (P
PDIFF TDIFF STDERR ADJUST=TUKEY ALPHA=0.05) trae da se izraunaju standardne greke i
provjere razlike izmeu parova prosjeka grupa koristei Tukey provjeru sa razinom znaajnosti =
0.05.
Sas ispis:
General Linear Models Procedure
Dependent Variable: PRIRAST
DF
2
12
14

Sum of
Squares
3640.0000000
3560.0000000
7200.0000000

Mean
Square
1820.0000000
296.6666667

R-Square
0.505556

C.V.
5.939315

Root MSE
17.224014

Source
Model
Error
Corrected Total

F Value
6.13

Pr > F
0.0146

PRIRAST Mean
290.00000

General Linear Models Procedure


Least Squares Means
Adjustment for multiple comparisons: Tukey
Tretman

a
b
c

PRIRAST
LSMEAN

Std Err
LSMEAN

280.000000
278.000000
312.000000

Pr > |T|
H0:LSMEAN=0

7.702813
7.702813
7.702813

0.0001
0.0001
0.0001

LSMEAN
Number
1
2
3

T for H0: LSMEAN(i)=LSMEAN(j) / Pr > |T|


i/j
1
2
3

-0.1836
0.9816
2.937552
0.0310

2
0.183597
0.9816
.
3.121149
0.0223

3
-2.93755
0.0310
-3.12115
0.0223
.

Objanjenje:
Prvo je prikazana ANOVA tablica. Zavisna varijabla u modelu (Dependent Variable) je prirast. Izvori
varijabilnosti (Source) su Model, Ostatak (Error) i Ukupno (Corrected Total). U tablici su prikazani
13142

stupnjevi slobode (DF), Sume kvadrata (Sum of Squares), Sredine sume kvadrata (Mean Square),
izraunati F (F value) i P-vrijednost (Pr > F). Z ovaj primjer F = 6.13 i P-vrijednost je 0.0146, pa
moemo rei da postoji utjecaj tretmana.
Ispod naslova Least Squares Means prikazane su korigirani prosjeci tretmana sa odgovarajuim
standardni grekama (Std Err LSMEANS).
U zadnjoj tablici prikazane su razlike i P-vrijednost razlika izmeu tretmana u parovima. Brojevi na
primjer u redu 1 i koloni 3 (-2.93755 i 0.0310). predstavljaju razlike i P-vrijednsot razlike izmeu
tretmana 1 i 3. P-vrijednost = 0.0310 znai da je razlika znaajna.

13.5 Model sa sluajnim utjecajima grupa


Model sa sluajnim utjecajima je takav model kod kojega je grupa ili tretman sluajna varijabla sa
nekom raspodjelom. Tako na primjer podatke sa nekoliko farmi moemo smatrati sluajnim uzorkom
populacije svih farmi. Takoer ako se pokus provodi na nekoliko lokacija, i lokacije se mogu smatrati
sluajnim uzorkom svih lokacija. Ovdje su i ovakve klasifikacijske varijable zapravo sluajne varijable i
kao takve imaju neku raspodjelu. Pojam sluajnog modela objasnit emo na najjednostavnijem modelu,
a to je model jednostruke klasifikacije. Ovdje je pokusni plan opet potpuno sluajni plan. Broj tretmana
je a, a to je sluajni uzorak populacije tretmana. Sluajni utjecaji 1, 2, ..., a su normalno distribuirani
sa prosjekom 0 i varijancom 2.
Model se moe prikazati kao i prije:
yij = + i + ij
i = 1,.....,a
j = 1,...,n
Gdje su:
yij = Opaanje jedinice j u grupi i (tretmanu i)
= ukupni prosjek
i = sluajni utjecaji grupe ili tretmana i
ij = greka modela sa N(0, 2)
Meutim, pretpostavke modela su sada:
E(i) = 0
E(ij) = 0
Var(i) = 2
i a N(0, 2)
ij a N(0, 2)
i i ij su nezavisni, tj.
Cov(i , ij) = 0
Varijance 2 i 2 se zovu komponente varijance. Iz pretpostavki slijedi
yi a N(0, 2 + 2)
Cov(yij , yij) = 2
Cov(i , yij) = 2
tj, kovarijanca izmeu opaanja unutar jedne grupe je jednaka varijanci izmeu grupa.
Mogui ciljevi kod analize takvog modela su:
1. Provjera utjecaja grupe (tretmana), odnosno provjera hipoteza
H0: 2 = 0
H1: 2 0
13143

2. Procjena komponenti varijance


3. Predvianje 1,.., a.
Hipoteze govore o tome da li postoji ili ne postoji varijabilnost izmeu tretmana:
H0: 2 = 0
H1: 2 0
Ukoliko vrijedi H0, to znai da je varijanca grupa jednaka nuli, odnosno da su sve grupe iste jer nema
varijabilnosti meu njima.
Oekivanja suma kvadrata su:
E(SSOST) = 2(N - a)
E(SSTRT) = (2 + n 2)(a - 1)
Odnosno oekivanja sredina suma kvadrata su:
E(MSOST) = 2
= 2
ako H 0
E( MS TRT ) = 2
2
= + n ako nije H 0
Tako da se F provjera koristi kao i kod fiksnog modela.
MS TRT
F=
MS OST
odnosno ako vrijedi H0 tada je 2 = 0, i F = 1.
U sumiranju analize varijance sluajnog modela takoer koristimo Anova tablicu, u kojoj je poeljno
upisati i oekivanja sredina sume kvadrata, E(MS):
ANOVA tablica
Izvor varijabilnosti
Grupa
Ostatak

SS
SSTRT
SSOST

df
a-1
N-a

MS=SS/df
MSGR
MSOST

E(MS)
2 + n 2
2

Poto je
E(MSOST) = 2
E(MSTRT) = 2 + n 2
mogu se iz Anova tablice procijeniti komponente varijance koristei jednakosti:
MS TRT = 2 + n 2
MS OST = 2
Iz tog slijedi:
2 = MS OST
(MS TRT - MS OST )
2 =
n
Gdje su:
2 i 2 su procijene parametara
n = broj opaanja po grupi.

13144

Ovako dobivene procjene se zovu Anova procjene. Treba napomenuti da ako neka svojstva modela nisu
ispunjena, a prvenstveno ako varijance nisu homogene po grupama zakljuci o komponentama varijance
mogu biti pogreni. Varijance se esto mogu homogenizirati transformacijama sluajne varijable y.
Predvianje srednjih vrijednosti odnosno utjecaja tretmana koristi funkcije sluajne varijable y.
= y..
i = b , y i . ( y i . )
Ovdje je:
2
Cov ( i , y i )
= 2
b , y i . =
Var(y i )
+ 2 / ni
(ukoliko znamo varijance), odnosno,
2
b y = 2
+ 2 / n i
ako i varijance procjenjujemo iz uzorka
Primjer: Mjerili smo koncentraciju progesterona kod svinja sa ciljem da procijenimo varijabilnost unutar
i izmeu svinja, odnosno da li je varijabilnost izmeu svinja znaajna. Koncentracija progesterona je
mjerena tri puta na svakoj svinji. Podaci su u slijedeoj tablici.
Broj mjerenja SVINJA
1
1
2
1
3
1
1
2
2
2
3
2
1
3
2
3
3
3
1
4
2
4
3
4
1
5
2
5
3
5
1
6
2
6
3
6
1
7
2
7
3
7
1
8
2
8
3
8

PROGESTERON
5.3
6.3
4.2
6.6
5.6
6.3
4.3
7.0
7.9
4.2
5.6
6.6
8.1
7.9
5.8
7.9
4.7
6.8
5.5
4.6
3.4
7.8
7.0
7.9

Raunajui ukupne sume kvadrata i koristei stupnjeve slobode kao i za fiksni model dobijemo slijedeu
tablicu analize varijance:

13145

ANOVA
Izvor varijabilnosti
Svinja
Unutar svinja

SS
22.156
23.900

St.sl.
7
16

MS=SS/St.sl.
3.165
1.494

E(MS)
2 + 3 2
2

Komponente varijance su:


2 = 1.464
(3.165 1.494)
2 =
= 0.557
3
F provjera:
MS TRT 3.165
=
= 2.118
F=
MS OST 1.494
Predviene vrijednosti su:
= y.. = 6.138
b y =

2
0.557
=
= 0.528
2
2
+ / n i 0.557 + 1.494 / 3

i = b , y i . ( y i . )
Na primjer rjeenje za svinju 1:
y 1 . = 5.267
1 = 0.528 (5.267 - 6.138) = - 0.460

13.6 Intraklasna korelacija


Intraklasna korelacija je korelacija izmeu opaanja unutar grupe. Korelacija je kao i uvijek jednaka:
t =

Cov ( y i , j , y i, j' )
Var ( y i, j ) Var ( y i , j' )

Podsjetim se da je kovarijanca izmeu opaanja unutar grupa jednaka komponenti varijance izmeu
grupa:
Cov(yij,yij') = Var (i) = 2 ,
a varijanca bilo kojeg opaanja je:
Var(yij) = Var(yij') = Var(y) = 2 + 2
Ove tvrdnje vrlo lako moemo dokazati:
Imamo
yij = + i + ij
yij' = + i + ij'
Pa je:
Cov(yij,yij') = Cov( + i + ij, + i + ij') = Var(i) + Cov(ij, ij') = 2 + 0 = 2
Varijanca od yij je:
Var(yij) = Var( + i + ij) = Var(i) + Var(ij) = 2 + 2
Podsjetimo se da su i i ij nezavisni, tj. kovarijanca meu njima je jednaka nuli. Takoer su greke
nezavisne, bez obzira u kojoj su grupi, tj. kovarijanca meu njima je takoer jednaka nuli.
13146

Dakle intraklasna korelacija je:


2
t =
2 + 2
Odnosno procjenjuje se iz uzoraka sa:
2
rt = 2 2
+

13.7 SAS program jednostruke klasifikacije sa sluajnim utjecajima


Izraunajmo primjer sa progesteronom koristei SAS program.
SAS program:
DATA svinja;
INPUT svinja prog;
DATALINES;
1 5.3
1 6.3
...
...
7 3.4
8 7.8
8 7.0
8 7.9
;
PROC MIXED DATA=svinja;
CLASS svinja ;
MODEL prog = / SOLUITION;
RANDOM svinja / SOLUTION;
RUN;
QUIT;

Objanjenje programa: Koritena je procedura MIXED koja je korektna kada se radi o sluajnim
utjecajima jer daje pravilne procjene standardnih greki. CLASS definira nezavisnu kategoriki
varijablu (svinja). MODEL definira zavisnu varijablu (prog). MODEL prog = ; znai da u modelu
nema fiksne nezavisne varijable, odnosno samo je ukupna srednja vrijednost smatrana fiksnim
utjecajem. Poto je svinja sluajna varijabla nalazi se iza rijei RANDOM. Opcija SOLUTION iza
kose crte trai ispis rjeenja za sluajne utjecaje.
SAS ispis:
Covariance Parameter Estimates (REML)
Cov Parm
SVINJA
Residual

Estimate
0.55714286
1.49375000

Solution for Fixed Effects


Effect

Estimate

Std Error

13147

DF

Pr > |t|

INTERCEPT

6.13750000

0.36315622

16.90

0.0001

Solution for Random Effects


Effect
SVINJA
SVINJA
SVINJA
SVINJA
SVINJA
SVINJA
SVINJA
SVINJA

SVINJA
1
2
3
4
5
6
7
8

Estimate
-0.45985896
0.01540197
0.13861777
-0.35424542
0.59627645
0.17382228
-0.86471086
0.75469676

SE Pred
0.54745763
0.54745763
0.54745763
0.54745763
0.54745763
0.54745763
0.54745763
0.54745763

DF
16
16
16
16
16
16
16
16

t
-0.84
0.03
0.25
-0.65
1.09
0.32
-1.58
1.38

Pr > |t|
0.4133
0.9779
0.8033
0.5268
0.2922
0.7550
0.1338
0.1870

Objanjenje ispisa:
Prva tablica je ispis komponenti varijance (Covarinace Parameter Estimates (REML)). Vidimo da je
komponenta varijance za svinju jednaka 0.55714286 i ona za ostatak (Residual) 1.4957500. Slijedea
tablica su rjeenja za fiksne utjecaje (Solution for Fixed Effects). U naem primjeru samo je ukupna
srednja vrijednost (INTERCEPT) tretiran kao fiksni utjecaj. Procjena (Estimate) je 6.1375000 sa
standardnom grekom (Std Error) 0.36315622. U slijedeoj tablici prikazane su predviene vriejdnsoti
sluajnih utjecaja za svinje. Tako na primjer SVINJA 1 ima procjenu (Estimate) -0.45985896 sa
standardnom grekom predvianja (SE Pred) 0.54745763.

13.8 Provjera homogenosti varijance


Ukoliko je n velik, ostaci eij trebaju biti priblino normalni to se moe pokazati histogramom ili
grafikonom ostataka na procijenjenu vrijednost grupa. Homogenost varijance se moe provjeriti
koristei F-provjeru kvocijenta vee i manje varijance grupa.
s 2 ( veca )
F= 2
s (manja )
Takva statistika ima F raspodjelu sa (n1 - 1) i (n2 - a) stupnjevima slobode, gdje su n1 i n2 veliine
uzoraka. Za vie grupa koristi se Bartlett provjera. Bartlettova formula je slijedea:

B = (n - 1) a ln(s 2 ) iln(s i2 )

Gdje su:

s2 = prosjek procijenjenih varijanci svih grupa

s2i = varijanca grupe i


n = broj opaanja po grupi
a = broj grupa

Za male uzorke potrebno je B korigirati sa korekcijskim faktorom CB.


CB = 1 + (a+1)/[3a(n-1)]
Vrijednost B/CB ima priblinu hi kvadrat raspodjelu sa a-1 stupnjeva slobode. Za provjeru znaajnosti
razlika varijanci moe se koristiti tablica sa 2 vrijednostima za razliite razine znaajnosti.
Za nejednaki broj opaanja po grupi
iSS i
s2 =
i(n i 1)
13148

SSi = suma korigiranih kvadrata grupe i


ni = broj opaanja po grupi i.

Vjebe:
13.1. Uzgojem u srodstvu dobivene su etiri linije kokoi: A, B, C i D. Linije su meusobno kriane i
istraivana je teina jaja. Promatrali smo vrijednosti kod krianaca AB, AC, BC i BD. Izmjerene su
slijedee teine jaja:
AB
58
51
56
52
54
57
58
60

AC
59
62
64
60
62

BC
56
57
56
55

BD
59
55
50
64
57
53
57
53
56
55

Provjerite da li su aritmetike srednje vrijednosti grupa znaajno razliite.


13.2. Bale sijena pohranjene su na tri razliita uvjeta. Da li se moe rei da postoji razlika izmeu
naina spremanja bala.
TRT1
17.3
14.0
14.8
12.2

TRT2
22.0
16.9
18.9
17.8

TRT3
19.0
20.2
18.8
19.6

13.3. Mjereni su dnevni prirasti Holstein junica na dva panjaka. Panjaci se smatraju sluajnim
uzorcima populacije panjaka. Zanimala nas je procjena intraklasne korelacije, dakle korelacije izmeu
junica unutar panjaka. Bilo je po 20 junica na svakom panjaku Izraunate sredine suma kvadrata,
stupnjevi slobode i oekivanja suma kvadrata prikazane su u ANOVA tablici:
ANOVA
Izvor varijabilnosti
Panjak
Unutar panjaka

St.sl.
1
38

MS=SS/St.sl.
21220
210

E(MS)
2 + 20 2
2

13149

14 Osnovni principi planiranja pokusa


Pokus (eksperiment) se moe definirati kao planirano istraivanje u svrhu dobivanja novih injenica ili
potvrde, odnosno osporavanja rezultata prijanjih pokusa. Za statistiara pokus je skup pravila koriten
za izbor uzoraka iz populacije. Taj skup pravila trebao bi biti odreen unaprijed i tada se zove pokusni
plan. U planiranju pokusa cilj se mora jasno postaviti. Cilj moe biti pitanje na koje treba odgovoriti,
hipoteza koju treba provjeriti ili utjecaj koji treba procijeniti. Pokus ine pokusni plan, tretmani,
pokusna jedinica, jedinica uzorka, ponavljanja i pokusna greka.
U planiranju pokusa neophodno je odrediti populaciju za koje e se donositi zakljuci. Iz takve
populacije potrebno je zatim izvui sluajni, odnosno reprezentativni uzorak. Pretpostavimo da je glavni
cilj pokusa usporediti vrijednosti nekoliko krmiva za svinje u nekom podruju. Pretpostavimo da u tom
podruju farmeri dre svinje nekoliko pasmina, da neki koriste hranilice, a neki hrane iz ruke. Ako se
uzme samo jedna pasmina i samo jedan nain hranjenja, uzorak se ne moe smatrati reprezentativnim,
osim ako se zna da pasmina i nain hranjenja nemaju utjecaja na razlike koje e se izmjeriti zbor
razliitog krmiva. Ako nema nikakve informacije o utjecaju pasmine i naina hranjenja, ne bi bilo
korektno stvoriti zakljuke o svim pasminama i nainu hranjenja na temelju podataka samo jedne
pasmine i naina hranjenja. Za pravilno zakljuivanje potrebno je proiriti pokus, odnosno imati uzorke
iz svih pasmina i naina hranjenja.

14.1 Pokusna jedinica i tretmani


Pokusna jedinica je jedinica materijala na koje se primjenjuju tretmani. Tretman je procedura iji utjecaj
e biti mjeren i usporeivan s drugim utjecajima. Pokusna jedinica moe biti jedna jedinka, npr.
ivotinja, ali i grupa jedinki kao to je 10 pilia u jednom kavezu, itd. Tretman moe biti razina
hranidbe, nain primjene insekticida, itd. Utjecaj tretmana se mjeri na jedinici uzorka. Jedinica uzorka
moe biti jednaka pokusnoj jedinici, ili moe biti dio pokusne jedinice. Ukoliko je pokusna jedinica tele
u dobi od 6 mjeseci kojem se mjeri teina, tada je tele i pokusna i jedinica uzorka. Ako se tretman
primjenjuje na kaveze sa 10 pilia, tada je kavez pokusna jedinica, a pojedini pili jedinica uzorka.

14.2 Ponavljanja i pokusna greka


Kada se u pokusu tretmani primjenjuju vie puta, kae se da su ponovljeni. Drugim rijeima tretman se
primjenjuje na vie pokusnih jedinca. Ponavljanja u pokusu u prvom redu omoguuju procjenu pokusne
greke. Vie ponavljanja poveava preciznost pokusa jer se time smanjuju standardne greke tretmana.
Pokusna greka (engl. experimental error) je mjera neprotumaene varijabilnosti koja postoji izmeu
opaanja na pokusnim jedinicama kada bi one bile tretirane jednako, odnosno kad nema utjecaja
tretmana. U jednostrukoj klasifikaciji analize varijance, pokusnu greku oznaavali smo kao MSOST, tj.
sredina sume kvadrata za ostatak, sredina sume kvadrata izmeu pokusnih jedinica, ili sredina sume
kvadrata unutar tretmana. Vrijednost MSOST je bila jednaka s2, procijeni varijance populacije. U
sloenijim planovima pokusnu greku moemo oznaiti i sa MSE , tj, MSE je sredina sume kvadrata za
greku, odnosno pokusna (eksperimentalna) greka.
Pogledajmo nekoliko primjera da bismo bolje razumjeli do sada definirane pojmove.
14150

Primjer 1. Neka je cilj pokusa provjeriti nekoliko krmiva za mlijene krave. Krava je ovdje definirana
kao pokusna jedinica. Da bismo mogli mjeriti varijabilnost jedinica tretiranih jednako (pokusnu greku)
potrebno je imati vie krava u pokusu, odnosno potrebno je imati vie ponavljanja. Ovdje se
varijabilnost javlja zbog razliitih tretmana ali i zbog razlika izmeu samih krava. Varijabilnost koja se
javlja zbog razlike u kravama (pokusnim jedincima) je pokusna greka.
Primjer 2. Neka je cilj pokusa testirati tri krmiva za tovnu junad. Drano je po deset junadi u pet
boksova. Junad u jednom boksu je hranjena skupno. Ovdje je dakle boks pokusna jedinica, a
ponavljanja pokusa su vie boksova po tretmanu. Pokusna jedinica je boks ak i u sluaju da su
ivotinje mjerene pojedinano. Pokusna greka je ovdje mjera varijabilnosti koja se javlja izmeu
boksova a ne izmeu jedinki. Ako je junad mjerena pojedinano tada je june jedinica uzorka.
Procjena pokusne greke je potrebna za provjeru znaajnosti razlika pojedinih utjecaja i procjenu
intervala povjerenja srednjih vrijednosti. Jasno da elimo u procijeni prosjeka to manji interval
povjerenja. U provjeri znaajnosti razlika aritmetikih prosjeka grupa elimo otkriti razlike ukoliko te
razlike zaista postoje u populaciji. Otkrivanje razlike izmeu tretmana ukoliko takve razlike zaista
postoje zove se snaga provjere.
Duljina intervala povjerenja i snaga testa ovise o pouzdanosti, tonosti i koliini informacija. to vie
ima informacija poveava se snaga provjere i smanjuje interval povjerenja. Koliina informacija (I) se
ovdje moe definirati kao:
n
I= 2
s
Gdje je je n broj opaanja po grupi, a s2 je procjena pokusne greke. Kako se broj ponavljanja poveava,
procjene srednjih vrijednosti postaju preciznije (tj, imaju krai interval povjerenja) i poveava se snaga
provjere. Takoer se koliina informacija poveava ako se pokusna greka smanjuje.
Dakle, da se dobije krai interval povjerenja ili vea snaga provjere moramo ili smanjiti pokusnu greku
ili poveati veliinu uzorka. Poto je poveanje uzorka vezano sa veim trokovima pokusa, od
primarne je vanosti smanjiti pokusnu greku. Pokusna greka se moe smanjiti na dva naina:
1. Imati pokusni materijal sa to manjom varijabilnosti meu pokusnim jedinicama
2. Poboljati provedbu pokusa dajui sline uvjete pokusnim jedinicama,
3. izabrati odgovarajui statistiki plan.
Na tonu procjenu pokusne greke utjee sluajnost izbora pokusnog materijala i sluajnost primjene
tretmana na pokusne jedinice. Svaki tretman mora imati jednaku ansu sa e biti primijenjen na bilo
koju pokusnu jedinicu. Ako su tretmani primijenjeni na pokusnu jedinicu na nesluajan i selektivan
nain, esto imaju utjecaja na procjenu pokusne greke. Posebno je to oito na poljskim pokusima. Blie
parcele e biti slinije nego one udaljenije.
Varijabilnost pokusne greke dolazi iz dva glavna izvora. Prvo, varijabilnost izmeu pokusnih jedinica
koju se ne moe objasniti. Drugo, postoji varijabilnost zbog pomanjkanja uniformnosti u provedbi
pokusa. Na primjer, u hranidbenom pokusa sa mievima kao pokusnom materijalu, jedinke e imati
razliitu genetsku konstituciju (osim ako su uzgojene u visokom srodstvu) - to je varijabilnost pokusnog
materijala. Ako su smjeteni u kaveze sa razliitim svjetlom, temperaturom i sl., to predstavlja razlike u
provedbi pokusa.
U nekim pokusima je esto neprikladno mjeriti cijelu pokusnu jedinicu, nego se izabiru uzorci iz
pokusne jedinice. Npr., pretpostavimo pokus u kojem se mjeri razina proteina u biljkama na panjaku.
Nee se mjeriti protein na cijelim parcelama nego e se izvui uzorci i mjeriti protein u uzorcima. Dakle,
pokusna jedinica (parcela) e se mjeriti na uzorcima. Obino je varijabilnost izmeu pokusnih jedinica
14151

vea nego izmeu uzoraka sa iste parcele. U tom sluaju nije potrebno izabirati vei broj uzoraka po
parceli.Ponavljanja u vremenu i prostoru
U mnogim poljskim pokusima, pokus se ponavlja iz godine u godinu, pa je vano znati i utjecaj godine.
Takoer, da bi se procijenio utjecaj tretmana u razliitim okolinim uvjetima, pokus se moe postaviti
na nekoliko lokacija. Ponavljanje pokusa u vremenu (godine) i prostoru (lokacije) mogu se smatrati
ponavljanjima. Svrha toga je da se zakljuci proire na veu populaciju, odnosno na razliite uvjete. Isti
princip se esto slijedi i u laboratorijskim pokusima, naime cijeli pokus se ponavlja vie puta, ak sa
razliitim ljudima, da se utvrdi da li se rezultati pokusa mogu primijeniti pod razliitim uvjetima.
Konano, mogue je imati ponavljanja tako da se pokusne jedinice grupiraju prema jo nekom
oekivanom izvoru varijabilnosti, neovisno od utjecaja tretmana. Ako se skup tretmana primjeni na
pokusnu jedinicu u svakoj takvoj grupi, razlike izmeu tretmana e se lake odrediti nego da se pokusni
materijal nije grupirao. Pokusna greka e se smanjiti jer je dio varijabilnosti protumaen i utjecajem
grupa. Na primjer tretmani se primjenjuju na pokusni materijal na vie farmi. Uz tretmane i farme su
protumaeni izvor varijabilnosti.
Potreban broj ponavljanja u pokusu ovisi o varijabilnosti uzorka, eljenoj razlici izmeu prosjeka
tretmana, odnosno preciznosti pokusa, broju tretmana i razini vjerojatnosti sa kojom elimo biti sigurni
da nismo pogrijeili u zakljuivanju. Za svaki pokus je vano pronai optimalan broj ponavljanja. Nema
smisla imati 10 ponavljanja ako se razlika moe utvrditi i sa 4 ponavljanja. Broj ponavljanja ovisi i o
homogenosti (ili heterogenosti) pokusnog materijala. Na primjer, razliite biljne kulture pokazuju
razliitu varijabilnost na istoj lokaciji.
Broj potrebnih ponavljanja u pokusnom planu se moe izraunati iz izraza slinom izrazu za broj
ponavljanja u provjeri za dvije grupe. Broj ponavljanja r je:
(z / 2 + z ) 2
r
2
2
Gdje su:
z/2 = vrijednost standardne normalne varijable odreen sa /2 vjerojatnosti tipa I greke
z = vrijednost standardne normalne varijable odreen sa vjerojatnosti tipa II greke
= eljena razlika koju elimo utvrditi
2 = pokusna greka, odnosno varijanca pokusnih jedinca kad ne bi bilo utjecaja tretmana.
Broj ponavljanja u pokusu je obino ogranien ekonomskim razlozima. Vjerojatno da se preciznost
pokusa nee popravljati ako nema dovoljno novane potpore za istraivanje sa veim brojem
ponavljanja. Praktini i ekonomski razlozi determiniraju broj ponavljanja i eljenu razliku izmeu
tretmana, razliku koja ima i praktini znaaj. Uz veliki broj ponavljanja velika je vjerojatnost da e se
razlika pokazati znaajnom. Pitanje je da li takva razlika ima i ekonomsko znaenje, a takoer nije li
takav pokus preskup. Na primjer, dvije smjese nikad nisu 100% identine. Jedna je bolja od druge.
Pitanje je da li je ta razlika na uzorku ne samo statistiki znaajna, ve i da li razlika ima praktini ili
ekonomski znaaj. Jedan gram bolji prirast kod goveda ne znai praktino nita, iako bi se moda uz
dovoljno veliki uzorak i takva razlika mogla pokazati znaajna.

14.3 Preciznost pokusnih planova


Na preciznost pokusa utjee izbor i homogenost pokusnog materijala, izbor i razine tretmana, kontrola
pokusne greke i broj ponavljanja. O kontroli pokusne greke i broju ponavljanja ve smo neto rekli.
Pogledajmo i ostale imbenike koji utjeu na preciznost pokusa. Izbor tretmana i razine tretmana imaju
14152

utjecaj na preciznost. U pravilu to istraiva vie zna o tretmanima to je bolja statistika metoda koju
statistiar moe primijeniti. Broj tretmana ima utjecaja na preciznost pokusa, odnosno na broj
ponavljanja po tretmanu koji treba imati. Ako se povea broj tretmana, a broj ponavljanja ostane isti,
veliina pokusa se poveala, a takoer i stupnjevi slobode za procjenu pokusne greke. ak se moe i
broj ponavljanja smanjiti ukoliko je preciznost zadovoljavajua. S druge strane, ako se veliina pokusa
(ukupan broj pokusnih jedinica) dri konstantom, onda vie tretmana znai manje ponavljanja i manji
stupanj slobode, te loiju procjenu varijance.
Podsjetimo se da smo koliinu informacija (I) definirali kao:
n
I=
MS E
Procjena informacije zavisi o tome kako dobro pokusna greka (MSE) procjenjuje varijancu, a to je
odreeno stupnjem slobode. Stupanj slobode zavisi o broju ponavljanja, broju tretmana i pokusnom
planu. Za usporedbu dva pokusna plana, potrebno je izraunati njihove koliine informacija. Na temelju
njih se moe izraunati relativnu efikasnost nekog pokusnog plana 1, prema nekom pokusnom planu 2.
Relativna efikasnost (RE) je:
n1 +1

RE =

( n1 + 3) s12
n 2 +1
( n 2 + 3)s 22

(n 1 + 1)(n 2 + 3)s 22
(n 2 + 1)(n 1 + 3)s12

gdje su s21 i s22 prosjeci (sredine) sume kvadrata za greke i n1 i n2 stupnjevi slobode, za plan 1 i 2.
Vanost prave tehnike pokusa i precizno provoenje plana za preciznost cijelog pokusa je samo po sebi
razumljivo. Ni jedna statistika analiza ne moe popraviti ono to je proputeno tokom provoenja
pokusa. U pravilu, varijabilnost zbog loeg provoenja pokusa nije sluajna varijabilnost i nije podlona
pravilima vjerojatnosti na kojima se temelji statistiko zakljuivanje. Loa tehnika provoenja pokusa, a
tu ukljuuje i neprecizno mjerenje moe davati rezultate koji su stalno pristrani. To dodue nema
utjecaja na pokusnu greku, ali ima utjecaja na procjenu srednjih vrijednosti. Spomenimo na kraju i da
se u mnogim pokusima preciznost moe poveati mjerenjem jo neke varijable na pokusnoj jedinici i
upotrebom analize kovarijance.

14153

15 Potpuno sluajni pokusni plan


Potpuno sluajni plan je takav pokusni plan u kojem se tretmani dodjeljuju sluajno na pokusne jedinice.
Pokusni plan, odnosno nain uzimanja uzoraka je potpuno sluajan. Pokusne jedinice izabrane su
sluajno iz populacije. Za izraunavanje suma kvadrata i provjera hipoteza koristi se nain za
jednostruku klasifikaciju koji smo ve objasnili u prethodnim poglavljima. Ponovimo da se analiza
jednostruke klasifikacije takoer primjenjuje kad tretmani jednostavno znai i nain klasificiranja.
Podsjetimo se da su tretmani razliiti oblici nezavisne kategorike varijable koja se esto zove faktor.
Zato je i potpuno sluajni plan jednofaktorska analiza varijance.
U potpuno sluajnom planu samo je varijabilnost zbog tretmana protumaena. Pokusna greka
ukljuuje svu varijabilnost osim one protumaene tretmanima, pa je
SSE = SSOST.
Ovaj pokusni plan se koristi kada su pokusne jedinice homogene. Npr. u biljnim i ivotinjskim pokusima
kada su okolini uvjeti slini za sve jedinice u pokusu. Pretpostavimo da elimo provjeriti dva nova
tretmana u odnosu na standardno tretiranje. Dakle imat emo tri grupe (a = 3): kontrolna grupa, grupa
sa tretmanom 1 i grupa sa tretmanom 2. Neka nam broj ponavljanja unutar pojedine grupe bude n = 5.
To znai da ukupno trebamo (a n) = 15 ivotinja. Koja e ivotinja biti dodijeljena pojedinom tretmanu,
odreuje se potpuno sluajno. esto je nemogue nepristrano odabrati ivotinje za pojedeni tretman
ukoliko ivotinje vidimo. Naime, moe se dogoditi da podsvjesno bolje ivotinje dodijelimo tretmanu za
kojeg u startu mislimo da je bolji. Da se to izbjegne dobro je ivotinjama pridruiti brojeve, npr. 1 do 15
i tada sluajno odabirati brojeve na koje e se primijeniti pojedini tretman. A zatim pronai ivotinje
koje odgovaraju tom broju. Pogledajmo shemu potpuno sluajnog plana sa tri tretmana i 15 ivotinja.
Oznaimo tretmane sa T1, T2 i T3:
Broj
Tretman

1
T2

2 3
4
5
T1 T3 T2 T3

6 7
8
T1 T3 T2

9
T1

10
T2

11
T3

12
T1

13 14
T3 T2

15
T1

Radi preglednosti mogu se ivotinje i njihova mjerenja napisati po tretmanima:


Tretmani
T1
Broj Mjerenje
2
y11
6
y12
9
y13
12
y14
15
y15

T2
Broj
1
4
8
10
14

Mjerenje
y21
y22
y23
y24
y25

T3
Broj
3
5
7
11
13

Mjerenje
y31
y32
y33
y34
y35

Matematiki model potpuno sluajnog plana je model jednostruke klasifikacije analize varijance je:
yij = + i + ij i = 1,.....,a

j = 1,...,n

Gdje su:
yij = Opaanje jedinice j u tretmanu i
= ukupni prosjek
15154

i = fiksni utjecaji tretmana i


ij = greka modela sa N(0, 2)
Osnovno pitanje na koje elimo odgovoriti je da li su prosjeci populacija jednaki ili razliiti. Hipoteze
koje postavljamo za takav model su nul i alternativna hipoteza:
H0: 1 = 2 =... = a , nema utjecaja grupa ili tretmana
H1: i i za barem jedan par (i,i), utjecaj grupe ili tretmana postoji.
Prosjeci populacija procjenjuju se aritmetikim sredinama grupa. Postupak raunanja i provjere je isti
kao to je pokazano u poglavlju 12. Dakle treba izraunati i napisati ANOVA tablicu:
ANOVA tablica
Izvor
SS
Grupa
SSTRT
Ostatak
SSOST
Ukupno
SSUKUP

St.sl.
a-1
N-a
N-1

MS=SS/St.sl.
MSTRT = SSTRT/(a-1)
MSOST = SSOST/(N-a)

F
F=MSTRT/MSOST

Fkritino
F,a-1,(N-a)

Provjera za tretmane provodi se F- provjerom:


MS TRT
F=
MS OST
Odbacujemo H0 ako je F > F,(a-1),(N-a), tj. ako je izraunata statistika F iz uzorka vea od kritine
vrijednosti da za razinu znaajnosti.

15155

16 Blokovi u analizi varijance


Potpuno sluajni plan je dovoljan kada su samo tretmani poznati kao izvor varijabilnosti. U mnogim
situacijama unaprijed je poznato da e neke pokusne jedinice, iako tretirane jednako, ponaati razliito.
Npr. u poljskim pokusima, blie parcele e biti slinije nego one udaljenije. Tee ivotinje e imati
drugaiji prirast nego lake. Mjerenje na isti dan e biti slinija nego ona u razliitim danima. U tom
sluaju pokusni plan mora biti takav da pokusne jedinice budu klasificirane prema i tim poznatim
izvorima varijabilnosti. Na taj nain smanjuje se pokusna greka.
Primjer: Pretpostavimo da je glavni cilj pokusa usporediti vrijednosti nekoliko krmiva za svinje u nekom
podruju. Pretpostavimo da u tom podruju farmeri dre svinje nekoliko pasmina, da neki koriste
hranilice, a neki hrane iz ruke. Ako se uzme samo jedna pasmina i samo jedan nain hranjenja, uzorak
se ne moe smatrati reprezentativnim, osim ako se zna da pasmina i nain hranjenja nemaju utjecaja na
razlike koje e se izmjeriti zbor razliitog krmiva. Ako nema nikakve informacije o utjecaju pasmine i
naina hranjenja, ne bi bilo korektno donijeti zakljuke o svim pasminama i nainu hranjenja na temelju
podataka samo jedne pasmine i naina hranjenja. Za donijeti takav zakljuak potrebno je proiriti pokus,
odnosno imati uzorak od svim pasmina i naina hranjenja.

16.1 Sluajni blok plan (potpuni)


Sluajni blok plan se upotrebljava kada se pokusne jedinice uz tretmane mogu grupirati i prema drugom
poznatim izvoru varijabilnosti u blokove. Blokovi su grupe koje slue da se protumai jo jedan dio
varijabilnosti, ali provjera njihovih razlika obino nije od primarnog interesa. Svakoj pokusnoj jedinici u
bloku dodjeljuje se pojedini tretman, tako da obino broj jedinica u bloku odgovara broju tretmana. Cilj
grupiranja u blokove je da su jedinice unutar blokova sline tako da je varijabilnost izmeu njih
uglavnom zbog razliitih tretmana. Dakle pokusne jedinice unutar blokova trebaju biti to slinije.
Karakteristike sluajnog blok plana su:
1. Pokusne jedinice su podijeljene u a tretmana i b blokova. Svaki tretman se javlja u svakom bloku i to
samo jedanput,
2. Nain kako se tretmani primjenjuju na ivotinje u pojedinom bloku je potpuno sluajan.
Sluajni blok plan je balansirani plan, tj. svaka pokusna jedinica je klasificirana prema bloku i tretmanu
i ima jednaki broj blokova za svaki tretman. Ovaj plan moemo zvati i dvostruka klasifikacija jer ima
dva naina klasificiranja pokusnih jedinica: prema bloku i tretmanu.
U pokusima sa ivotinjama pojedine ivotinje se klasificiraju u blokove na osnovi npr. poetne teine,
kondicije, pasmine, spolu, stadij laktacije, legla, itd. Tretmani se primjenjuju u pojedinom bloku
sluajno. Vano je da za vrijeme pokusa sve jedinice u bloku imaju iste uvjete u svemu osim u
tretmanima. Svaka promjena okolia mora biti provedena u cijelom bloku. No treba napomenuti da blok
ne mora znaiti uvijek i fiziko grupiranje.
Primjer: Pretpostavimo da je cilj pokusa bio utvrditi utjecaj primjene stimulansa rasta na prosjeni
dnevni prirast u tovu junadi. Tretmani su definirani kao: (T1). primjena stimulansa odmah na poetku
tova, (T2). Primjena stimulansa nakon 1 mjeseca i (T3). kontrola, tj. bez primjene stimulansa. Prije
pokusa junad je izvagana i klasificirana u etiri bloka prema poetnoj teini. U svakom su bloku dakle
tri ivotinje na koje su sluajno dodijeljeni tretmani. Ukupno je bilo 12 ivotinja u pokusu.
16156

Slijedea tablica pokazuje brojeve ivotinja po pojedinom bloku:


Blok Broj ivotinje
I
1,2,3
II
4,5,6,
III
7,8,9
IV
10,11,12
U svakom bloku sluajno se odabiru ivotinje na koje e biti primijenjen pojedini tretman.
Na primjer, shema moe biti ovakva:

Br. ivotinje
(Tretman)

Blok
I
Br. 1
(T3)
Br. 2
(T1)
Br. 3
(T2)

II
br. 4
(T1)
br. 5
(T2)
br. 6
(T3)

III
br. 7
(T3)
br. 8
(T1)
br. 9
(T2)

IV
br. 10
(T3)
br. 11
(T2)
br. 12
(T1)

Kada provedemo pokus i imamo gotove rezultate obino ih radi preglednosti ili lakeg raunanja
napiemo u slijedeu tablicu:
TRT
T1
T2
T3

I
y11
y21
y31

Blokovi
II
III
y12 y13
y22 y23
y32 y32

IV
y14
y24
y34

Ili openito za a tretmana i b blokova:


Blokovi
TRT I
T1
y11
T2
y21

II ......... b
y12 .... y1b
y22 .... y2b

..........................

Ta

y31

y32

....

yab

Ovdje y11 , y12 ,.....,. y34, .... ili openito yij predstavljaju pojedina mjerenja tretmana i i bloka j.
Vratimo se numerikom primjeru. Nakon provedbe pokusa izmjereni su slijedei prirasti:
Blokovi
TRT
T1
T2
T3

I
y11 = 826
y21 = 827
y31 = 753

II
y12 = 865
y22 = 872
y32 = 804

III
y13 = 795
y23 = 721
y32 = 737

IV
y14 = 850
y24 = 860
y34 = 822

Statistiki model je slijedei:


yij = + i + j + ij

i = 1,.....,a

j = 1,...,n
16157

Gdje su:
yij = Opaanje pokusne jedinice za tretman i u bloku j
, = ukupna srednja vrijednost
i = fiksni utjecaj tretmana i
j = fiksni utjecaj bloka j
ij - sluajni neprotumaeni utjecaj N(0, 2) = interakcija blok x tretman

16.1.1 Ralanjenje ukupne sume kvadrata


Kod sluajnog blok plana imamo jo jednu klasifikaciju, onu zbog blokova, tako se ukupna suma
kvadrata moe podijeliti na sumu kvadrata za blokove, sumu kvadrata za tretmane i sumu kvadrata za
ostatak:
SSUKUP = SSTRT + SSBLK+ SSOST
Odgovarajui stupnjevi slobode su:
(na-1) = (a-1) + (b-1) + (a-1)(b-1)
esto se (a-1)(b-1) pie i kao (ab-a-b+1)
U odnosu na jednostruku klasifikaciju, kod dvostruke klasifikacije se suma kvadrata za ostatak smanjila
za sumu kvadrata za blokove:
Dvostruka klasifikacija:
SS'OST = SSBLK + SSOST
Gdje je SSOST = suma kvadrata za ostatak kod dvostruke klasifikacije, odnosno to je pokusna greka kod
sluajnog blok plana, a SS'OST je suma kvadrata za ostatak kod jednostruke klasifikacije. Rezultat
redukcije sume kvadrata ostatka je vea preciznost sluajnog blok plana u utvrivanju eventualnih
razlika tretmana.
Matematiki sume kvadrata izgledaju:
SS UKUP =
( y ij y..) 2
i
j
SS TRT = i j ( y i . y..) 2 = bi( y i . y..) 2
SS BLK = i j ( y. j y..) 2 = a i( y. j y..) 2
SS OST = i j ( y ij y i . y. j + y..) 2
Sume kvadrata se mogu izraunati skraenim nainom:
1. Ukupna suma = i j yij = y..
2. Korekcijski faktor za srednju vrijednost:
C = i j (yij)2 / (ab) = (y..)2 / (ab)
3. SSUKUP = i j yij2 - C
4. SSTRT = i (yi.)2/ b - C
5. SSBLK = j (y.j)2/ a - C
6. SSOST = SSUKUP - SSTRT - SSBLK
16158

Dijeljenjem suma kvadrata sa odgovarajuim stupnjevima slobode dobiju se sredine suma kvadrata.
Sredina sume kvadrata za blokove: MSBLK = SSBLK/ (b-1),
sredina sume kvadrata za tretmane: MSTRT = SSTRT/ (a-1),
sredina sume kvadrata za ostatak: MSOST = SSOST/[(a-1)(b-1)]

16.1.2 Postavljanje hipoteza i F-provjera


Hipoteze koje nas zanimaju su hipoteze o razlici prosjeka tretmana u populaciji. Postavljajmo nul
hipotezu H0 i alternativnu hipotezu H1.
H0: 1 = 2 =... = a , nema utjecaja tretmana
H1: i i za barem jedan par (i,i), razlika izmeu tretmana postoji
Za provjeru hipoteza koristi se F statistika koja, ukoliko vrijedi H0, ima F raspodjelu sa stupnjevima
slobode (a-1) i (a-1)(b-1):
(SS TRT ) (a 1)
F=
(SS OST ) ( b 1)(a 1)
Gdje su:
SS TRT
= MS TRT = sredina sume kvadrata za tretmane,
a 1
SS OST
= MS OST = sredina sume kvadrata ostatka.
Na
Sredina sume kvadrata ostatka je ovdje i pokusna greka koja procjenjuje varijancu populacije.
Dakle,
MS TRT
F=
MS OST
Koristei vjerojatnost, odnosno razinu znaajnosti u donoenju zakljuka, kaemo da za razinu
znaajnosti odbacujemo Ho ako F > F,(a-1),(a-1)(b-1), tj. ako je izraunata statistika F iz uzorka vea od
kritine vrijednosti. Provjera za blokove obino nije od primarnog interesa, ali se moe raditi analogno
kao i za tretmane.
Izraun se moe ukratko prikazati u anova tablici:
Izvor
Blokovi
Tretmani
Pokus. gr
Ukupno

SS
SSBLK
SSTRT
SSOST
SSUKUP

St.sl.
b-1
a-1
(a-1)(b-1)
ab-1

MS=SS/St.sl.
MSBLK
MSTRT
MSOST

F
F=MSTRT/MSOST
F=MSTRT/MSOST

Fkritino
F,b-1,(a-1)(b-1)
F,a-1,(a-1)(b-1)

Primjer: Izraunajmo primjer sa analizom stimulansa rasta. Podsjetimo se da su na kraju pokusa


izmjereni slijedei prirasti po blokovima i tretmanima:
TRT
T1

I
826

Blokovi
II
III
865 795

IV
850
16159

T2
T3

827
753

872
804

721
737

860
822

Radi lakeg praenja napravimo tablicu sa prosjecima i sumama po tretmanima i blokovima:

T1
T2
T3

blokovi
Prosjek
blokovi

Blokovi
I
II

III

IV

tretmani

826
827
753
2406

865
872
804
2541

795
721
737
2253

850
860
822
2532

3336
3280
3116
9732

802

847

751

844

Prosjek
tretmana
834
820
779
811

Koristimo skraeni nain raunanja suma kvadrata:


1. Ukupna suma = i j yij = y.. = (826 + ....... + 822) = 9732
2. Korekcijski faktor za srednju vrijednost:
C = i j (yij)2 / (ab) = (y..)2 / (ab) = (9732)2/15 = 6314122
3. SSUKUP = i j yij2 - C = (8262 + ....... + 8222) - 6314122 = 28406
4. SSTRT = i (yi.)2/ b - C = (3336)2 /4 + (3280)2 /4 +(3116)2 /4 - 6314122 = 6536
5. SSBLK = j (y.j)2/ a - C = (2406)2 /3 + (2541)2 /3 +(2253)2 /3 (2532)2 /3 - 6314122 = 18198
6. SSOST = SSUKUP - SSTRT - SSBLK = 28406 - 6536 - 18198 = 3672
Hipoteze su:
H0: 1 = 2 =... = a , nema utjecaja tretmana
H1: i i za barem jedan par (i,i), razlika izmeu tretmana postoji
ANOVA tablica
Izvor
SS
Blokovi 18198
Tretmani 6536
Ostatak
3672
Ukupno 28406

df
3
2
6
11

MS
6066
3268
612

Fizraunati
9.91
5.34

Fkritino
4.73
5.14

P-vrijednost
0.0097
0.0465

Izraunata F statistika je:


MS TRT 3268
=
= 5.34
F=
MS OST
612
Kritina vrijednost za tretmane je F0.05,2,6 = 5.14. Kompjutorski programi daju i P vrijednost. Pvrijednost za tretmane je 0.0465. Podsjetimo se da je to vjerojatnost greke tipa I.

16.2 SAS program za sluajni blok plan


Za prikaz SAS programa za sluajni blok plan izraunajmo primjer sa analizom stimulansa rasta.
Podsjetimo se da su na kraju pokusa izmjereni slijedei prirasti po blokovima i tretmanima:
16160

TRT
T1
T2
T3

I
826
827
753

Blokovi
II
III
865 795
872 721
804 737

IV
850
860
822

SAS program:
options ps=55 ls=75 pageno=1;
DATA prirast;
INPUT tretman blok $ prirast;
cards;
1 I 826
1 II 865
1 III 795

1 IV 850
2 I 827
2 II 872
2 III 721
2 IV 860
3 I 753
3 II 804
3 III 737
3 IV 822
;
PROC GLM;
CLASS blok tretman;
MODEL prirast = blok tretman/ ;
LSMEANS tretman / P TDIFF STDERR ADJUST=TUKEY ALPHA=0.05;
RUN;
QUIT;

Objanjenje: Koristimo proceduru GLM. Naredba CLASS definira klasifikacijsku varijablu. Naredba
MODEL Prirast = tretman znai da je zavisna varijabla prirast a nezavisna tretman. LSMEANS
rauna prosjeke grupa korigirane na utjecaje u modelu. Oznake iza kose crte trae da se izraunaju
standardne greke, i provjere razlike izmeu parova prosjeka grupa koristei Tukey provjeru sa razinom
znaajnosti = 0.05.
SAS rezultati:
General Linear Models Procedure
Dependent Variable: PRIRAST
Source
Model
Error
Corrected Total

Source
BLOK
TRETMAN

DF
5
6
11

Sum of
Squares
24734.0000
3672.0000
28406.0000

Mean
Square
4946.8000
612.0000

R-Square
0.870732

C.V.
3.050386

Root MSE
24.7386

DF
3
2

Type III SS
18198.0000
6536.0000

Mean Square
6066.0000
3268.0000

F Value
8.08

Pr > F
0.0122

PRIRAST Mean
811.000
F Value
9.91
5.34

Pr > F
0.0097
0.0465

13:03 Friday, November 10, 2000

16161

General Linear Models Procedure


Least Squares Means
Adjustment for multiple comparisons: Tukey
TRETMAN

1
2
3

PRIRAST
LSMEAN

Std Err
LSMEAN

Pr > |T|
H0:LSMEAN=0

834.000000
820.000000
779.000000

12.369317
12.369317
12.369317

0.0001
0.0001
0.0001

LSMEAN
Number
1
2
3

T for H0: LSMEAN(i)=LSMEAN(j) / Pr > |T|


i/j
1
2
3

-0.80033
0.7165
-3.14414
0.0456

2
0.800327
0.7165
.
-2.34381
0.1246

3
3.144141
0.0456
2.343814
0.1246
.

Objanjenje:
Prva tablica je ANOVA tablica za zavisnu varijablu (Dependent Varijable) prirast. Izvori
varijabilnosti (Source) su Model, ostatak (Error) i ukupno (Corrected Total). U tablici su prikazani
stupnjevi slobode (DF), sume kvadrata (Sum of Squares), sredina suma kvadrata (Mean Square),
izraunati F (F-value) i P-vrijednost (Pr > F). U slijedeoj tablici protumaeni izvori varijabilnosti
ralanjeni na Blok i TRETMAN. Vidljivo je da za tretmane izraunati F i P-vrijednost su 5.34 i
0.0465. Dakle moemo rei da je utjecaj tretmana bio znaajan u uzorcima. Na kraju ispisa dne su
korigirane srednje vrijednosti (LSMEAN) sa standardnim grekama(Std Err), a zatim i Tukey provjera
izmeu svih parova prosjeka grupa. Dana je razlika sa pripadajuom P-vrijednosti. Tako u koloni 3 i
redu 1 brojevi 3.144141 i 0.0456 znae razliku i P-vrijednost izmeu tretmana 1 i 3.

Vjebe:
16.1. Istraivan je utjecaj etiri tretmana na stupanj ovulacije kod svinja. Tretmani su PG600, PMSG,
FSH i saline. Izabrano 20 svinja koje su podijeljen u 5 boksova. U svakom boksu su dakle 4 ivotinje,
na koje su sluajno primijenjeni tretmani.(sluajni blok plan).

Tretman
FSH
PG600
PMSG
Saline

Boks
I
13
14
17
13

II
16
14
18
11

III
16
17
19
14

IV
14
17
19
10

V
14
15
16
13

Da li se moe rei da postoje razlike izmeu tretmana. Postavite nul i alternativnu hipotezu. Napravite F
provjeru.

16162

17 Change over pokusni planovi


Change over pokusi su pokusi u kojima se na istu ivotinju primjenjuje dva ili vie tretmana u razliitim
periodima. Na neki nain ovdje je svaka ivotinja blok. Obino se ivotinja naziva i subjekt Sa dva
tretmana plan je jednostavan. ivotinje s podijele na dvije grupe sluajnim izborom. Na prvu grupu se
primjeni prvi tretman, a na drugu grupu drugi tretman. Nakon nekog vremena tretiranja tretmani se
zamjene. Na prvu grupu se primjeni drugi tretman, a na drugu grupu se primjeni prvi tretman. Prije
izmjene tretmana dobro je ostaviti ivotinje u odmoru odnosno ne uzimati u obzir mjerenja u odmoru da
se izbjegne produeno djelovanje tretmana.

1.1 Jednostavni change over plan


Pretpostavimo pokus u kojem se provjeravaju razlike izmeu tretmana, a svi tretmani se primjenjuju na
svaku ivotinju (subjekt). Imat emo a mjerenja na svakom od n subjekata. Mjerenja a odgovaraju
tretmanima. Redoslijed primjene tretmana je sluajan. Pokusna jedinica ovdje nije subjekt (ivotinja)
nego jedno mjerenje na ivotinji. U neku ruku moemo ovdje ivotinje smatrati blokovima, pa je model
slian onom za sluajni blok plan samo to su ivotinje sluajni uzorak.
:
i = 1,.....,a
j = 1,...,n
yij = + i + SUBj + ij
Gdje su:
yij = Opaanje pokusne jedinice j u tretmanu i
= ukupni prosjek
i = fiksni parametri tretmana i
SUBj - utjecaj ivotinje (subjekta) j sluajni N(0, 2g)
ij - sluajni N(0, 2)
Shema pokusnog plana je slijedea:
Tretman
T1
T2

Subjekt
1
2 ......... n
y11 y12 .... y1n
y21 y22 .... y2n

..........................

Ta

y31

y32

....

yan

Ukupna suma kvadrata dijeli se na sume kvadrata izmeu i sume kvadrata unutar subjekta:
SSUKUP = SSSUB + SSUNUTAR SUBJEKTA
Suma kvadrata unutar subjekta dijeli se na sume kvadrata tretmana i sume kvadrata za ostatak:
SSUNUTAR SUBJEKTA = + SSTRT + SSOST
Tako se ukupna suma kvadrata dijeli na:
SSUKUP = SSSUB + SSTRT + SSOST
Sa odgovarajuim stupnjevima slobode:
17163

(na-1) = (n-1) + (a-1) + (n-1)(a-1)


Matematiki sume kvadrata su:
SS UKUP =
( y ij y..) 2
i
j
SS SUB =
( y. j y..) 2 = a i( y. j y..) 2
i
j
SS TRT =
( y i . y..) 2 = in i ( y i . y..) 2
i
j
SS UNUTAR SUBJEKTA = i j ( y ij y. j ) 2
SS OST = i j ( y ij y i . y. ji + y..) 2
Dijeljenjem suma kvadrata sa odgovarajuim stupnjevima slobode dobiju se sredine suma kvadrata.
Sredina sume kvadrata za subjekte: MSSUB = SSSUB/ (n-1),
Sredina sume kvadrata unutar subjekte: MSUNUTAR SUBJEKTA = SSUNUTAR SUBJEKTA / n(a-1),
sredina sume kvadrata za tretmane: MSTRT = SSTRT/ (a-1),
sredina sume kvadrata za pokusnu greku: MSOST = SSOST/[(a-1)(n-1)]
Pitanje je zato primijeniti model sa ponavljanjima a ne potpuno sluajni plan? Ako je varijabilnost
izmeu subjekata velika, MSOST e biti manji nego kod sluajnog plana, pa e biti vjerojatnije utvrditi
utjecaj tretmana.
ANOVA tablica:
Izvor varijabilnosti
Izmeu subjekata
Unutar subjekata
Tretmani
Ostatak

SS
SSSUB
SSUNUTAR
SSTRT
SSOST

St.sl.
n-1
n(a-1)
a-1
(n-1)(a-1)

MS=SS/St.sl.
F
MSSUB
MSUNUTAR
MSTRT
F=MSTRT/MSOST
MSOST

Fkritino
F,a-1,(n-1)(a-1)

Nul i alternativna hipoteza su:


H0: 1 = 2 =... = a , nema utjecaja grupa
H1: i i za barem jedan par (i,i), razlika izmeu grupa postoji
F statistika, ukoliko vrijedi H0, ima F raspodjelu sa stupnjevima slobode (a-1) i (a-1)(n-1):
F=

MS TRT
MS OST

Koristei vjerojatnost, odnosno razinu znaajnosti u donoenju zakljuka, kaemo da za razinu


znaajnosti odbacujemo Ho ako F > F,(a-1),(aa-1)(b-1), tj. ako je izraunata statistika F iz uzorka vea od
kritine vrijednosti.
Primjer: Zanimao nas je utjecaj dva tretmana na proizvodnju mlijeka kod krava. Odluili smo primijeniti
change-over plan, tj. na svaku kravu primijeniti obadva tretmana. Pokus je proveden u 3. i 4. mjesecu
laktacije. Redoslijed tretmana kod svake krave utvren je sluajno. Na kraju pokusa dobiveni su
slijedei podaci:

17164

Period
1
2
Period
1
2

Trt
2
1

Trt
1
2

Krava 1
31
27

Krava 2
22
21

Krava 4
54
45

Krava 3
50
49

Krava 5
43
38

Krava 6
40
41

Krava 9
28
20
Krava 7
33
34

Krava 8
18
20

Fkritino

P-vrijednost

Kao rjeenje prikazat emo samo ANOVA tablicu:


ANOVA tablica:
Izvor varijabilnosti
Izmeu subjekata
Unutar subjekata
Tretmani
Ostatak
Ukupno

SS
2142.7778
97.0000
43.5556
53.4444
2239.7778

St.sl.
8
9
1
8
17

MS=SS/St.sl.
267.8472
10.7778
43.5556
6.6806

F
6.52

5.32

0.0340

Nul i alternativna hipoteza su:


H0: 1 = 2 =... = a , nema utjecaja grupa
H1: i i za barem jedan par (i,i), razlika izmeu grupa postoji
F statistika, ukoliko vrijedi H0, ima F raspodjelu sa stupnjevima slobode 2 i 8:
F=

MS TRT 43.5556
=
= 6.52
MS OST
6.6806

Poto je izraunata F statistika = 6.52 vea od kritine vrijednosti F0.05,1,8 = 5.32, odbacujemo Ho i uz
razinu znaajnosti 0.05 zakljuujemo da je Tretman 1 bolji.
Panja: Zbog mogueg znaajnog utjecaja perioda laktacije, a takoer i mogueg produenog djelovanja
prvog tretiranja, potrebno je ispitati i te utjecaj, to ovdje radi prikaza jednostavnog modela nije
uinjeno.

17.2 SAS program za jednostavni change over plan


Rijeimo primjer istraivanja utjecaja dva tretmana na proizvodnju mlijeka kod krava koristei SAS
program.
SAS program:
DATA cross;
INPUT period tretman krava mlijeko;
DATALINES;
1 1 1 31
2 2 1 27
1 1 4 54
2 2 4 45
1 1 5 43

17165

22
11
22
12
21
12
21
12
21
12
21
12
21
;

5 38
9 28
9 20
2 22
2 21
3 50
3 49
6 40
6 41
7 33
7 34
8 18
8 20

PROC GLM;
CLASSES tretman krava;
MODEL mlijeko = tretman krava;
RANDOM krava ;
LSMEANS tretman/ ;
RUN;
QUIT;

Objanjenje programa: Koritena je procedura GLM, sa nezavisnim kategorikim varijablama


(CLASSES) tretman i krava. MODEL govori da je zavisna varijabla mlijeko a nezavisne tretman i
krava. Krava je definirana kao sluajni utjecaj (RANDOM). Naredna LSMEANS daje korigirane
srednje vrijednosti tretmana. Poto su samo dvije razine tretmana F-provjera sama po sebi daje razlike
tretmana i nje potrebna daljnja analiza u parovima. Napomena: Zbog sluajnog utjecaja u modelu
(krava) za pravilne procjene standardnih greki potrebno je koristiti proceduru MIXED.
SAS ispis:
The GLM Procedure
Dependent Variable: mlijeko
Source
Model
Error
Corrected Total
R-Square
0.976139
Source
tretman
krava

DF
9
8
17

Sum of
Squares
2186.333333
53.444444
2239.777778

Coeff Var
7.577229
DF
1
8

Mean Square
242.925926
6.680556

Root MSE
2.584677

Type III SS
43.555556
2142.777778

Mean Square
43.555556
267.847222

Type III Expected Mean Square


Var(Error) + Q(tretman)
Var(Error) + 2 Var(krava)
The GLM Procedure
Least Squares Means
tretman
1
2

mlijeko
LSMEAN
35.6666667
32.5555556

17166

Pr > F
<.0001

mlijeko Mean
34.11111

The GLM Procedure


Source
tretman
krava

F Value
36.36

F Value
6.52
40.09

Pr > F
0.0340
<.0001

Objanjenje ispisa: Prva tablica je ANOVA tablica za zavisnu varijablu (Dependent Varijable) mlijeko.
Izvori varijabilnosti (Source) su Model, ostatak (Error) i ukupno (Corrected Total). U tablici su
prikazani stupnjevi slobode (DF), sume kvadrata (Sum of Squares), sredina suma kvadrata (Mean
Square), izraunati F (F-value) i P-vrijednost (Pr > F). U slijedeoj tablici protumaeni izvori
varijabilnosti (MODEL ) su ralanjeni na tretman i krava. Vidljivo je da za tretmane izraunati F i Pvrijednost su 6.52 i 0.0340. Dakle moemo rei da je utjecaj tretmana bio znaajan u uzorcima. U
slijedeoj tablici su dani izrazi za oekivanja sredina suma kvadrata (Type III Expected Mean Square).
Na kraju ispisa dne su korigirane srednje vrijednosti (LSMEAN) za tretmane 1 i 2.

17.3 Latinski kvadrat


U latinskom kvadratu tretmani se primjenjuju na blokove na dva razliita naina, tj. u kolone i redove.
Svaka kolona i svaki red predstavljaju kompletni blok sa primjenjenim svim tretmanima. esto je jedan
od blokova utjecaj ivotinje, a drugi period, tj. na istu ivotinju se primjenjuju svi tretmani u razliitim
periodima. U tom smislu i latinski kvadrat je change over plan.
U latinskom kvadratu definirana su tri poznata izvora varijabilnosti: kolone, redovi i tretmani, odnosno
specifino: ivotinje, periodi i tretmani. Svako opaanje podlijee svakom izvoru varijabilnostisamo
jedanput. Neka je r broj tretmana. To je ujedno i broj kolona i redova. Tada je ukupan broj mjerenja
(opaanja) jednak r2.
Primjer: Neka je broj tretmana r = 4. Kolone i redove predstavljaju periode i ivotinje.
ivotinje
1
2
3
4
Periodi
1
T1 T2 T3 T4
2
T2 T3 T4 T1
3
T3 T4 T1 T2.
4
T4 T1 T2 T3
Ukoliko sa yij(k) oznaimo mjerenje u i - tom redu (periodu), j - toj koloni (ivotinji), sa primijenjenim k tim tretmanom tada je shema latinskog kvadrata:
Periodi
1
2
3
4

1
y11(1)
y21(2)
y31(3)
y41(4)

ivotinje
2
3
4
y12(2) y13(3) y14(4)
y22(3) y23(4) y24(1)
y32(4)..y33(1)..y34(2).
y42(1) y43(2) y44(3)

Statistiki model latinskog kvadrata je:


yij(k) = + REDi + KOLj + (k) + ij(k)

i,j,k = 1,...,r

Gdje su:
yij(k) = k-to opaanje za perioda i, ivotinje j i tretmana k
= srednja vrijednost korigirana na sve utjecaje
REDi = fiksni utjecaj reda i
KOLj = fiksni utjecaj kolone j
(k) = fiksni utjecaj tretmana k
ij(k) - ostatak sluajni N(0, 2)
17167

Ukupna varijabilnost se dijeli na izvore varijabilnosti opisane sumama kvadrata:


Ukupna suma kv. = Suma kv. redova + Suma kv. kolona + Sume kv. tretmana + Suma kvadrata pokusne
greke

SSUKUP = SSRED + SSKOL + SSTRT + SSOST


Odgovarajui stupnjevi slobode su:
r2 - 1 = (r-1) + (r-1) + (r-1) + (r-1)(r-2)
Sume kvadrata su definirane kao:
SS UKUP = i j ( y ij( k ) y..) 2
SS RED = r i ( y i . y..) 2

SS KOL = r i ( y. j y..) 2

SS TRT = r i ( y k y..) 2

SSOST = i j (yij - y i. - y .j - y k + 2 y ..)2


Sume kvadrata se mogu izraunati i kratkim nainom:
1. Ukupna suma = i j yij(k) = y..
2. Korekcijski faktor za srednju vrijednost:
C = i j (yij(k))2 / (r2) = (y..)2 / (r2)
3. SSUKUP = i j (yij(k))2 - C
4. SSRED = i (yi..)2/ n - C
5. SSKOL = j (y.j.)2/ n - C
6. SSTRT = k (y..k)2/ n - C
7. SSOST = SSUKUP - SSA - SSB - SSTRT
Dijeljenjem suma kvadrata sa odgovarajuim stupnjevima slobode dobiju se sredine suma kvadrata.
Sredina sume kvadrata za redove: MSRED = SSRED/ (r-1),
Sredina sume kvadrata za kolone: MSKOL = SSKOL/ (r-1),
sredina sume kvadrata za tretmane: MSTRT = SSTRT/ (r-1),
sredina sume kvadrata za pokusnu greku: MSOST = SSOST/[(r-1)(r-2)]
Postavljajmo nul hipotezu H0 i alternativnu hipotezu H1.
H0: 1 = 2 =... = a , nema utjecaja tretmana
H1: i i za barem jedan par (i,i), razlika izmeu tretmana postoji
Za provjeru hipoteza koristi se F statistika koja, ukoliko vrijedi H0, ima F raspodjelu sa stupnjevima
slobode (a-1) i (a-1)(b-1):
MS TRT
F=
MS OST
Sredina sume kvadrata ostatka je ovdje pokusna greka. Koristei vjerojatnost, odnosno razinu
znaajnosti u donoenju zakljuka, kaemo da za razinu znaajnosti odbacujemo Ho ako F > F,(r-1),(r1)(r-2), tj. ako je izraunata statistika F iz uzorka vea od kritine vrijednosti. Provjera za kolone i redove
obino nije od primarnog interesa, ali se moe raditi analogno kao i za tretmane.
Prikaimo izraun u ANOVA tablici:
17168

Izvor
Redovi
Kolone
Tretmani
Ostatak
Ukupno

SS
SSRED
SSKOL
SSTRT
SSOST
SSUKUP

St.sl.
r-1
r-1
r-1
(r-1)(r-2)
r2-1

MS=SS/St.sl
F
MSA
F = MSA/MSOST
MSB
F = MSB/MSOST
MSTRT
F = MSTRT/ MSOST
MSOST

Fkritino
F,r-1,(r-1)(r-2)

Iz pokusne greke mogue je odstraniti varijabilnost zbog kolona i redova. Treba napomenuti da redovi i
kolone mogu predstavljati i dodatne faktore u pokusu, ali interakciju je nemogue izraunati. Ukoliko
postoji interakcija izmeu faktora, latinski kvadrat se ne smije koristiti. Kao i kod klasinih change over
planova treba pripaziti na mogue produeno djelovanje pojedinih tretmana koje se moe preklapati sa
utjecajem sljedeeg tretmana u slijedeem periodu.
Primjer: Cilj pokusa je bio prouiti promjene razine eera u krvi mieva uslijed primjene etiri
tretmana. Tretmani su razine inzulina: Razina A za 150 mikro jedinica, B 300, C 600; D 1200.
Pokus je proveden kao latinski kvadrat: 4 grupe mieva, 4 dana, i 4 tretmana. Podaci su srednje
vrijednosti promjene u razini eera u krvi 6 mieva:
Dan

Grupa

1
1
1
1
2
2
2
2
3
3
3
3
4
4
4
4

I
II
III
IV
I
II
III
IV
I
II
III
IV
I
II
III
IV

Inzulin

eer

B
D
C
A
C
A
D
B
D
B
A
C
A
C
B
D

-4.50
92.33
59.83
-45.00
91.83
-48.33
168.99
89.00
86.16
-78.16
-24.17
101.00
-0.17
68.83
25.17
177.17

Napiimo podatke kao kvadrat:


Dani
1
2
3
4

173.32

Sume za tretmane:
A

Grupa mieva
II
III
92.33(D)
59.83(C)
-48.33(A)
168.99(D)
-78.16(B)
-24.17(A)
68.83(C)
25.17(B)

I
-4.50(B)
91.83(C)
86.16(D)
-0.17(A)

-117.67

34.67

B
31.51

IV
-45.00(A)
89.00(B)
101.00(C).
177.17(D)

229.82

321.49

524.65

322.17

Ukupno
759.98

Korekcijski faktor za srednju vrijednost:


1. Ukupna suma = i j yij(k) = (-4.50 + 92.33 + ...... + 177.17) = 759.98
C = i j (yij(k))2 / (r2) = (759.98)2 / 16 = 36098.1
17169

102.66
301.49
84.83
271.00
759.98

SSUKUP = i j (yij(k))2 - C = (-4.50)2 + (92.33)2 + ..... + (177.17)2 - 36098.1 = 86376.8214


SSRED = i (yi..)2/ n - C = 1/4 [(102.66)2 + ... + (271.00)2] - C = 6420.0061
SSKOL = j (y.j.)2/ n - C = 1/4 [(173.32)2 + .... + (322.17)2] - C = 10865.0431
SSTRT = k (y..k)2/ n - C = 1/4 [(-117.67)2 + ..... + (524.65)2] - C = 62265.0379
SSOST = SSUKUP - SSA - SSB - SSTRT = 86376.8214 - 6420.0061 - 10865.0431 - 10865.0431 =
3826.7342
ANOVA tablica
Izvor
Redovi (dani)
Kolone (grupe)
Tretmani
Ostatak
Ukupno

SS
9420.0061
10865.0431
62265.0379
3826.7342
86376.8214

St.sl.
3
3
3
6
15

MS=SS/St.sl.
3140.0020
3621.6810
20755.0126
637.7890

F
4.92
5.68
32.54

Fkritino
4.76

Poto je izraunata statistika F = 32.54 vea od kritine vrijednosti F0.05,3,6 = 4.76, nul hipoteza se
odbacuje i moemo rei da su tretmani uzrokovali promjene eera u krvi mieva.

17.4 SAS program za latinski kvadrat


Napiimo SAS program za primjer sa mievima, danima i tretmanima insulina. Podsjetimo se podataka:
Dani
1
2
3
4

I
-4.50(B)
91.83(C)
86.16(D)
-0.17(A)

Grupa mieva
II
III
92.33(D)
59.83(C)
-48.33(A)
168.99(D)
-78.16(B)
-24.17(A)
68.83(C)
25.17(B)

SAS program:
DATA secer;
INPUT dan grupa $ insulin $ mjera;
DATALINES;
1 I
B -4.5
1 II D 92.33
1 III C 59.83
1 IV A -45.
2 I
C 91.83
2 II A -48.33
2 III D 168.99
2 IV B 89.
3 I
D 86.16
3 II B -78.16
3 III A -24.17
3 IV C 101.0
4 I
A -.17
4 II C 68.83
4 III B 25.17
4 IV D 177.17
;

17170

IV
-45.00(A)
89.00(B)
101.00(C).
177.17(D)

102.66
301.49
84.83
271.00

PROC GLM;
CLASSES dan grupa insulin;
MODEL mjera = dan grupa insulin;
LSMEANS insulin /P TDIFF STDERR ADJUST=TUKEY ALPHA=0.5;
RUN;
QUIT;

Objanjenje: Koristimo proceduru GLM. Naredba CLASS definira klasifikacijske varijable. Naredba
MODEL mjera = dan grupa insulin znai da je zavisna varijabla prirast a nezavisne dan, grupa i
insulin. LSMEANS rauna prosjeke grupa korigirane na ostale utjecaje u modelu. Opcije iza kose crte
trae da se izraunaju standardne greke, i provjere razlike izmeu parova prosjeka grupa koristei
Tukey provjeru sa razinom znaajnosti = 0.05.
SAS rezultati:
General Linear Models Procedure
Dependent Variable: MJERA
DF
9
6
15

Sum of
Squares
82550.0871
3826.7342
86376.8214

Mean
Square
9172.2319
637.7890

R-Square
0.955697

C.V.
53.16874

Root MSE
25.2545

DF
3
3
3

Type III SS
9420.0061
10865.0431
62265.0379

Mean Square
3140.0020
3621.6810
20755.0126

Source
Model
Error
Corrected Total

Source
DAN
GRUPA
INSULIN

F Value
14.38

Pr > F
0.0021

MJERA Mean
47.4988
F Value
4.92
5.68
32.54

Pr > F
0.0466
0.0347
0.0004

General Linear Models Procedure


Least Squares Means
Adjustment for multiple comparisons: Tukey
INSULIN

MJERA
LSMEAN
-29.417500
7.877500
80.372500
131.162500

A
B
C
D

Std Err
LSMEAN
12.627243
12.627243
12.627243
12.627243

Pr > |T|
H0:LSMEAN=0
0.0587
0.5557
0.0007
0.0001

LSMEAN
Number
1
2
3
4

T for H0: LSMEAN(i)=LSMEAN(j) / Pr > |T|


i/j
1
2
3
4

2.088464
0.2570
6.148076
0.0034
8.992241
0.0004

2
-2.08846
0.2570
.
4.059612
0.0256
6.903776
0.0019

3
-6.14808
0.0034
-4.05961
0.0256
.
2.844164
0.1037

4
-8.99224
0.0004
-6.90378
0.0019
-2.84416
0.1037
.

Objanjenje:
Prva tablica je ANOVA tablica za zavisnu varijablu (Dependent Varijable) mjera. Izvori varijabilnosti
(Source) su Model, ostatak (Error) i ukupno (Corrected Total). U tablici su prikazani stupnjevi slobode
17171

(DF), sume kvadrata (Sum of Squares), sredina suma kvadrata (Mean Square), izraunati F (F-value) i
P-vrijednost (Pr > F). U slijedeoj tablici protumaeni izvori varijabilnosti (MODEL ) su ralanjeni na
DAN, GRUPU i INSULIN. Vidljivo je da za insulin izraunati F i P-vrijednost su 32.54 i 0.0004.
Dakle, moemo rei da je utjecaj tretmana bio znaajan u uzorcima. Na kraju ispisa dne su korigirane
srednje vrijednosti (LSMEAN) sa standardnim grekama(Std Err), a zatim i Tukey provjera izmeu svih
parova prosjeka grupa. Dana je razlika sa pripadajuom P-vrijednosti. Tako u koloni 3 i redu 1 brojevi
6.14808 i 0.0004 znae razliku i P-vrijednost izmeu insulina 1 i 3.

17172

Vjebe:
17.1. Istraivan je utjecaj vanjske temperature na koncentraciju progesterona kod svinja u estrusu.
Svinje su izloene razliitom temperaturnom stresu: Tretman 1: Izlaganje stresu 24 sata, Tretma 2 :
Izlaganje stresu 12 sati, Tretman 3: Bez izlaganja stresu.
Na raspolaganju su tri komore za praenje utjecaja stresa i 9 svinja. Svaka nazimica je tretirana sa sva
tri tretmana u 3 estrusna ciklusa. Plan je postavljen kao tri latinska kvadrata:
Ponavljanje
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
3
3
3
3
3
3
3
3
3

Svinja
1
1
1
2
2
2
3
3
3
4
4
4
5
5
5
6
6
6
7
7
7
8
8
8
9
9
9

TRT
TRT1
TRT 2
TRT 3
TRT 2
TRT 3
TRT 1
TRT 3
TRT 1
TRT 2
TRT 1
TRT 2
TRT 3
TRT 2
TRT 3
TRT 1
TRT 3
TRT 1
TRT 2
TRT 1
TRT 2
TRT 3
TRT 2
TRT 3
TRT 1
TRT 3
TRT 1
TRT 2

Period
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3

Progesteron
5.3
6.3
4.2
6.6
5.6
6.3
4.3
7
7.9
4.2
5.6
6.6
8.1
7.9
5.8
7.9
4.7
6.8
5.5
4.6
3.4
7.8
7
7.9
3.6
6.5
5.8

Napiite shemu pokusa. Provjerite utjecaj tretmana.

17173

18 Faktorijalni pokus
Faktorijalni pokus se koristi ako imamo dva ili vie skupa tretmana koji se prouavaju u isto vrijeme.
Podsjetimo se da su tretmani razliite razine nezavisne kategorike varijable koja se esto zove faktor.
Sve kombinacije razina faktora provjeravaju se meusobno. Razliiti utjecaj jednog faktora na drugi
faktor zove se interakcija. Utjecaji pojedinog faktora gledajui posebno zovu se glavni utjecaji.
Pogledajmo slijedei primjer, pokus sa dva faktora. Neka je prvi faktor je koliina proteina i drugi
faktor je vrsta proteinskih krmiva u obroku krava. Neka je koliina proteina prouavana u tri razine. U
pokus smo stavili dvije vrste proteinskih krmiva. Svakoj kravi u pokusu dodjeljuje se jedna koliina
proteina i jedno krmivo, odnosno jedan od 6 kombinacija krmivo x koliina. Takav pokus se zove 3 x 2
faktorijalni pokus, tj. tri razine prvog faktora i 2 razine drugog faktora. Faktorijalni pokus se osobito
primjenjuje kada malo znamo o faktorima. Dakle potrebno je istraiti sve mogue kombinacije da se vidi
koja od njih je najpovoljnija. Takoer je mogue istraiti interakcije izmeu faktora, tj. da li je razlika
izmeu razina jednog faktora ista ili razliita u razinama drugih faktora.
Pokusni plan kod faktorijalnog pokusa je potpuno sluajan. Naime, kombinacije razina faktora se
sluajno dodjeljuju pokusnim jedinicama. Pretpostavimo da imamo dva faktora A i B. Faktor A ima a
razina, a faktor B ima b razina. Neka broj pokusnih jedinica po svakoj kombinaciji faktora bude n.
Ukupno ima nab pokusnih jedinica podijeljenih u ab grupa (kombinacija faktora A i B). Skup tretmana
se sastoji od ab moguih kombinacija razina faktora.
Model faktorijalnog pokusa je:
yijk = + Ai + Bj +(AB)ij + ijk
Gdje su:
yijk = k-to opaanje za razinu i faktora A i razinu j faktora B
= ukupni prosjek
Ai = fiksni utjecaj razine i faktora A
Bj = fiksni utjecaj razine j faktora B
(AB)ij = fiksni utjecaj interakcije faktora A i B
ijk - neprotumaeni utjecaj, sluajan sa N(0, 2)

18.1 Faktorijalni pokus 2x2


Najjednostavniji faktorijalni pokus je pokus sa dva faktora, A i B, obadva sa dvije razine. To je 2 x 2
faktorijalni plan. Principi koje vrijede za ovaj pokus vrijede i openito za faktorijalni pokus. Prikaimo
mogue kombinacije razina u tablici:
Faktor B
Faktor A
A1
A2

B1
A1B1
A2B1

B2
A1B2
A2B2

Ukupno ima etiri kombinacije razina faktora.


Prikaimo shemu faktorijalnog plana sa mjerenjima yijk
18174

A1
B1
y111
y112
...
y11n

A2
B2
y121
y122
...
y12n

B1
y211
y212
...
y21n

B2
y221
y222
...
y22n

Mjerenje yijk znai da je to mjerenje k razine i faktora A i razine j faktora B.


Ukupna suma kvadrata se moe podijeliti na sumu kvadrata faktora A, suma kvadrata faktora B, sumu
kvadrata za interakciju A x B i sumu kvadrata za ostatak (neprotumaenu sumu kvadrata):
SSUKUP = SSA + SSB+ SSAB+ SSOST
stupnjevi slobode
(abn-1) = (a-1) + (b-1) + (a-1)(b-1) + ab(n-1)
Sume kvadrata su:
SS UKUP = i j k ( y ijk y...)2
SS A = i j k ( y i .. y...) 2 = bn i ( y i .. y...) 2
SS B = i j k ( y. j. y...) 2 = an i ( y. j. y...) 2
SS AB = n i j ( y ij . y...) 2 SS A SS B
SS OST = i j k ( y ijk y ij .) 2
SS OST = i j k ( y ijk y ij .) 2
Sume kvadrata se mogu izraunati i kratkim nainom:
1. Ukupna suma = i j k yijk = y...
2. Korekcijski faktor za srednju vrijednost:
C = i jk(yijk)2 / (abn) = (y...)2 / (abn)
3. SSUKUP = i j k (yijk)2 - C
4. SSA = i (yi..)2/ nb - C
5. SSB = j (y.j.)2/ na - C
6. SSAB = k (y..k)2/ n - SSA - SSB - C
7. SSOST = SSUKUP - SSA - SSB - SSAB
Dijeljenjem suma kvadrata sa odgovarajuim stupnjevima slobode dobiju se sredine suma kvadrata.
Sredina sume kvadrata za faktor A: MSA = SSA/ (a-1),
Sredina sume kvadrata za faktor B: MSB = SSB/ (b-1),
Sredina sume kvadrata za interakciju (AxB): MSAB = SSAB/ (a-1)(b-1),
Sredina sume kvadrata za pokusnu greku: MSOST = SSOST/[ab(n-1)]
Prikaimo sume kvadrat, sredine sume kvadrata i stupnjeve slobode u Anova tablici, a zatim emo
prokomentirati hipoteze i koritenje F provjere.
18175

ANOVA taablica
Izvor
SS
A
SSA
B
SSB
AB
SSAB
Ostatak
SSOST
Ukupno
SSUKUP

St.sl.
a-1
b-1
(a-1)(b-1)
ab(n-1)
abn-1

MS=SS/St.sl.
F
MSA
F = MSA/MSOST
MSB
F = MSB/MSOST
MSAB
F = MSAB/MSOST
MSE

\
(2)
(3)
(1)

(1) F-provjera za interakciju


H0: ij = ij za sve i, j, i, j
H1: ij ij za barem jedan par
Statistika za provjeru je
MS AB
F=
MS OST
sa F raspodjelom sa stupnjevima slobode (a-1)(b-1) i ab(n-1) ako vrijedi H0.
(2) F-provjera za faktor A (ukoliko nema interakcije)
H0: i = i za svaki par i, i
H1: i i za barem jedan par i,i
Statistika za provjeru je
MS A
F=
MS OST
sa F raspodjelom sa stupnjevima slobode (a-1) i ab(n-1) ako vrijedi H0.
(3) F-provjera za faktor B (ukoliko nema interakcije)
H0: j = j za svaki par j, j
H1: j j za barem jedan par j,j
Statistika za provjeru je
MS B
F=
MS OST
sa F raspodjelom sa stupnjevima slobode (b-1) i ab(n-1) ako vrijedi H0.
MSOST je pokusna greka. Provjera hipoteza za interakciju se provodi prva, a samo ako utjecaj
interakcije nije znaajan provjeravaju se glavni utjecaji. Ukoliko je interakcija znaajna provjera za
glavne utjecaje nema smisla.
Primjer: Istraivan je utjecaj dodavanja antibiotika i vitamina B12 u krmivo na prosjeni dnevni prirast
kod svinja. Primijenjeni su dvije razine antibiotika (0 i 40 mg) i dvije razine vitamina B12 (0 i 5 mg).
Izabrano je 20 ivotinja. Na njih su sluajnim izborom primijenjene 4 kombinacije vitamina i
antibiotika, dakle bilo je po 5 ivotinja za svaku kombinaciju. Izmjereni su slijedei dnevni prirasti:

18176

Antibiotik
Vitamin B12

Suma
Prosjek

0 mg
0 mg
0.585
0.536
0.458
0.486
0.536
2.601
0.520

4mg
5 mg
0.567
0.545
0.589
0.536
0.549
2.786
0.557

0 mg
0.473
0.450
0.869
0.473
0.464
2.729
0.549

5 mg
0.684
0.702
0.900
0.698
0.693
3.677
0.735

Primijenimo skraeni nain raunanja suma kvadrata:


Ukupna suma = i j yij = y.. = (0.585 + ....... + 0.693) = 11.793
C = (i jk yijk)2 / (abn) = (11.793)2 / (20) = 6.953742
SSUKUP = i j k (yijk)2 - C = 0.5852 + 0.5362 + ...+ 0.6932 = 7.275437 - 6.953742 = 0.32169455
SSA = i (yi..)2/ nb - C = (2.601+2.786)2/10 + (2.729+3.677)2/10 - 6.953742 = 0.05191805
SSB = j (y.j.)2/ na - C = (2.601+2.729)2/10 + (2.786+3.677)2/10 - 6.953742 = 0.06418445
SSA x B = k (y..k)2/ n - SSA - SSB - C = (2.601)2/5 + (2.786)2/5 + (2.729)2/5 + (3.677)2/5 - 0.05191805
-0.06418445 - 6.953742 = 0.02910845
SSOST = SSUKUP - SSA - SSB - SSA x B = 0.32169455 - 0.05191805 - 0.06418445 - 0.02910845 =
0.17648360
ANOVA tablica
Izvor
SS
Antibiotik
0.05191805
Vitamin B12 0.06418445
Antib. x Vit. 0.02910845
Ostatak
0.17648360
Ukupno
0.32169455

St.sl.
1
1
1
16
19

MS
0.05191805
0.06418445
0.02910845
0.01103023

F
4.71
5.82
2.64

Fkritino P
4.49
0.0454
4.49
0.0282
4.49
0.1238

Interakcija se moe prikazati grafiki (slika 17-1). Toke na grafikonu prikazuju prosjeke kombinacija
razina faktora. Ukoliko su crte paralelne to ukazuje da interakcije nema. Prema slici ne bismo mogli rei
da interakcija nije prisutna. P-vrijednost 0.1238 ne znai da interakcija nije prisutna nego vjerojatno
snaga provjere nije dovoljna da bi utvrdili utjecaj interakcije. Vjerojatno je potrebno vie od pet mjerenja
po grupi da bi se otkrili pravi utjecaji.
A2

Prirast (kg)

0.75
0.70
0.65
0.60
0.55
0.50
0.45
0.40

A2
A1
A1

B1

B2

Razine faktora B

Slika 18-1: Prikaz interakcije 2 x 2 faktorijalnog pokusa.


18177

Ponovimo jo jedanput pravila o provjerama hipoteza za interakciju i glavne utjecaje:


1. Provjera za interakciju treba biti prije provedena nego za glavne efekte,
2. Ako provjera za interakciju nije znaajna, provjera za glavne efekte ima smisla,
3. Ako provjera za interakciju je znaajna, provjera za glavne efekte nema smisla.
Ukoliko postoji interakcija mogua su dva pristupa problemu:
1. Koristiti model dvostruke klasifikacije s interakcijom. Ukupna suma kvadrata dijeli se na sumu
kvadrata za faktor A, sumu kvadrata za faktor B, sumu kvadrata za interakciju i sumu kvadrata za
ostatak:
SSUKUP = SSA + SSB + SSAB + SSOST
2. Koristiti model jednostruku klasifikacije, kombinacija razina AxB je tretman. Ovdje je suma kvadrata
za tretmane jednaka zbroju suma kvadrata za faktor A, sumi kvadrata za faktor B i sumi kvadrata za
interakciju:
SSTRT = SSA + SSB + SSAB
Ukupna suma kvadrata je jednaka:
SSTRT
+ SSOST
SSUKUP =
Ukoliko ne postoji interakcija takozvani aditivni model je prikladniji. Aditivni model sadri samo glavne
utjecaje, a nije ukljuena interakcija:
yijk = + Ai + Bj + ijk
Kod aditivnog modela ukupna suma kvadrata dijeli se na:
SSUKUP = SSA + SSB + SS'OST
A suma kvadrata za pokusnu greku (SS'OST) je jednaka sumi kvadrata za interakciju i pokusnu greku
kod modela sa interakcijom:
SS'OST = SSAB + SSOST
Provjera interakcije je provjera aditivnog modela protiv neaditivnog modela.

18.2 SAS program za faktorijalni pokus


Izraunajmo problem sa antibioticima i vitaminima koristei SAS program. Podsjetimo se podataka:
Antibiotik
Vitamin B12

Suma
Prosjek

0 mg
0 mg
0.585
0.536
0.458
0.486
0.536
2.601
0.520

4mg
5 mg
0.567
0.545
0.589
0.536
0.549
2.786
0.557

0 mg
0.473
0.450
0.869
0.473
0.464
2.729
0.549

SAS program:
18178

5 mg
0.684
0.702
0.900
0.698
0.693
3.677
0.735

DATA prirast;
INPUT anti vit prirast;
DATALINES;
1 1 0.585
1 1 0.536
1 1 0.458
1 1 0.486
1 1 0.536
1 2 0.567
1 2 0.545
1 2 0.589
1 2 0.536
1 2 0.549
2 1 0.473
2 1 0.450
2 1 0.869
2 1 0.473
2 1 0.464
2 2 0.684
2 2 0.702
2 2 0.900
2 2 0.698
2 2 0.693
;
PROC GLM;
CLASS anti vit;
MODEL prirast= anti vit anti*vit;
LSMEANS anti*vit / TDIFF PDIFF P STDERR ADJUST=TUKEY ALPHA=0.05;
RUN;
QUIT;

Objanjenje: Koristimo proceduru GLM. Naredba CLASS definira klasifikacijske varijable. Naredba
MODEL Prirast = anti vit anti*vit znai da je zavisna varijabla prirast, a nezavisne anti, tretman i
interakcija anti*vit. LSMEANS rauna prosjeke grupa korigirane na utjecaje u modelu. Oznake iza
kose crte trae da se izraunaju standardne greke, i provjere razlike izmeu parova prosjeka grupa
koristei Tukey provjeru sa razinom znaajnosti = 0.05.
SAS ispis:
General Linear Models Procedure
Dependent Variable: PRIRAST
Source
Model
Error
Corrected Total

Source
ANTI
VIT
ANTI*VIT

DF
3
16
19

Sum of
Squares
0.14521095
0.17648360
0.32169455

Mean
Square
0.04840365
0.01103023

R-Square
0.451394

C.V.
17.81139

Root MSE
0.10502

DF

Type III SS

Mean Square

F Value

Pr > F

1
1
1

0.05191805
0.06418445
0.02910845

0.05191805
0.06418445
0.02910845

4.71
5.82
2.64

0.0454
0.0282
0.1238

F Value
4.39

PRIRAST Mean
0.58965

General Linear Models Procedure


Least Squares Means
Adjustment for multiple comparisons: Tukey

18179

Pr > F
0.0196

ANTI

VIT

1
1
2
2

1
2
1
2

PRIRAST
LSMEAN

Std Err
LSMEAN

Pr > |T|
H0:LSMEAN=0

0.52020000
0.55720000
0.54580000
0.73540000

0.04696855
0.04696855
0.04696855
0.04696855

0.0001
0.0001
0.0001
0.0001

LSMEAN
Number
1
2
3
4

T for H0: LSMEAN(i)=LSMEAN(j) / Pr > |T|


i/j
1
2
3
4

1
.
0.557031
0.9433
0.385405
0.9799
3.239814
0.0238

2
-0.55703
0.9433
.
-0.17163
0.9981
2.682783
0.0701

3
-0.38541
0.9799
0.171626
0.9981
.
2.854409
0.0506

4
-3.23981
0.0238
-2.68278
0.0701
-2.85441
0.0506
.

Objanjenje: Prva tablica je ANOVA tablica za zavisnu varijablu (Dependent Varijable) prirast. Izvori
varijabilnosti (Source) su Model, ostatak (Error) i ukupno (Corrected Total). U tablici su prikazani
stupnjevi slobode (DF), sume kvadrata (Sum of Squares), sredina suma kvadrata (Mean Square),
izraunati F (F-value) i P-vrijednost (Pr > F). U slijedeoj tablici protumaeni izvori varijabilnosti
(MODEL ) su ralanjeni na ANTI, VIT i ANTI*VIT. Na primjer, za utjecaj interakcije anti*vit
izraunati F i P-vrijednost su 2.64 i 0.1238. Na kraju ispisa dne su korigirane srednje vrijednosti
(LSMEAN) sa standardnim grekama(Std Err), a zatim i Tukey provjera izmeu svih parova prosjeka
grupa utjecaja interakcije. Dana je razlika sa pripadajuom P-vrijednosti. Tako u redu 1 i koloni 4
brojevi -3.23981 i 0.0238 znae razliku i P-vrijednost izmeu dvije kombinacije antibiotik i vitamin, i
to: grupa 1 znai vitamin 0 mg i antibiotik 0 mg, grupa 4 znai vitamin 5 mg i antibiotik 4mg.

Vjebe:
18.1. Cilj istraivanja bio je utvrditi moguu interakciju tri vrste same sa poveanjem energije u
obroku mlijenih krava na proizvodnju mlijeka kod krava. Koritene su tri kombinacija sami: vrste
same: repiina+sojina, sincokretova+sojina i suncokretova+repiina, te normalna razina enerije i
poveana razina energije. Temeljni obrok bio je isti za sve krave. Izmjerene su slijedee prosjene
dnevne koliine mlijeka:
Sama
Repiina+sojina
Suncokretova+sojina
Repiina+suncokretova
Razina
Visoka
Kontrolna Visoka Kontrolna
Visoka
Kontrolna
energije
32
25
30
29
28
25
29
26
29
28
27
30
38
25
26
34
32
26
36
31
34
36
33
27
30
28
34
32
33
28
25
23
30
30
37
24
29
26
32
27
36
22
32
26
33
29
26
28
Provjerite da postoji interakcija izmeu vrste same i razine proteina.

18180

19 Hijerarhijska klasifikacija
Ponekad se ukae potreba da se uzorak bira u dva ili vie koraka. Na primjer, zanima nas da li kvaliteta
kukuruzne silae varira izmeu razliitih podruja vie nego unutar podruja. Sluajno su odabrana 6
podruja i iz njih je uzeto 5 uzoraka. Dakle prvi korak je izabrati sluajan uzorak podruja, a drugi
korak je izabrati sluajan uzorak kukuruzne silae unutar podruja. Ovaj problem je primjer
hijerarhijske klasifikacije. Izbor uzoraka moe se provesti u vie koraka, pa pri tom imamo dvo-, tro- ili
vie hijerarhijske klasifikacije.

19.1 Hijerarhijska klasifikacija sa dva faktora


Pretpostavimo model sa dva faktora. Neka faktor A ima tri razine, a faktor B po tri razine unutar svake
razine faktora A. Razine faktora B nezavisne su izmeu razliitih razina faktora A. Unutar svake razine
faktora B biran je sluajni uzorak. Shema takvog pokusa je:
A
B













1
y111
y112

2
y121
y122

3
y131
y132

4
y141
y142

5
y151
y152

6
y161
y162

7
y171
y172

8
y181
y182

9
y191
y192

y11n

y12n

y13n

y14n

y15n

y16n

y17n

y18n

y19n

Statistiki model je slijedei:


yijk = + Ai + B(A)ij + ijk

i = 1,....,a; j = 1,....,b ; n = 1,......,n

Gdje su:
yijk = k-to opaanje za razinu i faktora A i razinu j faktora B
= ukupni prosjek korigiran na sve utjecaje,
Ai = utjecaj razine i faktora A
B(A)ij = utjecaj razine j faktora B unutar razine i faktora A
ijk - ostatak, sluajni N(0, 2)
Recimo da su razine faktor A nerastovi Landrace pasmine, razine faktora B neka su krmae
osjemenjene tim nerastovima. Krmae predstavljaju sluajan uzorak unutar nerastova. Mjerenja, npr.
prirast neka su obavljena na potomcima tih nerastova i krmaa. Potomci predstavljaju uzorke unutar
krmaa. Ukoliko zanemarimo stupanj srodnosti, krmae osjemenjene razliitim nerastovima (tj razine
faktora B unutar faktora A) su nezavisne jedna od druge.
Kao i kod prijanjih planova, ukupna suma kvadrata se moe ralaniti na sume kvadrata izvora
varijabilnosti, a to su suma kvadrata faktora A, suma kvadrata faktora B unutar faktora A i suma kvadrata
unutar B (suma kvadrata ostatka) :

SSUKUP = SSA + SSB(A) + SSUnutar B


19181

sa odgovarajuim stupnjevima slobode:


(abn-1) = (a-1) + (b-1) + a(b-1) + ab(n-1)
Sume kvadrata definirane su kao:
SS UKUP = i j k ( y ijk y...)2
SS A = i j k ( y i .. y...) 2 = bn i ( y i .. y...) 2
SS B( A ) = i j k ( y ij . y i ..) 2 = n i j ( y ij . y i ..) 2
SS UNUTAR B = i j k ( y ijk y ij .) 2
Sume kvadrata se mogu izraunati skraenim nainom:
Ukupna suma: i j k yijk
Korekcijski faktor za srednju vrijednost:
C = i jk(yijk)2 / (abn) = (y...)2 / (abn)
SSUKUP = i j k (yijk)2 - C
SSA = i (yi..)2/ nb - C
SSB = j (yij.)2/ n - SSA - C
SSUnutar B = SSUKUP - SSA - SSB(A)
Sredine suma kvadrata (MS) dobiju se dijeljenjem suma kvadrata (SS) sa odgovarajuim stupnjevima
slobode (St.sl.).
ANOVA tablica:
Izvor
SS
A
SSA
B unutar A SSB(A)
Unutar B
SSUnutar B
Ukupno
SSUKUP

St.sl.
a-1
a(b-1)
ab(n-1)
abn-1

MS=SS/St.sl.
MSA
MSB(A)
MSUnutar B

Utjecaj 'Unutar B' je neprotumaeni utjecaj ili ostatak.


Oekivane sredine suma kvadrata, E(MS) definirane su prema tome da li su utjecaji A i B fiksni ili
sluajni:
E(MS)
E(MSr)
E(MSB(A))
E(MSUnutar B)

A fix i B fix
2 + Q(A)
2 + Q(B(A))
2

A fix i B sluajan
2 + n 2B + Q(A)
2 + n 2B
2

A sluajan i B sluajan
2 + n 2B + nb 2A
2 + n 2B
2

Takoer i definicija pokusne greke za pojednini utjecaj ovisi da li su utjecaji (faktori) fiksni ili sluajni.
Najee je B sluajan. U tom sluaju pokusna greka za provjeru utjecaja A je MSB(A), a pokusna
greka za utjecaj B je MSUnutar B.
F-statistika utjecaj A:
MS A
F=
MS B( A )
19182

F-statistika za utjecaj B:
MS B( A )
F=
MS UnutarB
Primjer: Mjerena je porodna teina prasadi i htjelo se utvrditi kakav je utjecaj majki i oeva prasadi na
varijabilnost. Upotrijebljen je hijerarhijski plan: Sluajno je izabrano 4 nerasta, po svakom nerastu dvije
majke i po svakoj majci dva potomka. Na potomcima su izmjeren porodne teine. Podaci su prikazani u
slijedeoj tablici, zajedno sa sumama po oevima i majkama i i kvadratima suma po oevima i
majkama:
Oevi

Majke
1
1
1
1
1
1
2
2
2
2
2
2
3
3
3
3
3
3
4
4
4
4
4
4

Zbroj
Broj
Zbroj
kvadrata

Potomci
1
1
2
2
3
3
1
1
2
2
3
3
1
1
2
2
3
3
1
1
2
2
3
3

Teina
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2

Ukupni
zbroj

1.2
1.2
1.2
1.3
1.1
1.2
1.2
1.2
1.1
1.2
1.2
1.1
1.2
1.2
1.3
1.3
1.2
1.2
1.3
1.3
1.4
1.4
1.3
1.3
29.6
24
36.66

Zbroj po Zbroj po
oevima majkama
2.4
2.5
7.2

2.3
2.4
2.3

2.3
2.4
2.6

7.4

2.4
2.6
2.8

29.6
29.6

8
29.6

2.6
29.6

219.6

73.28

a = broj oeva = 4; b = broj majki po ocu = 3; n = broj potomaka po majci = 2


Skraeni nain raunanja suma kvadrata:
Ukupna suma: i j k yijk = (1.2 + 1.2 + 1.2 + ....... + 1.3 + 1.3) = 29.6
Korekcijski faktor za srednju vrijednost:
C = i jk(yijk)2 / (abn) = (29.6)2/24 = 36.50667
abn = ukupni broj mjerenja
SSUKUP = i j k (yijk)2 - C = (1.2)2 + (1.2)2 + (1.2)2 + ....... + (1.3)2 + (1.3)2 - C = 0.15333
SSOTAC = i (yi..)2/ nb - C = 1/6 [(7.2)2 + (7.0)2 + (7.4)2 + (8.0)2] - C = 0.09333
nb = broj mjerenja po ocu
SSMAJKA = j (yij.)2/ n - SSA - C = 1/2 [(2.4)2 + (2.5)2 + .... + (2.8)2 + (2.6)2] - C = 0.040
n = broj mjerenja po majci
19183

SSPOTOMCI = SSUKUP - SSA - SSB(A) = 0.15333 - 0 09333- 0.040 = 0.020


Suma kvadrata potomaka (SSPOTOMCI ) jednaka je sumi kvadrata unutar majki.
ANOVA tablica:
Izvor
Oevi
Majke unutar
oeva
Potomci unutar
majki
Ukupno

SS
0.09333

St.sl.
3

MS=SS/St.sl.
0.03111

F
6.22

Fkritini
4.07

P-vrijed.
0.0174

0.04

0.005

3.00

2.85

0.0424

0.02
0.15333

12
23

0.00167

Pokusna greka za oeve je sredina sume kvadrata za majke, a pokusna greka za majke je sredina sume
kvadrata za potomke.
Poto smo pretpostavili da su i oevi i majke sluajni utjecaji mogue je procijeniti komponente
varijanci oeva majki i potomstva:
Izvor

E(MS)

Oevi
Majke unutar oeva
Potomci unutar majki
Ukupno

2 + 2 2 B + 6 2 A
2 + 2 2 B
2

Komponente
varijance.
0.004352
0.001667
0.001667
0.007685

Postotak od ukupne
varijabilnosti
56.63
21.69
21.69
100.00

19.2 SAS program za hijerarhijsku klasifikaciju


Na primjeru hijerarhijske klasifikacije sa porodnom teinom prasadi klasificirane po oevima i majkama
prikazat emo i SAS program.
SAS program:
OPTIONS PS=60 LS=80 PAGENO=1;
data prase;
INPUT otac majka potomak por_tez;
DATALINES;
1
1
1
1.2
1
1
2
1.2
1
2
1
1.2
1
2
2
1.3
1
3
1
1.1
1
3
2
1.2
2
1
1
1.2
2
1
2
1.2
2
2
1
1.1
2
2
2
1.2
2
3
1
1.2
2
3
2
1.1
3
1
1
1.2
3
1
2
1.2
3
2
1
1.3
3
2
2
1.3

19184

3
3
4
4
4
4
4
4
;

3
3
1
1
2
2
3
3

1
2
1
2
1
2
1
2

1.2
1.2
1.3
1.3
1.4
1.4
1.3
1.3

PROC NESTED DATA=prase;


CLASS otac majka;
VAR por_tez;
run;
PROC MIXED DATA=prase method=type3;
CLASS otac majka;
MODEL por_tez = ;
RANDOM otac majka(otac)/s;
RUN;
QUIT;

Objanjenje: Koritene su dvije procedure NESTED i MIXED. Procedura NESTED je pogodna samo
ako nema dodatnih fiksnih utjecaja u modelu. Naredba CLASS definira klasifikacijske varijable, a
naredba VAR zavisnu varijablu por_tez.
Radi usporedbe dana je i prcedura MIXED koja je pogodna kada su i fiksni utjecaji u modelu. Naredba
CLASS definira klasifikacijske varijable, a naredba MODEL por_tezt = ; znai da je zavisna varijabla
prirast a fiksni utjecaj u moelu je samo ukupni prosjek. Naredba RANDOM definira sluajne utjecaje
otac i majka(otac). Oznaka majka(otac) znai da je majke pouzorak unutar oeva. Oznake s iza kose
crte trai da se izraunaju predvianja i pripadajue standardne greke za majke i oeve. Poto nema
fiksnih utjecaja u modelu izraunavanje korigiranih srednjih vrjednosti (LSMEANS) nije potrebno.
SAS ispis:
The NESTED Procedure
Coefficients of Expected Mean Squares
Source
otac
majka
Error

otac
6
0
0

majka
2
2
0

Error
1
1
1

Nested Random Effects Analysis of Variance for Variable por_tez


Variance
Source
Total
otac
majka
Error

DF
23
3
8
12

Sum of
Squares
0.153333
0.093333
0.040000
0.020000

F Value

Pr > F

Error
Term

6.22
3.00

0.0174
0.0424

majka
Error

Nested Random Effects Analysis of


Variance for Variable por_tez
Variance
Source
Total
otac

Mean Square
0.006667
0.031111

19185

Variance
Component
0.007685
0.004352

Percent
of Total
100.0000
56.6265

majka
Error

0.005000
0.001667

0.001667
0.001667

por_tez Mean
Standard Error of por_tez Mean

21.6867
21.6867
1.23333333
0.03600411

The Mixed Procedure


Covariance Parameter
Estimates
Cov Parm
otac
majka(otac)
Residual

Estimate
0.004352
0.001667
0.001667

Solution for Random Effects


Effect
otac
otac
otac
otac
majka(otac)
majka(otac)
majka(otac)
majka(otac)
majka(otac)
majka(otac)
majka(otac)
majka(otac)
majka(otac)
majka(otac)
majka(otac)
majka(otac)

otac
1
2
3
4
1
1
1
2
2
2
3
3
3
4
4
4

majka

1
2
3
1
2
3
1
2
3
1
2
3

Estimate
-0.02798
-0.05595
3.26E-15
0.08393
-0.00357
0.02976
-0.03690
0.01508
-0.01825
-0.01825
-0.02222
0.04444
-0.02222
-0.01151
0.05516
-0.01151

Std Err
Pred
0.04016
0.04016
0.04016
0.04016
0.02969
0.02969
0.02969
0.02969
0.02969
0.02969
0.02969
0.02969
0.02969
0.02969
0.02969
0.02969

DF
12
12
12
12
12
12
12
12
12
12
12
12
12
12
12
12

t Value
-0.70
-1.39
0.00
2.09
-0.12
1.00
-1.24
0.51
-0.61
-0.61
-0.75
1.50
-0.75
-0.39
1.86
-0.39

Pr > |t|
0.4993
0.1888
1.0000
0.0586
0.9062
0.3359
0.2376
0.6207
0.5501
0.5501
0.4685
0.1602
0.4685
0.7051
0.0879
0.7051

Objanjenje: Prvo je prikazana procedura NESTED. Prva tablica je tablica sa koeficijentima za


raunanje oekivanja sredina suma kvadrata Anova metodom. Slijedea tablica je ANOVA tablica za
zavisnu varijablu (Dependent Varijable) por_tez. Izvori varijabilnosti (Source) su Model, ostatak
(Error) i ukupno (Corrected Total). U tablici su prikazani stupnjevi slobode (DF), sume kvadrata (Sum
of Squares), sredina suma kvadrata (Mean Square), izraunati F (F-value) i P-vrijednost (Pr > F).
Takoer je dan i odgovarajui izraz za greku za provjeru utjecaja (Error term). Vidljivo je da je za
provjeru utjecaja oca pravilna greka za provjeru majka. U slijedeoj tablici mogu se vidjeti sredine
suma kvadrata (Mean Square), komponente variajnce (Variance component) i postotak od ukupne
varijabilnosti (Percent of Total). Komponente varijance za oeve, majke i ostatak (potomke) su
0.004352, 0.001667 i 0.001667.
Procedura MIXED daje takoer procijene komponente varijance (Estimates, Cov Parm). Nadalje, pod
naslovom Solution for Random Effects mogu se vidjeti predvieni utjecaji za oeve i majke (Estimate)
zajedno sa odgovarajuim standardnim grekama (Std Err Pred), te t-vrijednostima i P-vrijednostima za
provjeru da su utjecaji razliiti on nule (t Value, Pr > |t|).

19186

20 Split plot pokusni plan


Princip split plot pokusnog plana je da se pokusni materijal podjeli u vie glavnih jedinica (plotovi) na
koje se primjenjuju razine nekog faktora, a zatim se glavne jedinice podijele u podjedinice (split plotovi)
na koje se primjenjuju razine drugog faktora. Ovaj plan moe ukljuiti potpuno sluajni, sluajni blok
plan ili latinski kvadrat koji se primjenjuju na jedinice ili podjedinice.

20.1 Split plot plan primjena sluajnog blok plana na glavne


plotove
Pogledajmo split plot pokusni plan kada se jedan faktor primjenjuje na glavne jedinice kao sluajni blok
plan. Pretpostavimo faktor A sa etiri razine (A1, A2, A3 i A4), koji se primjenjuje na glavne jedinice
(plotove) u tri bloka. To je dakle sluajni blok plan. Drugi faktor B ima dvije razine (B1 i B2). Svaka se
jedinica podijeli u dvije podjedinice (splitplotove) na koje se sluajno dodjeljuju razine B1 i B2.
Blok 1

Blok 2

Blok 3

B2

B2

B1

B2

B1

B2

B1

B1

B2

B1

B2

B1

B1

B1

B2

B1

B2

B1

B2

B2

B1

B2

B1

B2

A4

A1

A2

A3

A2

A1

A4

A3

A1

A2

A4

A3

Model:
yijk = + Blokk + Ai + ik + Bj +(AB)ij + ijk

i = 1,....,a; j = 1,....,b ; k = 1,......,n

Gdje su:
yijk = opaanje k za razinu i faktora A i razinu j faktora B
= ukupni prosjek korigiran na sve utjecaje
Blokk = utjecaj bloka (ponavljanja) k
Ai = utjecaj razine i faktora A
Bj = utjecaj razine j faktora B
(AB)ij = utjecaj interakcije ij A x B
ik - cijeli plot greka N(0, ) = interakcija Blokk x Ai
ijk - split plot greka N(0, 2)
Takoer je ij = Ai + Bj +(AB)ij = prosjek ij-te A x B kombinacije.
a = broj razina faktora A;
b = broj razina faktora B;
n = broj ponavljanja (blokova)
Cijeli plot greka i split plot greka su nezavisni.
Prikaimo u ANOVA tablici izvore varijabilnosti i stupnjeve slobode:

20187

ANOVA tablica
Izvor
Blok
Tretmani A
Cijeli plot greka
Tretmani B
AxB
Split plot greka
Ukupno

Stupanj slobode
(n-1) =
2
(a-1) =
3
(n-1)(a-1) =
6
(b-1) =
1
(a-1)(b-1)=
3
a(b-1)(n-1) = 8
(abn-1)=
23

a = 4 = broj razina tretmana A


b = 2 = broj razina tretmana B
n = 3 = broj blokova
Utjecaji tretmana i interakcije tretmana provjeravaju se F provjerom:
F provjera za faktor A:
MS A
F=
MS Cijeli plot geska
Cijeli plot pokusna greka je sredina sume kvadrata za interakcija blok x A.
F-provjera za faktor B:
MS B
F=
MSSplit plot greska
Split plot greka je sredina sume kvadrata ostatka.
F-provjera za interakciju A x B:
MS AxB
F=
MSSplit plot greska
Primjer: Mlijene krave drane su na pai. Istraivan je utjecaj 4 razliita naina tretiranja panjaka i 2
razliita mineralna dodatka na proizvodnju mlijeka. Ukupno je bilo 24 krave na raspolaganju. Odlueno
je da se pokus postavi kao split plot plan, gdje su tretiranja panjaka (faktor A) primijenjeni na glavne
plotove i mineralni dodaci (faktor B) primijenjeni na subplotove. Pokus je postavljen u 3 bloka
(ponavljanja). Izmjerene su slijedee prosjene dnevne koliine mlijeka:
Blok
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2

TRT A
4
4
1
1
2
2
3
3
2
2
1
1
4
4
3

TRT B
2
1
2
1
1
2
2
1
1
2
2
1
1
2
1

mlijeko (kg)
30
29
27
25
26
28
26
24
32
37
30
31
34
37
33
20188

2
3
3
3
3
3
3
3
3

3
1
1
2
2
4
4
3
3

2
2
1
1
2
2
1
1
2

32
34
31
30
31
36
38
33
32

Prikaimo rezultate u ANOVA tablici, a zakljuujemo kao obino usporeujui izraunate statistike F
sa kritinim vrijednostima.
ANOVA tablica
Izvor
Blok
Tretmani A
Cijeli plot greka
Tretmani B
AxB
Split plot greka
Ukupno

SS
212.583
71.167
26.083
8.167
5.833
18.000
341.833

St.sl. MS
2
106.292
3
23.722
6
4.347
1
8.167
3
1.944
8
2.250
23

Fkrit

5.46

4.76

0.0377

3.63
0.86

5.32
4.07

0.0932
0.4981

20.2 Split plot plan primjena potpuno sluajnog plana na glavne


plotove
Pogledajmo split plot pokusni plan kada se jedan faktor primjenjuje na glavne jedinice kao potpuno
sluajni plan. Pretpostavimo 12 plotova na na koje se sluajno primjenjuje faktor A sa etiri razine (A1,
A2, A3 i A4) To je dakle potpuno sluajni plan. Drugi faktor B ima dvije razine (B1 i B2). Svaka se
jedinica podijeli u dvije podjedinice (splitplotove) na koje se sluajno dodjeljuju razine B1 i B2.
B2

B2

B1

B2

B1

B2

B1

B1

B1

B2

B1

B2

B1

B1

B2

B1

B2

B1

B2

B2

B2

B1

B2

B1

A4

A1

A2

A3

A2

A1

A4

A3

A4

A3

A1

A2

Model:
yijk = + Ai + ik + Bj +(AB)ij + ijk

i = 1,....,a; j = 1,....,b ; k = 1,......,n

Gdje su:
yijk = opaanje k za razinu i faktora A i razinu j faktora B
= ukupni prosjek korigiran na sve utjecaje
Ai = utjecaj razine i faktora A
Bj = utjecaj razine j faktora B
(AB)ij = utjecaj interakcije ij A x B
ik - cijeli plot greka N(0, ) = cijeli plotovi unutar faktora A
ijk - split plot greka N(0, 2)
Takoer je ij = Ai + Bj +(AB)ij = prosjek ij-te A x B kombinacije.
a = broj razina faktora A;
b = broj razina faktora B;
20189

n = broj ponavljanja (plotova) po faktoru A


Cijeli plot greka i split plot greka su nezavisni.
ANOVA tablica
Izvor
Tretman A
Cijeli plot greka
Tretman B
AxB
Split plot greka
Ukupno

Stupanj slobode
(a-1) =
3
a(n-1) =
8
(b-1) =
1
(a-1)(b-1)=
3
a(b-1)(n-1) = 8
(abn-1)=
23

a = 4 = broj razina tretmana A


b = 2 = broj razina tretmana B
n = 3 = broj ponavljanja (plotova) po pojedinom tretmanu faktora A.
Utjecaji plotova i split plotova provjeravaju se F provjerom:
F provjera za A:
MS A
F=
MS Cijeli plot geska
Cijeli plot pokusna greka je sredina sume kvadrata izmeu plotova.
F-provjera za B:
MS B
F=
MSSplit plot greska
Split plot greka je sredina sume kvadrata ostatka.
F-provjera za interakciju A x B:
MS AxB
F=
MSSplit plot greska
Primjer: Pretpostavimo isti primjer sa panjacima i kravama kao i prije. Meutim sada utjecaj blokova
zanemarujemo, tj. postavili smo faktor A (tretiranja panjaka) na cijele plotove kao potpuno sluajni
plan.
Plot
1
1
2
2
3
3
4
4
5
5
6
6
7
7
8

TRT A
4
4
1
1
2
2
3
3
2
2
1
1
4
4
3

TRT B
2
1
2
1
1
2
2
1
1
2
2
1
1
2
1

mlijeko (kg)
30
29
27
25
26
28
26
24
32
37
30
31
34
37
33
20190

8
9
9
10
10
11
11
12
12

3
1
1
2
2
4
4
3
3

2
2
1
1
2
2
1
1
2

32
34
31
30
31
36
38
33
32

Prikaimo rezultate u ANOVA tablici:


Izvor
Tretmani A
Cijeli plot greka
Tretmani B
AxB
Split plot greka
Ukupno

SS
71.167
238.667
8.167
5.833
18.000
341.833

St.sl.
3
8
1
3
8
23

MS
23.722
29.833
8.167
1.944
2.250

F
0.80

Fkrit
4.76

P
0.5302

3.63
0.86

5.32
4.76

0.0932
0.4981

Moemo vidjeti da na provjeru za faktor B nain randomizacije faktora A nije imao utjecaja. Meutim
blokovi su imali znaajan utjecaj na preciznost provjere za faktor A. U pokusima sa panjacima poznato
je da su blie parcele slinije nego udaljenije. Zbog toga je split plot plan sa sluajnim blok planom
primijenjen na glavne plotove u ovom sluaju adekvatniji. Ova dva primjera slikovito pokazuju
ralanjenje suma kvadrata. Primijetite da je suma kvadrata za plot(A) jednaka zbroju sume kvadrata za
blokove i sumi kvadrata A x Blok (238.667 = 212.583 + 26.083).
Ukratko spomenimo kada se split plot plan moe koristiti:
1) kada jedan faktor zahtjeva vie pokusnog materijala nego neki drugi faktor. To se obino dogaa u
poljskim ili laboratorijskim pokusima. Npr., u poljskim pokusima jedan od faktora moe biti metoda
pripreme zemlje ili aplikacija gnojiva. Takav faktor trai velike pokusne jedinice pa se primjenjuje na
glavne jedinice (plotove). Drugi faktor moe biti varijetet koji se mogu usporeivati na subjedinicama.
2) Kada se jedan faktor primjenjuje kasnije. Taj faktor se primjenjuje na subjedinice (faktor B).
3) Iz prijanjih informacija moe biti poznato da se vee razlike oekuju izmeu razina nekog faktora
nego izmeu razine nekog drugog faktora, tj. Oekuje se da e varijabilnost izmeu cijelih jedinica biti
vea nego ona izmeu subjedinica.
U tom sluaju faktor sa veim razlikama bi se trebao primijeniti na cijele jedinice.
4) Ako je vea preciznost potrebna za jedan od faktora. Taj faktor se primjenjuje na subjedinice (faktor
B).

20.3 SAS program za split-plot plan


Izraunajmo primjer sa mlijenim kravama drane su na pai i istraivanjima utjecaja 4 razliita naina
tretiranja panjaka i 2 razliita mineralna dodatka na proizvodnju mlijeka. Glavni plot postavljen je kao
sluajni blok plan.
SAS program:
options ls=80 pageno=1;

20191

title 'Split Plot Design';


data Spltblok;
input Blok A B mlijeko;
datalines;
1 4 2 30
1 4 1 29
1 1 2 27
1 1 1 25
1 2 1 26
1 2 2 28
1 3 2 26
1 3 1 24
2 2 1 32
2 2 2 37
2 1 2 30
2 1 1 31
2 4 1 34
2 4 2 37
2 3 1 33
2 3 2 32
3 1 2 34
3 1 1 31
3 2 1 30
3 2 2 31
3 4 2 36
3 4 1 38
3 3 1 33
3 3 2 32
;
PROC GLM DATA = spltblok;
CLASS Blok A B;
MODEL mlijeko = Blok A Blok*A B A*B;
RANDOM blok blok*A /TEST;
RUN;
PROC MIXED DATA = spltblok;
CLASS Blok A B;
MODEL mlijeko = A B A*B;
RANDOM blok blok*A /;
LSMEANS A B /pdiff tdiff adjust=tukey ;
RUN;
QUIT;

Objanjenje: Koristimo proceduru GLM ili MIXED. Naredba CLASS definira klasifikacijske varijable.
Naredba MODEL definira koje su varijable zavisne, a koje nezavisne. Naredba RANDOM definira koji
su utjecaji sluajni. Opcija TEST kod naredbe RANDOM u proceduri GLM koristi F-provjeru sa
odgovarajuim pokusnim grekama u nazivniku. Procedura MIXED automatski uzima odgovarajue
pokusne greke (NE postoji i nije potrebna opcija TEST). LSMEANS rauna prosjeke grupa korigirane
na utjecaje u modelu. Oznake iza kose crte trae da se izraunaju standardne greke, i provjere razlike
izmeu parova prosjeka grupa koristei Tukey provjeru sa razinom znaajnosti = 0.05. Naredba
LSMEANS ovdje ej definirana samo u proceduri MIXED, jer ovdje su definirane korektne standardne
greke.
SAS ispis:
The GLM Procedure

20192

Dependent Variable: mlijeko


Source
Model
Error
Corrected Total

Sum of
Squares
323.8333333
18.0000000
341.8333333

DF
15
8
23

R-Square
0.947343

Coeff Var
4.825737

Source
Blok
A
Blok*A
B
A*B

DF
2
3
6
1
3

Mean Square
21.5888889
2.2500000

Root MSE
1.500000

Type III SS
212.5833333
71.1666667
26.0833333
8.1666667
5.8333333

F Value
9.60

Pr > F
0.0015

mlijeko Mean
31.08333

Mean Square
106.2916667
23.7222222
4.3472222
8.1666667
1.9444444

F Value
47.24
10.54
1.93
3.63
0.86

Pr > F
<.0001
0.0037
0.1909
0.0932
0.4981

The GLM Procedure


Source
Blok
A
Blok*A
B
A*B

Type III Expected Mean Square


Var(Error) + 2 Var(Blok*A) + 8 Var(Blok)
Var(Error) + 2 Var(Blok*A) + Q(A,A*B)
Var(Error) + 2 Var(Blok*A)
Var(Error) + Q(B,A*B)
Var(Error) + Q(A*B)
The GLM Procedure
Tests of Hypotheses for Mixed Model Analysis of Variance

Dependent Variable: mlijeko


Source
DF
Type III SS
Mean Square F Value
Blok
2
212.583333
106.291667
24.45
* A
3
71.166667
23.722222
5.46
Error: MS(Blok*A)
6
26.083333
4.347222
* This test assumes one or more other fixed effects are zero.

Pr > F
0.0013
0.0377

Source
DF
Type III SS
Mean Square F Value
Blok*A
6
26.083333
4.347222
1.93
* B
1
8.166667
8.166667
3.63
A*B
3
5.833333
1.944444
0.86
Error: MS(Error)
8
18.000000
2.250000
* This test assumes one or more other fixed effects are zero.

Pr > F
0.1909
0.0932
0.4981

The Mixed Procedure


Covariance Parameter Estimates
Cov Parm
Blok
Blok*A
Residual

Estimate
12.7431
1.0486
2.2500

The Mixed Procedure


Type 3 Tests of Fixed Effects
Effect
A
B
A*B

Num
DF
3
1
3

Den
DF
6
8
8

F Value
5.46
3.63
0.86

Least Squares Means


Standard

20193

Pr > F
0.0377
0.0932
0.4981

Effect
A
A
A
A
B
B

A
1
2
3
4

1
2

Estimate
29.6667
30.6667
30.0000
34.0000
30.5000
31.6667

Error
2.2298
2.2298
2.2298
2.2298
2.1266
2.1266

DF
6
6
6
6
8
8

t Value
13.30
13.75
13.45
15.25
14.34
14.89

Pr > |t|
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001

Differences of Least Squares Means


Effect

A
A
A
A
A
A
B

1
1
1
2
2
3
1

_A
2
3
4
3
4
4
2

_B

Estimate

Standard
Error

DF

t Value

Pr > |t|

-1.0000
-0.3333
-4.3333
0.6667
-3.3333
-4.0000
-1.1667

1.2038
1.2038
1.2038
1.2038
1.2038
1.2038
0.6124

6
6
6
6
6
6
8

-0.83
-0.28
-3.60
0.55
-2.77
-3.32
-1.91

0.4379
0.7911
0.0114
0.5997
0.0325
0.0159
0.0932

Adjustment
Tukey-Kramer
Tukey-Kramer
Tukey-Kramer
Tukey-Kramer
Tukey-Kramer
Tukey-Kramer
Tukey-Kramer

Differences of Least
Squares Means
Effect

A
A
A
A
A
A
B

1
1
1
2
2
3
1

_A

_B

2
3
4
3
4
4
2

Adj P
0.8385
0.9918
0.0427
0.9421
0.1135
0.0587
0.0932

Objanjenje: Prva tablica u isspisu GLM procedure je ANOVA tablica za zavisnu varijablu (Dependent
Varijable) mlijeko. Izvori varijabilnosti (Source) su Model, ostatak (Error) i ukupno (Corrected Total).
U tablici su prikazani stupnjevi slobode (DF), sume kvadrata (Sum of Squares), sredina suma kvadrata
(Mean Square), izraunati F (F-value) i P-vrijednost (Pr > F). Slijedea tablica sa protumaenim
izvorima varijabilnosti uglavnom nije korektna jer je za sve utjecaje uzet ostatak kao pokusna greka.
Zato tu tablicu treba preskoiti. Slijedea tablica (Type III Expected Mean Square) prikazuje
oekivanja odnosno strukturu sredina suma kvadrata i naznauje kako bi trebalo provjeravati pojedine
utjecaju u modelu. Pravilna provjera je dana u tablici Test of Hypotheses for Mixed Model Analysis of
Variance (provjera hipoteza modela sa fiksnim i sluajnim utjecajima). Ovdje su dvije ANOVA tablice
svaka sa utjecajima provjeravana sa odgovarajuim pokusnim grekama. Za Blok i faktor A
odgovarajua pokusna greka je interakcija Blok*A (MS Blok*A). Za Blok*A, faktor B i interakciju
A*B odgovarajua pokusna greka je ostatak (MS Error). P-vrijednosti za faktor A je 0.0377, a za
faktor B 0.0932.
Procedura MIXED daje komponente varijance za sluajne utjecaje (Covariance Parameter Estimates) i
F-provejru za fiksne utjecaje (Type 3 Test of Fixed Effects). Ova provjera mora biti ista kao i kod GLM
za model sa istim brojem opaanja po plotovima i subplotovima. Ukoliko je broj opaanja razliit
potrebno je koristiti proceduru MIXED. U tablici Least Squares Means prikazane su korigirane srednje
vrijednosti (Estimate) zajedno sa standardnim grekama (Standard Error). U tablici Differences of
Least Squares Means prikazane su razlike izmeu pojedinih razina faktora A i B (Estimate). Dalje, te
razlike su provjeravane Tukey-Kramer procedurom, koja korigira provjeru na multiple provjere i
nejednaki broj po pokusnih jedinica po razinama faktora. Kao P-vrijednost treba gledati korigiranu Pvrijednsot (Adj P) u zakljuivanju znaajnosti razlika prosjeka iz uzorka. Na primjer P-vrijednost
izmeu razina 3 i 4 faktora A iznosi 0.0587.

20194

Vjebe:
20.1. Istraivan je utjecaj vrste trave na panjaku i optereenost panjaka na prirast janjadi Suffolk
pasmine. Pokus je postavljen kao spli-plot plan, na tri razliita panjaka. Na svakom panjaku za pokus
je uzet jedan hektar. Panjak je podijeljen u dva plota, veliine 0.5 ha. U jedan plot je posijana festuka a
u drugu ljulj. Svaki plot je zatim podijeljen u dvije sub jedinice na koje je putena grupa janjadi sa
razliitim brojem: 20 i 24. Pokus je trajao dva tjedna. Na kraju pokusa izmjereni su slijedei dnevni
prirasti:
Panja
k
1
1
1
1
2
2
2
2
3
3
3
3

Trava
festuka
festuka
ljulj
ljulj
festuka
festuka
ljulj
ljulj
festuka
festuka
ljulj
ljulj

Optereenos
t
20
24
20
24
20
24
20
24
20
24
20
24

Dnevni prirast
290
310
310
330
320
350
380
400
320
320
380
410

Napiite shemu pokusa. Provjerite utjecaje trava i optereenosti panjaka:

20195

21 Klasifikacijski modeli sa
kovarijablom - analiza kovarijance
Varijabilnost zavisne varijable moe biti objanjena i klasifikaciskom i kontinuiranom nezavisnom
varijablom. Kontinuirana varijabla u takvom modelu esto se zove i kovarijabla ili kovarijanta., a takva
analiza se popularno zove analiza kovarijance. Kovarijabla se ukljuuje u klasifikacijski model radi:
1) kontrole pokusne greke i poveanja preciznosti,
2) korigiranja prosjeka tretmana,
3) procjene izgubljenih podataka.
U irem smislu analiza kovarijance moe ukljuiti i provjeru razlika nagiba krivulja izmeu grupa, ako
pretpostavimo da postoji interakcija izmeu klasifikacijske i kontinuirane varijable, tj. da za svaku
grupu postoji posebna regresijska krivulja.

21.1 Potpuno sluajni pokusni plan sa kovarijablom


U potpuno sluajnom planu s kovarijablom, analiza kovarijance slui za korigiranje prosjeka tretmana,
kontrolu pokusne greke i poveanje preciznosti.
Statistiki model je:
yij = 0 + 1xij + i + ij

i = 1,.....,a

j = 1,...,n

Gdje su:
yij = Opaanje jedinice j u grupi i (tretmanu i)
0 = odsjeak na y osi
1 = regresijski koeficijent
xij = kontinuirana nezavisna varijabla sa prosjekom x
i = fiksni utjecaj grupe ili tretmana i
ij = greka modela sa N(0, 2)
Ukupni prosjek je = 0 + 1x ,
a prosjek grupe i je: i = 0 + 1x + i .
U ovakvom modelu analize kovarijance pretpostavke su slijedee:
1) kovarijabla je fiksna i nezavisna od tretmana
2) greke su nezavisne jedna od druge
3) greka ima normalnu raspodjelu sa prosjekom 0 i homogenom varijancom.
Primjer: Istraivan je utjecaj tri smjese na prirast u tovu junadi. Plan je postavljen kao potpuno sluajni
plan, ali je isto tako uzeta u obzir i poetna teina prilikom ulaska u pokus. Na kraju pokusa izmjereni
su slijedei prirasti:

21196

Grupa A
Poetna
Prirast
teina (kg) (g/dan)
350
970
400
1000
360
980
350
980
340
970

Grupa B
Poetna
Prirast
teina (kg) (g/dan)
390
990
340
950
410
980
430
990
390
980

Grupa C
Poetna
Prirast
teina (kg) (g/dan)
400
990
320
940
330
930
390
1000
420
1000

Izraunajmo prvo utjecaj tretmana bez obzira na poetnu teinu, dakle kao potpuno sluajni plan.
Prikazat emo samo Anova tablicu:
Izvor
Tretman
Ostatak
Ukupno

SS
173.333
6360.000
6533.333

St.sl
2
12
14

.MS=SS/St.sl.
86.667
530.000

F
0.16

Fkritino
3.89

P
0.8510

Ukljuimo sada poetnu teinu kao kovarijantu u model. Anova tablica je:
Izvor
Poetna teina
Tretman
Ostatak
Ukupno

SS
4441.253
1050.762
1041.319
6533.333

St.sl
.MS=SS/St.sl.
1
4441.253
2
525.381032
11
94.665
14

F
46.92
5.55

Fkritino
4.60
3.74

P
<.0001
0.0216

ini se da je prvi model potpuno pogrean, jer ne samo da nije mogue odrediti znaajne razlike izmeu
tretmana nego je i snaga modela slaba. Ukljuivanjem poetne teine u model dobivena je znaajna
razlika izmeu tretmana. Da bi se vidjelo izmeu kojih tretmana postoji znaajna razlika potrebno je
koristiti korigirane srednje vrijednosti i odgovarajue multiple usporedbe koje vre korekciju srednjih
vrijednosti i kritine razlike.

21.2 SAS program za potuno sluajni plan sa kovarijablom


Pogledajmo primjer istraivanja utjecaj tri smjese na prirast u tovu junadi. Plan je postavljen kao
potpuno sluajni plan, ali je isto tako uzeta u obzir i poetna teina prilikom ulaska u pokus. Na kraju
pokusa izmjereni su slijedei prirasti:
Grupa A
Poetna
Prirast
teina (kg) (g/dan)
350
970
400
1000
360
980
350
980
340
970

Grupa B
Poetna
Prirast
teina (kg) (g/dan)
390
990
340
950
410
980
430
990
390
980

Grupa C
Poetna
Prirast
teina (kg) (g/dan)
400
990
320
940
330
930
390
1000
420
1000

SAS program:
21197

DATA prirast;
INPUT tretman $ pocetna prirast @@;
DATALINES;
A 350
970
A 400
1000
A 360
980
A 350
980
A 340
970
;

B
B
B
B
B

390
340
410
430
390

990
950
980
990
980

C
C
C
C
C

400
320
330
390
420

990
940
930
1000
1000

PROC GLM;
CLASS tretman;
MODEL prirast = pocetna tretman / SOLUTION;
LSMEANS tretman / STDERR PDIFF TDIFF ADJUST=TUKEY;
RUN;
QUIT;

Objanjenje: Koristimo proceduru GLM. Naredba CLASS definira klasifikacijsku varijablu. Naredba
MODEL Prirast = pocetna tretman znai da je zavisna varijabla prirast a nezavisne su tretman i
pocetna. Poto pocetna nije u CLASS naredbi program ju uzima kao kontinuiranu varijablu
(kovarijablu). LSMEANS rauna prosjeke tretmana korigirane na utjecaj kovarijable. Opcije iza kose
crte trae da se izraunaju standardne greke, i provjere razlike izmeu parova prosjeka grupa koristei
Tukey provjeru sa razinom znaajnosti = 0.05.
SAS ispis:
The GLM Procedure
Dependent Variable: prirast
Source
Model
Error
Corrected Total
R-Square
0.840614

Sum of
Squares
5492.014652
1041.318681
6533.333333

DF
3
11
14

Coeff Var
0.996206

Mean Square
1830.671551
94.665335

Root MSE
9.729611

F Value
19.34

Pr > F
0.0001

prirast Mean
976.6667

Source
pocetna
tretman

DF
1
2

Type I SS
4441.252588
1050.762064

Mean Square
4441.252588
525.381032

F Value
46.92
5.55

Pr > F
<.0001
0.0216

Source

DF

Type III SS

Mean Square

F Value

Pr > F

1
2

5318.681319
1050.762064

5318.681319
525.381032

56.18
5.55

<.0001
0.0216

pocetna
tretman

Parameter
Intercept
pocetna
tretman
A
tretman
B
tretman
C

Estimate
747.1648352
0.6043956
15.2527473
-6.0879121
0.0000000

B
B
B
B

Standard
Error
30.30956710
0.08063337
6.22915600
6.36135441
.

t Value
24.65
7.50
2.45
-0.96
.

Pr > |t|
<.0001
<.0001
0.0323
0.3591
.

NOTE: The X'X matrix has been found to be singular, and a generalized inverse
was used to solve the normal equations. Terms whose estimates are
followed by the letter 'B' are not uniquely estimable.
The GLM Procedure

21198

Least Squares Means


Adjustment for Multiple Comparisons: Tukey-Kramer
prirast
LSMEAN
988.864469
967.523810
973.611722

tretman
A
B
C

Standard
Error
4.509065
4.570173
4.356524

LSMEAN
Number
1
2
3

Pr > |t|
<.0001
<.0001
<.0001

Least Squares Means for Effect tretman


t for H0: LSMean(i)=LSMean(j) / Pr > |t|
Dependent Variable: prirast
i/j

1
1
2
3

-3.19824
0.0213
-2.44861
0.0765

3.198241
0.0213

2.448606
0.0765
-0.95702
0.6175

0.957015
0.6175

Objanjenje: Prva tablica je ANOVA tablica za zavisnu varijablu (Dependent Varijable) prirast. Izvori
varijabilnosti (Source) su Model, ostatak (Error) i ukupno (Corrected Total). U tablici su prikazani
stupnjevi slobode (DF), sume kvadrata (Sum of Squares), sredina suma kvadrata (Mean Square),
izraunati F (F-value) i P-vrijednost (Pr > F). U slijedee dvije tablice protumaeni izvori varijabilnosti
(MODEL ) su ralanjeni na pocetna i tretman. Jedna tablica provjere temelji na sekvencijskim
sumama kvadrata (Type I SS), a druga sa parcijalnim sumama kvadrata (Type III SS). Za ovu analizu
korektno je koristiti sekvencijske sume kvadrata. Vidljivo je da za tretmane izraunati F i P-vrijednost
su 5.55 i 0.0216. Dakle moemo rei da je utjecaj tretmana bio znaajan u uzorcima. Slijedea tablica
prikazuje procijene parametara. Oznaka B kod procjena oznaava da nema jedinstvenog rjeenja. Dakle
samo nagib regresijskog pravca (oznaeno kao pocetna) ima jedinstveno rjeenje (0.6043956). Puno
informativnije su korigirane srednje vrijednosti u slijedeoj tablici pod naslovom Least Squares Means.
Dane su korigirane srednje vrijednosti (LSMEAN) sa standardnim grekama (Standard Error) Na kraju
je i Tukey provjera izmeu svih parova prosjeka grupa. Prikazana je razlika sa pripadajuom Pvrijednosti. Tako u koloni 3 i redu 1 brojevi 2.448606 i 0.0765 znae razliku i P-vrijednost izmeu
tretmana 1 i 3. P-vrijednosti korigirane su na utjecaje u modelu i eventualni nejednaki broj po grupama.

21.3 Provjera razlika izmeu nagiba regresijskih krivulja pojedinih


grupa
Ako pretpostavimo da postoji interakcija izmeu klasifikacijske varijable (grupe) i kontinuirane
varijable (kovarijable), model e biti drugaiji. Pretpostavka je da za svaku grupu postoji posebna
regresijska krivulja. Model je:
yij = 0 + i + 1xij + ()i + ij

i = 1,.....,a

yij = Opaanje jedinice j u grupi i


0 = odsjeak na y osi korigiran na utjecaje grupa
i = fiksni utjecaj grupe i
1 = regresijski koeficijent korigiran na utjecaje grupe
xij = kontinuirana nezavisna varijabla sa prosjekom x
()i = interakcija grupa x kovarijabla
ij = greka modela sa N(0, 2)
21199

j = 1,...,n

Ukupni prosjek je = 0 + 1x ,
a prosjek grupe i je: i = 0 + i + 1x + ()i
Odsjeak na y osi za regresiju u grupi i je:
0 + i ,
a nagib regresije za pojedinu grupu i je:
1xij + ()i
Kategorike nezavisne varijable mogu se analizirati i kroz pravi regresijski model. Naime, pojedinoj
grupi ili tretmanu mogu se pridruiti kodovi, obino 0 i 1, i na taj nain promatrati kao nezavisna
regresijska varijabla. Kod 1 znai da opaanje pripada, a 0 znai da ne pripada odreenoj grupi ili
tretmanu. Uzmimo na primjer regresiju y na x, a ivotinje su grupirane prema spolu. Moe nas
zanimati:
a) da li su potrebne dvije krivulje da se objasni regresija, tj, za svaki spol posebna krivulja, ili
b) da li postoji razlika u nagibu regresija za muke i enske ivotinje, tj. da li su regresije paralelne.
Model moemo pisati:
yi= 0 + 1x1i + 2x2i+ 3x1ix2i + i
Ovdje je x1i kontinuirana varijabla a x2i kvalitativna varijabla. Izraz x1ix2i odgovara interakciji izmeu x1i
i x2i. Varijablu x2i definiramo:
x2i = (1 ako je muka ivotinja, ili 0 ako je enska ivotinja)
Na slici 20-1 prikazani su mogui modeli koji bi opisali promjenu zavisne varijable zbog promjene
nezavisne varijable, ali i pripadnosti razliitom spolu.

c)

b)

a)
y

M+

Slika 21-1. Regresijski modeli sa spolom kao kategorikom nezavisnom varijablom:. a) nema razlike
izmeu mukih (M) i enskih ivotinja (), b) razlike postoje izmeu mukih i enskih ivotinja i ta je razlika
konstantna c) , razlike postoje izmeu mukih i enskih ivotinja i ta se razlika mijenja kako se mijenja
kontinuirana nezavisna varijabla
Moemo pretpostaviti tri modela od kojih samo jedan odgovara postavljenom problemu, a koji je
adekvatan treba provjeriti.
Model a): Nema razlike izmeu mukih i enskih ivotinja. Oekivanje zavisne varijable je:
E(yi) = 0 + 1xi
Dakle dovoljno je imati samo jedan model koji e opisati promjenu zavisne varijable y kada se mijenja
nezavisna varijabla x.
21200

Model b): Razlika u krivuljama konstantna je za bilo koji x1i, tj. krivulje su paralelne
E(yi) = 0 + 1x1i + 2x2i
Odnosno za muke ivotinje (M) model je:
E(yi) = 0 + 1x1i + 2(1)
= (0 + 2) + 1x1i
a za enske ivotinje () model je
E(yi) = 0 + 1x1i + 2(0)
= 0 + 1x1i
Postavljanjem hipoteze H0: 2 = 0, protiv H1: 2 0 provjeravamo da li ista linija objanjava regresiju i
za muke i za enske ivotinje. Ako vrijedi H0 krivulje su iste, a ako vrijedi H1, krivulje su razliite ali
paralelne. Razlika izmeu mukih i enskih ivotinja je uvijek jednaka 2.
Model c): Razlika u krivuljama oituje se i u razliitim nagibima, tj. postoji interakcija izmeu xi1 i xi2.
Openiti model je:
E(yi)= 0 + 1x1i + 2x2i+ 3x1ix2i
Model za muke ivotinje (M) je:
E(yi) = (0 + 2) + (1 + 3)x1i
Model za enske ivotinje () je:
E(yi) = 0 + 1x1i + 2(0)+ 3x1i(0) = 0 + 1x1i
Provjera hipoteze H0: 3 = 0 protiv H1: 3 0, provjerava da li su nagibi krivulja jednaki Ukoliko vrijedi
H0, nema interakcije i nagibi regresija su isti kod oba spola.
Primjer: Istraivan je utjecaj dvije smjese na prirast u tovu junadi. Plan je postavljen kao potpuno
sluajni plan, ali je isto tako uzeta u obzir i poetna teina prilikom ulaska u pokus. Na kraju pokusa
izmjereni su slijedei prirasti:
Grupa A
Grupa B
Pocetna
Prirast
Poetna
Prirast
teina (kg) (kg/dan) teina (kg) (kg/dan)
340
900
340
920
350
950
360
930
350
980
370
950
360
980
380
930
370
990
390
930
380
1020
410
970
400
1050
430
990
Zanimalo nas je da li razlika izmeu prirasta znaajna i da li je poetna teina razliito utjecala na
prirast junadi hranjena razliitom smjesom.
Na slici 20-2 moe se vidjeti jasnu linearnu vezu izmeu poetne teine i dnevnog prirasta u pokusu.
Takoer se moe primijetiti razliiti nagibi po grupama, to ukazuje na moguu interakciju.

21201


  

1100
1000
900

Grupa A

800
700
300

Grupa B
350

400

450

Po     


Slika 21-2 Promjena dnevnog prirasta junadi u ovisnosti o poetnoj teini i pripadnosti grupi
Za opis problema i provjeru hipoteza koriten je slijedei model:
yi= 0 + 1x1i + 2x2i+ 3x1ix2i + i
yi = prirast juneta i
0, 1, 2, 3 = regresijski parametri
x1i = poetna teina juneta i
x2i = pripadnost grupi (1 ako je grupa A, 0 ako je grupa B)
x1ix2i = interakcija grupa x poetna teina
ij = greka modela sa N(0, 2)
Hipoteze su:
H0: 2 = 0, protiv H1: 2 0
Ako vrijedi H0 krivulje su iste, a ako vrijedi H1, krivulje su razliite ali paralelne.
H0: 3 = 0 protiv H1: 3 0
Ako vrijedi H0 , nema interakcije i nagibi regresija u obje grupe su jednaki.
Prikaimo rezultate u ANOVA tablici:
Izvor
Model
Ostatak
Ukupno

SS
19485.524
2835.905
22321.429

St.sl
.MS=SS/St.sl.
3
6495.175
10
283.590
13

F
22.90

Fkritino
3.71

P
<0.0001

Nul hipoteze da li su pojedini parametri jednaki nuli moemo provjeriti t-provjerom. Procijene
parametara zajedno sa standardnim grekama i t-provjerom prikazane su u slijedeoj tablici:
Parametar
0
1
2
3

Procjena
663.505
0.737
-469.338
1.424

Std. greka
86.833
0.226
149.050
0.402

t-statistika
7.641
3.259
-3.149
3.544

t-kritino
2.228
2.228
2.228
2.228

P-vrijednost
0.0001
0.0086
0.0104
0.0053

Vidljivo je iz tablice da su svi parametri potrebni u modelu, tj. Utvren je utjecaj poetne teine, grupe, i
interakcije grupa x poetna teina.
21202

Za grupu A procijenjeni regresijski pravac je:


E(yi) = (0 + 2) + (1 + 3) x1i = (663.505-496.338) + (0.737+1.424) x1i = 194.167 + 2.161 x1i
Za grupu A procijenjeni regresijski pravac je:
E(yi) = 0 + 1 x1i = 663.505 + 0.737 x1i

21.4 SAS program za provjeru razlike nagiba regresijskih krivulja


Pogledajmo SAS program sa primjerom sa utjecajem dvije smjese na prirast u tovu junadi. Zanima nas
da li postoji razlika izmeu nagiba linearnih regresija prirasta na poetnu teinu izmeu grupa.
Podsjetimo se podataka:
Grupa A
Grupa B
Pocetna
Prirast
Poetna
Prirast
teina (kg) (kg/dan) teina (kg) (kg/dan)
340
900
340
920
350
950
360
930
350
980
370
950
360
980
380
930
370
990
390
930
380
1020
410
970
400
1050
430
990

SAS program
DATA prirast;
INPUT tretman $ pocetna prirast;
DATALINES;
A
340
900
A
350
950
A
350
980
A
360
980
A
370
990
A
380
1020
A
400
1050
B
340
920
B
360
930
B
370
950
B
380
930
B
390
930
B
410
970
B
430
990
;
PROC GLM;
CLASS tretman;
MODEL prirast = pocetna tretman tretman*pocetna / SOLUTION;
RUN;
PROC GLM;
CLASS tretman;
MODEL prirast = tretman tretman*pocetna / NOINT SOLUTION;
RUN;

21203

QUIT;

Objanjenje: Koristimo proceduru GLM. Naredba CLASS definira klasifikacijsku varijablu. Naredba
MODEL Prirast = pocetna tretman tretman*pocetna znai da je zavisna varijabla prirast, a nezavisne
tretman kao kategorika varijabla, pocetna kao kontinuirana varijabla, te interakcija tretman*prirast.
Provjera interakcije tretman*pocetna govori da li su regresije razliite po grupama. Vidljivo je da je
procedura GLM dva puta napisana. Prva analiza daje korektnu F-provjeru utjecaja, a druga pravilne
procijene regresijskih koeficijenata.
SAS rezultati:
General Linear Models Procedure
Dependent Variable: PRIRAST
DF
3
10
13

Sum of
Squares
19485.52365
2835.90493
22321.42857

Mean
Square
6495.17455
283.59049

R-Square
0.872951

C.V.
1.747680

Root MSE
16.84015

Source
POCETNA
TRETMAN
POCETNA*TRETMAN

DF
1
1
1

Type I SS
5750.54735
10173.11966
3561.85664

Mean Square
5750.54735
10173.11966
3561.85664

F Value
20.28
35.87
12.56

Pr > F
0.0011
0.0001
0.0053

Source
POCETNA
TRETMAN
POCETNA*TRETMAN

DF
1
1
1

Type III SS
14754.41198
2811.91325
3561.85664

Mean Square
14754.41198
2811.91325
3561.85664

F Value
52.03
9.92
12.56

Pr > F
0.0001
0.0104
0.0053

Source
Model
Error
Corrected Total

Parameter
INTERCEPT
POCETNA
TRETMAN

A
B
POCETNA*TRETMAN A
B

Estimate
663.5051546
0.7371134
-469.3384880
0.0000000
1.4239977
0.0000000

B
B
B
B
B
B

T for H0:
Parameter=0
7.64
3.26
-3.15
.
3.54
.

F Value
22.90

Pr > F
0.0001

PRIRAST Mean
963.5714

Pr > |T|
0.0001
0.0086
0.0104
.
0.0053
.

Std Error of
Estimate
86.8331663
0.2261929
149.0496788
.
0.4018065
.

NOTE: The X'X matrix has been found to be singular and a generalized inverse
was used to solve the normal equations.
Estimates followed by the
letter 'B' are biased, and are not unique estimators of the parameters.

General Linear Models Procedure


Parameter
TRETMAN

A
B
POCETNA*TRETMAN A
B

Estimate
194.1666667
663.5051546
2.1611111
0.7371134

T for H0:
Parameter=0
1.60
7.64
6.51
3.26

Pr > |T|
0.1401
0.0001
0.0001
0.0086

Std Error of
Estimate
121.1437493
86.8331663
0.3320921
0.2261929

Prva tablica je ANOVA tablica za zavisnu varijablu (Dependent Varijable) prirast. Izvori
varijabilnosti (Source) su Model, ostatak (Error) i ukupno (Corrected Total). U tablici su prikazani
stupnjevi slobode (DF), sume kvadrata (Sum of Squares), sredina suma kvadrata (Mean Square),
izraunati F (F-value) i P-vrijednost (Pr > F). U slijedee dvije tablice protumaeni izvori varijabilnosti
(MODEL ) su ralanjeni na pocetna i tretman. Jedna tablica provjere temelji na sekvencijskim
21204

sumama kvadrata (Type I SS), a druga sa parcijalnim sumama kvadrata (Type III SS). u ovoj analizi
najvanija je provjera koji su regresijski koeficijenti potrebni u modelu. Slijedea tablica prikazuje
procijene parametara zajedno sa standardnim grekama i t-provjerama. Oznaka B kod procjena
oznaava da nema jedinstvenog rjeenja. Puno je informativnija zadnja tablica koja je dio ispisa druge
GLM procedure u SAS programu. Ona daje procjene regresijskih koeficijenata za oba tretmana.
Regresija u tretmanu A je:
Y = 194.1666667 + 2.161111x,
a regresija u tretmanu B:
Y = 663.5051546 + 0.7371134x.

21205

Rjeenja vjebi
2.1. Prosjek = 26.625; Varijanca = 3.625; Standardna devijacija = 1.9039; Koeficijent varijacije =
7.15%; Medijan = 26; Mode = 26.
2.2. Varijanca = 22.6207
2.3. Broj opaanja = 46; Prosjek = 20.0869; Varijanca = 12.6145; Standardna devijacija = 3.5517;
Koeficijent varijacije = 17.68 5%.
2.4. Broj opaanja = 17; Prosjek = 28.00; Varijanca = 31.3750; Standardna devijacija = 5.6013;
Koeficijent varijacije = 20.00%.
3.1. a) 2/3; b) 1/3; c) 5/12; d) 11/24; e) 3/4.
4.1. a) 010292; b) 0.38278
4.2. Ordinata = 0.22988
4.3. a) 0.5 b) 0.025921; c) .10133; d) 184.524; e) 211.664.
4.4. a) 52; b) 10; c) 67; d) 16.9; e) 300 f) 360.
4.5. a) 0.36944; b) 0.63055; c) 0.88604; d) 4.30235; e) 4.48133.
6.1. (26.0161; 27.2339)
6.2. (19.0322; 21.1417)
6.3. (25.1200572; 30.8799)
7.1. z = 1.7678; P-vrijednost = 0.0833
7.2. t = 2.0202, stupnja slobode = 16; P-vrijednost = 0.0605.
7.3. t = 6.504
7.4. Hi-kvadrat = 21.049; P-vrijednost = 0.0008
7.5. Hi-kvadrat = 7.50; P-vrijednost = 0.0062
7.6. z = 2.582
7.7. z = 3.015
8.1. b0 = 25.4286; b1 = 8.5714; F = 12.384; P-vrijednost = 0.0079; R2 = 0.6075;
8.2. b0 = 1.2959; b1 = 0.334014; F = 8.318; P-vrijednost = 0.0279; R2 = 0.5809;
8.3. a) ishodite izmeu 1985 i 1986 godine; b0 = 93.917; b1 = -1.470; c) oekivani broj konja u 1992
godini je 74.803
9.1. r = 0.483, P-vrijednost =0.132
9.2. r = 0.65; t = 3.084; P-vrijednost =0.0081
13.1. MSTRT = 41.68889; MSOST = 9.461; F = 4.41; P-vrijednost = 0.0137
13.2. MSTRT = 28.1575; MSOST = 3.2742; F = 8.60; P-vrijednost = 0.0082
13.3. 2 + 20 2= 1050.5; 2 = 210; intraklasna korelacija = 0.8334
16.1. MSTRT = 26.6667; MSBLOK = 3,125; MSOST = 1.7917; F za tretmane = 14.88; P-vrijednost =
0.0002
17.1.
Izvor
KVAD
SVINJA(KVAD)
PERIOD(KVAD)
TRT

St.sl.
2
6
6
2

SS
1.81555556
22.21111111
2.31777778
4.74000000

MS
0.90777778
3.70185185
0.38629630
2.37000000

F
0.42
1.73
0.18
1.11

P-vrijednost
0.6658
0.2120
0.9759
0.3681

18.1.
Izvor
SACMA1
ENERG1
SACMA1*ENERG1

Ostatak

St.sl.
2
1
2

SS
41.37500000
154.08333333
61.79166667

42

MS
20.68750000
154.08333333
30.89583333

444.75000000

20.1.
21206

F
1.95
14.55
2.92

10.58928571

P-vrijednost
0.1544
0.0004
0.0651

Izvor
TRAVA
OPTER
TRAVA*OPTER

St.sl.brojnika
1
1
1

St.sl. nazivnika
2
4
4

F
9.68
18.00
0.50

21207

P - vrijednost
0.0897
0.0132
Statistike tablice

Statistike tablice

21208

Ordinate standardne normalne krivulje

f(z)
z

0.00

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.0
0.1
0.2
0.3
0.4

0.398942
0.396953
0.391043
0.381388
0.368270

0.398922
0.396536
0.390242
0.380226
0.366782

0.398862
0.396080
0.389404
0.379031
0.365263

0.398763
0.395585
0.388529
0.377801
0.363714

0.398623
0.395052
0.387617
0.376537
0.362135

0.398444
0.394479
0.386668
0.375240
0.360527

0.398225
0.393868
0.385683
0.373911
0.358890

0.397966
0.393219
0.384663
0.372548
0.357225

0.397668
0.392531
0.383606
0.371154
0.355533

0.397330
0.391806
0.382515
0.369728
0.353812

0.5
0.6
0.7
0.8
0.9

0.352065
0.333225
0.312254
0.289692
0.266085

0.350292
0.331215
0.310060
0.287369
0.263688

0.348493
0.329184
0.307851
0.285036
0.261286

0.346668
0.327133
0.305627
0.282694
0.258881

0.344818
0.325062
0.303389
0.280344
0.256471

0.342944
0.322972
0.301137
0.277985
0.254059

0.341046
0.320864
0.298872
0.275618
0.251644

0.339124
0.318737
0.296595
0.273244
0.249228

0.337180
0.316593
0.294305
0.270864
0.246809

0.335213
0.314432
0.292004
0.268477
0.244390

1.0
1.1
1.2
1.3
1.4

0.241971
0.217852
0.194186
0.171369
0.149727

0.239551
0.215458
0.191860
0.169147
0.147639

0.237132
0.213069
0.189543
0.166937
0.145564

0.234714
0.210686
0.187235
0.164740
0.143505

0.232297
0.208308
0.184937
0.162555
0.141460

0.229882
0.205936
0.182649
0.160383
0.139431

0.227470
0.203571
0.180371
0.158225
0.137417

0.225060
0.201214
0.178104
0.156080
0.135418

0.222653
0.198863
0.175847
0.153948
0.133435

0.220251
0.196520
0.173602
0.151831
0.131468

1.5
1.6
1.7
1.8
1.9

0.129518
0.110921
0.094049
0.078950
0.065616

0.127583
0.109155
0.092459
0.077538
0.064378

0.125665
0.107406
0.090887
0.076143
0.063157

0.123763
0.105675
0.089333
0.074766
0.061952

0.121878
0.103961
0.087796
0.073407
0.060765

0.120009
0.102265
0.086277
0.072065
0.059595

0.118157
0.100586
0.084776
0.070740
0.058441

0.116323
0.098925
0.083293
0.069433
0.057304

0.114505
0.097282
0.081828
0.068144
0.056183

0.112704
0.095657
0.080380
0.066871
0.055079

2.0
2.1
2.2
2.3
2.4

0.053991
0.043984
0.035475
0.028327
0.022395

0.052919
0.043067
0.034701
0.027682
0.021862

0.051864
0.042166
0.033941
0.027048
0.021341

0.050824
0.041280
0.033194
0.026426
0.020829

0.049800
0.040408
0.032460
0.025817
0.020328

0.048792
0.039550
0.031740
0.025218
0.019837

0.047800
0.038707
0.031032
0.024631
0.019356

0.046823
0.037878
0.030337
0.024056
0.018885

0.045861
0.037063
0.029655
0.023491
0.018423

0.044915
0.036262
0.028985
0.022937
0.017971

2.5
2.6
2.7
2.8
2.9

0.017528
0.013583
0.010421
0.007915
0.005953

0.017095
0.013234
0.010143
0.007697
0.005782

0.016670
0.012892
0.009871
0.007483
0.005616

0.016254
0.012558
0.009606
0.007274
0.005454

0.015848
0.012232
0.009347
0.007071
0.005296

0.015449
0.011912
0.009094
0.006873
0.005143

0.015060
0.011600
0.008846
0.006679
0.004993

0.014678
0.011295
0.008605
0.006491
0.004847

0.014305
0.010997
0.008370
0.006307
0.004705

0.013940
0.010706
0.008140
0.006127
0.004567

3.0
3.1
3.2
3.3
3.4

0.004432
0.003267
0.002384
0.001723
0.001232

0.004301
0.003167
0.002309
0.001667
0.001191

0.004173
0.003070
0.002236
0.001612
0.001151

0.004049
0.002975
0.002165
0.001560
0.001112

0.003928
0.002884
0.002096
0.001508
0.001075

0.003810
0.002794
0.002029
0.001459
0.001038

0.003695
0.002707
0.001964
0.001411
0.001003

0.003584
0.002623
0.001901
0.001364
0.000969

0.003475
0.002541
0.001840
0.001319
0.000936

0.003370
0.002461
0.001780
0.001275
0.000904

21209

Povrina ispod standardne normalne krivulje (z > z)

0.00

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.0
0.1
0.2
0.3
0.4

0.5000
0.4602
0.4207
0.3821
0.3446

0.4960
0.4562
0.4168
0.3783
0.3409

0.4920
0.4522
0.4129
0.3745
0.3372

0.4880
0.4483
0.4090
0.3707
0.3336

0.4840
0.4443
0.4052
0.3669
0.3300

0.4801
0.4404
0.4013
0.3632
0.3264

0.4761
0.4364
0.3974
0.3594
0.3228

0.4721
0.4325
0.3936
0.3557
0.3192

0.4681
0.4286
0.3897
0.3520
0.3156

0.4641
0.4247
0.3859
0.3483
0.3121

0.5
0.6
0.7
0.8
0.9

0.3085
0.2743
0.2420
0.2119
0.1841

0.3050
0.2709
0.2389
0.2090
0.1814

0.3015
0.2676
0.2358
0.2061
0.1788

0.2981
0.2643
0.2327
0.2033
0.1762

0.2946
0.2611
0.2296
0.2005
0.1736

0.2912
0.2578
0.2266
0.1977
0.1711

0.2877
0.2546
0.2236
0.1949
0.1685

0.2843
0.2514
0.2206
0.1922
0.1660

0.2810
0.2483
0.2177
0.1894
0.1635

0.2776
0.2451
0.2148
0.1867
0.1611

1.0
1.1
1.2
1.3
1.4

0.1587
0.1357
0.1151
0.0968
0.0808

0.1562
0.1335
0.1131
0.0951
0.0793

0.1539
0.1314
0.1112
0.0934
0.0778

0.1515
0.1292
0.1093
0.0918
0.0764

0.1492
0.1271
0.1075
0.0901
0.0749

0.1469
0.1251
0.1056
0.0885
0.0735

0.1446
0.1230
0.1038
0.0869
0.0721

0.1423
0.1210
0.1020
0.0853
0.0708

0.1401
0.1190
0.1003
0.0838
0.0694

0.1379
0.1170
0.0985
0.0823
0.0681

1.5
1.6
1.7
1.8
1.9

0.0668
0.0548
0.0446
0.0359
0.0287

0.0655
0.0537
0.0436
0.0351
0.0281

0.0643
0.0526
0.0427
0.0344
0.0274

0.0630
0.0516
0.0418
0.0336
0.0268

0.0618
0.0505
0.0409
0.0329
0.0262

0.0606
0.0495
0.0401
0.0322
0.0256

0.0594
0.0485
0.0392
0.0314
0.0250

0.0582
0.0475
0.0384
0.0307
0.0244

0.0571
0.0465
0.0375
0.0301
0.0239

0.0559
0.0455
0.0367
0.0294
0.0233

2.0
2.1
2.2
2.3
2.4

0.0228
0.0179
0.0139
0.0107
0.0082

0.0222
0.0174
0.0136
0.0104
0.0080

0.0217
0.0170
0.0132
0.0102
0.0078

0.0212
0.0166
0.0129
0.0099
0.0075

0.0207
0.0162
0.0125
0.0096
0.0073

0.0202
0.0158
0.0122
0.0094
0.0071

0.0197
0.0154
0.0119
0.0091
0.0069

0.0192
0.0150
0.0116
0.0089
0.0068

0.0188
0.0146
0.0113
0.0087
0.0066

0.0183
0.0143
0.0110
0.0084
0.0064

2.5
2.6
2.7
2.8
2.9

0.0062
0.0047
0.0035
0.0026
0.0019

0.0060
0.0045
0.0034
0.0025
0.0018

0.0059
0.0044
0.0033
0.0024
0.0018

0.0057
0.0043
0.0032
0.0023
0.0017

0.0055
0.0041
0.0031
0.0023
0.0016

0.0054
0.0040
0.0030
0.0022
0.0016

0.0052
0.0039
0.0029
0.0021
0.0015

0.0051
0.0038
0.0028
0.0021
0.0015

0.0049
0.0037
0.0027
0.0020
0.0014

0.0048
0.0036
0.0026
0.0019
0.0014

3.0
3.1
3.2
3.3
3.4

0.0013
0.0010
0.0007
0.0005
0.0003

0.0013
0.0009
0.0007
0.0005
0.0003

0.0013
0.0009
0.0006
0.0005
0.0003

0.0012
0.0009
0.0006
0.0004
0.0003

0.0012
0.0008
0.0006
0.0004
0.0003

0.0011
0.0008
0.0006
0.0004
0.0003

0.0011
0.0008
0.0006
0.0004
0.0003

0.0011
0.0008
0.0005
0.0004
0.0003

0.0010
0.0007
0.0005
0.0004
0.0003

0.0010
0.0007
0.0005
0.0003
0.0002

21210

Kritine vrijednosti studentove t-distribucije (t > t)




Stupanj
slobode

t0.1

t0.05

t0.025

t0.01

t0.005

t0.001

1
2
3
4
5

3.078
1.886
1.638
1.533
1.476

6.314
2.920
2.353
2.132
2.015

12.706
4.303
3.182
2.776
2.571

31.821
6.965
4.541
3.747
3.365

63.656
9.925
5.841
4.604
4.032

318.289
22.328
10.214
7.173
5.894

6
7
8
9
10

1.440
1.415
1.397
1.383
1.372

1.943
1.895
1.860
1.833
1.812

2.447
2.365
2.306
2.262
2.228

3.143
2.998
2.896
2.821
2.764

3.707
3.499
3.355
3.250
3.169

5.208
4.785
4.501
4.297
4.144

11
12
13
14
15

1.363
1.356
1.350
1.345
1.341

1.796
1.782
1.771
1.761
1.753

2.201
2.179
2.160
2.145
2.131

2.718
2.681
2.650
2.624
2.602

3.106
3.055
3.012
2.977
2.947

4.025
3.930
3.852
3.787
3.733

16
17
18
19
20

1.337
1.333
1.330
1.328
1.325

1.746
1.740
1.734
1.729
1.725

2.120
2.110
2.101
2.093
2.086

2.583
2.567
2.552
2.539
2.528

2.921
2.898
2.878
2.861
2.845

3.686
3.646
3.610
3.579
3.552

21
22
23
24
25

1.323
1.321
1.319
1.318
1.316

1.721
1.717
1.714
1.711
1.708

2.080
2.074
2.069
2.064
2.060

2.518
2.508
2.500
2.492
2.485

2.831
2.819
2.807
2.797
2.787

3.527
3.505
3.485
3.467
3.450

26
27
28
29
30

1.315
1.314
1.313
1.311
1.310

1.706
1.703
1.701
1.699
1.697

2.056
2.052
2.048
2.045
2.042

2.479
2.473
2.467
2.462
2.457

2.779
2.771
2.763
2.756
2.750

3.435
3.421
3.408
3.396
3.385

40
50
60
120

1.303
1.299
1.296
1.289
1.282

1.684
1.676
1.671
1.658
1.645

2.021
2.009
2.000
1.980
1.960

2.423
2.403
2.390
2.358
2.326

2.704
2.678
2.660
2.617
2.576

3.307
3.261
3.232
3.160
3.090

21211

Kritine vrijednosti hi-kvadrat distribucije, 2 > 2, = 0.05

stupanj
slobode

t0.1

t0.05

t0.025

t0.01

t0.005

t0.001

1
2
3
4
5

2.706
4.605
6.251
7.779
9.236

3.841
5.991
7.815
9.488
11.070

5.024
7.378
9.348
11.143
12.832

6.635
9.210
11.345
13.277
15.086

7.879
10.597
12.838
14.860
16.750

10.827
13.815
16.266
18.466
20.515

6
7
8
9
10

10.645
12.017
13.362
14.684
15.987

12.592
14.067
15.507
16.919
18.307

14.449
16.013
17.535
19.023
20.483

16.812
18.475
20.090
21.666
23.209

18.548
20.278
21.955
23.589
25.188

22.457
24.321
26.124
27.877
29.588

11
12
13
14
15

17.275
18.549
19.812
21.064
22.307

19.675
21.026
22.362
23.685
24.996

21.920
23.337
24.736
26.119
27.488

24.725
26.217
27.688
29.141
30.578

26.757
28.300
29.819
31.319
32.801

31.264
32.909
34.527
36.124
37.698

16
17
18
19
20

23.542
24.769
25.989
27.204
28.412

26.296
27.587
28.869
30.144
31.410

28.845
30.191
31.526
32.852
34.170

32.000
33.409
34.805
36.191
37.566

34.267
35.718
37.156
38.582
39.997

39.252
40.791
42.312
43.819
45.314

21
22
23
24
25

29.615
30.813
32.007
33.196
34.382

32.671
33.924
35.172
36.415
37.652

35.479
36.781
38.076
39.364
40.646

38.932
40.289
41.638
42.980
44.314

41.401
42.796
44.181
45.558
46.928

46.796
48.268
49.728
51.179
52.619

26
27
28
29
30

35.563
36.741
37.916
39.087
40.256

38.885
40.113
41.337
42.557
43.773

41.923
43.195
44.461
45.722
46.979

45.642
46.963
48.278
49.588
50.892

48.290
49.645
50.994
52.335
53.672

54.051
55.475
56.892
58.301
59.702

40
50
60
70
80
90
100

51.805
63.167
74.397
85.527
96.578
107.565
118.498

55.758
67.505
79.082
90.531
101.879
113.145
124.342

59.342
71.420
83.298
95.023
106.629
118.136
129.561

63.691
76.154
88.379
100.425
112.329
124.116
135.807

66.766
79.490
91.952
104.215
116.321
128.299
140.170

73.403
86.660
99.608
112.317
124.839
137.208
149.449

21212

Kritine vrijednosti F distribucije, F> F, = 0.05


Stupanj slobode brojnika
1

Stupanj slobode nazivnika

1
2
3
4
5

161.45 199.50 215.71 224.58 230.16 233.99 236.77 238.88


18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37
10.13
9.55
9.28
9.12
9.01
8.94
8.89
8.85
7.71
6.94
6.59
6.39
6.26
6.16
6.09
6.04
6.61
5.79
5.41
5.19
5.05
4.95
4.88
4.82

6
7
8
9
10

5.99
5.59
5.32
5.12
4.96

5.14
4.74
4.46
4.26
4.10

4.76
4.35
4.07
3.86
3.71

4.53
4.12
3.84
3.63
3.48

4.39
3.97
3.69
3.48
3.33

4.28
3.87
3.58
3.37
3.22

4.21
3.79
3.50
3.29
3.14

4.15
3.73
3.44
3.23
3.07

11
12
13
14
15

4.84
4.75
4.67
4.60
4.54

3.98
3.89
3.81
3.74
3.68

3.59
3.49
3.41
3.34
3.29

3.36
3.26
3.18
3.11
3.06

3.20
3.11
3.03
2.96
2.90

3.09
3.00
2.92
2.85
2.79

3.01
2.91
2.83
2.76
2.71

2.95
2.85
2.77
2.70
2.64

16
17
18
19
20

4.49
4.45
4.41
4.38
4.35

3.63
3.59
3.55
3.52
3.49

3.24
3.20
3.16
3.13
3.10

3.01
2.96
2.93
2.90
2.87

2.85
2.81
2.77
2.74
2.71

2.74
2.70
2.66
2.63
2.60

2.66
2.61
2.58
2.54
2.51

2.59
2.55
2.51
2.48
2.45

21
22
23
24
25

4.32
4.30
4.28
4.26
4.24

3.47
3.44
3.42
3.40
3.39

3.07
3.05
3.03
3.01
2.99

2.84
2.82
2.80
2.78
2.76

2.68
2.66
2.64
2.62
2.60

2.57
2.55
2.53
2.51
2.49

2.49
2.46
2.44
2.42
2.40

2.42
2.40
2.37
2.36
2.34

26
27
28
29
30

4.23
4.21
4.20
4.18
4.17

3.37
3.35
3.34
3.33
3.32

2.98
2.96
2.95
2.93
2.92

2.74
2.73
2.71
2.70
2.69

2.59
2.57
2.56
2.55
2.53

2.47
2.46
2.45
2.43
2.42

2.39
2.37
2.36
2.35
2.33

2.32
2.31
2.29
2.28
2.27

40
50
60
70
80
90
100
120

4.08
4.03
4.00
3.98
3.96
3.95
3.94
3.92

3.23
3.18
3.15
3.13
3.11
3.10
3.09
3.07

2.84
2.79
2.76
2.74
2.72
2.71
2.70
2.68

2.61
2.56
2.53
2.50
2.49
2.47
2.46
2.45

2.45
2.40
2.37
2.35
2.33
2.32
2.31
2.29

2.34
2.29
2.25
2.23
2.21
2.20
2.19
2.18

2.25
2.20
2.17
2.14
2.13
2.11
2.10
2.09

2.18
2.13
2.10
2.07
2.06
2.04
2.03
2.02

21213

Kritine vrijednosti F distribucije, F> F, = 0.05


Stupanj slobode brojnika
9

Stupanj slobode nazivnika

1
2
3
4
5

10

12

15

20

24

30

60

120

240.54 241.88 243.90 245.95 248.02 249.05 250.10 252.20 253.25


19.38 19.40 19.41 19.43 19.45 19.45 19.46 19.48 19.49
8.81
8.79
8.74
8.70
8.66
8.64
8.62
8.57
8.55
6.00
5.96
5.91
5.86
5.80
5.77
5.75
5.69
5.66
4.77
4.74
4.68
4.62
4.56
4.53
4.50
4.43
4.40

6
7
8
9
10

4.10
3.68
3.39
3.18
3.02

4.06
3.64
3.35
3.14
2.98

4.00
3.57
3.28
3.07
2.91

3.94
3.51
3.22
3.01
2.85

3.87
3.44
3.15
2.94
2.77

3.84
3.41
3.12
2.90
2.74

3.81
3.38
3.08
2.86
2.70

3.74
3.30
3.01
2.79
2.62

3.70
3.27
2.97
2.75
2.58

11
12
13
14
15

2.90
2.80
2.71
2.65
2.59

2.85
2.75
2.67
2.60
2.54

2.79
2.69
2.60
2.53
2.48

2.72
2.62
2.53
2.46
2.40

2.65
2.54
2.46
2.39
2.33

2.61
2.51
2.42
2.35
2.29

2.57
2.47
2.38
2.31
2.25

2.49
2.38
2.30
2.22
2.16

2.45
2.34
2.25
2.18
2.11

16
17
18
19
20

2.54
2.49
2.46
2.42
2.39

2.49
2.45
2.41
2.38
2.35

2.42
2.38
2.34
2.31
2.28

2.35
2.31
2.27
2.23
2.20

2.28
2.23
2.19
2.16
2.12

2.24
2.19
2.15
2.11
2.08

2.19
2.15
2.11
2.07
2.04

2.11
2.06
2.02
1.98
1.95

2.06
2.01
1.97
1.93
1.90

21
22
23
24
25

2.37
2.34
2.32
2.30
2.28

2.32
2.30
2.27
2.25
2.24

2.25
2.23
2.20
2.18
2.16

2.18
2.15
2.13
2.11
2.09

2.10
2.07
2.05
2.03
2.01

2.05
2.03
2.01
1.98
1.96

2.01
1.98
1.96
1.94
1.92

1.92
1.89
1.86
1.84
1.82

1.87
1.84
1.81
1.79
1.77

26
27
28
29
30

2.27
2.25
2.24
2.22
2.21

2.22
2.20
2.19
2.18
2.16

2.15
2.13
2.12
2.10
2.09

2.07
2.06
2.04
2.03
2.01

1.99
1.97
1.96
1.94
1.93

1.95
1.93
1.91
1.90
1.89

1.90
1.88
1.87
1.85
1.84

1.80
1.79
1.77
1.75
1.74

1.75
1.73
1.71
1.70
1.68

40
50
60
70
80
90
100
120

2.12
2.07
2.04
2.02
2.00
1.99
1.97
1.96

2.08
2.03
1.99
1.97
1.95
1.94
1.93
1.91

2.00
1.95
1.92
1.89
1.88
1.86
1.85
1.83

1.92
1.87
1.84
1.81
1.79
1.78
1.77
1.75

1.84
1.78
1.75
1.72
1.70
1.69
1.68
1.66

1.79
1.74
1.70
1.67
1.65
1.64
1.63
1.61

1.74
1.69
1.65
1.62
1.60
1.59
1.57
1.55

1.64
1.58
1.53
1.50
1.48
1.46
1.45
1.43

1.58
1.51
1.47
1.44
1.41
1.39
1.38
1.35

21214

Kritine vrijednosti F distribucije, F> F, = 0.01


Stupanj slobode brojnika
1

Stupanj slobode nazivnika

1
2
3
4
5

4052.1 4999.3 5403.5 5624.2 5763.9 5858.9 5928.3 5980.9


8
4
3
6
6
5
3
5
98.50 99.00 99.16 99.25 99.30 99.33 99.36 99.38
34.12 30.82 29.46 28.71 28.24 27.91 27.67 27.49
21.20 18.00 16.69 15.98 15.52 15.21 14.98 14.80
16.26 13.27 12.06 11.39 10.97 10.67 10.46 10.29

6
7
8
9
10

13.75
12.25
11.26
10.56
10.04

10.92
9.55
8.65
8.02
7.56

9.78
8.45
7.59
6.99
6.55

9.15
7.85
7.01
6.42
5.99

8.75
7.46
6.63
6.06
5.64

8.47
7.19
6.37
5.80
5.39

8.26
6.99
6.18
5.61
5.20

8.10
6.84
6.03
5.47
5.06

11
12
13
14
15

9.65
9.33
9.07
8.86
8.68

7.21
6.93
6.70
6.51
6.36

6.22
5.95
5.74
5.56
5.42

5.67
5.41
5.21
5.04
4.89

5.32
5.06
4.86
4.69
4.56

5.07
4.82
4.62
4.46
4.32

4.89
4.64
4.44
4.28
4.14

4.74
4.50
4.30
4.14
4.00

16
17
18
19
20

8.53
8.40
8.29
8.18
8.10

6.23
6.11
6.01
5.93
5.85

5.29
5.19
5.09
5.01
4.94

4.77
4.67
4.58
4.50
4.43

4.44
4.34
4.25
4.17
4.10

4.20
4.10
4.01
3.94
3.87

4.03
3.93
3.84
3.77
3.70

3.89
3.79
3.71
3.63
3.56

21
22
23
24
25

8.02
7.95
7.88
7.82
7.77

5.78
5.72
5.66
5.61
5.57

4.87
4.82
4.76
4.72
4.68

4.37
4.31
4.26
4.22
4.18

4.04
3.99
3.94
3.90
3.85

3.81
3.76
3.71
3.67
3.63

3.64
3.59
3.54
3.50
3.46

3.51
3.45
3.41
3.36
3.32

26
27
28
29
30

7.72
7.68
7.64
7.60
7.56

5.53
5.49
5.45
5.42
5.39

4.64
4.60
4.57
4.54
4.51

4.14
4.11
4.07
4.04
4.02

3.82
3.78
3.75
3.73
3.70

3.59
3.56
3.53
3.50
3.47

3.42
3.39
3.36
3.33
3.30

3.29
3.26
3.23
3.20
3.17

40
50
60
70
80
90
100
120

7.31
7.17
7.08
7.01
6.96
6.93
6.90
6.85

5.18
5.06
4.98
4.92
4.88
4.85
4.82
4.79

4.31
4.20
4.13
4.07
4.04
4.01
3.98
3.95

3.83
3.72
3.65
3.60
3.56
3.53
3.51
3.48

3.51
3.41
3.34
3.29
3.26
3.23
3.21
3.17

3.29
3.19
3.12
3.07
3.04
3.01
2.99
2.96

3.12
3.02
2.95
2.91
2.87
2.84
2.82
2.79

2.99
2.89
2.82
2.78
2.74
2.72
2.69
2.66

21215

Kritine vrijednosti F distribucije, F> F, = 0.01


Stupanj slobode brojnika
9

Stupanj slobode nazivnika

1
2
3
4
5

10

12

15

20

24

30

60

120

6022.4 6055.9 6106.6 6156.9 6208.6 6234.2 6260.3 6312.9 6339.5


0
3
8
7
6
7
5
7
1
99.39 99.40 99.42 99.43 99.45 99.46 99.47 99.48 99.49
27.34 27.23 27.05 26.87 26.69 26.60 26.50 26.32 26.22
14.66 14.55 14.37 14.20 14.02 13.93 13.84 13.65 13.56
10.16 10.05
9.89
9.72
9.55
9.47
9.38
9.20
9.11

6
7
8
9
10

7.98
6.72
5.91
5.35
4.94

7.87
6.62
5.81
5.26
4.85

7.72
6.47
5.67
5.11
4.71

7.56
6.31
5.52
4.96
4.56

7.40
6.16
5.36
4.81
4.41

7.31
6.07
5.28
4.73
4.33

7.23
5.99
5.20
4.65
4.25

7.06
5.82
5.03
4.48
4.08

6.97
5.74
4.95
4.40
4.00

11
12
13
14
15

4.63
4.39
4.19
4.03
3.89

4.54
4.30
4.10
3.94
3.80

4.40
4.16
3.96
3.80
3.67

4.25
4.01
3.82
3.66
3.52

4.10
3.86
3.66
3.51
3.37

4.02
3.78
3.59
3.43
3.29

3.94
3.70
3.51
3.35
3.21

3.78
3.54
3.34
3.18
3.05

3.69
3.45
3.25
3.09
2.96

16
17
18
19
20

3.78
3.68
3.60
3.52
3.46

3.69
3.59
3.51
3.43
3.37

3.55
3.46
3.37
3.30
3.23

3.41
3.31
3.23
3.15
3.09

3.26
3.16
3.08
3.00
2.94

3.18
3.08
3.00
2.92
2.86

3.10
3.00
2.92
2.84
2.78

2.93
2.83
2.75
2.67
2.61

2.84
2.75
2.66
2.58
2.52

21
22
23
24
25

3.40
3.35
3.30
3.26
3.22

3.31
3.26
3.21
3.17
3.13

3.17
3.12
3.07
3.03
2.99

3.03
2.98
2.93
2.89
2.85

2.88
2.83
2.78
2.74
2.70

2.80
2.75
2.70
2.66
2.62

2.72
2.67
2.62
2.58
2.54

2.55
2.50
2.45
2.40
2.36

2.46
2.40
2.35
2.31
2.27

26
27
28
29
30

3.18
3.15
3.12
3.09
3.07

3.09
3.06
3.03
3.00
2.98

2.96
2.93
2.90
2.87
2.84

2.81
2.78
2.75
2.73
2.70

2.66
2.63
2.60
2.57
2.55

2.58
2.55
2.52
2.49
2.47

2.50
2.47
2.44
2.41
2.39

2.33
2.29
2.26
2.23
2.21

2.23
2.20
2.17
2.14
2.11

40
50
60
70
80
90
100
120

2.89
2.78
2.72
2.67
2.64
2.61
2.59
2.56

2.80
2.70
2.63
2.59
2.55
2.52
2.50
2.47

2.66
2.56
2.50
2.45
2.42
2.39
2.37
2.34

2.52
2.42
2.35
2.31
2.27
2.24
2.22
2.19

2.37
2.27
2.20
2.15
2.12
2.09
2.07
2.03

2.29
2.18
2.12
2.07
2.03
2.00
1.98
1.95

2.20
2.10
2.03
1.98
1.94
1.92
1.89
1.86

2.02
1.91
1.84
1.78
1.75
1.72
1.69
1.66

1.92
1.80
1.73
1.67
1.63
1.60
1.57
1.53

21216

Kritine vrijednosti studentiziranog raspone, q(a,v)


a = broj grupa
v = stupanj slobode pokusne greke
= 0.05
Broj grupa (a)
V
1
2
3
4

10

11

12

13

14

15

16

18.00 27.00 32.80 37.20 40.50 43.10 45.40 47.30 49.10 50.60 51.90 53.20 54.30 55.40 56.30
6.09 8.33 9.80 10.89 11.73 12.43 13.03 13.54 13.99 14.39 14.75 15.08 15.38 15.65 15.91
4.50 5.91 6.83 7.51 8.04 8.47 8.85 9.18 9.46 9.72 9.95 10.16 10.35 10.52 10.69
3.93 5.04 5.76 6.29 6.71 7.06 7.35 7.60 7.83 8.03 8.21 8.37 8.52 8.67 8.80

5
6
7
8
9

3.64
3.46
3.34
3.26
3.20

4.60
4.34
4.16
4.04
3.95

5.22
4.90
4.68
4.53
4.42

5.67
5.31
5.06
4.89
4.76

6.03
5.63
5.35
5.17
5.02

6.33
5.89
5.59
5.40
5.24

6.58
6.12
5.80
5.60
5.43

6.80
6.32
5.99
5.77
5.60

6.99
6.49
6.15
5.92
5.74

7.17
6.65
6.29
6.05
5.87

7.32
6.79
6.42
6.18
5.98

7.47
6.92
6.54
6.29
6.09

7.60
7.04
6.65
6.39
6.19

7.72
7.14
6.75
6.48
6.28

7.83
7.24
6.84
6.57
6.36

10
11
12
13
14

3.15
3.11
3.08
3.06
3.03

3.88
3.82
3.77
3.73
3.70

4.33
4.26
4.20
4.15
4.11

4.66
4.58
4.51
4.46
4.41

4.91
4.82
4.75
4.69
4.64

5.12
5.03
4.95
4.88
4.83

5.30
5.20
5.12
5.05
4.99

5.46
5.35
5.27
5.19
5.13

5.60
5.49
5.40
5.32
5.25

5.72
5.61
5.51
5.43
5.36

5.83
5.71
5.61
5.53
5.46

5.93
5.81
5.71
5.63
5.56

6.03
5.90
5.80
5.71
5.64

6.12
5.98
5.88
5.79
5.72

6.20
6.06
5.95
5.86
5.79

15
16
17
18
19

3.01
3.00
2.98
2.97
2.96

3.67
3.65
3.62
3.61
3.59

4.08
4.05
4.02
4.00
3.98

4.37
4.34
4.31
4.28
4.26

4.59
4.56
4.52
4.49
4.47

4.78
4.74
4.70
4.67
4.64

4.94
4.90
4.86
4.83
4.79

5.08
5.03
4.99
4.96
4.92

5.20
5.15
5.11
5.07
5.04

5.31
5.26
5.21
5.17
5.14

5.40
5.35
5.31
5.27
5.23

5.49
5.44
5.39
5.35
5.32

5.57
5.52
5.47
5.43
5.39

5.65
5.59
5.55
5.50
5.46

5.72
5.66
5.61
5.57
5.53

20
24
30
40

2.95
2.92
2.89
2.86

3.58
3.53
3.48
3.44

3.96
3.90
3.84
3.79

4.24
4.17
4.11
4.04

4.45
4.37
4.30
4.23

4.62
4.54
4.46
4.39

4.77
4.68
4.60
4.52

4.90
4.81
4.72
4.63

5.01
4.92
4.83
4.74

5.11
5.01
4.92
4.82

5.20
5.10
5.00
4.90

5.28
5.18
5.08
4.98

5.36
5.25
5.15
5.05

5.43
5.32
5.21
5.11

5.50
5.38
5.27
5.17

60
120

2.83
2.80
2.77

3.40
3.36
3.32

3.74
3.69
3.63

3.98
3.92
3.86

4.16
4.10
4.03

4.31
4.24
4.17

4.44
4.36
4.29

4.55
4.47
4.39

4.65
4.56
4.47

4.73
4.64
4.55

4.81
4.71
4.62

4.88
4.78
4.68

4.94
4.84
4.74

5.00
4.90
4.80

5.06
4.95
4.84

21217

Literatura
Allen, M.P. 1977. Understanding regression analysis. Plenum press. New York and London.
Bari, S. i Car, M. 1972. Metodika znanstvenih istraivanja u stoarstvu. posebno izdanje
Agronomskog glasnika. Zagreb
Box , G. E. P. 1978. Statistics for experimenters: an introduction to design, data analysis, and model
building. John Wiley & Sons. New York
Clarke, G. M. 1994. Statistics and Experimental Design : An Introduction for Biologists and
Biochemists.
Daniel, W. W. 1990. Applied nonparametric statistics, 2nd ed. PWS-Kent Publishing Company.
Boston.
Draper, N i H. Smith. 1981. Aplied Regression Analysis, 2nd ed. Wiley and Sons, New York
Johnson, R. A., D. A. Wichern, i D. W. Wichern. 1998. Applied Multivariate Statistical Analysis.
Prentice Hall.
Little, T. M. i F. J. Hills. 1978. Agricultural experimentation. John Wiley and Sons. New York
McClave, J.T. i F. H. Dietrich II. 1987. Statistics, 3rd ed. Duxbury Press. Boston.
Mendenhall, W. i T. Sincich. 1988. Statistics for the engenering and computer sciences. Dellen
Publishing Company. San Francisco, California
Montgomery, D. C. 2000. Design and Analysis of Experiments, 5th Ed. John Wiley & Sons. New York
Morris, T. R. 1999. Experimental design and analysis in animal science. CAB International.
Myers, R. H. 1990. Classical and modern regression with applications. PWS-KENT Publishing
Company, Boston.
Neter, J., W. Wasserman i M. H. Kutner. 1985. Applied linear statistical models. Homewood, III.:
Richard D. Irwin.
Pollard, J. H. 1977. A handbook of numerical and statistical techniques. Cambridge University Press,
Cambridge.
Robert C., M.A. Elston, D. William i M.S. Johnson. 1994 Essentials of biostatistics
SAS. 1995. SAS Users Guide: Statistics. SAS Inst. Inc., Cary, NC.
Schefler, W. C. 1969. Statistics for the biological scieneces Addison-Wesley publishing company
Schefler, W.C. 1969. Statisticsfor the biological sciences. Addison-Wesley Publishing Company.
Silobri, V. 1989. Kako sastaviti i objaviti znanstveno djelo. JUMENA, Zagreb
Snedecor, G.W. i W. G. Cochran. 1980. Statistical methods, 7th ed. Ames, Iowa: Iowa State University
Pres.
Sokal, R.R., and F.J. Rohlf. 1995. Biometry. 3rd edition. W.H. Freeman and Company, New York.
Weber, D, i J. H. Skillings. 1999. A first course in the design of experiments a linear models approach.
CRC Pr.

21218

Das könnte Ihnen auch gefallen