Elementi Di Probabilità e Statistica - Riganti

i
PARTE PRIMA
PROBABILITA
CAPITOLO I - Gli assiomi della probabilit`
a
1.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . pag. 1
1.2 Definizione assiomatica di probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.1 Logica degli eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.2 Campo di Borel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.3 Assiomi della probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Probabilità condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4 Eventi indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5 Formula di Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.6 Problemi risolti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
CAPITOLO II - Variabili aleatorie
2.1 Definizioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.1.1 Funzione di distribuzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .25
2.1.2 Densità di probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2 Momenti di variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.3 Distribuzioni notevoli in Probabilità e Statistica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3.1 Distribuzione uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3.2 Distribuzione normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.3.3 Distribuzione Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.3.4 Distribuzione esponenziale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.3.5 Distribuzione di Maxwell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.3.6 Distribuzione t-Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
ii
2.3.7 Distribuzione Chi-quadrato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

2.3.8 Distribuzione F di Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .42
2.3.9 Distribuzione binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.3.10 Distribuzione di Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
2.3.11 Distribuzione geometrica e ipergeometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.3.12 Distribuzione Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.3.13 Distribuzione di Weibull . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
CAPITOLO III - Variabili aleatorie multidimensionali
3.1 Coppie di variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.1.1 Momenti congiunti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.1.2 Coppie di v.a. indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
3.1.3 Coppie di v.a. discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
3.2 Caso di n variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
3.3 Trasformate delle densità di probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.3.1 Funzione caratteristica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.3.2 Funzione generatrice dei momenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
CAPITOLO IV - Trasformazioni di variabili aleatorie
4.1 Generalità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
4.2 Funzioni di una variabile casuale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.2.1 Calcolo della funzione di distribuzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.2.2 Calcolo diretto della densità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
4.2.3 Trasformazioni invertibili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
4.2.4 Momenti di Y () = g[X()] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
4.2.5 Trasformazioni lineari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
4.3 Funzioni di due o pi`
u variabili casuali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
4.4 Trasformazioni n-dimensionali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
4.5 Problemi risolti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
iii
CAPITOLO V - Processi stocastici

5.1 Definizioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
5.1.1 Momenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
5.1.2 Processi indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
5.1.3 Processi senza memoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
5.1.4 Processi stazionari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
5.2 Esempi notevoli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .130
5.3 Processi di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
5.4 Catene di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
5.4.1 Matrice di transizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
5.4.2 Classificazione degli stati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .141
5.4.3 Probabilità invarianti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
***********************************************
PARTE SECONDA
STATISTICA
CAPITOLO VI - Statistica descrittiva
6.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
6.2 Distribuzioni di frequenze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
6.3 Indici di tendenza centrale e di dispersione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
6.3.1 Medie, moda, mediana, quantili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
6.3.2 Indici di dispersione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
6.3.3 Stem-and-leaf e box-plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
6.4 Distribuzioni congiunte di frequenze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
6.5 Regressione lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
6.6 Regressione multipla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
6.7 Regressione non lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
iv

CAPITOLO VII - Distribuzioni campionarie
7.1 Modelli statistici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
7.2 Teoria dei campioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
7.3 Distribuzione campionaria delle medie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
7.3.1 Campionamento con ripetizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
7.3.2 Campionamento senza ripetizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
7.4 Distribuzione campionaria delle varianze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
7.4.1 Campionamento con ripetizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
7.4.2 Campionamento senza ripetizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
7.5 Distribuzione campionaria delle frequenze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
CAPITOLO VIII - Stime di parametri
8.1 Stima puntuale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
8.1.1 Stima puntuale di medie e varianze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
8.1.2 Stima di massima verosimiglianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
8.1.3 Metodo dei momenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
8.2 Stima per intervalli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
8.2.1 Intervalli di confidenza per la media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .212
8.2.1.1 Popolazione con varianza nota . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
8.2.1.2 Popolazione con varianza sconosciuta . . . . . . . . . . . . . . . . . . . . . . . . . 215
8.2.2 Intervalli di confidenza per la varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224
CAPITOLO IX - Test parametrici di ipotesi statistiche
9.1 Principi generali di un test statistico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239
9.2 Test parametrici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
9.3 Test di Neyman-Pearson tra ipotesi semplici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242
9.4 Test parametrici con ipotesi composte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
9.4.1 Test sul valor medio per il modello normale . . . . . . . . . . . . . . . . . . . . . . . . . 246

9.4.1.1 Modello Normale-1: popolazione con varianza nota . . . . . . . . . . . 246
9.4.1.2 Modello Normale generale: varianza sconosciuta . . . . . . . . . . . . . . 249
9.4.1.3 Popolazione con distribuzione non Normale . . . . . . . . . . . . . . . . . . . 250
9.4.2 Test sulla varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258
9.4.3 Test di Fisher per il rapporto tra varianze . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
9.4.4 Test di incorrelazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265
9.4.5 Ipotesi H0 e H1 composte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266
9.4.6 Test del rapporto di verosimiglianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .268
CAPITOLO X - Test non parametrici
10.1 Test sulla legge di distribuzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279
10.1.1 Test di Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 280
10.1.2 Test Chi-quadrato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282
10.2 Test di omogeneità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292
10.2.1 Test dei segni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
10.2.2 Test dei ranghi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295
10.2.3 Test di Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297
10.2.4 Test Chi-quadrato di omogeneità per pi`
u campioni . . . . . . . . . . . . . . . . . 298
10.3 Test di indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303
10.3.1 Test Chi-quadrato di indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303
10.3.2 Test di Spearman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305
10.4 Test sulla casualità di un campione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307
10.4.1 Test di correlazione seriale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 308
10.4.2 Run test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310
BIBLIOGRAFIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
APPENDICE
Tavole delle distribuzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315
Normale standard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316
vi
t-Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317
Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318
Chi-quadrato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320
Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322
vii
GLI ASSIOMI DELLA

PROBABILITA
1.1
Introduzione
Nel Calcolo delle Probabilità si elaborano modelli matematici per la valutazione rigorosa del concetto primitivo di probabilit`
a che un esperimento casuale si concretizzi
in un determinato evento. Ma cosè la probabilità di un evento? Ne esistono almeno
quattro definizioni principali, da cui si originano altrettante teorie matematiche,
elaborate dalla seconda metà del XXVII secolo fino ai giorni nostri. Esse sono:
1) Definizione classica: la probabilità P (A) di un evento A è il rapporto tra il
numero NA dei casi favorevoli e il numero N dei casi possibili:
P (A) = NA /N.
E questa una definizione aprioristica, nel senso che P (A) è definita senza far ricorso
ad alcuna effettiva prova sperimentale. La sua applicabilità è limitata allo studio di
quel fenomeni casuali in cui si può assumere che il numero N dei casi possibili sia
finito, e che questi siano tutti, a priori, egualmente probabili.
2) Definizione frequentista, ovvero basata sul concetto, particolarmente familiare
ai fisici, di frequenza relativa di un evento: se un esperimento è ripetuto n volte, e
levento A si presenta nA volte, allora la sua probabilità è il limite della frequenza
relativa:
P (A) = lim nA /n
n
quando il numero delle prove tende ad infinito. Questa definizione implica lipotesi
preliminare che le prove ripetute si svolgano in condizioni identiche, il che, al pari
della definizione classica, ne restringe lapplicabilità a una classe piuttosto ristretta
di fenomeni casuali.
3) Definizione soggettivista, come misura di unopinione personale: la probabilità
di un evento è il grado di fiducia che si ha nel verificarsi di esso. Per esempio:
1
ASSIOMI DELLA PROBABILITA
la probabilità che in un processo giudiziario limputato sia giudicato colpevole è

una misura della nostra conoscenza dei fatti e della nostra abilità deduttiva. Tale
definizione si formalizza adottando lo schema tipico delle scommesse regolate da
condizioni di equità: la probabilità dellevento è misurata dal prezzo che un individuo
ritiene equo pagare per ricevere 1 se levento si realizza, e 0 se non si verifica.
4) Definizione assiomatica, la cui formalizzazione matematica (che è quella che
seguiremo) risale ad A. N. Kolmogorov (1933). Essa consiste nellintrodurre un
opportuno insieme di assiomi, verificando a posteriori il significato fisico e la validit`
a
della teoria matematica cos precisata.
1.2
Definizione assiomatica di probabilit`

a
Oggetto della teoria matematica sviluppata nel Calcolo delle Probabilità è un generico esperimento casuale, la cui singola esecuzione è chiamata prova dellesperimento.
Il risultato (o esito) della prova si indica con . Linsieme di tutti i possibili esiti
costituisce lo spazio campione associato allesperimento casuale. Un evento A
relativo al medesimo esperimento è un certo insieme di risultati , ovvero un sottoinsieme dello spazio campione . Se un risultato A, si dice che esso realizza
levento A. Se linsieme A è costituito da un solo elemento , allora questultimo
prende il nome di evento elementare; altrimenti A è un evento composto.
1.2.1
Logica degli eventi
Le definizioni che seguono riguardano operazioni sugli eventi, e si possono formalmente rappresentare come indicato nello schema riassuntivo di Fig.1.1.
Dati due eventi A, B , si dice che A implica B se è A B.
I due eventi sono incompatibili se non esiste alcun risultato che realizzi sia
A che B, ovvero se è A B = , dove è linsieme vuoto.
Al contrario, se A e B non sono incompatibili, linsieme non vuoto (A B) è
costituito da tutti i risultati che realizzano sia A che B.
Linsieme (AB) indica invece la realizzazione dellevento A, oppure dellevento
B, oppure di entrambi.
Se non si realizza un evento A, allora si realizza il suo complementare in A =
\ A in , negazione dellevento A. Ne segue subito che è levento certo e
è levento impossibile.
1.2 Definizione assiomatica di probabilit`

a
Figura 1.1
1.2.2
Campo di Borel
Gli eventi Ai , i = 1, 2, . . . relativi ad un determinato esperimento casuale sono

sottoinsiemi dello spazio campione , sui quali effettuiamo operazioni di unione,
intersezione, differenza come indicato in Fig.1. Al fine di attribuire a ciascun evento
una misura di probabilità, si richiede a tali eventi di soddisfare il seguente requisito
fondamentale: qualunque operazione su di essi deve essere a sua volta un evento
definito in .
Questa proprietà si formalizza dicendo che gli eventi devono costituire un campo C,
ovvero una classe additiva di insiemi Ai , non vuota e chiusa rispetto alla negazione
e allunione. Se esiste un insieme numerabile1 di infiniti eventi Ai , questi devono
formare un campo di Borel (o -algebra) cos definito:
Definizione 1. Un campo di Borel B `
e la classe costituita da una infinità numerabile
1
Ricordiamo che un insieme di infiniti elementi è numerabile se esiste una corrispondenza unoa-uno tra gli elementi dellinsieme e tutti gli interi positivi. Ad esempio: linsieme IR dei numeri
reali non è numerabile; linsieme {1, 2, 3, ..} è numerabile.
di insiemi Ai , tale che:

1)
Ai B
2)
Ai B
Ai = \Ai B
[
i=1
3)
B;
Ai B;
Ai B
i=1
B.
Dunque, un campo di Borel è caratterizzato dalla proprietà che qualsiasi operazione

sugli insiemi che lo formano dà luogo ad un insieme nello stesso campo, anche se gli
insiemi sono una infinità numerabile.
Esempio 1.1: lancio di un dado
Consideriamo come singola prova di un esperimento casuale il classico esempio del

lancio di un dado, che ha come risultati (eventi) possibili luscita di un numero
intero, compreso tra 1 e 6. Lo spazio campione è = {1, 2, 3, 4, 5, 6}, ovvero è
costituito da un numero finito di elementi , cui si attribuisce il significato di eventi
elementari. Essi formano un insieme di eventi necessari e a due a due incompatibili, poiche {i} {j} = per ogni i 6= j = 1, .., 6. Ma esistono molti altri eventi
in questo esperimento casuale: ad esempio, luscita di un numero pari, che è costituita dallevento E = {2, 4, 6} composto dai tre eventi elementari che lo realizzano; oppure luscita di un numero basso definita dallevento E 0 = {1, 2}; ecc.
Inoltre: lintersezione {2, 4, 6} {1, 2}, che coincide con levento elementare {2},
indica levento: uscita di un numero pari e basso. Levento: {1, 3, 5} {5, 6}
indica luscita di un numero dispari, oppure di un numero maggiore di 4, oppure
di un numero dispari e maggiore di 4 (ovvero dellintersezione dei due eventi, costituita dallevento elementare {5}). Il complementare dellinsieme A = {1, 2, 3, 5}
composto dai numeri primi minori di 7, ovvero levento \A = {4, 6}, indica luscita
di un numero che non sia primo (negazione di A).
Tutti i possibili eventi si presentano in questo esperimento come sottoinsiemi di ,
ed è facile verificare che il loro numero complessivo è la somma delle combinazioni
di classe k di sei elementi:
!
6
X
6
= 26 = 64,
k
k=0
compresi linsieme vuoto (per k = 0) e linsieme (per k = 6). Essi costituiscono
un campo C, perchè soddisfano tutte le condizioni di additività sopra precisate.
Se però siamo interessati solo ad alcuni eventi relativi a questo esperimento, è preferibile definire una diversa classe additiva, che costituisca un campo C 0 contenente il
minor numero possibile di eventi, compresi quelli che interessano. Si può costruire
questo campo C 0 con successive operazioni di unione e negazione che, a partire dagli
insiemi dati, coinvolgano tutti gli eventi che via via si aggiungono. Ad esempio, se

a
siamo interessati allevento: uscita di un numero pari, il campo C 0 da considerare

è composto dai quattro insiemi:
C0 :
, {2, 4, 6}, {1, 3, 5},
che costituiscono rispettivamente: la negazione {1, 3, 5} dellevento numero pari;

lunione degli eventi pari e dispari, e la negazione dellevento unione . C è
un campo, perche qualsiasi operazione sugli insiemi che lo compongono dà luogo a
un insieme anchesso contenuto in C 0 . Al contrario, la classe:
C :
, {2, 4, 6}, {1, 3, 5}, {1, 2},
non è un campo, perche {2, 4, 6} {1, 2} = {1, 2, 4, 6} 6 C. /

Esempio 1.2: misura di una grandezza
Il valore teorico di una generica grandezza fisica è espresso da un numero reale, e in

tal senso alla sua misura sperimentale associamo uno spazio campione costituito
dallasse reale (o da un suo intervallo, se siamo in grado di precisarlo a priori). Per
definire una classe additiva di eventi che sia compatibile con lesperimento della misurazione, suddividiamo lasse reale in intervalli di ampiezza assegnata (ad esempio:
gli intervalli aperti a sinistra e chiusi a destra, di ampiezza unitaria e aventi per
centro tutti i numeri interi), in modo che qualsiasi risultato della misurazione possa
appartenere ad uno di tali intervalli. Quindi, con operazioni successive di unione e
negazione, aggiungiamo altrettanti insiemi agli intervalli inizialmente considerati. Il
limite a cui tende la classe degli eventi cos definiti è il campo di Borel B associato alla misura sperimentale che effettuiamo. Si può dimostrare che tale campo di
Borel si genera anche a partire da tutti gli intervalli (, x1 ] con x1 reale qualsiasi;
esso contiene anche tutti gli intervalli [x1 , x2 ], (x1 , x2 ), i punti x = x1 e linfinità
numerabile delle loro unioni e intersezioni. /
1.2.3
Assiomi della probabilit`

a
Siamo ora in grado di attribuire una misura di probabilità a ciascun evento Ai la cui
collezione, come si è appena visto, forma nel caso pi`
u generale un campo di Borel B.
Definizione 2. La probabilit`
a è un funzionale P : B [0, 1] che verifica i seguenti
assiomi:
I.
II.
P () = 1
i 6= j,
Ai Aj =
P (Ai Aj ) = P (Ai ) + P (Aj ).
La formulazione matematica del modello probabilistico è cos completa: essa consiste

nellinsieme (, B, P ) chiamato spazio di probabilit`
a, e permette di assegnare un
numero reale non negativo P (Ai ) che chiamiamo probabilit`

a di Ai , agli eventi che
formano un campo di Borel B, costituito da sottoinsiemi di uno spazio campione
associato allesperimento casuale.
Lassioma I attribuisce probabilità 1 allevento certo , senza tuttavia escludere a
priori che esistano altri eventi, diversi da , con probabilità 1. Se è teoricamente
possibile un evento A 6= tale che P (A) = 1, si dice che questo evento è quasi certo.
Lassioma II esprime la proprietà additiva del funzionale P tra due eventi fra loro
incompatibili. Tale proprietà si generalizza subito a un insieme finito o infinito di
eventi a due a due incompatibili, con una delle due relazioni seguenti:
0
II )
rII)
i 6= j, Ai Aj =
i 6= j, Ai Aj =
P
P
n
[
Ai
i=1
ni=1 Ai
n
X
P (Ai )
i=1
P (Ai )
i=1
lultima delle quali esprime la additivit`

a infinita, o -additivit`
a, dellinsieme {Ai , i =
1, 2, . . .} di eventi a due a due incompatibili.
Dagli assiomi I), II) della probabilità si deducono svariate proprietà di P . Le pi`
u
significative sono le seguenti:
C1. P (Ai ) = 1 P (Ai )
C2. P () = 0
C3. Ai Aj :
P (Ai ) P (Aj )
C4. Ai B :
0 P (Ai ) 1
C5. Ai Aj 6= :
P (Ai Aj ) = P (Ai ) + P (Aj ) P (Ai Aj ).
La proprietà C1 si dimostra considerando che per lassioma I si ha P () = P (Ai

Ai ) = 1, e poichè Ai e il suo complementare sono incompatibili, si ricava per lassioma
II: P (Ai ) + P (Ai ) = 1.
La C2 si deduce dalla C1 perchè linsieme vuoto è il complementare di e quindi
P () = 1 P () = 0.
La C3 afferma che P è un funzionale crescente di B in [0, 1], e si dimostra applicando
lassioma II agli eventi (incompatibili) Ai e (Aj \Ai ). Si trova: P (Aj ) = P (Ai
(Aj \Ai )) = P (Ai ) + P (Aj \Ai ) e poiche linsieme (Aj \Ai ) non è vuoto per ipotesi,
risulta P (Aj \Ai ) 0.
La C4 si prova osservando che se Ai non è vuoto, è anche = Ai e per la
C3 valgono entrambe le diseguaglianze: P (Ai ) P () = 0 e P (Ai ) P () = 1.

a
Ai
Aj
Ai
Aj
Aj
Ai
Figura 1.2
La C5 è la generalizzazione dellassioma II per eventi non incompatibili, e si dimostra

come segue. Consideriamo levento Ai Aj = Ai (Ai Aj ) che si può esprimere (v.
Fig. 1.2) mediante lunione dei due eventi incompatibili Ai e (Ai Aj ). Per lassioma
II si ha allora P (Ai Aj ) = P (Ai ) + P (Ai Aj ). Ma anche Aj è esprimibile con
lunione: (Ai Aj ) (Ai Aj ) di due eventi incompatibili, e per esso lassioma
II fornisce: P (Aj ) = P (Ai Aj ) + P (Ai Aj ). Eliminando P (Ai Aj ) dalle due
precedenti eguaglianze, si ricava la C5.
Esempio 1.3: eventi elementari equiprobabili
Si è visto (Esempio 1.1) che nel lancio di un dado sei eventi elementari, a due a
due incompatibili, costituiscono lo spazio campione = {1, 2, 3, 4, 5, 6}. Per gli
P
assiomi I e II si ha subito: P () = P ({1} {2} . . . {6}) = i P {i} = 1 e se
ammettiamo che ciascun evento elementare abbia uguale probabilità di realizzarsi
(ovvero se operiamo con un dado non truccato), la probabilità di ciascuno vale:
i = 1, .., 6 : P (i) = 1/6.
Sempre per lassioma II, levento composto: esce un numero pari ha probabilità
P (2, 4, 6) = P (2) + P (4) + P (6) = 1/2
mentre luscita di un numero che non sia primo ha probabilità
P (4, 6) = P (4) + P (6) = 2/6 = 1/3.
Se si effettua per due volte il lancio dello stesso dado non truccato, gli eventi elementari sono 62 = 36, e la probabilità che esca due volte lo stesso numero vale
P (11, 22, 33, 44, 55, 66) =
X
i
P (ii) = 6/36 = 1/6. /
Questo esempio esprime il seguente risultato di carattere generale:

Se lo spazio campione consiste di un numero finito N di eventi elementari equiprobabili, la probabilità di un evento Ai composto da NA eventi elementari vale
P (Ai ) = NA /N
(1.1)
e coincide con la definizione classica di probabilità, citata nella Introduzione.

Esempio 1.4
Nel lancio di una moneta, i possibili eventi elementari sono soltanto due: T = {esce
testa} e C = {esce croce}. Lo spazio campione associato ad una singola prova
è = {T C}; se la moneta è lanciata due volte si ha = {T T, T C, CT, CC} e per
n prove ripetute è formato da 2n eventi elementari equiprobabili, con probabilità
1/2n . Sulla base del risultato espresso dalla (1.1), si verifica subito che nei lanci
ripetuti della moneta si ha:
P {C nel secondo di due lanci } = 1/2
P {C nei primi due di tre lanci } = 1/4
P {T in due qualsiasi di quattro lanci } = 3/8
P {T per la prima volta alln-esimo lancio } = 1/2n .
Esempio 1.5: distribuzione uniforme in [0, T ]
Estendiamo al caso continuo il risultato dellEsempio 1.3. Supponiamo che lo spazio

campione sia lintervallo [0, T ] IR e che gli eventi Ai relativi ad un esperimento
casuale siano una infinità numerabile di intervalli in [0, T ]. Supponiamo inoltre che
si richieda di assegnare uguali probabilit`
a ad eventi definiti da intervalli di uguale
ampiezza. Questa ipotesi implica la definizione di una distribuzione uniforme di
probabilità in [0, T ], e determina univocamente P (Ai ). Infatti, se pensiamo di suddividere in n intervalli I di eguale ampiezza T /n e senza elementi comuni, per
lassioma II la loro probabilità vale P (I) = 1/n. Un evento A definito dalla unione
di k intervalli I ha probabilità
P (A) =
kT
L(A)
k
=
=
,
n
nT
L()
uguale al rapporto tra le ampiezze L(A), L() degli intervalli A ed . In particolare,

se è lintervallo unitario, P (A) coincide con la misura di Lebesgue di A. E poiche la
misura di Lebesgue è una funzione continua degli intervalli, se ne deduce il seguente
risultato.
1.3 Probabilit`
a condizionata
In una distribuzione uniforme di probabilità nellintervallo [O, T ], la probabilità

del generico evento Ai di ampiezza L(Ai ) vale:
L(Ai )
.
T
P (Ai ) =
Ne segue, tra laltro, che ogni punto t di ha probabilità nulla: P (t) = 0, t [0, T ]
poiche t è un insieme di misura nulla.
1.3
Probabilit`
a condizionata
Assegnato un evento Aj B con probabilità non nulla, la probabilità di un altro

evento Ai B, condizionata da Aj si indica con P (Ai | Aj ) e vale:
P (Ai | Aj ) =
P (Ai Aj )
.
P (Aj )
(1.2)
Essa indica la probabilità che che si realizzi Ai sapendo che Aj si è verificato; oppure:
la probabilità di Ai in una prova valida solo se si verifica anche Aj . Le probabilità
condizionate soddisfano tutte le proprietà che discendono dagli assiomi I, II. In
particolare:
Se Ai Aj , allora Ai Aj = Ai e quindi:
Ai Aj
P (Ai | Aj ) = P (Ai )/P (Aj ) > P (Ai ).
Se Ai Aj , allora Ai Aj = Aj e quindi:
Ai Aj
P (Ai | Aj ) = 1.
Se Ai e Aj sono incompatibili, allora Ai Aj = e quindi:

Ai Aj =
P (Ai | Aj ) = 0.
La definizione (1.2) si può anche scrivere:

P(Ai Aj ) = P(Aj )P(Ai | Aj )
(1.3)
e si estende al caso di n eventi A1 , .., An B nella forma seguente

P(A1 A2 ... An ) = P(A1 )P(A2 | A1 )P(A3 | A1 A2 )
P(An | A1 A2 An1 )
(1.4)
che esprime la legge delle probabilit`

a composte, molto utile in svariate applicazioni, come mostra lesempio che segue.
10
Esempio 1.6: estrazione senza reimbussolamento
Da unurna contenente 6 palline bianche e 4 nere si estrae una pallina per volta,
senza reintrodurla nellurna. Indichiamo con Bi levento: esce una pallina bianca
alla i-esima estrazione e con Ni lestrazione di una pallina nera. Levento: escono
due palline bianche nelle prime due estrazioni è rappresentato dalla intersezione
{B1 B2 }, e la sua probabilità vale, per la (1.3):
P (B1 B2 ) = P (B1 )P (B2 | B1 ).
Ora, P (B1 ) vale 6/10, perche nella prima estrazione è costituito da 10 elementi:
6 palline bianche e 4 nere. La probabilità condizionata P (B2 | B1 ) vale 5/9, perchè
nella seconda estrazione se è verificato levento B1 lo spazio campione consiste di 5
palline bianche e 4 nere. Si ricava pertanto: P (B1 B2 ) = 1/3. In modo analogo si
ha che
P (N1 N2 ) = P (N1 )P (N2 | N1 ) = (4/10) (3/9) = 4/30.
Se lesperimento consiste nellestrazione successiva di 3 palline, la probabilità che
queste siano tutte bianche vale, per la (1.4):
P (B1 B2 B3 ) = P (B1 )P (B2 | B1 )P (B3 | B1 B2 )
dove la probabilità P (B3 | B1 B2 ) si calcola supponendo che si sia verificato levento
condizionante {B1 B2 }. Lo spazio campione per questa probabilità condizionata
è allora costituito da 4 palline bianche e 4 nere, per cui P (B3 | B1 B2 ) = 1/2 e
quindi: P (B1 B2 B3 ) = (1/3) (1/2) = 1/6. La probabilità dellestrazione di tre
palline nere è invece:
P (N1 N2 N3 ) = P (N1 )P (N2 | N1 )P (N3 | N1 N2 ) =
1.4
1
4 3 2
= . /
10 9 8
30
Eventi indipendenti
Due eventi Ai , Aj si dicono statisticamente indipendenti se e solo se:

P (Ai Aj ) = P (Ai )P (Aj ) .
(1.5)
Tale definizione esprime il concetto intuitivo di indipendenza di un evento da un

altro, nel senso che il verificarsi di Ai non influisce sulla probabilit`
a del verificarsi
di Aj , ovvero non la condiziona. Infatti, per la definizione (1.2) di probabilità
condizionata, si ha che se vale la (1.5) risulta:
P (Ai | Aj ) = P (Ai )P (Aj )/P (Aj ) = P (Ai ).
1.4 Eventi indipendenti
11
e dunque la conoscenza del verificarsi di Aj non modifica la valutazione della probabilità dellevento Ai da esso statisticamente indipendente.
Si noti bene che il concetto di indipendenza è del tutto differente da quello di incompatibilit`
a. In effetti, due eventi incompatibili (per i quali si ha Ai Aj = )
sono strettamente dipendenti statisticamente, poichè il verificarsi delluno esclude il
verificarsi dellaltro. Per la proprietà C2 del 1.2.3, la probabilità della loro intersezione è nulla: P (Ai Aj ) = 0 e di conseguenza, per confronto con la (1.5), due
eventi incompatibili possono essere anche statisticamente indipendenti solo nel caso
banale in cui almeno uno di essi abbia probabilità nulla, ovvero sia quasi impossibile.
Se due eventi con probabilità non nulla sono statisticamente indipendenti, la legge
delle probabilità totali espressa dalla proprietà C5 del 1.2.3 si modifica nella relazione seguente:
P (Ai Aj ) = P (Ai ) + P (Aj ) P (Ai )P (Aj ).
La definizione di indipendenza si estende al caso di un insieme finito o infinito di
eventi Ai , i quali si dicono statisticamente indipendenti se e solo se, per qualunque
sottoinsieme {A1 , . . . , An } di n eventi, si verifica la condizione:
P (A1 A2 . . . An ) = P (A1 )P (A2 ) P (An ).
(1.6)
Ciò significa, in particolare, che tre eventi A, B, C sono statisticamente indipendenti

se lo sono a due a due, e se inoltre:
P (A B C) = P (A)P (B)P (C).
Esempio 1.7
Nel lancio di un dado non truccato, si considerino gli eventi: A = {esce un numero
minore di 3} e B = {esce un numero pari}. Questi due eventi sono statisticamente
indipendenti. Infatti, le loro probabilità valgono: P (A) = P (1, 2) = 1/3; P (B) =
P (2, 4, 6) = 1/2 e la probabilità della loro intersezione vale:
P {(1, 2) (2, 4, 6)} = P (2) = 1/6 P (A)P (B).
Come verifica, si può osservare che la probabilità dellevento A condizionata da B
coincide con la sua probabilità non condizionata:
P {(1, 2) | (2, 4, 6)} =
P {(1, 2) (2, 4, 6)}

1/6
=
= 1/3 P (1, 2)
P (2, 4, 6)
1/2
Nel lancio ripetuto di una moneta (cfr. lEsempio 1.4) in cui lo spazio campione è
= {T T, T C, CT, CC}, si considerino gli eventi composti: A1 = {T T, T C}, A2 =
12
{T C, CT } e A3 = {T T, CT }, ciascuno con probabilità 1/2. I tre eventi non sono

statisticamente indipendenti, anche se lo sono a due a due. Infatti:
P (A1 A2 ) = P {T C} = 1/4 = P (A1 )P (A2 )
P (A1 A3 ) = P {T T } = 1/4 = P (A1 )P (A3 )
P (A2 A3 ) = P {CT } = 1/4 = P (A2 )P (A3 ),
ma si ha anche:
P (A1 A2 A3 ) = P () = 0 6= P (A1 )P (A2 )P (A3 )
e dunque non è verificata la condizione (1.6) per n = 3.
Esempio 1.8: componenti in serie e in parallelo
Si abbia un generico sistema (ad es. una macchina, un dispositivo di controllo, un

circuito, una rete di comunicazione tra centri abitati, ecc.) costituito da n componenti con funzionamento statisticamente indipendente, che sono operativi ciascuno
con probabilità Pi , i = 1, . . . , n. Il collegamento è in serie se tutti i componenti
devono essere operativi perche lo sia il sistema; è in parallelo se è sufficiente il funzionamento di un solo componente per rendere operativo il sistema.
Indichiamo con Ai levento: è operativo li-esimo componente e con B levento:
il sistema è operativo. Lintersezione degli eventi Ai , i = 1, . . . , n indica levento:
tutti i componenti sono operativi, e lintersezione delle loro negazioni Ai = \Ai
è levento: nessun componente è operativo.
Poichè Ai sono indipendenti, le loro probabilità soddisfano la (1.6), per cui nel
collegamento in serie si ha subito:
P (B) = P (A1 A2 .. An ) = P (A1 )P (A2 )..P (An ) =
n
Y
Pi .
i=1
Nel collegamento in parallelo, P (B) è invece eguale alla probabilità che almeno un
componente sia operativo, e percio vale
P (B) = 1 P (A1 A2 .. An ) = 1
n
Y
(1 Pi ).
i=1
1.5
Formula di Bayes
Si abbia una sequenza finita o numerabile di eventi Ai B con probabilità non

nulle, e soddisfacente alle seguenti ipotesi:
1.5 Formula di Bayes
13
1) i 6= j : Ai Aj =
2)
i=1 Ai
= .
La prima condizione stabilisce che gli eventi devono essere a due a due incompatibili;
la seconda impone che il loro insieme sia esaustivo, ossia tale che in ogni prova
dellesperimento casuale si realizza uno e uno solo tra gli eventi Ai (v. Fig. 1.3).
A2
A3
E
A1
A4
A5
Figura 1.3
Definito un arbitrario evento E con probabilità non nulla, è chiaro per le ipotesi
fatte che se si verifica E, deve anche essersi verificato almeno uno degli eventi Ai ,
che in tal senso si possono considerare come possibili cause dellevento E che è
stato registrato.
La probabilità condizionata P (Ai | E), detta probabilit`
a a posteriori, è quella che
attribuiamo ad Ai sapendo che si è verificato E, ed è legata alla probabilità a priori
P (Ai ) dalla seguente formula di Bayes:
P (Ai )P (E | Ai )
P (Ai | E) = X
.
P (Aj )P (E | Aj )
(1.7)
Essa mostra che la conoscenza del verificarsi di E modifica la probabilità che a

priori siamo portati ad attribuire allevento Ai .
Per dimostrare la (1.7), si osservi che ricorrendo due volte alla definizione di probabilità condizionata, si ha anzitutto:
P (Ai E)
P (E Ai )
P (Ai )P (E | Ai )
=
=
.
P (E)
P (E)
P (E)
Inoltre, per lipotesi 2) e tenendo conto che E , si può scrivere:
P (Ai | E) =
E =E=E(
Aj ) =
[
j
(E Aj ).
(1.8)
14
Ma per lipotesi 1) anche gli eventi (EAj ) ed (EAk ), con j 6= k, sono incompatibili
a due a due. Quindi per lassioma II si ha:
[
X
X
P (E) = P (E Aj ) =
P (E Aj ) =
P (Aj )P (E | Aj )
j
(1.9)
che, sostituita nella (1.8), prova la (1.7).

La (1.9) è detta Formula delle probabilit`
a totali, ed è assai utile in molte applicazioni perchè permette di valutare la probabilità dellevento E se è nota la sua
probabilità condizionata dalla sequenza degli eventi Ai di cui si conoscono le probabilità a priori.
`
Esempio 1.9: Controllo statistico della qualita
Al montaggio di 200 apparecchiature uguali contribuiscono tre tecnici con abilità

differenti. Il primo tecnico monta 50 apparecchiature, che al collaudo risultano
perfette nel 90% dei casi; il secondo ne monta 85, perfette all80%, e il terzo ne
monta 65, perfette nel 70% dei casi. Si vuole determinare la probabilità che un
apparecchio di buona qualità, scelto a caso, sia stato montato del terzo tecnico.
Indichiamo con E levento rappresentato dalla buona qualità del montaggio, e con
A1 , A2 , A3 il montaggio effettuato da ciascuno dei tre tecnici. I tre eventi Ai sono
esaustivi (la loro unione è lo spazio campione dei 200 apparecchi montati) ed incompatibili (il montaggio da parte di un tecnico esclude quello di un altro). Le
probabilità a priori di questi tre eventi sono note:
85
65
50
= 0.25,
P (A2 ) =
= 0.425,
P (A3 ) =
= 0.325.
200
200
200
La probabilità dellevento E nella ipotesi che lapparecchio scelto sia stato montato
dal primo tecnico, è la probabilità condizionata: P (E | A1 ) = 0.90 che è nota dal
collaudo; e cos pure risulta: P (E | A2 ) = 0.80, P (E | A3 ) = 0.70. La probabilità
da determinare è quella relativa al montaggio effettuato dal terzo tecnico, sapendo
che è stata scelta una apparecchiatura perfetta. Essa si ricava applicando la (1.7) e
vale:
P (A1 ) =
P (A3 | E) =
P (A3 )P (E | A3 )
= 0.287.
P (A1 )P (E | A1 ) + P (A2 )P (E | A2 ) + P (A3 )P (E | A3 )
Esempio 1.10: trasmissione di un segnale binario
In un sistema di comunicazione digitale, un segnale binario X è trasmesso nella

forma 0 oppure 1, con probabilità di trasmissione di ciascuna delle due forme
che indichiamo rispettivamente con P (X0 ) e P (X1 ). La trasmissione è affetta da
disturbi aleatori (rumore), per cui esiste una probabilità non nulla che il segnale
ricevuto, che indichiamo con Y , sia diverso da quello emesso X (v. Fig. 1.4).
1.5 Formula di Bayes
15
Figura 1.4
Canale simmetrico
Supponiamo dapprima che i due eventi (esaustivi) X0 = {X = 0} e X1 = {X = 1}
si realizzino con probabilità P (X0 ) = 0.4 e P (X1 ) = 0.6; e inoltre che la probabilità
di errore nella trasmissione del segnale 0 sia uguale alla probabilità di errore nella
trasmissione del segnale 1, e valga P = 0.25. Si vuole determinare le probabilità
di ricevere 1 e di ricevere 0.
Indichiamo con Y0 ed Y1 la ricezione del segnale nelle forme 0 ed1. Se il segnale
trasmesso è 0 esso ha, per ipotesi, probabilità P di essere distorto in 1. Quindi
P (Y1 | X0 ) = P = 0.25. Se invece il segnale trasmesso è 1, ha probabilità
(1 P ) di essere ricevuto inalterato: P (Y1 | X1 ) = 0.75. Applicando la (1.9) si
ricava pertanto
P (Y1 ) = P (Y1 | X0 )P (X0 ) + P (Y1 | X1 )P (X1 ) = 0.25 0.4 + 0.75 0.6 = 0.55.
La probabilià di ricezione del segnale nella forma 0 si calcola invece come segue:
P (Y0 ) = P (Y0 | X0 )P (X0 ) + P (Y0 | X1 )P (X1 ) = 0.75 0.4 + 0.25 0.6 = 0.45
o meglio, se già si conosce P (Y1 ), come probabilità della negazione dellevento Y1 :
P (Y0 ) = P () P (Y1 ) = 1 0.55.
Canale non simmetrico
Supponiamo ora che la probabilità di trasmissione del segnale in forma non distorta
vari a seconda della forma del segnale trasmesso, e precisamente:
P (X0 non distorto) = 0.8,
P (X1 non distorto) = 0.9
essendo P (X0 ) = 1/3. Si vuole determinare la probabilità P (E) che il segnale

ricevuto sia errato. Essa si calcola applicando ancora la (1.9) e vale:
P (E) = P (Y0 | X1 )P (X1 ) + P (Y1 | X0 )P (X0 ) = 0.1
1
2
+ 0.2 = 0.13.
3
3
16
1.6
Problemi risolti
1.1. Da un mazzo di 52 carte se ne sceglie una a caso. Quanto vale la probabilità

di estrarre una figura o una carta di fiori? E quella di estrarre una figura e un fiori?
Soluzione. Levento {estrazione di una figura} non influisce sulla probabilità dellevento {estrazione di un fiori}, per cui essi sono statisticamente indipendenti. Ne
segue:
P {figura fiori} = P {figura} + P {fiori} P {figura fiori}=
P {figura fiori} = P {figura} IP{fiori} =
3
11
12 13
+
=
52 52 52
26
12 13
3
=
.
52 52
52
1.2. Se A e C sono eventi incompatibili con B, allora P (A B|C) = P (A|C). Vero

o falso?
Risposta: Vero , perche:
'$
'$
&% &%
P (A B|C) =
P [(A B) C]
P (A C)
=
= P (A|C).
P (C)
P (C)
1.3. Nel lancio ripetuto di due dadi non truccati, la somma dei risultati è un numero
pari. Quanto vale la probabilità di aver totalizzato 8 ?
Risposta: La probabilità che la somma sia 8 è
P {8} = P {(6 + 2) (5 + 3) (4 + 4) (3 + 5) (2 + 6)} =
5
.
36
Sapendo che è uscito un numero pari, si ha invece

P {8|pari} =
P {8 pari}
P {8}
5
=
=
.
P {pari}
0.5
18
1.4. Gli eventi A1 , A2 sono incompatibili, esaustivi e con uguale probabilità. Se un

terzo evento C ha probabilità condizionate P (C|A1 ) = P (C|A2 ) = 0.5, allora
P (A1 |C) = 1/4. Vero o falso?
1.6 Problemi risolti
17
Risposta: Falso , perche P (A1 ) = P (A2 ) = 0.5 e se si applica la formula di Bayes

si ricava:
P (A1 |C) =
P (A1 )P (C|A1 )
0, 5 0.5
1
=
= .
P (A1 )P (C|A1 ) + P (A2 )P (C|A2 )
0.5(0.5 + 0.5)
2
1.5. Se gli eventi A, B sono incompatibili, allora P (A) P (B). Vero o falso?
Risposta: Vero , perche se sono incompatibili allora A B = B da cui si
deduce, per gli assiomi della probabilità, che P (A) P (B).
1.6. Lurna A contiene 2 palline bianche e 3 nere; lurna B ne contiene 4 bianche e
1 nera; lurna C ne contiene 3 bianche e 4 nere. Si sceglie a caso unurna, e si estrae
una pallina bianca. Calcolare la probabilità che essa provenga dallurna C.
Soluzione. Le probabilità di scegliere a caso una delle tre urne sono uguali: P (A) =
P (B) = P (C) = 1/3. Indichiamo con E levento {estrazione di una pallina bianca}.
Le probabilità che essa sia estratta dallurna A, oppure B o C sono:
P (E|A) = 2/5;
P (E|B) = 4/5;
P (E|C) = 3/7
e la probabilità totale di estrarre una pallina bianca da una qualsiasi delle tre urne
vale
57
1 2 4 3
+ +
=
.
P (E) =
3 5 5 7
105
La probabilità di averla estratta dallurna C è data dalla formula di Bayes:
P (C|E) =
5
P (C)P (E|C)
(1/3)(3/7)
=
=
.
P (E)
57/105
19
1.7. Due ditte forniscono il medesimo prodotto. Se esso proviene dalla ditta A, la
probabilità che si guasti prima dellistante t vale 1 et ; se invece proviene dalla
ditta B questa probabilità vale 1e2t . Il prodotto può essere acquistato con uguale
probabilità da A o da B, e non è nota la ditta fornitrice. Tuttavia, è stato osservato
che il prodotto si guasta in un intervallo di tempo 1 t 2. Determinare la
probabilità che esso sia stato acquistato dalla ditta A.
Soluzione. Indichiamo con E levento: {guasto in 1 t 2} e con P (A) = P (B) =
0.5 le probabilità che il prodotto provenga da A o da B. La probabilità di guasto
del prodotto A nellintervallo di tempo 1 t 2 vale
P (E|A) = 1 e2 [1 e1 ] = e1 e2
e quella del prodotto B nello stesso intervallo è
P (E|B) = 1 e22 [1 e21 ] = e2 e4 .
18
La probabilità a posteriori P (A|E) è data dalla formula di Bayes:

P (A|E) =
=
P (A)P (E|A)
P (A)P (E|A) + P (B)P (E|B)
e2 (e 1)
e1 e2
=
' 0.6652 .
e1 e2 + e2 e4
e3 1
1.8. Abbiamo sul tavolo 9 carte coperte: due di esse sono di cuori, tre di fiori e
quattro di picche. Calcolare la probabilità che, scelte simultaneamente due carte a
caso, siano di seme diverso.
Soluzione. Indichiamo con {QQ}, {F F }, {P P } gli eventi: estrazione di due cuori,
oppure due fiori, o due picche. Lo spazio campione è costituito da 92 = 36

eventi possibili (numero di combinazioni di 9 elementi a 2 a 2). Tra essi, esistono:
!
2
2
= 1 evento {QQ};
3
2
4
2
= 3 eventi {F F };
= 6 eventi {P P }.
La probabilità di estrarre due carte dello stesso seme vale:

P [{QQ} {F F } {P P }] = P {QQ} + P {F F } + P {P P } =
1
3
6
5
+
+
= .
36 36 36
18
La probabilità di estrarre due carte di seme diverso è :

P {seme diverso} = 1 P [{QQ} {F F } {P P }] =
13
.
18
1.9. Una sorgente emette una sequenza di tre segnali binari equiprobabili nella
forma 0 e 1. Sapendo che almeno due segnali sono stati emessi nella forma 1,
calcolare la probabilità che sia stato emesso 0 nella prima emissione.
Soluzione. Lo spazio campione contiene 23 = 8 eventi (= numero delle disposizioni
con ripetizione di 2 elementi a 3 a 3). Questi sono:
(000) (001) (011) (100) (010) (101) (110) (111)
e la probabilità che sia stato emesso 1 almeno due volte vale
P (E) P ( 1 per due o tre volte) =
4
= 0.5.
8
La probabilità di emissione di un primo 0 condizionata da E vale:

P (primo 0|E) =
P [(primo 0) E]
1/8
=
= 0.25 .
P (E)
0.5
19
1.10. In un primo turno elettorale il polo A ha avuto il 45% dei voti, e il polo B ha
vinto con il 55% dei suffragi. Si ripetono le elezioni con i medesimi votanti, e dagli
exit-poll risulta che: 1) il 10% di colori che avevano votato A hanno spostato il voto
su B; 2) il 20% dei vecchi elettori di B hanno votato A. Chi ha vinto (secondo gli
exit-poll) il secondo turno?
Soluzione. Definiamo i seguenti eventi e le loro probabilità:
A1 = {voto per A al primo turno} :
P (A1 ) = 0.45
B1 = {voto per B al primo turno} :
P (B1 ) = 0.55
E = {voto cambiato} :
P (E|A1 ) = 0.10,
P (E|B1 ) = 0.20.
La probabilità che gli elettori abbiano votato A al secondo turno è

P (A2 ) = P (A1 )[1 P (E|A1 )] + P (B1 )P (E|B1 ) = 0.45 0.9 + 0.55 0.20 = 0.515.
Poiche gli eventi A2 e B2 sono esaustivi, ha vinto A con il 51.5% contro B che ha
avuto il 48.5% .
1.11. Sul tavolo ci sono due mazzi di carte. Il mazzo A è completo ed ha 52 carte
(ossia tredici per ognuno dei quattro semi). Dal mazzo B sono state tolte tutte le
figure. Si estrae una carta a caso da uno dei due mazzi, ed è un asso. Qualè la
probabilità che lasso sia stato estratto dal mazzo B ?
Soluzione. Le probabilità a priori di scegliere uno dei due mazzi sono uguali: P (A) =
P (B) = 0.5. Se E è levento estrazione di un asso, le probabilità di estrarlo da A
o da B sono:
4
1
4
1
P (E|A) =
=
,
P (E|B) =
= .
52
13
40
10
La probabilità a posteriori che lasso sia stato estratto dal mazzo B vale, per la
formula di Bayes:
P (B|E) =
P (B)P (E|B)
0.5 0.1
13
=
=
' 0.5652 .
P (A)P (E|A) + P (B)P (E|B)
0.5(0.1 + 1/13)
23
1.12. Si utilizza un prodotto fornito in percentuali uguali da due ditte A e B. E

stato calcolato che, scelto a caso un esemplare difettoso, la probabilità che esso sia
stato fornito dalla ditta A vale IP(A|difettoso ) = 0.25. Se la produzione del prodotto
da parte della ditta A ha un difetto di qualità del 5%, qualè il difetto di qualità
nella produzione della ditta B ?
Soluzione. Le probabilità a priori che la ditta fornitrice sia A oppure B sono uguali:
P (A) = P (B) = 0.5. Se D è levento: prodotto difettoso, si sa che P (D|A) = 0.05.
Inoltre è stato calcolato che
0.5 0.05
P (A|D) =
= 0.25.
0.5 0.05 + 0.5 P (D|B)
20
Dunque risolvendo rispetto alla probabilità richiesta:

P (D|B) =
0.05
0.05 = 0.15 = 15% .
0.25
1.13. Tre macchine A, B, C producono, rispettivamente, il 60%, il 30% e il 10%

del numero totale dei pezzi prodotti da una fabbrica. Le percentuali di produzione
difettosa di queste macchine sono, rispettivamente, del 2%, 3% e 4%. Viene estratto
a caso un pezzo che risulta difettoso. Determinare la probabilità che quel pezzo sia
stato prodotto dalla macchina C.
Soluzione. Le probabilità che i pezzi siano prodotti dalla macchina A, B oppure C
sono:
P (A) = 0.6,
P (B) = 0.3,
P (C) = 0.1.
Se D è levento: {pezzo difettoso}, si sa che
P (D|A) = 0.02,
P (D|B) = 0.03,
P (D|C) = 0.04
e dunque la probabilità totale che il pezzo sia difettoso vale

P (D) = 0.6 0.02 + 0.3 0.03 + 0.1 0.04 = 0.025.
Per la formula di Bayes la probabilità richiesta è
P (C|D) =
P (C)P (D|C)
0.1 0.04
=
= 0.16 .
P (D)
0.025
1.14.Unurna contiene 1 pallina nera (N) e 2 palline bianche (B). Si estrae casualmente una pallina dallurna e, dopo averne osservato il colore, la si rimette nellurna
aggiungendo altre 2 palline del colore estratto e 3 palline del colore non estratto.
Calcolare la probabilità che in 4 estrazioni successive, effettuate secondo la regola
sopra stabilita, si ottenga la stringa (ordinata) BNNB.
Soluzione. Indichiamo con Bi , Ni (i = 1, . . . , 4) gli eventi: {si ha una pallina Bianca
(Nera) alla i-esima estrazione}. Dopo ogni estrazione cambia lo spazio campione, e
se gli esiti delle prime tre estrazioni seguono la sequenza voluta: B1 N2 N3 il numero
delle palline presenti nellurna quando avviene la i-esima estrazione si modifica come
segue:
i
1
2
3
4
Nere
1
4
6
8
Bianche
2
4
7
10
21
Allora si ha
2
P (B1 ) = ,
3
P (N2 |B1 ) =
P (N3 |N2 B1 ) =
6
,
13
4
1
= ,
8
2
P (B4 |N3 N2 B1 ) =
10
5
=
18
9
e di conseguenza la probabilità che si verifichi la sequenza BN N B vale:

P (B1 N2 N3 B4 ) =
2 1 6 5
10

=
' 0.08547 .
3 2 13 9
117
1.15. Un segnale binario X, emesso nella forma 1 con probabilità P (X1 ) = 0, 75,
è inviato su un canale di trasmissione non simmetrico nel quale la probabilità di
errore nella trasmissione di X1 vale p = 0, 08. Il segnale X è ricevuto nella forma
Y = 1 con probabilità P (Y1 ) = 0, 70. Calcolare:
a) la probabilità P (Y1 |X0 ) che il segnale 0 sia ricevuto nella forma 1 ;
b) la probabilità totale di errore nella ricezione del segnale.
Soluzione.
a) La probabilità che X sia emesso nella forma 0 è P (X0 ) = 1P (X1 ) = 0.25, e la
probabilità di una trasmissione corretta del segnale 1 è P (Y1 |X1 ) = 10.08 = 0.92.
Per la formula delle probabilità totali, la probabilità (nota) che il segnale sia ricevuto
nella forma 1 si può scrivere:
P (Y1 ) = 0.70 = P (X0 )P (Y1 |X0 ) + P (X1 )P (Y1 |X1 ) = 0.25P (Y1 |X0 ) + 0.75 0.92
e risolvendo rispetto a P (Y1 |X0 ):
P (Y1 |X0 ) =
0.70 0.75 0.92

= 0.04 .
0.25
b) La probabilità di errore nella ricezione del segnale risulta:

P {errore} = P (X0 )P (Y1 |X0 ) + P (X1 )P (Y0 |X1 ) =
= 0.25 0.04 + 0.75 0.08 = 0.07 .
1.16. Due urne contengono palline bianche e nere in proporzioni diverse. Siano
p1 e p2 le probabilità di estrarre una pallina bianca rispettivamente dallurna U1 e
dallurna U2 . Luca vince se estraendo due palline almeno una è bianca. Egli può
scegliere tra due modalità di estrazione:
A) Sceglie a caso una delle due urne, estrae una pallina, la rimette nellurna da cui
è stata estratta, quindi sceglie di nuovo a caso unurna ed estrae la seconda pallina.
22
B) Sceglie a caso una delle due urne, estrae una pallina, la rimette nellurna da cui
è stata estratta, e sempre dalla stessa urna estrae una seconda pallina.
Quale tra le due procedure è pi`
u conveniente per la vittoria di Luca?
Soluzione. Indichiamo con Ui la scelta di una delle due urne, con Ni levento:
{pallina nera alla i-esima estrazione} e con E levento {estrazione di almeno una
pallina bianca}. Si ha anzitutto:
IP(Ui ) = 0.5 ;
IP(E) = 1 IP(N1 N2 ).
Con la procedura A le due estrazioni sono statisticamente indipendenti, con IP(N1 ) =

IP(N2 ) :
IP(N1 N2 ) = IP(N1 )IP(N2 ) = {IP(U1 )IP(N1 |U1 ) + IP(U2 )IP(N1 |U2 )}
{IP(U1 )IP(N2 |U1 ) + IP(U2 )IP(N2 |U2 )} = {0.5(1 p1 ) + 0.5(1 p2 )}2 .
In tale ipotesi si ricava:
IPA (E) = 1
1 p1 1 p2
+
2
2
= p1 + p2
(p1 + p2 )2
.
4
Con la procedura B, la probabilità di estrarre due Nere dalla medesima urna vale:
i = 1, 2 :
IP(N1 N2 |Ui ) = IP(N1 |Ui )IP(N2 |Ui ) = (1 pi )2 .
Quindi:
IP(N1 N2 ) = IP(U1 )IP(N1 N2 |U1 ) + IP(U2 )IP(N1 N2 |U2 )
= 0.5(1 p1 )2 + 0.5(1 p2 )2
e si ottiene:
"
(1 p1 )2 (1 p2 )2
IPB (E) = 1
+
2
2
#2
= p1 + p2
p21 + p22
.
2
La differenza tra le due probabilità è

IPA (E) IPB (E) =
e quindi IPA (E) > IPB (E) .
(p1 + p2 )2 p21 + p22

(p1 p2 )2
+
=
>0
4
2
4
VARIABILI ALEATORIE
2.1
Definizioni
Il risultato di una prova di un generico esperimento casuale non è sempre esprimibile

direttamente in termini di numeri reali (si pensi per esempio al lancio di una moneta,
o allestrazione da unurna di palline con colori diversi). Tuttavia, nello sviluppo del
Calcolo delle probabilità siamo interessati ad associare un numero reale x = X()
a qualsiasi risultato di ogni prova dellesperimento casuale.
Il funzionale X : IR che cos si viene a definire è chiamato variabile aleatoria o
casuale (abbreviata nel seguito con v.a.) se soddisfa a queste due condizioni:
1. X è una funzione a valori reali definita sullo spazio di probabilita (, B, P ) e
misurabile, nel senso che le immagini inverse di intervalli Bi IR appartengono
al campo di Borel degli eventi Ai :
X 1 (Bi ) = Ai B.
2. Per ogni numero reale x, linsieme { : X() x} è ancora un evento in B.
La v.a. X() è dunque una funzione che fa corrispondere a ciascun risultato
dellesperimento casuale un elemento x di IR, e ad ogni evento Ai B un
intervallo Bi IR come è illustrato in Fig. 2.1. Lintervallo Bi appartiene a una
infinità numerabile di insiemi che costituiscono un campo di Borel B su X() IR.
In particolare, allevento impossibile è associato linsieme vuoto dei numeri
reali, e allevento certo è associato lintervallo X() IR. Inoltre, poiche il
funzionale X è definito su uno spazio di probabilità, la v.a. associa alla probabilità P (Ai ) = P [X 1 (Bi )], definita su , una eguale probabilità immagine P (Bi ),
definita su X(). Questultima misura la probabilità che la v.a. X() assuma valori
reali x Bi , ed è tale che
P (Bi ) = P [X 1 (Bi )] = P (Ai ).
23
24
VARIABILI ALEATORIE
x = X(w )
X
W
w
Ai
B i = X(A i )
X
P*
P
P(A i ) = P*(B i )
Figura 2.1
Nel seguito indicheremo una v.a. con la lettera maiuscola (per es. X), mentre il
generico valore reale che essa può assumere sarà indicato con la lettera minuscola
corrispondente. La v.a. X() assume un valore x IR con una ben definita probabilità, che è indotta in X() IR dalla probabilità P () che si verifichi . In
conclusione, una variabile aleatoria è la trasformazione
X
(, B, P ) (IR, B , P )
che associa ad ogni elemento una coppia di numeri reali (x, P (x)) = (X(),
P ()) con P (x) = P () [0, 1].
Esempio 2.1
Nel lancio di una moneta per due volte, in cui = {T T, T C, CT, CC}, definiamo la
v.a. X() che a ciascuno dei 4 possibili eventi elementari associa un guadagno 1
se esce T , e una perdita di una unità se esce C. La v.a. X() assume allora tre
valori discreti:
x1 = X( = CC) = 2
x2 = X( = T C) = X( = CT ) = 0
x3 = X( = T T ) = 2
e limmagine di è il sottoinsieme: X() = {2, 0, 2} IR. Poiche i quattro eventi
elementari sono equiprobabili con probabilità P () = 1/4, si ha che la probabilità
immagine, indotta in X() per ciascuno dei tre valori di X, vale rispettivamente:
P (2) = P (T T ) = 1/4
P (0) = P (T C CT ) = 1/2
P (2) = P (CC) = 1/4. /
2.1 Definizioni
2.1.1
25
Funzione di distribuzione
Per la proprietà 2 di X(), linsieme { : X x} è un evento in B, che dora

in poi scriveremo pi`
u sinteticamente con (X x). Ad esso è possibile assegnare
una probabilità P (X x) = P {X 1 (, x)} che al variare di x IR definisce la
funzione ordinaria di variabile reale:
FX (x) = P (X x).
Questa funzione è chiamata funzione di distribuzione (cumulata), o funzione di ripartizione di X(). Dunque, FX (x) definisce la distribuzione delle probabilità di
eventi in un esperimento casuale e, con riferimento alla v.a. X() che associamo a
tale esperimento, misura la probabilità che X() assuma valori minori o uguali al
reale x. Sulla base degli assiomi del Calcolo delle probabilità, è sempre non negativa,
monotona non decrescente tra 0 e 1, tale che:
lim FX (x) FX () = 0,
lim FX (x) FX (+) = 1
x+
ed è continua a destra:
lim FX () FX (x+ ) = FX (x).
x+
Se X() assume un numero finito o una infinità numerabile di valori reali xi , i =

1, .., n,.. con probabilità Pi , allora è chiamata v.a. discreta. La sua funzione di
distribuzione, illustrata in Fig. 2.2a), è una funzione costante a tratti con punti di
discontinuità in xi :
xi x < xi+1 :
FX (x) =
i
X
r=1
Pr ,
con
Pi = 1.
Al contrario, se FX (x) è continua e derivabile ovunque tranne al pi`

u in un insieme
numerabile di punti, allora X() è una v.a. continua, definita in un insieme continuo
X() IR come illustrato in Fig. 2.2b).
Se infine limmagine di attraverso X è un insieme continuo X() IR, ma FX (x)
ha un insieme numerabile di punti di discontinuit`
a, allora la v.a. si definisce di tipo
misto (v. Fig. 2.2c).
La probabilità che una v.a. X() assuma valori in un intervallo (x1 , x2 ] aperto a
sinistra, è data da:
P (x1 < X x2 ) = FX (x2 ) FX (x1 ).
(2.1)
Infatti si ha: (, x2 ] = (, x1 ] (x1 , x2 ] e poichè gli intervalli a secondo membro

rappresentano eventi incompatibili ne segue che
P (X x2 ) = FX (x2 ) = P (X x1 ) + P (x1 < X x2 ) = FX (x1 ) + P (x1 < X x2 )
26
VARIABILI ALEATORIE
F (x)
F (x)
F (x)
.75
.25
-2
a) v.a. discreta
b) v.a. continua
.25
.75
c) v.a. mista
Figura 2.2
da cui la (2.1). Se se però X() è continua, la probabilità che assuma un valore

assegnato x1 è nulla, perchè x1 è un insieme di misura nulla (cfr. lEsempio 1.5).
Ne segue, tenuto conto della incompatibilità degli eventi (X = x1 ) e (x1 < X x2 ),
che per v.a. continue la (2.1) vale anche con il doppio segno di uguaglianza:
P (x1 X x2 ) = P (X = x1 ) + P (x1 < X x2 ) = FX (x2 ) FX (x1 ).
Esempio 2.2
La v.a. definita nellEsempio 2.1 a proposito del lancio ripetuto di una moneta è
discreta perche può assumere solo i tre valori x1 = 2, x2 = 0, x3 = 2. La sua
funzione di distribuzione vale:
1/4
per
per
FX (x) = P (X x) =
3/4 per
1
per
x < 2
x [2, 0)
x [0, 2)
x2
(2.2)
ed il suo grafico è riportato in Fig. 2.2a). Un modo pi`

u espressivo per scrivere
questa funzione costante a tratti consiste nel far uso della funzione scalino unitario
o di Heaviside, cos` definita:
U (x x ) =
1 per ogni x x
0 per ogni x < x .
(2.3)
Con essa, la (2.2) diventa

FX (x) = 14 U (x + 2) + 12 U (x) + 41 U (x 2)
(2.20 )
ed ha il vantaggio di mostrare sia i punti di discontinuit`

a di FX (x), sia lampiezza
del gradino in ognuno di tali punti.
Esempio 2.3
2.1 Definizioni
27
La funzione di variabile reale:
FX (x) = 3x2 2x3
per x < 0
per x [0, 1]
per x > 1
(2.4)
è tale che FX (0) = 0; FX (1) = 1 e la sua derivata FX0 (x) = 6x(1 x) è non
negativa per ogni x [0, 1]. Essa può dunque essere riguardata come la funzione di
distribuzione di una v.a. X() continua nellintervallo [0, 1], il cui grafico è riportato
in Fig. 2.2b). /
Esempio 2.4
Lesperimento consiste nellestrazione a caso di un numero x compreso tra 0 e 1.

Definiti i tre eventi composti:
A1 = { : x [0, 14 ] },
A2 = { : x ( 14 , 34 ] },
A3 = { : x ( 34 , 1] }
aventi probabilità P (A1 ) = P (A3 ) = 14 ; P (A2 ) = 12 , associamo ad essi la v.a.
se A1
X() = x se A2
1 se A3 .
La sua funzione di distribuzione si calcola come segue:
x<0 :
1
4
3
4
0x
1
4 <x
3
4 <x<1
x1
:
:
:
:
F (x) = P (X < 0) = 0
F (x) = P (X
F (x) = P (X
F (x) = P (X
F (x) = P (X
(2.5)
1
4
0) = P (A1 ) =
0) + P ( 14 < X x) = 14 + (x 14 ) = x
0) + P ( 14 < X 34 ) = 34
0) + P ( 41 < X 34 ) + P (X 1) = 34 +
1
4
= 1.
Questa funzione è discontinua nei punti x = 0 ed x = 1 e continua altrove, e definisce

una v.a. mista la cui distribuzione di probabilità è indicata nella Fig. 2.2c). /
2.1.2
Densit`
a di probabilit`
a
V.a. continue. Data una v.a. X() continua in X() IR e scelto un insieme
B X(), introduciamo la funzione integrabile fX (x) : IR [0, +) tale che
Z
fX (x)dx = P (X B).
(2.6)
Tale funzione fX (x) si chiama densità di probabilità o funzione di densità di X(),

e il suo integrale misura la probabilità che X() abbia valori x B. Per gli assiomi
del Calcolo delle probabilità, essa deve soddisfare le seguenti proprietà:
Z
fX (x) 0;
fX (x)dx = 1
(2.7)
28
VARIABILI ALEATORIE
f (x)
X
P(X
dP(w) = f X ( x )d x
x)
dx
x
Figura 2.3
dove S è il supporto di fX (x), ossia linsieme S = {x IR : fX (x) > 0}. Per la

definizione di funzione di distribuzione cumulata, si ha
Z x
fX (t)dt = P (X x) = FX (x)
(2.8)
e quindi anche, se B è lintervallo elementare (x, x + dx]:

P (x < X x + dx) = FX (x + dx) FX (x) =
Z x+dx
x
fX (t)dt
= fX (x)dx.
(2.9)
La quantità elementare dP () = dFX (x) = fX (x)dx misura pertanto, a meno di

infinitesimi di ordine superiore, la probabilit`
a elementare che X() assuma valori in
(x, x + dx]. Da quanto esposto discende anche che
fX (x) =
dFX (x)
dx
(2.10)
quasi ovunque in X(), ovvero: la densità di probabilità è uguale alla derivata della
funzione di distribuzione di X(), tranne al pi`
u in un insieme di punti di misura
nulla, nei quali FX (x) non è derivabile.
2.1 Definizioni
29
f X( x)
f X( x)
f X( x)
1/2
1/4
1/4
-2
1 x
a) v.a. discreta
b) v.a. continua
0 1/4
3/4
c) v.a. mista
Figura 2.4
Esempio 2.5
La v.a. continua con funzione di distribuzione definita dalla (2.3) dellEsempio 2.3,
ha come densità di probabilità la funzione
per x < 0
fX (x) = 6x(1 x) per x [0, 1]
0
per x > 1,
che è un arco di parabola su un supporto di ampiezza unitaria, come mostrato in
Fig. 2.4b). /
V.a. discrete e miste. Affinche le formule precedenti continuino a valere in presenza di v.a. discrete o miste, è necessario utilizzare la funzione impulsiva o funzione
delta di Dirac. Si tratta della funzione generalizzata cos` definita:
x
Z 6= x : (x x ) = 0 ,
(x x )dx = 1 ,
(x x ) è infinita per x = 0
Z
(x)(x x )dx = (x )
dove (x) è una arbitraria funzione di x, continua per x = x . La primitiva di

(x x ) che si annulla per x è la funzione gradino unitario definita nella
(2.3):
U (x x ) =
Z x
( x )d.
Per mezzo della funzione impulsiva, la densità di una v.a. discreta che assume valori
in x1 , x2 , . . . con probabilità pi , i = 1, 2, . . . si può esprimere nel modo seguente:
fX (x) =
X
i
pi (x xi )
con
X
i
pi = 1
(2.11)
30
VARIABILI ALEATORIE
e si rappresenta graficamente con una successione di impulsi come indicato in Fig.

2.4a). Essa mostra la densità di probabilità della v.a. che abbiamo associato al
lancio ripetuto di una moneta, che si ricava derivando la (2.2) e vale
fX (x) = 14 (x + 2) + 21 (x) + 14 (x 2).
(2.12)
La v.a. mista considerata nellEsempio 2.4 ha invece una densità che si può esprimere
come segue:
fX (x) = U (x 41 ) U (x 34 ) + 14 (x) + 41 (x 1)
ed è mostrata in Fig. 2.4c). La densità (2.11) di una v.a. discreta si scrive anche
spesso nella seguente forma semplificata:
fX (xi ) = pi ,
i = 1, 2, . . . ;
fX (x) = 0,
x 6= xi
che non richiede lintroduzione della funzione impulsiva.
2.2
Momenti di variabili aleatorie
Si chiama momento di ordine q di una v.a. reale X(), dotata di densità fX (x), la
quantità
Z
Z
E{X q } =
xq fX (x)dx =
X q ()P ()d
(2.13)
(per q intero positivo) se esiste, finito, lintegrale |x|q fX (x)dx. Se X() è una
v.a. discreta, tenuto conto della (2.11) e della proprietà integrale della funzione
impulsiva, i suoi momenti valgono:
q
E{X } =
pi
xq (x xi )dx =
pi xqi .
(2.14)
I momenti sono importanti parametri indicatori di certe proprietà di X(). Poiche

fX (x) 0, i momenti di ordine pari, se esistono, sono sempre non negativi. I pi`
u
noti sono senza dubbio quelli per q = 1 e q = 2.
Si chiama valor medio o valore atteso o ancora speranza matematica di X() il
momento del primo ordine:
E{X} =
x fX (x)dx
(2.15)
indicato anche con la notazione mX , che per v.a. discrete vale:

E{X} =
X
i
pi xi ,
i = 1, 2, . . . .
(2.150 )
2.2 Momenti di variabili aleatorie
31
Il valor medio è un parametro di posizione, e si può interpretare come il baricentro

della distribuzione di probabilit`
a definita dalla densit`
a fX (x). Lintegrale (2.15) che
lo definisce può essere esteso al supporto S di fX (x), se questo è diverso da IR. Inoltre, se il supporto è limitato: S = [a, b], E{X} può essere determinato agevolmente
anche se, invece della densità, si conosce la funzione di distribuzione FX (x). Infatti,
calcolando per parti lintegrale e tenendo conto che FX (a) = 0, FX (b) = 1, si ricava:
E{X} =
Z b
a
xfX (x)dx = [xFX (x)]ba
Z b
a
Fx (x)dx = b
Z b
a
FX (x)dx.
(2.15)
Osserviamo ancora che il valor medio ha proprietà di linearità analoghe a quelle

dellintegrale con cui è definito: date n v.a. X1 (), .., Xn (), la media di una loro
combinazione lineare è uguale alla combinazione lineare delle medie:
E{a1 X1 + . . . + an Xn } = a1 E{X1 } + . . . . + an E{Xn }.
Spesso i momenti di ordine superiore al primo vengono calcolati proprio rispetto al
valor medio mx di X(), operando una traslazione x0 = x mx che individua lo
scarto dalla media. Si definiscono cos` i momenti centrali di ordine q = 2, 3, ..n:
E{(X mX )q } =
(x mX )q fX (x)dx
il pi`
u importante dei quali è quello di ordine 2, chiamato varianza di X() e indicato
2 :
con X
2
X
= E{(X mX ) } =
(x mX )2 fX (x)dx.
(2.16)
Per v.a. discrete la varianza è definita come la somma:

2
X
=
pi (xi mX )2 .
2.160
i
2
X
Le dimensioni di
sono ovviamente diverse da quelle della v.a. cui si riferisce;
anche per questo motivo è spesso usata la sua radice quadrata positiva X , che
è chiamata scarto quadratico medio o deviazione standard, la quale conserva le
dimensioni di X().
La varianza si può interpretare come il momento dinerzia della distribuzione di
probabilit`
a, rispetto alla retta baricentrica x = mX e, insieme con la deviazione
standard, è un parametro che misura la dispersione della distribuzione rispetto al
suo valor medio. Dalla sua definizione si ricava:
2
X
=
(x2 2xmX + m2X ) fX (x)dx = E{X 2 } 2mX mX + m2X
32
VARIABILI ALEATORIE
ovvero:
2
X
= E{X 2 } E 2 {X}
dove E{X 2 } è il momento (non centrale!) del secondo ordine di X(). E poichè
2 0, ovvero
un momento di ordine pari non può essere negativo, si ha sempre X
2
2
anche: E{X } E {X}.
Il significato della varianza è ben illustrato dalla seguente
Diseguaglianza di Tchebyshev. Si può dimostrare che data una v.a. X() con varianza finita, per ogni reale k > 0 risulta:
2
IP(|X mX | k) X
/k 2 .
Questa diseguaglianza mostra che la probabilità che X() assuma valori al di fuori di
un intorno di raggio k del suo valor medio, non supera il rapporto x2 /k 2 . Quindi, al
2 aumenta la probabilit`
decrescere di X
a che tutti i valori di X() siano concentrati
attorno al suo valor medio.
Una v.a. X() può essere priva di alcuni suoi momenti, o anche di tutti: infatti,
perche esistano E{X q } con q = 1, 2, . . . devono esistere finiti gli integrali
R
|x|q fX (x)dx. Se poi esistono questi momenti, alcuni di essi possono essere nulli.
Ad esempio, tutte le v.a. che hanno una densità di probabilità simmetrica, tale cioe
che fX (x) è una funzione pari, hanno momenti di ordine dispari che sono nulli:
fX (x) = fX (x)
E{X q } = 0 per q = 1, 3, 5, . . .
perche definiti dallintegrale di una funzione dispari; e ciò vale anche per le v.a.
discrete, se definite da una successione simmetrica di impulsi.
Daltra parte, accertata lesistenza dei momenti finiti di una v.a., non è assicurato
che essi individuino la sua densita di probabilità fX (x). Infatti, possono esistere
variabili aleatorie che hanno tutti i loro momenti uguali, ma differenti distribuzioni di
probabilità. Perche una successione {E{X q }} di momenti individui univocamente
una densità di probabilità, devono essere soddisfatte ulteriori condizioni. Una di
queste è la seguente, che citiamo senza dimostrazione.
Condizione sufficiente per lunicit`
a di fX (x). Data una successione di momenti
finiti di una v.a. X(), se esiste un k 6= 0 tale che
E{X 2q }
k 2q
0 per q +
(2q)!
(2.17)
allora la successione E{X q }, q = 1, 2, . . . individua univocamente la densit`

a di probabilit`
a di X().
2.3 Distribuzioni notevoli in Probabilit`

a e Statistica
33
Esempio 2.6
La v.a. discreta definita nellEsempio 2.1, che ha densità data dalla (2.12), ha
momenti di ordine dispari che sono nulli (infatti fX (x) è simmetrica), e quelli di
ordine pari valgono:
E{X q } =
X
i
1
1
pi xqi = (2)q + 2q = 2(q1) ,
4
4
q = 2, 4, 6, . . .
La successione di questi momenti individua univocamente la densità (2.12), perchè

è soddisfatta la condizione (2.17) con k = 1/2:
E{X 2q }
2.3
2.3.1
(1/2)2q
22q (1/2)2q
1
=
=
0 per q +. /
(2q)!
2 (2q)!
2 (2q)!
Distribuzioni notevoli in Probabilit`

a e Statistica
Distribuzione uniforme
E la generalizzazione della legge di eventi equiprobabili già esaminata nellEsempio

1.5. Una v.a. X() uniformemente distribuita nellintervallo [a, b] ha densità
fX (x) =
1
per a x b ;
ba
fX (x) = 0
altrove.
(2.18)
Si noti che fX (x) soddisfa entrambe le condizioni (2.7) richieste ad una funzione
densità di probabilità. La funzione di distribuzione cumulata è
FX (x) =
per x < a
per a x b
per x > b
(x a)/(b a)
fX( x )
FX ( x )
1
1
b-a
Figura 2.5 - Distribuzione uniforme
34
VARIABILI ALEATORIE
ed i momenti valgono
E{X q } =
Z b
a
xq
bq+1 aq+1
dx =
.
ba
(b a)(q + 1)
In particolare, si ha subito che il valor medio di X() è ovviamente:

mX =
e la varianza vale:
2
X
=
2.3.2
a+b
2
(b a)2
a2 + ab + b2
m2X =
.
3
12
Distribuzione normale
Una v.a. reale X() ha una distribuzione normale o gaussiana se la sua densità vale
"
(x mX )2
1
exp
,
fX (x) =
2
2X
2X
x IR
(2.19)
2 > 0 sono rispettivamente il valor medio e la varianza

dove i parametri mX IR e X
2 ), ha
di X(). La distribuzione normale, che si indica con la notazione N (mX , X
la seguente funzione di distribuzione:
1
FX (x) =
2X
Z x
"
x mX
(x mX )2
1
exp
dx = + erf
2
2
X
2X
(2.20)
dove erf (z) è la funzione degli errori:

1
erf (z) =
2
Z z
0
t2
e 2 dt,
soddisfacente tra laltro le proprietà:

erf (z) = erf (z) ;
lim erf (z) = 1/2
e nota quantitativamente attraverso i suoi valori tabulati. Ne segue che FX (x) è

monotona crescente tra 0 e 1, e vale 1/2 per x = mX perche la densità (2.19) è
simmetrica rispetto al suo valor medio (v. Fig. 2.6).
La v.a. Z() che è distribuita con legge normale N (0, 1), ovvero ha media nulla e
varianza unitaria, prende il nome di normale standard. Si può facilmente provare
(con i metodi che saranno esposti nel Capitolo 4) che la sua densità si ricava dalla
(2.19) mediante il cambiamento di variabile:
z=
x mX
,
X
(2.21)

a e Statistica
35
1
f ( x)
X
FX ( x)
sX2 = 0.05
sX2 = 0.05
0.1
0.2
0.1
0.5
0.2
0.3
0.3
mX
mX
Figura 2.6 - Distribuzioni normali
il che significa che la densità e la funzione di distribuzione di Z() sono:

z2
1
fZ (z) = e 2 ,
2
FZ (z) =
1
+ erf (z).
2
(2.22)
Si noti che nella (2.21) X è la deviazione standard di X(), e quindi z è un numero

puro. Poiche erf (z) si ricava direttamente dalla tabella dei valori della funzione
degli errori, nel calcolo di misure di probabilità riguardanti distribuzioni normali
con media e varianza note, è spesso assai pi`
u comodo effettuare la trasformazione
(2.21) e operare sulla variabile standardizzata Z() che ha legge N (0, 1). Questa
procedura è usuale nei metodi statistici che saranno esposti in un prossimo Capitolo.
Ad esempio, dalla tabella di erf (z) che è riportata in Appendice si ricava subito:
P (|X mX | X ) = P (|Z| 1) = FZ (1) FZ (1) = 2 erf (1) ' 0.6826
P (|X mX | 2.15 X ) = P (|Z| 2.15) = 2 erf (2.15) ' 2 0.4842 = 0.9684
P (|X mX | 3X ) = P (|Z| 3) = FZ (3) FZ (3) = 2 erf (3) ' 0.9974.
2 ) assume
Da questo calcolo si deduce, tra laltro, che ogni v.a. normale N (mX , X
valori compresi tra mX X e mX +X con probabilità che è circa uguale a 0.6826, e
la probabilità sale a 0.9974 (avvicinandosi a quella dellevento certo) se si considera
lintervallo [mX 3X , mX + 3X ].
La grande importanza che la legge di distribuzione normale riveste nei metodi della
Statistica matematica è dovuta al seguente Teorema, che trover`
a svariate applicazioni nelle stime campionarie di cui ci occuperemo nei Capitoli 7,8 e 9.
36
VARIABILI ALEATORIE
Teorema Limite Centrale

Si abbia una successione {Xi ()}, i IN+ di variabili aleatorie statisticamente
indipendenti, con uguali densità di probabilità fi (xi ) aventi valor medio E{Xi } =
e varianza i2 = 2 finite. Allora la densità di probabilità della loro somma:
Sn () =
n
X
Xi ()
i=1
converge, per n +, alla distribuzione normale N (n, n 2 ).

Sulla base di questo Teorema, è possibile usare la legge normale per descrivere in termini probabilistici tutti quei fenomeni fisici che si possono considerare come prodotti
dalla sovrapposizione di un elevato numero di cause statisticamente indipendenti ed
aventi la medesima natura aleatoria. Nella Statistica, il teorema è indispensabile
per definire le proprietà aleatorie dei valori medi di campioni estratti casualmente
da una popolazione.
2.3.3
Distribuzione Gamma
Una v.a. che assume valori in IR+ è distribuita con legge Gamma di parametri e
> 0 se ha densità di probabilità
fX (x) =
x 1
e
x
,
()
x 0.
(2.23)
() è la funzione speciale cos` definita:

() =
Z
0
et t1 dt,
(2.24)
le cui proprietà sono definite nei testi che riportano i suoi valori tabulati. Ricordiamo
in particolare che
( 12 ) =
( + 1) = () = !
per
IN+
( + 12 ) = 1 3 5 (2 1) /2 .
Questa distribuzione ha valor medio e varianza che valgono:
mX =
2
X
=
,
2
e se 1 ha un massimo per x = ( 1)/ (v Fig. 2.7).

a e Statistica
37
f ( x)
X
l =4
a = 0.5
a = 1 : esponenziale
2
a=2
a=3
Figura 2.7 - Distribuzioni Gamma ed esponenziale (per
2.3.4
= 1)
Distribuzione esponenziale
Per = 1, la distribuzione Gamma si riduce a quella esponenziale definita dalla

densità
fX (x) = ex ,
> 0; x 0.
(2.25)
La sua funzione di distribuzione cumulata è
FX (x) = 1 ex ,
x0
(2.26)
ed ha momenti finiti di qualsiasi ordine, che valgono

q = 1, 2, . . . :
E{X q } =
Z
0
xq ex dx =
1
q
Z
0
tq et dt =
q!
q
poiche lultimo integrale è la funzione Gamma (q + 1) = q! definita con la (2.34).

In particolare, valor medio e varianza valgono
mX =
1
,
2
X
= E{X 2 } m2X =
1
.
2
Si noti che la successione dei momenti di X() definisce univocamente la densità

esponenziale: infatti essi soddisfano la condizione (2.17) per ogni reale k (0, ):
k 2q
2q)! k 2q
E{X }
= 2q
=
(2q)!
(2q)!
2q
2q
0 per q 0 : 0 < k < .
La distribuzione esponenziale è assai utilizzata negli studi di affidabilità (di un dispositivo o di un materiale) con tasso di guasto costante . Se X() è il tempo
38
VARIABILI ALEATORIE
di attesa perche si verifichi il guasto, laffidabilità del dispositivo, definita come la

probabilità di non subire guasti nellintervallo di tempo (0, t), è data da
R(t) = 1 FX (t) = et =
1
fX (t).
La distribuzione esponenziale dei tempi di attesa ha una notevole proprietà: per ogni
t, s IR la probabilità di attendere un evento per un tempo t + s, sapendo di aver
già atteso il tempo s, è uguale alla probabilità di attendere levento per una durata
di tempo t. Infatti, ricordando la definizione (1.2) di probabilità condizionata, si ha
P (X > t + s | X > s) =
P ({X > t + s} {X > s})

P (X > t + s)
=
=
P (X > s)
P (X > s)
1 FX (t + s)
=
= et = 1 FX (t) = P (X > t).
1 FX (s)
Si dice perciò che la legge esponenziale è senza memoria, nel senso che il tempo
s già trascorso non influenza la probabilità che levento si verifichi in qualunque
istante successivo allistante s in cui è iniziata losservazione.
2.3.5
Distribuzione di Maxwell
Si dimostrerà nel Capitolo IV che il vettore V () avente come componenti cartesiane

ortogonali tre variabili aleatorie statisticamente indipendenti e con uguale distribuzione normale N (0, 2 ), è una v.a. con densità di probabilità
r
fV (v) =
2 v2
v2
exp
3
2 2
v 0.
(2.27)
La densità (2.27) definisce la distribuzione di Maxwell, che ha valor medio e varianza

uguali a
q
E{V } = 2 2/ ;
V2 = 2 (3 8/)
(2.28)
dove 2 è, come detto, la varianza delle componenti di V (). Si osservi anche che
fV (v)
non è simmetrica rispetto al suo valor medio: infatti ha un massimo per
v = 2 6= E{V }.
La distribuzione di Maxwell è di grande importanza nella Meccanica statistica,
perche è il modello probabilistico della velocità di agitazione termica delle molecole
di un gas in equilibrio termodinamico. Se indichiamo con m la massa molecolare,
con T la sua temperatura e con k la costante di Boltzmann, allora risulta
2 =
kT
,
m

a e Statistica
39
e il valor medio dellenergia cinetica T della molecola del gas in equilibrio è uguale
a E{T } = 21 mE{V 2 }. Ma sostituendo il valore di 2 nelle (2.28) si ottiene:
kT
E{V } =
m
8
3
8kT
3kT
=
,
m
m
da cui segue il noto risultato che nel modello maxwelliano le molecole di gas in
equilibrio possiedono una energia cinetica media che vale
3
E{T } = kT.
2
f V (v )
s =1
s=2
s =3
0
Figura 2.8 - Distribuzioni di Maxwell
Assai simile alla maxwelliana è la distribuzione di Rayleigh, riguardante le proprietà probabilistiche di un vettore bidimensionale
q
V () =
X12 () + X22 ()
le cui componenti, statisticamente indipendenti, hanno legge normale N (0, 2 ). La

sua densità di probabilità è la funzione
v
v2
fV (v) = 2 exp 2
v 0,
con valor medio e varianza che valgono:

q
E{V } = /2,
2.3.6
V2 = 2 (2 /2).
Distribuzione t-Student
La v.a. X() che può assumere qualsiasi valore x IR ha una distribuzione chiamata
t-Student con n gradi di libertà, n = 1, 2, 3, . . . (dallo pseudonimo dello statistico
40
VARIABILI ALEATORIE
britannico W.S. Gosset) se la sua densità di probabilità vale:
n+1
! n+1
2
x2
2
fX (x) =
1+
n
n
n
2
(2.29)
dove () è la funzione Gamma (2.24).

Il suo valor medio è nullo: E{X} = 0 per ogni n e la sua varianza, che è definita
solo per n > 2, vale
n
2
X
=
.
n2
f (x )
X
N (0, 1)
n=6
n=4
n=2
x
0
Figura 2.9 - Confronto tra distribuzioni t-Student e Normale standard
Per n = 1, la distribuzione t-Student si riduce alla distribuzione di Cauchy:

fX (x) =
1
,
(1 + x2 )
che ha valor medio nullo ma è priva dei momenti di ordine superiore, perche lintegrale
(2.13) che li definisce diverge per q 2.
Poiche n è intero, il coefficiente di normalizzazione nella (2.29) si determina facilmente utilizzando le proprietà della funzione Gamma, in modo che per n pari:
n = 2k, k = 1, 2, . . . la densità t-Student si può riscrivere nella forma:
!(k+ 1 )

2
1 3 5 (2k 1)
x2
fX (x) =
1+
2k
2k 2k(k 1)!
(2.290 )
e per n dispari: n = 2k + 1, k = 1, 2, . . . si ha:
x2
2k k!
1+
fX (x) =
2k + 1
1 3 5 (2k 1) 2k + 1
!(k+1)
(2.2900 )

a e Statistica
41
La distribuzione t-Student ha questa interessante proprietà: per n essa tende

alla distribuzione normale standard N (0, 1), ma ha una dispersione pi`
u elevata per
piccoli valori di n > 2. Per questo motivo, essa trova frequenti applicazioni in
Statistica, quando la stima dei valori medi di una popolazione è da effettuare su
piccoli campioni (v. Capitolo 8).
2.3.7
Distribuzione Chi-quadrato
Una v.a. che assume valori x IR+ ha una distribuzione Chi-quadrato con n gradi di
libertà, che si indica con il simbolo 2n , se la sua densità di probabilità è la funzione
n
x 2 1 e 2
fX (x) = n/2
,
2
(n/2)
x0
(2.30)
0.25
n=4
fX ( x )
n=6
n = 10
20
Figura 2.10 - Distribuzioni Chi-quadrato
Essa si ricava anche come un caso particolare della distribuzione Gamma, ponendo
nella (2.23) = n/2, = 1/2. Ha valor medio e varianza che valgono
E{X} = n,
2
X
= 2n,
e si può dimostrare che è la distribuzione di una v.a. definita come la somma

dei quadrati di n variabili aleatorie indipendenti Xi () aventi distribuzioni normali
standard:
n
2n () =
Xi2 (),
E{Xi } = 0,
2
X
= 1.
i
i=1
Per questo motivo, è assai utile in Statistica per la valutazione delle varianze di
campioni estratti da una popolazione (v. Capitolo 8).
Per una sua notevole proprietà asintotica, al crescere di n la distribuzione Chiquadrato tende ad assumere una forma a campana simmetrica rispetto al suo
42
VARIABILI ALEATORIE
valor medio, e si può dimostrare che per n >> 1 è ben approssimata da una legge
normale N (n, 2n) con media n e varianza 2n.
2.3.8
Distribuzione F di Fisher
Unaltra distribuzione di frequente uso nei test statistici (v. Capitolo 9) è quella di
una v.a. X() definita come il rapporto:
X() =
n2m ()
m2n ()
tra due variabili aleatorie con distribuzione Chi-quadrato ad m e n gradi di libertà

(e divise per il loro grado di libertà). Questa distribuzione, che si indica con la
notazione F (m, n) ed è anche chiamata di Snedecor, ha densità di probabilità
fX (x) =
m
n
m
2
m+n
m
x( 2 1)
2

m+m ,
n
m
2
mx
1+
2
2
n
x0
(2.31)
f X( x )
n = 4, m = 2
n = 6, m = 4
n = 8, m = 6
Figura 2.11 - Distribuzioni
F (m, n) di Fisher
dove () è sempre la funzione Gamma (2.24). Il suo valor medio dipende solo dal
parametro n, vale
n
E{X} =
se n > 2
n2
e quindi tende a 1 per n ; la varianza vale invece
s2X =
2n2 (m + n 2)
m(n 2)2 (n 4)
se n > 4.

a e Statistica
2.3.9
43
Distribuzione binomiale
Proseguiamo lillustrazione delle leggi probabilistiche pi`

u note, considerando ora due
importanti distribuzioni discrete, la binomiale e quella di Poisson, il cui interesse è
strettamente legato allo studio degli esiti di una successione di prove ripetute ed
indipendenti di un esperimento casuale, la cui formulazione probabilistica è dovuta
a Bernoulli. Ne esaminiamo ora i risultati fondamentali.
Consideriamo un esperimento casuale i cui esiti siano rappresentati da due soli eventi,
che definiremo con successo (S) o fallimento (F) della prova effettuata. Supponiamo
inoltre che n prove di tale esperimento siano ripetute in modo indipendente, vale
a dire in modo tale che lesito di una prova sia indipendente da qualsiasi prefissata
sequenza di esiti nelle prove precedenti. Indichiamo con p la probabilità di successo
e con q = 1 p la probabilità del fallimento. Poichè le prove sono statisticamente
indipendenti, la probabilità di una assegnata sequenza di successi e fallimenti è data
dal prodotto delle probabilità degli eventi S ed F . Ne segue che una sequenza di
n prove, contenente k successi e n k fallimenti, ha probabilità pk q nk . Daltra
parte, il numero di sequenze costituite da n esiti e contenenti k successi è uguale
al
numero di combinazioni di classe k di n elementi, dato dal coefficiente binomiale
n
e statisticamente indipendente dalle altre, per cui
k . Inoltre, ciascuna sequenza `
la probabilità Pn,k di ottenere, in n prove, k successi e n-k fallimenti è data dalla
formula di Bernoulli:
!
n k nk
Pn,k =
p q
(2.32)
k
Se poi il successo e il fallimento sono equiprobabili, allora si ha p = q =
formula diventa:
!
n 1
Pn,k =
,
k 2n
1
2,
e la
2.420
in cui la probabilità in oggetto è il rapporto tra i casi favorevoli e i casi possibili

definiti in uno spazio campione costituito da 2n eventi equiprobabili.
In modo analogo, la probabilità Pn (k1 k k2 ) che in n prove il numero di successi
sia compreso tra k1 e k2 si valuta considerando lunione degli eventi: Ek = {S si
presenta k volte} con k1 k k2 , ciascuno dei quali ha probabilità espressa dalla
(2.42). Poichè gli eventi Ek sono incompatibili a due a due, la probabilità della loro
unione vale, per il secondo assioma:
Pn (k1 k k2 ) =
k2
X
k=k1
P (Ek ) =
k2
X
k=k1
n k nk
p q
.
k
(2.33)
44
VARIABILI ALEATORIE
Esempio 2.7
1) Si lancia per dieci volte una moneta. In ogni lancio levento testa e levento
croce sono equiprobabili, per cui la probabilità che esca testa per cinque volte
vale, per la (2.42):
P10,5 =
10
5
(1/210 ) =
10!
= 0.246.
5!(10 5)! 210
Per determinare la probabilità che testa esca non pi`

u di cinque volte, bisogna
invece considerare come successi anche tutte le sequenze che contengono k =
0, 1, .., 4 volte testa. Ne segue che la probabilità totale è data dalla (2.33) e vale
10
P10,k5 = (1/2 )
5
X
k=0
10
k
5
10! X
1
= 10
= 0.623. /
2 k=0 k!(10 k)!
2) Da unurna contenente 5 palline bianche e 15 nere si fanno n estrazioni, con

reimbussolamento della pallina estratta in ogni prova. La probabilità di estrarre
tutte le palline bianche si determina considerando che in ogni prova, la probabilità
di estrarre una pallina bianca vale p = 1/4, e quella di estrarre una pallina nera è
q = 3/4. Applicando la (2.32) si ottiene:
Pn,5 =
n
5
(1/4)5 (3/4)n5 =
n
5
n5
3
4n
Dunque, dopo n = 5 estrazioni la probabilità cercata vale 1/45 = 9.76 104 ; dopo
6 estrazioni cresce al valore 6 3/46 = 4.39 103 , ecc. /
Primo principio delle prove ripetute.
Per la formula di Bernoulli la probabilità di non avere alcun successo dopo n prove
di un esperimento casuale in cui p > 0 vale
!
Pn,0 =
n 0 n0
p q
= qn
0
e quella di ottenere almeno un successo è Pn,k>0 = 1 q n . Poichè 0 < q < 1,

ripetendo allinfinito le prove si ottiene
lim Pn,k>0 = 1
ovvero: continuando le prove allinfinito, prima o poi si avr`

a certamente almeno un
successo.

a e Statistica
45
Secondo principio delle prove ripetute.

Chiediamoci ora quale è il numero medio delle prove che si dovranno eseguire per
ottenere il primo successo. Definiamo a tale scopo il tempo di attesa T (), o numero dordine delle prima prova in cui si verifica il successo. T () è una variabile
aleatoria discreta, che assume valori interi positivi k = 1, 2, .., n,.. aventi ciascuno la
probabilità Pk = pq k1 con cui si realizza una sequenza di (k 1) fallimenti seguiti
dal primo successo. Se si ripetono le prove allinfinito, e se p > 0, si sa per il Primo
P
principio che le Pk soddisfano la condizione k Pk = 1. Dalla definizione di valor
medio di T () si ricava allora
E{T } =
X
k=1
kPk =
kpqk1 = p +
k=1
=p+q
kpqk1 = p + q
k=2
(r + 1)pq r1 =
r=1
r1
rpq
r=1
Pr
= p + q(E{T } + 1).
r=1
Da questa si ottiene: p E{T } = p + q = 1, e quindi

1
E{T } = .
p
(2.34)
Resta cos provato il seguente risultato: il numero medio delle prove che occorre
eseguire per ottenere il primo successo è il reciproco della probabilita di successo.
La variabile aleatoria discreta X() che assume un numero finito di valori x =
k = 0, 1, 2.., n con una probabilita data dalla (2.32) si dice dotata di distribuzione
binomiale ed è indicata con la notazione B(n, p). La sua densità di probabilità è la
successione di n + 1 impulsi:
fX (x) =
n
X
k=0
n k nk
p q
(x k),
k
p+q =1
e la corrispondente funzione di distribuzione è la funzione a gradini
FX (x) =
n
X
k=0
n k nk
p q
U (x k)
k
(2.35)
46
VARIABILI ALEATORIE
fX ( x )
N (10, 6)
0.1
10
20
15
Figura 2.12 - Approssimazione di una distribuzione binomiale con
n = 25, p = 0.4.
dove U (x k) è la funzione di Heaviside (2.3), primitiva della funzione impulsiva.

Il valor medio della distribuzione binomiale vale:
Z
E{x} =
n
X
k=0
n
X
n k nk
n k nk
p q
(x k)dx =
k
p q
=
k
k
k=0
n
X
n1
X n1
k(n 1)! k1 nk
= np
p q
= np
pr q n1r = np(p + q)n1 = np
k!(n
k)!
r
r=0
k=1
2 = npq.
e in modo analogo si può calcolare che la sua varianza è X
Se n = 1, la (2.45) si riduce alla distribuzione di Bernoulli, la cui densità

fX (x) = qx + p(x 1)
è semplicemente la somma di due impulsi che rappresentano la probabilità di avere
un fallimento o un successo in una singola prova dellesperimento casuale.
Lapplicazione delle formule (2.32),(2.33) può comportare difficoltà pratiche per valori elevati di n e di k. Esistono però formule asintotiche che permettono un rapido
calcolo approssimato di Pn,k e Pn (k1 k k2 ), con una accuratezza che cresce con
il numero n delle prove. Queste formule approssimate si basano su due teoremi, che
ora enunciamo senza dimostrazione.
Teorema locale di asintoticità (di Moivre - Laplace)
Se p > 0 è la probabilità di un successo, la probabilità che in n prove indipendenti
si abbiano k successi è tale che:
"
lim Pn,k
1
(k np)2
=
exp
2npq
2npq
(2.36)

a e Statistica
47
uniformemente per tutti gli interi k per i quali il rapporto z = (k np)/npq assume
valori in un intervallo finito.
Il secondo membro della (2.36) è la densità di una v.a. normale N (np, npq) con media
np e varianza npq. Dunque il Teorema ci assicura che se n e npq sono sufficientemente
grandi, la distribuzione binomiale è approssimabile nel continuo dalla legge normale:
B(n, p) N (np, npq)
(2.360 )
n, npq >> 1.
e a parità di n lapprossimazione è migliore quando p = q = 0.5. La Fig. 2.12

mostra il confronto tra la distribuzione binomiale con n = 25, p = 0.4 e quella
normale definita dalla densità (2.19) con mX = np = 10, x2 = npq = 6. La
binomiale B(25, 0.4) non è simmetrica rispetto al suo valor medio, perche ciò si
verifica solo se p = q = 12 . Inoltre, n è ben lontano dai valori elevati che garantiscono
una buona approssimazione della probabilità Pn,k . Tuttavia, un controllo numerico
mostra che il massimo valore assoluto della differenza tra Pn,k e i valori fX (k) della
densità normale per x = k (che si verifica per k = 11) rimane comunque inferiore a
3.34 103 .
Teorema integrale di asintoticità
Se p > 0 è la probabilità di un successo, la probabilità che in n prove indipendenti
il numero dei successi sia compreso tra k1 e k2 soddisfa la condizione
1
lim Pn (k1 k k2 ) =
n
2npq
Z k2
k1
"
(x np)2
dx
exp
2npq
(2.37)
uniformemente in [k1 , k2 ].
Usando la funzione degli errori erf (z) per il calcolo dellintegrale definito, la (2.37)
mostra che se n è grande e npq >> 1 la probabilità in oggetto si può calcolare con
buona approssimazione mediante la formula asintotica:
"
"
k2 np
k1 np
Pn (k1 k k2 )
erf
.
= erf
npq
npq
(2.38)
Applichiamo questultimo teorema per calcolare la probabilità che, dato un > 0

piccolo a piacere, sia verificata la diseguaglianza: |k/n p| . Per la (2.38) con n
grande si ha
P {|k/n p| } = Pn [n(p
q ) k n(p +
q )]
q
= erf ( n/pq) erf ( n/pq) = 2erf ( n/pq) (2.39)

e passando al limite per n :
q
lim P {|k/n p| } = 2 lim erf ( n/pq) = 1.
48
VARIABILI ALEATORIE
Il risultato ottenuto esprime limportante

Legge dei grandi numeri (o Teorema di Bernoulli) :
Dato un > 0 piccolo a piacere, la probabilità dellevento {|k/n p| } tende ad
1 col crescere del numero delle prove indipendenti.
In altre parole, se il numero delle prove è sufficientemente grande, allora il rapporto
tra il numero dei successi e quello delle prove è quasi certamente prossimo alla
probabilità p che si attribuisce al singolo successo.
Allo stesso tempo, bisogna anche tenere conto che se X() ha una distribuzione
binomiale, lo scarto assoluto V () = X np tra il valore di X e il suo valore atteso
è una variabile casuale che al crescere di n tende alla Normale con media nulla e
varianza
2
V2 = E{(V 0)2 } = E{(X np)2 } = X
= npq.
Dunque, a parità di p la dispersione degli esiti delle prove rispetto al loro valore
atteso cresce con il numero delle prove effettuate. E questa circostanza che può
causare la rovina del giocatore che dopo ogni perdita decide di ripetere la stessa
scommessa nella speranza che, prima o poi, il prossimo esito gli sia favorevole.
Esempio 2.8
1. Sapendo che la probabilità che un certo prodotto sia difettoso è p = 0.005, si

vuole calcolare la probabilità che tra 10.000 esemplari di questo prodotto, scelti a
caso, ve ne siano 40 difettosi. Essa è data dalla (2.32) con n = 10.000, k = 40, e
il suo valore è ben approssimato dalla formula asintotica (2.36). Tenuto conto che
np = 50, npq = 49.75 si ottiene:
"
Pn,k
(40 50)2
1
exp
= 0.0207.
=
2 49.75
49.75 2
Il valore esatto alla quarta cifra decimale, calcolato con la (2.32), è invece: Pn.k =
0.0197. Per calcolare la probabilità che tra i 10.000 esemplari scelti a caso ve ne siano
non pi`
u di 70 che risultano difettosi, bisogna valutare Pn (k 70) e per ottenerne
una buona approssimazione basta applicare la (2.38) assumendo k1 = 0 e k2 = 70.
Si ricava:
P (k 70)
= erf
70 np
erf
npq
np
npq
= erf (2.84) erf (7.09) = 0.9975.
2. Si lancia n volte una moneta. Come sappiamo, levento testa ha probabilità

p = 1/2. Definiamo ora levento:
E = {|k/n 1/2| 0.05}

a e Statistica
49
il quale indica che il numero k di teste risultante da n prove è compreso tra 0.45n
e 0.55n. Si chiede: quante volte dobbiamo lanciare la moneta affinche la probabilità
di E non sia inferiore a 0.997? Dobbiamo valutare n in modo che sia verificata la
diseguaglianza: P (E) 0.997. Applicando la (2.39) con = 0.05 si ha:
q
P (E)
= 2erf (0.05 n/pq) = 2erf (0.05 4n) 0.997
per cui n deve soddisfare la condizione: erf (0.05 4n) 0.4985. Dai valori tabulati
della funzione degli errori si desume che, arrotondando per eccesso, deve essere:
0.05 4n > 2.95, da cui: n > 871. /
f ( x)
X
l =5
l = 1.5
0.2
0.2
0 1 2 3 4 5 6
10
Figura 2.13 - Distribuzioni di Poisson
2.3.10
Distribuzione di Poisson
Si è detto che lapprossimazione di Pn,k fornita dalla formula asintotica (2.36) peggiora al descescere del prodotto npq. Se allora p è molto piccolo, bisogna che n sia
comunque cos grande da rendere soddisfatta la condizione: npq
= np >> 1. Ciò si
verifica per lappunto nel caso dellEsempio 2.8 in cui, pur essendo p = 0.005, si ha
np = 50 e npq = 49.75. Se invece si ha: n >> 1, p << 1 in modo che il prodotto np
è dellordine dellunità, la (2.46) non è pi`
u valida. Si dimostra che essa può essere
sostituita dalla nuova formula asintotica:
(np)k np
Pn,k
e
=
k!
che nella sua forma limite esprime il seguente
(2.40)
50
VARIABILI ALEATORIE
Teorema di Poisson (degli eventi rari):

Se n e p 0 in modo che il prodotto np 1, allora
Pn,k
k
e .
k!
(2.41)
Esempio 2.9
In un sistema costituito da 1000 componenti, la probabilità che ciascun componente

si guasti indipendentemente dagli altri in un certo intervallo di tempo vale p = 103 .
Si vuole conoscere la probabilità che il sistema sia in funzione nellintervallo di tempo
in esame. Levento che qui si considera è E = {nessun componente si guasta}, ed il
guasto con probabilità p rappresenta il singolo successo nel nostro problema di prove
ripetute. Si ha pertanto: n = 1000, k = 0, np = 1 e la probabilità da determinare
non si approssima con la (2.36), bens con la formula di Poisson (2.40):
Pn,0 =
1000
0
(1 103 )1000
= e1 = 0.368. /
La variabile aleatoria discreta X() che assume valori k = 0, 1, 2, ..n, . . . con probabilità data dalla (2.41) ha densità costituita dalla successione di impulsi
fX (x) = e
X
k
k=0
k!
(x k)
(2.42)
che definisce una distribuzione di Poisson. Il valor medio e la varianza di X()

coincidono con il parametro . Infatti:
E{X} =
X
k=0
ke
X
X
k
r
k
= e
= e
= e e =
k!
(k
1)!
r!
r=0
k=0
2 = . La Fig. 2.13 mostra i grafici di

e con calcoli analoghi si ricava che anche X
fX (x) per due diversi valori del suo parametro .
La distribuzione di Poisson ha notevole interesse nella definizione statistica della

legge di emissione di particelle. Si consideri infatti il fenomeno costituito dalla emissione casuale di un numero n >> 1 di particelle nel tempo T . La probabilità di
emissione di una singola particella nellintervallo di tempo [0, t0 ) è p = t0 /T . Se
lintervallo [0, t0 ) che si considera è molto minore di T , risulta: p << 1 e la probabilità che k particelle siano emesse prima di t0 è data con buona approssimazione
dalla formula di Poisson (2.40) con np = nt0 /T = :
P {k particelle emesse in [0, t0 )} '
(nt0 /T )k
nt0
exp
.
k!
T

a e Statistica
51
Se n, T + in modo che n/T 1, allora t0 e la distribuzione del numero

di particelle emesse in [0, t0 ) tende alla densità di Poisson:
fX (x) = et0
k
X
t
0
k!
k=0
(x k).
Pi`
u in generale, la legge (2.42) è anche il modello di esperimenti casuali caratterizzati
dal conteggio in un intervallo temporale [0, T ] di eventi statisticamente indipendenti
(Processi di Poisson), aventi un numero medio di realizzazioni per unità di tempo
uguale ad . Si dismostra infatti che il numero di tali eventi che si verificano in un
intervallo temporale di ampiezza t << T ha legge di Poisson (2.42) con parametro
= t.
2.3.11
Distribuzioni geometrica e ipergeometrica
Nello schema di Bernoulli delle prove ripetute e indipendenti di un esperimento

casuale con probabilità di successo p, la probabilità che in una sequenza di (k + 1)
prove si realizzino k fallimenti seguiti dal primo successo vale:
IP{F F F F F S} = p(1 p)k .
0.2
f (x)
X
0.1
10
30
20
Figura 2.14 - Distribuzione geometrica per
p = 0.2.
La variabile casuale X() che assume valori discreti k = 0, 1, 2, . . . con la probabilità ora definita, ha una distribuzione chiamata geometrica, avente come densità
di probabilità la funzione:
fX (x) =
X
k=0
p(1 p)k (x k),
0<p<1
(2.43)
52
VARIABILI ALEATORIE
mostrata in Fig. 2.14. Questa v.a. rappresenta quindi il numero di prove che occorre
fare prima che si verifichi un successo. Per tale motivo, se si misura il tempo in unità
coincidenti con il numero di prove effettuate, X() è anche chiamata tempo di attesa
(discreto) del primo successo.
Si badi a non confondere questo tempo di attesa X() con la v.a. T () sopra
introdotta per ricavare il Secondo principio delle prove ripetute, la quale non può
avere valore nullo. X = k con k = 0, 1, . . . indica il numero dei fallimenti F che
precedono il successo S, mentre T = k con k = 1, 2, . . . indica la prima prova in cui
si verifica un successo.
La funzione di distribuzione cumulata del tempo di attesa X() vale
FX (x) =
x
X
p(1 p)k U (x k).
k=0
Se in particolare x = n IN, essa misura la probabilità IP(X n) ed è uguale al

prodotto p sn , dove
1
sn = [1 (1 p)n+1 ]
p
P
è la ridotta n-esima della serie geometrica k (1 p)k di ragione 1 p, la quale è

convergente perche (1 p) è un reale positivo minore di 1. Dunque si ha:
IP(X n) = FX (n) = psn = 1 (1 p)n+1 .
(2.44)
Ricordando il risultato espresso dalla (2.34), il valor medio della distribuzione geometrica vale:
1p
1
mX = E{T } 1 = 1 =
p
p
mentre la sua varianza risulta:
1p
2
X
=
.
p2
Cos come la distribuzione esponenziale, anche la geometrica è senza memoria. Infatti, scelti due interi positivi i, j si ricava, applicando anche la (2.44):
IP(X > i + j | X > j) =
IP({X > i + j} {X > j})

IP(X > i + j)
=
=
P (X > j)
P (X > j)
(1 p)i+j+1
=
= (1 p)i = 1 FX (i) = IP(X > i),
(1 p)j+1
e questo risultato si può cos interpretare: la circostanza che già si sono verificati j
insucessi consecutivi non influenza il tempo di attesa del prossimo successo.
Per quanto detto, la distribuzione geometrica è lanalogo discreto della distribuzione
esponenziale 2.3.4, definita sullintero semiasse IR+ , e trova frequenti applicazioni
nella teoria dei giochi o negli studi di affidabilità riguardanti fenomeni in cui si può
individuare una variabile casuale definita sullinsieme dei numeri naturali.

a e Statistica
53
Esempio 2.10
Un giocatore del Totocalcio compila una colonna segnando in modo casuale per 13
volte uno dei 3 possibili risultati: 1, X, 2 e gioca la stessa colonna ad ogni concorso.
Quante giocate deve fare, in media, prima di vincere con un 13 ?
Consideriamo qui il caso teorico che è anche il pi`
u sfavorevole. Se il giocatore segna
ciascun risultato senza conoscere le squadre di calcio coinvolte in ciascuna delle 13
partite, ognuna delle 13 previsioni ha probabilità 1/3 di successo. Di conseguenza,
la probabilità che si realizzi un insieme di 13 previsioni esatte di altrettanti risultati
indipendenti (ossia la probabilità di successo) è p = 1/313 ' 6 107 .
Il numero di giocate che è necessario effettuare prima di fare un 13 con quella sola
colonna ha una distribuzione geometrica con tale probabilità p, e il numero medio
di giocate da effettuare prima di avere un successo è
mX = 313 1 = 1 594 322.
Per sollevare il giocatore dallo sconforto, si può aggiungere che questo parametro
di posizione è comunque assai poco significativo. Infatti, la varianza della stessa
distribuzione geometrica è enormemente elevata:
2
X
= (313 1) 313 ' 2.54 1012 ,
per cui ci si può aspettare che la probabilità di ottenere il primo successo dopo un
numero pi`
u ragionevole di tentativi, diciamo n = 50, non sia del tutto irrilevante.
Dalla (2.44) si ricava però: IP(X 50) = 1 [1 1/313 ]51 ' 0.000032, ed è presumibile che questo risultato cos` poco favorevole riesca a scoraggiare definitivamente il
giocatore. /
Distribuzione ipergeometrica
Un insieme è costituito da N elementi di cui NA sono di tipo A, e NB = N NA di
tipo B. Se da questo insieme si fanno n estrazioni in blocco (o senza ripetizione),
nel campione di n elementi cos` estratto il numero di elementi del tipo A è una
variabile casuale discreta X(), la cui densità di probabilità è definita dalla seguente
formula ipergeometrica:
fX (x) =
NA
x
NB
nx
N
n
per x = 0, 1, 2, . . . , n
(2.440 )
ed è nulla altrove.
Infatti, fissato un intero x, il numeratore che compare nella (2.44) è il numero degli
eventi favorevoli: {x elementi di tipo A su n estratti }, che si calcola come
54
VARIABILI ALEATORIE
prodotto tra il numero di combinazioni di x elementi del tipo A e il numero di

combinazioni di (n x) elementi di tipo B; il denominatore è il numero di eventi
possibili (ed equiprobabili) che si possono verificare nella estrazione in blocco di
n elementi da un insieme di N ; e dunque per la definizione classica di Probabilità,
il loro rapporto definisce la probabilità che X() assuma il valore x.
Il valor medio e la varianza di fX (x) valgono:
E(X) =
nNA
,
N
2
X
=
nNA (N NA )(N n)
.
N 2 (N 1)
Esempio 2.11
Si effettua lestrazione simultanea di due palline da unurna che ne contiene NA = 4

rosse e NB = 3 nere. Calcolare la probabilità di estrarre due palline di colore diverso.
Si applica la (2.44) con n = 2, x = 1, N = 7 e si ottiene subito:
! !
IP(Rossa N era) =
2.3.12
4
1
3
1
7
2
12
' 0.57. /
21
Distribuzione Beta
Una v.a. che assume valori nellintervallo unitario [0, 1] ha una distribuzione Beta
se la sua densità vale
fX (x) =
Axb (1 x)c
0
per x [0, 1],

altrove
con A definito come segue:

A=
(b + c + 2)
,
(b + 1)(c + 1)
dove () è la funzione Gamma (2.24).
b, c > 1
(2.45)

a e Statistica
55
f X (x)
2.5
6
2.0
4
1.5
1.0
0.5
0.5
Figura 2.15 - Distribuzioni Beta
Questa densità, dipendente da due parametri b, c, ha un massimo per x = b/(b+c) se

b e c sono entrambi positivi, ma diventa infinita agli estremi dellintervallo unitario
se b e c sono entrambi negativi: b, c (1, 0). Inoltre, se b = c = 0 la (2.45)
coincide con la densità uniforme fX (x) = 1 nellintervallo unitario, e per b = c = 1
rappresenta la densità parabolica:
fX (x) = 6x(1 x),
x [0, 1].
Per la grande generalità con cui, modificando i due parametri, può essere definita
analiticamente la distribuzione delle probabilità nellintervallo unitario, questa legge
è molto utile per rappresentare le proprietà statistiche di coefficienti aleatori che
possono essere presenti in molti modelli matematici di fenomeni reali.
Il valor medio e la varianza di fX (x) si esprimono in funzione dei parametri b e c, e
valgono:
b+1
(b + 1)(c + 1)
2
E{X} =
;
X
=
.
(2.46)
b+c+2
(b + c + 2)2 (b + c + 3)
La Fig. 2.15 mostra alcuni grafici della distribuzione Beta, ottenuti assumendo per
b e c i valori qui elencati, unitamente ai corrispondenti valori del coefficiente A,
calcolati in base alle proprietà della funzione Gamma:
grafico 1:
2:
3:
4:
5:
6:
b = 1/2
b = 1/2
b=1
b=1
b=3
b=3
c = 1/2
c = 1/2
c=1
c=2
c=2
c=3
A = 1/
A = 8/
A=6
A = 12
A = 20
A = 140
56
VARIABILI ALEATORIE
f X(x)
a =1
a =3
b = 0.5
2
b =2
b=1
1
0.5
Figura 2.16 - Distribuzioni di Weibull
2.3.13
1.5
W (, ) al variare di e .
Distribuzione di Weibull
Una legge probabilistica che generalizza il modello esponenziale, e dipendente da

due parametri come la densità Beta, è la distribuzione di Weibull W (, ) la cui
densità è la funzione
fX (x) =
x1 exp(x ), 0 x < +;
0
altrove.
, IR+
(2.47)
Utilizzando la definizione della funzione Gamma (2.24), si può ricavare che il valore
atteso e la varianza di fX (x) valgono:
E{X} =
1
(1 + 1/),
2
X
= 2/ [(1 + 2/) 2 (1 + 1/)].
Al pari della distribuzione Beta, la disponibilità di due parametri , rende questa

legge assai adatta a rappresentare il modello probabilistico di certe grandezze che
possono assumere valori casuali sullintero semiasse positivo.
Il parametro > 0 è il pi`
u significativo, e definisce la forma della distribuzione
di Weibull. Se 0 < < 1, fX (x) ha un asintoto verticale x = 0; se = 1 la
distribuzione coincide con quella esponenziale con parametro = ; e se > 1,
fX (x) si annulla per x 0+ e presenta un massimo per
x=
1/
Il parametro > 0 è un fattore di scala che concentra su bassi valori di x (oppure

disperde sul semiasse positivo) le masse di probabilità della distribuzione stessa,
come è illustrato in Fig. 2.16.
57
Questa distribuzione ha un ruolo importante negli studi di affidabilità di materiali o

di sistemi per i quali si assume che il tasso di guasto non sia costante (come è stato
fatto a proposito della distribuzione esponenziale), ma sia una assegnata funzione
(t) = (t)1
del tempo di attesa t del guasto. In tal caso, individuati i parametri e ,
laffidabilità del materiale diventa la seguente funzione del tempo di attesa:
R(t) = 1 FX (t) = et
dove FX (x) è la funzione di distribuzione cumulata di W (, ), ossia la primitiva di

fX (x) che si annulla per x = 0.
Se la variabile casuale può assumere soltanto valori nellintervallo x < +
con > 0, il semplice cambio di variabile y = x porta alla definizione di
una distribuzione di Weibull W (, , ) dipendente da tre parametri , , , avente
densità
fX (x) = (x )1 exp[(x ) ],
x < +;
, , IR+
con valor medio traslato della quantit`

a e la stessa varianza di W (, ).
2.4
Problemi risolti
2.1. Una variabile casuale X() ha densità di probabilità parabolica nellintervallo

x [0.5, 0.5] e nulla altrove. Calcolare la probabilità che assuma valori minori di
x = 0.3.
Soluzione. La probabilità richiesta è uguale a quella che una v.a. () = X + 0.5 ,
avente la medesima distribuzione parabolica definita nellintervallo [0, 1], abbia valori
0.2.
Poiche la densità di probabilità di () è
f () =
6(1 )
0
per [0, 1] ,
altrove
si ricava
P (x < 0.3) = P ( 0.2) = 6
Z 0.2
0
(1 )d = 3 0.4 2 0.08 = 0.104 .
2.2. Calcolare la funzione di distribuzione cumulata di una variabile casuale uniformemente distribuita nellintervallo x [0, 2].
58
VARIABILI ALEATORIE
Soluzione. Indichiamo con X() questa variabile casuale. La sua densità di probabilità è fX (x) = 1/2 per x [0, 2] ed è nulla altrove.
La funzione di distribuzione cumulata è il suo integrale tra e x, ossia
FX (x) =
per x < 0
Z x
FX (0) +
dx/2 = x/2
FX (2) = 1
per 0 x 2
per x > 2.
2.3. Una variabile aleatoria X() ha media nota e varianza 2 = 2. Utilizzando la diseguaglianza di Tchebyshev, determinare un limite inferiore alla seguente
probabilità: IP(|X | 1.5).
Soluzione. Se si applica la diseguaglianza di Tchebyshev si ha che
IP(|X | 1.5)
2
X
8
=
2
(1.5)
9
da cui si ricava
IP(|X | < 1.5) = 1 IP(|X | 1.5) 1
2.4. Data la funzione
f (x) =
8
1
=
.
9
9
c x cos x, per 0 x /2;

0,
per x < 0; x > /2,
determinare c IR in modo che f (x) risulti la densità di probabilità di una variabile

aleatoria X() e calcolare la probabilità dellevento E = {X /4}.
Soluzione. f (x) deve soddisfare la proprietà
c
Z /2
0
x cos xdx = c [x sin x +
/2
cos x]0
=c
1 =1
2
per cui deve essere: c = 2/( 2) .

La probabilità richiesta è IP(X /4) = FX (/4) dove la funzione di distribuzione
cumulata FX (x) vale:
FX (x) =
2
2
Z x
0
t cos tdt =
2
2
[t sin t + cost]x0 =
(x sin x + cos x 1).
2
2
Dunque si ottiene:
2
IP(X /4) =
2

2
2
2
+
1 =
+ 1 2 ' 0.46 ,
4 2
2
2 4
59
2.5. Una variabile aleatoria X() con valori nellintervallo 1 x 2 ha legge

f (x) = /x2 . Determinare la costante IR della densità di probabilità, il valor
medio e la varianza di X().
Soluzione. Se f (x) è una densità, deve soddisfare la proprietà:
Z 2
dx
= +1 = =1
x2
2
2
per cui deve essere: = 2 . Valor medio e varianza di X si determinano come

segue:
mX
2
X
= 2
Z 2
dx
1
= 2 log 2 ' 1.386
= E{X2 }
m2X
=2
Z 2
1
dx 4 log2 2 = 2(1 2 log2 2) ' 0.078 .
2.6. La variabile aleatoria X() ha densità di probabilità

3
f (x) = (x 1)2 ,
2
0x2
e nulla altrove. Calcolare la probabilità che X() assuma valori in un intorno di

raggio = 0.5 del suo valor medio.
Soluzione. Il valor medio di X vale
mX
3
=
2
Z 2
0
"
3 x4 x2 2x3
+
x(x 1) dx =
2 4
2
3
#2
=1
0
(infatti nellintervallo 0 x 2 la funzione f (x) è una parabola con vertice nel

punto (1, 0)).
Pertanto si deve calcolare la probabilità IP{|X 1| < 0.5}, integrando la densità
nellintervallo (1 0.5) x (1 + 0.5):
IP{|X 1| < 0.5} =
3
2
Z 3/2
1/2
(x 1)2 dx = 3
Z 3/2
1
(x 1)2 dx =
2.7 Una variabile casuale X ha densità di probabilità:

f (x) =
1 3
x 4x
per 0 x 2
altrove
Determinare la media, la varianza e la mediana di X.
1
.
8
60
VARIABILI ALEATORIE
Soluzione.
E(X) =
E(X 2 ) =
2
X
Z 2
0
Z 2
0
x3
x x
4
x2 x
16
15
x3
"
x3 x5
dx =
3
20
"
dx =
= 16
x4
4
1
16
12 225
#2
0
#2
6
x
24
16
15
4
3
da cui:
' 0.195 .
Per calcolare la mediana x

si deve imporre:
Z x
0
x3
x
4
"
x2 x4
dx =
2
16
#x
0
1
x
4
=
x
2
2
8
1
= .
2
x
4
Si risolve quindi lequazione biquadratica

8
x2 + 8 = 0, ricercandone lunica
radice che appartiene allintervallo 0 x 2. Posto y = x
2 si ricava:
q
4 + 22 x
1,2 = 4 + 2 2 ' 2.613 , da scartare
q
y=
3,4 = 4 2 2 ' 1.0924.

42 2 x
q
4 2 2 ' 1.0924 .
Dunque la mediana di X vale x

=
2.8 Il tempo di attesa di un guasto in un dispositivo ha legge esponenziale con valor

medio = 11 mesi. Calcolare la probabilità che il guasto si verifichi NON PRIMA
di 6 mesi dopo lultimo controllo.
Soluzione. La densità f (x) e la funzione di ripartizione F (x) della distribuzione
esponenziale con parametro = 1/ = 1/11 sono rispettivamente:
1 x/11
e
;
11
La probabilità richiesta vale
f (x) =
F (x) = 1 ex/11 ,
0 x < +.
IP(X 6) = 1 IP(X < 6) = 1 F (6) = e6/11 ' 0.5795 .

2.9. Il giocatore A lancia un dado non truccato per 4 volte, e vince se esce almeno
una volta il 6. Il giocatore B lo lancia 8 volte, e vince se il 6 esce almeno due volte.
Chi ha maggiore prababilità di vincere e perche ?
Soluzione. In ogni lancio la probabilità che esca il 6 vale p = 1/6 (equiprobabilità di
6 eventi). La probabilità di avere k = 0 successi in n = 4 prove indipendenti vale,
per la formula di Bernoulli:
P4,0 =
!
4
1 0 5 4
5
6
' 0.48226
61
per cui la probabilità di vittoria per A è

P (A) = 1 P4,0 ' 0.51774.
Per il giocatore B, la probabilità di avere non pi`
u di k = 1 successo in n = 8 prove
(perdendo cos` la scommessa) è
!
0
8
P8 (0 k 1) =
8
0
1
6
5
6
!
7
8
1
1
6
5
6
5
6
8
6
5
6
' 0.6046
per cui la sua probabilità di vittoria vale

P (B) = 1 P8 (0 k 1) ' 0.3936.
Poiche P (A) > P (B), il giocatore A ha la maggior probabilità di vittoria.
2.10. Da unurna con 4 palline bianche e 12 nere si effettuano estrazioni ripetute
con reimbussolamento. Qualè in media il numero di prove necessarie per estrarre
la prima pallina bianca?
Risposta. La probabilità di estrarre una pallina bianca vale p = 4/16 = 1/4. Per il
Secondo Principio delle prove ripetute e indipendenti, il valor medio del tempo di
attesa T () del primo successo (estrazione di una pallina bianca) è
E(T ) = 1/p = 4 .
2.11. Dieci simboli binari sono trasmessi su un canale simmetrico avente probabilità
di errore p = 0.01. Calcolare la probabilità di ricevere almeno un simbolo errato.
Soluzione. La probabilità di ricezione corretta è q = 0.99. In n = 10 prove ripetute
e indipendenti (emissione di un simbolo), la probabilità di ricevere correttamente
tutti i 10 simboli vale
P10,0 = q 10 = (0.99)10 ' 0.9044
e dunque la probabilità di ricevere almeno 1 simbolo errato è
P10,k1 = 1 P10,0 = 1 (0.99)10 ' 0.0956 .
2.12. Al giocatore di basket Joe è attribuita una percentuale di realizzazione di
canestri del 60%, e al giocatore Nick del 45%. Joe deve effettuare 5 tiri al canestro,
e Nick ne effettua 3. Supera la prova chi fallisce non pi`
u di un canestro. Chi fra i
due ha la pi`
u alta probabilità di vincere?
62
VARIABILI ALEATORIE
Soluzione. Ogni tiro al canestro effettuato da Joe ha probabilità di successo p = 0.6.

Se k è il numero di canestri effettuati in n tiri, la probabilità che Joe superi la prova
è
!
P5 (4 k 5) =
5
5
(0.6)4 0.4 +
(0.6)5 = (0.6)4 (2 + 0.6) ' 0.337 .
4
5
Per Nick che effettua 3 tiri, ciascuno con probabilità di successo p = 0.45, la probablità di superare la prova è
!
P3 (2 k 3) =
3
3
(0.45)2 0.55 +
(0.45)3 = (0.45)2 (3 0.55 + 0.45) ' 0.425 .
2
3
Quindi la pi`
u alta probabilità di vittoria spetta a Nick .
2.13. La ricezione casuale di un numero k di telefonate nellintervallo di tempo [0, t0 ]
ha legge di Poisson con parametro = t0 . Calcolare la probabilità IP(2 k 4) di
ricevere da due a quattro telefonate (2 incluso) entro listante t0 = 1.
Soluzione. La funzione di distribuzione cumulata della legge di Poisson con parametro
= t0 = 1 è
1X
1
F (x; = 1) =
U (x k)
e k=0 k!
ed esprime la probabilità di ricevere x telefonate entro listante t0 = 1. La probabilità
richiesta vale:
1
IP{1 < x 4} = F (4; = 1) F (1; = 1) =
e
1
1
1
+ +
2 3! 4!
17
' 0.26 .
24e
2.14. Si effettuano 600 lanci di un dado non truccato. Calcolare un valore approssimato della probabilità che il 5 esca un numero di volte compreso tra 94 e
106.
Soluzione. La probabilità di successo (esce il 5) in ogni prova vale p = 1/6. Per
il Teorema integrale di asintoticità delle prove bernoulliane, in n = 600 prove la
probabilità richiesta si approssima con
"
"
94 100
106 100
erf p
=
P600 (94 k 106) ' erf p
600 (1/6)(5/6)
600 (1/6)(5/6)
6
= 2 erf
= 2 erf(0.657) ' 0.4844 .
9.1287
2.15. Un messaggio di 1200 simboli binari viene trasmesso su un canale simmetrico
con probabilità di errore p = 0.25. Determinare una approssimazione valida della
probabilità di ricevere da 250 a 320 simboli errati.
63
Soluzione. In n = 1200 prove bernoulliane per le quali si ha np = 300 e np(1 p) =

225, la probabilità richiesta si approssima con
320 300
250 300
erf
225
225
' 0.4082 + 0.4996 = 0.9078 .
Pn (250 k 320) ' erf
= erf
4
3
+ erf
10
3
2.16. Lesperimento consiste nel lancio, effettuato per due volte, di un dado non
truccato. Se si effettuano tre prove di questo esperimento, qualè la probabilità che
in una delle tre prove esca due volte lo stesso numero ?
Risposta. Indichiamo con E = {11, 22, 33, 44, 55, 66} levento: esce due volte lo
stesso numero. Lo spazio campione è costituito da 62 = 36 eventi (= numero di
disposizioni con ripetizione di 6 elementi a 2 a 2). Quindi la probabilità che si
realizzi levento E vale P (E) = 6/36 = 1/6 p. Per la formula di Bernoulli con
n = 3, k = 1 si trova:
!
P3,1 =
3
1

6
1
5
6
25
= 0.34722 .
72
2.17. Si sa che la probabilità di errore in ricezione di una sequenza di 150 segnali

trasmessi con modalità statisticamente indipendenti è p = 0.01. Determinare la
probabilità che due dei segnali ricevuti siano errati.
Soluzione. Nella trasmissione di n = 150 segnali con probabilità di errore p = 0.01,
si ha np = 1.5. Per la formula di Bernoulli il valore esatto della probabilità richiesta
è
!
150
P150,2 =
(0.01)2 (0.99)148 .
2
Poiche np è prossimo allunità, questa si approssima con la legge di Poisson degli
eventi rari:
9
(1.5)2 1.5
e
= e3/2 ' 0.251 .
P150,2 '
2
8
2.18. Calcolare il valore atteso della variabile aleatoria Y = 1 + X 2 dove X() ha
una distribuzione binomiale B(n, p) con n = 10, p = 0.5.
Soluzione. Si deve calcolare E{1 + X 2 } = 1 + E{X 2 }, dove X() B(10, 0.5) ha
valor medio e varianza che valgono:
E{X} = np = 5 ;
2
X
= np(1 p) = 5/2.
64
VARIABILI ALEATORIE
Poiche il momento del secondo ordine di X vale

2
E{X 2 } = X
+ E 2 {x} = 5/2 + 25 = 55/2 ,
si ricava:
E{1 + X 2 } = 1 + 55/2 = 57/2 .
2.19. Si effettua per 5 volte il lancio simultaneo di due dadi non truccati. Calcolare:
1) la probabilità che la somma dei numeri usciti sia minore di 6 in tutti i 5 lanci; 2)
la probabilità che la somma sia compresa tra 6 e 7 in non pi`
u di due lanci.
Soluzione. Indichiamo con E1 = {11, 12, 13,
14, 22, 23} levento: { la somma è minore
7
di 6 }. Lo spazio campione è costituito da 2 = 21 eventi (= numero di combinazioni
con ripetizione di 6 elementi a 2 a 2). Quindi la probabilità che si realizzi levento
E1 vale
2
6
= p.
P (E1 ) =
21
7
1) Per la formula di Bernoulli con n = 5, k = 5 si trova:
5
2
7
P5,5 =
' 0.002 .
2) Anche levento E2 = {15, 24, 33, 16, 25, 34} = { la somma è compresa tra 6 e 7 }
è costituito da 6 eventi semplici, per cui ha una probabilità ancora uguale a 2/7. La
probabilità che E2 si realizzi 0, 1 o al massimo 2 volte su 5 lanci è allora
P5 (0 k 2) =
2
X
k=0
!
k
5k
5
k
5
7
5
7
2
7
2
+5
7
5
7
2 3
+ 10
2
7
5
7
5
7
115
' 0.855 .
49
2.20. Nella successione di prove indipendenti di un esperimento casuale, la probabilità di successo è p = 0.35. Applicando la legge dei grandi numeri, calcolare il
numero delle prove che è necessario effettuare perche con probabilità non inferiore
a 0.90 si abbia un numero di successi compreso tra 0.3n e 0.4n.
Soluzione. Se p = 0.35, per il Teorema integrale di asintoticit`
a al crescere di n la
probabilità che il numero k di successi sia compreso tra 0.3n e 0.4n si avvicina a:
0.4n 0.35n
IP{0.3n k 0.4n} = erf p
0.35(1 0.35)n
' 2 erf(0.1048 n).
0.3n 0.35n
erf p
0.35(1 0.35)n
65
Se si vuole che questa probabilità sia non inferiore a 0.90, occorre che erf(0.1048 n)
0.45. Dalla tabella della funzione degli errori si ricava:
z = 0.1048 n 1.65
1.65
0.1048
= 248
ottenuto arrotondando per eccesso alle unità.

2.21. Nella nostra dotazione di 1200 utensili, 500 unità sono fornite dalla ditta
A e 700 dalla ditta B. Da controlli di qualità risulta che la produzione della ditta
A è difettosa con probabilità pA = 0.005 e quella della ditta B con probabilità
pB = 0.002. Quante estrazioni casuali di utensili dalla dotazione potremo effettuare,
in media, prima di trovarne uno difettoso ?
Risposta. Calcoliamo le probabilità degli eventi: A = { estrazione di un utensile
prodotto da A}; B = { estrazione di un utensile prodotto da B}; E = { estrazione
di un utensile difettoso. Esse valgono:
P (A) =
P (B) =
500
5
nA
=
=
n
1200
12
nB
700
7
=
=
n
1200
12
P (E) = P (A)P (E|A) + P (B)P (E|B) =
7
5
0.005 +
0.002 ' 0.00325 .
12
12
Per il Secondo Principio delle prove ripetute, il numero medio di estrazioni che si
effettuano prima di trovare un elemento difettoso è linverso di P (E):
E{tempo di attesa} = 1/0.00325 = 308
arrotondato per eccesso alle unità.
2.22. Un evento ha una probabilità costante p = 0, 01 di verificarsi in ogni prova di
un certo esperimento. Calcolare la probabilità che esso si verifichi almeno 3 volte su
100 prove indipendenti dellesperimento in questione:
a) facendone una valutazione esatta;
b) facendone una valutazione approssimata con luso della distribuzione di Poisson.
Soluzione
a) Per ottenere una valutazione esatta si applica la formula di Bernoulli:
P100 (k 3) = 1 P100 (0 k 2) =
"
100
= 1 (0.99)
99
+ 100 0.01(0.99)
100
+
(0.01)2 (0.99)98 =
2
= 1 (0.99)98 2.4651 = 1 0.9206268 = 0.0793732 .
66
VARIABILI ALEATORIE
b) Utilizzando la legge di Poisson degli eventi rari con np = 100 0.01 = 1, si ricava
P (k 2) '
2
X
e1
k=0
k!
5 1
e = 0.9196986
2
e di conseguenza:
P (k 3) = 1 P (k 2) ' 0.080 .
2.23. Si effettuano tre tiri verso un medesimo bersaglio. Le probabilità di colpirlo al
primo, al secondo e al terzo colpo sono, rispettivamente, uguali a p1 = 0.4, p2 = 0.5
e p3 = 0.7.
a) Qual è la probabilità di aver colpito il bersaglio una sola volta dopo i tre tiri?
b) Qual è la probabilità di aver colpito il bersaglio almeno una volta dopo i tre tiri?
Soluzione. Indichiamo con Sk = {successo: bersaglio colpito al k-esimo tiro} oppure
Fk = {fallimento: bersaglio mancato al k-esimo tiro} i possibili esiti di ognuno dei
tre tiri. Questi eventi hanno probabilità:
P (Sk ) = pk ,
P (Fk ) = 1 pk ,
k = 1, 2, 3,
a) Nella sequenza dei tre tiri (con esiti statisticamente indipendenti), gli eventi in
cui si verifica un solo successo sono tre, e le rispettive probabilità sono le seguenti:
P {S1 F2 F3 } = p1 (1 p2 )(1 p3 ) = 0.4 0.5 0.3 = 0.06
P {F1 S2 F3 } = (1 p1 )p2 (1 p3 ) = 0.6 0.5 0.3 = 0.09
P {F1 F2 S3 } = (1 p1 )(1 p2 )p3 = 0.6 0.5 0.7 = 0.21 .
La probabilità di aver colpito il bersaglio una sola volta è la somma di queste:
P {(S1 F2 F3 ) (F1 S2 F3 ) (F1 F2 S3 )} = 0.06 + 0.09 + 0.21 = 0.36 .
b) La probabilità di avere avuto almeno un successo vale:
1 P {F1 F2 F3 } = 1 (1 p1 )(1 p2 )(1 p3 ) = 1 0.6 0.5 0.3 = 0.91 .
2.24. Da una recente indagine della polizia stradale risulta che il 45% degli automobilisti guida ancora in città senza allacciare le cinture di sicurezza. Se un agente
controlla a caso 10 vetture in circolazione, qualè la probabilità che egli riscontri
questa infrazione almeno 8 volte ?
67
Risposta. Il successo S in ognuno degli n = 10 controlli consiste nel riscontro della

infrazione, ed ha probabilità teorica p = 0.45. Per la formula di Bernoulli, la probabilità che si verifichino almeno 8 successi vale
P10 (8 k 10) =
10
X
k=8
10 k
p (1 p)10k =
k
10
(0.45)8 (0.55)2 + 10 (0.45)9 0.55 + (0.45)10 =
8
h
= (0.45)8 45 (0.55)2 + 4.5 0.55 + (0.45)2 ' 0.0274 .
68
VARIABILI ALEATORIE
VARIABILI ALEATORIE
MULTIDIMENSIONALI
Linsieme {X1 (), X2 (), . . . , Xn ()} di n variabili aleatorie, definite su un medesimo spazio di probabilità (, B, P ), costituisce le n componenti di un vettore aleatorio
X() ndimensionale che opera la trasformazione (, B, P ) (IRn , B , P ) associando ad lennupla (x1 , . . . , xn ) IRn , e allevento A B linsieme B = X1 (A)
IRn con probabilità P (B) = P (X1 (B)) = P (A).
In questo Capitolo esamineremo le principali proprietà del vettore aleatorio X() generalizzando le definizioni ed i risultati già esposti nel precedente Capitolo a proposito di una v.a. unidimensionale. Per comprendere le novit`
a che questa analisi comporta, conviene iniziare a trattare il caso n = 2.
3.1
Coppie di variabili aleatorie
Consideriamo due variabili aleatorie reali X() e Y (), componenti di un vettore

aleatorio bidimensionale X() = {X1 = X(), X2 = Y ()}, che ad ogni evento
elementare di un esperimento casuale associano rispettivamente i numeri reali
x Dx IR ed y Dy IR come illustrato nello schema di Fig. 3.1.
Lintersezione B 0 dei due eventi: (X x) e (Y y), cioè larea ombreggiata in
figura, è ancora un evento in B, la cui probabilità è una funzione FXY (x, y) delle
due variabili reali:
FXY (x, y) = P {(X x) (Y y)}
(3.1)
che si chiama funzione di distribuzione congiunta (o mista) della coppia di variabili
aleatorie. Essa misura la probabilità che si verifichino entrambi gli eventi: (X x) e
(Y y); è sempre positiva con valori compresi tra 0 e 1, non decrescente e continua
a destra rispetto a ciascuna delle variabili x, y. Le sue proprietà sono:
FXY (, ) = FXY (, y) = FXY (x, ) = 0;
69
70
VARIABILI ALEATORIE MULTIDIMENSIONALI
FXY (+, +) = 1.
y
W
X
B'
(x,y) = X(w )
w
x
A
X
Figura 3.1
Se esiste la derivata mista di FXY (x, y), si chiama densit`

a di probabilità congiunta
della coppia (X(), Y ()) la funzione
fXY (x, y) =
soddisfacente le condizioni:
2 FXY (x, y)
xy
Z Z
fXY (x, y) 0 ,
(3.2)
fXY (x, y)dxdy = 1.
La Fig. 3.2 mostra il grafico qualitativo della densità congiunta di una coppia di
v.a. che assumono valori reali in X() = Dx (y) Dy (x) IR2 . La probabilità che
esse abbiano valori in un insieme B è data dallintegrale doppio:
Z Z
P (X B) =
fXY (x, y)dxdy.
(3.3)
In particolare, se questo insieme è lintersezione B 0 = (X x) (Y y), la

probabilità P (B 0 ) è data dal volume indicato in figura, che vale
P (B 0 ) =
Z x
dx0
Z y
fXY (x0 , y 0 )dy 0 = FXY (x, y).
Il volume che nella stessa figura è compreso tra due piani paralleli a distanza infinitesima dy, misura la probabilità dellevento E = {(X Dx ) (Y [y, y + dy])}
e vale:
Z
P (E) = dy
fXY (x, y)dx.
(3.4)
Dx (y)
Ma poiche (X Dx ) = (X +) è levento certo, risulta anche

P (E) = P {Y [y, y + dy]} = FY (y + dy) FY (y) = dFY (y)
(3.40 )
3.1 Coppie di variabili aleatorie
71
f ( x,y )
XY
dF ( y )
Y
B'
P(B') = FXY( x,y )
dy
X( W )
x
Figura 3.2
dove FY (y) = FXY (+, y) è la funzione di distribuzione della v.a. Y (), che ora
prende il nome di funzione di distribuzione marginale di Y (). Confrontando la
(3.4) con la (3.4) risulta pertanto:
Z
Dx (y)
fXY (x, y)dx =
dFY (y)
= fY (y).
dy
(3.5)
Lintegrale a primo membro ha il significato di densità di probabilità relativa alla

sola v.a. Y (), e individua la densità di probabilità marginale di Y (). Essa si
ottiene integrando la densità mista su tutti i valori che può assumere laltra v.a. con
cui fa coppia. In modo analogo si definiscono: la funzione di distribuzione marginale
di X():
FX (x) = FXY (x, +) P {(X x) (Y y)}
e la sua densità di probabilità marginale:
Z
fX (x) =
3.1.1
Dy (x)
fXY (x, y)dy.
Momenti congiunti
Data una coppia di v.a. X(), Y () entrambe definite in (, +), si chiama

momento congiunto (o misto) di ordine (p + q) lintegrale doppio:
E{X p Y q } =
Z Z

xp y q fXY (x, y)dxdy
(p,q interi positivi.)
Il momento centrale congiunto di ordine (p + q) della coppia è definito dallintegrale

doppio:
E{(X mX )p (Y mY )q } =
Z Z

(x mX )p (y mY )q fXY (x, y)dxdy
72
in cui le realizzazioni di X ed Y sono valutate rispetto ai valori medi delle loro

distribuzioni marginali. I momenti centrali con p = 2, q = 0 e p = 0, q = 2 si
identificano rispettivamente con le varianze di X() ed Y (). Il momento centrale
congiunto del secondo ordine si chiama covarianza di X() ed Y ():
Cov (X, Y ) =
Z Z

(x mX )(y mY )fXY (x, y)dxdy
(3.6)
ed è sicuramente il pi`
u importante dal punto di vista applicativo. Sviluppando
lintegrale a secondo membro si ricava subito limportante relazione:
Cov(X, Y ) = E{XY } mY E{X} mX E{Y } + mX mY = E{XY } mX mY (3.7)
la quale mostra che la covarianza è la differenza tra il momento misto del secondo
ordine e il prodotto delle medie marginali. Se queste due quantit`
a sono uguali,
ovvero se la covarianza è nulla, le v.a. si dicono non correlate.
La covarianza interviene sempre nella espressione della varianza di una combinazione
lineare di due o pi`
u variabili aleatorie. Infatti, per la proprietà di linearità del valor
medio, la varianza di Z() = aX() + bY () vale:
Z2
= E{(Z mZ )2 } = E{[(aX + bY ) E{aX + bY }]2 }

= E{[a(X E{X}) + b(Y E{Y })]2 }
= E{a2 (X E{X})2 + b2 (Y E{Y })2 + 2ab(X E{X})(Y E{Y })}
2
= a2 X
+ b2 Y2 + 2ab Cov(X, Y ).
(3.8)
Se poi X() e Y () sono non correlate, allora la (3.8) si riduce alla seguente:
(X, Y ) non correlate
2
Z2 = a2 X
+ b2 Y2
e dunque la varianza di una loro combinazione lineare è la somma delle varianze,

moltiplicate per il quadrato dei rispettivi coefficienti. La (3.8) si estende al caso di
una combinazione lineare Z() = a1 X1 () + . . . + an Xn () di n variabili aleatorie,
per la quale si ricava:
Z2 =
n
X
2
a2i X
+2
i
i=1
n1
X
n
X
ai aj Cov(Xi Xj )
i=1 j=i+1
che si riduce alla prima sommatoria se ciascuna coppia (Xi Yj ) è non correlata.
Pur essendo un momento di ordine pari, la covarianza può anche essere negativa,
come si verifica facilmente dalla definizione (3.6). Si chiama coefficiente di correlazione tra X ed Y il rapporto
(X, Y ) =
Cov(X, Y )
,
X Y
|(X, Y )| 1
(3.9)
73
tra la covarianza e il prodotto degli scarti quadratici medi di X() ed Y (). Vedremo
in un prossimo Capitolo, nellambito del metodi regressivi di previsione relativi
allanalisi statistica di campioni estratti da due popolazioni, che questo coefficiente
adimensionale è una misura della interdipendenza lineare tra le due v.a., nel senso
che dà una indicazione sulla accuratezza con cui una variabile aleatoria può essere
approssimata come funzione lineare di unaltra. Se X() e Y () sono non correlate
(linearmente), si ha (x, y) = 0; se invece il modulo del coefficiente di correlazione è
prossimo allunità, allora è giustificata lapprossimazione: X() ' aY () + b che le
lega mediante una legge lineare.
3.1.2
Coppie di v.a. indipendenti
Come diretta conseguenza del concetto di indipendenza di due eventi, X() e Y ()

sono dette statisticamente indipendenti se lo sono gli eventi (X x) e (Y y), in
modo che
P {(X x) (Y y)} = P (X x) P (Y y).
(3.10)
In tale ipotesi, la funzione di distribuzione congiunta è il prodotto delle funzioni di
distribuzione marginali:
FXY (x, y) = FX (x)FY (y)
(3.11)
da cui discende subito una analoga proprietà per la loro densità mista:
fXY (x, y) = fX (x)fY (y).
(3.12)
Se X() e Y () sono statisticamente indipendenti, tenuto conto della (3.12) si ha

che il loro momento congiunto si identifica con il prodotto dei rispettivi momenti di
ordine p e q:
(X, Y ) indipendenti
E{X p Y q } =
xp fX (x)dx
(3.13)
y q fY (y)dy = E{X p }E{Y q }.
Ne segue, tenuto conto della (3.7), che due v.a. indipendenti sono anche non correlate:
(X, Y ) indipendenti
E{XY } = mX mY
Cov(X, Y ) = 0.
Si badi però che non è vero il contrario: infatti lindipendenza è una condizione
sufficiente ma non necessaria per la non correlazione. Due v.a. possono avere covarianza nulla, anche se non sono statisticamente indipendenti. Dunque, lindipendenza
statistica è una condizione pi`
u restrittiva della non correlazione.
OSSERVAZIONE
74
La statistica congiunta di una coppia di v.a. è completamente nota solo se si conosce

la loro densità mista fXY (x, y), ovvero anche la funzione di ripartizione congiunta
FXY (x, y). Da essa, infatti, è possibile dedurre le distribuzioni marginali ed i momenti di ogni ordine, semprechè esistano. Se però le v.a. sono statisticamente
indipendenti, per quanto si è visto in questo paragrafo la conoscenza delle singole
distribuzioni marginali è sufficiente a descrivere compiutamente la loro statistica
congiunta.
Esempio 3.1
Si assuma che la traccia di un oggetto su uno schermo radar circolare, di raggio a, si possa trovare con eguale probabilità in qualsiasi punto P dello schermo.
Allesperimento consistente nella ricezione casuale di una traccia sullo schermo, è
naturale associare le variabili aleatorie R(), (), coordinate polari del punto P. Si
vuole determinare la loro densità di probabilità congiunta fR (r, ), le due densità
marginali ed i momenti misti.
fXY ( x,y )
1/ p a
R
0
Q
a
2p
a
x
Figura 3.3
La probabilità che la traccia P si trovi nellelemento di superficie d = rdrd vale:

dP () = P {(R, ) d} =
d
r
=
drd
2
a
a2
e ricordando la (3.3) si può scrivere

dP () = fR (r, )drd.
Eguagliando si ricava la densità mista:
fR (r, ) =
r/(a2 ), 0 r a;
0,
altrove
il cui grafico è mostrato in Fig. 3.3.
0 2;
(3.14)
75
Le densità marginali si ricavano applicando la (3.5):

fR (r) =
f () =
Z 2
r
Z0 a
0
2r
,
a2
1
r
dr =
,
2
a
2
a2
d =
0ra
0 2
e sono nulle al di fuori dei rispettivi intervalli. Dunque, la densità di probabilità di

R() per 0 r a è un segmento di retta, e quella di () è uniforme in [0, 2].
Il prodotto delle due densità marginali è uguale alla densità mista: fR (r)f () =
fR (r, ), per cui si può concludere che le due v.a. sono statisticamente indipendenti.
Il loro momento del secondo ordine è uguale al prodotto dei rispettivi valori medi:
E{R} =
Z a Z 2
0
r
2
drd = a = mR m ,
a2
3
e ovviamente la covarianza tra R e è nulla, perche essendo indipendenti sono anche

non correlate.
La probabilità che la traccia si trovi nel centro dello schermo in un cerchio di raggio
r0 << a (oppure anche: nel centro di un bersaglio circolare, nella ipotesi che la traccia cada comunque sul bersaglio) si può facilmente calcolare utilizzando la densità
congiunta (3.14), e vale:
P {R r) ; 0 2} = 2
Z r0
r
0
dr =
2
r0
a
Esempio 3.2
E nota la densità congiunta di una coppia di variabili aleatorie. Essa vale
fXY (x, y) =
8xy, per 0 x 1;
0
altrove
0y<x
ed assume valori maggiori di zero nel dominio D = DX (y) DY (x) = [0, x) (y, 1].
Si vuole determinare le densità e i momenti marginali, e il loro momento congiunto
di ordine due.
Le densità marginali si calcolano come segue:
Z
fX (x) =
DX (y)
fXY (x, y)dy = 8
fY (y) =
DY (x)
fXY (x, y)dy = 8
Z 1
y
Z x
0
xydy = 4x3 ,
xydx = 4y(1 y 2 ),
x [0, 1]
y [0, 1],
76
e il loro grafico è mostrato, insieme con la densità mista, in Fig. 3.4. I valori medi e
le varianze delle distribuzioni marginali si calcolano, come di consueto, applicando
le loro definizioni:
E{X} = 4
Z 1
Z01
x4 dx =
4
5
8
15
Z01
2 16
2
5
2
= 4
x dx E {X} =
=
3
25
75
Z01
1
64
11
= 4
y 3 (1 y 2 )dy E 2 {Y } =
=
.
3 225
225
0
E{Y } = 4
2
X
Y2
y 2 (1 y 2 )dy =
Il prodotto delle densità marginali non è uguale alla densità congiunta: ciò significa
che la coppia X(), Y ()) non è statisticamente indipendente. Calcoliamo perciò il
loro momento misto:
E{XY } =
Z 1
0
dx
Z x
0
xyfXY (x, y)dy = 8
Z 1
0
x2 dx
Z x
0
y 2 dy =
4
9
f XY( x,y )
4
f (x)
X
1
x
DX( y) DY ( x)
x=
f ( y)
Y
y
0
Figura 3.4
dal quale si deduce la seguente covarianza:

Cov (X, Y ) = E{XY } E{X}E{Y } =
4
.
225
Il coefficiente di correlazione della coppia, definito dalla (3.9), nel caso in esame vale
(X, Y ) =
225
4
' 0.492366
2 11
75 225
e il suo valore sensibilmente minore dellunità mostra che le due variabili aleatorie
sono poco correlate statisticamente, nel senso precisato alla fine del 3.1.2.
3.1.3
77
Coppie di v.a. discrete
Se X() e Y () assumono rispettivamente valori reali xi ed yj con i = 1, 2, . . . , n,

j = 1, 2, . . . m, indichiamo con Pij = P {(X = xi ) (Y = yj )} la probabilità che la
coppia (X, Y ) assuma i valori (xi , yj ). Ovviamente, per gli assiomi della probabilità
le Pij devono soddisfare la condizione:
n X
m
X
Pij = 1.
i=1 j=1
La distribuzione mista, i momenti e le distribuzioni marginali della coppia discreta

si esprimono, sulla base delle definizioni date nei paragrafi precedenti, facendo uso
della funzione scalino unitario (2.3) e della funzione impulsiva. Cos , la loro funzione
di distribuzione congiunta è data da
FXY (x, y) =
n X
m
X
Pij U (x xi )U (y yj )
(3.15)
i=1 j=1
e la corrispondente densità di probabilità congiunta è linsieme bidimensionale di

impulsi:
fXY (x, y) =
n X
m
X
Pij (x xi )(y yj ).
(3.16)
i=1 j=1
Le rispettive funzioni di distribuzione marginali si ottengono sommando rispetto a

tutti i valori assunti dallaltra v.a.:
FX (x) =
FY (y) =
n X
m
X
i=1 j=1
m X
n
X
Pij U (x xi ),
x Dx
Pij U (y yj ),
y Dy
j=1 i=1
mentre le densità marginali valgono rispettivamente:

fX (x) =
fY (y) =
m
n X
X
i=1 j=1
m X
n
X
Pij (x xi ),
x Dx
Pij (y yj ),
y Dy .
j=1 i=1
I loro momenti congiunti sono definiti dalle somme:

E{X p Y q } =
n X
m
X
i=1 j=1
Pij xpi yjq
(3.17)
78

n X
m
X
E{(X mX )p (Y mY )q } =
Pij (xi mX )p (yj mY )q
(3.18)
i=1 j=1
e in particolare la loro covarianza vale

n X
m
X
Cov (X, Y ) =
Pij (xi mX )(yj mY ).
(3.19)
i=1 j=1
Esempio 3.3
In una coppia di v.a. discrete, X() può assumere i valori (2, 0, 2) e Y () i valori
(1, 0, 1). Le probabilità miste Pij , con i, j = 1, 2, 3 hanno i valori riportati nella
tabella di Fig. 3.5 e danno luogo, ricordando la (3.16), a una densità mista FXY (x, y)
che è rappresentata dalla distribuzione di impulsi di Fig. 3.6. Si vuole calcolare le
densità marginali, la covarianza e il coefficiente di correlazione della coppia.
j
j Pij
y1 = - 1
y2 = 0
y3 = 1
x1 = - 2
1/8
1/3
1/8
7/12
x 2= 0
1/12
1/12
x 3= 2
1/4
1/12
1/3
i Pij
3/8
5/12
5/24
ij Pij =
Figura 3.5
Nella colonna a destra della tabella di Fig. 3.5 sono indicate le probabilità che si
ottengono sommando, per ogni i, rispetto a tutti i valori dellindice j. I risultati delle
somme forniscono le probabilità marginali di X(), che per la prima delle (3.17) ha
densità
1
1
7
fX (x) = (x + 2) + (x) + (x 2).
12
12
3
Allo stesso modo, le probabilità marginali di Y () sono ricavate nella riga sottostante
la stessa tabella, e forniscono la densità marginale:
3
5
5
fY (y) = (y + 1) + (y) + (y 1).
8
12
24
Queste distribuzioni marginali hanno i seguenti momenti del primo e secondo ordine:
mX
= 2
7
1
1
+2 = ;
12
3
2
E{X 2 } =
7 4
11
+ = ;
3 3
3
2
X
=
11 1
41
=
3
4
12
3.2 Caso di n variabili aleatorie
mY
3
5
1
= +
= ;
8 24
6
79
E{Y 2 } =
3
5
7
+
= ;
8 24
12
Y2 =
7
1
5
= .
12 36
9
Poiche il prodotto delle densità marginali non è uguale alla densità mista assegnata,
le due variabili aleatorie non sono statisticamente indipendenti. La loro covarianza
si può calcolare applicando la (3.19), ma è pi`
u comodo determinarla ricordando la
(3.7):
Cov (X, Y ) = E{XY } mX mY =
2 2 2
2
1
1
5
+
mX mY =
= .
8 8 4 12
3 12
12
Siamo ora in grado di determinare il coefficiente di correlazione della coppia, che per
la (3.9) risulta:
5
(X, Y ) = r
' 0.3024.
41 5
12
12 9
fXY ( x,y )
f X ( x)
-2
-2
-1
fY ( y)
2
x
-1
Figura 3.6
3.2
Caso di n variabili aleatorie
Lestensione formale ad n dimensioni delle definizioni e dei risultati ottenuti nei

precedenti paragrafi si effettua senza particolari difficoltà. Se in uno spazio di probabilità (, B, P ) si definiscono le n v.a. X1 (), X2 (), .., Xn (), il vettore aleatorio
X() = [X1 (), X2 (), . . . , Xn ()]T ,
dove T indica la trasposta, ha una funzione di distribuzione FX (x) : IRn [0, 1]
la quale misura la probabilità che si verifichino simultaneamente gli eventi (Xi
xi ), i = 1, .., n:
FX (x1 , x2 , . . . , xn ) = P {(X1 x1 ) (X2 x2 ) . . . (Xn xn )}.
(3.20)
80
La (3.20) ha il significato di funzione di distribuzione congiunta delle n v.a. Xi (),

mentre la funzione di distribuzione marginale di una tra le Xi () si deduce da questa
mandando a + tutte le sue variabili indipendenti, tranne xi :
FXi (xi ) = FX (+, . . . , +, xi , +, . . . , +).
La derivata parziale mista di ordine n di FX (x1 , .., xn ), se esiste, è la densità di
probabilità fX (x) : IRn IR del vettore X(), ovvero la densit`
a di probabilità
congiunta delle v.a. Xi ():
fX (x1 , x2 , .., xn ) =
n FX (x1 , . . . , xn )
x1 . . . xn
e il suo integrale di ordine (n 1), fatto rispetto a tutte le variabili indipendenti

tranne una xi , è la densità marginale della v.a. Xi ():
fXi (xi ) =
...
fX (x1 , . . . , xn )dx1 dxi1 dxi+1 dxn .
(3.21)
Se le Xi () sono statisticamente indipendenti, allora la densità congiunta è il prodotto

delle n densità marginali:
fX (x1 , . . . , xn ) = fX1 (x1 ) fX2 (x2 ) fXn (xn )
e questa proprietà implica che le Xi () siano anche indipendenti a due a due.
Il valor medio del vettore aleatorio X() è il vettore n-dimensionale:
mX = E{X} = [mX1 , mX2 , . . . , mXn ]T .
che ha per componenti i valori medi di ciascuna distribuzione marginale:
i = 1, .., n :
mXi =
xi fXi (xi )dxi .
Nel caso n-dimensionale si possono definire svariati momenti congiunti, a seconda

delle componenti del vettore X() che vi sono coinvolte. Particolare importanza
hanno i momenti centrali del secondo ordine relativi a ciascuna coppia (Xi , Xj ), che
sono gli elementi della matrice di covarianza:
CX = [Cov(Xi , Xj )]
i, j = 1, 2, . . . , n.
Si tratta di una matrice simmetrica n n, definita non negativa: det(CX ) 0, in

cui gli elementi della diagonale principale coincidono con la varianza di ciascuna
componente Xi (). Ricordando la definizione (3.9) del coefficiente di correlazione
ij = (Xi , Xj ), la matrice di covarianza si può scrivere:
12
21 2 1
CX =
...
n1 n 1
12 1 2
22
...
n2 n 2
. . . 1n 1 n
. . . 2n 2 n
...
...
...
n2
(3.22)
3.2 Caso di n variabili aleatorie
81
ed è anche il prodotto di matrici:

(3.220 )
CX = DX RX DX
dove DX è la matrice diagonale delle deviazioni standard i , e RX è la matrice di

correlazione:
1
12 . . . 1n
21
1 . . . 2n
RX =
... ... ... ... .
n1 n2 . . . 1
Il suo determinante ha proprietà che richiamano quelle del coefficiente di correlazione
(3.9) tra due v.a. Infatti, poichè anche RX è simmetrica, si vede subito che 0
det(RX ) 1, e questo determinante vale 1 nel caso in cui le Xi () sono tutte a due
a due non correlate, perche allora la matrice di correlazione si riduce alla matrice
identica, e la matrice di covarianza degenera nella matrice diagonale delle varianze:
2
(Xi , Xj ) non correlate :
...
CX = . . . . . .
0 ...
1
RX = I;
0
...;
n2
det CX = i i2 .
Nel caso limite opposto, si può invece dimostrare che lannullarsi del determinante
della matrice di covarianza e quindi per la (3.22) anche di det(RX ) è condizione
necessaria e sufficiente perchè almeno una delle Xi () sia una combinazione lineare
delle altre (n 1) variabili aleatorie:
Xi () = a0 + a1 X1 () + . . . + ai1 Xi1 () + ai+1 Xi+1 () + . . .
. . . + an Xn ()
Det (CX ) = 0,
Det (RX ) = 0
con a1 , .., ai1 , ai+1 , .., an costanti non nulle. Si osservi che la condizione ora enunciata non implica affatto (tranne nel caso banale n = 2) che ciascuna coppia (Xi , Xj ) sia
legata da una relazione lineare del tipo Xi () = aXj () + b. Come vedremo subito
nellEsempio che segue, è possibile definire sistemi di tre (o pi`
u) v.a. che non sono
linearmente dipendenti a due a due, in cui tuttavia almeno una Xi () è combinazione
lineare delle rimanenti. Il caso che tratteremo riguarda un insieme di tre variabili
aleatorie discrete, per il quale è immediato applicare i risultati appena ottenuti,
che sono validi per un generico vettore aleatorio con componenti sia continue che
discrete.
Esempio 3.4
Lesperimento consiste nella estrazione casuale di una pallina da unurna che ne

contiene 10 di cui 3 bianche, 2 nere e 5 rosse. Definiamo tre v.a. X(), Y (), Z(),
e decidiamo di assegnare ad esse il valore 0 oppure 1 a seconda che si realizzino
determinati eventi. Precisamente:
se si estrae una pallina
bianca
nera o rossa
X=1
X=0
82
nera
bianca o rossa
Y =1
Y =0
rossa
bianca o nera
Z=1
Z = 0.
Si vuole studiare la statistica mista del vettore aleatorio: X() = [X, Y, Z]T . A tal
fine calcoliamo dapprima le probabilità
Pijk = P {(X = i) (Y = j) (Z = k)},
i, j, k = 0, 1
dellintersezione di tre degli eventi sopra definiti. Tenuto conto della equiprobabilità
dellestrazione di una pallina di colore bianco, nero o rosso, le Pijk valgono:
P100 =
3
;
10
1
P010 = ;
5
1
P001 = ;
2
P000 = P011 = P101 = P110 = P111 = 0.
La densità di probabilità congiunta è la sequenza di impulsi:

fX (x, y, z) =
1
X
Pijk (x i)(y j)(z k)
i,j,k=0
e le densità marginali di ciascuna v.a. valgono:

fX (x) =
1
X
i=0
fY (y) =
fZ (z) =
1
X
j=0
1
X
1
X
(x i)
(y j)
Pijk =
j,k=0
1
X
(z k)
k=0
3
7
(x) + (x 1)
10
10
4
1
Pijk = (y) + (y 1)
5
5
i,k=0
1
X
1
1
Pijk = (z) + (z 1).
2
2
i,j=0
Calcoliamone ora i valori medi:

mX =
X
i,j,k
i Pijk =
3
,
10
mY =
1
j Pijk = ,
5
i,j,k
mZ =
k Pijk =
i,j,k
1
2
che utilizziamo per determinare le covarianze di ciascuna coppia:

X
3 1
3
=
10
5
50
i,j,k
X
3 1
3
Cov(X, Z) = E{XZ} mX mZ =
ik Pijk mX mZ = 0
=
10 2
20
i,j,k
X
1 1
1
Cov(Y, Z) = E{Y Z} mY mZ =
jk Pijk mY mZ = 0 =
5 2
10
i,j,k
Cov(X, Y ) = E{XY } mX mY =
ij Pijk mX mY = 0
3.3 Trasformate della densit`

a di probabilit`
a
83
poiche i loro momenti del secondo ordine (non centrali) sono tutti nulli. Dunque le
tre variabili aleatorie sono correlate a due a due. Calcoliamo anche le loro varianze:
2
X
X
i,j,k
Z2
21
;
100
1
= ,
4
(i mX )2 Pijk =
2
(k mZ ) Pijk
i,j,k
Y2 =
(j mY )2 Pijk =
i,j,k
4
25
da cui ricaviamo subito i rispettivi scarti quadratici medi: X

= 0.458, Y =
0.4, Z = 0.5. Siamo ora in grado di calcolare i coefficienti di correlazione i quali,
applicando la (3.9) a ciascuna coppia, valgono:
(X, Y )
= 0.327,
(X.Z)
= 0.654,
(Y, Z) = 0.5
e ci indicano che X, Y, Z non formano coppie di v.a. linearmente dipendenti. Tuttavia, la matrice di covarianza di X() = [X, Y, Z]T è la seguente:
21/100 3/50 3/20
CX = 3/50
4/25 1/10
3/20 1/10
1/4
e ha determinante nullo, cos come RX . Il rango di queste matrici è 2: ciò significa
che una delle tre v.a. è combinazione lineare delle altre due. Precisamente, è facile
vedere che sussiste la relazione: Z() = X() + Y (). Infatti, dai calcoli svolti si
può verificare che il valor medio di Z() è la somma di mX ed mY , mentre la sua
varianza soddisfa la proprietà (3.8) con a = b = 1:
2
Z2 = X
+ Y2 + 2 Cov(X, Y ) =
4
3
1
21
+
2
= ,
100 25
50
4
che vale per una combinazione lineare di v.a. X() e Y () tra loro correlate.
3.3
3.3.1
Trasformate della densit`

a di probabilit`
a
Funzione caratteristica
La funzione caratteristica X (u) : IR C di una variabile aleatoria X() è la

trasformata di Fourier (a meno del fattore 1/2) della sua densità di probabilità
fX (x):
Z
X (u) = E{eiuX } =
eiux fX (x)dx.
(3.23)
Per la definizione di momento di una v.a., essa rappresenta il valor medio della
funzione complessa
g(X) = eiuX = cos(uX) + i sin(uX)
84
della v.a. X(), per cui si può anche scrivere:

X (u) = E{cos(uX)} + i E{sin(uX)}.
La definizione (3.23) è valida per qualsiasi variabile aleatoria: continua, discreta o
mista. Se però la v.a. è discreta e assume valori in xk con probabilità pk , la sua
funzione caratteristica può anche essere espressa nella forma equivalente:
X (u) =
eiuxk pk =
cos(uxk )pk + i
sin(uxk )pk .
(3.230 )
Le principali proprietà di X (u) sono le seguenti.

1. Dalla sua definizione (3.23) si deduce subito che X (0) = 1.
2. |X (u)| 1, dove il segno di uguaglianza vale, salvo casi eccezionali, solo per
u = 0.
Dimostrazione: tenuto conto che |eiux | = [cos2 (ux) + sin2 (ux)]1/2 = 1, si ricava:
Z
Z
Z
iux
iux
|X (u)| =
e fX (x)dx
|e |fX (x)dx =
fX (x)dx = 1.
3. Se Y () è una funzione lineare Y = aX + b della variabile casuale X() che ha

funzione caratteristica X (u), allora:
Y (u) = eiub X (au).
Dimostrazione: basta osservare che si può scrivere
Y (u) = E{eiuY } = E{eiu(aX+b) } = E{eiuaX eiub } = eiub E{eiuaX }
e per la (3.23) è appunto: E{eiuaX } = X (au).
4. Se X1 , X2 sono v.a. statisticamente indipendenti e hanno rispettivamente funzioni
caratteristiche 1 (u) e 2 (u), allora la funzione caratteristica della loro somma Y =
X1 + X2 è uguale al prodotto delle rispettive funzioni caratteristiche:
Y (u) = X1 +X2 (u) = 1 (u) 2 (u).
Dimostrazione: poichè per la (3.12) la densità mista f12 (x1 , x2 ) di due v.a. indipendenti è uguale al prodotto delle rispettive densità marginali, si ha:
X1 +X2 (u) = E{eiu(X1 +X2 ) } =
=
eiu(X1 +X2 ) f12 (x1 , x2 ) =
eiuX1 f1 (x1 )dx1
eiuX2 )f2 (x2 )dx2 = 1 (u)2 (u).

a di probabilit`
a
85
5. Una funzione caratteristica X (u) è legata ai momenti della variabile casuale

X() da una relazione assai importante che è spesso utile nelle applicazioni. Questa
sua proprietà, che riportiamo senza dimostrazione, si può enunciare come segue.
Se esiste, finito, il momento E{X q } di ordine q della variabile casuale X(), allora
esiste, ed è continua, la derivata di ordine q della sua funzione caratteristica:
(q)
X (u)
(ix)q eiux fX (x)dx
la quale per u = 0 vale:

(q)
X (0) = iq E{X q }.
Se esiste
Se esiste
(r)
X (0)
(r)
X (0)
(3.24)
con r pari, allora esiste finito il momento E{X r } e vale la (3.24).

ed r è dispari, allora esiste E{X (r1) }.
Ne segue anzitutto che la (3.24) permette il calcolo dei momenti di ordine pari di
X(), che si possono ottenere per derivazione della sua funzione caratteristica. Se
poi X (u) ammette uno sviluppo in serie di Mc Laurin, allora per la (3.24) si ricava
anche:
X (u) =
X
uq (q)
q=0
q!
X (0) =
X
(iu)q
q=0
q!
E{X q }
(3.25)
che può essere utilizzata per la determinazione di X (u) qualora non si conosca la
densità ma siano noti, ed esistano finiti, tutti i momenti della variabile aleatoria.
6. Dalla teoria delle trasformate di Fourier si ha che, sotto la condizione di assoluta
integrabilità della funzione caratteristica, vale la formula di inversione:
1
fX (x) =
2
eiux X (u)du
(3.26)
la quale permette di determinare fX (x) se è nota la funzione caratteristica X (u).

Combinandola con la (3.25), la formula di inversione permette anche di calcolare la
densità di probabilità di una variabile aleatoria, a partire dalla conoscenza di tutti i
suoi momenti (supposto che esistano finiti).
7. La definizione (3.23) si estende senza difficoltà al caso di variabili aleatorie multidimensionali. Precisamente, data la v.a. vettoriale X = {X1 , . . . , Xn } con densità
fx (x1 , . . . , xn ), la sua funzione caratteristica x (u1 , .., un ) : IRn C è la funzione di
n variabili:
x (u1 , .., un ) = E{ei(u1 X1 +...+un Xn ) } =
=
ei(u1 X1 +...+un Xn ) fx (x1 , . . . , xn )dx1 . . . .dxn .
86
In particolare, per n = 2 la funzione caratteristica è la trasformata di Fourier della

densità mista delle due componenti di X = {X1 , X2 }, e se queste sono statisticamente indipendenti vale la relazione:
x (u1 , u2 ) = x1 (u1 )x2 (u2 ).
Anche la formula di inversione si estende facilmente al caso multidimensionale; per
esempio, per n = 2 si ha:
fx (x1 , x2 ) =
1
4 2
Z Z

exp[i(u1 x1 + u2 x2 )]x (u1 , u2 )du1 du2 .
Esempio 3.5
Si conoscono i momenti di una v.a. X() che è definita nellintervallo [0,1], ma di

cui non si conosce la densità. Questi momenti valgono:
q = 1, 2, . . . : E{X q } = 1/(q + 1).
Si vuole determinare la distribuzione e la funzione di densità di X(). Per la (3.25)
la funzione caratteristica di X() è data da
X
(iu)s1
1 X
(iu)s
(iu)q
=
=
.
X (u) =
q!(q + 1) s=1 s!
iu s=1 s!
q=0
Me se si tiene conto dello sviluppo in serie della funzione esponenziale:

ex =
X
xs
s=0
s!
=1+
X
xs
s=1
s!
si ottiene:
eiu 1
sin u
cos u 1
=
i
.
iu
u
u
La funzione trovata è la trasformata di Fourier della funzione:
X (u) =
fX (x) =
1 se x [0, 1]
0 altrove
come si può facilmente verificare sostituendola nella definizione (3.23). Infatti

Z 1
0
1 eiux dx =
1 h iux i1 eiu 1
e
=
= X (u).
0
iu
iu
Pertanto, X() è uniformemente distribuita nellintervallo [0, 1].

Esempio 3.6

a di probabilit`
a
87
La variabile casuale discreta X() con densità di probabilità

1
1
FX (x) = (x 1) + (x + 1)
2
2
assume valori per x = 1 con probabilità p(1) = 1/2 (v. Fig. 3.7a). Applichiamo
la (3.23) per calcolarne la funzione caratteristica, sostituendo ad xk (con k = 1, 2)
i valori 1 e le corrispondenti probabilità pk = 1/2. Si ottiene subito:
X (u) =
1 iu
1
e + eiu = [(cos u + i sin u) + (cos u i sin u)] = cos u.
2
2
-1 0
(u)
f X (x)
(u)
-a
-1
c
X
(u)
a/2
(u)
f X (x)
f X (x)
Figura 3.7 - Funzioni caratteristiche e loro antitrasformate di Fourier
Esempio 3.7
Calcoliamo la funzione caratteristica di una v.a. uniformemente distribuita nellintervallo a x a, che ha densità
fX (x) =
1/2a, per |x| a

0
altrove.
(3.27)
Per la definizione (3.23) si ha:

Z a
"
1
1 eiux
X (u) =
eiux dx =
2a
2a iu
a
#a
=
a
eiua eiua
2i sin(ua)
sin(ua)
=
=
2iua
2iua
ua
il cui grafico, insieme a quello di fX (x), è mostrato in Fig. 3.7b).
88
Esistono tutti i momenti E{X q } della densità uniforme (2.18): per la definizione
(2.13) quelli di ordine dispari sono tutti nulli, e quelli di ordine pari valgono:
E{X 2k } =
k = 1, 2, . . . :
Z a
x2k
1
1
dx =
2a
a
Z a
0
a2k
.
2k + 1
x2k dx =
La loro conoscenza permette di sfruttare unaltra via per la determinazione della

funzione caratteristica: infatti se si applica la (3.25) anzichè la definizione (3.23) si
ritrova:
X (u) =
X
(iu)2k
k=0
2k+1
X
a2k
1 X
(ua)2k+1
sin(ua)
2k (ua)
=
i
=
(1)k
=
(2k)! 2k + 1 k=0 ua(2k + 1)!
ua k=0
(2k + 1)!
ua
poichè lultima sommatoria è lo sviluppo in serie della funzione sin(ua).

Esempio 3.8
Calcoliamo ancora la funzione caratteristica della v.a. con densità

a
con a > 0, x IR
fX (x) = ea|x|
2
mostrata in Fig. 3.7c). Dalla definizione (3.23) si ricava:
X (u) =
"
a
2
Z 0
eiux eax dx +
a ex(iu+a)
=
2 iu + a
#0
"
a
2
Z
0
eiux eax dx =
a ex(iua)
+
2 iu a
=
0
a
2
1
1
iu + a iu a
a2
.
a2 + u2
Esempio 3.9
Calcoliamo infine la funzione caratteristica di una variabile casuale X() che ha

legge normale N (, 2 ), applicando ancora la (3.23). Conviene anzitutto introdurre
la variabile ausiliaria Y = X che è anchessa normale, ma con media nulla e
la stessa varianza 2 . Per la proprietà 3) la funzione caratteristica di X è legata a
quella di Y dalla relazione
X (u) = E{eiu(Y +) } = eiu Y (u).
(3.28)
Determiniamo ora questultima:

1
Y (u) =
2
"
iuy
y2
1
exp 2 dy =
2
2
Lultimo integrale si calcola con la formula:

Z
ey(py+q) dy =
q2 /2p
e
p
y
exp y
iu
2 2
dove p =
1
,
2 2
q = iu
dy.

a di probabilit`
a
e fornisce
89
u2 2
Y (u) = exp
2
Dalla (3.28) si deduce quindi la funzione caratteristica di X() N (, 2 ), che è la

seguente funzione complessa:
u2 2
X (u) = exp iu
2
Si noti, come caso particolare, che se X() è normale standard ( = 0, = 1) la sua

funzione caratteristica, mostrata in Fig. 3.7d), è la funzione esponenziale gaussiana
con valori reali:
X() N (0, 1) :
3.3.2
2 /2
X (u) = eu
(0, 1].
Funzione generatrice dei momenti
La funzione generatrice dei momenti X (u) : IR IR di una variabile casuale X()

è la trasformata di Laplace della sua densità di probabilità fX (x):
X (u) = E{euX } =
eux fX (x)
(3.27)
ed esiste se lintegrale che la definisce è finito in un intorno di u = 0. Le sue principali

proprietà, in parte simili a quelle della funzione caratteristica, sono le seguenti.
1. X (0) = 1.
2. Se Y () è una funzione lineare Y = aX + b della v.a. X(), dotata di funzione
generatrice dei momenti X (u), allora:
Y (u) = eub X (au).
3. Se X1 , X2 sono v.a. statisticamente indipendenti con funzioni generatrici 1 (u) e
2 (u), allora la funzione generatrice dei momenti della loro somma Y () = X1 + X2
è il prodotto delle rispettive funzioni generatrici:
Y (u) = x1 +x2 (u) = 1 (u) 2 (u).
4. Se la v.a. X() ha funzione generatrice dei momenti in un intorno |u| uo di
u = 0, allora i suoi momenti E{X q } esistono finiti, e sono uguali alla derivata di
ordine q di X (u) calcolata nellorigine:
(q)
X (0) = E{xq }.
(3.28)
90
Inoltre, nellintorno |u| uo la funzione generatrice dei momenti ammette lo sviluppo

in serie:
X
X
uq (q)
uq
X (0) =
E{X q }.
(3.29)
X (u) =
q!
q!
q=0
q=0
Si noti che, a differenza della funzione caratteristica X (u), lesistenza di X (u)
garantisce lesistenza di tutti i momenti di X(), i quali sono calcolabili utilizzando
le formule precedenti che non coinvolgono lunità immaginaria.
Esempio 3.10
La funzione generatrice dei momenti di una v.a. X() con distribuzione esponenziale
fX (x) = ex , > 0, x IR+ vale
X (u) =
Z
0
eux ex dx =
Z
0
e(u)x dx =
h (u)x i
e
=
0
u
u
ed è mostrata in Fig. 3.8. Lesistenza di X (u) finita in un intorno |u| uo < di

u = 0 garantisce lesistenza dei momenti di fX (x). Utilizzando la (3.28), si possono
calcolare questi momenti verificando un risultato già ottenuto per altra via nel 2.3.4.
m ( u)
X
f (x)
X
Figura 3.8 Generatrice dei momenti di una distribuzione esponenziale
Infatti:
q = 1, 2, 3, . . . :
(q)
X (u)
dq
= q
du
e queste derivate, calcolate per u = 0, forniscono:

(q)
X (0) = E{X q } =
q!
.
q
q!
( u)q+1
91
Al contrario, a partire dalla conoscenza dei momenti si può determinare univocamente la legge di X(). Infatti, è soddisfatta la condizione (2.17) per lunicità di
fX (x):
k 2q
(2q)! k 2q
E{X }
= 2q
=
(2q)!
(2q)!
2q
2q
k
per q +, 0 < k < .
La serie (3.29) determina la funzione generatrice dei momenti:
X
uq
q=0
X
u
q!
q =
q!
q=0
=
= X (u)
1 u/
u
perchè la serie geometrica di ragione u/ converge per |u| < . Una volta ricavata
X (u), da questa si ottiene, con una antitrasformata, la densità esponenziale fX (x).
3.4
Problemi risolti
3.1. La variabile aleatoria Z = 3X Y con X e Y non correlate ha varianza

2 2 . Vero o falso?
Z2 = 9X
Y
2 + 2 .
Risposta: E Falso perche Z2 = 9X
Y
3.2. Una coppia di variabili aleatorie discrete X, Y con valori xi = 0, 1 e yj = 0, 1, 2

ha probabilità congiunte Pij che valgono:
P00 = P02 = 1/12;
P01 = P10 = P11 = 1/6;
P12 = 1/3.
Determinare: le densità marginali, i loro valori medi e la covarianza della coppia.

Soluzione:
fX (0) =
2
X
P0j = 1/12+1/6+1/12 = 1/3
fX (1) =
j=0
fY (0) =
fY (2) =
2
X
P1j = 1/6+1/6+1/3 = 2/3
j=0
1
X
i=0
1
X
Pi0 = 1/12 + 1/6 = 1/4
fY (1) =
1
X
Pi1 = 1/6 + 1/6 = 1/3
i=0
Pi2 = 1/12 + 1/3 = 5/12
i=0
E{X} = 1 (2/3) = 2/3
E{Y } = 1 (1/3) + 2 (5/12) = 7/6
92
sxy =
1 X
2
X
Pij xi yj E{X}E{Y } = 1/6+(1/3)2(2/3)(7/6) = 5/67/9 = 1/18
i=0 j=0
3.3. Una coppia (X, Y ) di variabili aleatorie ha densità congiunta

f (x, y) = 8xy,
0 x 1; 0 y x
e nulla altrove. a) Determinare le densità marginali di X e Y ; b) dire se sono statisticamente indipendenti giustificando la risposta; c) calcolare il momento congiunto
E{XY }.
Soluzione.
a) Il supporto della densità congiunta è il triangolo del piano (x, y) delimitato dalle
rette y = x; y = 0 e x = 1. La densità marginale di X si ottiene integrando f (x, y)
rispetto ad y sullintervallo Dy (x) = [0, x] ; quella di Y integrando f (x, y) rispetto
ad x sullintervallo Dx (y) = [y, 1] :
fX (x) = 8x
fY (y) = 8y
Z x
0
Z 1
y
ydy = 4x3 ,
0x1
xdx = 4y(1 y 2 ) ,
0 y 1.
b) X e Y non sono indipendenti perche

fX (x)fY (y) = 16x3 y(1 y 2 ) 6= f (x, y).
c) Il momento congiunto vale
Z Z
E{XY } =
xyf (x, y)dxdy = 8
Z 1
0
x dx
Z x
0
8
y dy =
3
2
Z 1
0
x5 dx =
4
.
9
3.4. Calcolare la covarianza della coppia (X, Y ) di variabili casuali discrete che
hanno valori xi = 0, 1 e 2 ed yj = 0 e 2 con probabilità congiunte P00 = P20 = P22 =
1/6; P10 = 1/3; P02 = P12 = 1/12.
Soluzione. Occorre dapprima calcolare le densità marginali e i valori medi di X e
Y:
fX (0) =
2
X
j=0
fX (2) =
2
X
j=0
P0j
1 1
1
= + = ,
6 2
4
P2j =
1 1
1
+ =
6 6
3
fX (1) =
2
X
j=0
P1j =
1
1
5
+
=
3 12
12
fY (0) =
2
X
i=0
E{X} =
Pi0 =
93
1 1 1
2
+ + = ,
6 3 6
3
1
13
5
+2 =
,
12
3
12
fY (2) =
2
X
i=0
Pi2 =
1
1
1
1
+
+ =
12 12 6
3
1
2
E{Y } = 2 =
3
3
da cui si ottiene:
sxy =
2 X
2
X
i=0 j=0
Pij xi yj E{X}E{Y } = 2
1 13 2
5 13
1
1
+4
=
==
12
6 12 3
6 18
9
94
3.5. Date due variabili aleatorie X, Y e due costanti non nulle a, b, vale lidentit`
a:
Cov(aX, bY ) = (a + b)Cov(X, Y ). Vero o Falso, e perchè ?
Risposta: è Falso , perchè vale a b Cov(X, Y ).
3.6. X e Y sono due variabili aleatorie indipendenti aventi distribuzione di Poisson
con parametri rispettivamente X = 2 e Y = 3. Calcolare la probabilità IP[(X
1) (Y 1)] e il momento E{XY }.
Soluzione. Le densità di probabilità marginali di X e Y sono:
fX (x) = e2
k
X
2
k=0
k!
fY (y) = e3
(x k) ;
X
3h
h=0
h!
(y h)
dove () sono funzioni impulsive nei punti xi , yj = 0, 1, 2, . . .

Poiche X e Y sono indipendenti, la loro densità congiunta è il prodotto delle densità
marginali, e cos` per la loro funzione di distribuzione congiunta che vale:
F (x, y) = FX (x)FY (y) = e5
X
i j
X
23
i=0 j=0
i!j!
U (x xi )U (y yj )
dove U () è la funzione a gradino unitario nei punti xi e yj . La probabilità richiesta

è uguale a F (1, 1) e perciò vale:
IP[(X 1) (Y 1)] = e5
1 X
1
X
2i 3j
i=0 j=0
= e
i!j!
20 30 20 3 2 30 2 3
+
+
+
0!0!
0!1!
1!0!
1!1!
= 12e5 ' 0.0808 .
I valori medi marginali coincidono con i ripettivi parametri di Poisson X , Y , e

sempre per la loro indipendenza statistica si ricava subito che
E{XY } = mX mY = 2 3 = 6 .
3.7. Due variabili aleatorie X, Y sono distribuite con legge normale, rispettivamente
N (2, 2) e N (1, 4) e hanno momento congiunto E{XY } = 0.6. Calcolare il loro
coefficiente di correlazione.
Soluzione. La covarianza della coppia è
sxy = E{XY } mX mY = 0.6 + 1 2 = 6.2
e quindi il coefficiente di correlazione vale
(X, Y ) =
sxy
2.6
= ' 0.9192 .
X Y
2 2
TRASFORMAZIONI DI
VARIABILI ALEATORIE
4.1
Generalit`
a
Si presenta di frequente il problema di determinare le proprietà statistiche di una

variabile casuale Y () che è il risultato della trasformazione subita da un altra
variabile casuale X() con distribuzione nota. Ad esempio, Y () può essere luscita
di un sistema con caratteristica di funzionamento nota ed espressa matematicamente
dalla funzione di variabile reale g(x), al quale sia stato applicato un ingresso casuale
X() secondo lo schema indicato in Fig. 4.1. La variabile casuale X() associa
ad ogni evento di un esperimento casuale il numero reale x Dx , realizzazione
dellingresso aleatorio. Questo ingresso è trasformato dal sistema secondo la legge
deterministica g(x), ed in uscita si presenta nella forma y = g(x). Dunque la funzione
g(x), definita in Dx , fa corrispondere allevento il numero reale y DY , generica
realizzazione della funzione di variabile aleatoria:
Y () = g[X()].
(4.1)
Laleatorietà di Y () può anche essere dovuta a disturbi aleatori nella trasformazione

di un ingresso deterministico X, oppure ad imperfezioni nelle componenti costitutive del sistema stesso. In tal caso, il modello prababilistico della funzione di
trasferimento che caratterizza il sistema è del tipo: g((); x) dove () è una
variabile casuale reale con statistica nota, e luscita del sistema sarà la funzione
Y (; x) = g[(); x] della variabile casuale (), che è ora definita da una trasformazione in cui x ha il ruolo di un parametro deterministico.
Le due forme di aleatorietà possono anche essere presenti simultaneamente. Si consideri un ingresso aleatorio X() che è trasformato da un sistema con caratteristica
di funzionamento g(x, ()). Luscita Y () sarà allora aleatoria per leffetto combinato di X() e di (), ossia una funzione di due variabili casuali:
Y () = g[Z()],
Z() = {X(), ()} : IR2

95
96
TRASFORMAZIONI DI VARIABILI ALEATORIE
g(x)
W
X( w)
g(x)
Y( w)
Y( w)
w
X( w)
x
Figura 4.1
che sono le componenti di un vettore aleatorio bidimensionale con statistica che si

suppone conosciuta.
Generalizzando la formulazione di queste trasformazioni a sistemi pi`
u complessi,
si può infine definire un vettore aleatorio m-dimensionale Y() = g[Z()], che con
legge definita dalla funzione vettoriale g si può esprimere come funzione di un vettore
aleatorio n-dimensionale Z() avente densità di probabilità nota.
Nel paragrafo che segue studieremo anzitutto la trasformazione (4.1), e mostreremo
come si determina la legge probabilistica della funzione di variabile casuale Y (), se
sono note: la funzione caratteristica g(x) e la densità di probabilità fX (x) dellingresso aleatorio.
4.2
Funzioni di una variabile casuale
4.2.1
Calcolo della funzione di distribuzione
Un metodo generale per ottenere la statistica della funzione di variabile casuale

definita nella (4.1), per il quale non si richiedono ipotesi restrittive sulla funzione
caratteristica g(x), consiste nel determinare la sua funzione di distribuzione FY (y)
mediante una opportuna integrazione della densità in ingresso fX (x), che per ipotesi
è nota e definita sul supporto Dx . Per la definizione di funzione di distribuzione di
una variabile casuale, e tenuto conto della (4.1), si ha:
FY (y) = P (Y y) = P [g(X) y].
Se ora indichiamo con Ex (y) = {x Dx : g(x) y} linsieme dei valori di x
appartenenti a Dx e tali da verificare la condizione: g(x) y, si può dire che
P [g(X) y] è la probabilità che X() assuma valori in Ex (y). Dunque, per la
4.2 Funzioni di una variabile casuale
97
definizione di densità di probabilità risulta

Z
FY (y) = P [X Ex (y)] =
Ex (y)
fX (x)dx.
(4.2)
g(x)
fY (y)
-y
f X (x)
g(x)
f Y (y)
y
b
f X (x)
y
f Y (0)
0
Figura 4.2 - Casi
a,b
La densità di probabilità fY (y) si ottiene quindi, come ci è noto, per derivazione:

fY (y) = dF (y)/dy.
Esempio 4.1: dispositivi elettronici
a) Un dispositivo raddrizzatore a doppia semionda con funzione di trasferimento:

g(x) = |x| è sottoposto a un ingresso aleatorio X() con distribuzione normale
N (1, 1/2). Per valutare la funzione di distribuzione FY (y) in uscita, osserviamo che
Ex (y) =
{x IR : |x| < y} = [y, y], se y > 0,

0
se y 0.
Pertanto la (4.2) fornisce:

FY (y) =
dove
Z y
y
fX (x)dx = FX (y) FX (y),
1
2
fX (x) = e(x1) ,
y>0
FX (x) = 1/2 + erf [ 2(x 1)]
sono la densità e la funzione di distribuzione dellingresso normale con media 1 e

varianza 1/2. Per y 0 si ha invece FY (y) = 0.
98
La densità in uscita si ricava per derivazione:

fY (y) =
i
dFX (y) dFX (y)
1 h
2
2
= fX (y) + fX (y) = e(y1) + e(y+1)

dy
dy
se y > 0, mentre fY (y) = 0 per y 0. Il dispositivo trasforma i segnali negativi

restituendoli, con una eguale misura di probabilità, in valori positivi nel segnale di
uscita (v. Fig. 4.2a).
b) Il raddrizzatore a semionda con caratteristica:
x + |x|
g(x) =
=
2
x se x 0,
0 se x < 0
e ingresso con la medesima legge normale N (1, 12 ), sopprime invece i segnali negativi
e trasmette inalterati quelli positivi. Infatti il dominio di integrazione nella (4.2)
vale:
y<0:
Ex (y) = 0
y0:
Ex (y) = (, y]
FY (y) = 0
=
FY (y) =
Z y
fX (x)dx = FX (y).
Dunque FY (y) ha una discontinuità per y = 0, e si può scrivere

FY (y) = FX (y)U (y)
dove U (y) è la funzione a gradino unitario in y = 0. Per derivazione rispetto ad y
otteniamo quindi la seguente densità:
fY (y) = fX (y)U (y) + FX (0)(y)
che è illustrata in Fig. 4.2b). Luscita del dispositivo è dunque una variabile casuale
mista, perche dotata di una distribuzione continua in [0, +) che riproduce il segnale
di ingresso in tale intervallo, alla quale si aggiunge limpulso FX (0) per y = 0. Si
osservi che lentità di tale impulso è uguale alla misura di probabilità da attribuire
allinsieme dei segnali negativi che sono stati soppressi.
c) Il dispositivo con caratteristica
g(x) =
1, x 0
1,
x>0
che ha un ingresso aleatorio con distribuzione normale N (1, 1), lo trasforma in una
variabile casuale discreta con valori 1. Infatti la funzione di distribuzione in uscita
FY (y) si determina come segue:
y < 1 :
Ex (y) = 0
FY (y) = 0
1 y < 1 :
Ex (y) = (, 0]
y1:
Ex (y) = IR
99
Z 0
FY (y) =
FY (y) =
Z +
fX (x)dx = FX (0)
fX (x)dx = 1.
Dunque FY (y) è la funzione costante a tratti:

FY (y) = FX (0)U (y + 1) + [1 FX (0)]U (y 1)
g(x)
1
fY (y)
f X (x)
-1
0
-1
g(x)
1
F (x)
X
-1
0
f Y (y)
FY (y)
f X (x)
-1
-1
Figura 4.2 - Casi
c,d
dove FX (0) è la funzione di distribuzione della normale in ingresso, calcolata per

x = 0:
FX (0) = 0.5 + erf[(0 mx )/] = 0.5 erf(1) ' 0.16.
La distribuzione in uscita ha pertanto due gradini, di altezza rispettivamente 0.16
per y = 1 ed 1 0.16 = 0.84 per y = 1. Per derivazione rispetto ad y si ricava
subito la densità in uscita:
fY (y) = FX (0)(y + 1) + [1 FX (0)](y 1)
che è quella di una v.a. discreta (v. Fig. 4.2c) che assume valori 1 con probabilità
p(1) = 0.84 e p(1) = 0.16.
d) Un ingresso normale standard N (0, 1) è applicato a un limitatore di segnale la
cui caratteristica:
x < 1
1,
1 x 1
g(x) = x,
+1,
x>1
100
è mostrata in Fig. 4.2d). Calcoliamo la distribuzione in uscita FY (y) suddividendo

DY = IR in tre intervalli:
y < 1 :
1 y < 1 :
y1:
Ex (y) = 0
FY (y) = 0
Ex (y) = (, y]
Ex (y) = IR
FY (y) =
Z y
FY (y) =
Z +
fX (x)dx = FX (y)
fX (x)dx = 1.
Pertanto FY (y) è la funzione

FY (y) = FX (y)U (y + 1) + [1 FX (y)]U (y 1),
dove FX (y) = 0.5+ erf(y) è la distribuzione normale in ingresso, calcolata per x = y.
Nellintervallo 1 y < +1 la distribuzione in uscita riproduce quella in ingresso
ed ha due discontinuità agli estremi di questo intervallo, con gradini di ampiezza
FX (1) = 0.5 + erf(1) = 0.1587 (v. Fig. 4.2d).
Per derivazione di FY (y) che in questo caso deve essere effettuata derivando opportunamente i prodotti di due funzioni di y si ottiene la seguente densità di
probabilità:
fY (y) = fX (y)U (y + 1) + FX (1)(y + 1) fX (y)U (y 1)+
+[1 FX (1)](y 1) =
1
1
2
+ erf(1) [(y + 1) + (y 1)].
= ey /2 [U (y + 1) U (y 1)] +
2
2
Questa è una densità mista che ha ancora legge normale standard per y [1, 1],
è nulla allesterno di tale intervallo, e presenta due impulsi uguali per y = 1
di intensità p(1) = 0.1587, che è uguale alla massa di probabilità contenuta in
ciascuna delle due code della distribuzione di ingresso che sono state eliminate
nella risposta del sistema (v. Fig. 4.2d).
4.2.2
Calcolo diretto della densit`

a
Se è nota fX (x) e se g(x) è continua e derivabile in Dx , si può ottenere direttamente

la densità di probabilità fY (y) applicando il seguente
TEOREMA
Se {x(j) (y)}, j = 1, .., N è linsieme numerabile delle radici reali dellequazione
g(x) y = 0
101
nella variabile x, allora la densità di probabilità della variabile casuale Y () definita

dalla (4.1) vale:
N
X
fX (x(j) (y))
fY (y) =
(4.3)
|g 0 (x(j) (y))|
j=1
dove con g 0 (x(j) (y)) si indica la derivata di g, calcolata per x = x(j) (y). Qualora
esistano valori y per cui lequazione: g(x) y = 0 non ammette soluzioni reali, si ha
fY (y) = 0.
g(x)
dy
y
dx 1
dx 2
E x (y)
x(1)
x ( 2)
Figura 4.3
Dimostrazione. Con riferimento alla Fig. 4.3, la probabilità elementare dP che Y ()

assuma valori compresi tra y e y + dy vale
fY (y)dy = P (y < Y y + dy) = P [y < g(X) y + dy] =
= P [x(1) |dx1 | < X x(1) ]+
+P [x(2) < X x(2) + dx2 ] = fX (x(1) )|dx1 | + fX (x(2) )dx2
dove x(1,2) sono le due radici reali che si ricavano dallequazione g(x) y = 0, e
inoltre:
dy
dxj = 0 (j) ,
j = 1, 2
g (x )
sono gli incrementi elementari subiti dalla variabile reale x a seguito di un incremento
positivo dy della variabile dipendente. Pertanto:
(
fY (y)dy =
fX (x(1) )
fX (x(2) )
+
|g 0 (x(1) )| |g 0 (x(2) )|
che, dividendo per dy, dimostra la (4.3) con N = 2.

Esempio 4.2: Caratteristica con legge quadratica
dy
102
Un dispositivo trasforma un ingresso casuale che ha distribuzione uniforme in Dx =

[1, 1], con la legge quadratica:
g(x) = x2 .
Scelto un generico y IR, i valori di x Dx che soddisfano la condizione: x2 y

appartengono al dominio Ex (y) = [ y, y] se 0 y 1, e per la formula (4.2) si
ricava
Z y
FY (y) = fX (x)dx = FX ( y) FX ( y).

y
Se la distribuzione in ingresso è uniforme in 1 x 1, si ha in tale intervallo:

fX (x) = 1/2; FX (x) = (x + 1)/2 e quindi:
y+1 y+1
FY (y) =
= y,
0 y 1.
(4.4)
2
2
g( x)
f ( y)
Y
f X (x )
0.5
E x ( y)
0
- y
-1
Figura 4.4 - Trasformazione con legge quadratica
La densità fY (y) si può calcolare per derivazione, oppure applicando direttamente

la (4.3) come segue. Assegnato y IR, le radici dellequazione g(x) y = x2 y = 0
sono:
x(1) (y) = y;
x(2) (y) = y
e sono reali solo se y 0. Poichè Dx = [1, 1], si hanno due soluzioni distinte per
0 y 1. Dunque il dominio Dy è lintervallo [0, 1] e in esso, tenuto conto che
g 0 (x(1) ) = 2x(1) = 2 y;
g 0 (x(2) ) = 2x(2) = 2 y,
la densità incognita vale:
1
1
fY (y) = [fX ( y) + fX ( y)] =

2 y
2 y
che coincide con la derivata della (4.4).
1 1
+
2 2
1
=
2 y
4.2.3
103
Trasformazioni invertibili
La (4.3) si modifica in una formula assai notevole quando la caratteristica del sistema
è una funzione g(x) che, oltre ad essere continua e derivabile, è anche invertibile in
Dx . In tale ipotesi, lequazione g(x) y = 0 ha al pi`
u una sola radice reale x(1) =
g 1 (y) coincidente con la funzione inversa di g(x). Per il teorema di derivazione
delle funzioni inverse, vale lidentit`
a
1
g 0 (x(1) (y))
dg 1 (y)
dy
che, sostituita nella (4.3) con N = 1, porta alla formula seguente:

fY (y) = fX [x = g
dg 1 (y)
(y)]
.
dy
(4.5)
che prende il nome di Teorema del cambio di variabile.

Anche la determinazione diretta della funzione di distribuzione FY (y) si risolve, nel
caso di trasformazioni invertibili, applicando formule notevoli. Per la loro deduzione
è però necessario distinguere i due casi seguenti.
g(x) invertibile e crescente in Dx : il dominio Ex (y) è lintervallo aperto a sinistra:
Ex (y) = {x Dx : g(x) y} = (, g 1 (y)]
per cui si ricava
FY (y) =
Z g1 (y)
fX (x)dx = FX [g 1 (y)].
(4.6)
g(x) invertibile e decrescente in Dx : il dominio Ex (y) è laperto a destra

Ex (y) = {x Dx : g(x) y} = [g 1 (y), +)
e di conseguenza:
FY (y) =
Z
g 1 (y)
fX (x)dx = 1 FX [g 1 (y)].
(4.60 )
Esempio 4.3: Generazione di numeri casuali
Applicando la teoria delle trasformazioni invertibili, è possibile determinare la caratteristica che deve avere un dispositivo da utilizzare per trasformare un ingresso casuale in una uscita avente prescritte proprietà statistiche. Si assuma che lingresso
sia dotato di densità continua in DX IR. La sua funzione di distribuzione FX (x) è
allora una funzione continua, monotona crescente in IR. Se la funzione caratteristica
104
g(x) del dispositivo in cui è immesso il segnale coincide con FX (x), in uscita si ricava
per la (4.6):
FY (y) =
Z g1 (y)
fX (x)dx = FX [g 1 (y)] = FX [F 1 (y)] = y
con y [0, 1]. Inoltre, si constata subito che per y < 0 è FY (y) = 0, e per y > 1
si ha FY (y) = 1. Dunque, la funzione di distribuzione in uscita è quella di una
variabile casuale con distribuzione uniforme in DY = [0, 1], per cui il dispositivo
genera numeri casuali equiprobabili in tale intervallo.
Inversamente, proponiamoci di generare una uscita casuale continua Y () con una
assegnata funzione di distribuzione FY (y) anchessa, ovviamente, monotona crescente e quindi invertibile in DY IR. Allo scopo, è sufficiente trasformare un
ingresso uniformemente distribuito in DX = [0, 1] con un dispositivo avente caratteristica g(x) = FY1 (x) uguale alla inversa della funzione caratteristica richiesta in
uscita. Infatti per tale trasformazione si ha:
Ex (y) = {x [0, 1] : g 1 (x) < y} = [0, FY (y)].
Quindi, tenuto conto che fX (x) = 1 in [0, 1], la funzione di distribuzione in uscita,
che si calcola ancora con la (4.6), vale:
Z FY (y)
0
1 dx = FY (y)
fX( x )
g( x )
f Y( y )
1
FX ( x )
E ( y)
g( x )
F -1
(y)
X
F -1 ( x )
Y
fX( x )
f Y( y )
E ( y)
X
F ( y)
Y
105
Figura 4.5 - Generazione di numeri casuali
che è la distribuzione desiderata. Ad esempio, per generare numeri casuali distribuiti

con continuità nellintervallo DY = [0, 2] con densità fY (y) = y/2, si calcola anzitutto la corrispondente funzione di distribuzione FY (y) = y 2 /4, e si determina la
caratteristica
g(x) = FY1 (x) = 2 x.

Il dispositivo che trasforma un segnale uniformemente distribuito in [0,1] secondo
la legge g(x) = 2 x ha in uscita segnali casuali con la distribuzione probabilistica

richiesta. Infatti
g
4.2.4
y2
(y) = ;
4
FY (y) =
Z g1 (y)
dx =
y2
;
4
fY (y) =
dFY (y)
y
= .
dy
2
Momenti di Y () = g[X()]
Una volta determinata la densità della funzione di variabile aleatoria, i suoi momenti
di ordine q = 1, 2, . . . si possono calcolare mediante la loro definizione:
Z
q
E{Y } =
DY
y q fY (y)dy.
(4.7)
Tuttavia, qualora non interessi calcolare esplicitamente la densità fY (y) ma solo

alcuni suoi momenti, è possibile determinarli direttamente utilizzando la conoscenza
della densità del segnale di ingresso. A tal fine si utilizza la formula seguente:
Z
q
E{Y } =
Dx
g q (x)fX (x)dx
(4.8)
che definisce il momento di ordine q di una generica funzione g della variabile casuale
dotata di densità fX (x). Si può facilmente dimostrare la (4.8) nellipotesi che g(x)
sia invertibile. Infatti, utilizzando infatti la (4.5) e integrando per sostituzione si ha:
dg 1 (y)
E{Y q }) =
y q fY (y)dy =
y q fX (x = g 1 (y))
dy =
dy
Dy
Dy
Z
Z
dg 1 dy

q
g q (x)fX (x)dx.
=
g (x)fX (x)
dx =
dy
dx
Dx
Dx
Z
In particolare, il valor medio mY si può calcolare come segue:

Z
mY = E{Y } =
DX
g(x)fX (x)dx
e la varianza con la nota formula:

Y2 = E{Y 2 } m2Y
(4.9)
106
dove il momento di ordine q = 2 è dato da

Z
E{Y 2 } =
4.2.5
Dx
g 2 (x)fX (x)dx.
Trasformazioni lineari
Un sistema lineare opera la trasformazione dellingresso X() con legge: g(x) =

ax + b dove a, b IR sono costanti ed a 6= 0. Si tratta dunque di una particolare
trasformazione invertibile in DX (, +), in cui
g 1 (y) =
dg 1 (y)
1
= = cost.
dy
a
yb
;
a
Per la (4.5) la densità di probabilità in uscita vale:
fY (y) = fX
yb
x=
a
1
|a|
(4.10)
e, a meno di un fattore costante, ha la medesima legge probabilistica dellingresso

X(). Questo risultato mostra una rilevante proprietà dei sistemi lineari: essi non
alterano la legge probabilistica del segnale di ingresso: Se ad esempio X() è un
segnale gaussiano, essi restituiscono in uscita un segnale che è ancora gaussiano,
sebbene con momenti diversi.
Il valor medio del segnale di uscita da un sistema lineare vale, per la (4.9):
Z
mY =
Dx
(ax + b)fX (x)dx = a mX + b
ed è perciò calcolabile immediatamente, come funzione lineare del valor medio mX

della variabile aleatoria di ingresso. Il momento del secondo ordine risulta:
Z
E{Y 2 } =
DX
(a2 x2 + 2abx + b2 )fX (x)dx = a2 E{X 2 } + 2abmX + b2 ,
per cui la varianza di Y () vale:

2
Y2 = E{Y 2 } m2Y = a2 [E{X 2 } m2X ] = a2 X
.
(4.11)
Essa è uguale alla varianza del segnale di ingresso nel sistema lineare, moltiplicata
per a2 .
Esempio 4.4: Distribuzione parabolica in [a, b].
Si è visto nel 2.3.12 che la distribuzione parabolica sul supporto {x [0, 1]} è una
particolare distribuzione Beta con densità fX (x) = 6x(1 x). Per determinare una
107
densità di probabilità parabolica FY (y) su un supporto limitato generico [a, b], è

sufficiente operare la trasformazione lineare:
y = g(x) = a + (b a)x,
y [a, b]
la cui inversa vale

x = g 1 (y) =
dg 1 (y)
1
=
.
dy
ba
ya
,
ba
Applichiamo quindi la (4.10) per ottenere:
fY (y) =
f [x = g 1 (y)]
0
altrove.
1
6
=
(y a)(b y), y [a, b]
|b a|
(b a)3
f d (d)
v
q
0
Dd
3A
2
Figura 4.6 - Moto aleatorio di un grave
Esempio 4.5: traiettoria di un grave
Si consideri la traiettoria parabolica di un grave, lanciato (in assenza di resistenza

dellaria) con una velocità iniziale v nella direzione individuata dallangolo indicato
in Fig. 4.6. Se () è una variabile aleatoria uniformemente distribuita in D =
[/6, /3], la distanza d del punto di caduta è la funzione di variabile aleatoria
d() = g[()] = A sin 2()
con A = v 2 /g, dove g è laccelerazione di gravit`
a. Poiche g() non è invertibile in
D , cerchiamo le radici dellequazione: A sin 2 d = 0 appartenenti a D . Esse
sono:
1
d
1
d
(1) (d) = arcsin ;
(2) (d) = arcsin
2
A
2 2
A
108
e sono reali, non coincidenti, se
3A/2 d < A. In tale intervallo si ha

p
g 0 ((1) ) = 2A cos 2(1) = 2 A2 d2 ;
g 0 ((2) ) = g 0 ((1) )
e quindi, per la (4.3):

1
fd (d) =
[f ((1) (d)) + f ((2) (d))].
2
2 A d2
Poiche f () = 6/ = cost, si ottiene
6
fd (d) =
,
A2 d2
3
d<A
A
per
mentre fd (d) = 0 al di fuori di tale intervallo. Il valor medio di d() si calcola

agevolmente applicando la (4.9):
md =
Z /3
/6
A sin 2
3A
6
d =
e per la sua varianza si ottiene:

d2 = E{d2 } m2d =
4.3
6A2
Z /3
sin2 2d m2d =
!
!
3 3
9
3A2
3
2
2 1
+
md = A
+
2 .
=
2 3
2
2
4
/6
Funzioni di due o pi`

u variabili casuali
Supponiamo ora che Y () sia il risultato della trasformazione g(x1 , x2 , . . . , xn ) subita

da n variabili casuali X1 (), X2 (), . . . , Xn () di cui si conosce la densità di probabilità congiunta f (x1 , x2 , . . . , xn ), definita in DX IRn . La funzione di distribuzione
di
Y () = g[X1 (), X2 (), . . . , Xn ()]
si calcola con una facile estensione della formula (4.2). Precisamente, definito il
dominio
EX (y) = {(x1 , x2 , . . . , xn ) DX : g(x1 , x2 , . . . , xn ) y},
si ha ora:
FY (y) = P (Y y) = P [g(X1 , .., Xn ) y] =
Z
EX (y)
f (x1 , .., xn )dx1 dxn .
(4.12)
La densità di probabilità di Y () si ottiene poi come derivata della funzione di distribuzione calcolata con la (4.12), e in casi particolari si può anche determinare

u variabili casuali
109
direttamente dalle densità marginali di X1 (), . . . , Xn (), come mostra lEsempio

che segue.
Anche per i momenti di Y () vale una formula analoga alla (4.8). Infatti, se sono
note g(x1 , . . . , xn ) e la densità congiunta f (x1 , . . . , xn ), essi si possono determinare
calcolando lintegrale
Z
E{Y q } =
DX
g q (x1 , . . . , xn )f (x1 , . . . , xn )dx1 dxn .
(4.13)
110
Esempio 4.6: somma di due variabili casuali
Consideriamo la funzione somma:

Y () = X1 () + X2 ()
di due variabili aleatorie con densità mista nota e definita in D12 = IR2 . Il dominio
di integrazione nella (4.12) è il semipiano:
E12 (y) = {(x1 , x2 ) IR2 : < x1 y x2 ; < x2 < +}
x2
y = x1 + x 2
E (y)
12
x1
Figura 4.7
indicato in Fig. 4.7. Si ricava allora:

FY (y) =
Z +
dx2
Z yx2
f (x1 , x2 )dx1
(4.14)
e derivando rispetto ad y:
fY (y) =
Z +
f (y x2 , x2 )dx2 .
(4.15)
Un caso notevole si ha nellipotesi che X1 () e X2 () siano statisticamente indipendenti, con densità che indichiamo con f1 (x1 ) e f2 (x2 ) in IR. Poichè la loro densità
congiunta è uguale al prodotto di queste due densità marginali, le (4.13) e (4.14)
diventano:
Z
Z
FY (y) =
fY (y) =
Z +
f2 (x2 )dx2
yx2
f1 (x1 )dx1
f1 (y x2 )f2 (x2 )dx2 = f1 (y) f2 (y)
(4.130 )
(4.140 )
dove lasterisco indica il prodotto di convoluzione delle densità f1 (x1 ), f2 (x2 ) e si

può anche scrivere nella forma equivalente:
f1 (y) f2 (y) =
Z +
f1 (x1 )f2 (y x1 )dx1 .

u variabili casuali
111
La (4.14) esprime il seguente

TEOREMA DI CONVOLUZIONE
Se due variabili casuali sono statisticamente indipendenti, la densità della loro
somma è uguale alla convoluzione delle rispettive densità.
Se in particolare le due densità marginali hanno come supporto IR+ , vale a dire:
f1 (x1 ) = f2 (x2 ) = 0 per x1 , x2 < 0, allora f1 (y x2 ) = 0 per x2 > y, per cui la
(4.14) si può riscrivere nella forma:
fY (y) =
Z
0
f1 (y x2 )f2 (x2 )dx2 =
Z y
0
f1 (y x2 )f2 (x2 )dx2 .
(4.16)
x2
1
y = x1 + x 2
C22
C1
x1
Figura 4.8
Supponiamo ad esempio che le variabili casuali X1 (), X2 () siano indipendenti e

uniformemente distribuite nellintervallo fondamentale [0, 1]. Le loro densità valgono: f1 (x1 ) = f2 (x2 ) = 1 in tale intervallo, e sono nulle altrove. Per determinare
la funzione di distribuzione della loro somma, basta osservare che per la (4.14) essa
è uguale allarea del dominio di integrazione E12 (y) da definirsi come segue (v. Fig.
4.8):
per y < 0
0,
C ,
per 0 y < 1
1
E12 (y) =
C ,
per 1 y < 2
2
[0, 1] [0, 1], per y 2.
Pertanto, indicando con m(Ci ) la misura degli insiemi Ci , si ricava:
0,
per y < 0
m(C1 ) = y 2 /2,
per 0 y < 1
FY (y) =
m(C2 ) = 2y 1 y 2 /2, per 1 y < 2
1,
per y 2
112
e per derivazione nei vari intervalli di DY = [0, 2]:
fY (y) =
y,
per 0 y < 1
2 y, per 1 y < 2.
Dunque la v.a. Y () = X1 () + X2 () somma di distribuzioni uniformi indipendenti, ha la distribuzione triangolare di Fig. 4.9. Essa si poteva anche calcolare
direttamente usando il Teorema di convoluzione. Dalla (4.16), tenuto conto che f1
ed f2 sono nulle al di fuori dellintervallo [0,1], si ricava infatti:
0y<1:
fY (y) =
1y<2:
fY (y) =
=
Z y
Z01
Z 0y
f1 (y x2 ) 1 dx2 =
f1 (y x2 ) 1 dx2 +
y1
f1 (x1 )dx1 =
Z 1
y1
Z y
Z 0y
1
f1 (x1 )dx1 = y
f1 (y x2 )f2 (x2 )dx2 =
dx1 = 2 y.
F Y (y)
1
f Y (y)
Figura 4.9 - Distribuzione triangolare
Il valor medio di Y () vale ovviamente mY = 1, come si verifica subito dal calcolo

dellintegrale:
Z
mY =
D12
(x1 + x2 )f (x1 )f (x2 )dx1 dx2 = E{X1 } + E{X2 } = 1.
Il momento del secondo ordine di Y () vale:

Z
2
E{Y } =
D12
(x1 + x2 )2 f (x1 )f (x2 )dx1 dx2 = E{X12 } + E{X22 } + 2E{X1 X2 }
dove E{X12 } = E{X22 } = 1/3 ed inoltre: E{X1 X2 } = E{X1 }E{X2 } = 1/4, perche
lindipendenza statistica implica una covarianza nulla. Pertanto si ricava:
E{Y 2 } =
2 1
7
+ = ,
3 2
6
Y2 = E{Y 2 } m2Y =
7
1
1=
6
6

u variabili casuali
113
e la varianza di Y () è uguale alla somma delle varianze di X1 () e X2 (), in accordo

con la (3.8) usata per variabili casuali indipendenti.
Somma o differenza di distribuzioni normali indipendenti
Usando il Teorema di convoluzione si può anche dimostrare un risultato notevole
assai utile, per esempio, nei problemi di induzione statistica:
la somma (o differenza) di due v.a. normali e indipendenti è ancora una v.a.
normale, con media uguale alla somma (o differenza) delle medie e varianza uguale
alla somma delle varianze.
Infatti, se X1 , X2 sono indipendenti ed hanno legge normale, rispettivamente con
medie e varianze m1 , m2 e 12 , 22 la loro somma (o differenza) Y = X1 X2 ha una
densità data dalla (4.14):
fY (y) =
Z +
f1 (y x2 )f2 (x2 )dx2 =
1
=
21 2
Z +
"
"
(y x2 m1 )2
(x2 m2 )2
exp
exp
dx2 =
212
222
"
(y m1 )2
m22
"
!#
exp
212
222 Z +
12 + 22
y m1 m2
exp x2
=
dx2 .
x2
2
21 2
212 22
12
2
Lultimo integrale si può calcolare usando la formula:

Z +
ex2 (px2 +q) dx2 =
q2 /4p
e
p
con p =
12 + 22
y m1 m2
, q=
2,
2
2
21 2
12
2
e dopo alcuni ulteriori calcoli si perviene al risultato

"
(y m1 m2 )2
fY (y) = q
exp
2(12 + 22 )
2(12 + 22 )
1
che è appunto una funzione di densità normale, con media mY = m1 m2 e varianza

Y2 = 12 + 22 .
Esempio 4.7: modulo di un vettore aleatorio
~ = X1~i + X2~j le cui componenti X1 (), X2 () secondo

Cosideriamo un vettore V
una coppia di assi cartesiani ortogonali sono variabili casuali statisticamente indipendenti, ciascuna con distribuzione normale N (0, 2 ). Il suo modulo
q
V = g(X1 , X2 ) =
X12 + X22
114
è una variabile aleatoria la cui funzione di distribuzione si può determinare applicando la (4.12) con
1
x21 + x22
f (x1 , x2 ) = f1 (x1 )f2 (x2 ) =
exp
2 2
2 2
Passando a coordinate polari nel piano (x1 = cos , x2 = sin ) il dominio di

integrazione nella (4.12) si scrive:
E12 (v) = {(, ) D :
0 v; 0 2}
per cui la funzione di distribuzione di V vale:

FV (v) =
Z 2
0
Z v
0
1 2 /22
1
e
d = 2
2
2
Z v
0
2 /2 2
(4.17)
se 0, ed è nulla per v < 0. Derivando rispetto a v sotto il segno di integrale, si

ricava la seguente densità di probabilità di V ():
fV (v) =
v
dF (v)
2
2
= 2 ev /2 ,
dv
v0
che è una distribuzione di Rayleigh (cfr. 2.3.5) con parametro uguale alla deviazione standard delle densità normali delle due componenti.
Il metodo di calcolo appena applicato si può agevolmente estendere allo studio del
modulo di un vettore aleatorio in IR3 :
q
V () =
X12 () + X22 () + X22 ()
le cui componenti sono variabili casuali indipendenti, ancora distribuite con legge
normale N (0, 2 ) e densità congiunta
x21 + x22 + x23

1
f (x1 , x2 , x3 ) = f1 (x1 )f2 (x2 )f3 (x3 ) = 3
exp
2 2
(2)3/2
Se passiamo a un sistema di coordinate sferiche ( 0, [0, ], [0, 2]) la

funzione di distribuzione di V () è definita dallintegrale triplo:
Z
FV (v) =
EX (v)
f (x1 = cos cos , x2 = cos sin , x3 = sin ) 2 sin ddd
da calcolarsi sul dominio:

EX (v) = {(, , ) D :
Si ricava allora, per v 0:
0 v; 0 ; 0 2}.

u variabili casuali
FV (v) =
Z 2
0
Z
0
Z v
0
115
Z
v
1
2
2
2
2 /2 2 2
send = 3
e
2 e /2 d
3/2
3
0
(2)
la cui derivata prima fornisce la seguente densità di probabilità di V ():
!
2
dF (v)
2v
v2
fV (v) =
= 3 exp 2 ,
v 0.
dv

2
Si ricava cos la distribuzione di Maxwell già presentata nel 2.3.5 del Capitolo II.
` di un guasto
Esempio 4.8: Probabilita
Nella teoria della previsione dei guasti, il tempo che intercorre tra listante in cui un
sistema inizia il suo funzionamento e quello in cui cessa di funzionare è una variabile
aleatoria con la distribuzione esponenziale definita nel 2.3.4. Consideriamo ora
un sistema S costituito da due componenti S1 , S2 e indichiamo con X1 (), X2 ()
gli istanti in cui ciascuno di questi cessa il suo funzionamento. Assumendo come
modello di probabilità dei guasti due leggi esponenziali:
f1 (x1 ) = c1 ec1 x1 ,
f2 (x2 ) = c2 ec2 x2 ,
x1 , x2 0
(4.18)
x2
A
t
x1
Figura 4.10
e supponendo che X1 (), X2 () siano statisticamente indipendenti, determiniamo

la legge probabilistica della variabile casuale T () che rappresenta listante in cui
cessa di funzionare il sistema complessivo S. Allo scopo, facciamo una delle seguenti
ipotesi:
1. S si guasta se si guasta almeno uno dei suoi componenti (che in tal caso sono
collegati in serie);
2. S si guasta solo se si guastano entrambi i componenti (collegamento in parallelo);
116
3. Il componente S1 funziona dallistante t = 0, e quando si guasta entra in

funzione S2 (collegamento ausiliario: S si guasta solo quando si guasta S2 ).
1. Nel caso di componenti collegati in serie, T () è la funzione:
T () = g(X1 , X2 ) = min[X1 (), X2 ()]
e il calcolo di FT (t) è da effettuare con la (4.12), integrando sul dominio EX (t) =
{(x1 , x2 ) : min(x1 , x2 ) t} = A(t) B(t) mostrato in Fig. 4.10, dove A, B sono gli
insiemi:
A(t)
B(t)
= {(x1 , x2 ) : (0 x1 t) (0 x2 t)}
= {(x1 , x2 ) : (0 x1 t) (0 x2 t)}.
Ne segue la funzione di distribuzione

FT (t) =
Z t
0
f1 (x1 )dx1 +
Z t
0
f2 (x2 )dx2
Z t
0
f1 (x1 )dx
Z t
0
f2 (x2 )dx2 =
= F1 (t) + F2 (t) F1 (t)F2 (t)

e la densità di probabilità
fT (t) =
dF (t)
= [1 F2 (t)]f1 (t) + [1 F1 (t)]f2 (t).
dt
Sostituendo le espressioni (4.18) e le relative funzioni di distribuzione note, si ricava:

fT (t) = (c1 + c2 )e(c1 +c2 )t ,
t 0.
Dunque, nel sistema con componenti in serie il tempo di attesa del guasto ha ancora
legge esponenziale. Il suo valor medio (e quindi la vita media del sistema complessivo)
è mT = 1/(c1 + c2 ), minore della vita media dei singoli componenti, e la varianza
vale T2 = 1/(c1 + c2 )2 .
2. Esaminiamo ora la statistica del sistema con componenti che funzionano in parallelo. Per esso listante del guasto è la variabile casuale
T () = g(X1 , X2 ) = max[X1 (), X2 ()]
e il dominio di integrazione nella (4.12) diventa
EX (t) = {(x1 , x2 ) : (0 x t) (0 x t)} B(t).
Si ricava perciò
FT (t) =
Z t
0
f1 (x1 )dx
Z t
0
f2 (x2 )dx2 = F1 (t)F2 (t)

u variabili casuali
117
e la densità di probabilità
fT (t) = F2 (t)f1 (t) + F1 (t)f2 (t)
la quale, usando le (4.18), si riscrive:
fT (t) = c1 ec1 t + c2 ec2 t (c1 + c2 )e(c1 +c2 )t .
Il valor medio e la varianza di questa distribuzione valgono:
Z
1
1
1
+
c1 c2 c1 + c2
Z0
1
1
1
2
=
t fT (t)dt m2T = 2 + 2
c1 c2 (c1 + c2 )2
0
mT
T2
fT (t)tdt =
per cui il sistema in esame ha vita media maggiore di quella del sistema con componenti in serie; tuttavia cresce anche la dispersione di fT (t) rispetto al suo valor
medio.
3
f T (t)
2
in serie
in parallelo
1
ausiliario
Figura 4.11 - Probabilit`

a di un guasto
3. Consideriamo infine il sistema con collegamento ausiliario. Poichè S2 entra in

funzione solo quando ha smesso di funzionare S1 , listante del guasto del sistema è
la somma
T () = g(X1 , X2 ) = X1 () + X2 ()
delle variabili casuali che rappresentano gli istanti del guasto di S1 ed S2 . Quindi
(si veda lEsempio 4.6) la densità di T () è il prodotto di convoluzione delle densità
esponenziali di X1 () ed X2 (w). Essa si può determinare direttamente applicando
la (4.16):
fT (t) = c1 c2
Z t
0
ec1 (tx2 ) ec2 x2 dx2 =

= c1 c2
Z t
0
ec1 t ex2 (c2 c1 ) dx2 = c1 c2 ec1 t
Z t
0
ex2 (c2 c1 ) dx2
118
da cui risulta:
c1 6= c2 :
fT (t)
c1 = c2 = c :
fT (t)
c1 c2 c1 t
e
ec2 t
c2 c1
= c2 tect .
La vita media del sistema e la varianza di T () sono quelle proprie di una somma
di variabili casuali indipendenti, e risultano quindi uguali alla somma delle medie e
delle varianze di X1 (), X2 ():
mT =
1
1
+ ;
c1 c2
T2 =
1
1
+ 2.
2
c1 c2
La Fig. 4.11 mostra le densità che si ricavano assumendo c1 = 1, c2 = 2 nei tre casi
ora considerati.
4.4
Transformazioni n-dimensionali
Il metodo di calcolo della funzione di distribuzione di Y () = g(X1 , X2 , . . . , Xn (),

esplicitato dalla formula (4.12), non è pi`
u applicabile se g : IRn IRm con m >
1, ovvero se è una applicazione da DX IRn a DY IRm che definisce le m
trasformazioni:
Yj () = gj [X()]
j = 1, . . . ., m > 1
(4.19)
dal vettore aleatorio n-dimensionale X() nel vettore aleatorio m-dimensionale Y()
= {Yj ()}.
Se m = n, si può però estendere al caso multidimensionale il metodo di calcolo
diretto della densità fY (y), già introdotto nel 4.2.2, servendosi del seguente
TEOREMA I
Sia g(x) = {gi (x1 , .., xn )} : IRn IRn continua e derivabile in DX , e Y() =
g[X()] : IRn . Se {x(k) (y)}, k = 1, .., N è linsieme numerabile di N radici reali
del sistema: g(x) y = 0 nelle n incognite xi , allora la densità di probabilità del
vettore n-dimensionale Y() è data da:
fY (y) =
N
X
fX (x(k) (y))
k=1
|J(x(k) (y))|
(4.20)
dove fX (x) è la densità nota del vettore X(), e J(x) è il determinante jacobiano
della trasformazione (4.19) con m = n, entrambi da calcolare per x = x(k) (y). Se
esistono valori y per cui il sistema g(x) y = 0 non ammette soluzioni reali, allora
fY (y) = 0.
4.4 Transformazioni n-dimensionali
119
Trasformazione invertibile. Un caso particolare si ha quando g(x), oltre al essere

continua e dotata di derivate parziali continue, è anche invertibile in DX . In tal caso
g : DX DY è un diffeomorfismo, ed è possibile applicare il seguente Teorema, che
generalizza al caso n-dimensionale la formula (4.5).
TEOREMA II
Siano DX , DY due aperti di IRn , e g : DX DY un diffeomorfismo. Allora la
densità di probabilità di Y() = g[X()] è data da:
fY (y) = fX [x = g1 (y)] |J 1 (y)|
(4.21)
dove g1 (y) è la inversa di g(x), e J 1 (y) è lo Jacobiano della trasformazione inversa

Y X:
g1
(y) = det
y
xi
= det
yj
i, j = 1, 2, . . . , n.
Infatti, se g è invertibile il sistema: g(x) y = 0 ha al pi`

u una sola radice reale
(1)
1
1
x = g (y) e dal Teorema I, tenuto conto che J (y) = 1/J(x(1) ) dove J(x) è lo
Jacobiano della trasformazione diretta X Y, si ricava la (4.21).
Trasformazione lineare. Se infine g(x) è lineare:
gi (x1 , . . . , xn ) = ai1 x1 + . . . + ain xn + bi ,
i = 1, .., n
allora, detta A = [aij ] la matrice n n dei coefficienti della trasformazione Y() =

AX() + b, si ha: J(x) = det(A); J 1 (y) = det(A1 ) e la densità di Y() vale, per
i Teoremi precedenti:
fY (y) =
fX [x = A1 (y b)]
= fX [x = A1 (y b)] | det(A1 )|,
| det(A)|
che generalizza la (4.10) al caso n-dimensionale.
(4.22)
120
Momenti del vettore Y = g(x)

Per quanto riguarda i momenti di Y(), indichiamo con E{Yq } il vettore colonna
le cui n componenti sono i valori attesi di ciascuna componente Yi () del vettore
aleatorio Y() = g[X()]. Se è nota la densità di probabilità di X(), il vettore
E{Yq } si può calcolare nel modo seguente:
Z
E{Yq } =
DX
gq (x) fX (x)dx,
x DX IRn
che estende al caso n-dimensionale la formula (4.8).

Esempio 4.9
X1 () e X2 () sono due variabili casuali note e indipendenti, con densità

f1 (x1 ) = 4x31 ,
0 x1 1;
2
f2 (x2 ) = x2 ,
3
1 x2 2
e nulle al di fuori degli intervalli sopra definiti. Queste sono le densità marginali del
vettore aleatorio X() : DX IR2 che ha densità di probabilità
8
fX (x) = f1 (x1 )f2 (x2 ) = x31 x2
3
sul dominio DX = {(x1 , x2 ) : 0 x1 1; 0 x2 2}. Un dispositivo con
caratteristica
g(x) = {g1 (x), g2 (x)},
g1 (x) = a(x1 + x2 );
g2 (x1 ) = bx1
con a, b > 0, trasforma X() in un vettore aleatorio Y() : IR2 di componenti

Y1 () = g1 [(X()] e Y2 () = g2 [X()], avente valori nel dominio
DY = {(y1 , y2 ) : a(1 y2 /b) y1 a(2 y2 /b); b y2 0}.
che è mostrato in Fig. 4.12. Si vuole determinare la densità congiunta e le densità
marginali di Y(). Poiche è generato da una trasformazione lineare, Y() si può
scrivere:
a a
Y() = AX(),
con
A=
b 0
e la sua densità si ricava dalla (4.22). Con semplici calcoli si ottiene:
det(A) = ab;
A1 =
0
1/b
1/a 1/b
4.4 Transformazioni n-dimensionali
121
x2
2
g:D
3a
2a
y1
0
C1
1
C2
-b
0
x1
Figura 4.12
e la trasformazione inversa x = A1 y è definita da

x1
x2
= y2 /b
+y1 /a + y2 /b.
Pertanto, per ogni (y1 , y2 ) DY la densità mista vale
8
1
8 3 y1 y2
fY (y) = f1 (x1 = y2 /b)f2 (x2 = y1 /a + y2 /b)
=
+
.
y
3
ab
3ab4 2 a
b
Le densità marginali di ciascuna componente si possono determinare integrando
fY (y) rispetto allaltra variabile (si ricordi la (3.5)). Cos , per ottenere la densità
marginale f (y1 ) di Y1 () si deve integrare per verticali sui due sottoinsiemi C1 , C2
di Fig. 4.12, tali che C1 C2 = DY , e si ricava:
a y1 2a :
f (y1 ) =
Z 0
b(1y
"1 /a)
fY (y)dy2 =
y1
2
=
5y1 1
2
15a
a
2a y1 3a :
f (y1 ) =
Z b(2y1 /a)
b
2
=
15a2
y1
1 2
a
4 #
Z 0
b(1y1 /a)
#
y1 5
+ 4a 1
fY (y)dy2 =
"
5y1
8
3ab4
a
"
y23
y1 y2
+
dy2
a
b
y1
4a 1 + 2
a
5 #)
Per determinare la densità marginale di Y2 () si integra invece rispetto a y1 per

orizzontali e si ricava:
f (y2 ) =
Z a(2y2 /b)
a(1y2 /b)
8
fY (y)dy1 =
3ab4
Z a(2y2 /b)
a(1y2 /b)
y23 (y1 /a + y2 /b)dy2 =
4y23
b4
122
a=2
b=4
f(y1 )
f(y2 )
-4
Figura 4.13
per y2 [b, 0], mentre f (y2 ) = 0 al di fuori di questo intervallo.

Il prodotto delle due densità marginali, che sono riportate in Fig. 4.13, non è uguale
alla densità congiunta fY (y). Ciò indica che le due componenti del vettore Y()
prodotto dalla trasformazione non sono statisticamente indipendenti, come invece
accade per le componenti del vettore trasformato X().
Se le dimensioni di Y() IRm e X() IRn non sono uguali (per esempio m < n),
conviene spesso usare, al posto di Y(), un vettore incrementato Z() IRn , che si
costruisce assegnandogli un numero n m di componenti aleatorie fittizie. Questo
accorgimento permette di studiare la trasformazione X Z con i metodi forniti dai
Teoremi I e II sopra citati (si veda al riguardo il Problema 4.2 che segue).
4.5
Problemi risolti
4.1. Nel circuito di Fig. 4.14, che è percorso da una corrente I di 0.02 Ampere, le
resistenze valgono ro = 500 Ohm e r1 = 1000 10% Ohm. La tolleranza con cui
si conosce il valore di r1 suggerisce di considerare questultima come una variabile
casuale distribuita nellintervallo 900 r1 1100 con legge parabolica. Calcolare
il valor medio, la varianza e la densità di probabilità della differenza di potenziale
V () e della conduttanza () = 1/r1 .
Soluzione. La densità di probabilità della resistenza r1 si determina applicando la
formula ricavata nelEsempio 4.4:
fR (r1 ) =
6
3
(r1 900)(1100 r1 ) =
3
200
400
La differenza di potenziale è la funzione:
r1
9
100
11
r1
, r1 [900, 1100].
100
123
r0
V
I
r1
Figura 4.14
V () = g(r1 ) = I(ro + r1 ) = 10 + 0.02r1 (),

anchessa definita da una trasformazione lineare, la cui densità di probabilità, tenuto
conto che
dg 1
= 50,
r1 = g 1 (V ) = 50(V 10);
dV
si ricava applicando la (4.10):
fV (V ) = fR [r1 = 50(V 10)] 50 =
f( G )
f(V )
28
3
(V 28)(32 V )
32
32 V
1
1100
1
900
Figura 4.15
e rappresenta una distribuzione parabolica nellintervallo 28 V 32 Volt. Il suo

valor medio è mV = 28 + 4mX = 30 Volt, e la sua varianza vale, per la (4.11):
2 .
V2 = 16X
La conduttanza è definita dalla trasformazione
() = g[X()] =
1
900 + 200x
124
che è invertibile in DX = [0, 1]. La trasformazione inversa è

x = g 1 () =
dg 1 ()
1
=
d
2002
1
9
;
200 2
e applicando la (4.5) conduce alla seguente densità di ():
f () = 6
1
9
200 2
1
9
+
200 2
1
=
2002
=
3
(200)2
1
900
1100
che ha come supporto lintervallo D = [1/1100, 1/900]. Per la non-linearità della

trasformazione, questa distribuzione non è pi`
u simmetrica in D (v. Fig. 4.15).
Infatti il suo valor medio si può ottenere applicando la (4.9):
m = 6
Z 1
x(1 x)
3
99
9
dx =
5+
log
900 + 200x
100
4
11
' 0.001002
ed è minore del punto medio dellintervallo D . In modo analogo si calcola la

varianza di (), che risulta:
2 = E{2 } m2 = 6
Z 1
0
x(1 x)
dx m2 =
(900 + 200x)2
11
6
10
log
2
m2 ' 2.0393 109 .
=
(200)2
9
4.2. Lo spazio percorso da un corpo che si muove di moto rettilineo e uniforme

con velocità aleatoria V0 (), a partire da una posizione iniziale pure aleatoria e
rappresentata da Y0 (), è definito da
Y (; t) = Y0 () + V0 ()t,
0t1
(4.23)
dove Y0 () e V0 () sono due variabili casuali indipendenti aventi, rispettivamente,

distribuzioni uniforme e parabolica in [0,1]:
f1 (y0 ) = 1,
y0 [0, 1]
f2 (v0 ) = 6v0 (1 v0 ),
v0 [0, 1]
e il parametro t [0, 1] è il tempo (adimensionalizzato). Calcolare, al variare del
tempo t, la funzione di densità di Y(, t) dato dalla (4.23).
Soluzione. Per calcolare fY (y; t) si può definire i due vettori aleatori:
Z(; t) = {Y (; t), V0 ()} DZ (t)
X() = {Y0 (), V0 ()} DX = DZ (t = 0)
125
z 2 = v0
DX
D Z (t)
y
v0 = t
v0 =
y-1
t
1+t
z 1= y
Figura 4.16
dove il dominio
DZ (t) = {(z1 , z2 ) : z2 t z1 1 + z2 t; 0 z2 1}
è mostrato in Fig. 4.16. Studiamo la trasformazione z = g(x; t) con t parametro,
definita da
z1 = g1 (x; t) = y0 + v0 t
z2 = g2 (x2 ) = v0 .
La trasformazione inversa è
x1 = y0 = g11 (z; t) = z1 z2 t
x2 = v0 = g21 (z) = z2
ed ha determinante jacobiano che vale:
det(A
dg1
1 t
)=
=
= 1.
0 1
dz
Quindi la densità di Z(; t) è, per la (4.22):

fZ (z; t) = f1 (y0 = z1 z2 t)f2 (v0 = z2 ) = 6z2 (1 z2 )
se z DZ (t), ed è nulla altrove.
La densità Y (; t) si ricava come densità marginale della distribuzione del vettore
Z(; t), e si ottiene integrando fZ (z; t) rispetto alla sua componente fittizia z2 = v0 :
Z
fY (y; t) = 6
DY (t)
v0 (1 v0 )dv0
126
dove il dominio di integrazione, come risulta dalla Fig. 4.16, vale
[0, y/t],
DY (t) =
fY (y ; t)
per 0 y t
[0, 1],
per t y 1
[(y 1)/t, 1], per 1 y 1 + t.
t=0
t = 0.5
t=1
Figura 4.17 - Densit`

a di probabilit`
a al variare di
t [0, 1]
Effettuando lintegrazione si ricava:

2
3
y (3t 2y)/t ,
fY (y; t) =
per 0 y t
1,
per t y 1
1 (y 1)2 (3t 2y + 2)/t3 , per 1 y 1 + t.
La Fig. 4.17 mostra il grafico di tale densità per alcuni valori di t. Nella applicazione
meccanica, da essa si può ricavare, per esempio, la probabilità che in un istante
generico del moto il sistema abbia percorso uno spazio non superiore ad un assegnato
valore y.
PROCESSI STOCASTICI
5.1
Definizioni
Si chiama processo stocastico X(, t) una famiglia {X()}t di variabili aleatorie

definite su uno stesso spazio di probabilità (, B, P ) con t variabile indipendente in
un sottoinsieme T IR+ .
I processi stocastici sono modelli matematici di grandezze aleatorie che evolvono nel
tempo. In quanto tali, possono essere interpretate in due modi differenti:
1. come un insieme di variabili aleatorie X(, t1 ), . . . X(, tn ) definite in una successione di istanti t1 , . . . tn IR+ prefissati, oppure
2. come un insieme di funzioni del tempo t, dette realizzazioni di X, ciascuna
delle quali è originata da un evento casuale.
Una conoscenza completa della natura di un processo stocastico richiede la definizione
delle distribuzioni congiunte di un qualsiasi insieme di variabili casuali X(, tk ), k =
1, . . . , n appartenenti alla famiglia. Se indichiamo con
X1 = X(, t1 ), . . . Xn = X(, tn )
le n variabili aleatorie con cui si identifica il processo negli istanti t1 , . . . , tn , la
statistica di ordine n del processo è dunque nota se si conosce la sua funzione di
distribuzione di ordine n, che per definizione è la funzione di n variabili:
Fn (x1 , . . . , xn ; t1 , . . . , tn ) = P [(X1 x1 ) (Xn xn )],
n = 1, 2, . . .
(5.1)
Se esiste la sua derivata mista di ordine n, si chiama densità di probabilità di ordine

n del processo la funzione:
fn (x1 , . . . , xn ; t1 , . . . , tn ) =
n Fn (x1 , . . . , xn ; t1 , . . . , tn )
.
x1 . . . xn
127
(5.2)
128
PROCESSI STOCASTICI
Ad esempio, la statistica del secondo ordine di un processo stocastico è nota se,

fissati due istanti t1 , t2 , è definita la densità di probabilità congiunta (o la funzione
di distribuzione congiunta) della coppia di variabili aleatorie X1 () = X(, t1 ) e
X2 () = X(, t2 ). Come noto, la conoscenza di f2 (x1 , x2 ; t1 , t2 ) permette tra laltro
di determinare le densità marginali di X1 e X2 , i loro valori medi, e il grado di
correlazione esistente tra gli stati del medesimo processo in due istanti di tempo.
Fissato invece un istante t1 = t, la statistica del primo ordine del processo è definita
dalla densità f (x; t) della variabile aleatoria X(, t = t1 ), la quale coincide con la
densità marginale
Z
f (x; t) =
f2 (x1 , x2 ; t1 , t2 )dx2
(5.3)
della distribuzione del secondo ordine.

Se ne deduce che la conoscenza della statistica di ordine n del processo implica la
conoscenza di tutte le statistiche di ordine inferiore. Tuttavia, è di solito assai arduo
disporre della densità di qualsivoglia ordine n di un processo: spesso ci si limita
a studiare la sua statistica del primo e del secondo ordine, nella quale rientrano i
momenti del processo che sono qui elencati.
5.1.1
Momenti
Il valore atteso di X(, t) è il valore atteso della variabile casuale X() in un assegnato istante t:
Z
m(t) = E(X)t = xf1 (x, t)dx
(5.4)
ed è dunque, in generale, una funzione ordinaria della variabile reale t.
Fissati due istanti t1 , t2 , il momento congiunto del secondo ordine delle variabili
casuali X1 , X2 è chiamato autocorrelazione R(t1 , t2 ) del processo:
Z Z
R(t1 , t2 ) = E(X1 X2 ) =
x1 x2 f2 (x1 , x2 ; t1 , t2 )dx1 dx2 ,
(5.5)
ed è una funzione degli istanti considerati.

Lautocovarianza C(t1 , t2 ) del processo è la covarianza della coppia X1 , X2 che vale:
C(t1 , t2 ) = E[(X1 m(t1 ))(X2 m(T2 ))] = R(t1 , t2 ) m(t1 )m(t2 ).
La varianza 2 (t) del processo è lautocovarianza per t1 = t2 = t:
2 (t) = C(t, t) = R(t, t) m2 (t)
ed è pure essa, in generale, funzione del tempo t.
(5.6)
5.1 Definizioni
5.1.2
129
Processi indipendenti
Due processi X(, t), Y (, t) si dicono statisticamente indipendenti se, date le successioni di istanti {t1 , . . . , tn }, {t01 , . . . , t0m } linsieme di variabili aleatorie X(, tk ), k =
1, . . . , n è indipendente dallinsieme delle Y (, t0h ), h = 1, . . . , m ovvero se la loro
densità congiunta di ordine n + m soddisfa:
fn+m (x1 , . . . , xn ; t1 , . . . tn ; y1 , . . . , ym ; t01 , . . . t0m ) = fn (x1 , . . . , tn )fm (y1 . . . , t0m )
per ogni intero n ed m.
5.1.3
Processi senza memoria
Fissato un istante t = t1 IR+ , le proprietà di X(, t1 ) dipendono in generale da

quelle che ha avuto il processo in istanti precedenti, ed influiscono su quelle che avr`
a
negli istanti futuri.
Un processo è chiamato senza memoria se la variabile aleatoria X(, t1 ) è statisticamente indipendente dalle variabili aleatorie X(, th ) per ogni h 6= 1 intero.
Ciò significa che lo stato del processo nellistante che si considera è indipendente dal
suo passato e dal suo futuro: la sua densità di probabilità di ordine n vale
fn (x1 , . . . , tn ) = f1 (x1 , t1 )f1 (x2 , t2 ) f1 (xn , tn )
ed è quindi nota in base alla sola statistica del primo ordine del processo. Il pi`
u
classico esempio di processo senza memoria è il rumore bianco citato nel paragrafo
che segue.
5.1.4
Processi stazionari
a) Stazionarietà in senso stretto

Un processo stocastico è stazionario in senso stretto se le proprietà dei due processi
X(, t), X(, t + ) sono invarianti rispetto a una traslazione dei tempi, in modo che
fn (x1 , . . . , xn ; t1 , . . . , tn ) = fn (x1 , . . . , xn ; t1+ , . . . , tn+ )
per ogni IR e ogni intero n.
Per questa definizione la stazionarietà in senso stretto implica:
densita del primo ordine indipendente dal tempo:
f1 (x, t) = f1 (x, t + ) = f1 (x);
130
PROCESSI STOCASTICI
valore atteso costante rispetto a t:

Z
E(X) =
xf1 (x)dx = mX ;
densità del secondo ordine e autocorrelazione che dipendono solo dalla differenza = t2 t1 tra gli istanti considerati:
Z Z
R(t1 , t2 ) =
x1 x2 f2 (x1 , x2 , )dx1 dx2 = R( ).
(5.6)
b) Stazionarietà in senso lato

Un processo stocastico X(, t) è stazionario in senso lato (o debolmente stazionario)
se ha momenti tale che
|E(X)|
E(X 2 )
= cost < +
< +,
R(t1 , t2 ) = R( ).
(5.7)
La stazionarietà debole riguarda dunque solo i momenti del primo e secondo ordine
del processo, e non le corrispondenti densità, come avviene nella definizione in senso
stretto: questultima implica la stazionarietà in senso lato ma non viceversa.
5.2
Esempi notevoli
Nel definire il modello matematico di un fenomeno fisico mediante un processo stocastico, si usa spesso esprimerlo in termini analitici come una funzione ordinaria di
t contenente una o pi`
u variabili casuali i () come parametri:
X(, t) = X(i (), t).
In tal caso le statistiche del processo dipendono dalla distribuzione di probabilità
congiunta che si assegna allinsieme delle variabili casuali i (), e si ricavano con
i metodi noti descritti dalla teoria della trasformazione di variabili casuali, che ora
sono da applicare trattando il tempo t come un parametro della trasformazione.
In altre applicazioni si definiscono invece processi stocastici speciali, che sono il
risultato di una modellizzazione del fenomeno reale basata su opportune ipotesi di
natura probabilistica.
Esempio 5.1
Date le variabili casuali indipendenti a(), b(), formiamo il processo

X(, t) = a + bt.
5.2 Esempi notevoli
131
Esso è costituito da una famiglia di rette, che sono le realizzazioni del processo, e la
sua media nellistante t è la funzione lineare del tempo che si ricava in termini delle
medie di a(), b():
E(X) = E(a) + E(b)t.
Fissati gli istanti t1 , t2 , lautocorrelazione del processo vale
R(t1 , t2 ) = E(a + bt1 )E(a + bt2 ) = E(a2 ) + E(ab)(t1 + t2 ) + E(b2 )t1 t2
e la sua autocovarianza è
C(t1 , t2 ) = a2 + b2 t1 t1 + Cov(a, b)(t1 + t2 ).
La varianza del processo al tempo t è perciò
2 (t) = a2 + b2 t2 + 2tCov(a, b)
e poichè a(), b() sono indipendenti si riduce a
2 (t) = a2 + b2 t2 .
Si tratta di un processo non stazionario, nemmeno in senso debole.
5.2. Rumore di Rice
Un modello di rumore aleatorio in circuiti elettrici è rappresentato dal processo:

X(, t) =
n
X
Aj cos(j t + j )
j=1
con Aj , j , j variabili aleatorie note. La statistica di X(, t) è completamente

definita dalle distribuzioni di probabilità congiunte di queste 3n variabili casuali.
Una sua versione molto semplificata può essere descritta dal processo
X(, t) = a cos(t + ())
(5.8)
con fase aleatoria uniformemente distribuita in [0, 2], ed a, costanti reali deterministiche. Le realizzazioni di questo processo sono funzioni cosinusoidali del tempo,
con eguale ampiezza e frequenza ma con fasi differenti, probabilisticamente definite
da una densità uniforme in [0, 2]. Si ottiene facilmente:
E(x) = E[a cos(t + )] =
a
2
Z 2
0
cos(t + )d = 0
1
R(t1 , t2 ) = a2 E[cos(t1 + ) cos(t2 + )] = a2 cos (t2 t1 );
2
Dunque il processo (5.8) è debolmente stazionario.
2
X
=
a2
.
2
132
PROCESSI STOCASTICI
5.3. Trasmissione binaria semicasuale
In relazione alla emissione di un segnale in forma binaria equiprobabile ad intervalli

regolari di tempo T , definiamo il processo
X(, t) = Xn (),
(n 1)T t nT
(5.9)
dove n = . . . , 1, 0, 1, 2, . . . e le Xn sono variabili casuali statisticamente indipendenti con eguali densità

1
f (xn ) = [(xn + 1) + (xn 1)].
2
Y(t)
X(t)
1
1
A(w )
t
-1
-1
trasmissione binaria semicasuale
rumore binario
Figura 5.1
X(, t) e un processo debolmente stazionario che si chiama trasmissione binaria

semicasuale: le sue realizzazioni assumono casualmente valori 1 ad intervalli di
tempo T ed i valori che assume sono indipendenti da quelli che assume in ogni altro
intervallo. Si ricava facilmente:
E(X) = 0 Z
1
E(X 2 ) =
x2n [(xn + 1) + (xn 1)]dxn = 1
2
e inoltre si sa che E(Xn Xm ) = 0 per n 6= m perche le Xn sono indipendenti. Quindi:
2
X
=
1
R(t1 , t2 ) =
1
0
se
(n 1)T t1 , t2 < nT
altrimenti.
5.2 Esempi notevoli
133
5.4. Rumore binario
E una generalizzazione della trasmissione binaria semicasuale, in cui ciascuna realizzazione è traslata nel tempo di una quantit`
a aleatoria A() indipendente dalle Xn
e avente densità uniforme nellintervallo [0, T ]. La sua rappresentazione analitica è
perciò
Y (, t) = X(, t)[t A()]
(5.10)
dove X(, t) è la trasmissione binaria semicasuale. Una generica traiettoria del

processo è indicata in Fig. 5.1, insieme con quella del processo semicasuale X(, t).
Il valore atteso e la varianza del rumore binario Y (, t) sono uguali a quelli di X(, t)
perche la traslazione rispetto al tempo non modifica i momenti a t prefissato; la sua
autocorrelazione è invece diversa se = t2 t1 T , perche lappartenenza di t1 , t2
al medesimo intervallo dipende dai valori che assume A(). Si ha in tal caso:
R(t1 , t2 ) = P (A T | |) =
Z T | |
0
dA = 1
| |
= R( )
T
se | | T , mentre R = 0 se | | > T . Dunque anche il rumore binario è un processo

debolmente stazionario. Per come è stato costruito, esso è il modello probabilistico
che si associa a prove ripetute ed indipendenti di un esperimento casuale, che avvengono con eguale probabilità di successo o di fallimento, ad uguali intervalli di tempo
T.
5.5. Rumore bianco
E uno speciale caso limite del rumore binario, che si definisce quando T 0 e
2 in modo che il prodotto 2 T tende a un valore finito. Per le sue particolari proprietà e per la semplicità della sua descrizione in termini matematici, è
ampiamente usato per approssimare un gran numero di fenomeni fisici aleatori.
5.6. Passeggiate a caso
Consideriamo ancora le successioni di infinite prove ripetute a intervalli uguali di

tempo T di un generico esperimento casuale con eguale probabilità di successo o
di fallimento. Associamo alla successione una funzione del tempo a gradino che
in corrispondenza di ciascuna prova ha un incremento della quantit`
a s se lesito
è un successo e decresce della quantit`
a s se è un fallimento. Questa funzione a
gradino (v. Fig. 5.2) è una realizzazione di un processo stocastico X(, t) chiamato
passeggiate a caso.
Se nelle prime n prove si sono avuti k successi, il valore della generica realizzazione
del processo al tempo t = nT è
x(nT ) = ks (n k)s = (2k n)s.
134
PROCESSI STOCASTICI
Per la formula di Bernoulli (2.42), la probabilità dellevento {X(nT ) = (2k n)s}

vale:
!
n 1
P [X(nT ) = (2k n)s] =
k 2n
e il valor medio del processo X(, t) per (n 1)T < t nT risulta:
E(X) =
n
X
k=0
n (2k n)s
= 0.
k
2n
La varianza è uguale al momento del secondo ordine del processo al tempo t, e

nellistante t = nT vale:
2
(t) = s
n
X
k=0
n (2k n)2
ts2
= ns2 =
.
n
2
T
k
Se n è sufficientemente grande, per il Teorema di asintoticit`

a di MoivreLaplace
(2.46) la probabilità dellevento {X(nT ) = (2kn)s} è approssimata dalla gaussiana:
r
P [X(nT ) = (2k n)s] '
"
(2k n)2
2
exp
.
n
2n
X(t)
s
0
Figura 5.2 - Passeggiate a caso
Se infine a t costante
effettuiamo un passaggio al limite per s, T 0, e se s tende
a zero come T , si ottiene un nuovo processo stocastico chiamato moto browniano o processo di WienerLevy, che rappresenta il modello matematico del moto
irregolare di particelle libere di muoversi in un mezzo fluido.
5.2 Esempi notevoli
135
5.7. Processo di Poisson
Consideriamo una scelta casuale di istanti ti in IR+ , e definiamo il processo X(, t)

tale che X(, 0) = 0 e la differenza X(, t2 ) X(, t1 ) sia uguale al numero di
punti ti in [t1 , t2 ]. La famiglia di funzioni cos definita si chiama processo di Poisson.
Ogni sua realizzazione è una funzione a scala con gradino unitario nei punti casuali
ti , come indicato in Fig. 5.3. Se invece fissiamo listante t, allora X(, t) è una
variabile aleatoria il cui valore coincide con il numero k di punti nellintervallo [0, t].
Per la legge degli eventi rari (2.51) la probabilità dellevento E = {k punti in [0, t]}
è approssimata da
(t)k t
Pk,t '
e ,
k!
per cui X(, t) per ogni fissato t è distribuita con legge di Poisson con parametro t.
10
X(t)
5
1
0
ti
Figura 5.3 - Processo di Poisson
La statistica del primo ordine del processo è quella della distribuzione di Poisson:
2
X
(t) = t.
mX (t) = t,
Scelti poi due istanti generici t1 , t2 > 0, si può calcolare che
R(t1 , t2 ) = E(X1 X2 ) =
t2 + 2 t1 t2
t1 + 2 t1 t2
se t1 t2
se t1 t2
e quindi
C(t1 , t2 ) = R(t1 , t2 ) mX (t1 )mX (t2 ) = min(t1 , t2 ).
Il processo di Poisson non è stazionario; è però un processo con incrementi stazionari
in senso lato. Si definisce incremento di Poisson il processo
Y (, t) =
X(, t + ) X(, t)
(5.11)
136
PROCESSI STOCASTICI
che per ogni t fissato ha valori uguali al rapporto k/, dove k è il numero di punti
nellintervallo [t, t + ]. Il valor medio degli incrementi di Poisson è costante e vale:
E(Y ) =
E(X(t + )) E(X(t))
= ,
e lautocorrelazione risulta:
(
R(t1 , t2 ) =
2
2 +
| |
2
se
se
| | >
| | <
dove = t2 t1 .
Facendo tendere a zero, si ottiene un nuovo processo stocastico debolmente stazionario Z(, t), che definisce gli impulsi di Poisson:
Z(, t) = lim Y (, t) =
0
dX(, t) X
=
(t ti ).
dt
i
(5.13)
Questo processo consiste nella successione di infiniti impulsi unitari negli istanti
casuali ti , ed è facile verificare che ha media ed autocorrelazione date da
E(Z) =
R(t1 , t2 ) = 2 + (t1 t2 ) = [ + ( )].
5.3
Processi di Markov
X(, t) è chiamato processo di Markov se per ogni n e per t1 < t2 < ... < tn IR+
si ha:
P [X(, tn ) xn |xn1 , tn1 , . . . , x1 , t1 ] = P [X(, tn ) xn |xn1 , tn1 ].
In tale processo la distribuzione in probabilità allistante tn è condizionata soltanto
dalle proprietà statistiche che ha avuto nellistante immediatamente precedente tn1 ,
e ha perso la memoria della sua storia prima di tn1 . Ne segue che la densità di
probabilità di ordine n del processo vale:
fn (x1 , t1 , . . . , xn , tn ) = f1 (x1 , t1 )f (x2 , t2 |x1 , t1 ) f (xn , tn |xn1 , tn1 )
e per la definizione di probabilità condizionata si può calcolare come:
fn (x1 , t1 , . . . , xn , tn ) =
f2 (x1 , t1 ; x2 , t2 ) f2 (xn , tn ; xn1 , tn1 )

.
f1 (x1 , t1 ) . . . f1 (xn1 , tn1 )
5.4 Catene di Markov
137
Questultima formula mostra che le proprietà di un processo di Markov sono note

se si conosce la sua statistica fino al secondo ordine, che è definita dalle densità
congiunte delle coppie (xi , xj ), i, j = 1, . . . n.
Fissati tre istanti t1 < t2 < t3 (e tralasciando di indicarli tra gli argomenti delle
varie densità, per semplicità di scrittura), si ha in particolare che:
f (x1 , x2 , x3 ) =
f2 (x1 , x2 )f2 (x2 , x3 )

f1 (x2 )
e poiche per definizione di probabiità condizionata si ha

f2 (x1 , x2 ) = f (x1 |x2 )f1 (x2 ), f2 (x2 , x3 ) = f (x3 |x2 )f1 (x2 ),
sostituendo si ricava:
f (x1 , x2 , x3 ) = f (x1 |x2 )f (x3 |x2 )f1 (x2 ).
Se ora interessa valutare la probabilità condizionata:
f (x1 , x3 |x2 ) =
f (x1 , x2 , x3 )
,
f1 (x2 )
questultima per la formula precedente risulta uguale a:

f (x1 , x3 |x2 ) = f (x1 |x2 )f (x3 |x2 ).
Il risultato mostra che le variabili casuali X1 , X3 , condizionate da X2 , sono indipendenti. Questo significa che sotto la condizione che sia noto lo stato presente X2 ,
il passato del processo markoviano è indipendente dal suo futuro. In questo senso
si può affermare che lipotesi markoviana è lanalogo probabilistico dei problemi ai
valori iniziali della Meccanica, che sono descritti da equazioni differenziali la cui
soluzione al tempo t2 > t1 è univocamente determinata se si assegna lo stato iniziale
x(t1 ) del sistema dinamico, e tale soluzione non dipende dal valore che essa assume
in qualche istante t3 > t2 .
5.4
Catene di Markov
Di solito nel processo di Markov il tempo t varia in un insieme continuo T IR+ . Se

linsieme dei tempi è discreto, ossia T IN dove IN è linsieme dei numeri naturali,
il processo discreto che ne risulta si chiama catena di Markov. Precisamente, si ha
la seguente
DEFINIZIONE. Si chiama catena di Markov il processo stocastico tale che:
138
PROCESSI STOCASTICI
t T IN;
le variabili casuali Xn assumono tutte valori nello stesso insieme numerabile
discreto E IN, chiamato spazio degli stati;
esistono reali non negativi pij (n) con i, j E, n N tali da soddisfare la
proprietà di Markov:
pij (n)=P (Xn+1 = j|Xn = i, Xn1 = in1 , . . . , X1 = i1 ) = P (Xn+1 = j|Xn = i).
Se pij non dipendono da n, la catena è omogenea.
5.4.1
Matrice di transizione
Se linsieme E degli stati è finito, i numeri pij sono gli elementi di una matrice
quadrata P il cui ordine è uguale alla cardinalità di E. Questa matrice si chiama
matrice di transizione ed ha le seguenti proprietà:
pij 0;
la somma degli elementi di ogni sua riga vale 1. Infatti, in conseguenza degli
assiomi della probabilità per ogni i si deve avere:
X
j
pij =
P (Xn+1 = j|Xn = i) = P (Xn+1 E|Xn = i) = 1.
La matrice di transizione definisce univocamente gli stati j di Xn+1 qualora siano

noti gli stati i di Xn . Inoltre, la sua conoscenza permette di determinare anche
probabilità congiunte del tipo:
(m)
Pij
(m)
= P (Xn+m = j|Xn = i) = pij ,
cioè la probabilità che dopo m passi successivi allistante t = n (nel quale la catena si
(m)
trova nello stato i) essa si trovi nello stato j. Infatti, se definiamo con Pm = [pij ] la
matrice di transizione dopo m passi successivi allnesimo, sfruttando la definizione
(m)
di pij si ricava che essa è il risultato del prodotto matriciale
Pm = Pm1 P
da cui ponendo m = 2, 3, . . . si ottiene: P2 = PP = P2 , P3 = P2 P = P3 , . . . e per
ricorrenza:
Pm = Pm .
139
Poiche la variabile aleatoria Xn assume valori in E, la sua legge probabilistica è descritta da un vettore riga con dimensioni uguali alla cardinalità di E, che indichiamo
con
w = (w1 , w2 , . . . , wk , . . .);
wk = P (Xn = k)
e tale da soddisfare per ogni valore intero dellindice k:
X
wk 0;
wk = 1
in modo che w sia una densità discreta su E. Indichiamo in particolare con

v = (v1 , v2 , . . . , vh , . . .),
vh = P (X0 = h)
lo stato probabilistico della catena nellistante iniziale t0 . Dopo n passi della catena,
la legge degli stati è definita dal vettore w avente le componenti:
wk =
P (Xn = k|X0 = h)P (X0 = h) =
X (n)
phk vh .
Pertanto le leggi dei due stati (quello iniziale e quello della catena dopo n passi)
sono legate dalla relazione:
w = vPn .
Se ne conclude che le leggi congiunte degli stati n = 1, 2, . . . sono determinate univocamente dalla matrice di transizione P e dalla legge iniziale v. Infatti, si può
dimostrare che data una matrice di transizione P e una legge su E, esiste sempre
una catena di Markov associata a P e con legge iniziale v.
Esempio 5.8
2
0.8
0.3
0.4
0.5
0.3
0.2
1
0.5
Figura 5.4
Consideriamo tre nodi (i, j = 1, 2, 3) di un generico grafo i quali per esempio

a seguito di indagini statistiche effettuate su determinati campioni rappresentativi
degli stati di un sistema risultano collegati fra loro con le probabilità di transizione
indicate in Fig. 54.
140
PROCESSI STOCASTICI
Supponiamo di dover studiare una successione di transizioni tra questi stati, che
avviene in successivi istanti t1 , t2 , . . . tn , . . . sempre con le medesime probabilità di
transizione, e a partire dallistante t0 nel quale lo stato del sistema si trova nel
nodo 2 con probabilità 1. Si ha un problema di questo tipo, per esempio, quando
si studia il flusso di abitanti tra centri urbani limitrofi, oppure le variazioni della
concentrazione di un elemento inquinante in ambienti collegati, ecc. Il suo modello
matematico naturale è una catena di Markov omogenea definita sullo spazio degli
stati E = (1, 2, 3) in cui le variabili casuali Xn = X(tn ) possono assumere i valori di
E con probabilità da determinare. E nota la legge iniziale perche per t = t0 si ha
P (X0 = 1) = 0, P (X0 = 2) = 1, P (X0 = 3) = 0, e quindi
v = (v1 , v2 , v3 ) = (0, 1, 0).
Se pij è la probabilità di transizione dallo stato i allo stato j, essa si trova sulla
iesima riga e jesima colonna della matrice di transizione della catena, che vale
P = 0.4
0.8 0.2
0.3
0.5 0.5
0.3 .
Se vogliamo conoscere la legge w(1) dello stato X1 = X(t1 ) basta applicare a v questa
matrice di transizione. Si scrive allora
(1)
(1)
(1)
(w1 , w2 , w3 ) = (0, 1, 0)P

e si ottiene:
w(1) = (0.4, 0.3, 0.3)
ossia: dopo un passo della catena il sistema si trova nello stato 1 con probabilità 0.4
e negli stati 2 o 3 con probabilità 0.3. Si noti che il risultato è conforme agli assiomi
della probabilità totale, perche in t = t1 la somma delle probabilità degli stati deve
essere uguale allunità.
Se ora vogliamo conoscere la legge dello stato X2 = X(t2 ) si può applicare la matrice
di transizione al vettore riga w(1) appena trovato; ma è anche possibile calcolare
subito w(2) a partire dallo stato iniziale, scrivendo:
(2)
(2)
(2)
(w1 , w2 , w3 ) = (0, 1, 0)P2

dove
0.42 0.34
0.24
P = PP = 0.27
0.56
0.17 .
0.2
0.55
0.25
141
Si ricava in ogni caso:

w(2) = (0.27, 0.56, 0.17)
che definisce univocamente la legge della catena dopo due passi, e cos si può proseguire per n = 3, 4, . . . . /
5.4.2
Classificazione degli stati
Nella teoria delle catene di Markov, dati due stati i, j E si dice che i comunica
(n)
con j se esiste un intero n > 0 tale che pij > 0, e si scrive in tal caso: i j.
Ciò significa che nella catena è possibile passare dallo stato i allo stato j in n passi.
Si badi che i j non implica necessariamente linverso: j i; si può tuttal pi`
u
affermare che:
i j, j h
ih
(n)
(m)
perche se esistono n, m tali che pij > 0, pjh > 0, allora

(n+m)
pih
X (n) (m)
(n) (m)
pik pkh pij pjh > 0
e quindi i comunica con h (attraverso j).

Due stati (i, j) comunicano se esistono due interi n, m (anche diversi) tali che
(n)
(m)
pij > 0 e pji > 0, ovvero se è possibile passare da i a j in n passi e la j ad i in m
passi.
Un sottoinsieme C E è una classe chiusa se gli stati di C non comunicano con
gli stati appartenenti allinsieme complementare di C in E. Se Xk C, allora per
qualsiasi n k si avrà Xn C, e pertanto se la catena raggiunge una classe chiusa
vi resterà per sempre.
Una classe chiusa C è irriducibile se e solo se tutte le coppie dei suoi stati
comunicano fra loro. Se lunica classe irriducibile è E, allora la stessa catena di
Markov si dice irriducibile, perche tutti i suoi stati comunicano.
Se invece uno stato costituisce da solo una classe irriducibile, questo stato si
chiama assorbente.
(m)
Se esiste un intero m > 0 tale che pij > 0 per ogni coppia (i, j), la matrice di
transizione P si dice regolare e tale è la catena di Markov associata a tale matrice
regolare. Una catena regolare è irriducibile, ma non vale sempre linverso: esistono
catene irriducibili che non sono regolari. Un criterio sufficiente per la regolarità della
catena è il seguente:
Se la catena è irriducibile e inoltre esiste un h E tale che phh > 0, allora la
catena è regolare.
142
PROCESSI STOCASTICI
Stati transitori e ricorrenti. Indichiamo con j () = min[n : Xn () = j] la

variabile aleatoria che definisce il primo istante in cui la catena di Markov visita lo
stato j. Il numero ij = P (j < +|Xn = i) è la probabilità che la catena visiti
prima o poi lo stato j partendo dallo stato i. Uno stato si dice transitorio se ii < 1,
vale a dire se con probabilità maggiore di zero la catena che parte dallo stato i non
vi ritorna pi`
u. Si dice ricorrente (o anche persistente) se ii = 1, ovvero prima o poi
vi ritorna con probabilità 1.
In una catena irriducibile tutti gli stati sono ricorrenti. Se linsieme E degli stati
è finito, uno stato i è transitorio se e solo se esiste uno stato j tale che i j ma j
non comunica con i.
Nella catena dellEsempio 5.8 (e illustrata dal grafo di Fig. 5.4) tutti gli stati comunicano, perche P2 ha elementi che sono tutti > 0. Quindi la catena è irriducibile
e non ci sono stati assorbenti. Inoltre, poiche nella matrice di transizione esiste un
h = 2 tale che p22 > 0, è soddisfatta la condizione sufficiente per affermare che la
catena è anche regolare. Tutti gli stati sono ricorrenti perche prima o poi la catena
ritorna in ciascuno di essi; non esistono stati transitori.
Esempio 5.9
Consideriamo il grafo di Fig. 5.5 nel quale cinque nodi, numerati progressivamente,
sono tra loro variamente collegati e supponiamo che il passaggio tra i nodi avvenga
nel verso indicato e con le probabilità indicate.
0.5
1
0.5
1
0.5
2
0.25
0.25
5
3
4
1
Figura 5.5
A questo grafo si può associare una catena di Markov costituita da cinque stati,
identificati dal vettore E = {1, 2, 3, 4, 5} con matrice di transizione
143
1/2
1/2
P= 0
1
0
0 0
0 1/4
0
1
0
0
1
0
1/2
0
0
0
0
0
1/4
0
0
i cui elementi pij coincidono con le probabilità di transizione assegnate in figura. Si

noti anzitutto che la somma degli elementi su ogni riga vale 1 (probabilità dellevento
certo). Inoltre:
Poichè p3,3 = 1, una volta che la catena entra nello stato 3 non vi esce pi`
u. Lo
stato 3 è assorbente e quindi ricorrente.
Gli stati 1 e 4 comunicano tra loro ma non con gli altri stati. La classe {1, 4}
è chiusa e irriducibile.
Gli stati 2 e 5 sono transitori poiche la catena che parte da uno di essi, con
probabilità maggiore di zero non vi ritornerà pi`
u andando a finire o nella classe
irriducibile {1, 4} o nello stato assorbente.
In conclusione la catena è lunione di due classi irriducibili I1 = {3}, I2 = {1, 4} e
di un insieme T = {2, 5} di stati transitori:
E = I1 I2 T.
5.4.3
Probabilit`
a invarianti
Supponiamo che linsieme E degli stati sia finito, con cardinalità N . Una probabilità
v = (v1 , v2 , . . . , vN ) si dice invariante o stazionaria se
v = vP ,
(5.12)
ovvero se la transizione da uno stato con legge v riproduce uno stato con la medesima
legge. Se gli stati iniziali di X0 hanno una legge stazionaria, allora Xn ha legge
w = vPn = vPPn1 = vPn1 = . . . = v,
per cui se la legge iniziale è stazionaria, tutte le Xn hanno la stessa legge.
Si può dimostrare (Teorema di MarkovKakutani) che una matrice di transizione su
un insieme finito di stati ha sempre almeno una probabilità invariante. Per la sua
unicit`
a è però necessario che la matrice di transizione sia anche regolare nel senso
definito nel paragrafo precedente. Vale infatti a tale proposito il
144
PROCESSI STOCASTICI
TEOREMA DI MARKOV. Se P è una matrice di transizione regolare si ha

(n)
lim p
n ij
= j
dove = (1 , . . . , N ) è lunica probabilità invariante di P.

Una importante conseguenza del Teorema di Markov è la seguente. Se v è la legge iniziale degli stati della catena, sappiamo che la legge di Xn è w = vPn . La probabilità
che Xn assuma il valore j si può scrivere
P (Xn = j) =
(n)
vi pij
iE
che per n tende a

lim P (Xn = j) =
vi j = j .
iE
Questo mostra che qualunque sia la legge iniziale degli stati della catena, la legge di
Xn converge alla distribuzione invariante .
Per la definizione espressa con la (5.13), questa distribuzione invariante soddisfa
lequazione matriciale:
[P I] = 0
dove I è la matrice identica. Perche essa abbia soluzioni non banali occorre che
det[P I] = 0, ovvero che = 1 sia un autovalore di P. Dunque è lautovettore
riga associato allautovalore unitario della matrice regolare di transizione, e le sue
componenti j si possono ricavare risolvendo il seguente sistema lineare di N equazioni:
j = 1, . . . , N :
j =
N
X
pij i
(5.13)
i=1
in modo che siano soddisfatte le condizioni

j 0;
N
X
j = 1
(5.140 )
j=1
stabilite dagli assiomi della probabilità.

La catena dellEsempio 5.8 è regolare: quindi per il Teorema di Markov i suoi stati
convergono ad ununica probabilità invariante che si può determinare applicando le
(5.13) le quali richiedono unicamente la conoscenza della matrice di transizione. Si
ha cos il sistema lineare:
1 = 0.42 + 0.53
145
2 = 0.81 + 0.32 + 0.53

3 = 0.21 + 0.32
il quale, tenuto conto della condizione (5.14), ha questa unica soluzione:
= (0.30054, 0.4918, 0.20766).
(5.14)
Si può dunque affermare che la catena, con il trascorrere del tempo (ovvero in una
successione di infinite transizioni che avvengono con le probabilità indicate) cadrà
in uno dei tre stati rispettivamente con le probabilità invarianti date dalla (ref5e15).
Esempio 5.10
Nel grafo di Fig. 5.6 sia E = {1, 2, 3, 4, 5} linsieme dei suoi nodi. Assumiamo che dal
nodo i = 1, 2, . . . , 5 avvengano transizioni casuali ad un nodo adiacente, con eguale
probabilità di passaggio a tutti i nodi contigui. Se indichiamo con ki il numero dei
5
3
4
Figura 5.6
nodi adiacenti alliesimo, con questa ipotesi si definisce su E una catena di Markov
con le seguenti probabilità di transizione:
pij =
1/ki
0
se j è adiacente a i
altrimenti.
Pertanto la matrice di transizione della catena vale
0 1/3 0
1/3 1/3
1/3
0 1/3 0 1/3
P = 0 1/3 0
1/3 1/3 .
1/3
0 1/3 0 1/3
1/4 1/4 1/4 1/4 0
Questa è una matrice regolare: infatti, qualunque sia lo stato iniziale della catena,
dopo un passo il processo si può trovare con probabilità non nulla in ciascuno degli
altri stati. Ciò ci assicura che P2 è composta da elementi tutti positivi, e soddisfa
la definizione di regolarità con m = 2. Per il Teorema di Markov esiste dunque una
unica probabilità invariante = {1 , . . . , 5 } per gli stati della catena. Questa si
determina cercando la soluzione del sistema (5.13) che nel nostro caso si scrive:
1 =
1
1
(2 + 4 ) + 5
3
4
146
PROCESSI STOCASTICI
1
1
(1 + 3 ) + 5
3
4
1
1
(2 + 4 ) + 5
3
4
1
1
(1 + 3 ) + 5
3
4
1
(1 + 2 + 3 + 4 ).
3
2 =
3 =
4 =
5 =
La sua soluzione soddisfacente la (5.14) è:
3 3 3 3 1
, , , ,
.
16 16 16 16 4
Qualunque sia la legge iniziale degli stati della catena, per n essa tende alla
legge ora calcolata. Ad esempio, se supponiamo di partire dal centro del grafo,
assumeremo la legge iniziale v = {0, 0, 0, 0, 1}. Dopo un passo gli stati della catena
hanno legge:
1 1 1 1
w(1) = vP =
, , , ,0 ;
4 4 4 4
dopo due passi:
(2)
=w
(1)
P=
1 1 1 1 1
, , , ,
6 6 6 6 3
e al crescere del numero n di passi le componenti di w(n) tendono a j , j = 1, 2, . . . , 5.
STATISTICA DESCRITTIVA
6.1
Introduzione
Una valutazione approssimata della misura di probabilità da assegnare a un evento

casuale si può effettuare in modo empirico se, sulla base della definizione frequentista di probabilità già accennata nella Introduzione del Capitolo I, si determina
la frequenza degli esiti favorevoli di un esperimento casuale ripetuto n volte. Se
lesperimento ripetuto consiste nella rilevazione di certe caratteristiche di una popolazione (o universo), ovvero di un generico insieme di N oggetti o individui (con
N che può anche essere infinito), il risultato di n prove è una serie di dati, la cui
analisi porta a determinare una legge di probabilit`
a empirica per la caratteristica
della popolazione che vogliamo studiare.
E bene precisare subito che le serie di dati da esaminare statisticamente sono quelle
che si deducono dalla osservazione di un campione della popolazione, ossia di un numero n limitato (e possibilmente piccolo) dei suoi N elementi. Per ottenere risultati
attendibili sulle caratteristiche dellintera popolazione, occorre perciò che i campioni siano adeguatamente scelti in modo da essere effettivamente rappresentativi
delluniverso dal quale sono stati estratti. In secondo luogo, occorre sviluppare
i metodi che attraverso lanalisi dei campioni consentano di stimare in modo attendibile le caratteristiche o parametri della popolazione che si intende esaminare.
Il campionamento e i metodi di stima dei parametri sono oggetto della Statistica
inferenziale, di cui ci occuperemo nei Capitoli che seguono. In questo Capitolo ci
limiteremo, in via preliminare, ad esporre le tecniche in uso per lorganizzazione
degli n dati raccolti, e per la rappresentazione delle probabilità empiriche che da
essi si deducono.
Le n osservazioni effettuate possono avere come obiettivo la definizione di caratteri
qualitativi della popolazione, consistenti in certe caratteristiche di natura non numerica (come ad esempio il colore, il grado di istruzione, lattività professionale, la
preferenza per un candidato,...) oppure di caratteri quantitativi (ad es. il peso, la
lunghezza, il reddito,...) che si riferiscono invece a qualsiasi grandezza misurabile.
A loro volta, i caratteri quantitativi possono essere discreti se assumono solo un
147
148
numero limitato di valori, oppure continui con valori in un assegnato intervallo di

IR.
Nei riguardi dei possibili risultati dellesame di un carattere qualitativo, che sono
chiamati modalità, osserviamo che in certi casi essi sono comunque suscettibili di un
ordinamento (come ad esempio il grado di istruzione sopra citato), mentre spesso
non hanno alcun ordinamento rispetto alle altre modalità (il colore, il sesso,...). In
entrambi i casi, è sempre possibile associare a ciascuna modalità un numero reale,
in modo che la serie di dati risultante dalle osservazioni sia ancora riconducibile ad
un insieme di numeri reali, definito su un sottoinsieme (discreto) di IR.
Nel seguito illustreremo le tecniche che si utilizzano per descrivere serie di dati
relativi a tutti quei caratteri di una popolazione che siano comunque rappresentabili
con punti discreti dellasse reale, oppure appartenenti ad uno o pi`
u intervalli di IR.
6.2
Distribuzioni di frequenze
Consideriamo dunque una serie di n dati numerici {x1 , x2 , . . . , xn } ricavati da altrettante osservazioni fatte sugli elementi di una popolazione, e relativi ad un suo
carattere quantitativo X continuo, oppure discreto ma con un numero elevato di
modalità. Questi dati si chiamano determinazioni di X oppure realizzazioni o valori
empirici. Indicato con IR linsieme delle modalità del carattere, definiamone
una partizione {i }, i = 1, . . . , m in m classi tra loro disgiunte, tale che la loro
unione coincida con , e con intervalli i aperti a destra:
i = [ai , bi ),
i ,
i j = ,
i 6= j = 1, 2, .., m.
Ad ogni classe i , avente ai e bi come confini inferiore e superiore, si associa poi la

sua ampiezza bi ai (non necessariamente uguale per ogni indice i) e il suo valore
centrale xi che è la semisomma dei suoi confini.
La scelta delle classi i è arbitraria, ma deve essere fatta in modo da ottenere una
rappresentazione significativa dei dati raccolti sul carattere da studiare: è preferibile
che il loro numero sia elevato, ma nello stesso tempo occorre evitare di definire
intervalli parziali che contengano pochi dati della serie. Di regola, è bene che i dati
in ciascuna classe siano maggiori o uguali a 5, e si sceglie un numero di classi che
non si scosti troppo dalla parte intera di m0 = 1 + (10/3) log10 n.
Se la serie si riferisce a un carattere discreto con modalità appartenenti allinsieme
IN dei numeri naturali, si può assumere queste modalità come valori centrali di
altrettante classi di ampiezza uguale e unitaria.
Poiche per definizione ogni dato raccolto appartiene ad una ed una sola classe i
della partizione, si può procedere al calcolo delle seguenti quantit`
a:
6.2 Distribuzioni di frequenze
149
la frequenza assoluta ni di ciascuna classe (a volte chiamata anche incidenza)

che è il numero di elementi della serie che appartengono alla classe i . Si noti
che si avrà: n1 + n2 + . . . + nm = n;
la frequenza relativa fi = ni /n di ciascuna classe, detta anche probabilità
empirica, e tale che f1 + f2 + . . . + fm = 1.
la frequenza cumulata Ni , somma delle prime i frequenze assolute:
Ni = n1 + n2 + .. + ni =
i
X
nj ;
j=1
la frequenza cumulata relativa Fi , somma delle prime i probabilità empiriche:

Fi = f1 + f2 + . . . + fi =
i
Ni
1X
=
nj .
n
n j=1
Con i dati raccolti si può costruire un istogramma che rappresenta la distribuzione

delle frequenze per ciascuna classe del campione. Questa si ottiene riportando sulle
ascisse le varie classi i , e sulle ordinate i valori della funzione costante a tratti:
ni
,
x i , i = 1, .., m
n (x) =
i
che misura la frequenza assoluta per unità di ampiezza della classe i . Per semplicità
di scrittura, in questa formula e in quelle che seguono indichiamo con il simbolo i
sia la i-esima classe, sia la misura della sua ampiezza bi ai . In tal modo ciascun
rettangolo dellistogramma ha unarea proporzionale alla frequenza assoluta ni , e la
sua area totale è proporzionale alla numerosit`
a n della serie di dati.
In modo analogo si può costruire listogramma delle frequenze relative, chiamato anche distribuzione delle probabilità empiriche. Esso si ottiene riportando la funzione
costante a tratti:
fi
ni
fn (x) =
,
x i , i = 1, .., m
ni
i
e la sua area complessiva è uguale ad 1 (ovvero alla probabilità dellevento certo).
Una distribuzione di frequenze relative, riguardante il campione esaminato nellEsempio
6.1 che segue, è mostrata in Fig. 6.1. Al crescere della numerosit`
a n del campione e
per intervalli parziali i sufficientemente piccoli, la funzione fn (x) sarà una buona
approssimazione della densità di probabilità fX (x) di quel particolare carattere X
della popolazione da cui è stato estratto il campione. Se la popolazione è composta
da infiniti elementi, nel passaggio al limite si ha:
Z
ni
lim
lim fi = IP(X i ) =
fX (x)dx.
n n
n
i
Agli istogrammi delle frequenze si possono associare:
150
il poligono delle frequenze relative, che unisce le ordinate fn (xi ) calcolate in

corrispondenza dei valori centrali xi delle singole classi (v. Fig. 6.1). Se si
effettua il doppio passaggio al limite di fn (xi ) per n e i 0, i,
il poligono delle frequenze relative tende al grafico della densità fX (x) del
carattere X dellintera popolazione;
il grafico delle frequenze cumulate Ni e delle frequenze cumulate relative Fi .
Un esempio di questultimo è mostrato in Fig. 6.2. Al crescere di n e per i sufficientemente piccoli, esso approssima il grafico della funzione di distribuzione
cumulata FX (x) della variabile casuale X() che rappresenta il carattere della
popolazione oggetto di studio.
Alla distribuzione delle frequenze cumulate si associa spesso un grafico chiamato ogiva, il quale è la spezzata che unisce i punti (sup i , Ni ) di ogni classe, a
partire dal punto (a1 , 0) coincidente con lestremo inferiore della prima classe.
Con lo stesso criterio, si costruisce anche logiva percentuale che unisce i punti
(sup i , Fi ) nella distribuzione delle frequenze cumulate relative. Logiva percentuale (v. Fig. 6.2) fornisce una immediata valutazione approssimata (per
difetto) della percentuale di elementi del campione che hanno un valore minore
o uguale a una quantità prefissata.
6.3
Indici di tendenza centrale e di dispersione
6.3.1
Medie, moda, mediana, quantili
Cos come nel calcolo delle probabilità si usano i momenti per individuare alcune
proprietà rappresentative della distribuzione probabilistica di una variabile aleatoria,
nella Statistica descrittiva si definiscono i seguenti parametri di posizione per le
distribuzioni di frequenze.
La media pesata
x=
m
1X
ni xi
n i=1
(6.1)
dove xi è il valore centrale delle classi. Se la serie di dati non è raggruppata in

classi, in modo che m n e ni = 1 per ogni i, allora x è la media aritmetica,
che in generale non è uguale alla media pesata.
La media spuntata xt (trimmed mean), che è la media dei dati calcolata considerando solo il 90% (o qualche altra percentuale) dei dati centrali. Essa si
determina ordinando anzitutto la serie dei dati secondo la sequenza crescente:
x1 x2 x3 . . . xn
(6.2)
6.3 Indici di tendenza centrale e di dispersione
151
Si eliminano il primo 5% e lultimo 5% dei dati della serie cos ordinata, e si

effettua la media (6.1) dei rimanenti.
La moda (Mo), che è il valore centrale della classe con la frequenza pi`
u elevata. Se esiste pi`
u di una classe con un valore massimo delle frequenze, la
distribuzione è detta multimodale e questo parametro perde il suo significato
di indice di posizione centrale.
La mediana x
, che si può definire come il valore di x che divide in parti uguali
la superficie coperta dallistogramma delle frequenze relative. Se i dati xi sono
n determinazioni del carattere X(), la mediana è tale che
IP(X x
) = IP(X > x
) = 1/2.
Per calcolare la mediana bisogna fare riferimento alla serie di dati ordinata come
nella (6.2), e si determina la classe k = [ak , bk ) con indice k = 1, 2, . . . , m alla
quale appartiene l(n/2)-esimo dato nella serie cos ordinata, se n è pari, oppure
l(n + 1)/2-esimo dato della serie, se n è dispari.
Se nk , fk sono la frequenza assoluta e relativa di questa classe e Nk1 , Fk1 sono le
frequenze cumulate della classe che la precede, allora per la definizione di mediana
deve essere:
Z x
Nk1
nk
Nk1
nk
1
=
+
dx =
+
(
x ak )
2
n
n
nk
ak nk
per cui il valore delle mediana risulta:
k
x
= ak +
nk
n
k
Nk1 = ak +
2
fk
1
Fk1 .
2
(6.3)
Quando la serie di dati non è raggruppata in classi, allora si procede some segue.
se n è dispari, la mediana x
coincide con il dato che occupa la (n + 1)/2-esima
posizione nella serie ordinata;
se n è pari, la mediana è la media aritmetica tra i due dati della serie ordinata
che occupano la (n/2)-esima posizione e quella successiva.
Per distribuzioni unimodali (in cui listogramma delle frequenze ha un solo massimo)
e simmetriche, i quattro parametri di posizione ora definiti coincidono, ma in generale
ciò non avviene.
Quantile. In modo analogo alla mediana, si definiscono in Statistica altri indici
di posizione chiamati quantili o frattili, i quali suddividono lasse reale (sul
quale si riportano le modalità del carattere) in due intervalli con probabilità
152
assegnata. Precisamente, dato il reale q [0, 1], si chiama quantile q-esimo del
carattere X() il valore xq IR tale che
IP(X xq ) = FX (xq ) = q
ovvero: è il valore massimo delle modalità per cui la frequenza cumulata relativa non supera il valore q.
Se la funzione di distribuzione cumulata FX (x) di X() è continua e invertibile,
allora si deduce subito che xq = FX1 (q). Se espressi in percentuale, i quantili
vengono chiamati percentili, e inoltre in casi particolari assumono anche nomi affini.
Ad esempio: il decimo quantile x0,1 è chiamato primo decile; il quantile x0,25 è il
primo quartile; il quinto decile x0,5 non è altro che la mediana x
, e cos via.
Quando i dati della serie ordinata sono raggruppati in classi, il suo quantile di ordine
q si determina come per la mediana. Precisamente, indicata con k la classe cui
appartiene l(n q)-esimo dato, se n è pari, oppure l(n + 1) q-esimo dato, se n è
dispari, allora ripetendo il calcolo già fatto per la mediana risulta:
xq = ak +
k
k
(nq Nk1 ) = ak +
(q Fk1 )
nk
fk
(6.30 )
che si riduce alla (6.3) per q = 0.5.

Quando invece i dati non sono raggruppati in classi, il suo quantile di ordine q si
definisce come quel dato che è preceduto da (n q) dati della serie ordinata. Quindi
si trova nella (n + 1) q-esima posizione della sequenza x1 < x2 < . . . < xk < . . . xn ,
e si calcola come segue.
- se (n + 1)q è un numero intero, allora xq coincide con l(n + 1)q-esimo dato xk
con k = (n + 1)q;
- se (n + 1)q non è intero ed è compreso tra gli interi k e k + 1, si assume come
quantile xq la media aritmetica tra i dati xk e xk+1 della serie ordinata.
Media mobile. Si usa di frequente per analizzare le serie temporali che si ottengono nel rilevamento di dati su fenomeni caratterizzati da una qualche periodicità (settimanale, mensile o stagionale, come ad esempio il traffico urbano
o aeroportuale, la vendita di quotidiani,...) per evitare che le fluttuazioni periodiche dei dati raccolti impediscano di mettere in evidenza le tendenze a medio
e lungo termine che interessa rilevare. Data la serie temporale {x1 , x2 , . . . , xn },
la sua media mobile x
t+h su ogni sequenza di k dati consecutivi è definita da
x
M (t + h) =
k
X
j=1
pj xt+j ,
con t = 0, 1, 2, . . . , n k ;
X
j
pj = 1
6.3
153
serie temporale
15
media
mobile
10
28
21
14
Figura 6.0
dove: k indica la periodicità delle rilevazioni; h (compreso tra 1 e k) è un indice

che determina la collocazione delle medie mobili allinterno dellintervallo di k
dati della serie (di solito: h = 1; h = (k + 1)/2 se k è dispari; oppure h = k);
e infine pj sono pesi che di solito si scelgono costanti (pj = 1/k, j) ma che
possono anche essere scelti arbitrariamente per rappresentare nel modo pi`
u
adeguato il particolare fenomeno rilevato con la serie statistica.
Ad esempio, si abbia la serie temporale raccolta in quattro settimane di osservazioni
giornaliere xi che è riportata nella seconda colonna della Tabella che segue.
i
xi
1
2
3
4
5
6
7
8
9
10
11
12
13
14
4
5
3
6
8
12
10
5
7
6
9
12
13
11
0
1
2
3
4
5
6
7
8
9
10
media
mobile
6,43
7,00
7,28
7,71
8,14
8,71
8,86
9,00
9,43
9,14
8,57
xi
media
mobile
15
16
17
18
19
20
21
22
23
24
25
26
27
28
8
5
2
7
8
11
14
8
5
9
12
16
14
13
11
12
13
14
15
16
17
18
19
20
21
8,28
7,71
7,43
7,86
7,51
7,86
8,86
9,57
10,71
11,14
11,00
La media mobile settimanale (k = 7) dei dati, calcolata in modo che ogni valore
sia collocato al centro dellintervallo di dati di riferimento (h = (k + 1)/2 = 4), e
assumendo pesi costanti pj = 1/7, ha il valore indicato nella quarta colonna e il suo
grafico è mostrato in Figura 6.0.
154
6.3.2
Indici di dispersione
Quando i dati sono raggruppati in classi, lindice di dispersione centrale della distribuzione di frequenze è la varianza:
2 =
m
1X
ni (xi x)2
n i=1
(6.4)
ovvero la somma dei quadrati degli scarti xi x tra ogni valore centrale e la media
pesata della distribuzione. La sua radice quadrata positiva è lo scarto quadratico
medio o deviazione standard della distribuzione.
Si chiama inoltre coefficiente di variazione il numero puro Cv = /x, rapporto tra
la deviazione standard e la media dei dati.
Se gli n dati xi non sono raggruppati in classi, la loro varianza è diversa dalla (6.4),
e vale:
n
1X
2 =
(xi x)2 .
(6.40 )
n i=1
Una interessante proprietà di questultima varianza (6.4) è la seguente. Supponiamo
che i dati osservati si riferiscano a un miscuglio di m gruppi Ai , i = 1, . . . , m (come
caso molto speciale, questo miscuglio può anche identificarsi con linsieme delle classi
i prima definite). Se ogni gruppo contiene ni dati xri con ri = 1, . . . , ni , la media
aritmetica e la varianza dei dati appartenenti a ciascun gruppo sono rispettivamente:
xAi
ni
1 X
=
xr ,
ni r =1 i
i2
fi
1 X
=
(xr xAi )2 .
fi r =1 i
(6.4)
Il parametro:
2
W
=
m
1X
ni i2
n i=1
è la media pesata delle varianze calcolate allinterno (within) dei singoli gruppi,
e si avvicina alla varianza (6.4) se tutti i gruppi riproducono in modo omogeneo la
dispersione che caratterizza gli n dati osservati. Il parametro:
2
B
=
m
1X
ni (xAi x)2
n i=1
è la varianza delle singole medie rispetto alla media aritmetica, ed è un indice della
eterogeneità tra (between) i vari gruppi. Con alcuni calcoli si può dimostrare che
la varianza (6.4) si può scomporre nella somma delle due precedenti:
2
2
2 = W
+ B
,
155
per cui si può sinteticamente esprimere come la somma tra la media delle varianze
2 e 2 pu`
e la varianza delle medie. Il confronto tra i valori di W
o essere utile per
B
effettuare una scelta corretta di un campione della popolazione, secondo le procedure
che verranno illustrate nel prossimo Capitolo.
Il momento centrale di ordine 3 di una distribuzione è, per definizione:
m3 =
m
1X
ni (xi x)3 .
n i=1
(6.5)
Questultimo è utile per calcolare il coefficiente di asimmetria della distribuzione di

frequenze, il quale è il numero puro:
3 =
m3
3
(6.6)
dove è lo scarto quadratico medio della distribuzione. Questo coefficiente è nullo

se la distribuzione è simmetrica; è negativo se è asimmetrica a sinistra (ciò si
verifica quando la moda è minore della mediana e della media); ed è positivo se la
distribuzione di frequenze è asimmetrica a destra.
Esempio 6.1
Si misura il peso X, espresso in Kg, di un campione di 100 individui estratti a caso

da una popolazione. La sequenza degli n = 100 valori osservati xi , ordinata come
nella (6.2), è la seguente:
59.6, 59.8, 60.2, 60.3, 61.8, 62.5, 62.7, 62.95, 63.3, 64.1, 64.15, 64.3, 64.4, 64.9, 65.02,
65.1, 65.15, 65.25, 65.28, 65.3, 65.35, 65.4, 65.45, 65.55, 65.6, 65.6, 65.66, 65.75, 65.9,
66, 66.1, 66.24, 66.35, 66.55, 66.6, 66.65, 66.76, 66.78, 66.9, 67, 67.1, 67.24, 67.35,
67.55, 67.6, 67.6, 67.66, 67.75, 67.79, 67.8, 67.81, 67.82, 67.85, 67.95, 68, 68.1, 68.17,
68.2, 68.29, 68.3, 68.31, 68.34, 68.35, 68.4, 68.48, 68.55, 68.6, 68.65, 68.76, 68.78,
68.9, 69, 69.1, 69.2, 69.3, 69.55, 69.6, 69.6, 69.66, 69.75, 69.79, 69.8, 69.8, 69.8, 70.8,
70.9, 71, 71.1, 71.17, 71.2, 71.29, 71.3, 71.5, 71.8, 72, 72.2, 73, 73.2, 73.8, 74.2.
Poichè il minimo vale 59.6 Kg e il massimo è 74.2 Kg, scegliamo un intervallo =
[59.5, 74.5) che contenga tutti i valori registrati, e suddividiamolo in 5 classi di eguale
ampiezza i = 3 (sebbene per la regola citata in precedenza il numero di classi pi`
u
0
adeguato sarebbe 8 perchè m = 1 + (10/3) 2 = 7.6). Utilizzando le osservazioni
fatte si può costruire la seguente tabella di contingenza:
156
classe D i
xi
ni
fi
Ni
Fi
fi
Di
[59.5 , 62.5)
61
0,05
0,05
0,0166
[62.5 , 65.5)
64
18
0,18
23
0,23
0,06
[65.5 , 68.5)
67
42
0,42
65
0,65
0,14
[68.5 , 71.5)
70
27
0,27
92
0,92
0,09
[71.5 , 74.5)
73
0,08
100
1,00
0,0266
la quale riporta: i valori centrali, le frequenze assolute e relative e quelle cumulate,

P
per ognuna delle classi scelte. Dalla tabella si può notare subito che i ni = 100 = n
P
e i fi = 1. Lultima colonna serve per costruire listogramma delle frequenze
relative che è mostrato in Fig. 6.1. Logiva percentuale è invece mostrata in Fig.
6.2. Valutando la sua ordinata per x = 70, si ricava che almeno l80% degli individui
del campione ha un peso non superiore a 70 Kg (il dato esatto, rilevato dalla serie
ordinata, è 84%).
La moda della distribuzione di frequenze è x
= 67 (il valore centrale della classe in
cui ni è massima). La media pesata vale:
x=
1
(61 5 + 64 18 + 67 42 + 70 27 + 73 8) = 67.45,
100
mentre la media aritmetica dei dati è 67.5275. La media spuntata è pi`

u vicina alla
media aritmetica: si calcola su 90 dati raggruppati nelle quattro classi superiori,
perche si ottiene tagliando le code della serie, ossia sopprimendo i primi 5 dati e
gli ultimi 5 dati della serie ordinata secondo valori crescenti. Essa vale:
xt =
1
[64 18 + 67 42 + 70 27 + 73 (8 5)] = 67.50.
90
La mediana cade nella terza classe, e applicando la (6.3) con k = 3 si ricava:

x
= 65.5 +
3
(50 23) = 67.42.
42
La varianza definita dalla (6.4) vale:

2 =
5
1 X
ni (xi 67.45)2 = 8.5275,
100 i=1
157
0.15
fi
Di
0.10
Di
0.05
xx
0
61
64
67
70
73
Kg
Figura 6.1
Fi
0.75
ogiva percentuale
0.50
0.25
61
64
67
70
73
Kg
Figura 6.2
mentre quella relativa ai 100 dati non raggruppati, definita dalla (6.4), vale 8.7092.
Se ora consideriamo separatamente i gruppi di dati appartenenti a ciascuna classe
i , le loro medie aritmetiche e varianze, fornite dalla (6.4), valgono:
x1 = 60.34
12 = 0.5984
x2 = 64.477
22 = 0.9364
x3 = 67.233
32 = 0.85716
x4 = 69.831
42 = 0.8446
x5 = 72.71
52 = 0.8486.
Si noti, in particolare, che le medie xi non sono i valori centrali xi delle classi. Si
ricavano le seguenti varianze parziali del miscuglio:
2
W
= 0.8547,
2
B
= 7.8545
la cui somma: 0.8547 + 7.8545 = 8.7092 è appunto uguale alla varianza dei dati
2 >> 2 si deduce, come daltra parte `
e ovvio, che le
non raggruppati. Poiche B
W
158
cinque classi sono molto eterogenee, ossia che non è possibile assumerne una sola per
rappresentare adeguatamente la sequenza dei dati osservati. Il momento centrale di
ordine 3 si calcola applicando la (6.5):
m3 =
5
1 X
ni (xi 67.45)3 = 2.6932,
100 i=1
per cui il coefficiente di asimmetria (6.6) della distribuzione di frequenze vale:

2.6932
= 0.14.
(8.5275)3
3 = p
Esso indica che la frequenza dei dati nelle classi inferiori alla terza (contenente la
moda) è minore della frequenza dei dati nelle classi superiori (la quarta e la quinta). /
6.3.3
Stem-and-leaf e box-plot
Ci sono altri modi per avere una rappresentazione sbrigativa, anche se grossolana,
dei dati di una serie statistica. Uno di essi è il diagramma stem-and-leaf (a ramo e
foglia) il quale si basa, come per gli istogrammi, su una preventiva suddivisione in m
classi di uguale ampiezza delle modalità di un carattere quantitativo. Si dispongono
su una colonna (il ramo) le prime cifre significative (le centinaia, o le decine
o le unità,...) dellestremo inferiore di ogni classe, e alla destra di ogni numero
incolonnato si riportano le foglie, ovvero la cifra successiva (le decine, o le unità,
o i decimi,...) di ciascun dato xi che appartiene a quella classe. Ne risulta un
diagramma di m righe si completa scrivendo in una prima colonna, posta a sinistra
del ramo, le frequenze cumulate a partire dalle due classi estreme, in modo che
risultino incolonnati i seguenti valori: N1 , N2 , . . . , 1 Nm2 , 1 Nm1 . Fa eccezione
la riga della classe che contiene la mediana, nella quale si scrive (tra parentesi) la
sua frequenza assoluta anzichè quella cumulata.
Ad esempio, data la serie statistica degli n = 11 dati seguenti:
1.7 1.9 1.95
2.11
2.2 2.25
2.4 2.52 2.85 3.1 3.35
e suddiviso linsieme dei dati in m = 3 classi di ampiezza unitaria, questo risulta

rappresentato dal seguente diagramma stem-and-leaf:
unit`
a decimi
799
(6)
122458
13.
159
Ovviamente si può costruire pi`

u di un diagramma per ciascuna serie di dati, e
la scelta pi`
u conveniente è quella che meglio illustra la disposizione dei dati nella
serie ordinata, in modo che il diagramma si presenti come una struttura a barre la
cui lunghezza ricorda, almeno grossolanamente, listogramma delle frequenze che si
ricava con le modalità precisate nel 6.2.
Se, come ulteriore esempio, riconsideriamo le serie di 100 dati esaminata nellEsempio
6.1, suddivisa in m = 8 classi di ampiezza 0.2, il suo diagramma stem-and-leaf che
ha come ramo le decine è il seguente:
decine unit`
a
99
5
9
29
(25)
46
16
6
6
6
6
6
7
001
2223
44444555555555555555
6666666666777777777777777
888888888888888889999999999999
0011111111
223334.
Se però costruiamo il diagramma a partire da un ramo che rappresenti le unità,

allora si deve considerare un numero doppio di classi (m = 16) e si ottiene uno
stem-and-leaf plot molto pi`
u dettagliato, ma anche pi`
u complicato da determinare:
unit`
a decimi
59
68
4
5
8
9
14
29
39
(15)
46
29
16
14
6
4
60
61
62
63
64
65
66
67
68
69
70
71
72
73
23
8
579
3
11349
011223344566679
0123566779
012356667788889
01122333344566779
0123566677888
89
01122358
02
028
74
2.
160
Entrambi i diagrammi rappresentano con efficacia laddensarsi dei dati nellintervallo

(65, 70) Kg. e la loro scarsa dispersione rispetto al valore centrale.
Box-plot. Un altro grafico di semplice esecuzione che si traccia per avere una
sommaria indicazione sulla distribuzione dei dati di una serie statistica è il box-plot
o diagramma a scatola.
In una cornice, con base graduata sui valori del carattere rappresentato, si disegna
una scatola rettangolare che si estende dal primo quartile x0.25 al terzo quartile
x0.75 . La differenza x0.75 x0.25 è chiamata escursione interquartile. Si suddivide
poi la scatola in due rettangoli riportando anche il valore della mediana x0.5 , e si
tracciano due segmenti esterni che collegano le parti laterali della scatola ai valori
estremi x1 ed xn della serie statistica ordinata (v. Fig. 6.3).
Il grafico che ne risulta indica in modo efficace la dislocazione della metà centrale
dei dati della serie (cioe di quel 50% dei dati che sono contenuti nella scatola) e la
eventuale asimmetria della loro distribuzione, che si riconosce subito nel caso in cui
la posizione della mediana suddivida la scatola in due parti fortemente disuguali.
a
1.5
2.0
2.5
3.0
3.5
58 60 62 64 66 68 70 72 74 76
Figura 6.3 - Esempi di diagrammi a scatola
La Fig. 6.3a) mostra il box-plot che rappresenta gli 11 dati della serie statistica
sopra introdotta. Poiche (n + 1)/4 = 12/4 = 3 è intero, il suo primo quartile è il
terzo dato della serie ordinata, e il terzo quartile è il nono dato:
x0.25 = 1.95 ;
x0.75 = 2.85.
Quindi la scatola ha una ampiezza uguale allescursione interquartile 2.851.95 = 0.9

ed è suddivisa in due parti disuguali dal valore della mediana x0.5 = 2.25, che è il
sesto dato della serie ordinata.
La Fig. 6.3b) riporta invece il box-plot relativo alla serie di 100 dati dellEsempio
6.1. Poiche (n + 1)/2 non è intero, il suo primo quartile è la media aritmetica
tra il 25-esimo e il 26-esimo dato della serie, ovvero x0.25 = 65.6 (questi due dati
sono addirittura uguali); e il terzo quartile è la media aritmetica tra il 75-esimo e il
76-esimo:
69.55 + 69.6
= 69.575.
x0.75 =
2
La mediana della serie di dati non raggruppati, che è diversa da quella prima calco-
6.4 Distribuzioni congiunte di frequenze
161
lata applicando la (6.3), è la media aritmetica tra il 50-esimo dato e il 51-esimo:

67.8 + 67.81
= 67.805.
2
Il diagramma a scatola che ne risulta rivela con buona evidenza una bassa escursione
interquartile e una moderata asimmetria della distribuzione dei dati.
x0.5 =
6.4
Distribuzioni congiunte di frequenze
I metodi di analisi dei dati raccolti che sono stati illustrati nei paragrafi precedenti
si possono impiegare anche quando il campione è la collezione di n dati riguardanti
due caratteri differenti di una medesima popolazione, che indichiamo con X e Y . In
tal caso il campione si presenta come un insieme di n coppie
(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )
(6.7)
in cui i numeri reali xk e yk , k = 1, . . . , n, sono le determinazioni di X e di Y .

Indicati con x , y IR gli insiemi delle modalità dei due caratteri, suddividiamo
x in m intervalli, y in ` intervalli, e definiamo una arbitraria partizione di =
x y IR2 in m ` classi disgiunte, costituite dai rettangoli
ij = [ai , bi ) [cj , dj ),
i = 1, 2, . . . , m;
j = 1, 2, . . . , `
aventi come valore centrale il punto

(xi , y j ) = ((ai + bi )/2, (cj + dj )/2).
Lanalisi delle coppie di dati (6.7) porta allora alla valutazione empirica approssimata
delle quantità già definite nel Capitolo 3. Precisamente, si può determinare:
il numero nij di coppie in cui la modalità di X appartiene allintervallo [ai , bi ) e
quella di Y appartiene allintervallo [cj , dj ). Questo numero nij è la frequenza
assoluta congiunta della classe ij ;
la frequenza relativa congiunta fij = nij /n che, se divisa per larea della classe
ij , porta alla costruzione di un istogramma tridimensionale rappresentante
la distribuzione delle probabilità empiriche congiunte;
la frequenza cumulata congiunta Nij , che è la somma delle frequenze assolute
congiunte delle classi rs con r i ed s j ;
la frequenza cumulata relativa congiunta Fij = Nij /n, che è la somma delle
probabilità empiriche congiunte frs con r i, s j ;
le probabilità empiriche marginali dei caratteri X e Y , che sono rispettivamente:
i = 1, . . . , m :
`
1X
fi =
nij ;
n j=1
j = 1, . . . , ` :
m
1X
fj =
nij .
n i=1
162
Lorganizzazione dei dati raccolti nel campione (6.7) si può effettuare costruendo
tabelle a doppia entrata analoghe a quella di Fig. 3.5. che riportano per ogni classe
ij i valori di una delle grandezze sopra elencate.
Covarianza
Il pi`
u importante momento centrale di una distribuzione empirica congiunta è la
covarianza dei dati su X e Y rilevati nel campione. In Statistica si usa indicarla con
sxy e, in analogia con le (3.19), (3.7) vale:
sxy
m X
`
m X
`
1X
1X
=
nij (xi x)(y j y)
nij xi y j x y
n i=1 j=1
n i=1 j=1
(6.8)
dove xi , y j sono i valori centrali di X e Y nella classe ij , e x, y sono le medie

delle distribuzioni empiriche marginali di X e Y , definite come nella (6.1). Se le
modalità delle n coppie di dati (xk , yk ) non sono state raggruppate in classi, allora
la covarianza dei dati si può calcolare con la somma:
sxy =
n
n
1X
1X
(xk x)(yk y) =
xk yk x y,
n k=1
n k=1
(6.80 )
dove x, y sono le medie aritmetiche dei dati xk e yk . Nel paragrafo che segue vedremo
come, insieme con le varianze marginali di X e Y , la covarianza (6.8) sia di fondamentale importanza per definire, attraverso lanalisi del campione (6.7), il grado di
correlazione lineare esistente tra le modalità dei due caratteri della popolazione che
sono stati esaminati.
Contingenza e indice di connessione
Supponiamo ora che i due caratteri X, Y siano statisticamente indipendenti. In tale
ipotesi, ogni realizzazione di X non è condizionata dalle realizzazioni di Y o viceversa, e ricordando la proprietà (3.12) del Capitolo 3 le frequenze relative congiunte
fij = nij /n rilevate dal campione dovrebbero teoricamente essere uguali al prodotto:
fi fj = (ni /n)(nj /n) delle probabilità empiriche marginali, per ogni i = 1, . . . , m e
j = 1, . . . , `. E assai raro che ciò si verifichi in una generica coppia del campione
esaminato, e per valutare in che misura sia rispettata nel campione questa legge di
indipendenza si può determinare la differenza tra queste due quantit`
a, moltiplicate
per n. Il parametro statistico che ne risulta è
cij = nij
ni nj
n
e si chiama contingenza della coppia (i, j). Poichè coinvolge unicamente le frequenze
assolute (miste e marginali) delle varie classi, essa si può impiegare anche quando si
è in presenza di caratteri qualitativi di una popolazione (mentre invece la covarianza
si riferisce esclusivamente a caratteri quantitativi).
Pi`
u utile ai fini pratici è un indice che si basa sulla media quadratica delle contingenze
rilevate per ogni coppia del campione, che prende il nome di indice di connessione
6.5 Regressione lineare
163
2 di Pearson ed è cos definito:

2 = n
m X
`
X
(nij ni nj /n)2
ni nj
i=1 j=1
m X
`
X
n2ij
= n
1 .
i=1 j=1
ni nj
Questo indice, che è nullo solo quando tutti i dati del campione soddisfano rigorosamente la già citata legge di indipendenza (3.12), è usato nei tests che saranno
trattati nel 10.3 del Capitolo 10, atti a verificare ipotesi di indipendenza statistica
tra due caratteri qualsiasi di una popolazione.
6.5
Regressione lineare
Supponiamo di essere interessati a scoprire se e come il carattere Y della popolazione

è in qualche modo legato al carattere X. Se riportiamo sul piano (x, y) i punti con
coordinate (xk , yk ) forniti dal campione (6.7), si ottiene un cosiddetto diagramma
di dispersione (del tipo che verr`
a mostrato in Fig. 6.4), dal quale si può in certi
casi intuire che il carattere X influenza il carattere Y . Una valutazione statistica
quantitativa di come ciò avviene si ha solo se si ipotizza una relazione analitica
y = f (x) in cui le modalità di Y sono espresse in funzione di quelle del carattere X,
pensato come una variabile indipendente. La stima di questa funzione è chiamata
regressione di Y su X.
La scelta della legge f dipende ovviamente da caso a caso, ma quella che si usa di
solito è anche la pi`
u semplice: la funzione lineare. In altre parole, si effettua una
regressione lineare quando si ipotizza che i dati yk forniti dal campione (6.1) siano
deducibili dai dati xk secondo la legge:
y = f (x) = a + bx
(6.9)
e si determinano i coefficienti a, b in modo che la stessa descriva nel miglior modo

possibile il legame tra i dati osservati nel campione.
La determinazione di a, b viene fatta minimizzando lo scarto quadratico medio tra
tutti i valori yk osservati e quelli che si ottengono in funzione di xk dalla relazione
lineare (6.9). Questo scarto quadratico medio vale:
S(a, b) =
n
n
1X
1X
[yk f (xk )]2 =
(yk a bxk )2
n k=1
n k=1
(6.10)
e, interpretato come funzione dei coefficienti incogniti a, b, ha derivate parziali

S
a
S
b
n
2X
(a yk + bxk )
n k=1
n
2X
(bx2 xk yk + axk )
n k=1 k
164
le quali si annullano per

bX
1X
yk +
xk = 0
n k
n k
bX 2 1X
aX
xk
xk yk +
xk = 0.
n k
n k
n k
(6.11)
Ricerchiamo i punti di stazionarietà di S(a, b). Dal sistema (6.11) si ricava:

bX
1X
yk
xk = y bx
n k
n k
bX 2 1X
x
xk yk + x(y bx) = 0
n k k n k
a=
dove x, y sono i valori medi di X, Y . Usando ora lespressione (6.8) della covarianza
dei dati, si ottiene:
sxy
sxy
a = y 2 x,
b= 2
(6.12)
x
x
dove x2 è la varianza della distribuzione marginale di X.
Il punto di stazionarietà (6.12) è un minimo per S(a, b). Infatti, sia le derivate
seconde di S(a, b) che il determinante della matrice Hessiana sono positivi:
2S
a2
= 2;
det(H) =
2S
2X 2
x > 0;
=
2
b
n k k
2S 2S
a2 b2
2S
ab
!2
2S
= 2x
ab
1X 2
=4
x x2
n k k
= 4x2 > 0.
Se ne conclude che la stima migliore dei valori del carattere Y , fatta sulla base delle
osservazioni del carattere X secondo la legge lineare (6.9), è fornita dalla retta di
regressione:
sxy
y = y + 2 (x x)
(6.13)
x
il cui coefficiente angolare è direttamente proporzionale alla covarianza dei dati
(xk , yk ). Se indichiamo con
= x x,
=yy
(6.14)
gli scarti delle due modalità rispetto alle loro medie aritmetiche, la (6.13) si scrive
pi`
u semplicemente:
= b
(6.130 )
che nel piano traslato (, ) con origine in (x, y) è lequazione della retta di regressione
per gli scarti (di Y su X) rispetto alle loro medie. Il coefficiente b, definito nella
(6.12), si chiama coefficiente di regressione lineare di Y su X, ed è il parametro pi`
u
6.5 Regressione lineare
165
importante nella stima della regressione che abbiamo effettuato: esso è una misura
della variazione del carattere Y per una assegnata variazione del carattere X.
La legge lineare (6.13) non è esatta: esiste una differenza tra f (xk ) = a + bxk e i
dati yk effettivamente osservati. Questa differenza si chiama residuo:
rk = yk f (xk ) = yk a bxk
ed in generale è diversa da zero per ogni k. Tuttavia, la somma dei residui è nulla:
infatti ricordando il risultato (6.12) si ha sempre:
X
rk =
(yk a bxk ) = n(y a bx) = 0.
Se valutiamo lerrore commesso, calcolando il minimo dello scarto quadratico medio

S(a, b), che si ha per a, b definiti dalla (6.12), questo errore minimo fornisce una
indicazione quantitativa sulla validit`
a della ipotesi fatta sulla dipendenza lineare di
Y da X. Sostituiamo nella (6.10) le espressioni (6.12) di a, b, usando le definizioni
(??) degli scarti , . Si trova che lerrore quadratico medio di cui sono affette le
(6.13), (6.13) vale:
1X
sxy
k 2 k
n k
x
s2xy X 2 2sxy X
1X 2
k +

k k =
n k
nx4 k k
nx2 k
y2
s2xy
s2xy
s2xy
+ 2 2 2 = y2 1 2 2
x
x
x y
=
dove:
(X, Y ) =
= y2 [1 2 (X, Y )]
sxy
[1, 1]
x y
è il coefficiente di correlazione tra i dati delle coppie (cfr. la 3.9), detto anche
coefficiente di determinazione lineare.
Dunque, la stima effettuata mediante la relazione lineare (6.13) è esatta se || = 1 e
in tal caso si dice che esiste una perfetta correlazione tra X ed Y . La stima è valida
se || è molto prossimo a 1, e non è efficace per piccoli valori di ||, perche allora
i caratteri X e Y sono scarsamente correlati e lerrore quadratico medio cresce,
avvicinandosi al valore y2 della varianza dei dati yk , che può anche essere elevata.
Al limite per 0, la covarianza sxy e il coefficiente di regressione b tendono a
zero, con la conseguenza che i valori stimati di yk tendono alla loro media aritmetica
y. In questo caso limite i caratteri X e Y sono non correlati, nel senso che non si
può dire che esista una relazione lineare che lega le loro realizzazioni.
Dobbiamo però anche osservare che la non correlazione non esclude la possibilità di
una loro dipendenza con legge diversa da quella lineare (per esempio: quadratica,
come descritto nel 6.7 che segue). A conferma di questa affermazione basta ricordare
che la non correlazione è una proprietà pi`
u debole della indipendenza statistica
(3.1.1, 3.1.2).
166
La radice quadrata positiva dellerrore sopra calcolato si chiama errore standard

xy della regressione lineare, e vale:
q
xy = y 1 2 (X, Y ).
(6.14)
Esempio 6.2
Da n = 12 osservazioni dei caratteri X e Y di una popolazione si ricavano le seguente

coppie di dati (xk , yk ):
(65, 68)
(68, 69)
(68, 71)
(63, 66)
(62, 66)
(67, 67)
(67, 68)
(70, 68)
(69, 68)
(64, 65)
(66, 65)
(71, 70)
che in Fig. 6.4 sono rappresentate da 12 punti del piano (x, y). Si vuole verificare
se, e con quale errore standard, si può affermare che le modalità di Y dipendono da
quelle di X con una legge di regressione lineare del tipo (6.13).
y
sxy
72
70
68
. .
.
.
. .
66
64
62
y = a + bx
x
60
62
64
66
68
70
72
74
Figura 6.4 - Regressione lineare
Le medie aritmetiche e le varianze marginali valgono:

x =
y =
x2 =
y2 =
1 X
800
xk =
= 66.6
12 k
12
1 X
811
yk =
= 67.583
12 k
12
1 X 2
53418
4444.44 = 7.056
x x2 =
12 k k
12
54849
1 X 2
4567.5 = 3.243.
y y2 =
12 k k
12
La covarianza della coppie di dati, da calcolare applicando la (6.8), vale:

sxy =
1 X
54107
4505.55 = 4508.916 4505.55 = 3.36117.
xk yk 66.6 67.583 =
12 k
12
6.6 Regressione multipla
167
Ne segue, applicando la (6.12), che i coefficienti a, b della retta di regressione di Y

su X valgono:
3.36117
= 0.4763
7.056
a = 67.583 0.4763 66.6 = 35.826.
b =
Sulla base dei valori osservati, la migliore stima dei valori di Y è dunque fornita
dalla retta di regressione:
y = 35.826 + 0.4763 x
che è indicata in Fig. 6.4, e nel piano traslato degli scarti (, ) con origine nel punto
(x = 66.6, y = 67.583) ha equazione
= 0.4763 .
Per valutare lerrore quadratico medio della regressione effettuata, è sufficiente
calcolare ancora il coefficiente di correlazione delle coppie di dati, che vale:
(X, Y ) =
3.36117
sxy
=
= 0.7027.
x y
2.656 1.8
Il suo valore ragionevolmente vicino allunità indica che la legge di dipendenza

lineare di Y da X può essere sostenuta, almeno in un modello di previsione statistica
di prima approssimazione. Da questo calcolo si ricava:
= y2 [1 2 (X, Y )] = 3.243(1 0.49378) = 1.6416
la cui radice quadrata è lerrore standard della regressione lineare:
xy = = 1.28125.
Se si riportano in Fig. 6.4 le rette di equazione y = a + bx xy , si può osservare
che nella regione compresa tra queste due rette cadono 8 dei 12 punti campionari:
dunque internamente alle due rette si trova il 66.6% delle osservazioni registrate
nel campione con numerosità n = 12. Questo risultato percentuale dà una indicazione approssimata sulla significatività della regressione effettuata. Nellambito
della teoria dei campioni, che sarà sviluppata nei prossimi Capitoli, si vedr`
a che al
crescere di n le distribuzioni dei dati xk e yk tendono teoricamente a leggi normali
con medie rispettivamente uguali a x e y. Ciò significa che al crescere di n anche
la distribuzione dei punti del piano (x, y) attorno alla retta di regressione tende alla
legge normale, e in tale circostanza il calcolo delle probabilità per leggi normali (cfr.
2.3.2) prevede che il 68.27% (anzichè il 66.6%) dei punti campionari siano interni
alle rette y = a + bx xy /.
6.6
Regressione multipla
Il metodo di regressione lineare visto nel precedente paragrafo si può estendere allo
studio della dipendenza di un carattere Y da pi`
u caratteri X, Z, . . . della medesima
168
popolazione. Consideriamo in particolare il caso in cui, avendo a disposizione una

serie di n terne (xk , yk , zk ) riguardanti tre caratteri X, Y, Z della popolazione, si
voglia studiare la regressione lineare di Y sui due regressori X e Z, che si suppone
non siano linearmente dipendenti luno dallaltro. Introdotti allora gli scarti dei dati
rispetto alle loro medie aritmetiche:
= x x,
= y y,
= z z,
si pone
= f (, ) = b1 + b2
(6.15)
che generalizza la (6.13) e si determinano i coefficienti di regressione parziale b1 , b2

che rendono minima la media dei quadrati delle differenze tra k e f (k , k ):
S(b1 , b2 ) =
1X
(k b1 k b2 k )2 .
n k
(6.16)
Annullando le derivate parziali di S(b1 , b2 ), che valgono:

S
b1
S
b2
n
2X
(b1 k2 + b2 k k k k )
n k=1
n
2X
(b2 k2 + b1 k k k k ),
n k=1
si ottiene il sistema
b1
n
b2
n
b2 X
1X
k k =
k k
n k
n k
k
X
b1 X
1X
k2 +
k k =
k k .
n
n
k
k
k
k2 +
(6.17)
Se teniamo conto che per definizione le varianze marginali e le covarianze tra i dati
delle coppie (xk , yk ), (xk , zk ), (yk , zk ) sono rispettivamente:
x2 =
sxy =
1X 2
,
n k k
1X
k k ,
n k
1X 2
1X 2
k ,
z2 =
n k
n k k
1X
1X
sxz =
k k ,
syz =
k k ,
n k
n k
y2 =
si ottiene la seguente soluzione del sistema (6.17):

b1 =
sxy z2 sxz syz

x2 z2 s2xz
b2 =
syz x2 sxz sxy

.
x2 z2 s2xz
(6.18)
Questi sono i valori dei coefficienti parziali di regressione che, introdotti nella (6.15),
determinano lequazione del piano di regressione di Y sui due caratteri X e Z,
stimata in modo da rendere minimo lerrore quadratico medio (6.16).
6.7 Regressione non lineare
169
Questa regressione multipla perde significato se i caratteri X, Z sono legati da una

relazione rigorosamente lineare, in modo che per ogni k risulti xk = c1 +c2 zk . Infatti,
si noti che i denominatori comuni ai due coefficienti (6.18) si possono anche scrivere:
x2 z2 s2xz = x2 z2 [1 2 (X, Z)],
e si annullano per |(X, Z)| = 1, ossia quando X e Z sono legati da una relazione
lineare. Al contrario, quando X e Z sono completamente scorrelati si ha (X, Z) = 0,
e in tal caso b1 e b2 si identificano con i coefficienti delle regressioni semplici di Y ,
effettuate separatamente su X e su Z.
Ripristinando nella (6.15) le variabili originarie al posto degli scarti, si ricava subito
che lequazione di questa regressione multipla nel sistema di riferimento (x, y, z) è
y = f (x, z) = a + b1 x + b2 z
(6.160 )
con a = y b1 x b2 z , e b1 , b2 dati dalle (6.18).
6.7
Regressione non lineare
Se la regressione semplice lineare di Y su X, trattata nel 6.5, non ha un esito

soddisfacente perche il suo errore standard (6.14) è troppo elevato, si deve cercare
una legge f (x), non pi`
u lineare, che meglio approssimi la relazione esistente tra i
dati del campione (sempreche, naturalmente, questa relazione esista). Si può per
esempio effettuare una regressione quadratica:
= f () = b1 + b2 2
(6.19)
per scarti tra i dati di Y su X, oppure scegliere altre leggi (esponenziale, logaritmica,
iperbolica,..) che pensiamo siano pi`
u adatte a rappresentare la relazione cercata.
Nel caso della regressione (6.19), i coefficienti b1 , b2 si possono ancora calcolare minimizzando lo scarto quadratico medio tra k e f (k ), ma è pi`
u comodo determinarli utilizzando i risultati della regressione multipla appena effettuata nel paragrafo
precedente.
A tal fine, si introduce la definizione di un carattere fittizio Z = X 2 e si sostituisce
il suo scarto = z z al posto di 2 nella (6.19). Con tale posizione, la regressione quadratica (6.19) è equivalente alla regressione lineare multipla (6.15), che è
certamente non singolare perche , pur essendo una funzione di , non dipende linearmente da questultima. I coefficienti parziali di questa regressione multipla, già
determinati nella (6.18), sono anche quelli che rendono minimo lerrore quadratico
medio nella regressione (6.19). Pertanto, in termini delle variabili originarie x, y, la
regressione quadratica di Y su X risulta definita da
y = f (x) = a + b1 x + b2 x2
(6.200 )
con b1 , b2 dati ancora dalle (6.18), e inoltre

a = y b1 x b2 z = y b1 x
b2 X 2
x .
n k k
(6.20)
170
Il medesimo artificio, consistente nellintrodurre uno o pi`

u caratteri fittizi, è generalmente usato, in Statistica, per effettuare altre speciali regressioni non lineari che si
possono rendere formalmente equivalenti a regressioni lineari multiple.
Esempio 6.3
Si ha motivo di ritenere che le modalità del carattere Y di una popolazione abbiano

un minimo per un certo valore (incognito) di un secondo carattere X della medesima
popolazione. Si vuole ricercare questo minimo mediante lanalisi di 10 coppie di dati
(xk , yk ), ricavate da osservazioni fatte ad intervalli costanti di X. Dalla serie di dati,
che è la seguente:
(10, 37)
(35, 44)
(15, 27)
(40, 45)
(20, 31)
(45, 51)
(25, 27)
(50, 62)
(30, 36)
(55, 66) ,
80
y
60
. .
.
40
y = 39.209 - 0.9433 x + 0.0269 x 2
20
0
10 20 30 40 50 60 70
Figura 6.5 - Regressione quadratica
si ricava che x = 32.5, y = 42.6. Calcolati gli scarti di xk e yk rispetto a queste

medie, effettuiamo la regressione quadratica (6.19) di Y su X, ricavando dapprima
le modalità zk del carattere fittizio Z = X 2 . Esse sono:
100,
225,
400,
625,
900,
1225,
1600,
2025,
2500,
3025
ed hanno media aritmetica z = 1262.5. Calcolando quindi anche gli scarti k =

zk z, siamo in grado di effettuare la regressione lineare multipla (6.61) di Y sui
due regressori X e Z = X 2 . Procedendo con i seguenti calcoli:
x2 =
z2 =
sxz =
1 X 2
1 X 2
k = 206.25
y2 =
= 169.84
10 k
10 k k
1 X 2
1 X
k = 904406.30
sxy =
k k = 167
10 k
10 k
1 X
1 X
k k = 13406.25
syz =
k k = 11745
10 k
10 k
si ricava dalle (6.18):

b1 = 0.9433 ,
b2 = 0.0269
171
e dalla (6.20):
a = 39.209.
La parabola che rende minimo lerrore quadratico medio della regressione (6.20) è
pertanto:
y = 39.209 0.9433x + 0.0269x2
e il suo grafico è mostrato in Fig. 6.5. Il minimo della parabola di regressione si
trova nel punto
!
b21 4ab2
b1
,
= (17.4887, 30.96)
2b2
4b2
del piano (x, y) e fornisce una risposta al nostro problema, che ovviamente non
sarebbe stato possibile ottenere attraverso una regressione lineare. /
6.8
Problemi risolti
6.1. Da un campione con numerosit`

a n = 16 si estrae la seguente serie statistica di
dati (non raggruppati in classi):
10, 14, 8, 11, 11, 15, 12, 9, 12, 17, 10, 5, 6, 14, 12, 13.
Calcolare: la media aritmetica, la media pesata, la media spuntata, la moda e la
mediana della serie.
Soluzione: La serie ordinata per valori crescenti è
5, 6, 8, 9, 10, 10, 11, 11, 12, 12, 12, 13, 14, 14, 15, 17.
La media aritmetica è uguale alla media pesata e vale
x=
179
1
[5 + 6 + 8 + 9 + 2 10 + 2 11 + 3 12 + 13 + 2 14 + 15 + 17] =
= 11.1875 .
16
16
La media spuntata vale

xt =
1
157
[6 + 8 + 9 + 2 10 + 2 11 + 3 12 + 13 + 2 14 + 15] =
= 11.214286 .
14
14
La moda è la determinazione che ha la maggiore frequenza, ossia 12 .

La mediana è la media aritmetica tra lottavo e il nono dato della serie ordinata:
x
=
x8 + x9
11 + 12
=
= 11.5 .
2
2
6.2. Da 10 osservazioni del carattere di una popolazione si ricavano questi valori:
172
5.8, 7, 4.7, 5, 5.2, 6.1, 6.5, 7.6, 4.1, 6.3.

Rappruppati questi dati in 4 classi di ampiezza unitaria, calcolare: la media delle
2 , la varianza delle medie 2 e la varianza delle osservazioni effettuate.
varianze W
B
Soluzione: Dai dati della serie ordinata:
4.1, 4.7, 5, 5.2, 5.8, 6.1, 6.3, 6.5, 7, 7.6
si ricava questa tabella per le frequenze e le varianze dei dati in ciacuna classe:
classe
[4, 5)
[5, 6)
[6, 7)
[7, 8)
xAi
4.4
5.3
6.3
7.3
ni
2
3
3
2
i2
0.09
0.115
0.02666
0.09
La media aritmetica dei dati non raggruppati vale

x=
1
[4.1 + 4.7 + 5 + 5.2 + 5.8 + 6.1 + 6.3 + 6.5 + 7 + 7.6] = 5.83.
10
La media delle varianze i2 vale:

2
W
=
4
1 X
ni i2 = 0.0787
10 i=1
e la varianza delle medie è

2
B
=
4
1 X
ni (xAi 5.83)2 = 0.9814 .
10 i=1
La loro somma è uguale alla varianza dei dati non raggruppati:

2 =
10
1 X
2
2
(xk 5.83)2 = W
+ B
= 0.0787 + 0.9814 = 1.0601 .
10 k=1
6.3. Dalle osservazioni effettuate su due caratteri X, Y di una popolazione si ricavano questi campioni:
A : (5, 124) (9, 300) (4, 112) (7, 160)
B : (4, 112) (5, 124) (5, 120) (4, 124).
Quale dei due mostra un maggior grado di dipendenza statistica tra i caratteri
osservati?
173
Soluzione. Indichiamo con (xi , yj ), i, j = 1, . . . , 4 i dati delle quattro coppie campionarie. Nel campione A nessun dato si ripete, per cui la frequenza congiunta di
ciascuna coppia e quelle marginali valgono:
n11 = n22 = n33 = n44 = 1,
ni = nj = 1.
nij = 0 per i 6= j
Con queste frequenze si calcola lindice di connessione di Pearson per il campione A:
2A = n
1 1 = 4(4 1) = 12.
i=j
Nel campione B i dati sono:

x1 = 4, x2 = 5
y1 = 112, y2 = 120, y3 = 124
e le relative frequenze si possono disporre nella seguente tabella a doppia entrata:
nij
4
5
ni
112
1
0
1
120
0
1
1
124
1
1
2
nj
2
2
4
Ne segue che lindice di connessione per il campione B vale:
2B
1
1
1
1
=4
+
+
+
1 = 2.
21 22 21 22
Quindi i due caratteri hanno il maggior grado di dipendenza statistica nel campione A ,
perchè il suo indice 2 è maggiore di quello di B.
6.4. Determinare la mediana dei seguenti insiemi di dati campionari, non raggruppati in classi:
A = {10 5
11
9}
B = {11 8
17
9 11
C = {12
11
10
12
7}
15
8}
174
Soluzione. Ordiniamo i dati dei campioni per valori crescenti:

A = {3 5 9 10 11} (n = 5)
B = {8 8 8 9 11 11 15 17} (n = 8)
C = {4 7 10 11 12 12} (n = 6).
Nel campione A (n dispari) la mediana è il terzo dato: x
(A) = 9 .
Nei campioni B e C (n pari) le mediane sono la media aritmetica dei due valori
centrali:
x
(B) = (9 + 11)/2 = 10 ;
x
(C) = (10 + 11)/2 = 10.5 .
6.5. Determinare la retta di regressione per i seguenti dati sperimentali (xk , yk ):

(10, 121) (20, 98) (30, 75) (40, 59)
(50, 38)
ricavati in 5 prove sui caratteri X e Y di una popolazione, e calcolare lerrore standard della regressione effettuata.
Soluzione.
x =
y =
x2 =
y2 =
sxy =
a =
1
(10 + 20 + . . . + 50) = 30
5
1
(121 + 98 + . . . + 38) = 78.2
5
1
[(10 30)2 + . . . + (50 30)2 ] = 200
5
1
[(121 78.2)2 + . . . + (38 78.2)2 ] = 843.76
5
1
[(10 30)(121 78.2) + . . . + (50 30)(38 78.2)] = 410
5
410
410
78.2 +
30 = 139.7 ;
b=
= 2.05.
200
200
La retta di regressione è quindi: y = 139.7 2.05x .

Il coefficiente di correlazione tra i dati delle coppie vale:
410
(X, Y ) =
= 0.99807,
200 843.76
per cui lerrore standard della regressione risulta:
q
xy =
843.76[1 (0.99807)2 ] ' 1.80 .
6.6. Calcolare la mediana, il secondo decile e il terzo quartile di questi due insiemi
di dati campionari non raggruppati:
A = {8 22 23 12 29 15 11 7 31 8};
B = {18 15 6 21 19.}
175
Soluzione. Nel campione A in cui n = 10, ordinato per valori crescenti {xk } con
k = 1, . . . , 10:
7 8 8 11 12 15 22 23 29 31,
la mediana x
, il secondo decile x0.2 e il terzo quartile x0.75 valgono:
x
= (x5 + x6 )/2 = (12 + 15)/2 = 13.5
(n + 1) 0.2 = 2.2
(n + 1) 0.75 = 8.25
x0.2 = (x2 + x3 )/2 = (8 + 8)/2 = 8
x0.75 = (x8 + x9 )/2 = (23 + 29)/2 = 26 .
Nel campione B in cui n = 5, ordinato per valori crescenti {xk } con k = 1, . . . , 5:

6
15
18
19 21,
la mediana x
e i quantili x0.2 , x0.75 valgono:
x
x3 = 18
(n + 1) 0.2 = 1.2
(n + 1) 0.75 = 4.5
x0.2 = (x1 + x2 )/2 = (6 + 15)/2 = 10.5

x0.75 = (x4 + x5 )/2 = (19 + 21)/2 = 20 .
6.7. E dato il campione

(2, 5) (5, 31)
(2, 22) (1, 12) (6, 45)
ricavato da 5 osservazioni (xk , yk ) dei caratteri (X, Y ). Dopo aver operato la regressione lineare di Y su X determinando la stima y, calcolare i residui rk = yk yk .
Soluzione. Con lo stesso procedimento seguito nel Problema 6.5 si calcola anzitutto:
x = 2;
y = 23;
x2 = 10;
sxy = 43.4
da cui si ottiene:
a = 23
43.4
2 = 14, 32;
10
b=
43.4
= 4.34.
10
Dunque la regressione lineare di Y su X consiste nella stima: y = 14.32 + 4.34x .

I residui valgono:
r1 = 5 (14.32 4.34 2) = -0.64
r2 = 31 (14.32 + 4.34 5) = -5.02
r3 = 22 (14.32 + 4.34 2) = -1
r4 = 12 (14.32 4.34) = 2.02
r5 = 45 (14.32 + 4.34 6) = 4.64 .
Verifica: la somma dei residui è zero.
176
6.8. Le frequenze assolute n(i) dei voti riportati da 50 studenti in una prova scritta
desame sono le seguenti:
n(< 18) = 15, n(18) = 4, n(19) = 1, n(20) = 4, n(21) = 2, n(23) = 3, n(24) =
4, n(25) = 5, n(26) = 1, n(27) = 5, n(28) = 2, n(29) = 1, n(30) = 3
e la media aritmetica dei voti è 20.98. Si vuole costruire un istogramma delle frequenze dei voti, composto da 7 classi (aperte a destra): la prima comprendente le
insufficienze, e le altre sei di ampiezza x = 2, centrate sui voti 19, 21, . . . , 29. Quale
deve essere lampiezza della prima classe (insufficienze) perche la media pesata che
ne risulta sia uguale a quella aritmetica?
Soluzione. Con i dati del problema si costruisce la seguente tabella di contingenza:
i
1
2
3
4
5
6
7
classe i
?
[18,20)
[20,22)
[22,24)
[24,26)
[26,28)
[28,30]
xi
?
19
21
23
25
27
29
ni
15
5
6
3
9
6
6
Se la media ponderata è uguale a quella aritmetica nota, deve essere

20.98 =
1
(15x1 + 5 19 + 6 21 + 3 23 + 9 25 + 6 27 + 6 29)
50
da cui si ricava:
198
= 13.2.
15
Poiche x1 è il valore centrale della classe 1 , questa deve avere ampiezza uguale a
x1 =
2(18 13.2) = 9.6
1 = [8.4, 18).
6.9. Calcolare laltezza di ciascuna barra dellistogramma delle frequenze relative

f (i) dei voti nel Problema 6.8, in modo che la sua area complessiva sia uguale ad 1.
Soluzione. Se indichiamo con i lampiezza delle 7 classi del Problema 6.8 e con hi
le altezze delle barre dellistogramma, deve essere
h1 =
n1
;
501
i = 2, . . . , 7 :
hi =
ni
ni
=
= 0.01 ni
50i
50 2
per cui si ricava

h1 =
h2 =
15
= 0.03125
50 9.6
0.05 h3 = 0.06 h4 = 0.03
h5 = 0.09
h6 = 0.06
h7 = 0.06 .
177
Verifica:
7
X
i hi = 9.6 0.03125 + 2(0.05 + 3 0.06 + 0.03 + 0.09) = 0.3 + 0.7 = 1.
i=1
6.10. (a) Determinare la retta di regressione di Y su X per la seguente serie statistica

di 5 coppie (xk , yk ) di osservazioni: (1, 8) (2, 12) (3, 22) (4, 28) (5, 30).
(b) Calcolare il coefficiente di correlazione (X, Y ).
(c) Si può affermare che la stima lineare è valida? Perche?
(d) Calcolare lerrore standard xy della regressione effettuata.
Soluzione.
(a) Con calcoli analoghi a quelli del Problema 6.5 si ricava:
x = 15/5 = 3 ; y = 100/5 = 20
1
x2 =
(1 + 4 + 9 + 16 + 25) 9 = 2
5
1
y2 =
(64 + 144 + 484 + 784 + 900) 400 = 75.2
5
1
(8 + 2 12 + 3 22 + 4 28 + 5 30) 3 20 = 12
sxy =
5
da cui:
b = 12/2 = 6 ;
a = 20 6 3 = 2 .
Dunque la retta di regressione è: y = 2 + 6x .

12
(b) coefficiente di correlazione: (X, Y ) =
' 0.9785 .
2 75.2
(c) SI , perche il coefficiente di correlazione è molto prossimo ad 1.
(d) errore standard: xy =
75.2[1 (0.9785)2 ] ' 1.7888 .
6.11. In una indagine su 180 famiglie si rileva la spesa annuale X sostenuta per
lacquisto di quotidiani e quella annuale Y effettuata per lacquisto di CD musicali.
Limporto delle spese è espresso in migliaia di lire e raggruppato in 3 classi xi per
i quotidiani e 4 classi yj per i CD. La tabella riporta il numero nij di famiglie che
hanno sostenuto spese appartenenti alle classi xi e yj .
X [50 250)
[250 450)
[450 650)
Y [0 200)
15
12
6
[200 400)
35
22
12
[400 600)
26
10
24
[600 800)
10
8
0
178
(a) Calcolare la media pesata della spesa totale Z = X + Y ;

(b) dire se i caratteri X e Y sono correlati, giustificando la risposta;
(c) calcolare la deviazione standard di Z.
Soluzione.
(a) La media pesata di Z è la somma delle medie pesate di X e Y . I valori centrali
e le frequenze marginali di X nelle tre classi sono:
x1 = 150, n1 = 86;
x2 = 350, n2 = 52;
x3 = 550, n3 = 42.
Per le spese Y , suddivise in 4 classi, si ha:

y 1 = 100, n1 = 33;
y 2 = 300, n2 = 69;
y 3 = 500, n3 = 60;
y 4 = 700, n4 = 18.
Quindi le medie pesate di X e Y valgono:

X =
y =
1
(150 86 + 350 52 + 550 42) = 301.1
180
1
(3300 + 20700 + 30000 + 12600) = 370
180
da cui si ottiene Z = 301.1 + 370 = 671.1 .

(b) La covarianza dei due caratteri vale
1
(15 150 100 + 35 150 300 +
180
+ . . . + 24 550 700) 301.1 370 = 114694.44 111407 = 3287.44
sxy = E(XY ) X Y =
e poiche è diversa da zero, i due caratteri sono correlati .

q
(c) La deviazione standard di Z vale Z =

2
X
Y2
2 + 2 + 2s
X
xy dove:
Y
= (1502 + 3502 + 5502 )/180 (301.1)2 = 26061.01

= (1002 + 3002 + 5002 + 7002 )/180 3702 = 31766.67
e sostituendo si ottiene:
Z =
64402.56 = 253.776 .
6.12. (a) Determinare la retta di regressione y = f (x) per la seguente serie statistica
di 5 coppie (xk , yk ) di osservazioni: (2, 2) (1, 0) (2, 2) (3, 1) (6, 4).
(b) Calcolare la varianza dei residui rk = yk f (xk ).
Soluzione (a):
x = 2;
179
x2 =
y = 1;
sxy =
b=5
4 + 1 + 9 + 4 + 36
34
4=
5
5
4 + 3 + 4 + 24
xy =72=5
5
5
25
= ;
34
34
a=1
25
25
2=1 .
34
17
La retta di regressione è:

y =1
25 25
+
x ' -0.47 + 0.7353 x .
17 34
(b) La varianza dei residui è uguale al valore minimo dello scarto quadratico medio,
ovvero al quadrato dellerrore standard xy . Infatti, poiche la variabile residuo
r = yk (a + bxk ),
k = 1, . . . , 5
ha media nulla, si ha
r2 = E{[r E{r}]2 } = E{r2 } =
5
s2xy
1X
[yk a bxk ]2 = y2 2 = (xy )2 .
5 k=1
x
Allora è sufficiente calcolare ancora

y2 =
4 + 1 + 4 + 16
1=4
5
per ottenere:
r2 = 4 52
5
11
=
' 0.3235 .
34
34
180
DISTRIBUZIONI
CAMPIONARIE
7.1
Modelli statistici
I primi tre Capitoli di questo libro hanno trattato la formulazione matematica di un

modello probabilistico per un generico esperimento casuale. Si è visto che un modello
probabilistico è definito in modo completo quando si precisa lo spazio di probabilità
(, B, P ) da associare allesperimento in studio, ovvero lo spazio campione dei
possibili esiti, il campo di Borel B degli eventi Ai , e il funzionale P : B [0, 1]. In
tale modello la probabilità P che si assegna al generico evento Ai B è univocamente
definita, e si calcola sulla base della distribuzione probabilistica che si assume nota,
ed adeguata a descrivere il fenomeno aleatorio oggetto di studio.
Tuttavia, nellanalisi di un fenomeno reale cui si attribuisce natura casuale, o di
una popolazione di individui o di oggetti dotati di caratteri aventi anchessi natura
casuale, la legge di probabilità cui questi obbediscono è raramente nota in forma
completa. Pi
u spesso si può soltanto affermare a priori che P appartiene a una
famiglia P di leggi probabilistiche (per esempio: alla famiglia delle leggi normali,
o binomiali, ....) che è la collezione delle leggi di probabilità ammissibili nella descrizione matematica di quel particolare carattere aleatorio. Ci si trova cos di fronte
a un problema che per certi aspetti è linverso di quello affrontato nel Calcolo delle
probabilità, ovvero: determinare la legge P P del carattere, sulla base di informazioni relative a probabilità empiriche ricavate da un campione estratto dalla
popolazione.
Di questo problema si occupa la Statistica inferenziale la quale, attraverso lanalisi
dei dati forniti dal campione, ha lo scopo di definire univocamente, e nel miglior
modo possibile, la legge probabilistica incognita P che descrive la natura aleatoria
di quel particolare carattere della popolazione.
Una volta assegnata la famiglia delle leggi probabilistiche che riteniamo ammissibili,
linsieme (, B, P) costituisce il modello statistico per il fenomeno casuale (o per il
carattere della popolazione) che si sta studiando. Nel seguito supporremo di esaminare un carattere quantitativo di una popolazione o, al pi
u, un carattere in qualche
modo suscettibile di un ordinamento. In tal caso, ogni elemento P P dipenderà
in generale da un insieme di parametri incogniti i IR, che varia a seconda
181
182
DISTRIBUZIONI CAMPIONARIE
della famiglia P che caratterizza il modello statistico.

I modelli che pi`
u frequentemente si adottano nella Statistica inferenziale fanno riferimento a note leggi di distribuzione di probabilità, tra cui quelle citate nel 2.3. Se
ad esempio stiamo studiando un carattere che può assumere casualmente qualsiasi
modalità in un intervallo limitato ma incognito, il modello statistico pi`
u pertinente
è quello uniforme con due parametri, che si indica con R(1 , 2 ) ed è definito dalla
famiglia di densità:
1
,
x [1 , 2 ],
f (x, 1 , 2 ) =
2 1
i cui parametri incogniti sono da ricercarsi nel dominio
= {(1 , 2 ) : < 1 < 2 < +}.
Se si suppone che il carattere sia distribuito normalmente, con valor medio da determinarsi, si ricorre al seguente modello Normale-1:
"
N (, ) :
= IR,
1
(x )2
f (x, ) =
exp
.
2 2
(2)1/2
Se invece della distribuzione normale teorica si conosce il valor medio e si vuole

determinare la varianza, si definisce il modello Normale-2:
#
"
N (, ) :
= IR+ ,
1
(x )2
f (x, ) =
,
exp
2
(2)1/2
e se si vuole determinare sia il valor medio che la varianza, il modello statistico di

riferimento è quello Normale generale:
"
N (1 , 2 ) :
1
(x 1 )2
f (x, 1 , 2 ) =
exp
22
(22 )1/2
nel quale i due parametri incogniti sono da ricercare nel dominio

= {(1 , 2 ) : < 1 < +, 2 > 0}.
Il modello che si assume per effettuare la statistica dei dati risultanti da una sequenza
di n prove ripetute e indipendenti, con probabilità di successo incognita, è quello
Binomiale:
Bi(n, ) :
= (0, 1),
f (x, ) =
n
X
k=0
n k
(1 )nk (x k),
k
e se la probabilità di successo teorica è molto piccola si usa, come prescritto dalla

legge degli eventi rari, il modello di Poisson:
() :
= IR+ ,
f (x, ) = e
k
X
k=0
k!
(x k).
Infine, negli studi di affidabilità e per la previsione statistica dei guasti si può ricorrere al modello esponenziale:
E() :
= IR+ ,
f (x, ) = ex ,
x 0.
7.2 Teoria dei campioni
7.2
183
Teoria dei campioni
La valutazione dei parametri incogniti che sono presenti in un modello statistico

del tipo, per esempio, di quelli appena citati, si effettua con lesame di una piccola
parte della popolazione, opportunamente scelta con criteri di casualità mediante
estrazione di n elementi della popolazione. Questa parte della popolazione, sulla
quale si concentrano le osservazioni atte a fornire le informazioni mancanti al modello
statistico, è il campione di grandezza (o numerosit`
a) n.
La scelta degli elementi di popolazione che vanno a costituire il campione può essere effettuata in molti modi diversi, ma deve comunque seguire regole precise con
lobiettivo di riprodurre nel miglior modo possibile tutte le proprietà di quel carattere della popolazione che si vuole studiare. I metodi di campionamento pi`
u noti
sono:
il campionamento casuale, che si ottiene effettuando estrazioni statisticamente
indipendenti da un insieme di individui che hanno tutti la medesima probabilità di essere estratti ;
il campionamento stratificato, nel quale la popolazione è anzitutto suddivisa in
gruppi di individui con caratteristiche omogenee. Da ciascuno di questi strati
di popolazione si estrae quindi un numero di individui che è proporzionale alla
numerosità del gruppo stesso;
il campionamento a grappoli, il cui metodo consiste invece nella suddivisione
della popolazione in tanti gruppi di individui eterogenei, ognuno dei quali sia
rappresentativo delle caratteristiche dellintera popolazione. Il campione da
esaminare è in tal caso uno qualsiasi di questi gruppi, che può essere scelto per
estrazione o per comodità di elaborazione dei dati.
Si utilizzano anche metodi di campionamento pi`
u raffinati, che con tecniche diverse
combinano tra loro quelli ora citati. Tuttavia, nel seguito ci limiteremo a trattare
unicamente le tecniche da sviluppare quando si effettua un campionamento casuale.
In questo contesto, la condizione di equiprobabilità delle estrazioni implica teoricamente che nella definizione del campione, lestrazione di ciascuno degli n elementi da
una popolazione finita debba essere effettuata con ripetizione, ovvero assicurando la
possibilità che lelemento scelto possa ripresentarsi ad una qualsiasi estrazione successiva. Questa condizione si verifica, per esempio, quando nella estrazione di n
palline da unurna, ogni pallina estratta viene reimbussolata, al fine di non modificare la popolazione da cui si effettua ogni estrazione successiva.
Se questa condizione non si verifica, lestrazione è chiamata senza ripetizione o
in blocco, e modifica le probabilità teoriche delle successive estrazioni, perchè condizionate da quella già effettuata che non può pi`
u ripetersi. I risultati che ricaveremo
nellipotesi di equiprobabilità delle estrazioni, dovranno pertanto essere corretti, se
esse avvengono senza ripetizione. Tuttavia, questa correzione è significativa solo
se la popolazione è costituita da pochi individui, mentre diventa trascurabile se la
184
numerosità N degli individui della popolazione è elevata, ed è teoricamente nulla

per N , ossia per popolazioni di infiniti elementi.
In ogni caso, un campione casuale di grandezza (numerosit`
a) n, scelto per effettuare
la statistica su un carattere quantitativo X della popolazione, sarà descritto da
un insieme X = {X1 , X2 , . . . , Xn } di n elementi, al quale corrisponde linsieme
x = {x1 , x2 , . . . , xn } degli n valori osservati.
Teoricamente, se facessimo tendere a + la numerosit`
a del campione che estraiamo
da una popolazione infinita, allora il campione coinciderebbe con la popolazione
stessa, e la distribuzione delle probabilità empiriche che si potrebbe ricavare secondo
la tecnica spiegata nel Capitolo precedente si identificherebbe con la densità di probabilità del carattere X della popolazione. Ma i metodi della indagine statistica si
basano proprio sullipotesi opposta: quella di avere a disposizione un campione con
numerosità n molto minore degli N individui della popolazione.
Se la collezione degli n elementi del campione è casuale, in generale a ciascuna
possibile scelta corrisponderà un valore diverso della osservazione xi fatta a proposito delli-esimo elemento del campione estratto dalla popolazione. Di conseguenza,
linsieme X che descrive il generico campione di grandezza n deve essere riguardato
come un vettore aleatorio, insieme di n variabili casuali Xi , i = 1, .., n, le quali sono
statisticamente indipendenti nel caso che il campione sia stato estratto casualmente
e con ripetizione.
Si chiama statistica campionaria, o anche riassunto campionario, qualsiasi quantit`
a
g(X) che si esprime per mezzo delle n variabili casuali Xi , e che interessa valutare in
vista della stima dei parametri del modello statistico. Una statistica campionaria è
anchessa una variabile casuale Gn = g(X), e come tale è dotata di una distribuzione
di probabilità che chiameremo distribuzione campionaria della statistica Gn .
Un esempio di statistica di un campione di ordine n è la variabile casuale
Gn =
1 q
(X + X2q + . . . .. + Xnq )
n 1
(7.1)
che ha il significato di momento campionario di ordine q, e per q = 1 diventa la

media campionaria cos definita:
n =
1
(X1 + X2 + . . . . + Xn ).
n
(7.2)
Lindice n introdotto nella notazione sta ad indicare che tale media risulta dallesame
di un campione di grandezza n del carattere X della popolazione, e serve per distinguere tale media campionaria dal valor medio (eventualmente incognito) della
distribuzione teorica del carattere X, che è stata definita nel modello statistico.
La varianza campionaria è la variabile aleatoria definita dalla seguente statistica:
Sn2 =
n
1X
(Xi n )2
n i=1
(7.3)
7.3 Distribuzione campionaria delle medie
185
che in generale potrà assumere valori diversi dalla varianza teorica 2 (eventualmente
incognita) della distribuzione probabilistica dal carattere X. La sua radice quadrata
positiva Sn è la deviazione standard campionaria.
Se dalla medesima popolazione si estraggono diversi campioni di grandezza n, allora
i valori che assumono le loro statistiche e in particolare la media campionaria
(7.2) e la varianza campionaria (7.3) saranno in generale diversi e distribuiti con
leggi probabilistiche che sono definite dalle rispettive distribuzioni campionarie. Nei
due paragrafi che seguono ricaveremo in dettaglio le proprietà delle distribuzioni
campionarie di queste due statistiche.
7.3
Distribuzione campionaria delle medie
Per valutare il valore atteso della distribuzione campionaria delle medie n definita
dalla (7.2), dobbiamo prendere in considerazione tutti i possibili campioni di grandezza n che possono essere estratti dalla popolazione, e fissare lattenzione sulliesimo elemento Xi di questi campioni. Questo è una variabile casuale con la medesima distribuzione teorica del carattere X della popolazione, poiche è il risultato di
estrazioni casuali dalla popolazione stessa. Indichiamo con fX (x) tale distribuzione
teorica del carattere, con la sua media e con 2 la sua varianza, eventualmente
sconosciute. Si ricava:
(
E{n } = E
1X
Xi
n i
1X
1
1
E{Xi } = nE{X} = n =
n i
n
n
(7.4)
Dunque, il valor medio della distribuzione campionaria della statistica n coincide

con il valor medio della distribuzione teorica del carattere X.
La varianza della distribuzione campionaria delle medie (che è diversa dalla statistica
(7.3), di cui ci occuperemo nel paragrafo che segue) è per definizione la quantit`
a
n2 = E{[n E{n }]2 } = E{2n + 2 2n } = E{2n } 2
1
=
E{(X1 + . . . + Xn )2 } 2 ,
n2
(7.40 )
e per ricavarne una espressione significativa, occorre distinguere a seconda della

procedura che è stata seguita per estrarre il campione.
7.3.1
Campionamento con ripetizione
Se il campione è stato estratto con ripetizione da una popolazione finita di N elementi, oppure se N , allora le variabili casuali Xi sono statisticamente indipendenti, con uguali densità di probabilità f (xi ) = fX (x). Si ha in tal caso:
Z
E{(X1 + . . . + Xn )2 } =
(x1 + . . . + xn )2 f (x1 )f (x2 ) f (xn )dx1 dxn =
186
(x21 + . . . + x2n + 2x1 x2 + 2x1 x3 + . . . + 2xn1 xn )f (x1 )f (x2 ) f (xn )dx1 dxn =
= E{X12 } + . . . + E{Xn2 } + 2
n
X
E{Xi }E{Xj }.
i,j=1
Ma poichè le distribuzioni di tutte le Xi hanno momenti uguali a quelli della densità

teorica fX (x), e inoltre il numero di combinazioni di n elementi a due a due vale
n(n 1)/2 , risulta:
E{(X1 + . . . + Xn )2 } = n E{X 2 } + n(n 1)2 .
Sostituendo questo risultato nella (7.4) si ottiene:
n2 =
E{X 2 } n 1 2
1
2
+
2 = [E{X 2 } 2 ] =
.
n
n
n
n
(7.5)
Dunque, la varianza della distribuzione campionaria delle medie è uguale alla varianza teorica della distribuzione del carattere X, divisa per la numerosit`
a del campione.
La radice quadrata positiva della quantit`
a (7.5):
n =
n
(7.50 )
è chiamata errore standard della media campionaria.

Dalla (7.5) si deduce anche che, nella ipotesi di una distribuzione teorica della popolazione con varianza 2 non nulla, valgono le seguenti notevoli proprietà di convergenza della media campionaria:
Convergenza in media quadratica della statistica n al valor medio della
distribuzione teorica fX (x). Infatti:
lim n2 = lim E{(n )2 } = 0.
Legge debole dei grandi numeri. Fissato un > 0 arbitrario, per la

diseguaglianza di Chebyshev (v. 2.2) si ha:
IP{|n | }
n2
2
=
2
n2
per cui, passando al limite:

lim IP{|n | } = 0.
(7.6)
E cos dimostrato che la statistica n converge in probabilità al valor medio

teorico , quando la numerosit`
a del campione tende ad infinito.
187
Infine, è di grande importanza il fatto che per grandi campioni è possibile determinare non solo i momenti del primo e del secondo ordine, ma anche la densità stessa
della distribuzione campionaria delle medie. Precisamente, basandosi sul Teorema
Limite Centrale enunciato nel 2.3.2, si può dimostrare che:
al crescere di n la distribuzione campionaria delle medie approssima la legge normale N (, 2 /n) che ha media e varianza data dalla (7.5).
Dimostrazione. La media campionaria (7.2) relativa a campioni estratti con ripetizione da una popolazione finita (oppure da una popolazione infinita) si può anche
esprimere come n = Sn /n, dove Sn è la somma di n variabili casuali indipendenti che hanno la medesima densità di probabilità. Quindi, per il Teorema Limite
Centrale, la sua densità converge, per n , alla distribuzione normale con media
E{n } =
e varianza
n2 =
1
1
E{Sn } = n =
n
n
1 2
1
2
2
,
(S
)
=
n
=
n
n2
n2
n
ossia converge alla legge N (, 2 /n).

Per facilitare i calcoli relativi ai test statistici, al posto della media campionaria n
si usa spesso la variabile media campionaria standardizzata già introdotta nel 2.3.2,
e definita dal rapporto
n
Zn =
.
(7.60 )
n
In base al Teorema Limite Centrale, si può affermare che per n sufficientemente
grande la distribuzione di Zn è ben approssimata dalla legge normale standard
N (0, 1) con media nulla e varianza uguale ad 1.
7.3.2
Campionamento senza ripetizione
Se il campione è estratto senza ripetizione (in blocco) da una popolazione con un

numero finito N di elementi, le n variabili aleatorie Xi non sono pi`
u indipendenti,
perche ogni estrazione modifica la composizione della popolazione da cui devono essere scelti i successivi elementi del campione. Ne segue, per la legge delle probabilità
composte (1.4), che la densità di probabilità congiunta del campione X non è pi`
u il
prodotto delle densità f (xi ), bens il seguente prodotto di densità condizionate:
f (x1 , . . . , xn ) = f (x1 )f (x2 |x1 )f (x3 |x1 , x2 ) f (xn |x1 , x2 , . . . , xn1 ).
Si può dimostrare che in tal caso il valor medio della distribuzione campionaria della
statistica n è ancora uguale alla media teorica , ma la sua varianza vale:
n2 =
2 N n
.
n N 1
(7.7)
188
A parità di grandezza n del campione, se N > n non è molto elevato essa è dunque
minore della (7.5) che è valida per un campionamento con ripetizione, ma tende al
valore (7.5) quando N .
Esempio 7.1
Illustriamo i risultati precedenti con il seguente esempio. In una popolazione costituita da N = 5 elementi, il carattere X oggetto di studio assume rispettivamente i
valori: 2, 3, 6, 8, 11. Da essa si estraggono tutti i possibili campioni di grandezza
n = 2, allo scopo di valutare la media del carattere, che evidentemente ha il valore
teorico = 6.
Campionamento con ripetizione. Il numero di campioni con numerosit`
a 2 che possiamo casualmente estrarre con ripetizione dalla popolazione è uguale al numero delle
disposizioni con ripetizione di 5 elementi a due a due, ossia 52 = 25. In dettaglio, i
possibili campioni sono i seguenti:
2, 2
3, 2
6, 2
8, 2
11, 2
2, 3 2, 6
2, 8
3, 3 3, 6 3, 8
6, 3 6, 6 6, 8
8, 3 8, 6 8, 8
11, 3 11, 6 11, 8
2, 11
3, 11
6, 11
8, 11
11, 11.
(7.8)
Ciascuno di questi campioni ha una media campionaria n che vale, rispettivamente:

2
2.5
4
5
6.5
2.5
3
4.5
5.5
7
4
4.5
6
7
8.5
5
5.5
7
8
9.5
6.5
7
8.5
9.5
11
(7.9)
e se valutiamo le frequenze relative di ciascuna di queste medie campionarie, possiamo costruire il grafico a) di Fig. 7.1. Esso rappresenta una densità di probabilità
discreta che definisce la distribuzione campionaria delle medie relativa alla statistica
in oggetto. Il valor medio di questa distribuzione vale:
E{n } =
1
[2 + 3 + 6 + 8 + 11 + 2(2.5 + 4 + 5 + 5.5 + 6.5 + 8.5 + 9.5) + 4.7] = 6
25
e, in accordo con la (7.4), coincide con il valore teorico prima citato.

Se ci proponiamo di valutare attraverso il valore della statistica n che ricaviamo
da un solo campione estratto casualmente, è assai probabile che il risultato non
sia uguale a 6. Lerrore medio che possiamo compiere è legato alla dispersione della
distribuzione di figura rispetto al suo valor medio, e si valuta calcolandone la varianza
n2 definita dalla (7.4). Si trova:
n2 =
135
1
[(2 6)2 + 2(2.5 6)2 + . . . + 2(9.5 6)2 + (11 6)2 ] =
= 5.4.
25
25

f (m n )
25
189
4/20
f (m n )
20
4/25
2/20
2/25
1/25
0
1 2 3 4 5 6 7 8 9 10 11
mn
a) campionamento con ripetizione
1 2 3 4 5 6 7 8 9 10 11
mn
b) campionamento senza ripetizione

Figura 7.1
Questa varianza della distribuzione delle medie campionarie è legata alla varianza
teorica del carattere X, Infatti si verifica subito che, come previsto dalla (7.5) con
n = 2, è la metà della varianza teorica 2 che vale:
1
2 = [(2 6)2 + (3 6)2 + . . . + (11 6)2 ] = 10.8 .
5
La radice quadrata di n2 vale n = 2.32379. Questo è lerrore standard che si
commette nel valutare il valor medio del carattere, attraverso lanalisi della statistica
n effettuata su un suo campione di grandezza n = 2.
Campionamento senza ripetizione. In tal caso, il numero totale di campioni che
possiamo estrarre è uguale alle disposizioni senza ripetizione di 5 elementi a due a
due, e vale
5!
= 20.
(5 2)!
I campioni sono quelli dellinsieme (7.8) privato degli elementi sulla diagonale principale, che contengono valori ripetuti. Le 20 possibili medie campionarie sono ancora
indicate nella (7.9), con esclusione dei valori 2, 3, 6, 8, 11 che si trovano sulla diagonale principale. La distribuzione delle frequenze relative di queste medie campionarie
è mostrata nel grafico b) di Fig. 7.1. Questa distribuzione ha ancora valor medio
E{n } = 6 ma varianza minore che, in accordo con la (7.7), vale:
n2 =
2
3 2
[(2.5 6)2 + (4 6)2 + . . . + (9.5 6)2 ] = 4.05 .
20
4 2
Lerrore standard nella valutazione della media del carattere è quindi leggermente
inferiore, e vale n = 2.01.
Esempio 7.2: Distribuzione della differenza di medie campionarie
Le lampadine prodotte dallazienda A hanno una vita media A di 1400 ore, con
deviazione standard A = 200 ore; quelle dellazienda B hanno vita media B = 1200
ore, con deviazione standard B = 100 ore. Si prova un campione casuale di n = 125
lampadine estratte dalla produzione dellazienda A, e un campione di m = 100
190
lampadine provenienti dalla produzione dellazienda B. Calcolare la probabilità che

le lampadine fornite dal produttore A abbiano una vita media:
1) di almeno 160 ore maggiore di quelle fornite da B;
2) che differisce per meno di 150 ore dalla vita media di quelle prodotte da B.
Le distribuzioni campionarie delle medie n e m dei due campioni sono entrambe
approssimabili con leggi normali, aventi valore atteso uguale a quello della popolazione da cui sono estratti:
E{n } = A = 1400,
E{m } = B = 1200.
Le loro deviazioni standard, per la (7.5), sono rispettivamente:

A
B
n =
= 17.888 ;
m =
= 10.
125
100
Definiamo la variabile casuale d() che denota la differenza tra le medie campionarie:
d() = n m .
Essa ha una distribuzione con valor medio
E{d} = E{n } E{m } = 1400 1200 = 200 ore,
e la sua varianza si determina applicando la (3.8) del Capitolo III, dopo aver posto:
a = 1, b = 1, X n , Y m :
2
2 (d) = n2 + m
2 Cov (n , m ).
Se i due campioni estratti sono statisticamente indipendenti, la loro covarianza è

nulla e anche d() ha legge normale, come dimostrato nellEsempio 4.6 del capitolo
4, con deviazione standard
q
(d) =
2 =
n2 + m
(17.888)2 + 102 ' 20.49 ore.
Per calcolare le probabilità richieste, usiamo la variabile casuale standardizzata:

Z() =
d 200
d E{d}
=
(d)
20.49
che ha una distribuzione normale N (0, 1) e calcoliamo i valori z che essa assume per
d = 160 e per d = 150. Si trova subito:
d = 160 :
d = 150 :
d = 150 :
z0 = 1.952
z1 = 17.08
z2 = 2.44 .
Le probabilità cercate si ricavano allora utilizzando la (2.32) e la Tabella dei valori

di erf(z) che si trova in Appendice:
1
+ erf (1.952) = 0.9744
2
IP(|d| < 150) = IP(z1 < Z < z2 ) = erf (2.44) erf (17.08) =
1
' erf (2.44) = 0.5 0.4927 = 0.0073 .
2
IP(d 160) = P (Z z0 ) =
7.4 Distribuzione campionaria delle varianze
7.4
7.4.1
191
Distribuzione campionaria delle varianze

Campionamento con ripetizione
Se il modello statistico che si assume per studiare la popolazione è quello normale,

e se il campione è estratto con ripetizione da una popolazione finita, oppure se la
popolazione è infinita, la statistica (7.3), chiamata varianza campionaria, ha una
distribuzione che si può dedurre applicando il seguente, importante:
TEOREMA (Chi-quadrato)
Se da una popolazione normalmente distribuita con varianza 2 si estraggono campioni casuali di numerosità n, la variabile aleatoria
Qn () =
1 X
nSn2
2
(Xi n )2
2
(7.10)
ha una distribuzione 2n1 con (n 1) gradi di liberta.

Ricordando le proprietà della distribuzione Chi-quadrato, già presentata nel Capitolo
2, la variabile Qn ha dunque la densità (2.40) con n 1 al posto di n, ha valor medio
E{Qn } = n 1 e varianza 2 {Qn } = 2(n 1).
1.5
s2 = 1
f ( S 2n )
2
f (^
Sn )
n = 21
1
n = 11
0.5
2
E{ ^
Sn }
E{S 2n }
0
Figura 7.2 - Distribuzioni campionarie della varianza
La varianza campionaria Sn2 è definita, per la (7.10), dalla trasformazione lineare

Sn2 = g(Qn ) =
2
Qn ,
n
e usando le formule di trasformazione per funzioni di variabili casuali la sua distribuzione campionaria ha una densità di probabilità che si ricava applicando la (4.5)
o la (4.10) del Capitolo 4. Poiche si ha
g 1 (Sn2 ) =
nSn2
;
2
dg 1
n
= 2 ,
2
dSn
192
si ricava:
f (Sn2 )
= f2
n1
nS 2
Qn = 2n
!
dg 1
nSn2
n
Qn = 2 2 .
= f2
n1
dSn2
(7.11)
In Fig. 7.2 sono riportate con linea continua due distribuzioni campionarie di Sn2 ,
calcolate assumendo 2 = 1 e n = 11 e 21. Il loro valor medio vale:
E{Sn2 } =
2
n1 2
E{Qn } =
n
n
(7.12)
e la sua varianza si può calcolare come segue:
(Sn2 )
E{(Sn2 )2 }
4 (n 1)2
=
n2
2
n
!2
E{Q2n }
4 (n 1)2
=
n2
4
4
4 2
2(n 1) 4
2
2
2
2
[E{Q
}
(n
1)
]
=
[E{Q
}
E
{Q
}]
=
{Qn } =
n
n
n
2
2
2
n
n
n
n2
dove 2 è la varianza teorica della popolazione con distribuzione normale. Per

n >> 1, si può accettare il risultato: 2 (Sn2 )
= 2 4 /n, e di conseguenza la deviazione
standard della distribuzione campionaria delle varianze è ben approssimata da:
q
(Sn2 )
= 2 2/n.
(7.13)
La (7.12) mostra un risultato degno di nota:

il valor medio della statistica Sn2 non coincide con la varianza teorica 2 della
popolazione.
Questa proprietà, che come vedremo è assai importante ai fini della stima della
varianza sconosciuta di un carattere della popolazione, è invece soddisfatta dalla
seguente statistica:
Sn2 =
n
1 X
Sn2
(Xi n )2
n1
n1 i
(7.14)
che chiameremo varianza campionaria corretta, la quale ha evidentemente valor medio

E{Sn2 } =
n
E{Sn2 } = 2 .
n1
(7.15)
La distribuzione campionaria di questa varianza corretta Sn2 si ricava facilmente

invertendo la trasformazione (7.14) e usando la (7.11). Anche essa si esprime in
termini della densità Chi-quadrato della variabile
Qn =
n
n 1 2
Sn2 =
Sn ,
2
7.4 Distribuzione campionaria delle varianze
193
e vale:
n1
n 1 2
n1
n 1 2
= f2
Sn
.
f (Sn2 ) = f Sn2 =
Sn
Qn =
2
n1
n
n
(7.16)
Le distribuzioni (7.16) che si ottengono per n = 11 e n = 21 sono riportate con linea

tratteggiata in Fig. 7.2, e sono confrontate con le distribuzioni campionarie (7.11)
della statistica Sn2 . La varianza della distribuzione corretta (7.16) vale:
"
(Sn2 )
E{(Sn2 )2 }
E{Q2n }
4
2
1
=
2 (Qn ) =
4.
2
2
(n 1)
(n 1)
n1
La sua deviazione standard è perciò

s
(Sn2 )
2
n1
(7.17)
e per n >> 1 è assai vicina a quella della distribuzione delle varianze campionarie
Sn2 .
7.4.2
Campionamento senza ripetizione
Se il campione è estratto in blocco da una popolazione con un numero finito N

di elementi, tenuto conto delle osservazioni fatte nel 7.3.2 la distribuzione campionaria di Sn2 non è pi`
u quella definita con la (7.11). Calcoli pi`
u laboriosi mostrano,
in particolare, che anche il suo valor medio è diverso dal valore (7.12), e deve essere
modificato in:
N
n1 2
E{Sn2 } =
.
(7.18)
N 1
n
Da questultima segue che la varianza campionaria corretta Sn2 con valor medio
uguale alla varianza teorica, si modifica in tal caso nella statistica:
n
N 1
1 X
N 1
Sn2 =
(Xi n )2 ,
Sn2 =
N
n1
N
n1 i
da usare al posto della statistica (7.14).
(7.19)
194
Esempio 7.3
Riprendiamo lo studio dei 25 campioni (7.8) che si possono estrarre con ripetizione
dalla popolazione costituita da 5 elementi con valore 2, 3, 6, 8, 11, che come si è già
visto ha varianza teorica 2 = 10.8. Ciascuno di essi ha una statistica Sn2 (con n =
2) che vale:
0
0.25
4
9
20.25
0.25
0
2.25
6.25
16
4
2.25
0
1
6.25
(7.20)
9
6.25
1
0
2.25
20.25
16
6.25
2.25
0
e il calcolo delle frequenze relative porta alla definizione di una distribuzione campionaria discreta, che è mostrata nel grafico a) di Fig. 7.3. Il valor medio di tale
distribuzione vale:
E{Sn2 } =
1
27
[4(2.25 + 6.25) + 2(0.25 + 4 + 9 + 1 + 16 + 20.25)] =
= 5.4
25
5
e, in accordo con il risultato (7.12), è la metà della varianza teorica 2 . Ne segue che
la varianza campionaria corretta, il cui valor medio coincide con 2 , è la statistica
Sn2 = 2Sn2 i cui valori possibili sono il doppio di quelli riportati nella (7.20).
f (S 2n )
25
f (S 2n )
20
4/20
5/25
4/25
2/20
2/25
E{S 2n }
E{S 2n }
s2
S 2n
2 4 6 8 10 12 14 16 18 20 22
a) campionamento con ripetizione
s2
2 4 6 8 10 12 14 16 18 20 22
S 2n
b) campionamento senza ripetizione
Figura 7.3
Campionamento senza ripetizione. I 20 possibili campioni estratti senza ripetizione

dalla stessa popolazione hanno tutti varianze Sn2 non nulle, definite nella (7.20) con
esclusione dei valori sulla diagonale principale. La distribuzione delle loro frequenze
relative è mostrata nel grafico b) di Fig. 7.3, ed ha valor medio
E{Sn2 } =
1
27
[4(2.25 + 6.25) + 2(0.25 + 4 + 9 + 1 + 16 + 20.25)] =
= 6.75.
20
4
Osservando che
5 27
5 1
27
=
= 2 ,
4
4 5
4 2
si riconosce che il risultato ottenuto verifica la (7.18), valida per campioni senza
ripetizione. Inoltre, in tal caso la varianza campionaria corretta è definita, per la
7.5 Distribuzione campionaria delle frequenze
195
(7.19), dalla statistica
4
8
Sn2 = 2 Sn2 = Sn2 ,
5
5
il cui valor medio coincide con la varianza teorica della popolazione. Infatti:
8
8 27
54
E{Sn2 } = E{Sn2 } =
=
= 2.
5
5 4
5
7.5
Distribuzione campionaria delle frequenze
Supponiamo che il carattere X della popolazione da cui si estrae il campione abbia

due sole modalità, il cui esame può dar luogo a realizzazioni di due soli eventi casuali
incompatibili ed esaustivi (vero/falso, bianco/nero,....). In tale ipotesi il modello
statistico per X è quello Binomiale, in cui p è la probabilità teorica di successo
(X è vero, bianco,...) e q = 1 p è la probabilità di fallimento.
Indichiamo ora con ns il numero (ossia anche la frequenza assoluta) di successi rilevati in un campione casuale estratto da questa popolazione con n prove indipendenti.
La distribuzione campionaria f (ns ) di queste frequenze è definita dalla probabilità
di osservare ns successi, la quale è data dalla formula di Bernoulli (2.42). Dunque
anche f (ns ) è binomiale, descritta dalla densità discreta (2.45) del Capitolo 2 e
definita sullinsieme dei numeri interi positivi. Se n è sufficientemente grande, essa
si approssima nel continuo con una legge normale (v. Fig. 7.4) con media e varianza
che valgono:
E{ns } = np ,
2 (ns ) = npq .
(7.21)
Ne segue, ad esempio, che le probabilità di osservare un numero di successi maggiore
di k0 oppure compreso tra k1 e k2 si approssimano, per un campione di numerosit`
a
n sufficientemente grande, con
1
erf (z0 )
2
IP(k1 ns k2 ) ' IP(z1 Z z2 ) = erf (z2 ) erf (z1 )
IP(ns > k0 ) ' IP(Z > z0 ) =

dove si è posto:
ki np
zi =
.
npq
La frequenza relativa dei successi: Y = ns /n, è invece una variabile aleatoria con
valori in IR+ , la cui distribuzione è definita dalla densità
fY (y) = f (ns = ny) n
n N (p, pq/n).
Per n sufficientemente grande, essa si approssima con una distribuzione normale

avente valor medio e varianza che valgono:
E{Y } =
np
E{ns }
=
= p,
n
n
196
N (8, 7.84)
f(n s)
10
12
14
ns
Figura 7.4 - Distribuzione campionaria delle frequenze nellEsempio 7.4
Y2
2 (ns )
npq
p(1 p)
= 2 =
.
2
n
n
n
(7.22)
Esempio 7.4
Dallanalisi della produzione di un utensile, risulta che il 2% del prodotto di fabbricazione è difettoso. Si vuole calcolare la probabilità che in un lotto di 400 utensili
appena consegnati a un cliente quelli difettosi siano almeno 12.
Il lotto in questione si può considerare un campione estratto con n = 400 prove
ripetute e indipendenti da una popolazione di infiniti elementi. Durante la scelta
del campione, ciascuna estrazione avviene con una probabilità teorica p = 0.02 di
avere un prodotto difettoso (nel nostro caso, la scelta di un utensile difettoso è il
successo).
La distribuzione campionaria delle frequenze ns di utensili difettosi, mostrata in Fig.
7.4, è approssimabile con una curva normale con media e deviazione standard che
valgono:
E{ns } = q
np = 400 0.02 = 8
(ns ) =
np(1 p) = 400 0.02 0.98 = 2.8.
Si deve determinare la probabilità IP(ns 12), rappresentata dallarea ombreggiata
in figura. Per calcolarla, utilizziamo la variabile standardizzata
Z=
ns E{ns }
,
(ns )
che per ns = 12 vale z = 1.428. Ricordando quindi la (2.32) e usando la Tabella di

erf(z) in Appendice, si ricava:
IP(ns 12) = 1 IP(Z < 1.428) '
1
1
erf (1.43) = 0.4236 = 0.0764.
2
2
197
In Fig. 7.4 sono anche disegnati i rettangoli con base unitaria e altezza uguale alle
probabilità (2.42) di avere un campione con ns successi. La probabilità ora calcolata
è approssimata dallarea di questi rettangoli che si trova a destra di ns = 12.
Si badi però che linsieme di questi rettangoli non deve essere confuso con listogramma delle frequenze empiriche delle modalità di un carattere X, che è stato
definito del Capitolo precedente. Infatti, se le osservazioni da rilevare nel campione riguardano due possibili modalità (successo o fallimento) di un carattere,
listogramma delle loro frequenze sarà costituito da due soli rettangoli, con altezza
proporzionale rispettivamente al numero dei successi e dei fallimenti che si osservano
in quel particolare campione esaminato. I rettangoli di Fig. 7.4 hanno invece base
unitaria, centrata sulle possibili frequenze ns della modalità successo, e altezza
uguale alla probabilità bernoulliana di osservare queste frequenze di successo.
7.6
Problemi risolti
7.1. Si estrae un campione di numerosit`

a n = 64 da una popolazione con varianza
2 = 121. Calcolare la probabilità di avere una media campionaria che differisce per
pi`
u di 2 unità da quella incognita della popolazione.
Soluzione. La distribuzione campionaria delle medie si approssima con una legge
normale avente media E{n } uguale alla media teorica e varianza n2 = 2 /n =
121/64 = (11/8)2 . Se introduciamo la variabile standardizzata
Zn =
n
n
la probabilità richiesta si calcola nel modo seguente:

P (|n | > 2) = P (n |Zn | > 2) = P (|Zn | > 2 8/11 = 1.4545) = 1 2 erf(1.4545)
e dalla Tabella di erf(z) si ricava:
P (|n | > 2) ' 1 2 0.427 = 0.146 .
7.2. Si estrae un campione {Xi } da 50 osservazioni di un carattere avente un modello
statistico normale N (2, 1), ma è noto soltanto il numero Z di osservazioni dalle quali
risulta Xi 0, i = 1, . . . , 50. Determinare la legge di Z().
Soluzione. Le 50 osservazioni sono altrettante prove ripetute e indipendenti di un
esperimento casuale. Se chiamiamo successo levento S = {Xi 0}, esso si verifica
con probabilità
p = IP{X 0} =
0
1
+ erf
2
1
1
erf(2) = 0.4772 = 0.0228.
2
2
La variabile casuale Z che rappresenta il numero di eventi S che si verificano in 50

prove ha pertanto distribuzione binomiale con parametri n = 50, p = 0.0228:
Z B(50, 0.0228) .
198
7.3. Si dispone di un campione di 100 osservazioni del carattere X di una popolazione, la cui deviazione standard è nota e vale = 120. Qualè la probabilità che
la media campionaria differisca per pi`
u di 3 unità da quella incognita del carattere
X ?
Risposta. La distribuzione campionaria delle medie si approssima con una legge
normaleavente media E{n } uguale alla media teorica e deviazione standard
n = / 100 = 12.
Se Zn è la corrispondente variabile standardizzata, la probabilità richiesta vale
P (|n | > 3) = P (n |Zn | > 3) = P (|Zn | > 0.25) = 1 2 erf(0.25)
P (|n | > 3) ' 1 2 0.0987 = 0.9026 .
7.4. In un lotto di 50 pile, la loro tensione in uscita ha una deviazione standard
di 25V . Se da questo lotto ne estraiamo senza ripetizione n = 25, qualè la probabilità che la media delle pile estratte differisca per pi`
u di 1 Volt dalla media teorica
dichiarata dal costruttore ?
Risposta. Poiche il campione di n = 25 pile è estratto in blocco da una popolazione
di N = 50 elementi, la distribuzione campionaria della tensione media ha legge
normale con deviazione standard
s
n =
N n
=2
n(N 1)
50 25
2
=
25(50 1)
7
e per renderla normale standard si può definire la variabile campionaria

Zn =
7
n
= (n ).
n
2
La probabilità rischiesta vale quindi:

P (|n | > 1) = P (|Zn | > 3.5) = 1 2 erf(3.5)
P (|n | > 1) ' 1 2 0.4998 = 4 104 .
7.5. La lunghezza di 3000 lamine è distribuita normalmente con media = 68 mm
e scarto quadratico medio = 3 mm. Si estraggono, con ripetizione, 80 campioni di
25 lamine ciascuno. Determinare in quanti campioni ci si deve aspettare una media
compresa tra 66, 8 e 68, 3 mm.
Soluzione. La distribuzione campionaria delle medie ricavate dai campioni di numerosit`
a n = 25 è normale, con media n = = 68 e deviazione standard n =
3/ 25 = 0.6 mm.
199
Introdotta la variabile standardizzata Zn = (n 68)/0.6, la probabilità che la media

campionaria sia compresa tra 66.8 e 68.3 mm. si calcola come segue:
P (66.8 n 68.3) = P [(66.8 68)/0.6 Zn (68.3 68)/0.6] =
= P (2 Zn 0.5) = erf(0.5) + erf(+2)
P (66.8 n 68.3) = 0.1915 + 0.4772 = 0.6687 = p.
Per la legge dei grandi numeri, p è il valore del rapporto tra il numero Nx di campioni
in cui P (66.8 n 68.3) e il numero totale dei campioni estratti. Quindi
Nx
80
arrotondato allunità per difetto.
0.6687 =
Nx = 80 0.6687 ' 53
7.6. Data la popolazione dei numeri 0, 2, 4, 6, 8:

a) calcolare la media e la varianza 2 della popolazione;
b) elencare i possibili campioni di numerosit`
a n = 2 estraibili con ripetizione da tale
popolazione;
e le relative probabilità;
c) elencare i possibili valori della media campionaria X
d) sulla base dei dati ricavati al punto precedente, calcolare la media X e la varianza
2 della media campionaria X,
verificando che valgono le uguaglianze: = ;
X
X
2
2
X = /n.
Soluzione.
a) Media e varianza valgono
=
20
= 4 ,
5
2 =
16 + 4 + 4 + 16
= 8 .
5
b) I campioni di numerosità 2 estraibili con ripetizione sono 52 = 25, e precisamente:

0,0
2,0
4,0
6,0
8,0
0,2
2,2
4,2
6,2
8,2
0,4
2,4
4,4
6,4
8,4
0,6
2,6
4,6
6,6
8,6
0,8
2,8
4,8
6,8
8,8 .
c) Le medie di ciascun campione valgono rispettivamente:

0
1
2
3
4
1
2
3
4
5
2
3
4
5
6
3
4
5
6
7
4
5
6
7
8
200
hanno queste probabilità:

e quindi i possibili valori di X
p(0) = 1/25,
p(5) = 4/25,
d)
2
X
p(1) = 2/25,
p(6) = 3/25,
p(2) = 3/25,
p(7) = 2/25,
p(3) = 4/25,
p(8) = 1/25.
p(4) = 1/25,
1
100
(2 + 3 2 + 4 3 + 5 4 + 4 5 + 3 6 + 2 7 + 8) =
= 4
25
25
1
100
(16 + 2 9 + 3 4 + 4 + 4 + 3 4 + 2 9 + 16) =
= 4 2 /2 .
25
25
7.7. I pacchi da sei bottiglie di acqua minerale confezionati da uno stabilimento

hanno un peso medio di 9, 3 Kg., con varianza 2 = 0, 4 Kg2 . Calcolare la probabilità
che un campione di n = 20 pacchi proveniente dallo stabilimento abbia un peso totale
maggiore di 184 Kg.
Soluzione. La distribuzione campionaria del peso medio di ogni pacco ha valor medio
E{n } = = 9.3 Kg e varianza
n2 = 2 /n = 0.4/20 = 0.02 Kg2 .
La probabilità richiesta è uguale a quella che un singolo pacco abbia un peso maggiore
di 184/20 = 9.2 Kg. e si calcola come
9.2 E{n }
IP Zn
n
= IP(Zn 0.7071) =
1
1
+ erf(0.7071) ' + 0.26 = 0.76 .
2
2
7.8. Due fornitori riforniscono lo stesso negozio di CD; il primo ne fornisce il 70%,
e il secondo il 30% del totale. Da unindagine campionaria della ditta acquirente
risulta che il 94% dei CD del primo fornitore ha un diametro maggiore di 12.45 cm.
e il 10% maggiore di 12.58 cm. Inoltre, l8% dei CD del secondo fornitore ha un
diametro minore di 12.45 cm. e il 95% è minore di 12.6 cm. Assumendo che la
distribuzione dei diametri dei CD sia normale,
a) determinare la percentuale dei CD ricevuti dal negozio con diametro compreso
tra 12.4 e 12.6 cm.
b) avendo venduto un CD con un diametro non compreso tra 12.4 e 12.6 cm., qualè
la probabilità che quel CD provenga dal secondo fornitore?
Soluzione.
a) Occorre anzitutto determinare la media e la varianza delle distribuzioni campionarie normali dei CD ricevuti dai due fornitori. Se X è la variabile casuale che
indica il diametro, e Z quella standardizzata, dai dati del problema si ha che per
quelli del primo fornitore:
12.45 1
12.45 1
= 0.5 erf
1
1
12.58 1
12.58 1
= 0.5 erf
0.10 = IP(X 12.58) = IP Z
1
1
0.94 = IP(X 12.45) = IP Z
ossia:
201
1 12.45
= 0.44 ;
1
Dalla Tabella di erf (z) si trova:
erf
erf
12.58 1
1
= 0.40.
1 12.45 = 1.56 1
12.58 1 = 1.285 1
e risolvendo il sistema si ricava: 1 = 12.5213 , 1 = 0.0457.
Analogamente, dai dati campionari sui CD del secondo fornitore, si ricava:
12.45 2
12.45 2
0.08 = IP(X 12.45) = IP Z
= 0.5 + erf
2
2
12.6 2
12.6 2
0.95 = IP(X 12.6) = IP Z
= 0.5 + erf
2
2
ossia:
12.6 2
2 12.45
= 0.42 ;
erf
= 0.45.
erf
2
2
Dalla Tabella di erf (z) si trova:
2 12.45 = 1.41 2
12.6 2 = 1.645 2
e risolvendo il sistema si ricava: 2 = 12.519 , 1 = 0.049.
Definiamo ora gli eventi: E = {12.4 cm. X 12.6 cm.}; F1 = {CD del primo f ornitore};
F2 = {CD del secondo f ornitore} e calcoliamo:
12.6 1
12.4 1
IP(E|F1 ) = erf
erf
1
1
= erf(1.7221) + erf(2.654) ' 0.4575 + 0.496 = 0.9535
12.6 2
12.4 2
erf
2
2
= erf(1.653) + erf(2.4285) ' 0.45 + 0.4924 = 0.9424.
IP(E|F2 ) = erf
La probabilità totale che i CD abbiano diametro compreso tra 12.4 e 12.6 cm. è
IP(E) = IP(F1 )IP(E|F1 )+IP(F2 )IP(E|F2 ) = 0.70.9537+0.30.9424 = 0.95017 ' 95% .
b) Levento E 0 = {X 6 (12.4, 12.6)} ha probabilità IP(E 0 ) = 1 IP(E) = 0.05, e
inoltre:
IP(E 0 |F1 ) = 1 IP(E|F1 ) = 0.0465 ;
IP(E 0 |F2 ) = 1 IP(E|F2 ) = 0.0576.
La probabilità a posteriori che è richiesta vale dunque:

IP(F2 |E 0 ) =
0.30 IP(E 0 |F2 )

= 0.3467 .
0.70 IP(E 0 |F1 ) + 0.30 IP(E 0 |F2 )
202
STIME DI PARAMETRI
Dopo aver precisato le proprietà di due tra le statistiche campionarie pi`
u importanti, ossia la media (7.2) e la varianza (7.3), in questo Capitolo ci occupiamo
delle metodologie che, utilizzando i dati desunti dalla osservazione di un campione
della popolazione, consentono di determinare i valori pi`
u attendibili da attribuire
ai parametri incogniti i presenti nel modello statistico che è stato adottato per la
popolazione stessa. I metodi di stima che possiamo sviluppare sono di due tipi:
stima puntuale, se si utilizza una statistica campionaria Gn = g(X1 , . . . , Xn )
con lobiettivo di determinare il valore corretto di un parametro incognito
della popolazione;
stima per intervalli di confidenza se, oltre al valore approssimato del parametro
incognito da stimare, si precisa anche il grado di approssimazione della stima
puntuale effettuata, determinando la probabilità che il valore stimato appartenga a un prefissato intervallo.
Nei due paragrafi che seguono sono illustrate le modalità con cui si perviene a questi
due tipi di stima parametrica.
8.1
Stima puntuale
Una statistica campionaria Gn = g(X1 , . . . , Xn ), utilizzata per stimare il valore incognito di un parametro del modello statistico della popolazione, si chiama stimatore
puntuale di .
Avendo a disposizione le realizzazioni (x1 , . . . , xn ) di un campione, sono molti gli
stimatori puntuali che possiamo definire. Per esempio: se è un valor medio,
possiamo scegliere come suo stimatore il riassunto (7.2), oppure la mediana (6.3)
della distribuzione di frequenze nel campione esaminato. Se è una varianza, due
suoi stimatori possono essere la statistica (7.3), oppure quella corretta (7.14).
Quale statistica scegliere, per avere i risultati pi`
u attendibili? Il criterio da seguire
nella scelta si basa sulla verifica che lo stimatore abbia ben definite proprietà, che
sono precisate dalle definizioni che seguono.
203
204
STIME DI PARAMETRI
Stimatore corretto. La statistica Gn è uno stimatore corretto, o imparziale,

o non distorto (unbiased) di se il suo valore atteso coincide con il valore
teorico del parametro da stimare, per qualsiasi legge probabilistica compatibile
con il modello statistico della popolazione:
E{Gn } = ,
P (x, ) P.
(8.1)
Stimatore consistente. La statistica Gn è uno stimatore consistente in probabilità se, per qualsiasi compatibile con il modello statistico, esso converge
al valore teorico con probabilità 1 quando la numerosit`
a del campione tende
ad infinito:
lim IP(|Gn | ) = 1,
> 0.
(8.2)
n
Gn è invece consistente in media quadratica se per n si annulla il suo

errore quadratico medio:
lim E{(Gn )2 } = 0
(8.20 )
e in tal caso è anche consistente in probabilità.

Se Gn è uno stimatore corretto, il suo errore quadratico medio coincide con
la varianza 2 (Gn ). Pertanto è anche consistente (in media quadratica e in
probabilità) se la varianza della sua distribuzione campionaria tende a zero
per n :
lim 2 (Gn ) = 0.
(8.200 )
n
(1)
(2)
Stimatore efficiente. Scelti due stimatori Gn e Gn entrambi corretti,

(1)
diciamo che Gn è lo stimatore pi`
u efficiente tra i due se ha una distribuzione
campionaria con una varianza minore di quella della distribuzione campionaria
(2)
di GN :
2
(2)
2 (G(1)
n ) (Gn )
(8.3)
per ogni numerosità n del campione e per ogni valore teorico del parametro
da stimare.
Tenuto conto delle precedenti proprietà di una statistica campionaria, siamo ora in
grado di enunciare il seguente:
CRITERIO DI STIMA PUNTUALE: Una statistica Gn (X1 , . . . , Xn ) è il miglior
stimatore di se è il pi`
u efficiente nellinsieme degli stimatori corretti e consistenti.
Il valore = gn (x1 , . . . , xn ) del miglior stimatore, calcolato utilizzando le n determinazioni xi del campione, è la stima ottima del parametro .
8.1 Stima puntuale
8.1.1
205
Stima puntuale di medie e di varianze
Sulla base del criterio appena enunciato, non è difficile definire la stima ottima per
le medie e per le varianze di una popolazione di infiniti elementi, descritta da un
modello statistico normale.
Riguardo al valor medio, i risultati ricavati nel Capitolo precedente ed espressi dalle
(7.4) e (7.6) mostrano che la media campionaria n definita dalla (7.2) è uno stimatore corretto e consistente (sia in probabilità che in media quadratica) della media
teorica . Ma essa è anche il pi`
u efficiente tra gli stimatori corretti e consistenti.
Limitiamoci a chiarire questultima affermazione con due esempi.
1). Dato un campione estratto da una popolazione con media e varianza 2 ,
consideriamo come statistica Gn una generica combinazione lineare delle variabili
casuali indipendenti X1 , . . . , Xn :
Gn =
n
X
ai Xi
n
X
in cui
i=1
ai = 1
(8.4)
i=1
e con almeno due coefficienti ai che siano diversi da 1/n (perche altrimenti Gn
coinciderebbe con la media campionaria n ). Il valore atteso della statistica (8.4)
vale:
n
n
E{Gn } =
ai E{Xi } =
i=1
ai =
i=1
e quindi anche Gn è uno stimatore non distorto della media . Ricordando i calcoli
già effettuati nel 3.1.1, la sua varianza vale
2 (Gn ) =
n
X
a2i 2 (Xi ) =
i=1
n
X
a2i 2
i=1
e si può anche scrivere

2 (Gn ) = 2
n
X
ai
i=1
1
1
+
n n
= 2
n
X
ai
i=1
1
n
2
> n2
n
perche per almeno due coefficienti ai la differenza ai 1/n è diversa da zero. Dunque
la varianza di Gn è sempre maggiore della varianza n2 della media campionaria n ,
e per la (8.3) si deduce che n è pi`
u efficiente della statistica (8.4). Inoltre, 2 (Gn )
è maggiore di zero per qualsiasi numerosit`
a del campione, e tale che
lim 2 (Gn ) = 2
a2i > 0.
i=1
Quindi Gn non è nemmeno uno stimatore consistente della media . /

2). La mediana x
di una distribuzione campionaria di frequenze, definita nella (6.3),
è anchessa uno stimatore non distorto di , e si può calcolare che per n >> 1 ha
una varianza che vale:
2
.
2 (
x) =
2n
206
STIME DI PARAMETRI
Dunque x
è anche uno stimatore consistente, perchè la sua varianza tende a zero
per n . Tuttavia, per n finito questultima è maggiore della varianza (7.5) della
distribuzione campionaria di n , e quindi n è pi`
u efficiente di x
. /
Poiche si può dimostrare che n è pi`
u efficiente di qualsiasi stimatore della media,
si può concludere che la statistica (7.2) è il miglior stimatore di , e di conseguenza
la stima ottima del valor medio vale :
n
1X
xi .
n i=1
(8.5)
Riguardo alla stima puntuale della varianza di una popolazione normale, nel 7.4
si è ricavato che il valor medio della distribuzione campionaria di Sn2 , definita nella
(7.3), non soddisfa la condizione (8.1). Pertanto, la statistica Sn2 è uno stimatore
distorto della varianza 2 della popolazione.
Al contrario, in un campionamento con ripetizione la statistica corretta (7.14)
soddisfa entrambe le proprietà di non distorsione e di consistenza perche, ricordando
i risultati già ottenuti nel 7.4.1, è tale che
2
2
E{Qn } =
(n 1) = 2
n1
n1
2
lim 2 (Sn2 ) = lim
4 = 0.
n
n n 1
E{Sn2 } =
Inoltre, anche per Sn2 si può dimostrare che è il pi`

u efficiente tra gli stimatori corretti
e consistenti della varianza. Si può pertanto concludere che la statistica (7.14) è il
miglior stimatore della varianza 2 della popolazione, e che la sua stima ottima
effettuata con campioni estratti con ripetizione vale:
n
1 X
=
(xi n )2 .
n 1 i=1
2
(8.50 )
E proprio questo valore che viene restituito dalla maggior parte dei software di
elaborazioni statistiche, quando si chiede la varianza di una assegnata serie di dati.
Se il campione è estratto in blocco da un numero N non elevato di elementi, ricordando la (7.19) la stima (8.5) si corregge moltiplicandola per il coefficiente
(N 1)/N .
8.1.2
Stima di massima verosimiglianza
E un metodo di stima puntuale assai efficace e attendibile, che spesso può essere
applicato con successo per valutare qualsiasi parametro incognito (non necessariamente coincidente con le medie o le varianze) presente nel modello statistico che
si adotta per studiare una popolazione. Il procedimento per ottenere una stima di
massima verosimiglianza è il seguente.
8.1 Stima puntuale
207
Supponiamo che la popolazione sia descritta da un modello statistico con densità

f (x, ) dipendente da un parametro incognito IR, ed occorra stimare
con lanalisi di una statistica campionaria Gn , di cui sono note n osservazioni
indipendenti x1 , x2 , . . . , xn . Queste osservazioni sono le realizzazioni di n variabili
casuali indipendenti: Xi , i = 1, . . . , n, ciascuna con densità f (xi , ). Poichè sono
indipendenti, la loro densità di probabilità congiunta vale, come detto nel Capitolo
3:
L(; x1 , . . . , xn ) = f (x1 , )f (x2 , ) f (xn , ).
(8.6)
Questa densità, interpretata come una funzione ordinaria della variabile reale e
dipendente dagli n parametri xi , è detta verosimiglianza per la realizzazione x =
{x1 , .., xn } del campione.
Si chiama stima di massima verosimiglianza per il parametro quel valore (se esiste) della variabile indipendente, per cui la funzione L(; x1 , . . . , xn ) ha un massimo
nel dominio di interesse del parametro da stimare. Questo valore si indica con
M LE() (Maximum Likelihood Estimation), e deve soddisfare la condizione:
L[ = M LE(); x1 , . . . , xn ] = sup L(; x1 , . . . , xn ).
Se per qualsiasi realizzazione del campione la verosimiglianza L(; x1 , . . . , xn ) ha

un massimo in , e se L(; x1 , . . . , xn ) è derivabile rispetto a , allora la stima
di massima verosimiglianza M LE() è un suo punto di stazionarietà che soddisfa
lequazione: dL(; x)/d = 0. Poiche L(; x) non è identicamente nulla in ,
questultima equazione si può anche scrivere:
n
d
d
d X
log L(; x) =
log[f (; x1 ) f (; xn )] =
log f (; xi ) = 0
d
d
d i=1
ed effettuando la derivata si ricava la seguente equazione di verosimiglianza:

n
X
f (, xi )
i=1
1
= 0.
f (, xi )
(8.7)
Per la maggior parte dei modelli statistici di uso pi`

u frequente non è difficile verificare
che i punti di stazionarietà che soddisfano la (8.7) corrispondono effettivamente a un
massimo di L(; x), per cui la soluzione della equazione di verosimiglianza (supposto
che esista e sia unica in ) fornisce la stima M LE(), espressa in termini delle
osservazioni xi rilevate nel campione.
Se il parametro incognito è il valor medio di una popolazione di infiniti elementi,
si può anche dimostrare che la stima di massima verosimiglianza del valor medio
coincide con la media campionaria n e di conseguenza, per quanto si è visto nel
paragrafo precedente, fornisce la stima ottima del valor medio della popolazione.
Verifichiamo questa sua proprietà nellipotesi che siano state fatte n osservazioni
su una popolazione cui si attribuisce un modello statistico normale N (, 2 ). Ogni
osservazione ha una distribuzione
"
(xi )2
1
,
f (xi , ) = exp
2 2
2
i = 1, . . . , n
208
STIME DI PARAMETRI
e la funzione di verosimiglianza vale:

#
"
n
Y
"
n
X
1
1
(xi )2
(x )2
exp i 2
L(; x) =
=
exp
.
2
2 2
(2 2 )n/2
i=1 2
i=1
Per determinare il suo punto di massimo calcoliamo le derivate prime:

"
(xi )2
df (xi , )
1
xk
xk
exp
f (xi , )
=
=
2
2
d
2
2
2
per cui lequazione di verosimiglianza (8.7) si scrive:
n
1 X
(xi ) = 0.
2 i=1
Poichè 2 > 0, si ricava: x1 + x2 + . . . + xn n = 0, da cui

M LE() =
1
(x1 + x2 + . . . + xn ) = n .
n
Al contrario, con calcoli del tutto analoghi si può mostrare che in un modello N (, )
Normale-2, la stima di massima verosimiglianza per non concide con la stima
ottima della varianza che si ottiene invece con la statistica (7.14). Infatti, tenuto
conto che le densità di ciascuna osservazione Xi del campione sono
#
"
1
(xi )2
f (xi , ) =
,
exp
2
2
le loro derivate valgono:
"
1
(xi )2
df (xi , )
=
exp
d
2
2
#"
(xi )2
(xi )2
1
=
f (xi , )
22
2
22
e lequazione di verosimiglianza per è in tal caso:

"
n
n
1 X
1 X
2
[(x
]
=
(xi )2 n = 0.
i
22 i=1
22 i=1
La sua soluzione è:

M LE() =
n
1X
(xi )2
n i=1
e coincide con la varianza campionaria (7.2) che è una stima distorta della varianza
teorica 2 .
Questo metodo di stima puntuale è comunque particolarmente efficace quando si
devono determinare parametri incogniti che non siano la media o la varianza della
8.1 Stima puntuale
209
distribuzione teorica ipotizzata nel modello statistico. I due esempi che seguono
illustrano la sua applicazione per questo tipo di stime.
Esempio 8.1
Si vuole stimare il valore del parametro c IR nel modello statistico esponenziale

del tipo
E( + c) f (x, c) = ( + c)e(+c)x ,
x0
che si attribuisce a una popolazione dalla quale è stato estratto, con ripetizioni, un
campione di numerosità n. Definita la funzione di verosimiglianza (8.6) con = c,
le derivate delle densità f (xi , c) valgono:
df (xi , c)
= e(+c)xi xi ( + c)e(+c)xi =
dc
e di conseguenza lequazione di verosimiglianza è
n
X
i=1
1
xi f (xi , c)
+c
n
X
1
n
1
xi =
xi = n
n = 0.
+c
+ c i=1
+c
La stima di massima verosimiglianza per il parametro c è pertanto:

1
M LE(c) =
.
n
Si noti che M LE(c) = 0 implica: n = 1/, e questo risultato verifica che la stima di
massima verosimiglianza per il valor medio = 1/ di una popolazione con modello
esponenziale E() coincide con la media campionaria n /.
Esempio 8.2
Si estrae con ripetizioni un campione di numerosit`

a n da una popolazione avente un
carattere X con valori in (0, 1], al quale si decide di assegnare un modello statistico
descritto dalla densità
(1 + b)xb per x (0, 1]

fX (x, b) =
0
altrove,
con b IR parametro incognito. Per stimarlo, osserviamo che ogni elemento Xi del
campione ha densità
f (xi , b) = (1 + b)xbi
la cui derivata vale
df (xi , b)
1
= xbi [1 + (1 + b) log xi ] =
+ log xi f (xi , b).
db
1+b
Lequazione di verosimiglianza (8.7) si scrive:
n
X
i=1
n
X
1
n
n
+ log xi =
+
log xi =
+ log(x1 x2 xn ) = 0,
1+b
1 + b i=1
1+b
e risolvendola rispetto a b si ottiene:

M LE(b) = 1
n
./
log(x1 x2 xn )
210
8.1.3
STIME DI PARAMETRI
Metodo dei momenti
Si tratta di un metodo di stima puntuale che è concettualmente assai semplice, e

sebbene in generale non fornisca risultati molto precisi, è molto utile per ottenere
simultaneamente la stima di pi`
u di un parametro incognito presente nel modello
statistico.
Precisamente, assumiamo che il modello di popolazione sia descritto da una densità
fX (x; 1 , 2 , . . . , M ) dipendente da M parametri incogniti, e che questa sia dotata
dei suoi primi M momenti:
E{X q }(1 , 2 , . . . , M ),
q = 1, . . . , M
noti come assegnate funzioni degli M parametri incogniti.

Estratto dalla popolazione un campione di numerosit`
a n, consideriamo gli M mo(q)
menti campionari di ordine q, già definiti nella (7.0). Indichiamo con gn (x1 , . . . , xn )
le realizzazioni di questi M momenti campionari, che possiamo calcolare utilizzando
i dati xi . Imponendo che ciascuna realizzazione uguagli il corrispondente momento
della densità teorica, si perviene al seguente sistema di M equazioni nelle M incognite q :
q = 1, . . . , M :
E{X q }(1 , 2 , . . . , M ) = gn(q) (x1 , . . . , xn )
(8.8)
la cui soluzione (se esiste, e se è unica in ) fornisce la stima degli M parametri

incogniti, espressa in termini degli n dati osservati. Al posto di qualche momento
campionario del tipo (7.1) si può anche utilizzare, per migliorare lapprossimazione
dei risultati, i corrispondenti momenti campionari centrali, come per esempio la
stima ottima (8.5) della varianza.
Esempio 8.3
Si assume che il carattere X di una popolazione possa avere valori uniformemente

distribuiti in un intervallo di IR da determinare. Il modello statistico per X è perciò
quello uniforme R(1 , 2 ) avente come parametri incogniti gli estremi di tale intervallo, ed è descritto dalla densità costante (2.28) con momenti del primo e secondo
ordine che valgono:
1
E{X} = (1 + 2 ),
2
1
E{X 2 } = (21 + 1 2 + 22 ).
3
Per stimare i due estremi incogniti, si estrae un campione casuale con numerosit`
a
n = 10 dal quale si ricavano i seguenti dati xi :
1.4,
3.05,
1.9,
0.45,
2.2,
4.1,
3.5,
2.7,
4.25,
0.95.
La media campionaria e il momento campionario di ordine 2 risultano rispettivamente:

gn(1) n =
1 X
xi = 2.45,
10 i
gn(2) =
1 X 2
x = 7.523.
10 i i
8.2 Stima per intervalli
211
Applichiamo il metodo dei momenti, scrivendo la (8.8) per q = 1, 2. Si ricava il

sistema:
1 + 2 = 2 2.45
21 + 1 2 + 22 = 3 7.523
la cui soluzione fornisce:
1 = 0.3143 ,
2 = 4.8857. /
Esempio 8.4
Si ha motivo di ritenere che un parametro X, presente nel modello matematico di un

fenomeno fisico aleatorio, possa assumere casualmente valori compresi nellintervallo
[0, 1], con legge non uniforme, bens soddisfacente un modello statistico Beta B(b, c),
descritto dalla densità che è definita nella (2.53) del Capitolo II. Essa dipende dai
due parametri incogniti b, c > 1, che ci proponiamo di stimare mediante lanalisi di
un campione costituito, per esempio, dai risultati xi di n osservazioni indipendenti
del fenomeno fisico oggetto di studio.
Poichè il valor medio e la varianza della distribuzione teorica sono funzioni note dei
due parametri incogniti definite nella (2.54), conviene usare i dati del campione per
calcolare le stime ottime
,
2 della media e della varianza, e uguagliarle alle loro
espressioni teoriche. Si ricava in tal modo il seguente sistema:
b+1
b+c+2
(b + 1)(c + 1)
(b + c + 2)2 (b + c + 3)
che ha come soluzione:
2 (1
)
(1 +
)
2
2
(1
)
c =
2+
2
b =
con
e
2 definite rispettivamente dalle (8.5) e (8.5) /.
8.2
Stima per intervalli
La stima ottima di un parametro che abbiamo ricavato nel paragrafo precedente,

si determina esaminando i dati forniti da uno dei tanti campioni che casualmente
è possibile estrarre dalla popolazione. Ciò significa che il valore empirico ottenuto
è da considerare approssimato, perche assai raramente esso coinciderà con il vero
valore del parametro.
212
STIME DI PARAMETRI
Se però si conosce la distribuzione campionaria della statistica usata per stimare

questo parametro, siamo in grado di valutare lerrore commesso, e di definire lintervallo [min max ] che, con probabilità [0, 1] molto prossima ad 1, contiene
il vero valore del parametro in questione.
Questo metodo di stima, che evidentemente migliora e completa i risultati che si ottengono con una semplice stima puntuale, si chiama stima per intervalli. Lintervallo
[min , max ] tale che
IP(min max )
si chiama intervallo di confidenza o intervallo fiduciario, i suoi estremi sono i limiti

fiduciari, e è il livello fiduciario o probabilit`
a fiduciaria, che si sceglie in anticipo
e quantifica, per cos dire, il nostro grado di accettazione dellerrore commesso
nella stima. Espressa in percentuale, la probabilità esprime anche il livello di
significatività della stima effettuata. Fissato , quanto pi`
u piccolo è lintervallo di
confidenza, tanto migliore è lapprossimazione della stima puntuale effettuata.
La stima intervallare pi`
u frequente usa un intervallo fiduciario simmetrico, centrato
sul valore empirico calcolato, e prende anche il nome di stima a due code se la
condizione:
IP( + )
implica lesclusione delle regioni pi`

u esterne (le code) di una distribuzione di tipo
normale.
In altri casi, è invece preferibile effettuare stime a una coda, che sono definite da
condizioni del tipo:
IP( max ) ,
IP(min )
in cui gli intervalli di confidenza sono limitati solo a destra o a sinistra.

La definizione delle distribuzioni campionarie delle medie e delle varianze che è
stata effettuata nei 7.3 e 7.4 del Capitolo precedente, ci permette di determinare
per questi due parametri le stime intervallari che seguono.
8.2.1
Intervalli di confidenza per la media
8.2.1.1. Popolazione con varianza nota.

Supponiamo dapprima che la popolazione da cui è stato estratto il campione abbia
una distribuzione teorica con media incognita da determinare, e varianza nota 2 .
Se la popolazione ha un modello statistico Normale N (, 2 ), anche la media campionaria n ha una distribuzione
normale, che per le (7.4) e (7.5) ha media e
a n del campione.
deviazione standard / n, per qualunque valore della numerosit`
Se la popolazione ha una distribuzione teorica che non è normale, per il Teorema
Limite Centrale la distribuzione campionaria delle medie ha ancora legge normale
N (, 2 /n) se la numerosità del campione è sufficientemente elevata (in pratica, se
n 30).
213
In entrambi i casi, fissato il livello fiduciario e introdotta la variabile normale

standard
n
N (0, 1),
Zn =
(8.9)
/ n
si può determinare un intervallo di confidenza simmetrico, centrato sul valore empirico n della media campionaria, calcolando il valore di z per cui si ha:
IP n z n + z
n
n
= IP |n | z
n
= IP(|Zn | z) = 2 erf (z) = . (8.10)
Questo valore di z che soddisfa la (8.10), e che indichiamo con zq z(1+)/2 (v.
il grafico a) di Fig. 8.1) è il quantile di ordine q = (1 + )/2 della legge Normale
standard, e viene chiamato coefficiente fiduciario. Ricordando che il quantile zq di
ordine q della distribuzione N (0, 1) è quel valore di Z tale che
FZ (zq ) =
1
+ erf(zq ) = q ,
2
esso si può ricavare dalla Tabella di erf(z) riportata in Appendice, ricercando nelle
sue colonne il numero pi`
u prossimo al valore q 0.5 (ovvero al valore /2), eventualmente interpolando tra due valori vicini.
N (0,1)
N (0,1)
g
1 g
2
1 g
2
-z 1+ g
2
z 1+ g
1 g
a) stima con intervallo simmetrico
zg
b) stima a una coda
Figura 8.1 - Intervalli di confidenza
Calcolati il valore empirico n e il coefficiente fiduciario z , lintervallo di confidenza

simmetrico per una stima al livello fiduciario risulta pertanto:
n z(1+)/2 n + z(1+)/2
n
n
(8.11)
ed ha come estremi i limiti fiduciari:
n z(1+)/2 .
n
(8.110 )
In modo analogo si può procedere per determinare i limiti superiori o inferiori di

intervalli di confidenza per le stime a una coda. Ad esempio, il valore z di z che
214
STIME DI PARAMETRI
soddisfa la seguente condizione:
IP n + z = IP n z
= IP(Zn z) =
n
n
= 1 IP(Zn z) = 1 [1/2 + erf (z)] = 1/2 + erf (z) =
è il quantile di ordine q = della legge N (0, 1) e definisce il limite fiduciario superiore
per il seguente intervallo di confidenza a una coda:
< n + z
(8.12)
n
che è mostrato nel grafico b) di Fig. 8.1. Esso si determina ricercando nella Tabella
di erf(z) il valore di z che corrisponde a una probabilità uguale a 1/2. Allo stesso
modo si determina il limite fiduciario inferiore dellintervallo di confidenza:
n z < + ,
(8.13)
n
dove z è ancora il quantile di ordine di N (0, 1), soddisfacente la condizione:
IP n z = IP n z
n
n
= IP(Zn z) = 1/2 + erf (z) = .
OSSERVAZIONE 8.1
I limiti fiduciari ora determinati si prestano anche alla risoluzione dei seguenti problemi di stima, collegati a quello della determinazione di un intervallo di confidenza
simmetrico.
Determinazione del livello fiduciario. Fissato lo scarto
= |n | = z(1+)/2
n
nella stima del valor medio attraverso il risultato empirico n , la probabilità
fiduciaria con cui si può affermare che = n è data dal valore di che
soddisfa la condizione:
n
z(1+)/2 =
,
il quale per la (8.10) vale:
!
n
= 2 erf z =
.
(8.14)
a del campione. Fissato il livello fiduciario ,

Determinazione della numerosit`
la numerosità del campione che è necessaria per sostenere che il valor medio
stimato vale = n si calcola imponendo la condizione:
z(1+)/2
n
215
con z(1+)/2 che soddisfa la (8.10). Da questa si ottiene:
n z(1+)/2
(8.15)
8.2.1.2 Popolazione con varianza sconosciuta.

Supponiamo ora che la popolazione da cui è stato estratto il campione abbia una
distribuzione teorica in cui anche la varianza 2 , in aggiunta alla media da determinare, sia sconosciuta.
In tal caso, per effettuare una stima intervallare di ci si basa sulla densità t-Student
illustrata nel 2.3.6 del Capitolo II, alla quale fa riferimento il seguente:
TEOREMA 8.1 (t-Student)
Se da una popolazione normalmente distribuita si estraggono campioni casuali di
numerosità n con media campionaria n e varianza campionaria corretta Sn2 , allora
la variabile casuale
(n ) n
(8.16)
Tn =
Sn
ha una distribuzione t-Student con = n 1 gradi di libertà.
Ne segue che se la popolazione ha una distribuzione teorica normale, una volta determinate le realizzazioni delle due statistiche campionarie (7.2) e (7.14) con numerosit`
a
n qualsiasi, una stima intervallare simmetrica per con livello fiduciario si potrà
effettuare determinando quel valore tq di t che soddisfa la condizione:
Sn
Sn
IP n t n + t
n
n
Sn
= IP |n | t
n
= IP(|Tn | t) = .
=
(8.17)
Il coefficiente fiduciario tq per questa stima a due code è il quantile della distribuzione t-Student con = n 1 gradi di libertà, che lascia alla sua destra unarea uguale
alla probabilità (1 )/2. Esso si può ricavare da una apposita Tabella dei quantili
delle distribuzioni t-Student che è riportata in Appendice, e per un prefissato grado
di libertà è il valore che si trova nella colonna del quantile
q =1
1
1+
=
.
2
2
(8.170 )
Lintervallo di confidenza simmetrico per una stima di al livello fiduciario è

pertanto:
Sn
Sn
n tq n + tq .
(8.18)
n
n
Si noti che i suoi limiti fiduciari si ottengono dalla (8.11) sostituendo , ora incognito, con Sn (n qualsiasi), e il coefficiente zq con tq . In modo simile, si ricavano i
216
STIME DI PARAMETRI
seguenti intervalli di confidenza a una coda:

Sn
< n + tq ,
n
Sn
n tq < + ,
n
(8.19)
i cui limiti fiduciari superiore o inferiore sono da determinare calcolando il coefficiente

tq che è ora il quantile della distribuzione t-Student con = n 1 gradi di libertà,
con q = .
Le formule (8.17)-(8.19) sono state ricavate nella ipotesi che la popolazione sia normalmente distribuita, e valgono anche per piccoli campioni (n < 30) estratti casualmente da questa. Se invece la popolazione non è normalmente distribuita, non sono
soddisfatte le ipotesi del precedente Teorema. In tal caso si può però dimostrare che
il Teorema 8.1 vale ancora per n sufficientemente grande, circostanza in cui, come
si è detto nel 3.2.6, la distribuzione t-Student tende alla legge Normale standard
identificandosi con la variabile aleatoria Zn definita con la (8.9).
Ne segue che le stime intervallari per la media di una popolazione con distribuzione
diversa da quella normale si ottengono ancora, se la numerosit`
a del campione è
sufficientemente elevata (n 30), calcolando i coefficienti fiduciari z che compaiono
nelle (8.11)-(8.15), dopo aver sostituito in queste formule la deviazione standard
incognita con il valore empirico della statistica campionaria Sn .
Riportiamo qui, per comodità, le espressioni di Sn che si deducono dallanalisi della
distribuzione campionaria delle varianze effettuata nel 7.4 del Capitolo VII.
Se il campione di numerosità n è estratto con ripetizione da una popolazione finita,
oppure se la popolazione è infinita, si ha
r
Sn =
n
Sn .
n1
(8.20)
Se il campione è estratto senza ripetizione da una popolazione con un numero finito

di N elementi, allora
s
N 1 n
Sn =
Sn ,
(8.21)
N n1
dove Sn è la radice quadrata positiva della varianza campionaria (7.2):
v
u
n
u1 X
Sn = t
(Xi n )2 .
i=1
Esempio 8.5
La media e la deviazione standard del diametro di un campione di 200 utensili

prodotti da una fabbrica sono rispettivamente n = 0.824 cm e Sn = 0.042 cm.
Nellipotesi che il campione sia stato estratto con ripetizione da un numero elevato
di pezzi fabbricati, determinare: 1) i limiti fiduciari al 95% e al 99% per il diametro
217
medio dei tondini in produzione; 2) la numerosit`

a n del campione che si dovrebbe
esaminare per poter concludere, al livello fiduciario = 0.95, che lerrore nella stima
della media è inferiore a 0.001 cm.
1) Il campione è estratto da una popolazione avente distribuzione non nota, con
media e varianza pure sconosciute. La numerosit`
a n è sufficiente per asserire che i
limiti fiduciari sono dati da
Sn
n
zq
200
con Sn che per la (8.20) vale
r
Sn =
200
0.042 = 0.04210 cm
199
e zq con q = (1 + )/2 si ricava dalla Tabella di erf(z).

Al livello fiduciario = 0.95, si trova dalla Tabella che /2 = 0.475 = erf (1.96),
e quindi zq = 1.96. Al livello = 0.99, si ha invece zq = 2.575, interpolando tra i
valori pi`
u vicini a /2 = 0.495. Si ottengono pertanto i seguenti risultati:
0.0421
1.96 = 0.824 0.00583 cm.
= 0.824
200
0.0421
2.575 = 0.824 0.00766 cm.
= 0.824
200
al livello = 0.95 :
al livello = 0.99 :
2) Per stimare il valor medio con un errore inferiore a = 0.001, occorre che n
soddisfi la condizione (8.15) con Sn = 0.0421 al posto di incognita. Al livello di
fiducia del 95% si deve perciò avere (arrotondando per eccesso perche n è intero):
0.0421
n 1.96
0.001
= 6778. /
esempio 8.6
Dieci misurazioni della lunghezza di un oggetto danno come risultato una media
n = 4.38 cm e una deviazione standard Sn = 0.0036 cm. Si vuole determinare i
limiti fiduciari al 95% e al 99% della lunghezza effettiva delloggetto.
Il campione è linsieme di dieci prove ripetute e indipendenti consistenti nella misurazione della lunghezza delloggetto, e si può considerare estratto con ripetizione
dalla popolazione delle infinite misurazioni teoricamente possibili. In accordo con il
Teorema di asintoticità per prove ripetute e indipendenti (v. 2.3.9 del Capitolo II), il
modello statistico da adottare è quello Normale-2, con media e varianza sconosciute.
Poichè abbiamo a disposizione un piccolo campione (n = 10), i limiti fiduciari per
la media si calcolano usando la distribuzione t-Student con = n 1 = 9 gradi
di libertà, e sono definiti dalla (8.18) con
r
Sn =
10
0.0036 ' 0.0632 cm
9
218
STIME DI PARAMETRI
calcolato applicando la (8.20). Al livello fiduciario = 0.95 il quantile q dato dalla

(8.17) vale
1 + 0.95
q=
= 0.975
2
e al livello fiduciario = 0.99:
q=
1 + 0.99
= 0.995 .
2
La Tabella dei quantili della distribuzione t-Student con 9 gradi di libertà (v. Appendice) fornisce rispettivamente i seguenti coefficienti fiduciari: tq = 2.262 e tq = 3.25.
Pertanto, in applicazione della (8.18) si ricava che i limiti fiduciari per il valor medio
della lunghezza delloggetto sono:
al livello = 0.95 :
al livello = 0.99 :
0.0632
= 4.38
2.262 = 4.38 0.04516 cm.
10
0.0632
3.25 = 4.38 0.06495 cm. /
= 4.38
10
Esempio 8.7
Da una popolazione di 200 voti in centesimi di un esame scolastico si estrae un

campione casuale di 50 voti che ha media n = 75 e varianza Sn2 = 100. Calcolare:
1) i limiti fiduciari al 95% per la stima della media dei voti; 2) il livello fiduciario
con cui potremo affermare che tale media vale 75 1.
1) Il campione è estratto senza ripetizione da una popolazione finita con N = 200
elementi, con media e varianza sconosciute. Poiche n > 30, possiamo calcolare i
limiti fiduciari applicando la (8.11) dopo aver sostituito, al posto di incognita, la
stima corretta di Sn che questa volta è data dalla (8.21). Il suo valore è prossimo a
quello della deviazione standard campionaria, e vale
s
Sn =
50
200 1
S2 =
200
50 1 n
199
100 = 10.0762.
196
Il coefficiente fiduciario z per = 0.95 vale z = 1.96 (v. lEsempio 8.5 precedente).
Pertanto i limiti fiduciari per la stima della media dei voti sono:
= 75
10.0762
1.96 == 75 2.793.
50
2) Per valutare il livello fiduciario di una stima intervallare del valor medio con un
errore non superiore a 1, si applica la (8.14) con = 1 e Sn = 10.0762 al posto di
. Si ricava allora:

!
50
= 2 erf
' 2 erf (0.70) = 2 0.258 = 0.516 .
10.0762
219
Ciò significa che una stima in cui si afferma che è uguale al valore empirico con lo
scarto massimo di una unità, ha soltanto il 51.6% di probabilità di essere vera. /
Esempio 8.8
Con un montacarichi che ha un limite di sicurezza di 8200 kg si devono trasportare

25 casse, scelte a caso da un lotto ricevuto in ditta. Si sa che il peso medio di
ciascuna cassa è = 300 kg, con deviazione standard = 50 kg. Si vuole calcolare:
1) la probabilità che il peso delle 25 casse non superi il limite di sicurezza del montacarichi;
2) il numero massimo di casse che è possibile caricare, se si vuole rimanere al di
sotto del limite di sicurezza di 8200 kg. con una probabilità del 99.9%.
1) In questo problema si assume di conoscere i parametri e 2 del modello statistico
per la popolazione delle casse, e poiche non conosciamo il numero N di elementi della
popolazione da cui è stato estratto il campione di n = 25 casse, si intende che questo
è stato scelto da una popolazione infinita.
La distribuzione campionaria delle medie dei pesi ha valor
medio E(n ) = = 300
kg e deviazione standard che per la (7.5) vale n = / 25 = 10 kg.
Si deve determinare la probabilità fiduciaria per un test a una coda sul peso delle
25 casse del campione, al quale si richiede di non superare il limite di sicurezza di
8200 kg. Questo limite di sicurezza è raggiunto se ciascuna cassa ha un peso medio
di n = 8200/25 = 328 kg. Quindi, la probabilità da calcolare è = IP(n < 328).
Introducendo, al solito, la variabile standardizzata
Zn =
n 300
n E(n )
=
,
n
10
al peso limite n di ciascuna cassa corrisponde il valore standardizzato z = 2.8. Si

ricava dunque:
= IP(n < 328) = IP(Zn < 2.8) =
1
1
+ erf(2.8) = + 0.4974 = 0.9974.
2
2
2) Nella seconda domanda è invece fissato il livello fiduciario = 0.999, e si richiede

il numero n di casse che soddisfa la condizione:
8200
P n
n
= 0.999
ovvero anche il valore z di Zn che soddisfa:

IP(Zn z ) =
1
+ erf(z ) = 0.999 .
2
Dallesame della Tabella dei valori di erf(z) risulta: z = 3.1 per cui, ricordando
lespressione della variabile stardardizzata Zn , si ricava che deve essere:
z = 3.1 =
8200/n 300
.
50/ n
220
STIME DI PARAMETRI
Si ottiene perciò la seguente equazione nella incognita n:
60n + 31 n 1640 = 0
che ha soluzione n = 24, 76. Da essa si deduce che per non superare il limite
di sicurezza con probabilità fiduciaria = 0.999, è necessario caricare un numero
massimo di 24 casse. /
Esempio 8.9
Dallanalisi di 500 sferette da cuscinetto prodotte in uno stabilimento, si ricava che

esse hanno un peso medio di 5.02 grammi, con deviazione standard = 0.30 gr.
1) Determinare la probabilità fiduciaria con cui si può affermare che il peso medio
delle sferette in produzione vale = 5.02 0.02 gr.
2) Dai 500 elementi esaminati si estrae senza ripetizione un campione di n = 100
sferette. Calcolare la probabilità che questo campione abbia un peso complessivo
compreso tra 496 e 500 gr., oppure maggiore di 510 gr.
1) Per il primo problema, si assume che il modello statistico per il peso delle sferette abbia varianza nota 2 = (0.3)2 = 0.09 gr2 , e media da stimare mediante
i dati forniti da un campione di numerosit`
a n = 500 estratto con ripetizione dalla
popolazione degli elementi in produzione. Si richiede la probabilità fiduciaria per
una stima intervallare di con uno scarto massimo = 0.02 gr. Essa si determina
applicando la (8.14), e dalla Tabella di erf(z) si ricava:
!
500 0.02
= 2 erf
= 2erf (1.49) = 2 0.4319 = 0.8638.
0.30
2) Nel secondo problema, occorre determinare la distribuzione campionaria delle
medie dei pesi, che risulta da un generico campione di n = 100 sferette estratto
senza ripetizione da una popolazione di N = 500 elementi. Per il Teorema Limite
Centrale, questa distribuzione campionaria è ben approssimata dalla legge normale
con valor medio E{n } = = 5.02, e varianza da calcolare applicando la (7.7):
n2 =
2 500 100
= 7.2144 104 gr2 .

100
499
Si chiede di determinare le probabilità IP(4.96 n 5) e IP(n 5.10) che sono

rappresentate dalle aree evidenziate in Fig. 8.2. La variabile casuale standardizzata
Zn =
n E{n }
n 5.02
p
=
2
0.027
n
assume, in corrispondenza degli estremi richiesti per n , i seguenti valori:

n = 4.96 :
n = 5 :
n = 5.10 :
z1 = 2.22
z2 = 0.74
z3 = 2.96
221
E{ m n }
4.9
4.96
5.1
5 5.02
mn
Figura 8.2
per cui le probabilità cercate sono:

IP(4.96 n 5) = IP(2.22 Zn 0.74) = erf (2.22) erf (0.74) = 0.2164
IP(n 5.10) = IP(Zn 2.96) =
1
erf (2.96) = 0.0015. /
2
Esempio 8.10
Da un campione di n = 100 votanti intervistati alluscita dai seggi in un ballottaggio

elettorale risulta che il 55% di essi si è espresso a favore del candidato A. Si vuole
determinare:
1) i limiti fiduciari al 95% e al 99% sulla percentuale di voti favorevoli al candidato
A;
2) Il numero n di interviste necessarie per affermare, al livello fiduciario = 0.95,
che il candidato sarà eletto.
Luniverso costituito dallelettorato attivo si suddivide in elettori favorevoli o contrari al nostro candidato A. Se indichiamo con p la probabilità (incognita) che
lelettore sia a lui favorevole, la popolazione degli elettori che hanno votato A
è distribuita con legge binomiale, avente una media E{ns } = 100p e varianza
2 (ns ) = 100p(1 p), dove ns è il numero di successi (voti a favore) riscontrati nel campione di elettori intervistati. Consideriamo tutti i possibili campioni
di grandezza n = 100 estratti da questa popolazione, e valutiamo la distribuzione
campionaria delle frequenze relative Y = ns /100. Nel 7.5 è stato ricavato che anche
Y ha una distribuzione binomiale, che si può approssimare con una legge normale
avente valor medio e deviazione standard date dalla (7.22):
E{Y } =
Y
E(ns )
=p
100
s
p(1 p)
(ns )
=
.
100
100
1) La prima domanda richiede una stima intervallare per la frequenza relativa Y di

voti favorevoli, che effettuiamo introducendo la variabile standardizzata:
Z=
Y p
Y p
=p
.
Y
p(1 p)/n
222
STIME DI PARAMETRI
Si deve determinare lintervallo di confidenza:

p zq Y p p + zq Y
con zq da calcolare per i livelli fiduciari richiesti usando la Tabella di erf(z), e precisamente: zq = 1.96 al livello = 0.95; zq = 2.58 al livello = 0.99.
Dalle osservazioni sul campione ricaviamo che il valor medio della distribuzione delle
frequenze relative di voti favorevoli è E{Y } = p = 0.55, e la sua deviazione standard
vale:
r
0.55 0.45
Y =
= 0.04975.
100
Si ottengono cos i seguenti limiti fiduciari:
al livello = 0.95 :
al livello = 0.99 :
p = 0.55 1.95 0.04975 = 0.55 0.0975

p = 0.55 2.58 0.04975 = 0.55 0.128.
Dunque, arrotondando gli scarti alla seconda decimale, si conclude che al livello
fiduciario = 0.95 il candidato avr`
a una percentuale di voti che va dal 45% al 65%;
al livello fiduciario = 0.99 avrà una percentuale compresa tra il 42% e il 68%.
2) Il candidato sarà eletto se Y > 0.50, e per stimare al livello di fiducia = 0.95 la
probabilità che venga eletto, bisogna imporre che
IP(Y > 0.50) = IP(Z > z0 ) =
1
erf (z0 ) = 0.95 ,
2
dove z0 è il valore della variabile standardizzata per Y = 0.5, che scriviamo in

funzione di n:
0.5 0.55
z0 = p
= 0.1005 n.
(8.22)
0.55 0.45/n
Ricercando nella Tabella di erf(z) il valore z0 che soddisfa: erf (z0 ) = 0.45 e
ricordando che erf (z) = erf (z), si ricava: z0 = 1.645. Se sostituiamo questo
valore nella (8.22) si ottiene, arrotondando per eccesso:
n=
1.645
0.1005
= 268.
Occorrerebbero pertanto 268 interviste per affermare, con un rischio di sbagliare

limitato al 5%, che il candidato A vincerà il ballottaggio. /
Esempio 8.11
Un campione Auditel di 1000 spettatori di un programma televisivo è costituito da

na = 700 adulti e nb = 300 bambini. Dal rilevamento dei dati di ascolto di un
programma di nuova produzione risulta che questo è gradito da 280 adulti e da 240
bambini. Si vuole conoscere, ai livelli di fiducia = 0.95 e 0.99, i limiti fiduciari
per il maggior gradimento del programma da parte dei bambini, rispetto a quello
mostrato dagli adulti.
223
Si considerino due campioni che supponiamo statisticamente indipendenti: quello costituito dagli spettatori adulti e quello dei bambini. Le frequenze relative Ya e Yb con
cui si riscontra il gradimento dello spettacolo nei due campioni sono rispettivamente:
Ya =
280
= 0.4 = pa ;
700
Yb =
240
= 0.8 = pb .
300
Le distribuzioni campionarie di queste due frequenze relative, che indicano anche

la percentuale pa , pb di gradimento del programma da parte dei due campioni, sono
approssimabili (cfr. 7.5) con leggi normali aventi hanno valori medi E{Ya } = pa =
0.4 e E{Yb } = pb = 0.8. Le rispettive varianze valgono, per la (7.22):
a2 =
b2 =
pa (1 pa )
0.4 0.6
=
= 0.000343
na
700
pb (1 pb )
0.8 0.2
=
= 0.000533.
nb
300
Definiamo ora la variabile casuale

d() = Yb Ya
che rappresenta la differenza tra la frequenza relativa di gradimento da parte dei
bambini, e quella riscontrata negli adulti. Se d() ha realizzazioni maggiori di
zero, significa che il programma ha un maggior gradimento da parte dei bambini, e
viceversa se d < 0. Dalle osservazioni sul campione si ha che il suo valor medio è
ovviamente
E{d} = E{Yb } E{Ya } = 0.4 ,
e la deviazione standard di questa distribuzione campionaria vale, per la (3.8) del
Capitolo III:
q
d = a2 + b2 = 0.000343 0.000533 = 0.0296.

Una stima per intervalli del maggior gradimento da parte dei bambini si effettua
calcolando il seguente intervallo di confidenza:
E{d} zq d d E{d} + zq d
dove, al solito, zq è il coefficiente fiduciario per la differenza standardizzata Z =
(d 0.4)/d , e vale zq = 1.96 al livello = 0.95; zq = 2.58 al livello = 0.99.
I limiti fiduciari per la differenza di gradimento ai livelli di fiducia richiesti sono
allora:
al livello = 0.95 :
al livello = 0.99 :
d = 0.4 1.96 0.0296 = 0.4 0.058

d = 0.4 2.58 0.0296 = 0.4 0.076.
In termini percentuali, il risultato è il seguente:

al livello fiduciario del 95%, il maggior gradimento del programma da parte dei
bambini (rispetto a quello dimostrato dagli adulti) è da valutare tra il 34.2% e il
45.8%;
al livello fiduciario del 99%, si stima invece compreso tra il 32.4% e il 47.6% /.
224
8.2.2
STIME DI PARAMETRI
Intervalli di confidenza per la varianza
Se si conosce la distribuzione campionaria delle varianze, è possibile determinare un

intervallo di confidenza per la varianza 2 della popolazione da cui è stato estratto
il campione di numerosità n.
Nel 7.4 si è visto che ciò è possibile se il modello statistico della popolazione ha
legge normale, perche in tal caso dal Teorema Chi-quadrato si deduce che la stima
ottima della varianza:
2
Sn2 =
Qn
(8.23)
n1
è distribuita con la densità (7.16), la quale a sua volta è calcolabile attraverso la
legge Chi-quadrato con = n 1 gradi di libertà della variabile aleatoria Qn .
Non è facile determinare i valori della distribuzione Chi-quadrato definita nella (2.20)
e, come per la legge t-Student, si ricorre di solito ai valori tabulati dei suoi quantili
q , che sono riportati per diversi gradi di libertà in una Tabella della Appendice.
Denotiamo allora per comodità con j = q=qj il quantile della distribuzione Chiquadrato che, per definizione, è tale da soddisfare la condizione:
IP(Qn j ) = qj [0, 1].
Se si impone che Qn assuma valori in un intervallo [1 , 2 ] con un assegnato livello
fiduciario , tenendo conto della (8.23) si ha
n 1 2
Sn 2 =
2
n 1 2
n 1 2
= IP
Sn 2
Sn = .
2
1
IP(1 Qn 2 ) = IP 1
(8.24)
f ( Qn )
1 g
2
g
2
g
2
c1
E{Qn }
1 g
2
c2
Figura 8.3
Un intervallo di confidenza per la varianza 2 si ricava perciò, al livello fiduciario

, determinando due quantili 1 , 2 che soddisfano la (8.24). La scelta non è unica,
ma di solito si determinano quelli che escludono due code della distribuzione Chiquadrato, aventi la medesima area uguale a (1 )/2. Con tale scelta (v. Fig. 8.3)
225
i due quantili sono tali che:

q1 =
1
;
2
q2 =
1+
2
(8.25)
e definiscono un intervallo fiduciario che, pur non essendo centrato sul valor medio
della distribuzione campionaria di Sn2 , la suddivide in due parti con uguale area
/2, a destra e a sinistra del valor medio il quale, come si è visto nel 7.4, coincide
proprio con la varianza teorica della popolazione. La probabilità che 2 assuma
valori in questo intervallo è uguale alla probabilità fiduciaria assegnata. La stima
intervallare al livello fiduciario , per la varianza di una popolazione distribuita con
legge normale, è dunque:
n 1 2
n 1 2
Sn 2
Sn
2
1
(8.26)
con quantili dati dalla (8.25) e dove Sn2 è una realizzazione della varianza campionaria
corretta (7.14).
In modo analogo si possono effettuare stime a una coda della varianza, tali da
soddisfare condizioni del tipo:
n 1 2
IP(Qn 1 ) = IP
S =
1 n
n 1 2
IP(Qn 2 ) = IP 2
S =
2 n
2
(8.27)
nelle quali 1 , 2 sono i quantili della Chi-quadrato per cui

q1 = 1 ;
q2 = ,
e tagliano unarea della distribuzione campionaria che è uguale a 1 , rispettivamente a sinistra di 1 e a destra di 2 .
Caso di grandi campioni
Nel 2.3.7 si è detto che per n >> 1 la distribuzione Chi-quadrato è ben approssimata
dalla legge Normale con media n e varianza 2n. Di conseguenza, se il campione usato
per una stima intervallare della varianza ha numerosit`
a n elevata (almeno maggiore
di 30), la variabile aleatoria Qn ha una distribuzione prossima ad N (n, 2n), e la
variabile
(n 1)Sn2
n
Qn n
2
Zn =
=
(8.28)
2n
2n
è prossima alla Normale standard. In tal caso, la stima intervallare di 2 al livello
fiduciario si può effettuare imponendo che sia IP(|Zn | zq ) = , dove Zn è dato
dalla posizione (8.28) e zq è, al solito, il quantile della Normale standard di ordine
q = (1 + )/2 = q2 che soddisfa
erf (zq ) = /2.
226
STIME DI PARAMETRI
Se ricaviamo 2 dalla (8.28) e, tenuto conto che n >> 1, assegnamo un valore

unitario al rapporto (n 1)/n, si deduce allora che lintervallo di confidenza (8.26)
può essere ben approssimato dal seguente:
S2
S2
rn
2
2
2
1+
1
zq
zq
n
n
rn
(8.260 )
che è pi`
u comodo da calcolare perche richiede solo la determinazione di zq anziche
quella di 1 e 2 .
Esempio 8.12
Per stimare la varianza di un coefficiente di resistenza aerodinamica Cx , si effettuano

12 prove in una galleria del vento sul medesimo modello della struttura in esame. Dai
risultati delle prove si ricava che il valor medio empirico del coefficiente di resistenza
è circa 0.3, con varianza campionaria Sn2 = 0.015. Si vuole determinare: 1) i limiti
fiduciari per la varianza teorica 2 (Cx ) del coefficiente di resistenza, al livello di
fiducia = 0.9 ; 2) il livello fiduciario con cui si può affermare che 2 (Cx ) 0.03.
Teoricamente, non sarebbe possibile assumere per Cx un modello statistico normale,
perche N (, 2 ) è definito sullinsieme dei numeri reali, mentre Cx > 0. Tuttavia, si
può facilmente verificare che la curva gaussiana (2.29) con un valor medio X ' 0.3
e varianza di unordine di grandezza inferiore, ha valori trascurabili al di fuori di un
intervallo non negativo 0 < x < 0.6). Di conseguenza, il modello statistico normale
si può ritenere compatibile con il nostro Cx e una stima intervallare di 2 (Cx ) si può
effettuare applicando le precedenti formule (8.24)-(8.27).
1) Per una distribuzione Chi-quadrato con = n 1 = 11 gradi di libertà, i quantili
calcolati con la (8.25) sono:
q1 =
1
= 0.05 ;
2
q2 =
1+
= 0.95
2
e la Tabella dei quantili q in Appendice fornisce: 1 = 4.57; 2 = 19.7. Il valore

empirico della varianza campionaria corretta è:
12 2
Sn2 =
S = 0.01636
11 n
e applicando la (8.26) si ottiene, al livello fiduciario = 0.9, la seguente stima
intervallare della varianza teorica:
0.0091 =
11 0.01636
11 0.01636
2 (Cx )
= 0.0393.
19.7
4.57
2) per determinare il livello fiduciario per una stima a una coda tale che 2 (Cx )
0.03, usiamo la prima delle (8.27) ricercando il valore del quantile 1 che soddisfa
la condizione:
n 1 2
11 0.01636
Sn =
= 0.03 ,
1
1
227
ossia: 1 = 5.998. Per = 11, la Tabella dei quantili fornisce i valori = 5.58
per q = 0.1, e = 7.58 per q = 0.25. Interpolando linearmente tra questi dati per
ottenere il valore di q corrispondente al quantile 5.998, ricaviamo:
q = 0.1 +
0.25 0.1
(5.998 5.58) ' 0.13
7.58 5.58
da cui = 1 q = 0.87 . Questo è il livello fiduciario con cui si può affermare che
2 (Cx ) 0.03.
Esempio 8.13
Da una popolazione di N = 300 elementi avente un carattere X distribuito con

legge normale N (, 2 = 150) si estraggono senza ripetizione n = 101 esemplari.
Si desidera effettuare, al livello fiduciario = 0.98, una stima intervallare per la
varianza del carattere X risultante nei 101 elementi del campione.
In questo problema la varianza teorica è nota, e il suo valore è da utilizzare per
effettuare una stima sulla varianza campionaria Sn2 . Si riscrive la (8.24) nella forma
seguente:
n 1 2
IP(1 Qn 2 ) = IP 1
Sn 2 =
2
!
2
2
2
= IP
1 Sn
2 = 0.98
n1
n1
e si ricavano dalla Tabella in Appendice i quantili della distribuzione Chi-quadrato
con = 100 gradi di libertà, corrispondenti a
q1 =
1 0.98
= 0.01 ;
2
q2 =
1 + 0.98
= 0.99 ,
2
che valgono: 1 = 70.1 ; 2 = 136. Si deducono i seguenti limiti fiduciari per la

stima ottima della varianza campionaria:
105.15 =
150 70.1
150 136
Sn2
= 204.
100
100
Ricordando poi che il campione è stato estratto senza ripetizione, questa statistica
è legata alla varianza campionaria Sn2 dalla relazione (7.19):
N 1
n
299 101 2
Sn2 =
Sn2 =
S = 1.00663 Sn2 ,
N
n1
300 100 n
per cui la stima intervallare richiesta è
105.84 Sn2 205.35 .
(8.29)
I limiti fiduciari per Sn2 sono molto vicini a quelli calcolati per Sn2 , perche la numerosità del campione è superiore a 30.
228
STIME DI PARAMETRI
Per lo stesso motivo, è anche possibile approssimare il risultato richiesto effettuando

una stima intervallare sulla variabile normale standard (8.28). Nel nostro caso, per
avere risultati coerenti con i precedenti non è però lecito approssimare allunità il
rapporto (n 1)/n, perche il suo valore esatto è stato usato nel ricavare la (8.29).
Risolvendo la posizione (8.28) rispetto a Sn2 ricaviamo il seguente intervallo di confidenza approssimato:
n
2
zq 2
Sn2 1 +
n
n1
n
2
zq 2
.
n
n1
Se sostituiamo zq = 2.33 risulta:

101.81 Sn2 201.17
e dividendo i limiti fiduciari per 1.00663, si ottiene la seguente approssimazione
dellintervallo di confidenza per Sn2 :
102.48 Sn2 202.50,
da confrontare con il risultato esatto (8.29) che è stato ottenuto usando i coefficienti fiduciari della distribuzione Chi-quadrato.
8.3
Problemi risolti
8.1. La connessione a un sito Internet è ogni volta accettata con probabilità , 0

1. Se X() è la variabile aleatoria che rappresenta il numero di tentativi
necessari per avere il collegamento, qualè il modello statistico da assumere per la
variabile Y () = X 1 ? In n giorni diversi si osserva il numero di tentativi che sono
stati necessari per la connessione, e se ne calcola la media campionaria n . Questa
statistica è uno stimatore non distorto di E{Y } ?
Soluzione. Se X = k, k = 1, 2, . . . definisce il numero dordine della prima prova
in cui si è verificato un successo, Yk = Xk 1 indica il numero dei fallimenti che
precedono il primo successo. Il modello statistico di Y è quello della distribuzione
geometrica :
f (Y = k) = (1 )k ,
k = 0, 1, 2, . . .
che ha media
1
1
= 1.
Per il Secondo Principio delle prove bernoulliane, la distribuzione delle medie campionarie di X è linverso della probabilità :
E{Y } =
E{n } = E
X1 + . . . + Xn
n
1
= E{Y } + 1 = E{X}.
229
Quindi n non è uno stimatore corretto di E{Y }, ma lo è di E{X}.

8.2. Consideriamo la funzione
f (x, ) = x + 1 /2
per 0 x 1
e nulla altrove, dipendente dal parametro reale .

a) Per quali valori di la funzione è una densità di probabilità ?
b) Calcolare, in funzione di questi valori, la media della variabile aleatoria che ha
una densità di probabilità f (x, ).
c) Sia ora {Xk }, k = 1, . . . , n un campione di numerosit`
a n del carattere X. Definite
le due statistiche:
n
1
6X
Sn =
Xk ,
12 n k=1
n
1X
1
Tn = 12
Xk
,
n k=1
2
quale delle due è uno stimatore non distorto di ?

Soluzione.
a) Lintegrale di f (x, ) vale 1 e non dipende da :
Z 1
0
x + 1
dx = + 1 = 1.
2
2
2
Quindi f (x, ) è una densità per qualsiasi valore reale di .

b)
E{X} =
Z 1
0
"
x3 x2 x2
x x + 1
dx =
+
2
3
2
4
#1
=
0
+
.
2 12
c) Calcoliamo i valori medi delle due statistiche:

E{Sn } =
1
6
E
12 n
1
E
E{Tn } = 12
n
( n
X
Xk
k=1
( n
X
k=1
Xk
=
1
1
6
1
1
nE{X} =
6
+
12 n
12
2 12
1
1
= 12
nE{X}
n
2
35
12 2
1
= 12
+
2 12 2
= .
Lo stimatore corretto di è Tn perche il suo valor medio coincide con il parametro

da stimare.
8.3. Da una popolazione di N = 1000 sbarre metalliche si estrae in blocco un
campione di n = 200 elementi. Stimare la lunghezza media delle sbarre e lo scarto
quadratico medio n della distribuzione campionaria delle medie, sapendo che la
lunghezza media del q
campione è x = 21 cm e che la radice quadrata della varianza
P
campionaria è Sn = n1 ni=1 (xi x
)2 = 0.5 cm.
230
STIME DI PARAMETRI
Soluzione.
Poiche la media campionaria è una stima corretta del valor medio della popolazione,
= 21 cm.
si ha subito che
Il campione è estratto senza ripetizione da N elementi, per cui la distribuzione
campionaria delle medie ha uno scarto quadratico medio che vale
s
n =
n
N n
N 1
e per calcolarlo bisogna stimare la varianza 2 incognita della popolazione. La stima

ottima della varianza è
N 1
n
999
2 =
Sn2 =
0.25 ' 0.251
N
n1
5 199
e sostituendo la sua radice quadrata si ricava:
s
n =
200
1000 200
=
1000 1
0.251 4
' 0.0317 cm.
999
8.4. Da una popolazione di N = 3000 studenti universitari maschi si è estratto un

campione di n = 100 elementi, i cui pesi sono raccolti nella seguente tabella:
pesi
[60, 65)
[65, 70)
[70, 75)
[75, 80)
[80, 85)
[85, 90)
[90, 95)
numero studenti
10
14
16
20
18
12
20
Stimare il peso medio di tutta la popolazione e lo scarto quadratico medio della

media nei due casi: a) di estrazione bernoulliana e b) di estrazione in blocco. (Si
assuma come valore del peso di ogni classe il valore centrale).
Soluzione. Per ognuna delle sette classi calcoliamo: i valori centrali, gli scarti rispetto
alla media e i loro quadrati. Ne risulta la seguente tabella:
i
[60, 65)
[65, 70)
[70, 75)
[75, 80)
[80, 85)
[85, 90)
[90, 95)
ni
10
14
16
20
18
12
20
xi
62.5
67.5
72.5
77.5
82.5
87.5
92.5
xi x
-14.9
-9.9
-4.9
0.1
5.1
10.1
15.1
(xi x)2
222.01
98.01
24.01
0.01
26.01
102.01
228.01
231
per completare la quale si è già utilizzato il primo risultato:

x=
1
(62.510+67.514+72.516+77.520+82.518+87.512+92.510) = 77.4 .
100
La stima ottima della varianza incognita della popolazione, effettuata con un campione estratto con ripetizione, è
2 =
1
(222.01 10 + 98.01 14 + 24.01 16 + 0.01 20 +
99
+26.01 18 + 102.01 12 + 228.01 10) =
7949
99
Pertanto nel caso di estrazione bernoulliana (con ripetizione) lo scarto quadratico

medio della media vale
n = =
n
7949
' 0.896 .
9900
Nel caso di estrazione in blocco (senza ripetizione), la precedente stima della

varianza deve essere moltiplicata per il coefficiente correttivo (N 1)/N , che però
si può trascurare perche 2999/3000 ' 1. Allora per estrazioni in blocco risulta:
s
n =
n
N n
=
N 1
7949
9900
2900
' 0.896 0.983 ' 0.880 .
2999
8.5. La durata di cinque valvole di una certa popolazione fornisce il campione:

{ 637, 632, 636, 637, 633 } ore.
Ricavare la stima corretta della vita media delle valvole e della sua varianza.
Soluzione:
2 =
637 + 636 + 637 + 633 + 632

= 635 ore
5
4+1+4+9+4
11
=
= 5.5 (ore)2 .
4
2
8.6. Sia X una variabile casuale normale di media e varianza 2 . Siano X1 , X2 ,

X3 le variabili casuali indipendenti descritte dalle tre determinazioni x1 , x2 , x3 di un
campione da essa estratto con ripetizione. Per stimare il parametro si considerano
3 e S3 definiti, rispettivamente, da:
i due stimatori X
3 = X1 + X2 + X3 , S3 = 1 X1 + 1 X2 + 3 X3 .
X
3
5
5
5
3 e S3 generano stime corrette di ? Perche ?
1) Gli stimatori X
232
STIME DI PARAMETRI
2) Confrontando le rispettive varianze, stabilire quale tra i due stimatori è il pi`

u
efficiente.
Soluzione. 1) I valori medi delle due statistiche valgono:
3} =
E{X
E{S3 } =
E{X1 } + E{X2 } + E{X3 }

3
=
=
3
3
E{S1 } + E{S2 } + 3E{S3 }
5
=
=
5
5
e poiche sono uguali a , entrambe le statistiche generano stime corrette di .

3 e S3 valgono:
2) Tenuto conto che Xi sono indipendenti, le varianze di X
3} =
2 {X
2 {S3 } =
i
1h 2
1
2
(X1 ) + 2 (X2 ) + 2 (X3 ) = 3 2 =
9
9
3
i
1 h 2
11 2
2
2
(X1 ) + (X2 ) + 9 (X3 ) =
25
25
3 è il pi`
3 ) < 2 (S3 ), ne segue che X
u efficiente .
e poiche 2 (X
8.7. Da una popolazione molto grande di sfere si estraggono n = 50 sfere il cui
peso medio è x
= 195 g. Sapendo che la varianza delluniverso è 2 = 156.25 g 2 ,
determinare lintervallo di confidenza per la stima della media al livello = 1 =
0.95.
Soluzione. La popolazione è molto grande, e la numerosit`
a del campione è maggiore
di 30. Qualunque sia il modello statistico della popolazione, si può approssimare la
distribuzione campionaria delle medie con una Normale con media x = = 195 g.
e deviazione standard
n = =
n
156.25
= 3.125 ' 1.7677 g .
50
Lintervallo di confidenza I per la media è tale che: 195 n z < < 195 + n z ,
dove z è il coefficiente fiduciario per la variabile standardizzata Zn = (n )/n
al livello fiduciario = 0.95. Si determina z usando la Tabella di erf(z) :
erf(z ) =
= 0.475
2
z = 1.96.
e sostituendo si ricava:
1.95 1.7677 1.96 < < 1.95 + 1.7677 1.96
I = (191.53, 198.46) .
8.8. Le ripetute e numerose misurazioni di un certo angolo, effettuate mediante un

teodolite assai preciso, descrivono una variabile casuale normale, incentrata sulla
vera misura dellangolo e di scarto quadratico medio = 0.100 . Stimare, mediante
233
un intervallo di confidenza di livello 0.99, il valore incognito attraverso un campione

di 9 misure la cui media risulta essere x
= 4800 .
Soluzione. La popolazione ha legge normale con varianza nota, per cui la distribuzione campionaria delle medie è una normale N (, 2 /n) per qualunque n,
ed è descritta dalla variabile standardizzata
Zn =
= 30(48 ).
/ n
Il suo coefficiente fiduciario z al livello = 0.99 vale:

erf(z ) =
= 0.495
2
z = 2.58
per cui si ricava:

48
z
z
< < 48 +
30
30
I = (47.914, 48.086) .
8.9. Da una popolazione di 3000 studenti universitari si estrae un campione (senza

ripetizione) di 200 studenti. Sia x
= 170 cm laltezza media del campione e s2 =
2
20, 25 cm la varianza del campione. Determinare lintervallo di confidenza della
media al livello di fiducia del 98%.
Soluzione. La popolazione ha varianza teorica sconosciuta, per cui bisogna stimarla.
Il campione è estratto in blocco da un numero elevato di elementi: la stima di 2 è
2 =
n
200
s2 =
20.25 = 20.35176
n1
199
= 4.511.
La distribuzione campionaria delle medie ha quindi deviazione standard

s
n =
N n
= 4.511
n(N 1)
14
' 0.308.
2999
Al livello di fiducia = 1 = 0.98, la variabile standardizzata Zn = (170)/0.308

ha un coefficiente fiduciario z che vale:
erf(z ) =
= 0.49
2
z = 2.33
per cui si ricava:

170 0.308z < < 48 + 0.308z
I = (169.28, 170.72) .
8.10. Nel misurare il coefficiente di dilatazione lineare di un metallo, uno sperimentatore stima che la deviazione standard è di 0.05 mm. Quanto deve essere grande il
234
STIME DI PARAMETRI
campione delle misure affinche egli abbia la fiducia del 99% che lerrore, nello stimare
il coefficiente medio, non sia superiore a 0.01 mm ?
Risposta. La variabile standardizzata per la distribuzione campionaria dei coefficienti medi n è
n
n
Zn =
=
(n )
n
0.55
e il suo coefficiente fiduciario al livello = 0.99 (lo stesso dellesercizio VI.2) è
z = 2.58.
Affinche lerrore n nella stima di sia minore o uguale a 0.01 mm, deve essere:
0.05
z = n 0.01
n
ossia
0.05 2.58
0.01
= (12.9)2 = 166.41
e quindi, arrotondando allunità per eccesso: n 167 .

8.11. Da una popolazione normalmente distribuita si estrae un campione di 10
anelli di diametro medio x
= 28.2 cm, con scarto quadratico medio del campione
pari a s = 5.29 cm. Determinare lintervallo di confidenza per la stima del diametro
medio della popolazione con livello di fiducia = 1 = 0.95.
Soluzione. E stato estratto (si sottintende: con ripetizione) un piccolo campione
(n < 30) da una popolazione normale con varianza sconosciuta. Si usa quindi la
statistica
(
x ) n
n
Tn =
= (28.2 )
Sn
Sn
in cui
r
1
s
Sn
n
5.29
= s
=
= 1.763 cm.
=
n
n
n1
3
n1
Lintervallo richiesto è
28.2 1.763 t < < 28.2 + 1.763 t ,
dove t è il quantile di ordine q = (1+)/2 della distribuzione t-Student con n1 = 9
gradi di libertà.
Al livello di fiducia = 0.95, si ha: q = 0.975 ; t = 2.262 e sostituendo si ottiene
lintervallo fiduciario:
I = (28.2 1.763 2.262, 28.2 + 1.763 2.262) ' (24.21, 32.19) cm.
8.12. Vengono effettuate in tempi diversi 20 misurazioni della concentrazione di un
certo elemento in un materiale, e si osserva una media n = 1.23 e una varianza
corretta Sn2 = 0.4. Nellipotesi che questa concentrazione abbia un modello statistico
normale con parametri sconosciuti, determinare lintervallo fiduciario al livello 0.95
235
per la sua media e la sua varianza. Quale sarebbe invece lintervallo fiduciario per
la media, se si supponesse che il modello normale avesse varianza nota 2 = 0.4 ?
Soluzione. Se la popolazione normale ha varianza sconosciuta, la distribuzione campionaria delle medie ha legge t-Student con n 1 = 19 gradi di libertà. In una stima
intervallare della media si ha:
Sn
Sn
n tq < < n + tq
n
n
con tq = quantile di ordine q = (1 + )/2 = 0.975 della t-Student con 19 gradi di
libertà, che vale tq = 2.093. Sostituendo si ottiene:
r
1.23
0.4
2.093 < < 1.23 +
20
0.4
2.093
20
I ' (0.934, 1.526) .
La distribuzione campionaria delle varianze ha legge 2 con 19 gradi di libertà, e la

stima intervallare della varianza sconosciuta della popolazione è
n 1 2
n 1 2
Sn < 2 <
Sn
2
1
dove 2 è il quantile di ordine q = (1 + )/2 = 0.975, e 1 è il quantile di ordine
q = (1 )/2 = 0.025 della legge 219 .
Dalle Tavole risulta: 1 0.025 = 8.91, 2 0.975 = 32.9 e sostituendo:
19
19
< 2 <
32.9
8.91
0.231 < 2 < 0.853 .
Se il modello normale avesse varianza nota 2 = 0.4, si dovrebbe assumere una distribuzione
campionaria delle medie con legge normale e deviazione standard n =
/ n = 0.02. La stima intervallare della media sarebbe
1.23 0.02 z < < 1.23 + 0.02 z

dove: erf(z ) = /2 = 0.475, ovvero: z = 1.96. Sostituendo si ottiene:
0.953 < < 1.507 .
8.13. In 10 prove su strada un motore di autoveicolo ha consumato in media 12.75
litri di carburante per 100 Km. e la varianza campionaria è risultata Sn2 = 3.5.
Nellipotesi che la distribuzione dei consumi segua una legge normale, stimare al
livello fiduciario del 99% il massimo della media dei consumi di quel motore.
Soluzione. Si tratta di determinare un intervallo di confidenza unilaterale inferiore
per la media di una popolazione normale con varianza incognita. Questo intervallo
di confidenza è
Sn
< < n + t0.99
n
236
dove
STIME DI PARAMETRI
r
Sn
1
n
=
S2 =
n
n
n1 n
3.5
' 0.6236
9
e t0.99 è il quantile di ordine = 0.99 della distribuzione t-Student con n 1 = 9

gradi di libertà.
Dalle Tavole risulta: t0.99 = 2.821, e sostituendo si ricava la stima:
< 12.75 + 0.6236 2.821 ' 14.51 litri .
8.14. Si esamina un campione di 100 pile prodotte dalla ditta A e un secondo
campione di 150 pile messe in commercio dalla ditta B. La media campionaria della
tensione in uscita delle pile prodotte dalla ditta A risulta A = 12.2 Volt; quella
della ditta B è B = 11.7 Volt. Si suppone inoltre che i due campioni siano stati
prelevati da popolazioni distribuite normalmente e con uguali varianze 2 = 0.12.
Determinare, al livello di fiducia del 90%, lintervallo di confidenza per la differenza
tra le tensioni medie delle pile prodotte dalle due ditte.
Soluzione. La distribuzione campionaria della differenza = A B tra le medie
ha legge normale, con media = 12.2 11.7 = 0.5 Volts e varianza
2 =
2
A
2
0.12 0.12
+ B =
+
= 0.002 (Volt)2 .
nA nB
100
150
Il valor medio di ha la seguente stima intervallare:

z < < + z ,
con z tale che erf(z ) = /2 = 0.45. Dalle Tavole di erf(z) si ricava: z = 1.645 e
sostituendo:
0.5 0.002 1.645 < < 0.5 0.002 1.645

I ' (0.426, 0.573) Volts .
8.15. Un campione di n = 16 elementi di una popolazione con legge normale avente
media e varianza 2 incognite, ha mostrato una media campionaria x
n = 68 ed
una varianza campionaria corretta s2n = 9.
a) Determinare lintervallo di confidenza per la stima della media al livello di
confidenza del 95%.
b) Calcolare la probabilità fiduciaria con cui si può affermare che è compreso
nellintervallo 68 1.31475.
Soluzione.
a) Si dispone di un piccolo campione, estratto da una popolazione normale con
varianza sconosciuta. Al livello = 0.95, la stima intervallare di è la seguente:
sn
sn
+ tq
x
tq < < x
n
n
237
in cui tq è il quantile di ordine q = (1 + )/2 = 0.975 della distribuzione t-Student

con 16 1 = 15 gradi di libertà, e vale: t0.975 = 2.131. Sostituendo si ricava:
68
3
3
2.131 < < 68 + 2.131
4
4
I ' (66.40, 69.60) .
b) Se si vuole affermare che:

3
sn
|
x | = tq = tq = 1.31475,
n
4
allora deve essere: tq = 1.31475 4/3 = 1.753. Nella distribuzione t-Student con 15
gradi di libertà, questo è il valore del quantile di ordine
q=
1+
= 0.95
2
da cui:
= 0.90 .
8.16. Un campione di n = 25 elementi estratto da una popolazione con legge

normale ha una media campionaria n = 10 e varianza campionaria corretta Sn2 = 2.
Determinare gli intervalli di confidenza per la stima della media e della varianza
2 della popolazione, al livello fiduciario del 95%.
Soluzione. La distribuzione campionaria delle medie ha legge t-Student con 24 gradi
di libertà. Al livello = 0.95, la stima intervallare per è
Sn
Sn
n tq < < n + tq
n
n
dove tq è il quantile di ordine q = (1 + )/2 = 0.975 della t-Student con 24 gradi di
libertà, che vale t0.975 = 2.064. Sostituendo si trova:
2
2
10
2.064 < < 10 +
2.064
I ' (9.42, 10.58) .

5
5
La distribuzione campionaria delle varianze ha legge 2 sempre con 24 gradi di
libertà, e la stima intervallare per 2 è:
24 2
24 2
Sn < 2 <
S .
2
1 n
Se = 0.95, 1 e 2 sono rispettivamente i quantili di ordine q1 = 0.025 e q2 = 0.975
della distribuzione 2 , e valgono: 1 = 12.4, 2 = 39.4. Sostituendo si ricava:
24
24
2 < 2 <
2
39.4
12.4
I( 2 ) ' (1.22, 3.87) .
8.17. Da una popolazione normale con varianza sconosciuta si estrae un campione

di 9 elementi che ha una media xn = 100 e varianza campionaria corretta Sn2 = 0, 65.
238
STIME DI PARAMETRI
Determinare la probabilità fiduciaria con cui si può affermare che la media della
popolazione è compresa in un intervallo di estremi 100 0, 5.
Soluzione. La probabilità si definisce come segue:
Sn
= IP(|Tn | tq ) = IP |xn | = tq 0.5
n
dove tq è il coefficiente fiduciario per una variabile Tn che ha legge t-Student con 8
gradi di libertà. Esso deve soddisfare la condizione
r
tq 0.5
9
' 1.861,
0.65
e dalla tavola della distribuzione t-Student con = 8 si ricava che il quantile che
soddisfa tale condizione con il segno di uguaglianza vale q = 0.95. Si ricava perciò
q
1+
= 0.95
2
= 0.9 .
8.18. Si estrae un campione da una popolazione il cui carattere X ha media incognita e varianza 2 = 9. Qualè la numerosit`
a minima che deve avere il campione per
poter affermare, con probabilità almeno del 90%, che la media campionaria si scosta
per non pi`
u di 2 da quella incognita di X ?
Risposta. La probabilità richiesta si calcola imponendo:
z = z
n
9
2
n
dove z , coefficiente fiduciario della variabile standardizzata Zn = (

x )/n , è tale
che erf(z ) = /2 = 0.45.
Dalla Tabella di erf(z) risulta: z = 1.65 e quindi, sostituendo e arrotondando
allunità per eccesso, si ricava:
3
1.65 2
n
3
n 1.65
2
= 6.125 ' 7 .
TEST PARAMETRICI DI
IPOTESI STATISTICHE
9.4
Principi generali di un test statistico
Si chiama ipotesi statistica qualsiasi ipotesi fatta sulla forma o sulle proprietà della
distribuzione probabilistica osservata in un esperimento che coinvolge una variabile
aleatoria.
Uno degli scopi fondamentali della Statistica Matematica consiste nella definizione
dei metodi per verificare la validit`
a di ipotesi fatte riguardo a questa variabile aleatoria, sulla base sia di considerazioni teoriche, sia della analisi dei dati osservati in un
campione.
Lipotesi formulata su un generico fenomeno aleatorio è usualmente chiamata ipotesi
nulla, e indicata con H0 . Possiamo suddividere le ipotesi statistiche in due grandi
categorie:
Ipotesi parametriche, che si riferiscono a certi parametri della distribuzione
teorica di una o pi`
u popolazioni, la quale si assume già definita nella famiglia
delle funzioni di distribuzione FX (x) compatibili con il modello statistico adottato per ciascuna popolazione. In generale, una ipotesi parametrica è specificata da una ipotesi nulla del tipo:
H0 :
(9.28)
per un parametro incognito (eventualmente multidimensionale) che si assume

appartenente ad un determinato sottoinsieme 0 del dominio compatibile
con il modello statistico. Il test ha come obiettivo la verifica della validit`
a
della ipotesi (9.28).
Ipotesi non parametriche, fatte per esempio sulla forma o sulla natura
stessa della funzione di distribuzione FX (x) del carattere aleatorio da studiare, oppure riguardanti proprietà aleatorie congiunte di pi`
u caratteri delle
medesima popolazione, oppure ancora relativi a popolazioni differenti.
239
240
TEST PARAMETRICI
Una ipotesi non parametrica è specificata da una ipotesi nulla del tipo:
H0 :
FX (x) F0 F
(9.29)
in cui F0 è una classe appropriata di funzioni appartenente alla famiglia F delle

funzioni di distribuzione compatibili con il modello statistico che si assume contenga la vera funzione di distribuzione FX (x) carattere X (eventualmente multidimensionale) che esaminiamo con il campione.
Le ipotesi nulle del tipo (9.28) o (9.29) si chiamano semplici se 0 oppure F0 contengono solo un elemento; si dicono composte in caso contrario.
Si chiama test statistico la regola che ci permette di decidere se, e in quale misura,
accettare o respingere una ipotesi nulla del tipo (9.1) o (9.2), esaminando le osservazioni fatte su una statistica campionaria.
Limpostazione di un test statistico si effettua nel modo seguente.
1. Si definisce una legge probabilistica per il carattere aleatorio X, compatibile
con il modello statistico della popolazione su cui si effettua il test.
2. Si definisce lipotesi nulla H0 da verificare.
3. Si definisce una ipotesi alternativa H1 che è una ipotesi da considerare valida
quando si rifiuta H0 , e nei due casi sopra esaminati è rispettivamente del tipo:
H1 :
con 1 = \ 0
(9.10 )
H1 :
FX (x) F1 con F1 = F \ F0 .
(9.20 )
4. Si definisce una statistica campionaria Gn (X1 , . . . , Xn ) con distribuzione nota

quando lipotesi nulla H0 è vera.
5. Si suddivide lo spazio G delle possibili osservazioni campionarie in due insiemi
disgiunti: linsieme A detto regione di accettazione di H0 , e il suo complementare C = G \ A detto regione di rifiuto o regione critica.
6. Si assume come criterio decisionale la regola di accettare lipotesi nulla H0 se
la realizzazione osservata della statistica Gn appartiene ad A, e di rifiutarla se
appartiene alla regione critica.
La decisione di accettare o rifiutare lipotesi nulla in seguito alle osservazioni del
campione è sempre affetta da due tipi di errore, che sono definiti come segue.
Lerrore di prima specie è quello che commettiamo se rigettiamo lipotesi nulla
H0 quando essa è vera:
= IP(H1 |H0 ) IP(Gn C | H0 vera).
(9.30)
Lerrore di seconda specie è quello che commettiamo se accettiamo H0 mentre

invece è vera lipotesi alternativa:
= IP(H0 |H1 ) IP(Gn A | H1 vera).
(9.31)
9.5 Test parametrici
241
Il livello di significativit`
a del test è la massima probabilità con la quale siamo
disposti a rischiare di commettere un errore di prima specie.
Sulla base della ipotesi fatta sulla legge della distribuzione campionaria, possiamo
definire la probabilità di commettere un errore di prima specie, e quindi riconoscere
il livello di significatività del test ovvero, in modo equivalente, il livello di fiducia
del test che è specificato dalla quantit`
a 1 .
Le probabilità , di errore variano, ovviamente, al variare degli insiemi A e C
con cui abbiamo scelto la regione di accettazione e quella di rifiuto. Daltra parte,
sono possibili infinite suddivisioni dello spazio delle osservazioni campionarie, e di
regola si opera in modo da scegliere la regione di accettazione A in modo da rendere
piccolo lerrore di prima specie (solitamente, = 0.05 oppure 0.01). Tuttavia, mantenendo fissa la numerosità n dei campioni, al decrescere di cresce la probabilità
dellerrore di seconda specie. Fissato , si deve pertanto ricercare la suddivisione
dello spazio G che rende minimo lerrore .
Si definisce potenza di un test la quantit`
a W = 1 [0, 1] che misura la
probabilità di respingere lipotesi nulla H0 quando è vera lipotesi alternativa H1 .
La determinazione della potenza di un test è spesso difficile, perche per il suo calcolo
esplicito occorre conoscere anche la distribuzione campionaria di Gn quando è vera
lipotesi alternativa H1 la quale, per giunta, spesso non è semplice ma composta.
Nei casi in cui ciò è possibile, il test (se esiste) in cui fissato lerrore è minimo
si chiama il test pi`
u potente tra quelli con assegnato.
A sua volta, la potenza di un test con assegnato cresce al crescere della numerosit`
a
dei campioni, che è comunque limitata per motivi di ordine pratico. Fissato anche
n, se lipotesi alternativa è composta, il grafico della potenza W (gn ) in funzione dei
possibili valori empirici gn che può assumere la statistica campionaria Gn si chiama
curva di potenza del test. Se invece di riportare la potenza W (gn ) si riporta lerrore
di seconda specie , si ha la curva caratteristica operativa (gn ) del test.
In questo Capitolo tratteremo pi`
u in dettaglio alcune tecniche in uso per effettuare
la verifica di ipotesi parametriche per le quali, come vedremo, esiste sotto certe
condizioni un criterio per la definizione di un test di massima potenza. Nel Capitolo
seguente tratteremo infine i metodi pi`
u comuni per effettuare test di ipotesi non
parametriche.
9.5
Test parametrici
In un test statistico sul parametro di una distribuzione FX (x; ) compatibile con

il modello statistico della popolazione, lipotesi nulla e quella alternativa sono del
tipo (9.28), (9.1). Tre esempi molto particolari sono i seguenti. Se si assume:
H0 : = 0 ;
H1 : = 1 ,
(9.32)
si imposta un test fra due ipotesi semplici, perche queste sono definite su due insiemi
0 e 1 costituiti entrambi da un solo elemento. Se invece si assume:
H0 : = 0 ;
H1 : > 0
oppure 6= 0 ,
(9.33)
242
TEST PARAMETRICI
lipotesi alternativa è composta, perche 1 = (0 , +) oppure 1 = (, 0 )

(0 , +). E ancora: se per un modello Normale-2 N (1 , 2 ) si fa lipotesi nulla:
H0 :
1 = 10 , 2 = 20 ;
0 IR2 = {10 , 20 },
questa è una ipotesi semplice per i due parametri incogniti (media e varianza); se
invece lipotesi nulla è H0 : 1 = 10 e si lascia la varianza indeterminata, allora
H0 è composta.
Nei test parametrici anche le ipotesi alternative, come quelle nulle, sono sempre
ristrette alla classe delle distribuzioni FX (x; ) ammissibili dal modello statistico,
le quali si suppone abbiano legge nota anche se dipendente da certi parametri da
stimare. Questa circostanza consente almeno in certi casi in cui le ipotesi alternative sono soggette ad opportune restrizioni di valutare anche i rischi di seconda
specie e quindi la potenza del test parametrico effettuato.
Accettato un livello di significatività , per riconoscere il test parametrico di massima potenza tra quelli ammissibili occorre definire la regione di rifiuto C in modo
da avere un rischio di seconda specie che sia il minore possibile. La soluzione di
questo problema esiste sempre nel caso del test parametrico tra ipotesi semplici che
consideriamo nel paragrafo che segue.
9.6
Test di Neyman-Pearson tra ipotesi semplici
Assumiamo le due ipotesi semplici (9.32) per il parametro IR di una distribuzione

FX (x, ) assolutamente continua con densità fX (x, ). La regione critica per il
test pi`
u potente tra quelli che hanno un prefissato livello di significatività si può
determinare applicando un Teorema che si può cos enunciare.
TEOREMA (di Neyman-Pearson, 1933)
Sia Gn (X) una statistica campionaria, con valore empirico noto attraverso le n
osservazioni (x1 , . . . , xn ) = x su un campione X estratto da una popolazione con
funzione di distribuzione assolutamente continua. Scelto arbitrariamente un reale
positivo c, il test pi`
u potente, tra quelli per cui si ha = IP(Gn (X) C |H0 ), esiste
ed è quello per cui la regione critica C è linsieme
L(0 , x)
C = x : `(x) =
<c
L(1 , x)
c IR+
dove `(x) è il rapporto di verosimiglianza tra le funzioni (8.6), calcolate per = 0

e = 1 .
Ad ogni c > 0 corrisponde dunque in questo test una partizione ottimale dello spazio
campionario. Reciprocamente, scelto un livello di significatività , la condizione
(9.6) definisce la regione critica C che rende minimo lerrore di seconda specie .
Illustriamo questo Teorema con lesempio che segue.
9.6 Test di Neyman-Pearson tra ipotesi semplici
243
Esempio 9.1
Assumiamo un modello statistico Normale-1 N (, 2 ) con varianza nota e media da

determinare, scegliendo tra lipotesi nulla che essa valga 0 = 0 e lipotesi alternativa
che il suo valore sia 1 = 2. Nelle due ipotesi che ci interessano, le funzioni di
verosimiglianza per le realizzazioni di un campione di numerosit`
a n sotto lipotesi
nulla e quella alternativa, sono (cfr. 8.1.2):
"
n
Y
"
n
X
1
x2
1
x2i
exp i2 =
L(0 ; x) =
.
exp
2
2 2
(2 2 )n/2
i=1 2
i=1
#
#
"
" n
n
Y
X (xi 2)2
1
(xi 2)2
1
exp
L(1 ; x) =
=
exp
2 2
2 2
(2 2 )n/2
i=1 2
i=1
e il rapporto di verosimiglianza vale:

"
`(x) =
"
1 X 2
x
exp 2
2 i i
1
exp 2
2
x2i
+ 4n 4
!# =
xi
exp
2n
= exp (n 1) ,
2nn
2
2n
exp 2
2
dove è stata introdotta la realizzazione n della statistica campionaria da usare nel

test, che è la media campionaria (7.2).
Secondo il teorema di Neyman-Pearson, per ogni arbitrario c > 0 il test pi`
u potente
è quello per cui `(x) < c. Nel nostro caso, ciò comporta che nella distribuzione campionaria delle medie la regione ottimale di rifiuto è quella definita dalla condizione:
n > 1
2
log c h.
2n
(9.34)
Scelto ora un rischio di prima specie , si determina il valore di h tenendo conto che
la distribuzione campionaria delle medie ha legge normale N (n , 2 /n). Infatti, se
H0 è vera, il valor medio di questa distribuzione è nullo e dunque:
!
!
Z
n2n
1
h n
n
= IP(n > h |H0 ) =
exp 2 dn = erf
. (9.35)
2
2
2 h
Una volta valutato h, tenuto conto che se è vera H1 la distribuzione campionaria ha
media E{n } = 2, si determina anche lerrore di seconda specie :
= IP(n h |H1 ) =
!
"
Z h
#
n
n(n 2)2
1
(h 2) n
=
exp
dn = + erf
, (9.36)
2 2
2
244
TEST PARAMETRICI
H 0 : N ( q 0 ,1)
H 1 : N ( q1 ,1)
0
1
A : accetto H 0
mn
C : rifiuto H 0
Figura 9.1 - Test di Neyman-Pearson per ipotesi semplici
dal quale si ricava la potenza W = (1 ) del test.

Scelto invece un arbitrario c > 0, la (9.34) definisce la regione di rifiuto per il test
pi`
u potente tra quelli che hanno rischi di prima e seconda specie definiti dalle (9.35)
e (9.36).
La Fig. 9.1 illustra le distribuzioni campionarie delle medie n per le due ipotesi
semplici, nel caso in cui la varianza nota del modello statistico vale 2 = 16, e
si effettua un test tra le ipotesi semplici sopra precisate, al livello di significatività
= 0.1, disponendo di un campione di numerosit`
a n = 16. Dalla (9.35) si ha subito:
erf(h) = 0.4 da cui si ricava, usando la Tabella in Appendice, che h
= 1.3. A questo
valore di h corrisponde, ancora per la (9.34), un valore di c uguale a
2n(1 h)
c = exp
= e0.57 ' 0.565 .
2
Dalla (9.36) si ricava allora:
= 0.5 + erf (0.7) ' 0.24
e la potenza del test vale W ' 0.76.
Le conclusioni da trarre sono allora le seguenti. Accettato un livello di significatività
= 0.01,
se la media empirica osservata da un campione di 16 elementi è minore di n =
h = 1.3, si accetta lipotesi nulla dichiarando che la media teorica della distribuzione
normale nel modello N (, 16) è = 0;
se la media empirica è maggiore di n = 1.3, si rifiuta lipotesi nulla e si accetta
lipotesi alternativa, dichiarando che = 2.
Per definire la regione critica C, si può anche fissare un valore positivo di c, per
esempio c = 1. Con tale scelta, in base al Teorema di Neyman-Pearson la regione
ottimale di rifiuto definita dalla (9.34) è n > h = 1, per un test con rischi di prima
9.7 Test parametrici con ipotesi composte
245
e seconda specie che valgono:

= IP(n > 1 |H0 ) = 1/2 erf(1) ' 0.1587
= P (n < 1 |H1 ) = 1/2 + erf(1) =
e in tal caso risultano uguali. Sebbene la potenza di questo test cresca al valore
W = 0.8413, bisogna tener conto che essa è determinata per linsieme dei test in cui
si accetta un rischio di prima specie = 0.1587 che è ben maggiore del precedente.
Si osservi infatti, pi`
u in generale, che:
al diminuire di , aumenta h e quindi si restringe la regione di rifiuto; in tal caso
però cresce e quindi diminuisce la potenza del test;
fissato un h < 2, al crescere della grandezza n del campione decrescono sia che
(infatti largomento della funzione degli errori nella (9.36) è negativo). Ne consegue
che, una volta definito il livello di significatività , al crescere della grandezza del
campione aumenta la potenza del test.
9.7
Test parametrici con ipotesi composte
Un test con entrambe le ipotesi semplici, del tipo che abbiamo appena studiato,
si incontra raramente nelle applicazioni. E invece assai pi`
u frequente il caso in
cui entrambe le ipotesi H0 , H1 (o almeno una di esse) sono composte. In questo
paragrafo tratteremo questi tipi di test parametrici, assumendo dapprima che solo
lipotesi alternativa sia composta.
Data una ipotesi nulla del tipo (9.28), le ipotesi alternative che si usano pi`
u spesso
sono:
1) H1 : 6= 0
2) H1 : > 0
3) H1 : < 0 .
(9.37)
Nel caso 1) il test si chiama bidirezionale; nel caso 2) è unidirezionale superiore
o concon coda a destra, e nel caso 3) è unidirezionale inferiore o con coda a
sinistra.
Cè una stretta relazione tra un test con ipotesi di questo tipo e la determinazione di
un intervallo di confidenza per , già trattato nel Capitolo 8. Infatti, consideriamo
un test bidirezionale per H0 al livello di significatività . Una volta definita la distribuzione campionaria della statistica Gn , da usare quando è vera lipotesi nulla su
, una regione A di accettazione di H0 è un intervallo delle realizzazioni campionarie
contenente gn = 0 (v. Fig. 9.2). Larea sottesa dalla distribuzione campionaria in
questo intervallo deve essere uguale ad 1 , perchè è il rischio di prima specie
definito dalla (9.30) e misura la somma delle due aree della distribuzione che sono
esterne alla regione di accettazione. Dunque, la regione di accettazione del test bidirezionale al livello di significatività è un intervallo I soddisfacente la condizione:
IP(Gn A |H0 vera) = IP(gn I ) = 1 ,
(9.38)
ossia è un intervallo di confidenza per una stima di al livello fiduciario = 1 .

Questo intervallo non è unico: esiste, in generale, una famiglia I, = {I } di insiemi
246
TEST PARAMETRICI
H0
H1
H1
H1
1 -a= g
b
C
q0
A = Ig
gn
Figura 9.2
che soddisfano la (9.11). Il test pi`

u potente (se esiste) è quello in cui la regione di
accettazione A dellipotesi nulla è lintervallo I I, che ha ampiezza minore.
Questo risultato vale anche per i test unidirezionali definiti dalle ipotesi alternative 2)
e 3) nella (9.37), ai quali corrispondono intervalli di confidenza aperti rispettivamente
a sinistra o a destra.
Per la valutazione dellerrore di seconda specie del test, che è definito dalla (9.31),
occorre tenere presente che nelle ipotesi alternative composte si ammette che il
parametro possa assumere qualsiasi altro valore 1 IR 0 , e quindi a ciascuna
realizzazione campionaria gn = 1 corrisponde un differente errore di seconda specie.
Esso è dunque una funzione (1 ) del valore empirico 1 osservato nella statistica
campionaria, e la potenza del test è la funzione W (1 ) = 1 (1 ).
Stabilito il rischio di prima specie che si è disposti ad accettare, la valutazione
esplicita della regione di accettazione di H0 si effettua applicando i metodi per la
determinazione degli intervalli di confidenza che sono stati esposti nel Capitolo 8,
e per tale motivo dipende dal parametro su cui si deve effettuare il test, dalla numerosità del campione di cui disponiamo, e dal modello statistico della popolazione
da cui tale campione è stato estratto.
9.7.1
Test sul valor medio per il modello normale
Consideriamo in dettaglio il caso di pi`

u frequente interesse nelle applicazioni: quello
in cui la popolazione ha un modello statistico normale e quindi le distribuzioni
campionarie sono anche esse normali con media 0 = 0 se H0 è vera, oppure 1 =
1 IR0 se è vera lipotesi alternativa H1 . Per procedere nel test occorre anzitutto
distinguere il caso in cui la varianza della popolazione è nota (in cui si applicheranno
i metodi del 8.2.2.1) da quello in cui è incognita (ed è quindi necessario usare le
distribuzioni t-Student come spiegato nel 8.2.2.2).
9.4.1.1 Modello Normale-1: popolazione con varianza 2 nota
247
In tal caso le distribuzioni campionarie normali associate alle ipotesi H0 ed H1 hanno

uguale varianza n2 = 2 /n e non devono essere stimate. Per qualunque numerosit`
a
n del campione, si può determinare la regione di accettazione del test e lerrore di
seconda specie usando la Tabella di erf(z) come segue.
Test bidirezionale. Il test bidirezionale pi`
u potente per il valor medio, al livello
di significatività , è quello in cui si assume come regione di accettazione di H0
lintervallo di confidenza simmetrico rispetto a 0 , del tipo (8.11) con = 1 :
A:
0 z1/2 n 0 + z1/2
n
n
(9.39)
dove z1/2 è il coefficiente fiduciario per la variabile standardizzata

Zn =
n 0
,
/ n
(9.40)
ovvero il suo quantile di ordine 1 /2 che è legato al rischio di prima specie dalla
condizione (8.10) che qui si riscrive nella forma:
1 = IP(|Zn | z1/2 ) = 2erf(z1/2 ).
Nel test bilaterale lipotesi nulla H0 è da accettare se il valore empirico della variabile
Zn definita dalla (9.40), calcolato attraverso le osservazioni del campione, appartiene
allintervallo (9.39). In caso contrario, si conclude che i dati forniti dal campione
non sono compatibili, al livello di significatività , con lipotesi H0 .
Il rischio di seconda specie si determina come segue:
Z
"
0 +n z1/2
1
(n 1 )2
dn
(1 ) = IP(n A|H1 N (1 , n )) =
exp
2n2
n 2 0 n z1/2
0 1
1 0
= erf z1/2 +
+ erf z1/2 +
.
(9.41)
n
n
Se introduciamo la nuova variabile standardizzata

Zn0 =
1 0
n 0 n 1
=
,
n
n
n
(9.42)
ossia la differenza tra le normali standard associate rispettivamente alla ipotesi nulla
H0 e alla ipotesi alternativa H1 , il rischio di seconda specie si può pi`
u sinteticamente
riscrivere in funzione di zn0 nella forma:
(zn0 ) = erf(z1/2 zn0 ) + erf(z1/2 + zn0 ).
Ne deriva una curva caratteristica operativa (mostrata qualitativamente nel grafico
con linea continua di Fig. 9.3) che tende a zero per 1 , è monotona crescente
per < 1 < 0 (ossia per zn0 < 0); vale (0 ) = 1 per 1 = 0 (ossia per
zn0 = 0); ed è monotona decrescente per 0 < 1 < + (zn0 > 0).
248
TEST PARAMETRICI
1- a
H1 : m 1 m 0
0.5
H1 : m 1 < m 0
H1 : m 1 > m 0
m0
- z 1- a
m1
z 1- a
z'n
Figura 9.3 - Curve caratteristiche operative per tests sul valor medio
Test unidirezionale superiore. La regione di accettazione in questo test, per il

quale lipotesi alternativa è H1 : = 1 > 0 , è lintervallo aperto a sinistra:
A:
< n 0 + z1
n
dove z1 è il quantile di ordine 1 della normale standard (9.13), che al livello

di significatività soddisfa la condizione
1 = IP(Zn z1 ) =
1
+ erf(z1 ), )
2
(9.43)
mentre il rischio di seconda specie vale

Z
"
0 +n z1
1
(n 1 )2
dn
(1 ) = IP(n A|H1 N (1 , n )) =
exp
2n2
n 2
0 + n z1 1
1
0 1
= erf
erf() = + erf z1 +
.(9.44)
n
2
n
Espresso in funzione della differenza standardizzata (9.15), esso vale

(zn0 ) =
1
+ erf(z1 zn0 )
2
(9.170 )
ed è una funzione monotona decrescente di 1 e zn0 : tende a zero per zn0 +; è

uguale a 0.5 per zn0 = z1 ; è ancora uguale ad 1 per 1 = 0 (ossia per zn0 = 0)
e teoricamente tende allunità per 1 , zn0 (v. Fig. 9.3).
Test unidirezionale inferiore. La regione di accettazione in questo test, per il quale
lipotesi alternativa è H1 : = 1 < 0 , è lintervallo aperto a destra:
A:
0 z1 < +
n
249
dove z1 è ancora il quantile di ordine 1 della normale standard (9.40) il quale,

fissato il rischio di prima specie , è tale da soddisfare la condizione
1 = IP(Zn z1 ) =
1
+ erf(z1 ).
2
Il rischio di seconda specie vale

Z
"
+
1
(n 1 )2
(1 ) = IP(n A|H1 N (1 , n )) =
exp
dn
2n2
n 2 0 n z1
0 n z1 1
1
0 1
= erf(+) erf
= erf z1 +
(9.45)
n
2
n
o anche, se espresso in funzione della differenza standardizzata (9.42):

(zn0 ) =
1
+ erf(z1 + zn0 ).
2
(9.180 )
Lerrore di seconda specie è in tal caso una funzione monotona crescente, simmetrica
della (9.17) rispetto allasse zn0 = 0: tende teoricamente a zero per zn0 ; è
uguale a 0.5 per zn0 = z1 , vale ancora 1 per 1 = 0 (ossia per zn0 = 0) e
tende allunità per 1 , zn0 +.
La Fig. 9.3 mostra che a parità di ed n i rischi di seconda specie dei test unilaterali (indicati con linea tratteggiata) sono minori di quello del corrispondente test
bilaterale, in tutto lintervallo di 1 definito dalla particolare ipotesi alternativa che
si considera. Ne segue che, sempre a parità di e n, un test unilaterale è pi`
u potente
di un test bilaterale.
Esistono specifici diagrammi di curve caratteristiche (si veda ad esempio il testo [3]
citato in Bibliografia) in cui il rischio di seconda specie è riportato in funzione di
|0 1 |/ al variare di e n. I diagrammi mostrano, tra laltro, che la pendenza
delle curve cresce al crescere di n, per cui qualsiasi test con assegnato rischio di prima
specie è tanto pi`
u potente quanto maggiore è la numerosit`
a del campione. In definitiva, questi diagrammi consentono quindi di valutare la numerosit`
a campionaria che
è necessaria per effettuare un test con prefissata potenza W (zn0 ) = 1 (zn0 ).
9.4.1.2 Modello Normale generale: popolazione con varianza sconosciuta.
Se la varianza 2 della popolazione normale è sconosciuta, essa dovr`
a essere stimata
con la statistica campionaria corretta Sn2 definita nella (7.14). Sulla base del Teorema
8.1 (t-Student), il test si effettua osservando se il valore empirico della statistica Tn
definita nella (8.16) appartiene alla regione di accettazione di H0 oppure alla regione
di rifiuto dellipotesi nulla.
Se si effettua un test bidirezionale, la regione di accettazione è fornita dallintervallo
di confidenza (8.18), che ora si scrive:
A:
sn
sn
0 t1/2 n 0 + t1/2
n
n
(9.46)
250
TEST PARAMETRICI
dove sn è il valore empirico della radice quadrata di Sn2 , e t1/2 è il quantile di ordine
(1 /2) della distribuzione t-Student con (n 1) gradi di libertà. Confrontandola
con la (9.39), si nota che la (9.46) si ricava sostituendo semplicemente sn al posto
di e t1/2 al posto di z1/2 .
In modo analogo, applicando le (8.19) e indicando con t1 il quantile di ordine
(1) della t-Student con (n1) gradi di libertà, si ricavano le regioni di accettazione
per un test unidirezionale superiore (coda a destra):
A:
sn
< n 0 + t1
n
(9.47)
oppure unidirezionale inferiore (coda a sinistra):

A:
sn
0 t1 n < +.
n
(9.48)
Lipotesi nulla sarà da accettare solo se il valore empirico tn = (n 0 ) n/

sn
ricavato dal campione appartiene a una delle regioni ora definite.
Le formule precedenti sono valide per qualsiasi numerosit`
a n del campione, ma si
usano soltanto per piccoli campioni (n < 30 circa). Infatti, si ricordi che la distribuzione t-Student tende alla normale standard per n , per cui quando n > 30
i quantili t1/2 e t1 possono essere sostituiti dai corrispondenti quantili z1/2 e
z1 della variabile standardizzata
Zn =
n 0
,
sn / n
(9.49)
che è analoga alla (9.40) ma con la stima sn al posto di . In definitiva, se il

test si effettua usando grandi campioni è ancora possibile utilizzare tutti i risultati
(compresa la determinazione dei rischi di seconda specie) che sono stati ricavati per il
modello Normale-1. A tal fine, occorre soltanto stimare preventivamente la varianza
con il suo valore campionario corretto.
9.4.1.3 Popolazione con distribuzione non normale
Si è visto nel Capitolo 6 che, indipendentemente dal modello statistico usato per la
popolazione, le distribuzioni campionarie delle medie approssimano, al crescere di n,
la legge normale N (, 2 /n). Ne segue che se n è sufficientemente grande (n > 30) e
se lipotesi nulla è vera, la distribuzione delle medie campionarie si può approssimare
con una legge normale avente media 0 e varianza 2 /n, se 2 è nota, oppure Sn2 /n
se 2 è incognita.
Pertanto, per grandi campioni le regioni di accettazione e i rischi de seconda specie
nei tre tipi di test sono ancora quelle ricavati nello studio del modello Normale-1,
indipendentemente dalla forma della distribuzione della popolazione da cui è stato
estratto il campione. Viceversa, per piccoli campioni estratti da una popolazione
non normale non è possibile, in generale, procedere al test sul valor medio.
Esempio 9.2
251
Il peso medio di un campione di 100 confezioni di un prodotto alimentare vale

n = 1570 gr. Questo campione è stato estratto da una popolazione per la quale si
assume un modello statistico normale N (, 2 ) con deviazione standard = 120 gr.
H0
W(z'n )
H1
1- a
-2.58 -1.96
1.96 2.58
zn
1623.52 1630.96
mn
A
A
1569.04 1576.48
1600
-3
-2
-1
z'n
Figura 9.4
Effettuando tests con livelli di significatività = 0.05 e 0.01, quando si può affermare
che il peso medio dellintera popolazione di quel prodotto, confezionato dalla stessa
ditta è di 1600 gr ?
Si tratta di effettuare un test bidirezionale scegliendo tra una ipotesi nulla semplice
e una ipotesi alternativa composta:
H0 : = 1600 gr
H1 : 6= 1600 gr.
Se H0 è vera, la distribuzione campionaria

delle medie n è normale con valor medio
1600 e deviazione standard n = 120/ 100 = 12; se è vera H1 , la distribuzione
campionaria è una qualsiasi Normale con valor medio n 6= 1600 e uguale deviazione
standard (v. Fig. 9.4).
Applichiamo la (9.12) per determinare le regioni di accettazione dellipotesi nulla ai
vari livelli di significatività. Per = 0.05, si ha: z10.05/2 = z0.975 = 1.96, e quindi
la regione di accettazione dellipotesi nulla è lintervallo
A = {zn : 1.96 zn 1.96} = {n : 1576.48 gr n 1623.52 gr}.
Al livello = 0.01 si ha invece z10.01/2 = z0.995 = 2.58, e quindi un intervallo pi`
u
ampio:
A = {zn : 2.58 zn 2.58} = {n : 1569.04 gr n 1630.96 gr}.
Il valore empirico zn della variabile standardizzata (9.40) risultante dalla osservazione del campione è
1570 1600
= 2.5 .
zn =
12
Al livello di significatività 0.05 (ovvero con un rischio massimo di sbagliare del 5%)
esso non appartiene ad A, e pertanto rigettiamo H0 affermando che i dati forniti
dal campione non sono compatibili con laffermazione che il peso medio sia di 1600
252
TEST PARAMETRICI
gr. Al contrario, con un livello di significatività 0.01 (cioè con un rischio massimo
di sbagliare dell1%), risulta zn A ed accettiamo lipotesi nulla concludendo che il
peso medio è di 1600 gr.
Il rischio di seconda specie di questo test è fornito dalla (9.41) e in funzione della
differenza standardizzata (9.42) che qui si scrive zn0 = (1 1600)/12, vale:
(zn0 ) = erf(1.96 zn0 ) + erf(1.96 + zn0 )
(zn0 ) = erf(2.58 zn0 ) + erf(2.58 + zn0 )
se = 0.05,
se = 0.01.
La curva di potenza del test W (zn0 ) = 1 (zn0 ) ha un grafico che è mostrato in Fig.
9.4 per un livello di significatività = 0.05 /.
Esempio 9.3
I carichi di rottura dei cavi prodotti da una fabbrica hanno un valor medio = 1800
Kg. Con una diversa tecnologia si intende mettere in produzione un nuovo tipo
di cavo con carico di rottura maggiore. Si esaminano 50 cavi scelti a caso dalla
nuova produzione, e si trova che la media campionaria dei nuovi carichi di rottura
è n = 1850 con varianza campionaria corretta Sn2 = 10.000Kg 2 . Si può affermare,
a un livello di significatività = 0.01, che i nuovi cavi hanno un carico medio di
rottura pi`
u elevato?
Definiamo anzitutto le due ipotesi sulle quali dobbiamo fare la nostra scelta:
H0
H1
:
:
= 1800 Kg
> 1800 Kg
(non cè variazione nel carico di rottura)

(la nuova produzione migliora il carico di rottura).
Pur senza fare alcuna ipotesi sul modello statistico dei cavi di nuova produzione,
poichè il campione esaminato è sufficientemente grande la distribuzione campionaria
delle medie si può approssimare con una legge normale avente media 0 = 1800 Kg
se H0 è vera, e varianza Sn2 /n = 10.000/50 = 200 Kg2 .
Effettuiamo un test unidirezionale superiore sulla variabile standardizzata (9.49) che
nel nostro caso, se H0 è vera, vale:
Zn =
n 1800
.
200
(9.50)
Assumendo un rischio di prima specie = 0.01, il valore di z1 che delimita la

regione di accettazione e quella di rifiuto si calcola con la (9.43) imponendo:
1 = IP(Zn C | H0 vera) =
1
+ erf (z1 ) = 0.99
2
ossia erf(z1 ) = 0.49, e dalla Tabella di erf(z) si ricava: z1 = 2.33. La regione

di accettazione di H0 (v. Fig. 9.5) è dunque lintervallo
A:
{zn : < zn 2.33} = {n : < n 1833}
e quella di rifiuto è
C:
{zn : 2.33 < zn < } = {n : 1833 < n < }.

H0
253
W(z n' )
H1
1- a
0.5
zn
2.33
C
1833
1800
-3
1850
-2
-1
mn
z1- a
z'n
Figura 9.5
Sotto lipotesi H0 vera, il valore empirico di zn ottenuto dal campione si ricava

sostituendo n = 1850 nella (9.50). Esso vale zn = 3.55 ed appartiene alla regione
di rifiuto. Dunque lipotesi nulla è da rigettare, e laffermazione che i cavi di nuova
produzione hanno un pi`
u elevato carico di rottura può essere sostenuta al livello di
significatività prescritto.
Il rischio di seconda specie di questo test unidirezionale è dato dalla
(9.44), ed
espresso in funzione della differenza standardizzata zn0 = (1 1800)/ 200 vale:
(zn0 ) =
1
+ erf(2.33 zn0 ).
2
La corrispondente curva di potenza W (zn0 ) = 1 (zn0 ) è mostrata in Fig. 9.5. /

Esempio 9.4: Test sulle frequenze relative
Una ditta farmaceutica afferma che un suo analgesico è efficace per un periodo di
dodici ore nel 90% dei casi. In un campione di n = 200 persone, la medicina ha dato
in effetti ottimi risultati a ns = 160 sofferenti. Si chiede di valutare se, al livello di
significatività = 0.01, la ditta farmaceutica può legittimamente sostenere quanto
affermato.
Se p è la probabilità che lanalgesico abbia effetto per dodici ore, si chiede di procedere a un test unidirezionale scegliendo fra le seguenti ipotesi:
H0
H1
:
:
p = p0 = 0.9
p = p1 < 0.9
(laffermazione è corretta);
(laffermazione è falsa).
La frequenza relativa dei successi della medicina rilevata dal campione è y =

ns /n = 160/200 = 0.8. Nellipotesi che H0 sia vera, la distribuzione campionaria
delle frequenze relative Y = ns /n dei successi è approssimabile con una legge normale
(cfr. 7.5) con media E{Y } = p0 = 0.9 e deviazione standard
s
0 =
p0 (1 p0 )
=
n
0.9 0.1
= 0.0212.
200
254
TEST PARAMETRICI
W( p )
1
H0
H1
0.5
a
0.8506
0.8
1- a
0.9
-4.71
Y = n s /n
C
-2.33
-2
0.9
0.8506
-1
z'
Figura 9.6
Nel nostro test unidirezionale inferiore al livello di significatività = 0.01, il quantile

z1 per la variabile standardizzata
Z=
Y p0
Y 0.9
=
0
0.0212
che è tale da soddisfare la condizione

1 = IP(Z z1 ) =
1
+ erf (z1 ) = 0.99 ,
2
vale z1 = 2.33 come nellEsempio precedente. La regione di accettazione dellipotesi nulla è dunque lintervallo aperto a destra:
A = {z : 2.33 z < +} = {Y : 0.8506 Y < +}
indicata in Fig. 9.6, mentre la regione di rifiuto è
C = {z : < z < 2.33} = {Y : < Y < 0.8506}.
Il valore empirico di zn osservato nel campione è
zn =
0.8 0.9
= 4.71
0.0212
ed appartiene alla regione di rifiuto. Quindi, al livello di significatività 0.01 dobbiamo

rigettare H0 , concludendo che laffermazione della ditta farmaceutica non è corretta,
in quanto non legittimata dalle osservazioni effettuate sul campione.
Prima di procedere al calcolo dellerrore di seconda specie, è qui necessario sottolineare che le distribuzioni campionarie associate allipotesi alternativa sono normali
con varianze diverse, in generale, da 02 . Infatti, fissato un valore p1 < p0 compatibile
con lipotesi alternativa, questa è normalmente distribiuta con media p1 e deviazione
standard
s
p1 (1 p1 )
6= 0 ,
1 =
n
255
che è maggiore di 0 per tutti i reali p1 compresi nellintervallo (1 p0 ) < p1 < p0 .

La Fig. 9.6 mostra due di queste distribuzioni, che al diminuire di y1 aumentano la
dispersione rispetto al loro valor medio.
Ne segue che il rischio di seconda specie in questo test è non è dato dalla (9.45), ma
deve essere calcolato come segue:
"
+
(Y p1 )2
1
exp
dY =
(p1 ) = IP[Y A | H1 '
==
212
1 2 p0 0 z1
p0 0 z1 p1
1
p1 p0
0
= erf(+) erf
= + erf
z1 +
.
1
2
1
1
N (p1 , 12 )]
Il suo andamento qualitativo non varia rispetto a quello calcolato con la (9.45): è
sempre una funzione monotona crescente, e vale 0.5 per p1 = p0 0 z1 = 0.8506
che è lestremo inferiore dallintervallo di accettazione A. Per ricercare una analogia
formale con la (9.18), si può anche definire la differenza standardizzata:
s
p1 p0
Z =
= (p1 p0 )
1
0
n
,
p1 (1 p1 )
mediante la quale il rischio di seconda specie si può riscrivere nella forma:
(z 0 ) =
0
1
+ erf
z1 + z 0
2
1
che assume il valore 0.5 per

0
z = z1 = z1
1
0
p0 (1 p0 )
= 1.96.
(p0 0 z1 )(1 p0 + 0 z1 )
La potenza W (p1 ) = 1 (p1 ) del test è la funzione monotona decrescente riportata

in Fig. 9.6. /
Esempio 9.5: Test sulla differenza di distribuzioni normali
Due campioni di 100 persone ciascuno sono estratti dalla popolazione dei pazienti
di una malattia. Al campione A, unitamente alla terapia usuale si somministra una
nuova cura in fase di sperimentazione; al campione B viene prescritto di continuare
unicamente con la terapia usuale. A conclusione del trattamento, risulta che sono
guariti nA = 75 pazienti del gruppo A e nB = 65 pazienti del gruppo B. Possiamo
ritenere che la nuova cura è efficace, ai livelli di significatività = 0.01, 0.05 e 0.10
?
Indichiamo con YA la frequenza relativa (incognita) di guarigione tra la popolazione
dei pazienti che si sono curati anche con la nuova terapia, e con YB la frequenza relativa di guarigione con la cura usuale, che supponiamo statisticamente indipendente
da YA . Definiamo quindi la variabile aleatoria differenza tra le frequenze relative:
d() = YA YB ,
256
TEST PARAMETRICI
sulla quale effettuiamo un test unidirezionale superiore per verificare le seguenti

ipotesi:
H0
H1
:
:
d=0
(la nuova cura non ha effetto)
d = d1 > 0 (la nuova cura è pi`
u efficace di quella usuale).
In seguito alle osservazioni fatte sui campioni, le frequenze relative di guarigione nelle
due popolazioni di pazienti hanno distribuzioni approssimabili con leggi normali,
rispettivamente con valor medio
E{YA } =
75
= pA = 0.75 ;
100
E{YB } =
65
= pB = 0.65
100
2 (YB ) =
0.65 0.35
= 0.002275 .
100
e varianze che per la (7.22) valgono:

2 (YA ) =
0.75 0.25
= 0.001875 ,
100
Poichè YA e YB sono normali e statisticamente indipendenti, anche d() ha una

distribuzione normale, come mostrato nel Capitolo 4. Essa ha valor medio E{d} = 0
se H0 è vera, oppure E{d} = d1 > 0 se è vera H1 , con uguale deviazione standard
che vale (si confronti con lEsempio 7.2):
q
d =
2 (YA ) + 2 (YB ) =
0.001875 + 0.002275 = 0.06442.
Il valore empirico della differenza d rilevato dai campioni è dn = pA pB = 0.10, e

quello della corrispondente variabile standardizzata della differenza tra le frequenze
relative vale:
0.10
dn E{d}
=
' 1.55 .
zn =
d
0.06442
Per un test unidirezionale con coda a destra, i quantili z1 corrispondenti ai livelli
richiesti si calcolano applicando la (9.43) come come è stato fatto nellEsempio 9.3,
e valgono:
= 0.01 :
= 0.05 :
= 0.10 :
z1 = 2.33 (d1 = 0.15)

z1 = 1.645 (d1 = 0.106)
z1 = 1.28 (d1 = 0.082).
In parentesi sono riportati i corrispondenti valori del quantile d1 = d z1 della

distribuzione normale di d().
La regione di accettazione dellipotesi nulla è A = {zn : , z1 } = {dn :
, d1 }. Ai livelli di significatività = 0.01 e 0.05, il risultato empirico standardizzato zn ' 1.55 < z1 (corrispondente a dn = 0.10 < d1 ) cade nella regione
di accettazione di H0 , per cui si deduce che le differenze percentuali di guarigione
nei due campioni non sono statisticamente significative, e non si può affermare che
esse indichino una efficacia della nuova cura.
257
H 0 , n = 300
H0 , n = 100
H1
dn
b
-0.15
-0.05
-0.1
0.05
0.1
0.15
Figura 9.7
Al contrario, al livello di significatività = 0.10 si ha che zn cade nella regione di

rifiuto di H0 : respingeremo dunque lipotesi nulla e affermeremo che la nuova cura
è pi`
u efficace di quella usuale.
Le conclusioni che si traggono dal test dipendono in modo determinante dal tipo del
rischio che siamo disposti a correre se si fallisce la previsione. Nel caso in cui si
accetti un livello di significatività = 0.1, bisogna mettere in conto che esiste un
10% di probabilità di illudere il paziente, somministrandogli una cura che non ha
effetti utili. Si può decidere di diminuire questo rischio di errore ma, a parità di
numerosità del campione, cresce di conseguenza il rischio di commettere un errore
di seconda specie, che consisterebbe nel non somministrare la nuova cura, anche se
in realtà questa è efficace: in tal caso aumenterebbe il rischio di non intervenire
efficacemente per guarire un maggior numero di malati.
Questo rischio di seconda specie del test si determina applicando la (9.44):
1
d1
(d1 ) = + erf z1
2
d
e accettando un rischio di prima specie = 0.10, in corrispondenza del valore

empirico d1 = dn = 0.10 vale:
(0.10) =
1
+ erf
2
1.28
0.10
0.06442
1
erf (0.2723) = 0.5 0.107 = 0.393 .
2
Ne segue che in base allanalisi dei campioni il rifiuto della nuova terapia sarebbe
controproducente, con una probabilità che è circa del 40%, ai fini di un miglioramento
della terapia in uso.
Daltra parte, esiste un modo per diminuire il rischio di prima specie senza aumentare lentità del rischio di seconda specie : esso consiste nellaumentare la numerosità n dei campioni, perchè in tal modo si aumenta laffidabilità della decisione
che si assume a seguito del test.
Si supponga infatti di rifare il medesimo test su altri due campioni di 300 pazienti
ciascuno, dal quale risultano frequenze relative di guarigione, che indicheremo con
258
TEST PARAMETRICI
YA0 , YB0 , che sono uguali a quelle del test precedente:

YA0 =
225
= 0.75 ;
300
YB0 =
195
= 0.65.
300
Se è vera lipotesi nulla, la distribuzione campionaria della differenza d = YA0 YB0

tra le nuove frequenze relative ha ancora media E{d} = 0.10, ma ha ora deviazione
standard
d0
2 (YA0 )
2 (YB0 )
0.75 0.25 0.65 0.35

+
= 0.0372
300
300
che denota una minor dispersione dei dati campionari rispetto alla media. Per il dato
empirico dn = 0.10 con n = 300, la variabile standardizzata assume ora il valore:
zn0 =
0.10
0.10
=
= 2.688 > 2.33,
0
d
0.0372
che appartiene alla regione di rifiuto al livello di significatività = 0.01. Rigettando

lipotesi nulla H0 , potremo allora affermare che la nuova cura è efficace, sapendo
che la probabilità di commettere un errore di prima specie (nellilludere il paziente)
è limitata all1% e che contemporaneamente il rischio di seconda specie (di non
utilizzare un farmaco pi`
u efficace) è comunque ridotto al valore:
1
(0.10) = + erf
2
0.10
2.33
0.0372
1
erf (0.358) ' 0.361.
2
La Fig. 9.7 mostra il confronto tra i risultati che si ottengono usando le due distribuzioni campionarie con differente numerosit`
a, nel caso in cui sia vera lipotesi
nulla H0 : d = 0. Per n = 300, il quantile d1 = 0.0372 z1 della differenza
d = YA0 YB0 ai vari livelli di significatività vale:
= 0.01 ,
= 0.05 ,
= 0.01 ,
z1 = 2.33 : d1 = 0.0866
z1 = 1.645 : d1 = 0.061
z1 = 1.28 : d1 = 0.0476
e, al contrario del caso in cui n = 100, il dato empirico dn = 0.10 cade nella regione
di rifiuto anche se si assume il minore tra i tre rischi di prima specie. /
9.7.2
Test sulla varianza
Per procedere a tests sulla varianza occorre che la popolazione da cui si estrae il
campione sia normalmente distribuita, perchè questa condizione è necessaria per determinare gli intervalli di confidenza ricavati nel 8.2.2. Quando è possibile accettare
quasta ipotesi preliminare, un test bilaterale con ipotesi:
H0 :
H1 :
2 = 02
2 = 12 6= 02
259
si effettua verificando se il valore empirico qn della statistica

Qn =
n 1 2
n
Sn 2 Sn2 ,
2
0
0
(9.51)
definita nel Teorema Chi-quadrato del 7.4.1, appartiene alla regione di accettazione
risultante dalla scelta di un determinato rischio di prima specie .
Tenuto conto che Qn ha una distribuzione Chi-quadrato con (n 1) gradi di libertà,
questa regione di accettazione è lintervallo
A = {qn : /2 qn 1/2 } = {Sn2 : 02 /2 /n Sn2 02 1/2 /n}
(9.52)
dove /2 , 1/2 sono i quantili di ordine /2 e (1 /2) della Chi-quadrato con

(n 1) gradi di libertà, e la regione di rifiuto di H0 è linsieme
C = {0 qn < /2 } {1/2 < qn < +}.
(9.250 )
Se invece di vuole effettuare un test unilaterale, con coda a destra o a sinistra, le

regioni di accettazione e di rifiuto saranno:
H1 : 12 > 02 :
A = {qn : 0 qn 1 } = {Sn2 : 0 Sn2 02 1 /n}

C = {qn : 1 < qn < +} = {Sn2 : 02 1 /n < Sn2 < +}
H1 : 12 < 02 :
A = {qn : qn < +} = {Sn2 : 02 /n Sn2 < +}

C = {qn : 0 qn < } = {Sn2 : 0 Sn2 < 02 /n}
dove, ovviamente, e 1 sono i quantili di ordine e 1 della Chi-quadrato

con n 1 gradi di libertà.
Fissato un valore 12 compatibile con lipotesi alternativa, la statistica Q0n = nSn2 /12
ha anchessa una distribuzione Chi-quadrato con (n 1) gradi di libertà. Pertanto
il rischio di seconda specie in questi test è definito da
(12 ) = IP(qn A|H1 vera) = IP(qn A|Q0n = nSn2 /12 2(n1) )
e sarà calcolabile integrando opportunamente sulla regione A, al variare del valore
corrente di 12 , questa distribuzione Chi-quadrato associata allipotesi alternativa.
Caso di grandi campioni
Sappiamo che per n la distribuzione Chi-quadrato tende alla normale N (n, 2n).
Ne segue che per grandi campioni (almeno n > 30), potremmo approssimare la
regione di accettazione e il rischio di seconda specie utilizzando la variabile normale
standard (8.28) già definita nel precedente Capitolo.
Conviene però utilizzare la circostanza che in tal caso la deviazione standard
campionaria Sn è approssimabile con una legge normale, avente media e scarto / 2n.
Per la verifica di unipotesi nulla H0 sulla varianza, si può utilizzare allora la statistica
(Sn 0 ) 2n
,
(9.26)
Zn =
0
260
TEST PARAMETRICI
anchessa con distribuzione normale standard. Scelto un rischio di prima specie

e calcolati i quantili z1/2 e z1 , si individuano cos` le seguenti regioni di accettazione:
H1 : 12 6= 02 :
H1 : 12 > 02 :
H1 : 12 < 02 :
A = {zn : z1/2 zn z1/2 } =
z1/2
z1/2
=
Sn : 0 1
Sn 0 1 +
2n
2n
A =
{zn : < zn z1} =
z1
=
Sn : Sn 0 1 +
2n
A = {z
:
z
z
<
+}
=
n
1
n
z1
=
Sn : 0 1
Sn < +
2n
che per grandi campioni approssimano la (9.52) e seguenti.

Il rischio di seconda specie in tal caso si calcola pi`
u facilmente, perchè è definito
dallintegrale:
(1 ) = IP(Sn A|Sn
|calN (1 , 12 /2n))
1
=
1
"
Z
A
(Sn 1 )2
exp
dSn
212 /2n
e si può determinare utilizzando la Tavola della funzione degli errori. A seconda

dellintervallo A esso vale:
H1 :
12
6=
02
H1 : 12 > 02 :
H1 : 12 < 02 :
0
0
(1 ) = erf 2n
1 + z1/2
1
1
0
0
erf 2n
1 z1/2
1
1

1
0
0
(1 ) = erf 2n
1 + z1 +
1
2
1
0
1
0
1 z1
(1 ) = erf 2n
2
1
1
Fissati ed n, il suo andamento qualitativo è mostrato per i tre casi in Fig. 9.8.
Per 1 = 0 esso vale sempre 1 , che è il valore massimo di nel test bilaterale,
ma tende allunità per il test unilaterale superiore quando 1 0, e per quello
unilaterale inferiore quando 1 . Pi`
u dettagliati diagrammi di in funzione
del rapporto 1 /0 si possono consultare in [3] al variare di e della numerosit`
a del
campione.
Esempio 9.6
Per la misurazione di un coefficiente di resistenza in galleria del vento, in aggiunta

alla serie di prove già considerata nellEsempio 8.12 si effettua una nuova serie di
n = 20 prove, i cui risultati mostrano ancora un valor medio empirico dellordine di
0.3, ma una varianza campionaria Sn2 = 0.028 che è maggiore di quella del campione
precedente. Si vuole effettuare un test per verificare se con gli ultimi dati raccolti si
261
b
1
1- a
H1 : s 21 s 20
H1: s 21 < s 20
H1 : s 21 > s 20
s1
s0
Figura 9.8 - Curve caratteristiche operative per tests sulla varianza
può affermare, al livello di significatività = 0.10, che la varianza della popolazione

dei risultati ottenuti in quella galleria del vento è 2 = 0.02.
Definita lipotesi nulla H0 : 02 = 0.02, se essa è vera la statistica (9.24) vale
Qn =
20 2
S = 1000Sn2
02 n
ed ha una distribuzione campionaria con legge Chi-quadrato con n 1 = 19 gradi

di libertà. Per procedere in un test bidirezionale, definiamo lipotesi alternativa:
H1 :
2 6= 0.02
e determiniamo le regioni di accettazione e di rifiuto di H0 , definite dalla (9.52).

Se assumiamo = 0.10, dalla riga = 19 della Tabella dei quantili Chi-quadrato
in Appendice si ricava: 0.05 = 10.1, 0.95 = 30.1. Di conseguenza, le regioni di
accettazione e di rifiuto sono i seguenti intervalli di qn :
A = [10.1, 30.1],
C = [0, 10.1) (30.1, +).
Il valore empirico della statistica Qn che si ottiene sostituendo in essa Sn2 = 0.028
vale qn = 28 e appartiene alla regione di accettazione (v. Fig. 9.9).
Si può perciò concludere, al livello = 0.10, che il campione è compatibile con
laffermazione che le misurazioni effettuate in quella galleria del vento hanno una
varianza 2 = 0.02.
Si noti che si perviene invece a un risultato opposto se si effettua un test unidirezionale superiore assumendo lipotesi alternativa H1 : 2 > 0.02. Infatti in tal
caso lintervallo di accettazione di H0 sarebbe:
A = [0, 1 ] = [0, 0.90 ] = [0, 27.2]
e il valore empirico qn = 28 andrebbe a cadere nella regione di rifiuto C = (27.2, +).
262
TEST PARAMETRICI
f(Q n )
H0
E Q
qn
0.05
10
20
0.05
30
40
A
Figura 9.9
Per confrontare questi risultati con quelli che si ottengono per grandi campioni,
supponiamo ora che i precedenti dati campionari siano stati ricavati da n = 32
prove, anzichè 20. In tal caso si può usare la statistica (??) che vale:
8(Sn 0.02)
Zn =
.
0.02
Al livello = 0.10, si ha z1/2 = z0.95 = 1.645, e per questa statistica la regione di
accettazione di H0 , definita dalla prima delle (9.27), è il seguente intervallo di zn :
A = [1.645, 1.645].
Il valore empirico di Zn vale
0.028 0.02
zn = 8
= 1.4657
0.02
ed appartiene ad A, per cui il risultato del test sarebbe uguale a quello che si ricava
dallesame del piccolo campione. In modo analogo, nel test unidirezionale superiore
si ricava: A = (, z1 ] = (, z0.90 ] = (, 1.288] che non contiene zn ; dunque
lipotesi nulla sarebbe in tal caso da rigettare, come già rilevato nel caso in cui
n = 20.
Se n = 32, i rischi di seconda specie connessi ai due test si possono approssimare
usando le formule (9.53). In particolare,
se si fa coincidere 1 con il valore empirico
della deviazione standard Sn = 0.028 ' 0.167, si ha 0 /1 ' 0.8468 e per il test
bilaterale si ricava il seguente errore di seconda specie:
(0.167) = erf[8(0.8468 1) + 0.8468 1.645] erf[8(0.8468 1) 0.8468 1.645]
= erf(0.167) erf(2.6186) = 0.065 + 0.4955 ' 0.56
mentre per il test unilaterale superiore si ha invece:
(0.167) =
1
+ erf[8(0.8468 1) + 0.8468 1.288] =
2
263
= 0.5 + erf(0.135) = 0.5 erf(0.135) = 0.5 0.053 ' 0.447.

Anche se non è applicabile ai test effettuati con piccoli campioni, il confronto indica
comunque che è da attribuire una certa preferenza al test unilaterale, che a parità
di comporta un rischio di seconda specie inferiore a quello del test bilaterale.
9.7.3
Test di Fisher per il rapporto tra varianze
Si abbiano due caratteri X, Y normalmente distribuiti rispettivamente con leggi

2 ) e N ( , 2 ), da ciascuno dei quali `
N (X , X
e stato estratto un campione con
Y
Y
2.
numerosità n ed m, aventi rispettivamente varianza campionaria corretta Sn2 e Sm
Applicando ai due campioni il Teorema Chi-quadrato del 7.4.1, si ricava facilmente
che la variabile aleatoria
V () =
2 (Y )
(n 1)Qm
2 Sm
= X
(m 1)Qn
Y2 Sn2 (X)
(9.53)
è distribuita con densità F di Fisher, definita nella (2.41) del 2.3.8, avente m 1 e
n 1 gradi di libertà.
Si supponga ora di dover verificare se le distribuzioni normali dei due caratteri hanno
2 = 2 , ed effettuare un
la medesima varianza. Si può allora porre nella (9.53): X
Y
test sulla statistica
S2 (Y )
Vm,n = m
Sn2 (X)
ricavata dalla osservazione delle varianze corrette dei due campioni di X e Y .
Definita lipotesi nulla
2
H0 : X
= Y2
e quella alternativa
H1 :
2
X
6= Y2 ,
si potrà accettare H0 se il valore empirico di Vm,n è sufficientemente prossimo

ad 1 (che è anche il limite cui tende il valor medio della distribuzione di Fisher
per n ). Scelto un livello di significatività , la regione di accettazione di H0
si determina calcolando lintervallo A = [f/2 , f1/2 ], dove f/2 e f1/2 sono i
quantili della distribuzione F (m 1, n 1) di Fisher con m 1 e n 1 gradi di
libertà, che escludono due code con probabilità /2.
In Appendice sono riportate due Tabelle che indicano, al variare di m ed n, i quantili
f0.95 (m, n) e f0.975 (m, n) da utilizzare per test bidirezionali ai livelli di significatività
= 0.10 e 0.05. Per il loro impiego, occorre anche sfruttare la seguente proprietà
della distribuzione F (m, n):
f/2 (m, n) =
Esempio 9.7
1
.
f1/2 (n, m)
(9.54)
264
TEST PARAMETRICI
In seguito alle due serie di misurazioni del coefficiente di resistenza Cx già considerate
negli Esempi 9.6 e 8.12 si vuole verificare, al livello di significatività = 0.10, lipotesi
che le distribuzioni di frequenza dei risultati (che come già detto sono approssimabili
con leggi normali) abbiano la medesima varianza.
Indichiamo allora con X la frequenza relativa (teorica) delle n = 12 misure effettuate
sul modello dellEsempio 8.12, e con Y quella delle m = 20 misure dellEsempio 9.6.
Poichè le varianze campionarie sono risultate, rispettivamente: Sn2 (X) = 0.015 e
2 (Y ) = 0.028, le varianze empiriche corrette valgono:
Sm
12
Sn2 (X) =
0.015 = 0.01636,
11
20
2
Sm
(Y ) =
0.028 = 0.02947,
19
2 = 2 , il valore empirico del loro rapporto `

e se è vera lipotesi nulla H0 : X
e
Y
Vm,n = 1
0.02947
= 1.80.
0.01636
Calcoliamo ora la regione di accettazione

A = ( f0.05 (m 1, n 1), f0.95 (m 1, n 1) )
con m 1 = 19, n 1 = 11. Il quantile f0.95 (19, 11) si calcola interpolando tra i
valori forniti per m = 15 e m = 20 dalla apposita Tabella in Appendice:
1
4
f0.95 (19, 11) = f0.95 (15, 11) + f0.95 (20, 11) = 2.6606.
5
5
Il quantile f0.05 (19, 11) si calcola utilizzando la (9.30) dopo aver ricavato f0.95 (11, 19)
con una doppia interpolazione lineare, effettuata dapprima tra m = 15 e m = 20
per per fissati valori di n = 10 e 15, e quindi interpolando tra n = 10 e n = 15 i
risultati ottenuti per m = 19:
f0.95 (10, 19) =
f0.95 (15, 19) =
f0.95 (11, 19) =
1
4
f0.95 (10, 15) + f0.95 (10, 20) = 2.3872
5
5
1
4
f0.95 (15, 15) + f0.95 (15, 20) = 2.243
5
5
1
4
1
f0.95 (10, 19) + f0.95 (15, 19) = f0.95 (10, 15) +
5
5
25
4
4
16
+ f0.95 (10, 20) + f0.95 (15, 15) + f0.95 (15, 20) = 2.27184.
25
25
25
In definitiva si ottiene:
f0.05 (19, 11) =
1
' 0.44
f0.95 (11, 19)
e poichè il dato empirico Vm,n appartiene allintervallo A = (0.44, 2.6606), si accetta

lipotesi nulla concludendo che al livello di significatività = 0.10 i due campioni
sono compatibili con laffermazione che le varianze delle misurazioni effettuate sui
due modelli sono uguali.
9.7.4
265
Test di incorrelazione
Si è visto nel Capitolo 3 che le variabili aleatorie X e Y con cui in Statistica

si rappresentano due caratteri di una popolazione sono statisticamente non correlate se è nullo il loro coefficiente di correlazione (X, Y ) definito dalla (3.9). La
valutazione di questo coefficiente è anche importante per verificare la correttezza
di una regressione lineare di Y su X che si ottiene, come mostrato nel Capitolo
5, attraverso lanalisi di un campione di n coppie (xk , yk ) di dati riguardanti i due
caratteri X e Y della medesima popolazione.
Avendo a disposizione questo campione, un test sul coefficiente di correlazione tra i
due caratteri si può effettuare ricorrendo al seguente stimatore:
n
X
Cov(X, Y )
Rn =
=
Sn,X Sn,Y
(Xk X)(Yk Y )
k=1
nSn,X Sn,Y
(9.55)
dove X, Y , Sn,X , Sn,Y sono rispettivamente le medie campionarie e le radici quadrate

delle varianze campionarie dei due caratteri. Introdotte le seguenti ipotesi:
H0 :
(X, Y ) = 0 ;
H1 :
(X, Y ) 6= 0
(9.56)
relative al coefficiente di correlazione teorico dei due caratteri, si può dimostrare che
se lipotesi nulla è vera, la statistica
s
Tn = Rn
n2
1 Rn2
(9.57)
è distribuita con legge t-Student con n 2 gradi di libertà.

Ne segue che le regioni di accettazione e di rifiuto di H0 in un test bidirezionale al
livello di significatività sono rispettivamente:
A = (t1/2 , t1/2 );
C = (, t1/2 ) (t1/2 , +),
dove t1/2 è il quantile della distribuzione t-Student con n 2 gradi di libertà, che
esclude una coda di probabilità /2.
Se il valore empirico della statistica (9.33), calcolato con i dati forniti dal campione,
appartiene alla regione di accettazione cos determinata, si concluderà che i due
caratteri sono non correlati al livello di significatività .
Esempio 9.8
Nella regressione lineare effettuata nellEsempio 6.2 del Capitolo 6 è già stato calcolato che il coefficiente di correlazione tra i caratteri X e Y ha il valore empirico
Rn = 0.7027. Poiche esso è relativamente prossimo allunità, si è dedotto che i dati
(xk , yk ) ricavati dal campione di numerosit`
a n = 12 sono sufficientemente correlati
statisticamente.
266
TEST PARAMETRICI
Effettuiamo un test di incorrelazione sulla statistica (9.33), per verificare se si possono trarre le medesime conclusioni anche nei confronti delle proprietà statistiche
della coppia di caratteri della popolazione dalla quale è stato estratto il campione
esaminato.
Il valore empirico che si ricava per la statistica (9.57) vale
s
tn = 0.7027
10
= 3.1232.
1 (0.7027)2
Lesame della tabella dei quantili della distribuzione t-Student con n 2 = 10 gradi
di libertà mostra che t1/2 = 2.228 oppure 2.764 oppure 3.169 rispettivamente per
= 0.05 oppure 0.02 oppure 0.01. Ne segue che ai vari livelli di significatività le
regioni di rifiuto di H0 sono:
= 0.05 :
= 0.02 :
= 0.01 :
C = (, 2.228) (2.228, +)
C = (, 2.764) (2.764, +)
C = (, 3.169) (3.169, +)
e quindi il dato empirico tn appartiene alla regione di rifiuto dellipotesi nulla H0 :

(X, Y ) = 0 per test bidirezionali con rischio di prima specie = 0.02 o superiori,
mentre invece cade nella regione di accettazione per = 0.01.
Se ne conclude che se si accetta di commettere un errore di prima specie maggiore
o uguale a 0.02, lipotesi nulla sulla incorrelazione dei due caratteri è da rigettare.
Al contrario, si concluderà che i due caratteri sono non correlati, solo se si vuole
avere una probabilità massima dell1% di commettere un errore di prima specie. Si
osservi però che in tal caso lerrore di seconda specie (tn ) può essere assai elevato,
perche varia in un intervallo compreso tra zero e 1 = 0.99 /.
9.7.5
Ipotesi H0 e H1 composte
Nel caso in cui anche lipotesi nulla sia composta, e genericamente del tipo:
H0 :
0 IR ,
1
1, 200
4
2, 200
9
3, 200
a
0
mn
267
Figura 9.10
lerrore di prima specie del test dipende dagli effettivi valori empirici gn 0 che
la statistica campionaria Gn può assumere nellinsieme 0 compatibile con lipotesi
nulla. Fissata la regione critica C del test, e tenuto conto della definizione (9.30),
lerrore di prima specie è ora la funzione
(gn ) = IP(Gn C | ogni H0 vera, con = gn 0 ) ,
e come livello di significatività del test si assume in tal caso lestremo superiore dei
possibili errori di prima specie:
= sup (gn ).
(9.58)
gn 0
Esempio 9.9
Si effettua un test sullintervallo di tempo medio tra due successivi interventi di

manutenzione di un dato componente della strumentazione di bordo di un velivolo.
Indicato con X() il tempo che intercorre tra due successivi controlli di manutenzione, si assume per esso un modello statistico esponenziale, descritto dalla densità
fX (x, ) = ex che come è noto (crf. 2.3.4) ha valor medio = 1/ e varianza
2 = 1/2 = 2 .
Avendo a disposizione una serie statistica di 200 rilevamenti, da cui risulta un intervallo medio di tempo n = 3.4 mesi, si vuole verificare se, con un prescritto livello
di significatività, la media dei tempi di attesa tra due controlli si può ritenere non
superiore a 3 mesi. A tal fine si assumono le seguenti ipotesi composte:
H0 :
H1 :
1/ 0 = [0, 3]
1/ > 3.
Se lipotesi nulla H0 è vera, tenuto conto della elevata numerosit`

a del campione le
possibili distribuzioni campionarie delle medie sono normali, con media n 3 e
varianza
2
2
n2 =
= n
n
200
come indicato in Fig. 9.10. La regione di accettazione di H0 è A = [0, c] e quella
critica è C = (c, +), dove c si determina ricercando il valore c di 3 che rende
massimo lerrore di prima specie.
Per questo test unidirezionale, è facile rendersi conto (si veda la Fig. 9.10) che
sup (n ) = (3),
0n 3
per cui c = 3. Se dunque H0 è vera e n = c = 3, assumendo per esempio un

livello di significatività = 0.01 si deve avere:
IP(n C|n = c = 3) =
1
erf (zc ) = = 0.01
2
268
TEST PARAMETRICI
dove zc è il coefficiente fiduciario per la variabile standardizzata
(c n ) n
c
Zc =
=
1
200.
n
3
Usando come di consueto la tabella di erf(z), si ricava zc = 2.33 da cui
zc
c=3 1+
200
= 3.494.
Poichè il valore empirico di n ricavato dal campione appartiene alla regione di

accettazione A = [0, 3.494] dellipotesi nulla, essa viene verificata al livello di significatività = 0.01.
Se invece si accetta un rischio di prima specie pi`
u elevato: = 0.10, il coefficiente
fiduciario vale zc = 1.29 e si trova:
1.29
c=3 1+
200
= 3.27365,
per cui in tal caso lipotesi nulla è da rifiutare perche il dato empirico appartiene
alla regione di rifiuto C = (3.27365, +) determinata con il nuovo livello di significatività. /
9.7.6
Test del rapporto di verosimiglianza
E la generalizzazione del test di Newman-Pearson fra ipotesi semplici, descritto nel

9.2.1, al caso in cui si abbiano da verificare generiche ipotesi composte del tipo:
H0
H1
:
:
0 IRd
1 = \0 .
(9.59)
Avendo a disposizione le n osservazioni (x1 , . . . , xn ) = x dedotte da un campione X

della popolazione, si definisce la statistica
sup L(, X)
n (0 , X) =
sup L(, X)
(9.60)
detta rapporto di verosimiglianza, in cui L(, X) è la funzione di verosimiglianza

(8.6), da esprimere analiticamente in base al modello statistico adottato.
Si può dimostrare che in un test sulla statistica (9.60) con ipotesi composte (9.59)
la regione critica è linsieme
C = {x : n (0 , x) < c},
269
dove c > 0 è scelto in modo che il test abbia un prescritto livello disignificatività ,
ovvero tale da soddisfare la condizione
Z
IP(Gn (X) C | H0 vera ) =
L(, x)dx = IP(n (0 , x) < c) ,
0 .
Questo metodo è ampiamente usato per effettuare test di verifica per unampia
classe di ipotesi composte sebbene, in generale, non porti alla costruzione di un test
di massima potenza come invece avviene nel caso di ipotesi semplici.
Si può comunque dimostrare, sotto particolari condizioni di regolarità della stima di
massima verosimiglianza, che il test possiede proprietà ottimali in una sua variante
asintotica, vale a dire quando la numerosit`
a del campione tende ad infinito. Questa
teoria asintotica, per la quale si rimanda al testo [2] citato in Bibliografia, riguarda
però soltanto problemi in cui lipotesi nulla è definita su un sottospazio di , ossia
tale che H0 : 0 con dim(0 ) < dim(). Questo è il caso, per esempio, di un
test sulla varianza per il modello Normale-2: N (1 , 2 ) in cui
= { = (1 , 2 ) : < 1 < +, 2 > 0}
è un semipiano, e
0 = { = (1 , 2 ) : 1 = 10 , 2 > 0}
è la semiretta dei valori positivi di 2 , per 1 assegnato.
9.8
Problemi risolti
9.1. Da un campione di 200 cambi per autovetture, la cui durata di funzionamento

espressa in Km. ha un modello statistico normale con varianza nota 2 = 1.05625
107 , si ricava che il chilometraggio medio campionario è di 44500 Km. Possiamo
affermare, al livello di significatività = 0.01, che la durata media dei cambi è di
44800 Km ? E al livello di significatività = 0.20 ?
Soluzione. Si deve effettuare un test bidirezionale su una popolazione con varianza
nota, assumendo una ipotesi nulla H0 : = 0 = 44800 Km, e una ipotesi alternativa
H1 : = 1 6= 44800 Km. Se è vera H0 , la regione di accettazione è lintervallo
A:
in cui
44800 n z1/2 n 44800 + n z1/2
3250
n = =
= 230
n
200
e z1/2 è il quantile di ordine (1 /2) della variabile standardizzata Zn = (n

0 )/n .
Al livello = 0.01 si ha dalle Tavole: z0.995 = 2.58. Sostituendo si ricava
44800 230 2.58 n 44800 + 230 2.58
A = (44206.6, 45393.4)
270
TEST PARAMETRICI
e poiche il valore empirico x

= 44500 appartiene ad A, accetto H0 .
Al livello = 0.20 si ha z0.9 ' 1.287. Sostituendo si ricava
44800 230 1.287 n 44800 + 230 1.287
A = (44504, 45096)
ex
= 44500 non appartiene ad A, bens` alla regione critica e dunque rifiuto H0 .
Si perviene allo stesso risultato se si preferisce effettuare il test sulla variabile normale
standard Zn il cui valore empirico, se H0 è vera, vale zn = (44500 44800)/230 '
1.30.
Infatti, al livello = 0.01 esso appartiene alla regione di accettazione
A = (z0.995 , z0.995 ) = (2.58, 2.58)
e al contrario, al livello = 0.20 non appartiene allintervallo A = (1.287, 1.287).
9.2. Si dispone del seguente campione: x1 = 7, x2 = 6, x3 = 8, x4 = 5, x5 = 6, x6 =
10 di sei osservazioni di un carattere X di cui non è noto il modello statistico. In
un test bilaterale sul valor medio di X, si può accettare, al livello di significatività
= 0.1, lipotesi che esso valga = 6 ?
Soluzione. Per procedere nel test occorre assumere che la popolazione con varianza
sconosciuta abbia legge normale, e usare una distribuzione campionaria con legge
t-Student.
Lipotesi nulla è H0 : 0 = 6 e lipotesi alternativa è H1 : 6= 6. I valori empirici
della media e della varianza campionaria sono
x = 42/6 = 7
1
8
s2n =
(4 + 1 + 1 + 1 + 9) = .
6
3
In un test bilaterale al livello = 0.1, se H0 è vera lintervallo di accettazione è
sn
sn
6 t0.95 6 + t0.95
6
6
dove
s
1
n =
n
n
n
s2 =
n1 n
8
' 0.7303
15
e t0.95 è il quantile di ordine (1 /2) della distribuzione t-Student con n 1 = 5

gradi di libertà, che vale: t0.95 = 2.015. Dunque la regione di accettazione di H0 è
lintervallo
6 0.7303 2.015 6 + 0.7303 2.015
A ' (4.528, 7.471)
e poiche il valore empirico della media (

x = 7) appartiene ad A, accetto H0 : 0 = 6
.
271
Si perviene allo stesso risultato calcolando il valore empirico della statistica

r
n 0
Tn =
n = (n 0 )
sn
15
8
il quale, se H0 è vera, vale tn = 1.3693 e quindi appartiene alla regione di accettazione

A = (t0.95 , t0.95 ) = (2.015, 2.015).
9.3. Da una popolazione con legge normale si estrae un campione di numerosit`
a
n = 8 la cui varianza vale Sn2 = 0.098. In un test sulla varianza incognita della
popolazione, si può affermare che 2 < 0.09, al livello di significatività = 0.10 ?
Soluzione. Si imposta un test unidirezionale inferiore per una popolazione normale
con varianza sconosciuta, assumendo le ipotesi:
H0 : 2 = 02 = 0.09,
H1 : 2 < 0.09.
Se H0 è vera, la statistica
Qn =
n 1 2
7 2
S = 77.7 Sn2
Sn =
2
0.09 n
0
segue la legge 2 con n 1 = 7 gradi di libertà, e la regione di accettazione di H0 è

lintervallo A = [ , +) dove è il quantile di ordine = 0.1 della distribuzione
2 con 7 gradi di libertà. Dalle Tavole si ricava: 0.10 = 2.83.
Il valore empirico della varianza campionaria corretta è
s2n =
n
8
s2n = 0.098 ' 0.112,
n1
7
e quindi il valore empirico di Qn vale: qn = 77.7 0.112 ' 8.71.

Dunque qn A = [2.83, +) e lipotesi nulla è da accettare: ne consegue che dalle
risultanze del campione non si può affermare: 2 < 0.09 .
9.4. Cinque osservazioni di un carattere avente legge normale hanno i seguenti esiti:
4
6 8.
Sviluppare un test con livello di significatività = 0.1, per verificare se la media del
carattere vale = 5 oppure = 6. Qualè la potenza del test effettuato ?
Soluzione. I valori empirici della media e della varianza campionaria sono:
x
=
28
= 5.6,
5
s2n =
16 + 25 + 25 + 36 + 64
(5.6)2 = 1.84,
5
per cui la stima corretta della varianza della popolazione è
2 =
n
5
s2 = 1.84 = 2.3
n1 n 4
272
TEST PARAMETRICI
e la distribuzione campionaria delle medie ha legge normale con media e deviazione

standard
s
r
2
2.3
n =
=
' 0.678.
n
5
Definite lipotesi nulla H0 : = 0 = 5, lipotesi alternativa H1 : = 1 = 6 e la
variabile standardizzata
n 5
n 0
=
Zn =
n
0.678
della distribuzione campionaria delle medie quando H0 è vera, la regione critica
(c , +) del test si calcola imponendo che
= 0.1 = IP(n > c |H0 ) = IP(5+n Zn > c ) = IP Zn >
c 5
0.678
1
c 5
= erf
2
0.678
ossia, usando le Tavole di erf(z):
erf
c 5
0.678
= 0.4
c 5
= 1.287
0.678
da cui si trova: c = 5 + 0.678 1.287 ' 5.873.

La regione critica è dunque C = (5.873, +) e non contiene il valore empirico x
= 5.6
della media calcolata. Se ne conclude che lipotesi nulla 0 = 5 è verificata dalle
risultanze del campione.
La potenza del test è W = 1, e il rischio di seconda specie si calcola utilizzando
la variabile normale standard Z1 = (n 1 )/n che rappresenta la distribuzione
campionaria quando è vera lipotesi alternativa. Si ricava allora:
c 6
= IP (n c | H1 vera) = IP Zn
n
1
1
=
+ erf(0.1874) ' 0.074 = 0.426.
2
2
5.873 6
= IP Zn
0.678
Pertanto la potenza del test vale W = 0.574 .

9.5. Su 100 transistor prodotti da una ditta, 6 risultano difettosi. Al livello di
significatività = 0.1, si può accettare lipotesi che la percentuale dei transistor
difettosi non supera il 5% ? Qualè il massimo rischio di prima specie che si può
correre nel fare questa affermazione?
Soluzione. Indichiamo con p = nd /n la frequenza relativa degli nd transistor difettosi, e impostiamo un test unidirezionale superiore per verificare lipotesi nulla
H0 :
p = p0 = 0.05
(5 transistor difettosi)
contro lipotesi alternativa

H1 :
p = p1 > 0.05
(pi`
u di 5 transistor difettosi).
273
Se H0 è vera, la distribuzione campionaria di p ha media p0 = 0.05 e deviazione

standard
s
r
p0 (1 p0 )
0.05 0.95
p =
=
' 0.0281,
n
100
ed è quindi descritta dalla normale standard Zn = (p 0.05)/0.0281.
Al livello = 0.1 la regione di accettazione di H0 è lintervallo A = (, z0.9 ) dove
z0.9 è il quantile di ordine 1 della normale standard, tale che
0.90 = 0.5 + erf(z0.9 )
erf(z0.9 ) = 0.4
da cui: z0.9 ' 1.285.
Il valore empirico di Zn vale: zn = 0.01/0.0218 = 0.4587 ed appartiene ad A =

(, 1.285).
Dunque si conclude che al livello = 0.1 lipotesi H0 è da accettare .
Il massimo rischio di prima specie max compatibile con laccettazione di H0 è
definito dalla condizione
1 max = 0.5 + erf(zn ) = 0.5 + erf(0.4587) ' 0.5 + 0.1735 = 0.6735
per cui si ricava: max = 0.3265 .
9.6. Una macchina costruisce anelli che dovrebbero avere un diametro medio di
5 cm, con una tolleranza di 0.2 cm. In un campione scelto a caso di 40 anelli, il
diametro medio risulta x
= 4.9 cm. Dire se al livello di significatività del 5% la
produzione è sotto controllo.
Soluzione. Si deve affettuare un test bidirezionale su un campione estratto da una
popolazione normale con media = 5 cm e deviazione standard = 0.2 cm.
Lipotesi nulla da verificare è H0 : n = 0 = 5 cm, contro una ipotesi alternativa H1 : n 6= 5 cm.
Se H0 è vera, la distribuzione campionaria delle medie è descritta dalla Normale
standard
n 0
n 5
.
Zn =
=
n
0.2/ 40
Al livello di significatività = 0.05, la regione di accettazione di H0 è lintervallo
A = (z0.975 , z0.975 ), dove z0.975 è il quantile di ordine (1 /2) della normale
standard e vale z0.975 = 1.96.
Il valore empirico di Zn rilevato nel campione è
zn =
x
5
' (4.9 5) 31.62 = 3.162
0.2/ 40
e non appartiene allintervallo di accettazione A = (1.96, 1.96). Ne segue che al

livello = 0.05 si deve rifiutare lipotesi nulla 0 = 5, concludendo che la produzione
non è pi`
u sotto controllo .
274
TEST PARAMETRICI
9.7. Una ditta costruisce lampadine che dovrebbero avere una vita media di 1600
ore. In un campione di 100 lampadine la vita media risulta x
= 1570 ore, con uno
scarto quadratico medio s = 120 ore. Controllare lipotesi nulla H0 : = 1600 ore
ai livelli di significatività del 5% e dell1% rispettivamente.
Soluzione. Poiche abbiamo un campione con numerosit`
a sufficientemente elevata,
anche se non si conosce il modello statistico della popolazione la distribuzione campionaria delle medie si approssima con una legge Normale con media n = 1750 ore
e deviazione standard stimata attraverso lo scarto quadratico medio campionario:
r
Sn
1
n
120
n = =
s = ' 12.06 ore.
n
n
n1
99
In un test bidirezionale per lipotesi nulla H0 , contro lipotesi alternativa : H1 : 6=

1600 ore, se H0 è vera la variabile standardizzata
Zn =
n 1600
n 1600
=
n
12.06
ha regioni di accettazione:
A = (z0.975 , z0.975 ) = (1.96, 1.96)
A = (z0.995 , z0.995 ) = (2.58, 2.58)
al livello = 0.05
al livello = 0.01.
Il valore empirico di Zn risultante dal campione è

zn =
x
1600
1570 1600
=
' 2.4875.
12.06
12.06
Al livello di significatività = 0.05 esso non appartiene ad A = (1.96, 1.96) e di

conseguenza si rifiuta lipotesi H0 .
Al contrario, al livello = 0.01 risulta zn A = (2.58, 2.58) e si accetta H0 .
9.8. In un campione di 10 sfere metalliche prodotte da una macchina si calcola il
diametro medio di 7 mm, con uno scarto quadratico medio s = 1.2 mm. Verificare,
al livello di significatività dell1%, se il diametro medio di tutta la produzione è di
6.5 mm.
Soluzione. Si dispone di un piccolo campione estratto da una popolazione con varianza sconosciuta: occorre perciò supporre che questa abbia modello normale.
Lipotesi nulla da verificare è H0 : = 0 = 6.5 mm., e quella alternativa è H1 : 6=
6.5 mm. Si usa la statistica
n 0
Tn =
n
sn
in cui
sn = s
n
= 1.2
n1
10
' 1.265 mm ,
9
275
la quale ha una distribuzione t-Student con 9 gradi di libertà, e nellesame del

campione assume il valore empirico
7 6.5
tn =
10 ' 1.25.
1.265
In un test bidirezionale al livello = 0.01, lintervallo di accettazione dellipotesi
nulla è A = (t0.995 , t0.995 ) dove t0.995 è il quantile di ordine (1 /2) della distribuzione t-Student con 9 gradi di libertà, che vale t0.995 = 3.25 . Poiche
tn ' 1.25 A = (3.25, 3.25),
al livello = 0.01 si accetta lipotesi che il diametro medio della popolazione di
sfere sia uguale a 6.5 mm.
9.9. Una casa costruttrice di automobili vuole esaminare un dispositivo che, opportunamente applicato, ridurrebbe il consumo di un certo tipo di automobili. A tale
scopo, decide di provare tale dispositivo su un campione casuale di 50 automobili
che normalmente hanno un consumo medio di 10 litri ogni 100 km. Dallesame del
campione risulta che il consumo medio su 100 km è x
= 9.5 litri, con uno scarto
quadratico medio corretto s = 0.8 litri. Valutare la convenienza effettiva di un tale
dispositivo fissando un livello di significatività = 1%.
Soluzione. Si sottopone a verifica lipotesi nulla H0 : = 0 = 10 litri/Km, in
cui si afferma che il dispositivo non modifica significativamente il consumo normale.
Lipotesi alternativa è H1 : < 10 litri/Km, che afferma che il consumo con il
dispositivo è effettivamente minore del normale. ( Si osservi che il caso > 10,
ovviamente privo di interesse, è escluso a priori).
Poiche il campione è sufficientemente grande, si assume che le medie campionarie
siano distribuite normalmente con media 0 = 10 (se H0 è vera) e deviazione standard
n = s/ n = 0.8/ 50 ' 0.113 litri/Km.

Effettuiamo un test unidirezionale inferiore sulla variabile standardizzata Zn = (n
0 )/n , che dal campione risulta avere un valore empirico
zn =
9.5 10
' 4.42.
0.113
Scelto un livello di significatività = 0.1, usiamo le Tavole per calcolare il quantile

di ordine 1 = 0.99 della Normale standard, che vale z0.99 = 2.33.
La regione di accettazione di H0 è lintervallo aperto a destra:
A = (z1 , +) = (z0.99 , +) = (2.33, +).
Questo intervallo non contiene il valore empirico zn < z0.99 . Dunque lipotesi nulla
è da rifiutare, e dal test si deduce che il dispositivo riduce il consumo medio .
9.10. La durata media delle lampadine prodotte da una ditta, in un modello con
legge normale, è di 1800 ore con uno scarto quadratico medio di 100 ore. Impiegando
276
TEST PARAMETRICI
un nuovo materiale si pensa che la durata media possa essere accresciuta a 1850 ore.
Per provare ciò, si prende un campione di 50 lampadine e si trova che la durata
media è di 1830 ore.
a) Al livello di significatività dell 1 % (rischio del produttore) valutare se cè stato
un reale miglioramento, confrontando lipotesi nulla H0 : 0 = 1850 (effettivo
miglioramento) con lipotesi alternativa H1 : 1 = 1800 (situazione immutata).
b) Calcolare la probabilità di commettere un errore di seconda specie (rischio del
consumatore), cioè di dichiarare una durata media di 1850 ore quando invece è vera
lipotesi alternativa.
Soluzione.
a) Si deve effettuare un test con ipotesi semplici su una popolazione normale con
varianza nota. Poiche in questo test si ha 0 > 1 , la regione di accettazione di
H0 e quella critica sono rispettivamente A = (c , +), C = (, c ) con c da
determinare.
Introduciamo la variabile standardizzata che definisce la distribuzione campionaria
delle medie. Se H0 è vera, essa vale
Zn =
n 1850
n 1850
n 1850
=
=
.
/ n
100 50
200
Il suo valore critico al livello di significatività = 0.01 si calcola scrivendo:
c 1850
= 0.01 = IP(n < c | H0 ) = IP Zn < zc =
200
e dalle Tavole di erf(z) si ricava:
erf(zc ) = 0.49
zc = 2.33 ;
c = 1850 +
1
+ erf(zc )
2
200zc ' 1817.049.
Si noti che zc = 2.33 non è altro che il quantile z0.99 di ordine 1 della distribuzione Normale standard.
Dunque la regione critica è lintervallo aperto a sinistra:
C = {zn : < zn < 2.33} = {n : < n < 1817.049}.
Il valore empirico di
n rilevato nel campione (al quale corrisponde il valore empirico
zn = (1830 1850)/ 200 ' 1.414 di Zn ) non appartiene alla regione critica.
In seguito alle osservazioni sul campione, si deve pertanto accettare lipotesi nulla,
dichiarando che con il nuovo materiale cè un effettivo miglioramento .
b) Il rischio di seconda
specie si determina introducendo la variabile standardizzata
Z1 = ( 1 )/ 200 che rappresenta la distribuzione campionaria quando è vera

lipotesi alternativa, e facendo il seguente calcolo:
1817.049 1800
c 1
= IP Z1
=
= IP(n c |H1 ) = IP Z1
200
200
1
1
17.049
=
' erf(1.21) = 0.5 0.3869 = 0.1131 ' 11.3% .
erf
2
2
200
277
9.11. Il consumo di carburante di un modello di scooter, espresso in Km/litro,

ha legge normale con varianza nota 2 = 6, 25. Da un campione di 36 esemplari
prodotti, si ricava una media dei consumi di 24,4 Km/l. Si domanda: a) Al livello di
significatività = 0, 05, si può accettare lipotesi che il consumo medio del modello
è di 25 Km/l, in alternativa allipotesi che esso sia di 23 Km/l ? b) Quale errore si
commette nel dichiarare un consumo di 25 Km/l, se è vera lipotesi alternativa ?
Soluzione.
a) Definita lipotesi nulla H0 : = 0 = 25 e quella alternativa H1 : = 1 = 23, si
procede ad un test unidirezionale inferiore nel quale la regione critica è C = (, zc ).
Determiniamo il valore critico zc e il valore empirico zn della variabile standardizzata
Zn la quale, se H0 è vera, è definita come
n 0
25
= n
Zn =
= 2.4(n 25).
/ n
6.25/6
Il suo valore empirico è zn = 2.4(24.4 25) = 1.44, e il suo valore critico (cambiato
di segno) è il quantile di ordine 1 = 0.95 della distribuzione Normale standard
(confronta anche con il precedente Esercizio 10/7). Dunque si ricava:
zc = z1 = z0.95 = 1.65
C = (, 1.65)
e poiche il dato empirico zn non appartiene alla regione critica ora calcolata, si
deduce che lipotesi nulla deve essere accettata al livello di significatività del 5%.
b) Se si usa lo stesso metodo dellEsercizio precedente, per calcolare lerrore di seconda specie occorre prima determinare il valore critico c della media campionaria:
zc
1.65
c = 25 +
= 25
' 24.3125
n
2.4
e quindi scrivere:
1
1.3125
c 23
= erf
= IP(n c |H1 ) = IP Z1
n
2
0.41
6
1
'
erf(3.15) = 0.5 0.4992 = 0.0008
2
dove Z1 = (n 1 )/n è la variabile standardizzata che rappresenta la distribuzione
campionaria quando è vera lipotesi altermativa.
Oppure, con procedura pi`
u rapida, si può applicare la formula:
1
= + erf(z1 z 0 )
2
in cui z 0 è la differenza tra le Normali standard associate alla ipotesi nulla e alla
ipotesi alternativa, e vale:
2
n 25 n 23
=
= 4.8.
z0 =
n
n
0.41
6
Si ha cos` il medesimo risultato:
= 0.5 + erf(1.65 4.8) = 0.5 erf(3.15) ' 0.0008.
278
TEST PARAMETRICI
TEST DI IPOTESI NON

PARAMETRICHE
10.1
Test sulla legge di distribuzione
In gran parte dei test statistici trattati nel Capitolo precedente è stata sfruttata
lipotesi preliminare che il modello statistico della popolazione in esame fosse facilmente identificabile, ed esprimibile mediante leggi probabilistiche note (normale,
binomiale, esponenziale,. . .). Capita spesso che ciò non sia possibile, o per lo meno
che la legge di distribuzione F (x) che siamo portati ad attribuire alla popolazione
sia da verificare. Questa verifica si effettua con metodi chiamati anche test per la
bontà delladattamento, i pi`
u noti dei quali sono il test di Kolmogorov-Smirnov e il
test Chi-quadrato, che si impostano come segue.
Si abbia in campione X = (X1 , X2 , . . . , Xn ) estratto da una popolazione il cui carattere X ha una funzione di distribuzione incognita FX (x). Per verificare se un modello
statistico con assegnata legge F (x) è adatto a descrivere le proprietà probabilistiche del carattere X, si effettua un test per la seguente ipotesi nulla:
H0 :
FX (x) = F (x),
x IR
(10.1)
in alternativa alla ipotesi:

H1 :
FX (x) 6= F (x) per almeno un x IR.
(10.2)
In molte applicazioni, non si hanno informazioni sufficienti per individuare completamente la legge F (x) da assumere per il modello statistico, e occorre stimarne
simultaneamente uno o pi`
u parametri. In tal caso, il test consiste nel verificare
lipotesi nulla composta:
H0 :
FX (x) F0 = {F (x; ), }
(10.10 )
che la distribuzione teorica appartenga a una famiglia F0 di distribuzioni con legge

F , in cui è il parametro (o linsieme dei parametri) da stimare secondo i metodi
esposti nel Capitolo 8.
In ogni caso, per procedere nel test occorre disporre di un riassunto campionario
adeguato a rappresentare la distribuzione da testare. A tal fine, raggruppati eventualmente i dati (x1 , . . . , xn ) in m classi k = [ak , bk ) come è stato precisato nel
279
280
TEST DI IPOTESI NON PARAMETRICHE
6.2, si determina la frequenza cumulata relativa dei dati del campione, che in questo
contesto è anche chiamata funzione di distribuzione empirica e si esprime come:
Fn (x) =
m
1X
nk U (x ak ),
n k=1
x IR
(10.3)
dove nk è la frequenza assoluta dei dati appartenenti alla k-esima classe, e U (x ak )

è la funzione a scalino unitario (2.3). Se invece la numerosit`
a del campione non è
elevata, per cui non è necessario raggruppare in classi gli n dati xi , la funzione di
distribuzione empirica è la funzione a scalino costante 1/n nei punti xi :
Fn (x) =
n
1X
U (x xi ),
n i=1
x IR.
(10.4)
Questa funzione di distribuzione empirica si utilizza quindi per costruire le statistiche

su cui si effettuano i test che seguono.
10.1.1
Test di Kolmogorov-Smirnov
Questo test si applica quando la funzione F (x) è continua, e per verificare lipotesi
nulla (10.1) usa la statistica:
Dn =
sup
<x<
|Fn (x) F (x)|
(10.5)
che rappresenta la massima deviazione della distribuzione empirica dalla ipotetica

funzione di distribuzione F (x) che si vuole testare.
Per la sua stessa definizione, la statistica Dn può assumere solo valori dn [0, 1].
Inoltre, si può dimostrare che nellipotesi che H0 sia vera, essa è indipendente dalla
forma della funzione F (x). Questo risultato è assai rilevante, perche consente di
calcolare una volta per tutte Dn e di tabularne i valori al variare della numerosit`
a
n del campione. La tabella in Appendice riporta, al crescere di n, alcuni quantili di
questa distribuzione statistica.
Se H0 è vera, i valori empirici dn di Dn non possono scostarsi troppo da zero per
ogni x, per cui al test con livello di significatività si associa la regione critica:
C = (d1 , 1],
dove d1 è il quantile della distribuzione tale che IP(Dn d1 ) = 1 .
Esiste anche una notevole proprietà asintotica della distribuzione di KolmogorovSmirnov, in conseguenza della quale vale una regola chiamata test di Kolmogorov
sulla bontà di adattamento, che qui ci limitiamo ad enunciare come segue.
Test sulla bontà di adattamento
Se n è sufficientemente grande (n 20), lipotesi nulla (10.1) è da rigettare se il
valore empirico della statistica Dn soddisfa la diseguaglianza:
n dn ,
(10.6)
10.1 Test sulla legge di distribuzione
281
dove soddisfa lidentità

K( ) =
(1)j e2j
2 2
=1
j=
e vale = 1.3581 per = 0.05 e = 1.6276 per = 0.01. Altrimenti, si deduce

che al livello di significatività i dati del campione si adattano allipotesi fatta.
Nel caso in cui si debba verificare una ipotesi composta del tipo (10.1), il test usa
una differente statistica e precisamente:
n =
D
sup
<x<
|Fn (x) F (x; n )|
dove n è la stima di massima verosimiglianza (cfr. 8.1.2) del parametro della

distribuzione. La regione critica del test è però pi`
u difficile da determinare, anche
se si semplifica la ricerca sfruttando le proprietà asintotiche della nuova statistica
da utilizzare.
Esempio 10.1
Un dispositivo ha generato n = 20 numeri casuali xi che sono elencati nella seconda

colonna della Tabella 10.1. Si può respingere lipotesi che essi siano distribuiti con
legge normale avente media 2 e varianza 1 ?
Applichiamo il test di Kolmogorov-Smirnov calcolando anzitutto la funzione di distribuzione normale teorica, che per comodità conviene esprimere in funzione della
variabile standardizzata z = x 2 riportata nella terza colonna. Usando la formula
(2.32) e la Tabella di erf(z) si perviene ai valori di F (zi ) indicati nella quarta colonna.
La funzione di distribuzione empirica, espressa dalla (10.4), è
Fn (z) = 0.05
n
X
U (z zi ).
i=1
Nei punti di discontinuità zi essa vale: Fn+ (zi ) = 0.05 i, e il suo limite sinistro per
z zi vale invece Fn (zi ) = 0.05 (i 1). E perciò immediato ricavare le differenze
Fn+ (zi ) F (zi ) e Fn (zi ) F (zi ) che sono riportate nelle ultime due colonne.
Poichè la distanza tra Fn (z) e F (z) per ogni z 6= zi è minore di quelle ora determinate
nei punti di discontinuità di Fn (z), si ricava che il valore empirico della statistica
(10.5) vale dn = 0.1551, perche è il massimo valore assoluto delle differenze calcolate.
La Tabella della distribuzione Dn in Appendice mostra, alla riga n = 20, che il
quantile d1 vale 0.2315 per = 0.20 e aumenta al descescere di . Dunque, per
= 0.20 la regione critica del test è C = (0.2315, 1] ed ha ampiezza minore se si
assumono livelli di significatività minori. Poiche il dato empirico non appartiene
a questi intervalli si conclude, con un rischio di prima specie inferiore o uguale ad
= 0.20, che i valori generati hanno effettivamente una distribuzione normale con
media 2 e varianza 1.
282

TABELLA 10.1
Fn+(zi ) - F(zi ) Fn- (zi ) - F(zi )
xi
zi
F(zi )
1
2
3
4
5
0,36
0,82
0,86
1,04
1,06
-1,64
-1,18
-1,14
-0,96
-0,94
0,0505
0,1190
0,1271
0,1685
0,1736
-0,0005
-0,0190
0,0229
0,0315
0,0764
-0,0505
-0,0690
-0,0271
-0,0185
0,0264
6
7
8
9
10
1,12
1,14
1,44
1,47
1,78
-0,88
-0,86
-0,56
-0,53
-0,22
0,1894
0,1949
0,2877
0,2981
0,4129
0,1106
0,1551
0,1123
0,1519
0,0871
0,0606
0,1051
0,0623
0,1019
0,0371
11
12
13
14
15
1,80
1,90
2,29
2,67
2,73
-0,20
-0,10
0,29
0,67
0,73
0,4207
0,4602
0,6141
0,7486
0,7673
0,1293
0,1398
0,0359
-0,0486
-0,0173
0,0793
0,0898
-0,0141
-0,0986
-0,0673
16
17
18
19
20
2,75
3,11
3,18
3,24
3,56
0,75
1,11
1,18
1,24
1,56
0,7734
0,8665
0,8810
0,8925
0,9406
0,0266
-0,0165
0,0190
0,0575
0,0594
-0,0234
-0,0665
-0,0310
0,0075
0,0094
Si noti che si giunge a conclusioni affini applicando la regola asintotica di Kolmogorov

sopra enunciata, anche se ci troviamo ai limiti
di applicabilità della stessa (n = 20).
Infatti il valore empirico di Dn è tale che 20 dn = 0.6936, e soddisfa la condizione

(10.6) almeno per valori di minori o uguali a 0.05.
10.1.2
Test Chi-quadrato
Si tratta di un criterio di verifica di ipotesi del tipo (10.1) e (10.1) che è ampiamente
usato perche, a differenza del test di Kolmogorov-Smirnov, si applica a qualsiasi tipo
di distribuzione, anche non continua, e si avvale di una statistica che si può calcolare
pi`
u facilmente dellestremo superiore Dn definito nella (10.5).
Per applicare il test Chi-quadrato è necessario suddividere il supporto della distribuzione F (x) da testare in m intervalli o classi k = [ak , bk ), e per ogni classe valutare
le seguenti quantità:
1. la frequenza (assoluta) nk delle osservazioni desunte da un campione di numerosità n, che appartengono allintervallo [ak , bk );
2. la probabilità teorica p0k = IP(X k | H0 ) che il carattere X con distribuzione
(ipotetica) F (x) abbia valori in k , nellipotesi che H0 sia vera.
Se si dispone di una espressione analitica della funzione di distribuzione teorica,
ciascuna probabilità p0k non è altro che la differenza p0k = F (ak+1 )F (ak ). Tuttavia,
283
il test è applicabile anche quando il modello statistico che vogliamo verificare non è
riconducibile alle usuali leggi probabilistiche richiamate nel 7.1.
Lipotesi nulla è qui individuata completamente dallinsieme m-dimensionale p0 =
{p01 , . . . , p0m } delle probabilit`
a teoriche relative alle m classi, le quali sono soggette
P
allunica condizione: k p0k = 1 imposta dagli assiomi della Probabilità.
Con le quantità sopra definite, costruiamo la statistica
Tn =
m
X
(nk np0k )2
k=1
(10.7)
np0k
che svolgendo il quadrato a numeratore si può anche scrivere:

Tn =
m
X
n2k
np0k
k=1
m
X
nk + n
k=1
m
X
k=1
p0k =
m
X
n2k
np0k
k=1
n,
(10.70 )
perche n1 + . . . + nm = n (cfr. 6.2).

Un apposito Teorema mostra che se lipotesi nulla (10.1) è vera, quando n
la statistica Tn tende, indipendentemente da H0 , a una distribuzione Chi-quadrato
con (m-1) gradi di libertà.
Poiche nellipotesi H0 vera il valore atteso della frequenza dei dati nella classe k
è E(nk | H0 ) = np0k , la statistica (10.7) è una misura (in valore assoluto) della deviazione dei dati osservati dai rispettivi valori medi ipotetici, e il test consiste nella
verifica che il valore empirico tn di questa statistica sia sufficientemente piccolo. Per
ogni livello di significatività , esso si effettua individuando come regione critica
lintervallo
C = (1 , +)
(10.8)
dove 1 è il quantile di ordine (1) della distribuzione Chi-quadrato con (m1)
gradi di libertà, e si può cos enunciare.
Test Chi-quadrato per ipotesi H0 semplici
Siano nk le frequenze osservate in un campione di numerosit`
a n, tali da soddisfare
le condizioni n 50; nk 5, k = 1, . . . , m. Allora, al livello di significatività ,
se il valore empirico tn della statistica (10.7) soddisfa la condizione:
tn 1 ,
(10.9)
lipotesi nulla (10.1) è rifiutata; altrimenti, H0 è da ritenere consistente con i risultati

sperimentali.
E utile considerare alcuni svantaggi e i numerosi vantaggi che comporta lapplicazione di questo test.
A suo svantaggio, bisogna osservare che raggruppando i dati in classi e lavorando
su di queste si perdono informazioni rispetto a quelle che si potrebbero desumere
da una analisi pi`
u dettagliata del medesimo campione. Inoltre, per le condizioni
284
poste su n e nk occorre disporre di un numero sufficientemente elevato di osservazioni campionarie, le quali devono essare significative per tutte le classi prese in
considerazione.
Per contro, tra i suoi vantaggi merita sottolineare:
la sua universalità: come già accennato, si può applicare anche a distribuzioni
discrete, multidimensionali, o non espresse analiticamente da una assegnata
funzione F (x).
Il test si può effettuare anche per verificare ipotesi sulle proprietà di un generico
esperimento casuale, cui si può associare uno spazio campione costituito da
m eventi incompatibili A1 , . . . , Am . Allo scopo, basta valutare le frequenze
osservate nk e quelle teoriche p0k con cui gli m eventi Ak si realizzano.
Il test Chi-quadrato è consistente, in senso affine alla definizione già usata nel
6.1 per uno stimatore. Infatti, definito linsieme p 6= p0 delle probabilità
teoriche
p = {p1 , . . . , pm },
k = 1, . . . , m : pk = IP(X k |H1 )
sotto lipotesi alternativa che sia vera H1 , si dimostra che per ogni F H1 la
potenza Wn (p) del test tende ad 1 per n che tende ad infinito.
u generale in cui lipotesi nulla è composta come in (10.1), a dif Nel caso pi`
ferenza del test di Kolmogorov-Smirnov non è difficile definire una appropriata
regione critica. Vale infatti il seguente ulteriore risultato.
285
Test Chi-quadrato per ipotesi H0 composte

Se la distribuzione F (x, ) da testare dipende da un insieme di r parametri incogniti, allore lipotesi nulla (10.1) è caratterizzata da un insieme
p0 () = {p01 (), . . . , p0m ()}
che non è univocamente definito perche dipendente dagli r parametri incogniti. Se
però si sostituisce con una sua stima di massima verosimiglianza, si può definire
la statistica modificata:
m
2
X
[nk np0k ()]
=
Tn ()
(10.10)
np0k ()
k=1
che diventa una funzione dei soli dati campionari, e può essere determinata per ogni
realizzazione del campione X.
ricordiamo (cfr. 8.1.2) che se r = 1 e è il valor medio di F , la
Per determinare ,
sua stima di massima verosimiglianza coincide con la media campionaria n . Nel caso
generale di un insieme di r parametri incogniti da determinare sperimentalmente, si
dimostra che la stima di massima verosimiglianza di = {1 , . . . , r } è la soluzione
rispetto a (se esiste) del sistema:
m
X
nk
0 ()
p
k=1 k
j = 1, . . . , r :
p0k ()
= 0.
j
(10.11)
TABELLA 10.2
[a k , b k )
nk
p0k
n k2
200 p k0
[0,1)
52
0,3297
41,00698
[1,3)
81
0,3691
88,87835
[3,6)
46
0,2105
50,26128
21
0,0907
42,31091
[6, +
tende
Nel 1924 Fisher ha dimostrato che quando n la distribuzione di Tn ()
alla legge Chi-quadrato con (m 1 r) gradi di libertà, dove r è il numero dei
parametri incogniti di F (x, ).
Ne segue che la regione di rifiuto dellipotesi nulla composta (10.1) è ancora lintervallo (10.8) in cui però 1 è il quantile della Chi-quadrato con (m 1 r) gradi
di libertà, e la regola del test per ipotesi composte si modifica come segue.
. Siano nk le frequenze osservate in un campione di numerosit`
a n, tali da soddisfare
le condizioni n 50; nk 5 k = 1, . . . , m. Al livello di significatività , se il
286
valore empirico tn della statistica (10.10) soddisfa la condizione: tn 1 dove

1 è il quantile della distribuzione Chi-quadrato con m 1 r gradi di libertà,
allora lipotesi nulla (10.1) è rifiutata; altrimenti, H0 è da ritenere consistente con
i risultati sperimentali.
Esempio 10.2
NellEsempio 9.9 del Capitolo precedente è stato proposto un test sulle medie degli
intervalli di tempo tra due controlli di manutenzione di unapparecchiatura di bordo.
Vediamo ora se le n = 200 osservazioni campionarie già utilizzate sono compatibili
con lipotesi che il tempo X() intercorso tra due successivi controlli abbia una
distribuzione esponenziale con valor medio X = 1/ = 2.5 mesi. Lipotesi nulla è
H0 :
2
FX (x) = 1 exp x ,
5
x IR+
e per verificarla applicando il test Chi-quadrato occorre suddividere IR+ in m opportuni intervalli, ad esempio:
IR+ = [0, 1) [1, 3) [3, 6) [6, +).
Supponiamo che dalla serie ordinata dei 200 dati campionari si ricavi per ciascuno
dei 4 intervalli le frequenze assolute nk riportate nella terza colonna della Tabella
10.2.
Se H0 è vera, le probabilità teoriche per ciascuna classe, riportate nella quarta
colonna, valgono:
k = 1, . . . , 4 :
p0k
2
2
= F (ak+1 ) F (ak ) = exp ak exp ak+1
5
5
Calcoliamo ora il valore empirico della statistica Tn definita nella (10.7), sommando
le quantità n2k /200p0k riportate nellultima colonna, e sottraendo n = 200. Si ottiene:
tn = 4.45752.
Scelto un livello di significatività = 0.01, la Tabella dei quantili della distribuzione
Chi-quadrato mostra che la regione di rifiuto di H0 è lintervallo:
C = (6.25, +).
Poiche tn non vi appartiene, concludiamo che al livello = 0.01 o inferiori lipotesi
di una distribuzione esponenziale con media 2.5 mesi è consistente con le osservazioni
del campione.
Supponiamo invece di non assegnare il parametro della distribuzione teorica esponenziale con cui intendiamo esprimere le proprietà della variabile X(). In tal caso,
lipotesi nulla è composta:
H0 :
FX (x) F0 = {F (x, ) = 1 ex , IR+ }.
(10.12)
Per valutare si assume la sua stima di massima verosimiglianza, che coincide con
il reciproco della media campionaria già utilizzata nellEsempio 9.9:
1
1
=
=
.
n
3.4
287
Ne segue che se lipotesi nulla è vera, le probabilità teoriche da calcolare son ora:
= exp
p0k ()
ak
3.4
exp
ak+1
3.4
e per k = 1, . . . , 4 valgono:
= 0.2548,
p01 ()
= 0.3314,
p02 ()
= 0.2426,
p03 ()
= 0.1712.
p04 ()
(Si noti che la loro somma è sempre uguale ad 1, probabilità dellevento certo).
1
Fk
1 )
F(x, q = 3,4
1
l = 2,5
10
5 6
15
Figura 10.1
fornito dalla (10.10), risulta

Il valore empirico della statistica modificata Tn (),
pertanto: tn = 8.54, mentre la nuova regione di rifiuto di H0 si valuta determinando
il quantile 0.90 della distribuzione Chi-quadrato con 4 1 1 = 2 gradi di libertà.
Si ricava ora: C = (4.61, +), che contiene il valore empirico tn . Ne segue che al
livello di significatività = 0.10 lipotesi composta (10.11) non è consistente con
i dati campionari aventi media n = 3.4 mesi. Osserviamo tuttavia che la stessa
ipotesi è da accettare se diminuiamo il livello di significatività del test ad = 0.01,
perche allora la regione di rifiuto diventa C = (9.21, +) ed esclude il valore empirico
sopra determinato.
La Fig. 10.1 mostra il confronto tra le due distribuzioni teoriche (quella con media
X = 2.5 assegnata e quella con media stimata n = 3.4), e il grafico delle frequenze
cumulate relative Fk che si ricavano dalle 200 osservazioni campionarie, raggruppate
nelle 4 classi che abbiamo utilizzato. /
Esempio 10.3
Per controllare i tavoli da gioco di un Casino si registrano 10.000 giocate di una

stessa roulette, manovrata da croupier diversi e scelti a caso. Dallindagine risulta
che il rosso è uscito 4.828 volte, il nero 4.921 volte, e per 251 volte è uscito lo zero.
288
Con quale livello di significatività si può affermare che quella roulette non è truccata
?
Gli eventi da considerare sono tre:
A1 = {esce il rosso},
A2 = {esce il nero},
A3 = {esce lo zero},
e assumendo come ipotesi nulla che luscita di uno tra i 37 numeri, compreso lo zero,
sia equiprobabile (ovvero che la roulette non sia truccata), le probabilità teoriche
dei tre eventi sono:
18
18
1
p01 = IP(A1 ) = ,
p02 = IP(A2 ) = ,
p03 = IP(A3 ) = .
37
37
37
Le frequenze osservate dei tre eventi sono:
n1 = 4.828,
n2 = 4.921,
n3 = 251
e calcolato il valore empirico della statistica (10.7) con n = 10.000 si ottiene: tn =

2, 301.
Confrontiamo ora questo valore con i quantili della distribuzione Chi-quadrato con
3 1 = 2 gradi di libertà. Nel test interessa soprattutto limitare il pi`
u possibile
il rischio di errore di seconda specie, per evitare di concludere che la roulette non
è truccata mentre invece lo è. Sarà perciò conveniente usare il massimo rigore,
assumendo il maggior rischio possibile di prima specie. Dallesame della Tabella
Chi-quadrato risulta che 1 = 1, 39 per = 0, 5 e 1 = 2, 77 per = 0, 25.
Interpolando linearmente in questo intervallo, si trova che 1 = 2, 31 per
1 = 0, 5 + 0, 25
2, 31 1, 39
= 0, 6667.
2, 77 1, 39
Dunque, al livello di significatività = 10, 6667 = 0, 3333 la regione critica del test
è C = (2.31, +), e non contiene il valore empirico tn = 2, 301. Si può concludere
che la roulette non è truccata al livello di significatività 0, 333, ovvero con circa il
33% di probabilità di rigettare lipotesi nulla mentre essa è vera. /
Esempio 10.4: test Chi-quadrato per il modello di Poisson
Supponiamo di disporre di n osservazioni indipendenti di una variabile aleatoria

X() con valori interi xi = 0, 1, 2, . . ., e di voler verificare lipotesi H0 : FX (x)
() che X abbia una distribuzione di Poisson con parametro da determinare.
Suddividiamo linsieme {xi } = IN nelle m classi:
k = k 1 per k = 1, 2, . . . m 1
m = {m 1, m, m + 1, m = 2, . . .},
e specifichiamo lipotesi nulla determinando le probabilità p0k () che otteniamo applicando la (2.52). Esse sono:
p0k () = fX (k 1, ) =
p0m () =
X
k=m1
e k1
,
(k 1)!
f (k, ) = e
k = 1, 2, . . . , m 1
k
.
k!
k=m1
(10.13)
289
TABELLA 10.3
numero
contravvenzioni
xi
nk
p 0 (m n )
n k - 104p 0( m n )
0
1
2
3
4
5
6
7
8
9
10 o piu'
1
2
3
4
5
6
7
8
9
10
11
5
5
8
15
17
16
13
9
5
6
5
0,0083
0,0396
0,0949
0,1518
0,1821
0,1747
0,1397
0,0958
0,0574
0,0306
0,0251
4,1368
0,8816
-1,8696
-0,7872
-1,9384
-2,1688
-1,5288
-0,9632
-0,9696
2,8176
2,3896
Poiche il parametro della distribuzione di Poisson coincide con il suo valore atteso,
la sua stima di massima verosimiglianza è uguale alla media campionaria: = n ,
per cui nella statistica (10.10) si devono inserire le probabilità
=
p0k ()
en k1
n
,
(k 1)!
= en
p0m ()
k = 1, 2, . . . , m 1
m1
X
kn
=1
pk ().
k!
k=m1
k=1
(10.14)
Calcoliamo ora le frequenze assolute nk . Per k = 1, . . . , m 1, esse sono uguali

al numero di osservazioni con valore xi = k 1, mentre nm è data dal numero di
osservazioni da cui risulta un valore xi m 1.
Siamo ora in grado di calcolare il valore empirico tn della statistica (10.10) e di
confrontarlo con la tabella dei quantili della distribuzione Chi-quadrato con m 2
gradi di libertà, rigettando lipotesi nulla se e solo se tn 1 .
. Ad esempio, supponiamo di voler verificare se il numero di contravvenzioni giornaliere elevate da un vigile urbano si può ritenere distribuito casualmente con legge
di Poisson. Nellesaminare i verbali di n = 104 suoi giorni lavorativi, scegliamo
m = 11 e indichiamo con nk , k = 1, . . . , 10 il numero di giorni in cui ha elevato k 1
contravvenzioni, e con n11 il numero di giorni in cui ha elevato 10 o pi`
u contravvenzioni. Risultano le frequenze riportate nella terza colonna della Tabella 10.3, le quali
forniscono un valor medio
n =
11
1 X
(k 1)nk = 4, 798 .
104 k=1
(10.15)
Per tale valore di le probabilità teoriche, nellipotesi che H0 sia vera, sono quelle
indicate nella quarta colonna. Nellultima colonna sono infine mostrati i corrispon-
290
denti valori delle differenze nk np0k (4, 798). Da questi si ricava il valore empirico
tn = 26, 14655 della statistica (10.10).
Se si assume un ragionevole livello di significatività: = 0.10, il quantile 0.9 della
distribuzione Chi-quadrato con 9 gradi di libertà mostra che la regione di rifiuto
del test è C = (14.7, +) e contiene tn . Dunque, al livello = 0.10 si conclude
che lipotesi di una distribuzione di Poisson del numero di contravvenzioni non è
consistente con le risultanze dei verbali esaminati. /
Esempio 10.5: test Chi-quadrato per il modello normale
Supponiamo ora di avere n osservazioni di un carattere X che può assumere qualsiasi

valore reale, e di voler verificare lipotesi H0 che X() abbia distribuzione Normale
generale N (1 , 2 ) con media e varianza da determinare.
Per procedere in un test Chi-quadrato, occorre definire una partizione opportuna di
IR in m intervalli k = [ak , bk ), k = 1, . . . , m con
a1 = ,
a2 = b1
ak+1 = ak + h, h > 0;
k = 2, . . . , m 1 :
bm = +
scelti in modo che n1 = nm = 0. Lipotesi H0 è allora specificata dalle probabilità

p0k (1 , 2 )
1
=
22
Z bk
ak
"
(x 1 )2
exp
dx,
22
k = 1, . . . , m
(10.16)
che hanno derivate parziali

p0k
1
p0k
2
"
=
=
bk
(x 1 )2
1
(x 1 ) exp
dx
22
2 22 ak
#
"
Z bk
1
p0k ()
(x 1 )2
2
dx
.
(x
)
exp
2
22
22
222 22 ak
La stima di massima verosimiglianza del parametro bidimensionale = {1 , 2 }

è ora da ricercarsi come soluzione del sistema (10.12) che qui si scrive:
"
m
X
bk
nk
1
(x 1 )2
(x
)
exp
dx = 0
1
22
p0 () 3/2 2 ak
k=1 k
2
(
"
#
)
Z bk
m
X
nk
1
(x 1 )2
2
0

(x 1 ) exp
dx 2 pk () = 0.
22
p0 ()
22 ak
k=1 k
Tenuto conto che
P
k
nk = n e dellespressione (10.16) di p0k , esso fornisce:

Z bk
1 =
(x 1 )2
x exp
dx
22
m
ak
1X
nk Z
bk
n k=1
ak
"
"
(x 1 )2
exp
dx
22

Z bk
2 =
m
1X
nk
n k=1
ak
291
"
(x 1 )2
dx
(x 1 ) exp
22
2
Z bk
ak
"
(x 1 )2
exp
dx
22
(10.17)
Se lampiezza h degli intervalli k in cui fk 6= 0 è ragionevolmente piccola, gli

integrali nella (10.17) si possono approssimare con i prodotti di h per i rispettivi
integrandi calcolati nei valori centrali xk di ciascun intervallo, avendo lavvertenza
di definire i valori estremi con x1 = b1 e xm = am . In questo modo si ricavano
facilmente le seguenti stime approssimate di massima verosimiglianza:
m
1X
1 '
nk xk ,
n k=1
m
1X
2 '
nk (xk 1 )2
n k=1
(10.18)
che si mostrano valide anche se n1 e nm non sono esattamente nulle, ma soltanto

molto minori della numerosità n del campione da cui si traggono le osservazioni.
TABELLA 10.4
1
2
3
4
5
6
7
8
9
10
11
12
13
Dk
(- , -0.5)
[-0.5, 0.5)
[0.5, 1.5)
[1.5, 2.5)
[2.5, 3.5)
[3.5, 4.5)
[4.5, 5.5)
[5.5, 6.5)
[6.5, 7.5)
[7.5, 8.5)
[8.5, 9.5)
[9.5, 10.5)
[10.5, + )
xk
nk
zk
erf( z k )
p0
n k - n p 0k
-0,5
0
1
2
3
4
5
6
7
8
9
10
10,5
0
5
5
8
15
17
16
13
9
5
6
5
0
-2,0955
-1,7000
-1,3000
-0.9090
-0,5134
-0,1178
0,2776
0,6732
1,0680
1,4640
1,8590
2,2550
-0,5000
-0,4820
-0,4554
-0,4032
-0,3186
-0,1950
-0,0470
0,1103
0,2486
0,3577
0,4280
0,4686
0,4878
0,0180
0,0266
0,0522
0,0846
0,1236
0,1480
0,1573
0,1383
0,1091
0,0703
0,0406
0,0192
0,0122
1,8700
2,2335
0,4288
0,7984
2,1455
1,6080
0,3591
1,3832
2,3464
2,3112
1,7776
3,0033
1,2688
Valutando quindi il parametro incognito bidimensionale con le stime (10.18), è possibile determinare il valore empirico tn della statistica Tn definita con la (10.10).
Se H0 è vera ed n è sufficientemente grande, la distribuzione di Tn ha legge Chiquadrato con m 3 gradi di libertà. Lipotesi di una legge normale per il carattere
X è allora da accettare, al livello di significatività , se tn è minore del quantile
1 della distribuzione Chi-quadrato con m 3 gradi di libertà.
. Per sviluppare un caso numerico concreto, supponiamo ora che le 104 osservazioni
con frequenze nk riportate nella Tabella 10.3 dellEsempio precedente siano state
estratte da un carattere X definito con continuit`
a su IR, e che con esse si voglia
verificare se X è normalmente distribuito.
292
E opportuno definire 11 intervalli k , k = 2, . . . , 12 di ampiezza h = 1 con valori

centrali xk = 0, 1, . . . , 10, pi`
u altri due che si estendono a , per un totale di
m = 13 intervalli come mostrato nella Tabella 10.4. Nel caso presente, si deve
intendere che le frequenze nk elencate nella quarta colonna sono relative al numero
di osservazioni che cadono nellintervallo k .
Le stime (10.18) dei due parametri della distribuzione non sono altro che la media
già calcolata nella (10.15) e la varianza dei dati osservati, che vale
12
1 X
2 =
nk [k 2 1 ]2 = 6, 39192.
104 k=2
Usando queste stime, si calcolano le probabilità teoriche che per la (10.16) valgono:
p0k (1 , 2 ) = erf
b 1
k
q
erf
a 1
k
q
e si deducono ricavando con la Tabella di erf(z) i due valori richiesti

q della funzione
degli errori. Nella Tabella 10.4 sono riportate: zk = (ak 1 )/ 2 , erf(zk ), le
usate per ottenere il valore empirico della
probabilità p0k e le differenze nk np0k ()
statistica (10.10). Questo valore empirico vale tn = 11, 72.
Il quantile 0.75 della distribuzione Chi-quadrato con m 3 = 10 gradi di libertà
vale 12.5, per cui al livello = 1 0.75 = 0.25 la regione di rifiuto del test è
C = (12.5, +) che non contiene tn . Se ne conclude che assumendo un rischio di
prima specie del 25%, lipotesi che X abbia una distribuzione normale con i parametri
sopra stimati è consistente con le frequenze osservate. /
10.2
Test di omogeneit`
a
Siano X e Y due campioni estratti dalla medesima popolazione in modo indipendente, per esempio in tempi diversi o in condizioni generali diverse. Uno dei problemi
pi`
u importanti nella Statistica applicata consiste nel verificare se X e Y sono campioni omogenei, nel senso che si possono considerare estratti da una popolazione
con proprietà identiche oppure se, al contrario, la sua distribuzione è variata da
campione a campione. Problemi di questa natura si incontrano, ad esempio, nel
controllo di qualità della produzione, in medicina, nella pianificazione dellassetto
del territorio e nelle Scienze economiche.
Nella sua formulazione generale, si indicano con FX (t) e FY (t) le funzioni di distribuzione (incognite) della popolazione da cui sono stati estratti i due campioni, e
si effettua un test assumendo le ipotesi:
H0 :
H1 :
FX (t) = FY (t)
FX (t) 6= FY (t)
t IR
per almeno un t IR.
(10.19)
10.2 Test di omogeneit`

a
293
In questo paragrafo presenteremo dapprima alcuni test per la verifica di queste

ipotesi, concludendo con un test per il caso pi`
u generale in cui il numero dei campioni
sia maggiore di due.
10.2.1
Test dei segni
Questo test è di facile esecuzione, ma si applica solo quando i due campioni X =

(X1 , . . . , Xn ) e Y = (Y1 , . . . , Yn ) hanno la stessa numerosit`
a.
Formate le n coppie (Xi , Yi ), indichiamo con n+ la frequenza assoluta delle coppie in
cui la differenza Xi Yi ha segno positivo; con n quella delle coppie in cui Xi Yi
ha segno negativo; e con n0 la frequenza delle coppie in cui Xi = Yi . Consideriamo
quindi la statistica
Sn = n+ n
(10.20)
effettuata sulle (n n0 ) coppie in cui Xi 6= Yi . Se H0 è vera, le distribuzioni
campionarie di n+ ed n sono uguali, e per (n n0 ) sufficientemente grande (per es.
circa maggiore di 10) si approssimano con leggi normali aventi media (n n0 )/2 e
varianza (nn0 )/4, che si ricavano applicando la (7.21). Di conseguenza, la statistica
Sn ha anchessa distribuzione normale, con media nulla e varianza n2 = (n n0 )/2
che è data dalla somma delle varianze di n+ , n (si applichi la (3.8) al caso di una
differenza di variabili aleatorie).
Fissato un livello di significatività , potremo allora procedere a un test bidirezionale
su Sn per verificare, con la procedura già esposta nel 8.2, se il suo valore empirico
sn è sufficientemente piccolo. Questo test dei segni si effettua definendo la regione
critica
C = (, n z1 ) (n z1 , +)
dove z1 è il coefficiente fiduciario della Normale standardizzata per cui erf(z1 ) =
(1 )/2. Al livello di significatività , dovremo dunque accettare H0 , concludendo
che i campioni X e Y sono omogenei (vale a dire: la distribuzione della popolazione
non è variata), se il valore empirico della statistica Sn soddisfa la condizione:
r
|sn | <
n n0
z1 .
2
(10.21)
E bene osservare che per la verifica dellipotesi nulla questo test si avvale di una
condizione piuttosto debole, ossia che la distribuzione di Sn abbia mediana nulla.
Questa è certamente una condizione necessaria perche H0 sia vera, ma non certo
sufficiente per affermare che i due campioni provengono da popolazioni ugualmente
distribuite per ogni z IR. In questo senso, il test non sfrutta in modo efficiente
le informazioni fornite dal campione, e deve essere utilizzato per la sua praticità
soltanto nella fase preliminare di uno studio statistico che potrà avere bisogno di
approfondimenti.
Esempio 10.6
294
Si effettuano in tempi diversi n = 15 osservazioni del medesimo carattere di una

popolazione, ricavandone i due seguenti campioni statisticamente indipendenti:
X = (0.3928, 0.9974, 0.1714, 0.9272, 2.54, 0.2092, 1.106,
1.713, 1.074, 0.2084, 0.3239, 2.08, 1.148, 0.1413, 0.8863)
Y = (0.8939, 2.62, 0.573, 0.5187, 0.5972, 0.5954, 0.0836,
(10.22)
1.459, 1.074, 1.921, 0.273, 1.952, 1.242, 0.4507, 0.2178).
Dal confronto delle osservazioni risultanti dai due campioni si può affermare che essi
sono stati estratti da popolazioni con la medesima distribuzione ?
Eseguiamo un test dei segni calcolando le differenze Xi Yi . Esse valgono:
(1.2867, 1.6226, 0.7444, 1.4459, 1.9428, 0.8046, 1.1896,
0.254, 0, 1.7126, 0.0509, 0.128, 0.094, 0.592, 0.6685)
per cui si ricava:
n+ = 8,
n = 6,
n0 = 1,
sn = 2.
0.4
f Y (t)
0.2
f (t)
X
0
-5
-4
-3
-2
-1
Figura 10.2 - Confronto tra le densit`

a di probabilit`
a teoriche di
X e Y.
Fissato un livello di significatività = 0.05, il coefficiente fiduciario che si ricava

dalla Tabella di erf(z) vale z1 = 1.96, e lipotesi nulla che FX (t) = FY (t) è da
accettare se sn verifica la condizione
r
|sn | <
15 1
1.96 = 5.1856.
2
Poichè il valore empirico calcolato è sn = 2 si deve concludere, accettando un errore

di prima specie del 5%, che la popolazione da cui sono stati estratti i due campioni
ha la medesima distribuzione.
In realtà, per definire i dati di questo Esempio i due campioni sono stati generati
da un computer nel modo seguente: X è un campione casuale estratto da una

a
295
popolazione normale con media 0.8 e varianza 1, mentre Y è stato estratto da una
popolazione con legge parabolica (cfr. 2.3.11) nellintervallo [1, 3]. Dal confronto
tra le due densità teoriche fX (t) e fY (t), mostrato in Fig. 10.2, risulta evidente
la diversità, soprattutto qualitativa, tra le due distribuzioni. Si può però anche
sostenere che esse grossolanamente si somigliano, nel senso che concentrano gran
parte delle masse di probabilità nello stesso intervallo dellasse reale: e questo è, in
definitiva, il responso che è in grado di fornire il test che abbiamo appena effettuato.
10.2.2
Test dei ranghi
Esiste una classe speciale di test, che sono stati proposti per effettuare la statistica su
uno o pi`
u caratteri qualitativi della popolazione, che sono definibili in termini di una
qualche relazione tra le osservazioni effettuate anziche dal loro valore numerico. Essi
prendono il nome di test dei ranghi, perche le osservazioni sono ordinate secondo un
determinato criterio di preferenza, e la posizione che ciascun dato assume in questa
sequenza è chiamata rango della osservazione.
Un test sui ranghi può avere per oggetto, come caso particolare, anche campioni
di caratteri quantitativi, e quello elaborato da Wilcoxon per verificare lipotesi di
omogeneità (10.19) pur essendo semplice come quello dei segni, ha il vantaggio,
rispetto a questultimo, di essere applicabile a campioni con differente numerosit`
a.
Siano X = (X1 , . . . , Xn ) e Y = (Y1 , . . . , Ym ) due campioni indipendenti di numerosità n ed m, estratti con le solite modalità da una popolazione. Si procede
ordinando in ununica sequenza crescente gli n + m dati provenienti dai due campioni, e si associa a ciascun dato il suo rango, definito dal numero dordine che esso
occupa nella sequenza cos ordinata. Se alcuni dati si ripetono due o pi`
u volte, il loro
rango è la media delle posizioni da essi occupate nella sequenza ordinata. Chiamate
rispettivamente con SX ed SY le somme dei ranghi degli elementi Xi , Yj dei due
campioni, si considera quindi la statistica
U = min{UX , UY }
(10.23)
in cui
n(n + 1)
m(m + 1)
SX ,
UY = nm +
SY .
2
2
E stato dimostrato da Wilcoxon che se lipotesi nulla (10.19) è vera, per n, m
+ la statistica (10.23) tende alla distribuzione normale con media U = nm/2 e
varianza U2 = nm(n + m + 1)/12. Questa sua proprietà asintotica può già essere
utilizzata se n, m 4 con n + m 20, e sotto queste condizioni fornisce una buona
approssimazione della regione critica per un test bidirezionale sulla corrispondente
statistica normalizzata:
UX = nm +
U nm/2
nm(n + m + 1)/12
Zn,m = p
(10.230 )
che sotto lipotesi H0 vera deve avere media pressoche nulla. Infatti, se z1 è il
coefficiente fiduciario al livello della distribuzione Normale standard, la regione
296
critica del test è C = (, z1 ) (z1 , +) e di conseguenza lipotesi nulla è da

accettare se il valore empirico zn,m della statistica (10.23) soddisfa la condizione:
|zn,m | < z1 .
Esempio 10.7
Per illustrare una applicazione del test dei ranghi utilizziamo ancora le osservazioni
ricavate dai campioni (10.22) dellEsempio precedente, ma per sfruttare larbitrarietà
sulla scelta del numero di osservazioni che possono essere fornite dai due campioni,
supponiamo ora che X contenga questi 5 ulteriori dati:
0.92, 1.2, 0.566, 0.422, 0.962
in modo che la numerosità del campione X diventa n = 20, e quella di Y rimane
m = 15.
Disponiamo i 35 dati campionari in una sequenza ordinata crescente, che è riprodotta
nella Tabella 10.5 insieme con la indicazione del campione da cui i dati provengono
e del rango da attribuire a ciascun dato. La somma dei ranghi delle osservazioni
fornite dai due campioni è rispettivamente SX = 361.5 e SY = 268.5 (si noti che
deve risultare: SX + SY = nm), da cui si ottiene: UX = 148.5 e UY = 151.5.
TABELLA 10.5
dato
campione rango
dato
campione rango
dato
campione rango
-0,5730
0,4507
13
1,1060
25
-0,5187
0,5660
14
1,1480
26
-0,3928
0,5954
15
1,2000
27
-0,2092
0,5972
16
1,2420
28
-0,1413
0,8863
17
1,4590
29
-0,0836
0,8939
18
1,7130
30
0,1714
0,9200
19
1,9210
31
0,2084
0,9272
20
1,9520
32
0,2178
0,9620
21
2,0800
33
0,2730
10
0,9974
22
2,5400
34
0,3239
11
1,0740
23,5
2,6200
35
0,4220
12
1,0740
23,5
Se H0 è vera, la distribuzione della statistica U definita con la (10.23) è approssimabile con una Normale con media U = nm/2 = 150 e varianza U2 = 900; il suo valore
empirico risulta: min{UX , UY } = 148.5, e ad esso corrisponde un valore empirico
zn,m =
148.5 150
= 0.05
30
della variabile standardizzata Zn,m definita nella (10.23).

a
297
Al livello di significatività = 0.05, il valore assoluto di zn,m è minore del coefficiente fiduciario z1 z0.95 = 1.645 e di conseguenza, tenuto anche conto che la
numerosità dei due campioni è maggiore di 4 con n + m > 20, il test dei ranghi si
conclude nellaccettare lipotesi nulla H0 : FX (t) = FY (t).
10.2.3
Test di Smirnov
E una estensione del test di Kolmogorov-Smirnov, esposto nel 10.1.1, per la verifica di ipotesi di omogeneità del tipo (10.19) riguardanti una coppia di funzioni di
distribuzione continue FX (t) e FY (t).
Questo test si basa sulla statistica
Dn,m =
sup
<t<+
|Fn,X (t) Fm,Y (t)|
(10.24)
dove Fn,X (t) e Fm,Y (t) sono le funzioni di distribuzione empiriche (10.4) costruite
con due campioni X, Y rispettivamente di numerosit`
a n ed m.
1.00
n,X
(t)
0.75
m,Y
(t)
0.50
n,X
0.25
(t) F
m,Y
(t)
0
-1
-0.25
Figura 10.3 - Distribuzioni empiriche di
X, Y e loro differenza.
Al crescere di n, m queste due distribuzioni empiriche sono stime ottime delle corrispondenti funzioni di distribuzione teoriche FX (t), FY (t) delle popolazioni da cui
sono estratti i due campioni. Se lipotesi nulla (10.19) è vera, ne segue che per n ed
m sono sufficientemente grandi la statistica Dn,m non si scosta praticamente da zero,
ed H0 è da accettare se il valore empirico dn,m della statistica (10.24) non supera
un certo valore limite, prescritto dal livello di significatività scelto.
Questo valore limite è fornito da una proprietà asintotica di Dn,m analoga a quella
della statistica (10.5), e dimostrata da un Teorema dovuto a Smirnov. Da esso
si deduce la regola seguente: indipendentemente dalla forma delle funzioni di distribuzione (continue) da confrontare, lipotesi H0 di omogeneità è da accettare al
298
livello di significatività se, per n, m sufficientemente grandi è verificata la condizione:

r
n+m
dn,m <

(10.25)
nm
dove è il coefficiente fiduciario già utilizzato per il test di Kolmogorov del 10.1.1.
Esempio 10.8
Eseguiamo il test di omogeneità di Smirnov sui due campioni X e Y già utilizzati

nellEsempio precedente 10.7. Le distribuzioni empiriche dei due campioni sono le
funzioni definite nella (10.4) con t al posto di x: sono funzioni a scalino costante
(rispettivamente uguale a 1/20 e 1/15) nei punti xi ed yi che si leggono nelle prime
colonne della Tabella 10.5.
Il loro grafico, insieme con quello delle differenze Fn,X (t) Fm,Y (t), è riportato nella
Fig. 10.3. Il massimo di queste differenze vale dn,m = 0.1833, e poiche al livello di
significatività = 0.05 si ha = 1.3581 (cfr. 10.1.1), risulta:
r
dn,m = 0.1833 <
35
1.3581 = 0.46388.
300
La condizione (10.25) è dunque soddisfatta, per cui anche con questo test lipotesi
nulla sulla omogeneità dei due campioni è da accettare al livello prescritto.
10.2.4
Test Chi-quadrato di omogeneit`

a per pi`
u campioni
Questo metodo è assai generale, perche si può usare per verificare lomogeneità di un
numero finito qualsiasi M di campioni, estratti da una popolazione il cui carattere
X può assumere valori reali sia discreti che continui.
Se X() è una variabile aleatoria discreta, indichiamo con xk , k = 1, . . . , m i suoi m
valori che possono essere registrati nelle osservazioni campionarie; se X() è continua
e il numero delle osservazioni è molto elevato, suddividiamo come di consueto in m
classi k linsieme IR delle sue modalità, e chiamiamo con k-esima realizzazione
di X() la generica osservazione campionaria che cade nella classe k .
Supponiamo ora di avere a disposizione un numero M di campioni Xj , j = 1, . . . , M
estratti con procedure statisticamente indipendenti dalla medesima popolazione, ciascuno con numerosità differente, che indichiamo con nj . Analizzando questi campioni, determiniamo la frequenza assoluta nkj della k-esima realizzazione nel j-esimo
campione, in modo che, sommando su tutte le osservazioni di ogni singolo campione,
si avrà tra laltro:
m
X
j = 1, . . . , N :
nkj = nj = numerosit`
a del campione Xj ,
k=1
e sommando anche rispetto ai vari campioni risulta:

M X
m
X
j=1 k=1
nkj =
M
X
j=1
nj = N = numero totale delle osservazioni.

a
299
Poichè si vuole verificare lipotesi H0 che tutte le osservazioni siano state tratte dalla
medesima popolazione, questa ipotesi si precisa ora imponendo che
j = 1, . . . , M :
1
(n1j , . . . , nmj ) = (p01 , . . . , p0m ) = p0 ,
nj
ossia che le frequenze relative di ogni k-esima realizzazione siano uguali in tutti i
campioni, e definite da un valore comune (ma per ora incognito) p0k il quale forma
un insieme di probabilità p0 tale che p01 + . . . + p0m = 1.
Seguendo il metodo Chi-quadrato, come misura delle deviazioni esistenti tra le osservazioni campionarie e i loro valori teorici assumiamo la seguente statistica:
TN (p0 ) =
M X
m
X
(nkj nj p0k )2
nj p0k
j=1 k=1
(10.26)
Se non si assume nessun modello statistico per la popolazione, le probabilità teoriche

da cui questa statistica dipende devono essere stimate con il metodo di massima
verosimiglianza, sulla base di tutte le informazioni fornite dai campioni in nostro
possesso. Questa stima fornisce il seguente risultato:
k = 1, . . . , m :
p0k =
M
nk
1 X
=
nkj
N
N j=1
dove nk è il numero totale delle osservazioni del dato xk che risultano negli M
campioni. Usando queste stime si può ora calcolare la statistica
TN (
p0 ) = N
M X
m
X
(nkj nj nk /N )2
j=1 k=1
nj nk
=N
M X
m n2
X
kj
n n
j=1 k=1 j k
(10.260 )
e verificare se il suo valore empirico tN cade nella regione critica del test.
Questa regione critica è ancora definita dalla (10.8), ma con 1 che ora è il quantile
di ordine (1) della distribuzione Chi-quadrato con (m1)(M 1) gradi di libertà,
e la regola di accettazione dellipotesi nulla sulla omogeneità dei campioni consiste
nel verificare che la statistica (10.25) soddisfi la condizione:
tN < 1
con (m 1)(M 1) gradi di libertà.
(10.27)
Ricordiamo che la statistica (10.26) è utilizzabile se non è stato scelto un modello

statistico teorico per la popolazione da studiare. Se invece questo modello si presuppone noto, allora lipotesi nulla sarà specificata da probabilità del tipo p0k (), dove
è un insieme di r parametri incogniti del modello adottato. Per ricavare le stime
di questi parametri incogniti, occorrerà considerare linsieme di tutti i dati come un
unico campione con frequenze assolute nk , k = 1, . . . , m e su di esso determinare
Una volta note, queste stime consentono di
la stima di massima verosimiglianza .
300
che a loro volta, sostituite nella (10.26), forniscono

determinare le probabilità p0k ()
la statistica:
M X
m
2
X
[nkj nj p0k ()]
0
TN [p ()] =
.
(10.28)
nj p0 ()
j=1 k=1
In tal caso, per accettare lipotesi nulla è richiesto che il valore empirico della (10.27)
sia minore del quantile della distribuzione Chi-quadrato con (m 1)M r gradi di
libertà, dove r è il numero dei parametri incogniti nella distribuzione teorica.
Un caso speciale di notevole rilevanza per le applicazioni sia ha quando m = 2,
ed è relativo a problemi in cui il carattere della popolazione ha due sole modalità
(vero/falso, in/out,...) rappresentabili, in generale, da due eventi A e B = \A
incompatibili ed esaustivi dello spazio campione . Lipotesi nulla sulla omogeneità
di M campioni estratti da questa popolazione consiste in tal caso nella affermazione
(da verificare) che levento A abbia la medesima probabilità di realizzarsi in tutti
gli M campioni. Indichiamo per semplicità di scrittura con pA questa probabilità
teorica. Se H0 è vera, la sua stima si effettua calcolando la frequenza relativa
dellevento A nellinsieme degli N dati forniti da tutti i campioni, e vale
M
1 X
nA
pA =
nAj =
N j=1
N
dove abbiamo indicato con nAj il numero di realizzazioni da A nel j-esimo campione,
e con nA il numero totale di realizzazioni da A. La probabilità teorica dellevento B
sarà di conseguenza
nA
pB = 1 pA = 1
,
N
mentre, per gli assiomi della probabilità, il numero nBj di realizzazioni di B nei
singoli campioni sarà tale che
nAj + nBj = nj ,
j = 1, . . . , M ;
nA + nB =
M
X
j=1
nAj +
M
X
j=1
nBj =
M
X
nj = N.
j=1
Inserendo allora p01 = pA e p02 = pB nella (10.26), dopo alcuni calcoli si ricava una
espressione assai comoda della statistica da usare in questo speciale problema. Essa
si può scrivere:
TN (nA ) =
M n2
N
N X
Aj
nA
N nA nA j=1 nj
(10.29)
e per calcolare il suo valore empirico occorre semplicemente inserirvi il numero delle
realizzioni di A rilevate nei singoli campioni. Per la condizione (10.27), lipotesi sulla
omogeneità dei campioni sarà da accettare se questo valore empirico è minore del
quantile della distribuzione Chi-quadrato con M 1 gradi di libertà.
Esempio 10.9

a
301
Si vuole studiare lomogeneità di M = 4 campioni estratti in tempi diversi da una

popolazione il cui carattere ha m = 21 modalità possibili, che si conviene di indicare
progressivamente con gli interi k = 1, . . . , 21.
Numeriamo i campioni j = 1, . . . , 4 in ordine cronologico, e riportiamo le frequenze
assolute delle realizzazioni rilevate nei vari campioni come indicato nella Tabella
10.6. Se calcoliamo le loro somme in orizzontale rispetto ai quattro campioni,
otteniamo le frequenze totali nk della realizzazione k, indicate nella quinta colonna
della stessa Tabella; e se le sommiamo in verticale rispetto allindice k, ricaviamo
le numerosità nj dei singoli campioni che sono riportate nellultima riga. Ne risulta
un numero totale di N = 506 osservazioni.
Se è vera lipotesi H0 che i quattro campioni sono stati estratti dalla stessa popolazione, le probabilità teoriche di ciascuna realizzazione sono date da p0k = nk /506,
e sono riportate nellultima colonna.
Per verificare questa ipotesi, calcoliamo il valore empirico della statistica (10.26) con
i dati della Tabella, e confrontiamolo con i quantili della distribuzione Chi-quadrato
con 20 3 = 60 gradi di libertà. Si ricava: t506 = 160.97, che è maggiore dei quantili
della distribuzione Chi-quadrato con = 60 riportati in Appendice. Dunque non
è soddisfatta la condizione (10.27), e concludiamo che i quattro campioni non sono
omogenei, ossia che la popolazione da cui sono stati estratti ha modificato la sua
distribuzione probabilistica.
In effetti, si può notare dalla Tabella 10.6 che in ciascun campione le frequenze delle
osservazioni non variano con la stessa legge al crescere di k, e ciò vale soprattutto
per il campione j = 4 che mostra frequenze pi`
u elevate per grandi valori di k.
Per convalidare questa osservazione, rifacciamo il test escludendo questultimo campione, vale a dire analizzando le 362 osservazioni risultanti dai primi tre. Il valore
empirico della statistica (10.26) risulta allora: t362 = 65.67 ed è minore del quantile
0.995 = 66.8 della distribuzione Chi-quadrato con 2 20 = 40 gradi di libertà. Ciò
significa che, almeno al livello di significatività = 0.005, è da accettare lipotesi
nulla di omogeneità dei primi tre campioni, e con lo stesso rischio di prima specie si
deve concludere che la popolazione ha modificato la sua distribuzione teorica dopo
lestrazione del terzo campione e prima dellestrazione del quarto. /
Esempio 10.10
Per effettuare un controllo di qualità nella produzione di un determinato oggetto,

si esaminano quattro campioni indipendenti, estratti a caso dalla popolazione degli
oggetti prodotti quotidianamente. Le numerosit`
a dei campioni sono:
n1 = 119,
n2 = 113,
n3 = 93,
n4 = 147.
(10.300 )
Indicato con A levento: produzione di un esemplare difettoso, si rilevano le frequenze assolute nAj , j = 1, . . . , 4 degli elementi difettosi in ciascun campione. Esse
sono:
nA1 = 7,
nA2 = 13,
nA3 = 5,
nA4 = 15.
(10.30)
Si vuole effettuare un test di omogeneità sui campioni, per verificare se è variata in
modo apprezzabile la probabilità di produzione di oggetti difettosi.
302
TABELLA 10.6
k
n k1
n k2
n k3
n k4
nk
p0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
3
11
7
9
14
9
0
6
5
2
0
4
3
1
3
2
0
1
0
0
0
2
7
15
11
9
17
5
16
8
4
2
6
5
4
3
0
6
0
2
1
1
9
15
14
21
15
21
9
0
10
8
7
5
6
5
4
0
2
0
3
1
2
4
8
12
5
0
9
6
0
14
8
0
12
15
14
10
7
6
4
5
3
2
18
41
48
46
38
56
20
22
37
22
9
27
29
24
20
9
14
5
10
5
6
0,0356
0,0810
0,0949
0,0909
0,0751
0,1107
0,0395
0,0435
0,0731
0,0435
0,0178
0,0534
0,0573
0,0474
0,0395
0,0178
0,0277
0,0099
0,0198
0,0099
0,0119
n j=
80
125
157
144
N = 506
1,0000
Il numero totale degli oggetti difettosi osservati è nA = 40, e il numero totale degli
oggetti osservati è N = 492. Assumiamo lipotesi nulla H0 che la frequenza relativa
degli elementi difettosi sia inalterata: essa è descritta da una probabilità teorica
pA = 40/492 = 0.0813, e da una probabilità di elementi non difettosi che vale
1 pA = 0.9187.
Per procedere al test Chi-quadrato di omogeneità è sufficiente usare le (??), che
introdotte nella statistica (10.29) forniscono il valore empirico: t492 = 3.077. Al
livello di significatività = 0.10, il quantile 0.9 della distribuzione Chi-quadrato
con 1 3 = 3 gradi di libertà vale 6.25, ed è maggiore di t492 . Dunque, con un rischio
di prima specie del 10% si deve accettare H0 , concludendo che la percentuale di
prodotti difettosi è rimasta invariata.
10.3 Test di indipendenza
10.3
303
Test di indipendenza
Nelle applicazioni si pone di frequente il problema di verificare se due caratteri X, Y

di una popolazione sono statisticamente indipendenti. Supponiamo che i due caratteri siano stati osservati in modo da disporre di un campione casuale bidimensionale
(X1 , Y1 ), . . . , (Xn , Yn ) di numerosit`
a n. Ricordando la definizione di variabili causali
indipendenti data nel 3.1.3, un test di indipendenza deve consistere nella verifica
della ipotesi nulla:
H0 :
FXY (x, y) = FX (x)FY (y)
(10.30)
dove FX,Y è la funzione di distribuzione congiunta della dei caratteri aleatori (X,Y),
ed FX (x), FY (y) sono le rispettive distribuzioni marginali. Il test pi`
u usato per
compiere tale verifica si basa sul metodo Chi-quadrato già applicato nei paragrafi
precedenti, e si sviluppa come segue.
10.3.1
Test Chi-quadrato di indipendenza
Il metodo si applica a generici modelli discreti con un numero finito di realizzazioni.

Ciò significa che i caratteri X e Y possono avere modalità rappresentabili con:
variabili casuali discrete, che assumono rispettivamente valori (X1 , X2 , . . . , XmX )
e (Y1 , Y2 , . . . , YmY ), oppure:
variabili aleatorie continue, in cui il supporto di X (anche lintero asse reale)
(X)
sia preventivamente suddiviso in mX intervalli o classi h , h = 1, . . . , mX e
(Y )
quello di Y in mY intervalli k , k = 1, . . . , mY .
Indichiamo con nhk il numero delle coppie osservate in cui
(X)
(Y )
(Xi , Yi ) : Xi h , Yi k
(X)
aventi cioè dati che sono contenuti nel rettangolo h

assolute sono tali che:
m
X
X
nhk = nk ;
h=1
mY
X
nhk = nh ;
k=1
(Y )
k . Queste frequenze
m
mY
X X
X
nhk = n
h=1 k=1
dove le nh (e rispettivamente le nk ) sono frequenze assolute marginali, uguali al

(X)
numero delle coppie aventi un dato Xi che appartiene allintervallo h (oppure un
(Y )
dato Yi che appartiene allintervallo k ). Se lipotesi nulla (10.30) è vera, esistono
certamente mX + mY costanti p0h , p0k [0, 1] tali che
(X)
(Y )
p0hk = IP[(X h ) (Y k )] = p0h p0k ,
h = 1, . . . , mX , k = 1, . . . , mY ,
304
e la loro stima di massima verosimiglianza, per ogni indice h, k è:

nh
nk
p0h =
,
p0k =
.
n
n
Dunque se H0 è vera, ricordando che il rapporto nhk /n è la frequenza relativa conY
giunta delle osservazioni che cadono nel rettangolo X
h k , si deduce che le differenze:
nhk
1
nh nk
0
0
ph pk =
nhk
n
n
n
dovrebbero essere sufficientemente piccole in valore assoluto. Seguendo il metodo
Chi-quadrato si considera perciò la statistica
m
mY
X X
X
n2hk
(nhk nh nk /n)2
Tn (
p )=n
=n
1
nh nk
n n
h=1 k=1 h k
h=1 k=1
m
mY
X X
X
(10.31)
che per nhk sufficientemente grandi ha una distribuzione Chi-quadrato con (mX mY
1r) gradi di libertà, dove r è il numero dei parametri indipendenti da stimare nella
ipotesi che H0 sia vera. Gli (mX + mY ) parametri p0h , p0k appena stimati sono legati,
per il primo assioma delle probabilità, dalle due condizioni:
m
X
X
p0h =
h=1
mY
X
p0k = 1 ,
k=1
per cui solo r = mX +mY 2 sono indipendenti, e i gradi di libertà della distribuzione
di Tn (p0 ) risultano: mX mY 1 (mX + mY 2) = (mX 1)(mY 1). La regola
del test è pertanto la seguente.
. Al livello di significatività , lipotesi nulla (10.30) è da rifiutare se e solo se il
valore empirico tn della statistica (10.31) soddisfa, per nhk sufficientemente grandi
(> 5 circa per ogni h, k), la condizione:
tn 1
dove 1 è il quantile della distribuzione Chi-quadrato con (mX 1)(mY 1) gradi
di libertà.
Esempio 10.11
Una casa automobilistica vuole verificare se il colore della carrozzeria scelto dagli
acquirenti delle proprie vetture a benzina è statisticamente indipendente dal particolare tipo di modello acquistato.
Indichiamo con X il carattere: modello di autovettura, e suddividiamo lintera
produzione in mX = 5 classi, comprendenti nellordine i modelli del segmento
1 : utilitario;
2 : medio-basso;
3 : medio;
4 : medio-alto;
5 : alto.
Indichiamo poi con Y il carattere colore della carrozzeria che raggruppiamo in

mY = 6 classi:
1 : blu;
2 : grigio;
3 : nero;
4 : verde;
5 : rosso;
6 : giallo e altri.
10.3 Test di indipendenza
305
TABELLA 10.7
modello
blu
grigio
nero
verde rosso giallo etc.
k=1
nh
utilitario
42
55
32
26
28
190
medio-basso
58
32
40
31
33
199
medio
66
48
12
35
24
19
204
medio-alto
32
52
21
10
131
alto
12
21
11
64
n k=
210
208
41
134
100
95
n = 788
Da unindagine sulle vendite effettuate da alcuni concessionari in un determinato

periodo dellanno risulta un campione di n = 788 coppie di osservazioni, le cui
frequenze congiunte sono riassumibili con una tabella di contingenza a due entrate
che ha laspetto della Tabella 10.7.
Essa contiene tutti gli elementi necessari per calcolare il valore empirico della statistica (10.31) che risulta: tn = 58.07. Secondo la regola del test Chi-quadrato, questo
valore è da confrontare con i quantili della distribuzione con 4 5 = 20 gradi di
libertà riportati nella Tabella in Appendice. Si riconosce facilmente che tn > 1
per qualsiasi livello di significatività , per cui si deve concludere che lipotesi di
indipendenza statistica tra i due caratteri non è consistente con i dati osservati.
Lunico svantaggio di questo test di indipendenza consiste nel fatto che necessita
di campioni bidimensionali con numerosit`
a elevata, in grado di produrre frequenze
congiunte nhk per lo meno maggiori o uguali a 5 per ogni indice h e k delle classi
utilizzate. Se non è disponibile un campione di questa natura, nemmeno modificando
(X)
(Y )
la scelta delle classi h e k , ci si deve accontentare di un altro tipo di test dei
ranghi: quello sul coefficiente di correlazione di Spearman che però fornisce soltanto
una condizione necessaria, ma non sufficiente, per lindipendenza della coppia (X, Y ).
10.3.2
Test di Spearman
Il coefficiente di correlazione dei ranghi di Spearman, che indicheremo con RS , è

una semplificazione dellanalogo coefficiente Rn di correlazione lineare di Pearson
definito nella (9.31), che è stato usato nel Capitolo 9 per effettuare un test parametrico sulla incorrelazione dei caratteri X, Y da cui si estrae un campione bidimensionale (Xk , Yk ) di numerosità n.
Il test che si basa su questo nuovo coefficiente non è però considerato un test parametrico, perche utilizza non già i valori effettivi Xk , Yk dei dati del campione, bens` pi`
u
306
semplicemente i loro ranghi, ossia la posizione che ciascun dato viene ad occupare in
una delle due sequenze ordinate di tutte le osservazioni Xk e di tutte le osservazioni
Yk (cfr. anche 10.2.2).
Se indichiamo con
dk = rango(Xk ) rango(Yk ),
k = 1, . . . , n
la differenza tra i ranghi occupati dai due elementi di ciascuna coppia di osservazioni,
il coefficiente di correlazione di Spearman è la statistica
RS = 1
n
X
6
dk ,
n(n2 1) k=1
ed ha anchesso la proprietà 1 RS 1. Precisamente, ha valori prossimi a +1

se valori elevati di Xk sono accoppiati a valori elevati di Yk ; e ha valori prossimi a
1 se gli Xk pi`
u grandi si accoppiano agli Yk pi`
u piccoli. Inoltre, sotto lipotesi H0
che i due caratteri siano incorrelati, si dimostra che il valor medio di RS è nullo, e
per n 10 circa la distribuzione della statistica
s
TS = RS
n2
1 RS2
(10.32)
è approssimabile con una t-Student con n 2 gradi di libertà.

Ne deriva una regola di accettazione della ipotesi di incorrelazione che è del tutto
analoga a quella utilizzata nel test parametrico del 9.4.3, ma che ora si riferisce
al valore empirico tS della statistica sui ranghi (10.32) che si calcola molto pi`
u
facilmente della (9.23). Se risulta:
|tS | > t1/2 ,
(10.33)
si deve rifiutare lipotesi di incorrelazione, il che implica anche che è da rifiutare

lipotesi (pi`
u restrittiva) di indipendenza dei caratteri X ed Y .
Se invece la condizione (10.33) non è verificata, si deve accettare lipotesi nulla sulla
incorrelazione (nel senso di Spearman) dei due caratteri. Tuttavia, ciò non significa
che si possa accettare anche lipotesi (10.30) che essi siano statisticamente indipendenti: per giungere a una conclusione in tal senso occorre una ulteriore verifica che
dovrà essere fatta con il precedente test Chi-quadrato.
Esempio 10.12
Per illustrare una semplice applicazione del test dei ranghi di Spearman riconsideriamo il campione con numerosità n = 10 utilizzato nellEsempio 6.3 per effettuare una
regressione quadratica del carattere Y su un carattere X della stessa popolazione.
Numerate in ordine crescente con lindice k = 1, . . . , 10 le dieci coppie di dati,
determiniamo il posto occupato da ciascun Xk nella sequenza ordinata di tutte le
osservazioni del carattere X, e operiamo nello stesso modo per ricavare il rango delle
10.4 Test sulla casualit`

a di un campione
307
TABELLA 10.8
k=
10
Xk
10
15
20
25
30
35
40
45
50
55
Yk
37
27
31
27
36
44
45
51
62
66
rango(X k )
10
rango(Y k )
1,5
1,5
10
dk
-4
0,5
2,5
Yk . Risultano i ranghi indicati nella Tabella 10.8 e le differenze dk che sono riportate
nellultima riga. Si ricava facilmente:
10
X
dk = 23.5 ;
rS = 1
k=1
tS = 0.8575
6 23.5
= 0.8575 ;
10 99
8
= 4.7157.
1 (0.8575)2
Il valore empirico tS cos calcolato è maggiore dei quantili della distribuzione tStudent con n 2 = 8 gradi di libertà, che sono riportati nella Tabella in Appendice.
Poichè è soddisfatta la condizione (10.33), il test di Spearman porta a rifiutare
lipotesi che i due caratteri siano incorrelati. Di conseguenza, si può anche affermare
che lipotesi di indipendenza tra X ed Y non è compatibile con i dati osservati.
10.4
Test sulla casualit`

a di un campione
Concludiamo la rassegna dei test non parametrici esaminando i metodi atti a verificare se i dati campionari in nostro possesso costituiscano effettivamente un insieme
di informazioni statisticamente indipendenti.
I metodi statistici esposti in questo e nei precedenti Capitoli si basano tutti sul
presupposto che i campioni di cui disponiamo siano casualmente estratti da una
popolazione che mantiene uguali le proprietà probabilistiche dei suoi caratteri durante tutte le estrazioni effettuate per la raccolta delle osservazioni. Se un campione
è veramente casuale, non ha alcuna importanza lordine temporale con cui è stata
raccolta la sequenza di osservazioni campionarie.
Se però i dati di un campione X = (X1 , . . . , Xn ) costituiscono una sequenza temporale, e sono stati raccolti in un arco di tempo ragionevolmente esteso, può esserci
motivo di ritenere che la sequenza delle osservazioni fatte non si comporti pi`
u come
308
un insieme di n osservazioni statisticamente indipendenti, perche la popolazione può

aver subito modificazioni o fluttuazioni in qualche suo carattere, tali da compromettere la casualità delle osservazioni fatte.
Ad esempio, nel rilevamento del numero giornaliero di incidenti stradali in un tratto
di strada statale ci si può attendere una periodicità di sette giorni dovuta alla diversa
entità del traffico nei vari giorni della settimana; i prezzi di molti prodotti stagionali
variano con regolarità durante lanno, con la conseguenza che una statistica sui
prezzi mensili mostrerà variazioni periodiche ogni 12 osservazioni; e ancora: nel
campionamento di certe variabili economiche, effettuato con rilevamenti quotidiani,
ci si può attendere che molte di esse abbiano valori correlati in base allandamento
giornaliero del mercato azionario.
Prima di effettuare tests statistici basati su osservazioni temporali di questo tipo,
occorre verificare che il campione X sia effettivamente casuale. Pe la definizione di
indipendenza statistica tra n variabili aleatorie Xk , linsieme X è casuale se la sua
funzione di distribuzione è il prodotto delle distribuzioni marginali, ossia
FX (x1 , . . . , xn ) = FX1 (x1 )FX2 (x2 ) FXn (xn ).
(10.34)
E assai arduo definire in modo completo una statistica che consenta di verificare,
con un prescritto livello di significatività, se è valida lipotesi (10.34). Ci si può però
accontentare di costruire tests di facile uso, che si basano sullordine temporale in
cui ciascun elemento del campione si realizza nelle ripetute osservazioni.
10.4.1
Test di correlazione seriale
La (10.34) implica che sia anche statisticamente indipendente qualsiasi sottoinsieme

di = 2, 3, . . . , n 1 elementi di X, e in particolare ciascuna coppia di dati contigui
(Xk , Xk+1 ) con k = 1, . . . , n 1. Ne segue che un test sulla correlazione tra gli
elementi di queste coppie può risultare efficace nella individuazione di quei campioni
che non sono estratti casualmente dalla popolazione in esame.
Consideriamo dunque tutte le (n 1) coppie (Xk , Xk+1 ) di osservazioni contigue del
campione, alle quali aggiungiamo la coppia (Xn , X1 ) e definiamo la statistica
RX =
n
X
(Xk X)(Xk+1 X)
2
nSX
k=1
(10.35)
chiamata coefficiente di correlazione circolare della serie temporale (X1 , . . . , Xn ),

2 .
avente media aritmetica X e varianza SX
Il test non parametrico in questione si basa sul principio che se il campione è casuale,
tutte le n! possibili permutazioni degli elementi della serie sono equiprobabili. E
poiche solo il numeratore dei termini a secondo membro nella (10.35) sono influenzati
da permutazioni dei dati, è sufficiente studiare la distribuzione della statistica
X =
R
n
X
(Xk X)(Xk+1 X).
k=1
(10.36)

a di un campione
309
Riguardo a questultima, si può dimostrare che se il campione X è estratto casualmente da una popolazione con distribuzione dotata di momenti finiti del primo e
X ha una distribuzione che per n tende a una Normale
secondo ordine, allora R
con valore atteso e varianza
X } =
E{R
dove:
2
X } = S2 S4
2 {R
n1
S2
,
n1
Sq = (X1 X)q + (X2 X)q + . . . + (Xn X)q ,
q = 2, 4.
Se dunque usiamo la variabile standardizzata

ZX =
X E{R
X }
R
,
X }
{R
(10.37)
questa dovrà assumere valori assoluti prossimi a zero, se è vera lipotesi H0 di casualità di un campione con numerosit`
a elevata (almeno n = 10 circa).
La regola di questo test sulla casualità del campione è pertanto la seguente: il
campione esaminato non può considerarsi casuale, al livello di significatività , se la
realizzazione zX della statistica normalizzata (10.37) soddisfa la condizione
|zX | > z1/2
dove z1/2 è il quantile della distribuzione normale standard che esclude una coda
di probabilità /2, ossia tale che: 2erf(z1/2 ) = 1 .
Esempio 10.13
Per 15 giorni consecutivi si rileva il numero dei passeggeri di nazionalità italiana che
utilizzano un certo volo di linea. Ne risulta il seguente campione:
16 18
14
21
19
15
24
20
16
12
23
20
17
14
19.
Si vuole verificare, al livello di significatività = 0.05, se si tratta di un campione

estratto casualmente dalla popolazione dei passeggeri di quel volo.
La media aritmetica dei 15 valori osservati è X = 17.6 e il valore empirico della
statistica (10.36) vale
X = (16 17.6)(18 17.6) + . . . + (19 17.6)(16 17.6) = 34.26.
R
X
Per determinare il valore atteso e la varianza della distribuzione della statistica R
calcoliamo ora le quantità S2 , S4 che risultano:
S2 = (16 17.6)2 + (18 17.6)2 + . . . + (19 17.6)2 = 165.73
S4 = (16 17.6)4 + (18 17.6)4 + . . . + (19 17.6)4 = 3974.62
da cui
X } =
E{R
165.73
= 11.8381,
14
2
X } = (165.73) 3974.62 = 1678.065.
2 {R
14
310
Il valore empirico di ZX è pertanto

zX =
34.26 + 11.8381
= 0.5475,
1678.065
da confrontare con il quantile z0.975 = 1.96 della normale standard. Poiche |zX | =
0.5475 < 1.96, si deduce che zX cade nella regione di accettazione del test, e si
conclude che il campione è effettivamente casuale.
Si osservi che lordine in cui le osservazioni si dispongono nel campione è essenziale
in questo test. Infatti, supponiamo che gli stessi dati siano disposti nel campione
con questa diversa sequenza temporale:
18 16
14
21
19
15
12 16 20
23
24
20
17
14
19.
Poiche la media aritmetica non cambia, sono pure invariate le quantit`

a S2 , S4 e
X . Tuttavia il suo valore
quindi anche il valor medio e la varianza della statistica R
empirico è ora 71.73, e quello della statistica standardizzata vale zR = 2.04 > 1.96.
Dunque, al medesimo livello di significatività risulta che il secondo campione non
si può considerare casuale. In effetti, vi si può riconoscere una certa periodicità
settimanale dei dati con valore elevato, che compromette la casualità del campione
e lo rende inutilizzabile se, ad esempio, si vuole studiare statisticamente la relazione
tra il numero di passeggeri e qualche altro carattere della stessa popolazione che non
sia influenzato dal particolare giorno della settimana in cui è stato effettuato il volo.
10.4.2
Run test
Se le modalità del carattere X sono soltanto due, ogni estrazione consiste nella realizzazione di uno tra due eventi dicotomici che indicheremo con A, B e il campione
che ne risulta è una successione del tipo:
AABBAABBBABBBAAAABBB . . .
(10.38)
In tale campione, è chiamata run (malamente traducibile in italiano con il termine

pacchetto) ogni successione di eventi identici, compresa tra due eventi ad essi
incompatibili oppure insiemi vuoti. Per esempio, nel campione (10.38) ci sono 8
runs, perche le n = 20 realizzazioni si presentano suddivise in 4 pacchetti di eventi
A e 4 pacchetti di eventi B.
In tali campioni, un indicatore dellordine con cui A oppure B compaiono nella
sequenza di n osservazioni è costituito dal numero totale U di runs presenti nel campione. Ad esempio, un campione di numerosit`
a n = 20 con 10 realizzazioni di A e
10 realizzazioni di B può avere un numero minimo di 2 runs (formati di pacchetti di
10 eventi uguali e contigui), e un massimo di 20 runs (se A e B si alternano). Poiche
in entrambi i casi si è indotti a ritenere che le estrazioni effettuate non siano statisticamente indipendenti, il campione si potrà considerare casuale solo se il numero
di runs in esso contenuti è assai diverso da questi due valori estremi.
Usiamo dunque la statistica U (anziche la (10.36)) per effettuare un semplice test
sulla casualità di un campione di n osservazioni di un carattere dicotomico. Se esso

a di un campione
311
contiene nA realizzazioni dellevento A e nB dellevento B, si può dimostrare che al

crescere di nA ed nB la distribuzione campionaria di U è ben approssimata da una
distribuzione normale con valor medio e varianza che valgono:
E{U } = 1 +
2nA nB
,
nA + nB
U2 =
2nA nB (2nA nB nA nB )
.
(nA + nB )2 (nA + nB 1)
Ne segue che per nA ed nB sufficientemente elevati (e comunque entrambi maggiori o

uguali a 10) è possibile effettuare un test sulla casualità del campione determinando
il valore empirico zU della statistica standardizzata
ZU =
U E{U }
.
U
(10.39)
Se questo è tale che |zU | > z1/2 , si dovr`

a dedurre che al livello di significatività
il campione non può considerarsi casuale.
Il run test è anche usato spesso per verificare la casualità di campioni costituiti da
valori numerici reali (x1 , x2 , . . . , xn ). A tal fine, levento A si considera realizzato se
una osservazione xk è maggiore della mediana x
, e levento B si intende realizzato
se xk < x
. Se qualche xk coincide con la mediana, viene eliminato dalla sequenza.
Si ricava cos una successione del tipo (10.38) alla quale si applica il metodo appena esposto. I due esempi che seguono, tratti dal testo [5], illustrano due tipiche
applicazioni del metodo del run test ora descritto.
Esempio 10.14
Si controlla la qualità dei pezzi prodotti da una macchina, indicando con d la rilevazione di un difetto, e con n lesito favorevole del controllo. In un campione di 27
estrazioni si rilevano 10 eventi d e 17 eventi n, cos distribuiti in ordine di tempo:
n n n n n d d d d n n n n n n n n n n d d n n d d d d.
Si vuole verificare se il campione in esame è casuale, al livello di significatività 0.01.
Poiche nd = 10, nn = 17, la distribuzione campionaria del numero di runs ha valore
atteso e varianza:
2 10 17
= 13.59
10 + 17
2 10 17(2 10 17 10 17)
= 5.6169.
(10 + 17)2 (10 + 17 1)
E{U } = 1 +
U2
Il numero di runs nella sequenza è u = 6 (si noti che è molto minore del valore
atteso), e la statistica standardizzata (10.39) ha il valore empirico zU = 3.20.
Se si assume = 0.01, la regione di accettazione del test ha come estremo superiore
il quantile della distribuzione normale standard che soddisfa: erf(z0.995 ) = (1
0.01)/2 = 0.495. Lesame della Tabella di erf(z) fornisce: z0.995 = 2.575 < |zU |,
per cui si deve rifiutare lipotesi che i dati contigui nella serie campionaria siano
incorrelati. Se ne deduce che il campione non è casuale, perche il test porta ad
escludere che esso possa soddisfare la proprietà (10.34).
312
Esempio 10.15
40 successive misurazioni in pollici del diametro medio dei pezzi lavorati da un tornio
automatico forniscono le seguente serie statistica di dati {xk }:
0.261
0.252
0.248
0.247
0.258
0.250
0.252
0.250
0.249
0.253
0.254
0.253
0.251
0.247
0.250
0.247
0.247
0.251
0.247
0.249
0.256
0.243
0.253
0.253
0.250
0.258
0.251
0.246
0.247
0.251
0.246
0.251
0.255
0.245
0.249
0.249
0.243
0.250
0.252
0.253.
Si vuole verificare, con un run test al livello = 0.01, lipotesi H0 che questo campione sia casuale, oppure se si debba accettare lipotesi alternativa che le osservazioni
hanno evidenti fluttuazioni periodiche, che potrebbero essere addebitate a troppo
frequenti messe a punto della macchina utensile.
Se ordiniamo per valori crescenti le osservazioni del campione, gli elementi centrali
valgono 0.250: questo è perciò anche il valore della mediana x della serie temporale.
Escludendo le 5 osservazioni che coincidono con x
= 0.250, i dati osservati danno
luogo, a seconda che il loro valore sia maggiore o minore della mediana, alla seguente
successione temporale di eventi A = {xk > 0.250} e B = {xk < 0.250}:
A A B A B A B A B A A B A B A A B B A A B A A B B A B A B B A B A B A.
In questa sequenza si ha: nA = 19, nB = 16, u = 27, per cui la distribuzione
campionaria dei pacchetti di eventi ha valore atteso e varianza
2 19 16
= 18.37
19 + 16
2 19 16(2 19 16 19 16)
= 8.3521
(19 + 16)2 (19 + 16 1)
E{U } = 1 +
U2
e il valore empirico di ZU è
27 18.37
zU =
= 2.98.
8.3521
La regione di rifiuto del test è quella già determinata nellEsempio precedente:
C = (, 2.575) (2.575, +)
e poiche zU vi appartiene, si deve concludere che il campione analizzato non e casuale.
Visto che il numero di runs che esso contiene è molto maggiore del suo valore atteso,
è ragionevole supporre che la macchina abbia subito aggiustamenti troppo frequenti.

a di un campione
313
BIBLIOGRAFIA
1. Papoulis A., Probabilità, variabili aleatorie e processi stocastici, Boringhieri,

Torino, 1973.
2. Ivchenko G. - Medvedev Y., Mathematical statistics, Mir, Moskow, 1990.
3. Vicario G. - Levi R., Statistica e probabilità per ingegneri, Progetto Leonardo,
Bologna, 2001.
4. Pellerey F., Elementi di statistica per le applicazioni, Celid, Torino, 1998.
5. Johnson R.A., Miller and Freunds Probability and Statistics for Engineers,
Prentile Hall, Englewood Cliffs, New Jersey, 1994.
6. Hoel P.G., Introduction to mathematical statistics, Wiley, New York, 1984.
7. Fagnola F. - Pistone G., Primo semestre di probabilità, CLUT, Torino, 1996.
8. Baldi P., Calcolo delle probabilità e statistica, McGraw-Hill Italia, Milano,
1992.
314
APPENDICE
Tavole delle distribuzioni statistiche
Normale standard
t-Student
Poisson
Chi-quadrato
F (m, n) di Fisher
Dn di Kolmogorov-Smirnov
315
316
APPENDICE
Distribuzioni
317
Distribuzione cumulativa di Poisson FX ( x , l )
318
APPENDICE
Distribuzioni
319
320
APPENDICE
Distribuzioni
321
322
APPENDICE

Elementi Di Probabilità e Statistica - Riganti

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Elementi Di Probabilità e Statistica - Riganti

Hochgeladen von

Copyright:

Verfügbare Formate

i

2.3.7 Distribuzione Chi-quadrato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

CAPITOLO V - Processi stocastici

6.8 Problemi risolti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171

9.4.1 Test sul valor medio per il modello normale . . . . . . . . . . . . . . . . . . . . . . . . . 246

GLI ASSIOMI DELLA

ASSIOMI DELLA PROBABILITA

la probabilit`a che in un processo giudiziario limputato sia giudicato colpevole `e

Definizione assiomatica di probabilit`

Logica degli eventi

1.2 Definizione assiomatica di probabilit`

Gli eventi Ai , i = 1, 2, . . . relativi ad un determinato esperimento casuale sono

ASSIOMI DELLA PROBABILITA

di insiemi Ai , tale che:

Dunque, un campo di Borel `e caratterizzato dalla propriet`a che qualsiasi operazione

Consideriamo come singola prova di un esperimento casuale il classico esempio del

1.2 Definizione assiomatica di probabilit`

siamo interessati allevento: uscita di un numero pari, il campo C 0 da considerare

, {2, 4, 6}, {1, 3, 5},

che costituiscono rispettivamente: la negazione {1, 3, 5} dellevento numero pari;

, {2, 4, 6}, {1, 3, 5}, {1, 2},

non `e un campo, perche {2, 4, 6} {1, 2} = {1, 2, 4, 6} 6 C. /

Il valore teorico di una generica grandezza fisica `e espresso da un numero reale, e in

Assiomi della probabilit`

P (Ai Aj ) = P (Ai ) + P (Aj ).

La formulazione matematica del modello probabilistico `e cos completa: essa consiste

ASSIOMI DELLA PROBABILITA

numero reale non negativo P (Ai ) che chiamiamo probabilit`

lultima delle quali esprime la additivit`

P (Ai Aj ) = P (Ai ) + P (Aj ) P (Ai Aj ).

La propriet`a C1 si dimostra considerando che per lassioma I si ha P () = P (Ai

1.2 Definizione assiomatica di probabilit`

La C5 `e la generalizzazione dellassioma II per eventi non incompatibili, e si dimostra

P (ii) = 6/36 = 1/6. /

ASSIOMI DELLA PROBABILITA

Questo esempio esprime il seguente risultato di carattere generale:

e coincide con la definizione classica di probabilit`a, citata nella Introduzione.

Esempio 1.5: distribuzione uniforme in [0, T ]

Estendiamo al caso continuo il risultato dellEsempio 1.3. Supponiamo che lo spazio

uguale al rapporto tra le ampiezze L(A), L() degli intervalli A ed . In particolare,

In una distribuzione uniforme di probabilit`a nellintervallo [O, T ], la probabilit`a

Assegnato un evento Aj B con probabilit`a non nulla, la probabilit`a di un altro

P (Ai | Aj ) = P (Ai )/P (Aj ) > P (Ai ).

Se Ai e Aj sono incompatibili, allora Ai Aj = e quindi:

La definizione (1.2) si pu`o anche scrivere:

e si estende al caso di n eventi A1 , .., An B nella forma seguente

che esprime la legge delle probabilit`

ASSIOMI DELLA PROBABILITA

Esempio 1.6: estrazione senza reimbussolamento

Due eventi Ai , Aj si dicono statisticamente indipendenti se e solo se:

Tale definizione esprime il concetto intuitivo di indipendenza di un evento da un

1.4 Eventi indipendenti

Ci`o significa, in particolare, che tre eventi A, B, C sono statisticamente indipendenti

P {(1, 2) (2, 4, 6)}

ASSIOMI DELLA PROBABILITA

{T C, CT } e A3 = {T T, CT }, ciascuno con probabilit`a 1/2. I tre eventi non sono

Esempio 1.8: componenti in serie e in parallelo

Si abbia un generico sistema (ad es. una macchina, un dispositivo di controllo, un

Si abbia una sequenza finita o numerabile di eventi Ai B con probabilit`a non

1.5 Formula di Bayes

Essa mostra che la conoscenza del verificarsi di E modifica la probabilit`a che a

ASSIOMI DELLA PROBABILITA

che, sostituita nella (1.8), prova la (1.7).