Sie sind auf Seite 1von 382

Corso di Laurea in Marketing e

Organizzazione dImpresa
Dipartimento di
Comunicazione ed Economia

INTRODUZIONE ALLA STATISTICA PER


LE SCIENZE ECONOMICHE E SOCIALI
Franco Torelli
(franco.torelli@unimore.it)
Anno Accademico 2014/2015

Introduzione
Nome
corso alla statistica per le scienze economiche e sociali

Febbraio 2015

Obiettivi formativi
Fornire gli strumenti quantitativi essenziali e
favorire la comprensione delle metodologie
statistiche di base nel contesto delle scienze
economiche, sociali aziendali e delle pubbliche
amministrazioni.
Favorire ladozione di approcci corretti nei
confronti delle indagini di tipo quantitativo,
nellinterpretazione dei risultati e nella relativa
esposizione e comunicazione.
Evidenziare, per mezzo di un profilo di
concretezza del corso, come limpiego di
opportuni metodi statistici consenta di risolvere
svariate tipologie di problemi.
Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

Contenuti
Introduzione al ruolo e al linguaggio della statistica
Parte I: Statistica descrittiva
Classificazioni dei dati e rappresentazioni grafiche
Rapporti statistici e numeri indici
Misure di posizione, di variabilit, di concentrazione
Analisi bivariata: correlazione e regressione lineare
semplice
Parte II: Probabilit e statistica inferenziale
Nozioni elementari di probabilit
Distribuzioni di probabilit
Distribuzioni campionarie e intervalli di confidenza
Stime puntuali e stime per intervallo
Metodi di campionamento
Verifica delle ipotesi: i test statistici
Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

1 INTRODUZIONE AL RUOLO E AL LINGUAGGIO


DELLA STATISTICA

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

Il significato di statistica

Si tratta di un insieme di metodologie che hanno


come scopo la conoscenza quantitativa dei
fenomeni collettivi
Collettivi di stato: individuabili in modo preciso solo
se riferiti a uno specifico momento (es. popolazione
residente)
Collettivi di movimento: individuabili in riferimento
a un periodo (prodotti venduti, nascite)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

Tipologie di fenomeni collettivi

I fenomeni collettivi che sono tali perch riguardano


una collettivit di casi singoli. Per esempio, le
caratteristiche comportamentali della popolazione
dellEuropa centro-orientale.
I fenomeni relativi a un solo caso, alla cui
conoscenza si pu pervenire solo con la ripetizione
delle misurazioni (collettivit di osservazioni): per
esempio, la quantit di bario liberata ad alta quota
da una determinata apparecchiatura allo scopo di
creare nubi artificiali.

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

Collettivit di osservazioni

Ripetendo lo stesso esperimento o la stessa


misurazione, non si ottiene lo stesso risultato .
per la presenza di errori casuali di misurazione

Si tratta di errori non eliminabili completamente,


che non assumono dimensioni macroscopiche
Derivano dallimpossibilit di considerare le
numerose caratteristiche che influenzano il
fenomeno

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

Errori casuali e distorsioni

Mentre gli errori casuali a volte aumentano, a


volte diminuiscono il valore reale, le distorsioni
operano sempre nella stessa direzione e
influenzano quindi la media

La singola misurazione quindi uguale al valore


reale + lerrore casuale + leventuale distorsione

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

Statistica descrittiva e statistica


inferenziale

Lo studio dei fenomeni collettivi pu essere svolto


sull'intera collettivit, oppure solo una sua parte
Se si utilizzano informazioni su una parte per trarre
conclusioni o deduzioni sullintera collettivit, il
campo della statistica chiamato statistica
inferenziale o inferenza statistica
Al contrario, la statistica descrittiva ha come oggetto
la semplice descrizione quantitativa delle
caratteristiche di una collettivit, sia essa intera o
parziale

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

Alcune definizioni Popolazione e unit

Popolazione statistica: loggetto di una indagine,


linsieme degli elementi che ci interessano ai fini
dell'indagine; viene utilizzato come sinonimo il
termine universo statistico (per esempio, tutti i
visitatori di una fiera)

Unit statistiche: sono i singoli elementi che


compongono la popolazione statistica, sui quali si
effettua la misurazione delle variabili (i singoli
visitatori)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

10

Alcune definizioni fenomeni e modalit


Fenomeni statistici (o variabili statistiche o caratteri
statistici): sono le caratteristiche rilevate per ogni
unit statistica (per esempio, la tipologia di visitatori);
si distinguono in fenomeni qualitativi e fenomeni
quantitativi
Modalit: sono i diversi valori che pu presentare un
fenomeno (per esempio, riguardo alla tipologia di
visitatore: italiano o straniero; appartenente a un
settore industriale o terziario, ecc.)
Le modalit di un carattere devono essere esaustive
(ossia, rappresentare tutti i possibili modi in cui un
fenomeno si pu presentare)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

11

I fenomeni qualitativi
Presentano modalit espresse con parole (es.:
stato civile); sono chiamati anche mutabili. Si
suddividono in ordinai e nominali.
Fenomeni ordinali: fra le modalit si pu stabilire
un ordine logico (crescente o decrescente): per
esempio, livello di accordo con la depenalizzazione
del suicidio

Fenomeni nominali: fra le modalit si possono


instaurare solo relazioni di uguale o diverso, senza
che si possa adottare un ordine logico: per
esempio, tipologia di negozio preferito
Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

12

Ancora sui fenomeni nominali


Spesso, per praticit di elaborazione, si
attribuiscono codifiche numeriche alle diverse
modalit dei fenomeni nominali.
Per esempio, se si studiano i gruppi etnici di
appartenenza nellAsia Centrale:
1 Kazaki
2 - Uzbeki
3 Turkmeni
4 ecc.
In questo caso, i dati che si ricavano sono
chiamati dati nominali; si tratta di dati che non
provengono da operazioni di misurazione o di
conteggio, ma da una codifica.
Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

13

Ancora sui fenomeni ordinali


Sempre per praticit di elaborazione o di formulazione
della risposta, si attribuiscono codifiche numeriche
anche alle diverse modalit dei fenomeni ordinali.
I dati che si ricavano sono chiamati dati ordinali;
anche in questo caso, sono dati che non provengono
da operazioni di misurazione o di conteggio.
Per esempio, relativamente al livello di stagionalit di
un prodotto:
1 molto contenuto
2 contenuto
3 n contenuto, n elevato
4 elevato
5 molto elevato
Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

14

I fenomeni quantitativi
Presentano modalit espresse con numeri, che derivano
da un'operazione di misura o di conteggio; sono chiamati
anche variabili.
Fenomeni discreti: le modalit sono costituite da un
numero finito di valori, che possono variare tra loro
solo per un ammontare fisso (per esempio, il numero
di referenze su uno scaffale di un negozio; i dipendenti
di unazienda)
Fenomeni continui: la scala delle possibili modalit
continua: allinterno del campo di variazione, il numero
delle modalit teoricamente infinito (le modalit
possono differire tra loro per entit variabili). Per
esempio, la distanza tra il luogo di acquisto e la
residenza dellacquirente; la statura.

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

15

Discreti e continui

Nel caso di fenomeno discreto, le modalit


possono essere poste in corrispondenza biunivoca
con un sottoinsieme dei numeri interi.
Nel caso di fenomeno continuo, le modalit
possono essere poste in corrispondenza biunivoca
con un sottoinsieme dei numeri reali.

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

16

Ancora sui fenomeni continui


Il loro numero di modalit teoricamente infinito.
Nella realt, pu esistere una discontinuit
sperimentale, dovuta alla pi o meno accentuata
sensibilit dello strumento di misurazione (per
esempio, lanemometro nel caso del vento)
Uno strumento dotato di sensibilit infinita
potrebbe fornire valori con un numero infinito di
cifre.

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

17

Scale di intervallo
Una scala di intervallo ha il punto di origine
fissato convenzionalmente, come punto di
riferimento (per esempio, scala dei gradi
centigradi per la temperatura: il punto zero non
significa assenza di temperatura).
In queste scale, hanno significato le differenze,
ma non i rapporti: tra due temperature, possiamo
affermare che una inferiore allaltra, ma non
conosciamo il loro rapporto.

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

18

Scale di rapporto

Una scala di rapporto ha il punto di origine legato


in modo naturale allassenza di valore, come punto
di riferimento (per esempio, lavanzamento della
linea di terra alla foce di un fiume, per effetto dei
sedimenti: il punto zero ha il significato di assenza
di avanzamento).
In queste scale, hanno significato sia le differenze,
sia i rapporti: tra due fiumi, possiamo affermare
che uno presenta un avanzamento della linea di
terra corrispondente a due terzi dellaltro.

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

19

I descrittori

Un parametro un valore numerico che descrive una


caratteristica della popolazione; per esempio,
laspettativa media di vita alla nascita di una intera
popolazione, la deviazione standard dellet di una
popolazione, ecc. Si rappresenta solitamente con una
lettera greca.
Una statistica un valore numerico che descrive una
caratteristica del campione. Per esempio, la media e
la deviazione standard di un campione di studenti in
riferimento al punteggio con cui si sono diplomati. Si
rappresenta solitamente con una lettera romana.

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

20

Le fonti statistiche

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

21

Dati primari e dati secondari


Dati primari: devono essere costruiti, per
mezzo di una indagine sul campo
Dati secondari: sono gi stati costruiti da altri
e sono reperibili tramite ricerche desk
Prima di procedere a una rilevazione diretta
dei dati, indispensabile esaminare le
informazioni gi esistenti:
il costo per costruire dati primari in genere
superiore al costo per raccogliere dati
secondari
i dati secondari possono costituire una base
conoscitiva per impostare la rilevazione dei
dati primari
Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

22

I fornitori dei dati secondari

Sono gli enti, le istituzioni, gli organismi che, a titolo


diverso, effettuano rilevazioni (fonti statistiche)
I dati possono essere su supporti realizzati dalla
stessa fonte statistica, oppure realizzati da altri
(mezzi di informazione statistica)
Per valutare la qualit di un dato, particolarmente
utile effettuare incroci tra i dati delle diverse fonti

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

23

Parametri per valutare la qualit di un dato

Accessibilit
Attendibilit e metodologie utilizzate
Completezza
Livello di aggiornamento
Grado di dettaglio
Esistenza di interessi da parte della fonte

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

24

Gli accorgimenti per lo svolgimento di una indagine


statistica

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

25

Limportanza di impostare correttamente una


indagine statistica

Per ottenere risultati affidabili occorre seguire


procedure rigorose e controllare (limitare) i fattori di
disturbo dellindagine
Occorre soprattutto partire da unottica corretta e
non distorta
Per esempio, se si effettua uno studio su due gruppi
di soggetti, per ottenere risultati comparabili
necessario le caratteristiche dei due gruppi siano
corrispondenti

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

26

Alcuni casi - 1
Poliomielite: gli studi sugli effetti del vaccino

Mezzo milione di bambini venne vaccinato (gruppo


di trattamento)
Per mezzo milione di bambini la famiglia rifiut la
vaccinazione (gruppo di controllo)
1 milione non fu deliberatamente vaccinato
(gruppo di controllo)
il problema: la poliomelite colpiva maggiormente i
benestanti, e nel gruppo di trattamento erano pi
frequenti i benestanti

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

27

Alcuni casi - 2

Per verificare leffetto di un farmaco, non


dovrebbero essere i pazienti a scegliere il gruppo
in cui entrare (di trattamento o di controllo)

Si avrebbe il rischio di una sproporzione di pazienti


pi attivi, meno rassegnati, pi attenti, pi
consapevoli nel gruppo di trattamento

Occorre un esperimento controllato, dove la


casualit statistica a stabilire chi far parte del
gruppo dei due gruppi

Conviene utilizzare anche dei placebo, e sia i


pazienti, sia i medici dovrebbero essere alloscuro
del gruppo di appartenenza (esperimento double
blind)
Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

28

Alcuni casi - 3

Gli studi sulleffetto del fumo sono studi sul


campo (i soggetti stessi si assegnano alluno o
allaltro gruppo)

Si osserva una forte associazione tra fumo e


malattie cardio-circolatorie

Attenzione, per: gli uomini, pi forti fumatori


rispetto alle donne, sono comunque pi esposti a
disturbi di tipo cardio-circolatorio

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

29

Alcuni casi - 4

Lo Stato della California aveva valutato lefficacia di


un programma di riabilitazione dopo luscita dal
carcere, con lobiettivo di ridurre il tasso di recidivi.
Il programma, la cui adesione era su base volontaria,
prevedeva anche alcuni anni di addestramento in
stile militare, improntato a una severa disciplina.
I primi risultati sembravano indicare un buon
funzionamento del metodo, che riduceva la
probabilit di rientro in carcere entro due anni dal
rilascio.
Ma il problema era ladesione volontaria, che rendeva
i due gruppi non comparabili.

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

30

Alcuni casi - 6

Obiettivo: misurare leffetto dellavanzamento


dellet sulla statura

In un determinato momento, laltezza delle


persone anziane inferiore allaltezza delle
persone giovani, non solo perch i soggetti calano
con il passare degli anni, ma soprattutto perch
appartengono a generazioni diverse
Indagine cross section: in un determinato
momento
Indagine longitudinale: i soggetti vengono
seguiti nel tempo

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

31

Indagini longitudinali

Per studiare statisticamente il fenomeno delle


carriere criminali (dallaggressivit e disonest
nellinfanzia alla violenza adulta), per analizzare
limportanza, migliorativa o peggiorativa, della
prima condanna
fondamentale realizzare indagini longitudinali

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

32

2 CLASSIFICAZIONI DEI DATI E


RAPPRESENTAZIONI GRAFICHE

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

33

La classificazione delle unit statistiche

Classificazioni unidimensionali, basate su un


singolo fenomeno (distribuzioni di frequenze)
Classificazioni bidimensionali, basate su coppie di
fenomeni (tabelle a doppia entrata o incroci)
Classificazioni multidimensionali, basate su pi di
due fenomeni (tabelle a entrata multipla)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

34

Le distribuzioni di frequenza
Una distribuzione di frequenza registra ogni modalit
con cui il fenomeno si presenta e il corrispondente
numero di volte in cui la singola modalit si presenta
La frequenza il numero di volte con cui una modalit si
presenta: per la modalit i, indicata con fi
La frequenza cumulata la frequenza con cui si
presentano le modalit di ordine inferiore o uguale a una
certa modalit. Si indica con fi
La frequenza relativa di una modalit la frequenza di
questa modalit, rapportata al totale delle frequenze. Si
indica con rfi (pu essere su scala 1 o su scala 100, in
questo secondo caso si tratta di una frequenza relativa
percentuale)
Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

35

Distribuzioni di frequenza: alcune modalit


operative
Nel caso di un fenomeno quantitativo continuo,
occorre scegliere classi di opportuna ampiezza

Ampiezza di una classe: differenza tra l'estremo


superiore e l'estremo inferiore
Per convenzione: lintervallo comprende l'estremo
inferiore, ma non quello superiore (intervallo aperto a
destra e chiuso a sinistra)
Aumentando il numero delle classi (e riducendone
quindi l'ampiezza) si raggiunge una maggior
precisione, ma si attenua la sintesi del fenomeno

Quando possibile, le classi devono essere di uguale


ampiezza
Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

36

Le tabelle a doppia entrata: i contenuti


I numeri all'interno della tabella sono le frequenze
di casella

Al margine di ogni riga si trovano i totali marginali


di riga
Al margine di ogni colonna si trovano i totali
marginali di colonna
Nell'ultima riga dell'ultima colonna si trova il totale
generale

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

37

Le tabelle a doppia entrata: categorie

Una tabella a doppia entrata con almeno un


fenomeno qualitativo si chiama tabella di
contingenza
Se entrambi i fenomeni sono quantitativi, si
parla tabella di correlazione

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

38

Le tabelle a entrata multipla


Il numero di caselle di una tabella a pi di due
entrate uguale al prodotto del numero delle
modalit (o classi) di ciascuno dei fenomeni
considerati
Cresce quindi molto rapidamente con l'aumentare
del numero di fenomeni che si vuole considerare
Il rischio quello di ottenere tabelle di difficile
lettura
inoltre, probabile che in molte caselle la
frequenza sia uguale o prossima allo zero

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

39

Limpostazione del database

Per elaborare correttamente una base di dati,


fondamentale impostarla efficacemente ...
... cercando gi a priori di capire quali elaborazioni
saranno opportune.

Un database in excel normalmente viene impostato


con ogni unit statistica in riga e ogni fenomeno
statistico in colonna. Il contenuto delle caselle
corrisponde alle singole modalit

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

40

Un esempio di impostazione: visitatori di


una fiera

Num progr.

giorni di
ingresso

padiglioni
visitati

altre fiere visitate


della stessa
tipologia

et

43

46

36

18

43

28

45

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

41

Le rappresentazioni grafiche

Un grafico un modo
presentare le informazioni

immediato

per

Un grafico pu essere costruito anche per


analizzare i dati: pu suggerire ipotesi sulla
distribuzione dei dati, porre in luce relazioni tra
pi fenomeni, come nel caso riportato di
seguito

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

42

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

43

Due categorie di grafici


Grafici universali, applicabili a una infinit di
casi; per esempio:
Spezzate
Grafici a settori circolari
Grafici a radar
Grafici a barre
Istogrammi

Ideogrammi, contenenti figure e immagini


relative all'argomento trattato
Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

44

Fosforo totale in superficie e sul fondo alla


stazione di rilevazione di Cesenatico (mg/mc)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

45

Grafico a radar: numero giornaliero di scontrini di tre ipermercati

luned
900
800
700

domenica

marted

600
500
400
300
200

100

sabato

mercoled

venerd

gioved

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

46

Grafico a settori circolari: ripartizione delle italiane appartenenti


alla fascia det 18-39 che ricordano un messaggio pubblicitario

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

47

Grafico a barre: emissioni di carbonio da


parte di alcuni paesi (milioni tonnellate)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

48

Istogramma

una tra le rappresentazioni grafiche universali


pi utilizzate
un grafico adatto ai fenomeni continui, in cui i
rettangoli hanno basi uguali o diverse tra loro, e
ogni rettangolo ha unarea proporzionale alla
corrispondente frequenza
I rettangoli sono affiancati (e non separati)
fondamentale impostare correttamente gli assi

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

49

Fenomeni quantitativi con classi di uguale ampiezza

I rettangoli dellistogramma hanno altezza


corrispondente alla frequenza e base
corrispondente allampiezza della classe

Larea e laltezza sono proporzionali alla


frequenza

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

50

Esempio
Altezze (centimetri)

p%k

155-160

160-165

10

165-170

15

170-175

25

175-180

20

180-185

15

185-190

10

TOTALE

100

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

51

Distribuzione campione per statura

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

52

Fenomeni quantitativi con classi di differente


ampiezza

I rettangoli dellistogramma hanno altezza


corrispondente alla densit di frequenza
(rapporto tra la frequenza e l'ampiezza della
classe) e base corrispondente allampiezza della
classe
Larea (e non laltezza) proporzionale alla
frequenza
Questo consente le giuste proporzioni tra le
frequenze delle classi e le aree dei rettangoli

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

53

Esempio di distribuzione di frequenza di un fenomeno continuo:


pressione sanguigna sistolica in un campione di soggetti

Pressione (millimetri di
mercurio - mmHg)

90-95

95-100

100-110

19

110-120

21

120-130

27

130-150

17

150-180

TOTALE

100

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

54

Rappresentazione non corretta: altezza del


rettangolo proporzionale alla numerosit

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

55

Rappresentazione corretta: area del rettangolo proporzionale


alla numerosit (altezza proporzionale alla densit)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

56

3 RAPPORTI STATISTICI E NUMERI INDICI

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

57

Rapporti statistici

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

58

La possibilit di comparare i dati

Unoperazione che spesso si compie sui dati


statistici il confronto tra i valori di un fenomeno
quantitativo, con riferimento a diverse unit
statistiche.
Il raffronto diretto ha per significato solo a parit
di circostanze.
Ad esempio, il confronto tra la produzione mensile
di rifiuti urbani da parte di due famiglie non ha
molto significato se non si considera il numero di
componenti.

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

59

Le principali categorie
In questi casi, meglio non utilizzare i valori
originari, bens i quozienti tra essi e una
opportuna grandezza, considerata come indice di
dimensione.
Tali quozienti vengono denominati rapporti
statistici.
Le principali categorie di rapporti statistici sono:
- i rapporti di composizione;
- i rapporti di densit;
- i rapporti di derivazione;
- i rapporti di coesistenza.

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

60

I rapporti di composizione
Rappresentano una quota dell'ammontare
complessivo di un fenomeno.
Il rapporto di composizione infatti il quoziente tra
l'ammontare riferito a una modalit del fenomeno e
il totale del fenomeno stesso
oppure tra lammontare riferito a una singola
unit del collettivo e il totale del fenomeno.

Esempio: quoziente tra il numero di europei cattolici


protestanti e tutti gli europei cattolici

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

61

I rapporti di densit - 1

Sono il quoziente tra il valore di un fenomeno


quantitativo e un indice che pu essere
considerato come il suo campo di riferimento.
Per confrontare le popolazioni di due paesi, si pu
porre a confronto il numero degli abitanti.
In questo modo, per, linformazione che si
ottiene indica solo quale il paese pi abitato
(popolazione pi numerosa)
Pu essere pi utile conoscere quale il paese pi
popolato, ossia con la popolazione pi fitta.

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

62

I rapporti di densit - 2
A questo fine, occorre rapportare il numero degli
abitanti all'estensione del territorio. Si calcola cio
la densit della popolazione, che il quoziente tra
numero di abitanti e la superficie (espressa, di
norma, in km quadrati).
Si potrebbe rapportare la popolazione alla parte
abitabile del territorio (escludendo, per esempio, le
superfici occupate dai laghi).
Altri esempi di rapporti di densit sono la superficie
forestale per 100 abitanti, la quantit di nitrati per
1000 litri di acqua, la spesa per acquistare
carburante per abitante, ecc.
Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

63

I rapporti di derivazione

Sono il quoziente tra le entit di due fenomeni, di


cui uno costituisce il presupposto dellaltro.
Per esempio:
il quoziente di natalit (rapporto tra il numero dei
nati vivi in un certo anno e la popolazione)
il quoziente di fecondit (rapporto tra il numero
di nati vivi in un anno e il numero medio di donne
in et feconda nello stesso anno)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

64

I rapporti di coesistenza

Sono il quoziente tra le entit di due


fenomeni, posti a raffronto al fine di valutare
l'eventuale squilibrio.
Lindice di vecchiaia un esempio tipico: il
quoziente tra la popolazione di 65 anni e oltre
e la popolazione sino a 14 anni

Un ulteriore esempio, relativo alle foreste


tropicali, il quoziente tra ettari disboscati ed
ettari rimboscati (pari a circa 12 in Africa, a 25
in Asia, ecc.)
Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

65

Numeri indici

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

66

Definizione
i numeri indici sono rapporti finalizzati a confrontare
le intensit di un fenomeno o pi fenomeni in tempi
diversi oppure in situazioni diverse (ad esempio, in
differenti regioni)
si hanno infatti numeri indici temporali e numeri
indici territoriali

i n. i. servono quindi a misurare variazioni relative

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

67

Variazioni assolute e relative

Se analizziamo una serie storica, le variazioni da un


periodo all'altro possono essere misurate in termini
assoluti (differenze) o relativi (rapporti)
Le differenze assolute dipendono dall'ordine di
grandezza e dallunit di misura
Le variazioni relative, nella maggior parte dei casi,
sono pi efficaci

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

68

Il calcolo dei numeri indici

Per trasformare una serie storica in una serie


di numeri indici, si devono dividere i termini xt
(t = 1, 2, ... , n) per un denominatore,
appartenente alla stessa serie, e moltiplicare i
quozienti per 100
Si chiama base il termine assunto come
denominatore dei rapporti

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

69

Numeri indici a base fissa

Si ottengono quando tutti i termini della serie


vengono rapportati alla stessa base (spesso, il
primo termine della serie)
xt
________
I
=
1
t
x1
Il simbolo a sinistra di I indica il periodo base,
quello a destra indica il periodo di riferimento
del calcolo

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

70

Linterpretazione

Sottraendo 100 da un numero indice a base fissa si


ottiene la variazione percentuale del fenomeno
rispetto al tempo base

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

71

Cambio base
I numeri indici con una base fissa, ad esempio
con base x1, possono essere trasformati in
numeri indici con diversa base fissa, ad esempio
con base x2, dividendoli per 1I2
1I t
_____
1

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

72

Numeri indici a base mobile


Si ottengono quando ogni termine della serie
viene rapportato al termine precedente
xt
_____
t-1 I t =
xt-1

Il numero indice a base mobile relativo al


primo anno della serie storica non pu essere
determinato non essendo noto il valore del
fenomeno nell'anno precedente
Sottraendo 100 da un numero indice a base
mobile, si ottiene la variazione percentuale del
fenomeno rispetto al tempo precedente
Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

73

Da base fissa a base mobile


Per passare da una serie di indici a base fissa
alla corrispondente serie di indici a base
mobile, sufficiente dividere ciascun indice a
base fissa per lindice immediatamente
precedente
1

_____

t-1

t-1

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

74

Da base mobile a base fissa

Per passare da una serie di indici a base


mobile alla corrispondente serie di indici a
base fissa, ad esempio a base x1, occorre
moltiplicare fra loro gli indici a base mobile dal
tempo 2 fino al tempo considerato
1It

= 1I2

2I3

...

t-1 I t

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

75

Una avvertenza

Tutte le operazioni sui numeri indici devono essere


effettuate dopo avere diviso per 100 i numeri indici
stessi
In altri termini, le operazioni devono avvenire sugli
indici rapportati a 1, non a 100

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

76

I numeri indici composti

Si utilizzano per sintetizzare, mediante un'unica


serie di numeri indici, le variazioni relative di
diverse serie storiche
Nella maggior parte dei casi, opportuno assegnare
un peso (g) a ciascuna serie, calcolando quindi una
media ponderata (si veda il capitolo sulle misure di
posizione)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

77

Due tecniche per calcolare numeri indici


composti ponderati mediante i valori

Laspeyres: il sistema di pesi (il paniere) viene


mantenuto fisso (solitamente, quello del tempo
base) per tutti i periodi della serie storica: se stiamo
calcolando l'indice composto dei prezzi del 2014 con
base 1995, utilizziamo il paniere del 1995
Paasche: il paniere variabile di anno in anno: se
stiamo calcolando l'indice composto dei prezzi del
2014 con base 1995, utilizziamo il paniere del 2014

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

78

Le due formule
Indice di Laspeyres
[(1 I t ) g1]
1

composto

__________________________

g1

Indice di Paasche
[(1 I t ) gt]
1

I t composto =

__________________________

gt

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

79

Indici composti: un esempio - dati di base


Numeri indici della salinit del mare in
corrispondenza dellimmissione del Po
Anni
2009
2010
2011

Goro
100,0
99,4
103,5

Adria
100,0
100,4
101,2

Portata del fiume (mc/sec)


Anni
2009
2010
2011

Goro
240
248
261

Adria
185
187
191

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

80

Indici composti: un esempio il calcolo con il


metodo di Laspeyres

09 I10

09I11

0,994 240 + 1,004 185

__________________________________

240 + 185
1,035 240 + 1,012 185

__________________________________

240 + 185

Introduzione alla statistica per le scienze economiche e sociali

100

100

Febbraio 2015

81

Indici composti: un esempio il calcolo con il


metodo di Paasche

0,994 248 + 1,004 187


09

I10 =

__________________________________

100

248 + 187

1,035 261 + 1,012 191


09I11

__________________________________

100

261 + 191

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

82

Il calcolo dellinflazione

Uno dei casi pi significativi di applicazione dei


numeri indici composti il calcolo dell'inflazione
Si utilizza un campione rappresentativo di
prodotti (paniere), ma non si attribuisce la stessa
importanza alla variazione di prezzo di prodotti le
cui vendite hanno differente rilevanza
indispensabile un sistema di ponderazione
relativo alla dimensione delle vendite dei diversi
beni

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

83

Deflazionamento
Gli indici dell'inflazione sono uno strumento per
deflazionare i prezzi e per calcolare l'indice del
potere di acquisto della moneta

Deflazionare significa depurare l'andamento di


un prezzo dalle variazioni dovute allinflazione ..
.. e valutare quindi l'evoluzione di quel prezzo in
termini reali, passando dai valori in moneta
corrente ai valori in moneta costante
il deflazionamento consiste nel dividere i prezzi
del prodotto considerato per gli indici
dell'inflazione

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

84

4 MISURE DI POSIZIONE E MISURE DI


VARIABILITA

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

85

Misure di posizione

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

86

Il calcolo di una media

Ha lo scopo di rappresentare con un solo


indicatore un insieme dei dati, evidenziando
quindi l'ordine di grandezza
Le medie possono essere distinte in:
medie ottenute in base a un vincolo analitico
medie che fanno riferimento alla posizione dei
valori

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

87

MEDIE
ANALITICHE
(su fenomeni quantitativi)

aritmetica
geometrica
quadratica
ecc.

DI POSIZIONE
mediana
(su fenomeni
quantitativi e
qualitativi ordinali)
moda
(su tutti i fenomeni)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

88

Le medie analitiche

Il calcolo di una media analitica consiste nel


determinare un'opportuna operazione che viene
applicata all'insieme dei valori
importante individuare l'operazione pi
opportuna per la specifica situazione

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

89

Le principali medie analitiche


Media aritmetica (l'operazione la somma dei
valori)
media aritmetica semplice
media aritmetica ponderata
Media geometrica (l'operazione il prodotto
dei valori)
Media quadratica (l'operazione il quadrato
dei valori)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

90

La media aritmetica

__

La media campionaria si indica con X


La media della popolazione si indica con
In tanti casi, per indicare in modo generico la
media aritmetica si utilizza M

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

91

La media aritmetica semplice


Somma dei valori divisa per il numero dei valori
x1 + x2 + ... xi + ... xn
____________________________

Introduzione alla statistica per le scienze economiche e sociali

xi
=

__________

Febbraio 2015

92

La media aritmetica ponderata: quando viene


utilizzata

Quando i dati sono presentati in una distribuzione


di frequenze, dove a ogni modalit corrisponde
una certa numerosit di unit statistiche (pesi)
In generale, quando si ritiene utile (o necessario)
ponderare i valori con un opportuno sistema di
pesi, in quanto ragionevole dare a ogni valore
un proprio livello di importanza

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

93

Media aritmetica ponderata


Somma dei prodotti di ogni valore con il relativo peso (p),
divisa per la somma dei pesi
x1 p1 + x2 p2 + .. + xi pi + ... xn pn
_______________________________________________________

p1 + p2 +. + pi + + pn
(xi pi)
________________

pi

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

94

Primo esempio di media aritmetica ponderata - dati di


partenza: numero di acquirenti di un prodotto per durata del
processo decisionale in minuti

Minuti (xi)

Acquirenti
(n)

1
2
3
4
5
6
7

71
77
98
88
95
49
22

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

95

Primo esempio di media aritmetica ponderata:


calcolo

(1 71) + (2 77) + (3 98) + (4 88) + (5 95) + (6 49) + (7 22)


M =
71 + 77 + 98 + 88 + 95 + 49 + 22

M=

1794
= 3,588
500

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

96

Secondo esempio di media aritmetica ponderata - dati di partenza:


velocit del vento rilevata ed estensione dellarea coinvolta

Velocit del vento


(km/ora)

Area
coinvolta
(000 kmq)

Estremo nord

221

17,7

Nord est

215

11,0

Ovest costiero

193

4,5

Ovest interno

160

9,9

Sud peninsulare

202

4,2

Sud insulare

204

7,8

Aree rilevate

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

97

Calcolo della media aritmetica ponderata

221 17,7 + 215 11,0 + ..........


______________________________________________

17,7 + 11,0 + .........


11168,8
=

____________

= 202,70

55,1

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

98

Calcolo della media aritmetica ponderata


per un fenomeno continuo

Se il fenomeno in classi ed continuo, non si


hanno i valori precisi degli xi

Si considerano come xi i valori centrali delle


classi
Per eventuali classi aperte, si fissano nel modo
pi ragionevole possibile gli estremi

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

99

Propriet della media aritmetica

La media di un gruppo di valori sempre compresa


tra il valore minimo e quello massimo

La somma degli scarti dalla media sempre pari a


zero

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

100

MEDIA QUADRATICA (rms)


(root mean square)
utile quando ci sono valori negativi e valori
positivi, che darebbero una media aritmetica
molto prossima allo zero
maggiore o uguale alla media aritmetica

Si alzano al quadrato i valori


Si calcola la media dei quadrati
Si estrae la radice quadrata di questa media
rms = radq [ (xi)2 / n]
Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

101

Esempio di media quadratica - dati di


partenza: precipitazioni piovose a Bombay

Anni

Scostamento dalla media


(mm)

1971

173

1972

83

1973

-16

1974

13

1975

-137

1976

-116

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

102

Esempio di media quadratica - calcolo

(173)2 + (83)2 + (-16)2 + (13)2 + (-137)2 + (-116)2


rms = ____________________________________________________________
6
69468
rms = radq

__________

radq (11578) = 107,601

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

103

La media geometrica (Mg)


Radice n-esima del prodotto degli n valori:

x1 x2 ... xn

Si utilizza per il calcolo della media del tasso di


interesse, oppure del tasso di incremento o di
decremento
In questi casi, la somma non idonea a fornire
il reale ordine di grandezza del fenomeno

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

104

Esempio di calcolo di una media geometrica

La vendita in valore di un prodotto mostra da un


anno allaltro le seguenti variazioni %:

2010:
2011:
2012:
2013:

-0,6%
-3,2%
+1,7%
+0,3%

Mg= (0,994 * 0,968 * 1,017 * 1,003)1/4


= 0, 9953 (decremento medio annuo dello 0,47%)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

105

Le principali medie di posizione

Mediana (Me) (la modalit che si colloca al


centro della successione dei termini, ordinati
in senso non decrescente)
Moda (Mo) (la modalit pi frequente)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

106

La mediana

La mediana di n osservazioni di un fenomeno


quantitativo oppure qualitativo ordinale, la
modalit che nella successione dei valori, ordinati
in senso crescente, occupa il posto centrale
preceduta dal 50% dei valori, seguita dal
50% dei valori

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

107

La mediana: il calcolo

Con n dispari: una sola


mediana
Il valore corrispondente
allunit (n+1)/2

Con n pari: due mediane


I valori corrispondenti
alle unit:
n/2
(n / 2) + 1

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

108

La mediana primo esempio


Stazione

Classificazione trofica

Salinit pH

Lido di Volano

Scadente

17,6

27,4

8,24

Porto
Garibaldi

Scadente

16,4

28,9

8,29

Casalborsetti

Mediocre

16,4

30,2

8,30

Marina di Rav.

Mediocre

16,5

31,9

8,27

Lido Adriano

Mediocre

16,4

31,6

8,28

Cesenatico

Mediocre

16,2

32,8

8,19

Rimini

Buona

16,6

33,4

8,27

Cattolica

Buona

16,5

34,0

8,24

Relativamente alla classificazione trofica, la mediana la modalit


mediocre
Per quanto riguarda la temperatura, le mediane sono 16,4 e 16,5
Per il pH, la mediana 8,27
Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

109

La mediana secondo esempio


(5 insegne della grande distribuzione)
Istituti
A
B
C
D
E

n. promozioni
ultimo mese
46
54
35
40
62

Entit delle
promozioni
Forte
Media
Ridotta
Ridotta
Fortissima

Relativamente al numero di promozioni, la mediana 46


Per quanto riguarda lentit delle promozioni, la mediana
la modalit media"

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

110

La mediana terzo esempio (dati in distribuzione di frequenza:


numero di comuni della Lombardia nord-occidentale per
numerosit di incendi nellultimo decennio)
N. incendi
(xi)

unit
(frequenze)
fx

1
2
3
4
5
6
7
TOTALE

71
77
98
102
95
55
12
510

frequenze
cumulate
fx
71
148
246
348
443
498
510

px

0,139
0,290
0,482
0,682
0,869
0,976
1,000

La mediana il valore assunto dal fenomeno in corrispondenza


di p'x = 0,5
Nellesempio, = 4, in quanto px = 0,5 cade nella quarta classe
(considerando le prime tre insieme, infatti, non si arriva a 0,5,
ma solo a 0,482)
Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

111

Media e mediana nelle distribuzioni


asimmetriche
Nella distribuzione di una popolazione o di un
campione, la media non separa in due parti uguali
le unit statistiche (tranne quando la media
coincide con la mediana).
La media risente del fatto che alcuni valori siano
molto distanti dalla media stessa, mentre la
mediana non ne risente

Se una coda della distribuzione dei valori molto


allungata, la media spostata verso questa coda,
in confronto alla mediana, la quale non d cos
importanza ai valori estremi della distribuzione

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

112

Tipi di asimmetria
Asimmetria negativa: coda pronunciata verso sinistra,
quindi maggiore concentrazione verso le modalit
maggiori
Asimmetria positiva: coda pronunciata verso destra,
quindi maggiore concentrazione verso le modalit
minori
Lasimmetria si misura con lindice di asimmetria di
Fisher ( un indicatore di variabilit, che sar
affrontato in seguito):
(xi - )3 / n ]
________________

3
Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

113

Esempio di distribuzione asimmetrica: et dei


decessi per cause naturali (asimmetria negativa)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

114

I percentili
Cosa sono?
Il percentile di ordine p (100p) il valore xp
che divide in due parti la distribuzione
(ordinata), in modo che il p% dei valori sia
prima di xp
Esempio
Il primo percentile il valore in
corrispondenza del quale si raggiunge l1%
delle unit
Il decimo percentile il valore in
corrispondenza del quale si raggiunge il 10%
delle unit

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

115

I percentili: casi particolari

Il cinquantesimo percentile corrisponde alla


mediana
Il decimo percentile corrisponde al primo decile, il
ventesimo percentile al secondo decile, ecc.
Il venticinquesimo percentile corrisponde al primo
quartile (Q1), il settantacinquesimo percentile
corrisponde al terzo quartile (Q3)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

116

Una applicazione: rilevazione del fosforo reattivo


alla stazione di Cattolica su 365 giorni (mg/mc)
100p

3
10
25
50
75
95
99

mg (xp)

1,89
1,97
2,43
2,81
3,51
4,62
7,16

(mediana)

Come si interpretano?
Il 3% delle rilevazioni ha un valore < 1,89
Il 10% delle rilevazioni ha un valore < 1,97
Il 5% delle rilevazioni ha un valore > 4,62
Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

117

100p
3
10
25
50
75
95
99

mg (xp)
1,89
1,97
2,43
2,81
3,51
4,62
7,16

% delle rilevazioni che hanno un valore


<3,51?
75%

valore corrispondente al primo 25% di


stazioni?
< 2,43
% delle rilevazioni che hanno un valore >
1,97, ma < 4,62
85%
una rilevazioni che ha fatto rilevare un
valore = 1,91 in corrispondenza del
_______ percentile?
Approssimativamente il quinto

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

118

Box Plot
un grafico atto a rappresentare:
Una misura di posizione, solitamente la mediana (qui
nellesempio indicata con Q2)
Una misura di variabilit, ossia la differenza
interquartile, che in seguito approfondiremo
(differenza fra Q3 e Q1)
Il valore massimo e
quello minimo

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

119

La moda (Mo)
la modalit alla quale corrisponde la massima frequenza
La moda interessante quando n piuttosto elevato e
quando una modalit ha frequenza molto pi elevata delle
altre
Programmazione delle aperture notturne delle grandi superfici
di vendita: livello di accordo
Livello di accordo
n. testimoni interpellati
Accordo incondizionato
19
Accordo parziale
98
N accordo, n disaccordo
35
Disaccordo parziale
55
Disaccordo incondizionato
16
Moda: accordo parziale
Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

120

Misure di variabilit

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

121

Il significato di variabilit

Una media sintetizza un gruppo di dati in un unico


valore; questa operazione comporta tuttavia una
perdita di informazioni
Due campioni possono fare riscontrare la stessa
media, pur a fronte di situazioni molto diverse
Le misure di variabilit sono indicatori in grado di
valutare in modo sintetico le differenze tra i valori
di un gruppo di dati

Non assumono mai valori negativi


Sono pari a zero se il fenomeno non presenta
variabilit
Presentano valori crescenti all'aumentare
della variabilit

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

122

Il campo di variazione
(range)
la differenza tra il valore massimo xmax e il valore
minimo xmin tra quelli osservati:
xmax - xmin
Ha il difetto di tenere conto soltanto dei valori
estremi, non essendo sensibile alle modificazioni nei
valori intermedi (che alterano comunque la
variabilit globale)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

123

La deviazione standard o scarto quadratico


medio
Si basa sugli scarti tra i singoli valori e la loro media
aritmetica:
xi - M
Non sarebbe possibile utilizzare la media aritmetica
degli scarti, poich la loro somma algebrica
sempre nulla
Si pu invece impiegare la media dei quadrati degli
scarti (rms)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

124

Simbologia

La deviazione standard campionaria si indica con s

La deviazione standard della popolazione si indica


con
Spesso, per indicare in modo generico a deviazione
standard, si utilizza SD

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

125

SD: il calcolo

Si dice deviazione standard la media quadratica


degli scarti di ogni valore dalla media aritmetica
SD = radq [ (xi - M)2 / n]
La deviazione standard espressa nella stessa unit
di misura dei valori del fenomeno
Il numeratore che troviamo sotto la radice
quadrata, ossia (xi - M)2 , chiamato devianza

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

126

Alcune propriet della media aritmetica e della


deviazione standard

Se a tutti i valori di una serie viene sommato


un numero, la media aumenta di questo
valore, la deviazione standard non cambia
Se tutti i valori di una serie vengono
moltiplicati per una costante, la media e la
deviazione standard risultano moltiplicate per
questa costante

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

127

Caso 1
1, 3, 4, 5, 7

6, 8, 9, 10, 12
(y = x + 5)

media

SD

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

128

Caso 2
1, 3, 4, 5, 7

3, 9, 12, 15, 21

(y = x 3)

media

12

SD

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

129

Caso 3
5, - 4, 3, - 1, 7

- 5, 4, - 3, 1, - 7
(y = -x)

media

-2

SD

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

130

La varianza

La varianza il quadrato della deviazione


standard
Non espressa nella stessa unit di misura del
fenomeno, ma nel quadrato di questa unit di
misura

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

131

Altre misure di dispersione

Differenza interquartile (utile soprattutto


quando la distribuzione dei valori non
approssimabile con la distribuzione normale)
la differenza tra il 75esimo percentile e il
25esimo percentile

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

132

Gli indici relativi di variabilit

Quando due fenomeni hanno unit di misura diverse,


il confronto diretto in termini di variabilit non
proponibile
In altri casi, il confronto tra la variabilit di due
fenomeni pu essere poco utile per il diverso valore
medio dei fenomeni (per esempio, redditi e spesa
per generi farmaceutici)
Altre volte, si vorrebbe sapere se la variabilit forte
oppure debole

Per affrontare questi problemi, si utilizzano gli indici


relativi di variabilit, da cui viene eliminata
l'influenza dell'unit di misura e della dimensione
media dei fenomeni considerati

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

133

Gli indici di variabilit rapportati a un


valore medio

Il pi utilizzato il rapporto tra la deviazione


standard e la media aritmetica
Si ricava in questo modo il coefficiente di
variazione (CV):
CV =

_____

Solitamente, CV viene moltiplicato per 100, per


agevolarne la lettura; si interpreta quindi come la
% della sulla media

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

134

Obiettivi del calcolo del CV

Confronto tra variabilit calcolate su fenomeni


con unit di misura diverse o con ordini di
grandezza molto differenti
Il CV pu presentare valori superiori all'unit (o
a 100, se stato moltiplicato per 100), quando
la deviazione standard maggiore della media

Il CV perde di significato se il fenomeno pu


presentare valori negativi e positivi; in questo
caso, la media pu risultare molto prossima a
zero

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

135

Gli indici di variabilit rapportati al loro massimo

Sono idonei a rispondere a una domanda di questo


tipo:
La variabilit espressa da una deviazione
standard, o da una varianza, forte o debole?

Si calcolano indicatori il cui campo di variazione


standard (solitamente, l'intervallo 0 1)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

136

Il procedimento

Si identifica la situazione di massima variabilit


(presente quando il fenomeno assume soltanto i
due valori pi distanti tra loro)
Come individuare il massimo valore che la
deviazione standard pu assumere? Si calcola il
campo di variazione teorico (differenza tra il valore
massimo possibile e il valore minimo possibile) e si
divide per due
Si rapporta la deviazione standard effettivamente
ottenuta al valore massimo che esso pu assumere

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

137

Un problema

A volte, si ha difficolt a individuare in maniera


oggettiva il valore minimo teorico e soprattutto il
valore massimo teorico che il fenomeno pu
assumere
In questi casi, come valore massimo teorico si
adotta semplicemente il valore pi alto tra quelli
osservati

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

138

5 LA CONCENTRAZIONE

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

139

Il significato di concentrazione

un caso particolare di variabilit, in cui il


fenomeno:
perfettamente trasferibile
assume soltanto valori non negativi

Fra le diverse misure di concentrazione, l'indice


pi utilizzato il rapporto di concentrazione

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

140

Persone con un particolare stile di vita in


Nord Europa
Paesi

ni

000 persone (xi)

Finlandia

57

Estonia

35

Norvegia

42

Danimarca

30

Svezia

48

TOTALE

212

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

141

Il metodo - 1

Per calcolare il rapporto di concentrazione occorre


ordinare i valori in senso crescente (o per lo meno in
senso non decrescente, se compaiono valori uguali)

In secondo luogo, necessario calcolare le frequenze


relative (fi) ossia il rapporto tra ni e il numero di
valori considerati (nellesempio, 5)

Si calcolano poi le quantit relative (qi) ossia xi / xi


(nellesempio, xi = 212)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

142

Il metodo - 2

Successivamente, si calcolano le frequenze


relative cumulate e le quantit relative cumulate
La frequenza relativa cumulata (fi) in
corrispondenza di ogni ni, si ottiene sommando
la frequenza relativa corrispondente allni in
esame e tutte le frequenze relative precedenti
La quantit relativa cumulata (qi) in
corrispondenza di ogni ni, si ottiene sommando
la quantit relativa corrispondente allni in
esame e tutte le quantit relative precedenti

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

143

Frequenze e quantit relative

Totale

ni

xi

fi

qi

30

0,2

0,1415

0,2

0,1415

35

0,2

0,1651

0,4

0,3066

42

0,2

0,1981

0,6

0,5047

48

0,2

0,2264

0,8

0,7311

57

0,2

0,2689

212

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

144

Equidistribuzione

Se il fenomeno equamente distribuito tra le diverse


unit statistiche, abbiamo:
f1 = q1

f2 = q2

. . . . . . fn = qn

di conseguenza:
f'1 = q'1

f'2 = q'2 . . . . . . fn = q'n

In caso contrario (come nella realt solitamente


avviene):
f'1 > q'1
f'2 > q'2 . . . . . . f'n-1 > q'n-1
f'n = q'n

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

145

In termini grafici
Si disegna un diagramma con i punti individuati dalle
coppie (f'i, q'i)
Si pone convenzionalmente
f'0 = 0 e q'0 = 0

Si ottiene in questo modo una spezzata di


concentrazione, contenuta in un quadrato di lato
unitario, con la concavit rivolta verso l'alto

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

146

Spezzata di concentrazione
B

q'4

q'3
q'2
q'1
0O

A
0

f'1

f'2

f'3

Introduzione alla statistica per le scienze economiche e sociali

f'4

Febbraio 2015

147

La curva di Lorenz

Quando n pi elevato rispetto al caso considerato


come esempio, si possono unire i punti della
spezzata con una linea smussata
Si ottiene cos la cosiddetta curva di concentrazione
o curva di Lorenz
La situazione di equidistribuzione corrisponde alla
diagonale, i cui punti hanno ascissa e ordinata uguali
La superficie delimitata dal segmento di
equidistribuzione e dalla spezzata (o dalla curva) di
concentrazione, larea di concentrazione

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

148

Curva di Lorenz
B

0,8
0,6
area di concentrazione

0,4

area residua

0,2
0

A
O

0,2

0,4

Introduzione alla statistica per le scienze economiche e sociali

0,6

0,8

1
Febbraio 2015

149

Il rapporto di concentrazione di Gini

R =

area di concentrazione
____________________________________________

area di massima concentrazione

Ovvero, in termini matematici:

R = 1 - [(q'i + q'i-1) fi]


area di massima concentrazione: triangolo OAB

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

150

Linterpretazione

R oscilla tra i seguenti limiti:


R = 0, nel caso di equidistribuzione
R = 1, nel caso di massima concentrazione
Ad esempio, R = 0,6 significa che la
concentrazione pari al 60% del massimo possibile

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

151

Alcune propriet di R
Rimane invariato moltiplicando ciascun valore per
una costante > 0 (es: redditi prima in euro, poi
in dollari)
Sommando una costante c a ogni valore,
diminuisce se c > 0, aumenta se c < 0, con il
vincolo (xi + c) > 0
Infatti, se c > 0, l'aumento risulta in termini
relativi pi elevato per i valori piccoli (per
esempio, un aumento di stipendio di ammontare
identico per ogni occupato)
L'opposto si verifica se c < 0 (per esempio, una
tassa di ammontare uguale per tutti i redditi)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

152

6 ANALISI BIVARIATA: CORRELAZIONE E


REGRESSIONE LINEARE SEMPLICE

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

153

Correlazione

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

154

Correlazione: qualche definizione preliminare

Correlazione: studio della relazione tra due


fenomeni quantitativi
Alcuni valori di X si associano frequentemente a
specifici valori di Y?
Conoscendo il valore di X per una unit
statistica, si pu predire il valore di Y?

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

155

Dipendenza e interdipendenza

Relazioni di dipendenza: quando un fenomeno un


antecedente (temporale, logico o di altro genere)
rispetto a un altro
Relazioni di interdipendenza: i fenomeni si collocano
sullo stesso piano, non esistendo tra loro un
fenomeno antecedente e un fenomeno conseguente

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

156

Lanalisi di correlazione

finalizzata allo studio dellassociazione


esistente tra due fenomeni quantitativi, in
termini di interdipendenza

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

157

I primi passi
Rappresentazione grafica dei dati con un diagramma
di dispersione
Calcolo degli scostamenti di ogni valore dalla media:
se a scostamenti positivi di un fenomeno
corrispondono scostamenti positivi dell'altro,
allora esiste una relazione diretta
altrimenti, la relazione inversa (a scostamenti
positivi delluno corrispondono scostamenti
negativi dellaltro)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

158

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

159

La covarianza
un primo indicatore in grado di fornire
informazioni sull'intensit e sulle caratteristiche
delle relazione esistente tra due fenomeni
quantitativi
COV (X,Y)

la media dei prodotti dei rispettivi scostamenti


dalla media (x'i e y'i)
COV (X,Y) =

(x'i y'i)

______________

n
Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

160

Il problema della covarianza


Quando la covarianza assume valori positivi, si in
presenza di una relazione diretta
Valori negativi segnalano una relazione inversa
Valori della covarianza pari a 0 corrispondono
all'assenza di una relazione lineare tra i due
fenomeni
Il problema della covarianza legato al fatto che
questo indicatore espresso in termini del prodotto
delle unit di misura di X e di Y

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

161

Il coefficiente di correlazione lineare


la covarianza calcolata sugli scostamenti
standardizzati:
r =

[z (xi) z (yi)]

________________________

n
Cosa sono gli scostamenti standardizzati? sono
gli scostamenti dalla media rapportati alla
deviazione standard; ad es., per X:
z (xi) =

xi - M(X)

______________

SD (X)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

162

Una formula alternativa per il calcolo di r

COV (X,Y)
r =

______________________

SD (X) SD (Y)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

163

Linterpretazione del coefficiente di


correlazione - 1

Esprime laddensamento dei punti attorno alla retta


Misura lintensit del legame delle due variabili
sempre compreso tra 1 e + 1

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

164

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

165

Linterpretazione del coefficiente di


correlazione - 2

pari a 1 quando si in una situazione di perfetta


correlazione positiva
pari a 1 quando si in una situazione di perfetta
correlazione negativa
Tende invece ad avvicinarsi a zero quando la
relazione piuttosto debole

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

166

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

167

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

168

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

169

r invariante per cambiamenti di scala

Non cambia se si aggiunge una costante a tutti i


valori di una variabile
Non cambia nemmeno se si moltiplicano tutti i valori
di una variabile per una costante positiva

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

170

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

171

Associazione e causalit non sempre coincidono

L'esistenza di un elevato valore di r pu essere


attribuita:
a una relazione di interdipendenza
a una relazione di dipendenza
alla dipendenza di entrambi i fenomeni da un
terzo fenomeno (correlazione spuria)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

172

Un esempio: diffusione e durata di una specie


La diffusione geografica di una specie e la sua
durata nel tempo risultano tra loro associate
piuttosto precisamente.
Una specie diffusa sopravvive a calamit naturali
locali?
Una lunga durata tende a favorire una pi ampia
diffusione geografica?
maggiore la reperibilit di fossili di specie
diffuse, e ci lascia erroneamente ipotizzare una
durata prolungata?

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

173

Regressione lineare

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

174

In molti casi si considerano:

Una variabile dipendente (Y): regredendo


Una variabile indipendente (X): variabile
esplicativa o regressore

Solitamente, X un antecedente logico o


temporale

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

175

Scopi dellanalisi di regressione

Studiare come un fenomeno dipende dall'altro


Comprendere se si pu predire la variabile
dipendente (Y) partendo dalla variabile esplicativa
(X)

Ad esempio, l'interesse di un ricercatore pu


riguardare lindividuazione dellintensit delle
polveri totali sospese in corrispondenza di diversi
gradi di usura del manto stradale (e quindi dei
relativi residui)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

176

Con la regressione, quindi,


si cerca di capire quanto aumenta o diminuisce
la variabile dipendente
in corrispondenza di un aumento unitario della
variabile indipendente

Per esempio, lentit delle modificazioni nello


strato di ozono rispetto a un incremento unitario
di clorofluorocarburi diffusi nellalta atmosfera

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

177

Linterpolazione lineare

Occorre una funzione interpolante, una funzione


analitica che sia il pi possibile vicina ai punti (xi,yi)
Interpolazione di una successione di punti:
adattamento ai valori osservati di una opportuna
funzione
Limitando lanalisi all'interpolazione lineare, si
hanno funzioni del tipo:
y=a+bx
A volte, i simboli utilizzati sono:
y = 0 + 1 x

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

178

I parametri della funzione


L'intercetta a (0) il valore teorico della variabile
dipendente in corrispondenza di un valore nullo della
variabile esplicativa (in sintesi, il valore di Y
quando X = 0);
ha la stessa unit di misura di y

La pendenza b (1) (o coefficiente angolare)


l'entit della variazione teorica della variabile
dipendente in corrispondenza di un incremento di
una unit della variabile esplicativa
quindi espressa in termini di unit di Y / unit di X:
infatti, la variazione verticale / variazione
orizzontale

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

179

Interpolazione ed estrapolazione

Lutilizzo della funzione per predire valori di Y


nellintervallo osservato dei valori di X
chiamato interpolazione

Lutilizzo della funzione per predire valori di Y


allesterno dellintervallo osservato dei valori di
X chiamato estrapolazione

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

180

Il calcolo dei parametri


r SD (Y)

b =

___________________

a =

MY (b MX)

SD (X)

Per determinare i parametri della funzione


interpolante, si ricorre alla condizione dei minimi
quadrati

La funzione interpolante infatti quella che rende


minima la somma dei quadrati delle distanze tra i
valori effettivamente rilevati di Y e i valori di Y)
che possono essere dedotti dalla funzione
Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

181

Esempio riferito alla percentuale di frequentatori di supermercati che


ricordano la marca di un prodotto e allestensione del lineare
occupato da questo prodotto sugli scaffali (metri)

y = 17,5 + 5,3 x
r = + 0,874
17,5 (%) la quota di frequentatori che ricordano
comunque la marca di quel prodotto nellipotesi di
assenza di questo prodotto dagli scaffali
5,3 (%) laumento dellla quota di frequentatori
che ricordano la marca di quel prodotto in
corrispondenza di un incremento del lineare di 1
metro

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

182

Il coefficiente di determinazione (r2)

Indica la validit (o bont) della funzione


adottata
il quadrato del coefficiente di correlazione (r2)

r2 esprime la quota di variabilit del fenomeno Y


che spiegata dalla retta di regressione
Indica quanto la retta riassume l'effettivo legame
tra i due fenomeni

Assume valori compresi tra 0 e 1


Pi si avvicina all'unit, migliore l'adattamento
della retta ai valori osservati
Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

183

RMSE (root mean square error) o errore


standard della stima
la media quadratica dei residui (e)
Si calcola agevolmente con:
RMSE = SD (Y) radq (1-r2)
Si indica anche con sy|x

Si tratta di una misura di quanto i valori osservati


variano intorno alla retta di regressione
un concetto analogo allo scarto quadratico medio in
riferimento alla media

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

184

RMSE rappresenta lerrore che si commette nel


predire Y con laiuto di X
espresso nella stessa unit di misura di Y
Il valore di Y previsto per un determinato
soggetto con laiuto della retta di regressione si
discoster in media da quello effettivo per
unentit pari al RMSE

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

185

Studio sulla associazione tra consumo di gelato e


temperatura
X: temperatura
Y: consumo gelato (grammi/mese procapite)
X : media 25; SD 4,87
Y : media 309; SD 48,67
r: + 0,975
Pendenza
48,67 0,975 / 4,87 = 9,74
Intercetta
309 25 9,74 = 65,58
RMSE = 10,83
significa che il consumo previsto per una
determinata temperatura tender a scostarsi dal valore
effettivo in media per 10,83 grammi unit

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

186

Lapplicazione alle serie storiche

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

187

Definizione di serie storica

Per serie storica di un fenomeno quantitativo D si


intende una successione dei valori dt (t = 1, 2,
..., n), assunti dal fenomeno in tempi (o intervalli
temporali) successivi

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

188

Le finalit dellanalisi

Descrizione in termini sintetici dell'evoluzione


temporale di un fenomeno
Formulazione di proiezioni sul futuro del fenomeno
considerato
soggette a una importante condizione: la
permanenza delle condizioni che hanno concorso a
determinare l'evoluzione precedente

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

189

La stima del trend con il metodo della regressione

Il trend: la tendenza di fondo di una serie storica


Per mezzo della regressione si vuole stimare la
funzione pi in grado di esprimere la relazione tra il
fattore tempo e il fenomeno oggetto di studio
per poi predire il fenomeno in esame a partire
dalla scansione dei tempi

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

190

Il fattore tempo come variabile indipendente

Consideriamo il fattore tempo come la variabile


indipendente (x) e il fenomeno in esame (D) come
la variabile dipendente (y)
Possiamo effettuare una normale analisi di
regressione lineare, identificando sia la retta di
regressione, sia il relativo coefficiente di
determinazione (r2)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

191

La semplificazione della scala temporale

Per semplificare i calcoli, gli anni possono essere


trasformati in una unit di misura pi semplice .
. non tanto 2009, 2010, 2011, 2012, ecc. .
. quanto 1, 2, 3, 4, ecc.

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

192

La funzione

y = a + b

Esprime l'ipotesi di variazioni di ammontare


costante fra due tempi consecutivi (espresse
nella stessa unit di misura del fenomeno
analizzato), uguali alla pendenza
Lintercetta indica il valore assunto
teoricamente dal fenomeno (stimato secondo
la retta interpolante) quando x = 0, ossia nel
tempo immediatamente precedente al primo
dei tempi presi in considerazione

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

193

Un esempio: casi di pubblicit comparativa in


un determinato settore, tra il 2005 e il 2011

Anni
2005
2006
2007
2008
2009
2010
2011

(x)
1
2
3
4
5
6
7

n. (y)
28
31
32
36
36
39
41

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

194

r = 0,9877

pendenza pari a

2,107

intercetta pari a

26,286

y = 26,286 + 2,107 x

r2 = (0,9877)2 = 0,9756

RMSE = 4,267 radq (1 0,9756) = 0,666


Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

195

Secondo la funzione lineare ricavata, si hanno


quindi variazioni di ammontare costante (in
numero di casi), pari a +2,107 fra due anni
consecutivi

Il numero teorico di casi quando x pari a


zero (ossia, nellanno 2004) di 26,286

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

196

r2 =

0,9877

Una elevata quota di variabilit del fenomeno


Y spiegata dalla retta di regressione
Quindi, la retta di regressione idonea a
riassumere l'effettivo legame tra il fenomeno
considerato e il fattore tempo, anche

In altri termini, tenere conto dellevoluzione


della serie storica aiuta nella predizione dei
valori futuri

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

197

RMSE = 0,666 significa che il numero di casi


previsto per un determinato anno si discoster da
quello effettivo in media per 0,666
Il confronto con la SD (Y), molto pi elevata,
consente di affermare che con lutilizzo del
fattore tempo nel ruolo di variabile indipendente,
la capacit di predizione di Y migliora
sensibilmente
In altri termini, lerrore medio di predizione con
limpiego di X si riduce In misura consistente

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

198

La proiezione

Utilizzando la funzione interpolante, possibile


effettuare proiezioni sul futuro del fenomeno
considerato
Per esempio, per il 2013 (x = 9), possibile
fare questa proiezione:
y = 26,286 + 2,107 9 = 45,25

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

199

Trend non lineari


Anche nello studio delle serie storiche, r prossimo a zero
non necessariamente significa assenza di relazione
(possiamo essere in presenza di una associazione non
lineare)
Per esempio, la % di tannino estraibile dalla felce aquilina
ha questo trend nei mesi da maggio a ottobre:

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

200

7 NOZIONI ELEMENTARI DI PROBABILITA

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

201

Definizione di probabilit

Secondo la teoria frequentista, adatta per esempio


ai processi che si possono ripetere tante volte:
la probabilit di un evento la percentuale dei
casi in cui tale evento pu verificarsi, sul totale dei
casi possibili

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

202

Simboli
La probabilit che si verifichi levento E si indica
con P(E)
La probabilit che si verifichi levento contrario
(non E) si indica con P(non E)
P(E) = [1 - P(non E)]
levento impossibile ha probabilit pari a zero

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

203

Spazio degli eventi


importante, per ogni esperimento, definire lo
spazio degli eventi (S), che comprende tutti i
possibili eventi. Si utilizzano solitamente le
parentesi graffe per indicare tutti gli eventi
possibili. Per esempio:
S = { x: 15 < x < 30}

Ogni elemento dello spazio degli eventi detto


evento semplice (un evento semplice definito da
una sola caratteristica)
Un qualsiasi insieme di eventi semplici detto
evento congiunto o composto (un evento
congiunto definito da due o pi caratteristiche)
Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

204

Eventi compatibili e incompatibili

Due eventi sono incompatibili quando il verificarsi


delluno esclude il verificarsi dellaltro
Due eventi sono compatibili quando il verificarsi
delluno non esclude il verificarsi dellaltro

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

205

EVENTI INCOMPATIBILI

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

206

EVENTI COMPATIBILI

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

207

Eventi dipendenti e indipendenti


Due eventi sono indipendenti quando la probabilit
che il secondo si verifichi la stessa,
indipendentemente dal verificarsi o meno del primo
es.: estrazione con reimmissione
Due eventi sono dipendenti quando la probabilit
che il secondo si verifichi diversa, a seconda che si
sia verificato o meno il primo
es.: estrazione senza reimmissione

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

208

Probabilit condizionata

Ha significato solo nellambito degli eventi


dipendenti
la probabilit che si verifichi un secondo
evento (F), quando si impone una condizione
sul primo evento (E)
P (F | E)

(si legge: probabilit di F dato E)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

209

Esempio di probabilit condizionata


Si stima che un complesso idrovoro sia in grado
di fronteggiare una determinata piena del
fiume con una probabilit del 94%.
Nel caso che si verifichi levento sopra esposto
(C, ossia capacit di fronteggiare la piena), si
stima che lintera area golenale sar preservata
dalla piena nel 62% dei casi.
La probabilit condizionata, in questo caso, la
probabilit che lintera area golenale sia
preservata. La indichiamo con P(G).

P (G | C) = 0,62

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

210

Secondo esempio di probabilit condizionata

Su tutte le azioni di vendita diretta tramite


Internet, un 5% dei soggetti raggiunti
acquista sul momento, un altro 6% il giorno
successivo.
La probabilit che i soggetti non acquistino il
giorno successivo, nel caso che non abbiano
acquistato durante la vendita diretta, pari
a:

P (Dopo | Durante) = 89/95 = 0,937

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

211

La propriet moltiplicativa

La probabilit che si
(entrambi) si indica con:

verifichino

due

eventi

P (E e F) oppure con P (E F)
(probabilit dellintersezione degli eventi E e F)

Ha significato solo se gli eventi sono compatibili


Questa probabilit si individua per mezzo di un
prodotto

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

212

Applicazioni della propriet moltiplicativa - 1


Se gli eventi sono tra loro indipendenti:
P (E e F) =

P(E) P(F)

Siano R1 e R2 due strategie di comunicazione


alternative. Le due probabilit di raggiungere il
target sono rispettivamente il 60% e il 70%. Quale
la probabilit che due comunicatori, uno con la
strategia R1, laltro con la strategia R2, raggiungano
entrambi il target?
60/100 70/100 = 0,42

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

213

Applicazioni della propriet moltiplicativa - 2


Se gli eventi sono tra loro dipendenti:
P (E e F) = P(E) P(F|E)
Date le stesse condizioni relative alle strategie
R1 e R2, immaginiamo che 100 comunicatori
utilizzino la strategia R1 e che esattamente 60
di questi raggiungano il target.
Quale la probabilit che, estraendo senza
reimmissione due comunicatori, entrambi
abbiano raggiunto il target?
60/100 59/99 = 0,36

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

214

Applicazioni della propriet moltiplicativa - 3


Ancora con eventi tra loro dipendenti
P (E e F) = P(E) P(F|E)
Lungo molte coste del Mediterraneo, lurbanizzazione di
zone caratterizzate da piante pioniere genera nel 77% dei
casi rilevanti conseguenze sulla macchia mediterranea
dellentroterra, perch si riduce la barriera di protezione
dal vento
Se il suddetto evento si verifica, in 92 casi su 100 la
macchia mediterranea risente pesantemente anche
delleffetto della salsedine.

Quale la probabilit che, urbanizzando una zona, si


verifichino entrambi gli eventi (V, ossia conseguenze del
vento; S, ossia conseguenze della salsedine)?
P (V e S) = P(V) P(S|V) = 0,77 0,92 = 0,7084 (70,84%)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

215

Lespressione della probabilit condizionata


Conoscendo ora il metodo di calcolo della probabilit
dellintersezione, la formula per calcolare la probabilit
condizionata la seguente:
P (F | E)

= P (F E) / P (E)

Questa espressione utile quando si conosce la probabilit


che si verifichino due eventi E e F (entrambi) e si conosce
anche la probabilit che si verifichi levento E (da cui F
dipendente), ma non si conosce la probabilit che si verifichi
F dato E.
Ovviamente, se i due eventi E e F fossero indipendenti,
allora
P (F | E)

= P (F)

Infatti, la probabilit dellevento F non cambia


considerando oppure non considerando E, essendo i due
eventi indipendenti
Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

216

La propriet additiva

La probabilit che si verifichi almeno uno di due


eventi (probabilit dellunione) si indica con
P (E o F) oppure P (E U F)
Questa probabilit si individua per mezzo di una
somma

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

217

Applicazioni della propriet additiva - 1


Se gli eventi sono tra loro incompatibili:
P (E o F) = P(E) + P(F)
Afghanistan: distribuzione della popolazione per
gruppo etnico:
Pashtun
36%
Tajiki
24%
Hazara
25%
Uzbeki
10%
Altri
5%
La probabilit che un soggetto individuato a caso
appartenga al gruppo degli Uzbeki o degli Hazara :
10/100 + 25/100 = 0,35
Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

218

Applicazioni della propriet additiva 2


Se invece gli eventi sono tra loro compatibili:
P (E o F) = P(E) + P(F) - P (E e F)
(occorre cio sottrarre la probabilit dellintersezione, che
altrimenti verrebbe conteggiata due volte)
Realizzando una campagna comunicazionale, una azienda
tenta di sottrarre la posizione di leader al principalie
concorrente, in due aree geografiche. Si stima,
considerando le prevedibili reazioni dei consumatori, che
nellarea A lazienda abbia una probabilit del 12% di
raggiungere la posizione di leader, mentre per larea B
questa probabilit sia del 18%.
Quale la probabilit che almeno in una delle due aree il
progetto dellazienda si concretizzi?
0,12 + 0,18 0,12 0,18 = 0,2784 (27,84%)
Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

219

Applicazioni della propriet additiva 3


Due imprese applicano la medesima strategia di
marketing. Date le diverse dimensioni sul mercato, per
limpresa A si stima che la probabilit di raggiungere il
punto di pareggio entro due anni sia pari a 3/5. Per
limpresa B, questa probabilit pari a 2/3
Calcolare le seguenti
probabilit, relative al
raggiungimento del punto
di pareggio:
Entrambe
Solo A
Solo B
Almeno una

Si tratta di eventi
indipendenti compatibili:

3/5
3/5
2/5
3/5

Introduzione alla statistica per le scienze economiche e sociali

2/3 = 6/15
1/3 = 3/15
2/3 = 4/15
+ 2/3 6/15 = 13/15
Febbraio 2015

220

Razionalizzazioni del comportamento


deviante: i dati di base
Minimizzazione
danno (M)

Diffusione
responsabilit
(D)

Confronto
vantaggioso (C)

Totale

Furto
(F)

60

120

60

240

Stupefacenti
(S)

120

20

20

160

Totale

180

140

80

400

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

221

Razionalizzazioni del comportamento


deviante: i calcoli
Calcolare le
seguenti
probabilit
P(D)
P(non F)
P(M e F)
P(D e C)
P(D o C)
P(S o C)
P[non(F o S)]
P(F|D)
P(M|S)
P(2S|1S)
P(1S e 2S)

TOT.

60

120

60

240

120

20

20

160

TOT.
180
140
80
400
140/400
1 (240/400)
P(F) P(M|F) = (240/400) (60/240) (ev. dip)
0
P(D) + P(C) = (140/400) + (80/400) (ev. incomp)
P(S)+P(C)-[P(C)P(S|C)=160/400+80/400-(80/40020/80)
(ev. compatibili e dipendenti)
1 [P(F) + P(S)] = 1 (240/400 + 160/400)
120/140
120/160
159/399
P(1S) P(2S|1S) = 160/400 159/399 (ev dip)

(ultimi due casi:


senza
reimmissione)
Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

222

28 carte da poker: 4 A, 4 K, 4 Q, 4 J, 4 DIECI, 4 NOVE, 4 OTTO


In mano: 3 A, 1 K, 1 Q
Calcolare la probabilit
che, cambiando K e
Q:
A alla prima o alla
seconda

AeK
Q alla prima e alla
seconda
DIECI e NOVE

P(A1) + P (A2|non A1) = 1/23 + 1/22


[P(A1) P (K2|A1)] + [P(K1) P(A2|K1)]
= (1/23 3/22) + (3/23 1/22)
[P(Q1) P (Q2|Q1)] = 3/23 2/22

[P(D1) P (N2|D1)] + [P(N1) P(D2|N1)]


= (4/23 4/22) + (4/23 4/22)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

223

Il teorema di Bayes - 1
Per calcolare la probabilit che un certo evento sia
frutto di una determinata causa, ci si basa sulla
teoria della probabilit condizionata e si utilizza un
metodo che va sotto il nome di teorema di Bayes.
Conviene partire da un esempio concreto:
In riferimento a un determinato reato, si costruisce
lipotesi di colpevolezza attraverso due fasi
investigative:
1. una serie di colloqui

2. analisi di laboratorio

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

224

Il teorema di Bayes - 2
Da una lunga serie di casi relativi a reati dello
stesso tipo, si era dedotto che il 40% dei sospettati
risultava colpevole allanalisi di laboratorio; di
questi, l80% aveva avuto un parere di
colpevolezza gi alleffettuazione dei colloqui.
Il restante 60% dei sospettati non risultava
colpevole allanalisi di laboratorio; in questo caso, il
30% dei colloqui aveva fornito (erroneamente) un
giudizio di colpevolezza. Il rimanente 70% aveva
fornito un giudizio contrario (non colpevolezza)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

225

Il teorema di Bayes - 3

Quale la probabilit che in un determinato caso


risulti la colpevolezza, dallanalisi di laboratorio,
dopo un parere di colpevolezza tratto dal colloquio?
Indichiamo con CA la colpevolezza effettiva
risultante dallanalisi di laboratorio, con NCA la non
colpevolezza effettiva risultante dallanalisi di
laboratorio, con CC il parere di colpevolezza
presunta dai colloqui, con NCC il parere contrario,
sempre dai colloqui.

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

226

Il teorema di Bayes - 4

P(CA|CC) =

P(CC|CA)

* P(CA)
________________________________________________

P(CC|CA)

P(CA) + P(CC|NCA)

P(NCA)

che possiamo anche scrivere come:


P(CA|CC) =
P(CA CC) / P(CC)
0,8

P(CA|CC) =

* 0,4
____________________________

0,8

0,4 + 0,3

Introduzione alla statistica per le scienze economiche e sociali

= 0,64

0,6

Febbraio 2015

227

Un secondo esempio - 1
In una regione, la forza lavoro si divide nel seguente
modo:
Lavoro autonomo 32%
Lavoro dipendente 68%
Attualmente, nellambito del lavoro autonomo si
dichiarano disoccupati il 20% dei soggetti, contro
una quota del 15% relativa al lavoro dipendente.
Quale la probabilit che, estraendo un soggetto e
verificando che disoccupato, si tratti di un
appartenente al lavoro autonomo?
Indichiamo con LA il lavoro autonomo, con LD quello
dipendente. Indichiamo poi con D la condizione di
disoccuato.

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

228

Un secondo esempio - 2

P(LA|D) =

P(D|LA)

* P(LA)
________________________________________________

P(D|LA)

P(LA) + P(D|LD)

P(LD)

che possiamo anche scrivere come:


P(LA|D) = P(LA DC) / P(D)
0,2

P(CA|CC) =

* 0,32
________________________________

0,2

0,32 + 0,15

Introduzione alla statistica per le scienze economiche e sociali

= 0,386

0,68

Febbraio 2015

229

Dipartimento di
Comunicazione ed Economia

8 DISTRIBUZIONI DI
PROBABILITA

Introduzione
Nome
corso alla statistica per le scienze economiche e sociali

Febbraio 2015

230

La definizione

La distribuzione di probabilit di una variabile casuale


(o aleatoria) lelenco dei possibili valori che la
variabile assume, a ciascuno dei quali associata la
relativa probabilit (una variabile casuale una
variabile quantitativa i cui valori variano seguendo le
regole della probabilit)
La maggior parte dei fenomeni statistici pu essere
descritta con un numero limitato di leggi o
distribuzioni di probabilit

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

231

In simboli

p(x) la probabilit che la variabile casuale X


assuma un determinato valore x
Per ogni distribuzione di probabilit, si ha:
0 p(x) 1
p(x) = 1

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

232

Le principali distribuzioni
Tra le principali distribuzioni di probabilit, rientrano:
Distribuzione normale (Gaussiana), la pi importante per
lanalisi dellinferenza statistica
Distribuzione t (di Student), per i campioni piccoli provenienti
da una popolazione di cui si ignorano i parametri
Distribuzione di Bernoulli, associata a una variabile casuale
bernoulliana
Distribuzione binomiale, utili per studiare le probabilit
relative a un campione estratto da una popolazione di
Bernoulli
Distribuzione di Poisson, o legge degli eventi rari
Distribuzione Chi Quadrato (), associata per esempio
allanalisi della varianza campionaria o allanalisi dei dati
qualitativi

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

233

Speranza matematica o valore atteso

Si tratta di una delle nozioni pi importanti


della teoria della probabilit
la media aritmetica ponderata dei valori di
una distribuzione di probabilit
dove i coefficienti di ponderazione sono le
probabilit associate ai diversi valori

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

234

Esempio di speranza matematica

Nel caso del lancio di un dado (non truccato), la speranza


matematica relativa alla media deriva da questa
operazione:
1 1/6 + 2 1/6, + 3 1/6 + 4 1/6 + 5 1/6 + 6 1/6
= 3,5

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

235

Dipartimento di
Comunicazione ed Economia

La distribuzione normale
(Gaussiana)

Introduzione
Nome
corso alla statistica per le scienze economiche e sociali

Febbraio 2015

236

Peculiarit
la distribuzione di probabilit pi importante
per linferenza statistica

Caratteristiche:
Perfettamente simmetrica
Sempre sopra lasse orizzontale
Il totale dellarea sottesa pari a 1

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

237

Come verificare la normalit di una distribuzione?

Verificare lesistenza di una discreta coincidenza tra


media, mediana e moda
Verificare lesistenza di una discreta coincidenza
tra la differenza interquartile (differenza tra il
75esimo percentile e il 25esimo percentile) e 1,33

Verificare che il 67% circa delle osservazioni sia


compreso tra - e +

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

238

Lutilizzo della distribuzione normale

Si utilizza per stimare la % di casi che cadono


in un determinato intervallo
di conseguenza, per determinare la
probabilit che un certo valore, estratto da un
gruppo di valori distribuiti normalmente, sia
compreso in un determinato intervallo

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

239

La distribuzione normale standardizzata (d.n.s.)


Per agevolare il confronto con situazioni concrete,
si utilizza la distribuzione normale standardizzata,
basata su unit standard calcolate per ogni valore
del fenomeno (xi)
Lunit standard deriva da:
zi = (xi media) / deviazione standard

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

240

La standardizzazione

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

241

Le tavole della distribuzione normale


standardizzata

Ci sono diversi tipi di tavole; il risultato identico,


ma cambia il modo di lettura dei dati

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

242

il valore riportato
in riferimento
allarea, in
corrispondenza di
ogni z, la quota
dellarea al di
sotto della curva
corrispondente al
tratto compreso
tra z e - z

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

243

Nella tavola successiva, invece, il riferimento non


il tratto compreso tra z e z, bens tra 0 e z,
come appare nel disegno sottostante

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

244

T a vo la d e lla d is trib u z io n e n o rm a le s ta n d a rd iz z a ta

z
0 ,0
0 ,1
0 ,2
0 ,3
0 ,4
0 ,5
0 ,6
0 ,7
0 ,8
0 ,9
1 ,0
1 ,1
1 ,2
1 ,3
1 ,4
1 ,5
1 ,6
1 ,7
1 ,8
1 ,9
2 ,0
2 ,1
2 ,2
2 ,3
2 ,4
2 ,5
2 ,6
2 ,7
2 ,8
2 ,9
3 ,0

0 ,0 0
0 ,0 0 0 0
0 ,0 3 9 8
0 ,0 7 9 3
0 ,1 1 7 9
0 ,1 5 5 4
0 ,1 9 1 5
0 ,2 2 5 7
0 ,2 5 8 0
0 ,2 8 8 1
0 ,3 1 5 9
0 ,3 4 1 3
0 ,3 6 4 3
0 ,3 8 4 9
0 ,4 0 3 2
0 ,4 1 9 2
0 ,4 3 3 2
0 ,4 4 5 2
0 ,4 5 5 4
0 ,4 6 4 1
0 ,4 7 1 3
0 ,4 7 7 3
0 ,4 8 2 1
0 ,4 8 6 1
0 ,4 8 9 3
0 ,4 9 1 8
0 ,4 9 3 8
0 ,4 9 5 3
0 ,4 9 6 5
0 ,4 9 7 4
0 ,4 9 8 1
0 ,4 9 8 7

0 ,0 1
0 ,0 0 4 0
0 ,0 4 3 8
0 ,0 8 3 2
0 ,1 2 1 7
0 ,1 5 9 1
0 ,1 9 5 0
0 ,2 2 9 1
0 ,2 6 1 1
0 ,2 9 1 0
0 ,3 1 8 6
0 ,3 4 3 8
0 ,3 6 6 5
0 ,3 8 6 9
0 ,4 0 4 9
0 ,4 2 0 7
0 ,4 3 4 5
0 ,4 4 6 3
0 ,4 5 6 4
0 ,4 6 4 9
0 ,4 7 1 9
0 ,4 7 7 8
0 ,4 8 2 6
0 ,4 8 6 4
0 ,4 8 9 6
0 ,4 9 2 0
0 ,4 9 4 0
0 ,4 9 5 5
0 ,4 9 6 6
0 ,4 9 7 5
0 ,4 9 8 2
0 ,4 9 8 7

0 ,0 2
0 ,0 0 8 0
0 ,0 4 7 8
0 ,0 8 7 1
0 ,1 2 5 5
0 ,1 6 2 8
0 ,1 9 8 5
0 ,2 3 2 4
0 ,2 6 4 2
0 ,2 9 3 9
0 ,3 2 1 2
0 ,3 4 6 1
0 ,3 6 8 6
0 ,3 8 8 8
0 ,4 0 6 6
0 ,4 2 2 2
0 ,4 3 5 7
0 ,4 4 7 4
0 ,4 5 7 3
0 ,4 6 5 6
0 ,4 7 2 6
0 ,4 7 8 3
0 ,4 8 3 0
0 ,4 8 6 8
0 ,4 8 9 8
0 ,4 9 2 2
0 ,4 9 4 1
0 ,4 9 5 6
0 ,4 9 6 7
0 ,4 9 7 6
0 ,4 9 8 3
0 ,4 9 8 7

0 ,0 3
0 ,0 1 2 0
0 ,0 5 1 7
0 ,0 9 1 0
0 ,1 2 9 3
0 ,1 6 6 4
0 ,2 0 1 9
0 ,2 3 5 7
0 ,2 6 7 3
0 ,2 9 6 7
0 ,3 2 3 8
0 ,3 4 8 5
0 ,3 7 0 8
0 ,3 9 0 7
0 ,4 0 8 2
0 ,4 2 3 6
0 ,4 3 7 0
0 ,4 4 8 4
0 ,4 5 8 2
0 ,4 6 6 4
0 ,4 7 3 2
0 ,4 7 8 8
0 ,4 8 3 4
0 ,4 8 7 1
0 ,4 9 0 1
0 ,4 9 2 5
0 ,4 9 4 3
0 ,4 9 5 7
0 ,4 9 6 8
0 ,4 9 7 7
0 ,4 9 8 3
0 ,4 9 8 8

0 ,0 4
0 ,0 1 6 0
0 ,0 5 5 7
0 ,0 9 4 8
0 ,1 3 3 1
0 ,1 7 0 0
0 ,2 0 5 4
0 ,2 3 8 9
0 ,2 7 0 4
0 ,2 9 9 5
0 ,3 2 6 4
0 ,3 5 0 8
0 ,3 7 2 9
0 ,3 9 2 5
0 ,4 0 9 9
0 ,4 2 5 1
0 ,4 3 8 2
0 ,4 4 9 5
0 ,4 5 9 1
0 ,4 6 7 1
0 ,4 7 3 8
0 ,4 7 9 3
0 ,4 8 3 8
0 ,4 8 7 5
0 ,4 9 0 4
0 ,4 9 2 7
0 ,4 9 4 5
0 ,4 9 5 9
0 ,4 9 6 9
0 ,4 9 7 7
0 ,4 9 8 4
0 ,4 9 8 8

0 ,0 5
0 ,0 1 9 9
0 ,0 5 9 6
0 ,0 9 8 7
0 ,1 3 6 8
0 ,1 7 3 6
0 ,2 0 8 8
0 ,2 4 2 2
0 ,2 7 3 4
0 ,3 0 2 3
0 ,3 2 8 9
0 ,3 5 3 1
0 ,3 7 4 9
0 ,3 9 4 4
0 ,4 1 1 5
0 ,4 2 6 5
0 ,4 3 9 4
0 ,4 5 0 5
0 ,4 5 9 9
0 ,4 6 7 8
0 ,4 7 4 4
0 ,4 7 9 8
0 ,4 8 4 2
0 ,4 8 7 8
0 ,4 9 0 6
0 ,4 9 2 9
0 ,4 9 4 6
0 ,4 9 6 0
0 ,4 9 7 0
0 ,4 9 7 8
0 ,4 9 8 4
0 ,4 9 8 9

0 ,0 6
0 ,0 2 3 9
0 ,0 6 3 6
0 ,1 0 2 6
0 ,1 4 0 6
0 ,1 7 7 2
0 ,2 1 2 3
0 ,2 4 5 4
0 ,2 7 6 4
0 ,3 0 5 1
0 ,3 3 1 5
0 ,3 5 5 4
0 ,3 7 7 0
0 ,3 9 6 2
0 ,4 1 3 1
0 ,4 2 7 9
0 ,4 4 0 6
0 ,4 5 1 5
0 ,4 6 0 8
0 ,4 6 8 6
0 ,4 7 5 0
0 ,4 8 0 3
0 ,4 8 4 6
0 ,4 8 8 1
0 ,4 9 0 9
0 ,4 9 3 1
0 ,4 9 4 8
0 ,4 9 6 1
0 ,4 9 7 1
0 ,4 9 7 9
0 ,4 9 8 5
0 ,4 9 8 9

0 ,0 7
0 ,0 2 7 9
0 ,0 6 7 5
0 ,1 0 6 4
0 ,1 4 4 3
0 ,1 8 0 8
0 ,2 1 5 7
0 ,2 4 8 6
0 ,2 7 9 4
0 ,3 0 7 9
0 ,3 3 4 0
0 ,3 5 7 7
0 ,3 7 9 0
0 ,3 9 8 0
0 ,4 1 4 7
0 ,4 2 9 2
0 ,4 4 1 8
0 ,4 5 2 5
0 ,4 6 1 6
0 ,4 6 9 3
0 ,4 7 5 6
0 ,4 8 0 8
0 ,4 8 5 0
0 ,4 8 8 4
0 ,4 9 1 1
0 ,4 9 3 2
0 ,4 9 4 9
0 ,4 9 6 2
0 ,4 9 7 2
0 ,4 9 7 9
0 ,4 9 8 5
0 ,4 9 8 9

0 ,0 8
0 ,0 3 1 9
0 ,0 7 1 4
0 ,1 1 0 3
0 ,1 4 8 0
0 ,1 8 4 4
0 ,2 1 9 0
0 ,2 5 1 7
0 ,2 8 2 3
0 ,3 1 0 6
0 ,3 3 6 5
0 ,3 5 9 9
0 ,3 8 1 0
0 ,3 9 9 7
0 ,4 1 6 2
0 ,4 3 0 6
0 ,4 4 2 9
0 ,4 5 3 5
0 ,4 6 2 5
0 ,4 6 9 9
0 ,4 7 6 1
0 ,4 8 1 2
0 ,4 8 5 4
0 ,4 8 8 7
0 ,4 9 1 3
0 ,4 9 3 4
0 ,4 9 5 0
0 ,4 9 6 3
0 ,4 9 7 3
0 ,4 9 8 0
0 ,4 9 8 6
0 ,4 9 9 0

0 ,0 9
0 ,0 3 5 9
0 ,0 7 5 3
0 ,1 1 4 1
0 ,1 5 1 7
0 ,1 8 7 9
0 ,2 2 2 4
0 ,2 5 4 9
0 ,2 8 5 2
0 ,3 1 3 3
0 ,3 3 8 9
0 ,3 6 2 1
0 ,3 8 3 0
0 ,4 0 1 5
0 ,4 1 7 7
0 ,4 3 1 9
0 ,4 4 4 1
0 ,4 5 4 5
0 ,4 6 3 3
0 ,4 7 0 6
0 ,4 7 6 7
0 ,4 8 1 7
0 ,4 8 5 7
0 ,4 8 9 0
0 ,4 9 1 6
0 ,4 9 3 6
0 ,4 9 5 2
0 ,4 9 6 4
0 ,4 9 7 4
0 ,4 9 8 1
0 ,4 9 8 6
0 ,4 9 9 0

il valore riportato
in ogni casella la
quota dellarea al
di sotto della
curva corrispondente al
tratto compreso
tra z = o e il
valore di z dato
dalla somma della
prima colonna e
della prima riga

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

245

T a vo la d e lla d is trib u z io n e n o rm a le s ta n d a rd iz z a ta

z
0 ,0
0 ,1
0 ,2
0 ,3
0 ,4
0 ,5
0 ,6
0 ,7
0 ,8
0 ,9
1 ,0
1 ,1
1 ,2
1 ,3
1 ,4
1 ,5
1 ,6
1 ,7
1 ,8
1 ,9
2 ,0
2 ,1
2 ,2
2 ,3
2 ,4
2 ,5
2 ,6
2 ,7
2 ,8
2 ,9
3 ,0

0 ,0 0
0 ,0 0 0 0
0 ,0 3 9 8
0 ,0 7 9 3
0 ,1 1 7 9
0 ,1 5 5 4
0 ,1 9 1 5
0 ,2 2 5 7
0 ,2 5 8 0
0 ,2 8 8 1
0 ,3 1 5 9
0 ,3 4 1 3
0 ,3 6 4 3
0 ,3 8 4 9
0 ,4 0 3 2
0 ,4 1 9 2
0 ,4 3 3 2
0 ,4 4 5 2
0 ,4 5 5 4
0 ,4 6 4 1
0 ,4 7 1 3
0 ,4 7 7 3
0 ,4 8 2 1
0 ,4 8 6 1
0 ,4 8 9 3
0 ,4 9 1 8
0 ,4 9 3 8
0 ,4 9 5 3
0 ,4 9 6 5
0 ,4 9 7 4
0 ,4 9 8 1
0 ,4 9 8 7

0 ,0 1
0 ,0 0 4 0
0 ,0 4 3 8
0 ,0 8 3 2
0 ,1 2 1 7
0 ,1 5 9 1
0 ,1 9 5 0
0 ,2 2 9 1
0 ,2 6 1 1
0 ,2 9 1 0
0 ,3 1 8 6
0 ,3 4 3 8
0 ,3 6 6 5
0 ,3 8 6 9
0 ,4 0 4 9
0 ,4 2 0 7
0 ,4 3 4 5
0 ,4 4 6 3
0 ,4 5 6 4
0 ,4 6 4 9
0 ,4 7 1 9
0 ,4 7 7 8
0 ,4 8 2 6
0 ,4 8 6 4
0 ,4 8 9 6
0 ,4 9 2 0
0 ,4 9 4 0
0 ,4 9 5 5
0 ,4 9 6 6
0 ,4 9 7 5
0 ,4 9 8 2
0 ,4 9 8 7

0 ,0 2
0 ,0 0 8 0
0 ,0 4 7 8
0 ,0 8 7 1
0 ,1 2 5 5
0 ,1 6 2 8
0 ,1 9 8 5
0 ,2 3 2 4
0 ,2 6 4 2
0 ,2 9 3 9
0 ,3 2 1 2
0 ,3 4 6 1
0 ,3 6 8 6
0 ,3 8 8 8
0 ,4 0 6 6
0 ,4 2 2 2
0 ,4 3 5 7
0 ,4 4 7 4
0 ,4 5 7 3
0 ,4 6 5 6
0 ,4 7 2 6
0 ,4 7 8 3
0 ,4 8 3 0
0 ,4 8 6 8
0 ,4 8 9 8
0 ,4 9 2 2
0 ,4 9 4 1
0 ,4 9 5 6
0 ,4 9 6 7
0 ,4 9 7 6
0 ,4 9 8 3
0 ,4 9 8 7

0 ,0 3
0 ,0 1 2 0
0 ,0 5 1 7
0 ,0 9 1 0
0 ,1 2 9 3
0 ,1 6 6 4
0 ,2 0 1 9
0 ,2 3 5 7
0 ,2 6 7 3
0 ,2 9 6 7
0 ,3 2 3 8
0 ,3 4 8 5
0 ,3 7 0 8
0 ,3 9 0 7
0 ,4 0 8 2
0 ,4 2 3 6
0 ,4 3 7 0
0 ,4 4 8 4
0 ,4 5 8 2
0 ,4 6 6 4
0 ,4 7 3 2
0 ,4 7 8 8
0 ,4 8 3 4
0 ,4 8 7 1
0 ,4 9 0 1
0 ,4 9 2 5
0 ,4 9 4 3
0 ,4 9 5 7
0 ,4 9 6 8
0 ,4 9 7 7
0 ,4 9 8 3
0 ,4 9 8 8

0 ,0 4
0 ,0 1 6 0
0 ,0 5 5 7
0 ,0 9 4 8
0 ,1 3 3 1
0 ,1 7 0 0
0 ,2 0 5 4
0 ,2 3 8 9
0 ,2 7 0 4
0 ,2 9 9 5
0 ,3 2 6 4
0 ,3 5 0 8
0 ,3 7 2 9
0 ,3 9 2 5
0 ,4 0 9 9
0 ,4 2 5 1
0 ,4 3 8 2
0 ,4 4 9 5
0 ,4 5 9 1
0 ,4 6 7 1
0 ,4 7 3 8
0 ,4 7 9 3
0 ,4 8 3 8
0 ,4 8 7 5
0 ,4 9 0 4
0 ,4 9 2 7
0 ,4 9 4 5
0 ,4 9 5 9
0 ,4 9 6 9
0 ,4 9 7 7
0 ,4 9 8 4
0 ,4 9 8 8

0 ,0 5
0 ,0 1 9 9
0 ,0 5 9 6
0 ,0 9 8 7
0 ,1 3 6 8
0 ,1 7 3 6
0 ,2 0 8 8
0 ,2 4 2 2
0 ,2 7 3 4
0 ,3 0 2 3
0 ,3 2 8 9
0 ,3 5 3 1
0 ,3 7 4 9
0 ,3 9 4 4
0 ,4 1 1 5
0 ,4 2 6 5
0 ,4 3 9 4
0 ,4 5 0 5
0 ,4 5 9 9
0 ,4 6 7 8
0 ,4 7 4 4
0 ,4 7 9 8
0 ,4 8 4 2
0 ,4 8 7 8
0 ,4 9 0 6
0 ,4 9 2 9
0 ,4 9 4 6
0 ,4 9 6 0
0 ,4 9 7 0
0 ,4 9 7 8
0 ,4 9 8 4
0 ,4 9 8 9

0 ,0 6
0 ,0 2 3 9
0 ,0 6 3 6
0 ,1 0 2 6
0 ,1 4 0 6
0 ,1 7 7 2
0 ,2 1 2 3
0 ,2 4 5 4
0 ,2 7 6 4
0 ,3 0 5 1
0 ,3 3 1 5
0 ,3 5 5 4
0 ,3 7 7 0
0 ,3 9 6 2
0 ,4 1 3 1
0 ,4 2 7 9
0 ,4 4 0 6
0 ,4 5 1 5
0 ,4 6 0 8
0 ,4 6 8 6
0 ,4 7 5 0
0 ,4 8 0 3
0 ,4 8 4 6
0 ,4 8 8 1
0 ,4 9 0 9
0 ,4 9 3 1
0 ,4 9 4 8
0 ,4 9 6 1
0 ,4 9 7 1
0 ,4 9 7 9
0 ,4 9 8 5
0 ,4 9 8 9

0 ,0 7
0 ,0 2 7 9
0 ,0 6 7 5
0 ,1 0 6 4
0 ,1 4 4 3
0 ,1 8 0 8
0 ,2 1 5 7
0 ,2 4 8 6
0 ,2 7 9 4
0 ,3 0 7 9
0 ,3 3 4 0
0 ,3 5 7 7
0 ,3 7 9 0
0 ,3 9 8 0
0 ,4 1 4 7
0 ,4 2 9 2
0 ,4 4 1 8
0 ,4 5 2 5
0 ,4 6 1 6
0 ,4 6 9 3
0 ,4 7 5 6
0 ,4 8 0 8
0 ,4 8 5 0
0 ,4 8 8 4
0 ,4 9 1 1
0 ,4 9 3 2
0 ,4 9 4 9
0 ,4 9 6 2
0 ,4 9 7 2
0 ,4 9 7 9
0 ,4 9 8 5
0 ,4 9 8 9

0 ,0 8
0 ,0 3 1 9
0 ,0 7 1 4
0 ,1 1 0 3
0 ,1 4 8 0
0 ,1 8 4 4
0 ,2 1 9 0
0 ,2 5 1 7
0 ,2 8 2 3
0 ,3 1 0 6
0 ,3 3 6 5
0 ,3 5 9 9
0 ,3 8 1 0
0 ,3 9 9 7
0 ,4 1 6 2
0 ,4 3 0 6
0 ,4 4 2 9
0 ,4 5 3 5
0 ,4 6 2 5
0 ,4 6 9 9
0 ,4 7 6 1
0 ,4 8 1 2
0 ,4 8 5 4
0 ,4 8 8 7
0 ,4 9 1 3
0 ,4 9 3 4
0 ,4 9 5 0
0 ,4 9 6 3
0 ,4 9 7 3
0 ,4 9 8 0
0 ,4 9 8 6
0 ,4 9 9 0

0 ,0 9
0 ,0 3 5 9
0 ,0 7 5 3
0 ,1 1 4 1
0 ,1 5 1 7
0 ,1 8 7 9
0 ,2 2 2 4
0 ,2 5 4 9
0 ,2 8 5 2
0 ,3 1 3 3
0 ,3 3 8 9
0 ,3 6 2 1
0 ,3 8 3 0
0 ,4 0 1 5
0 ,4 1 7 7
0 ,4 3 1 9
0 ,4 4 4 1
0 ,4 5 4 5
0 ,4 6 3 3
0 ,4 7 0 6
0 ,4 7 6 7
0 ,4 8 1 7
0 ,4 8 5 7
0 ,4 8 9 0
0 ,4 9 1 6
0 ,4 9 3 6
0 ,4 9 5 2
0 ,4 9 6 4
0 ,4 9 7 4
0 ,4 9 8 1
0 ,4 9 8 6
0 ,4 9 9 0

Per esempio, a
unarea
simmetrica del
95% corrisponde unarea
compresa tra
0 e z del
47,5%. Il
corrispondente valore di
z quindi 1,96

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

246

Lutilizzo della tavola della d. n. s.: diversi


tipi di intervallo z1 z2

z1 = - z2

z1 = 0

z2 > 0

z1 < 0

z2 > 0

z1 > 0

z2 > 0

z1 < 0

z2 = +

z1 > 0

z2 = +

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

247

Primo esempio

La distribuzione dei progetti di ricerca nel


settore delle energie rinnovabili, in base al
numero di mesi di durata,
approssimativamente normale, con una media
pari a 36 mesi e una SD pari a 4 mesi.

Stimare la quota di progetti con durata


compresa tra 28 e 40 mesi.

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

248

Primo caso - soluzioni

Z1 = (28 36) / 4 = - 2

Z2 = (40 36) / 4 = + 1

Quindi, la probabilit pari all81,86 %

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

249

Secondo esempio

Una distribuzione di tipo normale, ha una media


pari a 2,6 e una SD pari a 0,44.
Quale la probabilit che un valore estratto
casualmente sia < 2,93?
Quale la probabilit che un valore estratto
casualmente sia < media + (0,5 SD) ?

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

250

Secondo esempio: soluzioni

Quale la probabilit che un valore estratto


casualmente sia < 2,93?
Z1 = (2,93 2,6) / 0,44 = + 0,75

Quindi, la probabilit pari al 77,34%

Quale la probabilit che un valore estratto


casualmente sia < media + (0,5 SD) ?
Z2 = (2,82 2,6) / 0,44 = + 0,5

Quindi, la probabilit pari al 69,15 %


Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

251

Lindice di aridit
Lindice di aridit la sintesi di fenomeni fisici (precipitazioni,
evaporazioni) e biologici (traspirazione vegetale). il rapporto tra
precipitazioni ed evapotraspirazione.
In estate, un valore inferiore a 0,5 significa aree semiaride
oppure aride. Un valore superiore a 0,65 significa aree umide o
iperumide.
La distribuzione delle rilevazioni estive in una determinata zona,
compiute da diverse stazioni, di tipo normale, con media (per
gli ultimi 30 anni) pari a 0,45 e deviazione standard pari a 0,04.
Quale la percentuale di rilevazioni che hanno fornito un valore
compreso fra 0,40 e 0,50?
pari al 78,88%.
In unit standard, infatti:
(0,40 0,45) / 0,04 = - 1,25
(0,50 0,45) / 0,04 = + 1,25

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

252

Il procedimento inverso

possibile applicare il procedimento inverso,


quindi dallarea ..
risalire a z e successivamente ..
risalire a x

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

253

Ancora sullindice di aridit

Mantenendo le stesse condizioni esposte nellesempio


precedente, nellanalisi di valutazione del deficit
pluviometrico (peraltro crescente nel corso dei decenni)
ci si pu porre la domanda:
quale il valore dellindice di aridit che separa il 90%
di tutte le rilevazioni, costituito dai valori pi piccoli, e il
restante 10% costituito invece dai valori pi grandi?
Nella tavola della distribuzione normale standardizzata,
si legge, in corrispondenza di unarea pari a 0,40
(complemento a 0,50 del nostro 10% oggetto di
interesse) un valore di z pari a 1,28.
Quindi:
1,28 = (x 0,45) / 0,04
x = 0,5012
Il valore cercato pari a 0,5012
Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

254

Dipartimento di
Comunicazione ed Economia

Lapplicazione della
Gaussiana alla stima di una
somma o di una media

Introduzione
Nome
corso alla statistica per le scienze economiche e sociali

Febbraio 2015

255

Lobiettivo

Lapprossimazione normale pu essere utilizzata per


stimare la somma (e quindi anche la media) dei
valori di una popolazione per mezzo di un certo
numero di valori estratti casualmente (con
reimmissione)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

256

Il teorema centrale del limite (TCL)

Secondo il teorema centrale del limite, se il numero


di estrazioni abbastanza elevato, la distribuzione
delle probabilit della somma (o della media) si
avvicina alla curva normale, anche se listogramma
dei valori della popolazione distante dalla curva
normale
In altri termini, al crescere dellampiezza del
campione, la distribuzione campionaria delle medie
o delle somme si avvicina a una distribuzione
normale, anche se la popolazione originaria non
normalmente distribuita

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

257

Un campione abbastanza grande

Si parlato di campione abbastanza grande. Il termine


abbastanza legato al livello di precisione con cui la
distribuzione della popolazione ricalca una distribuzione
normale
Se il campione > 30, esso viene ritenuto abbastanza
grande, indipendentemente dalla distribuzione
(normale oppure no) dei valori della popolazione
Se invece il campione < 30, il TCL da ritenere
valido solo se la distribuzione dei valori della
popolazione di tipo normale

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

258

Il modello durna
Come si determina la probabilit che la somma
(o la media) delle estrazioni sia compresa in un
certo intervallo?

fondamentale costruire un modello durna,


corrispondente ai valori della popolazione:
Quali sono i valori contenuti nellurna?
Quante volte si ripetono, nellurna, i singoli
valori?
Quante estrazioni si fanno?

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

259

La somma attesa
La somma effettiva delle estrazioni sar pari a:
somma attesa errore standard della somma (SEsomma)
Somma attesa: prodotto del numero di estrazioni per la media
dei valori contenuti nellurna
SEsomma: (radice quadrata del numero estrazioni) ( dei valori
dellurna)
Ci significa che allaumentare del numero di estrazioni, lerrore
aumenta in termini assoluti, ma diminuisce in termini relativi

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

260

La media attesa

La media effettiva delle estrazioni sar pari a:


media attesa errore standard della media (SEmedia)

Media attesa: media dei valori contenuti nellurna


SEmedia : ( dei valori dellurna) / (radice quadrata del
numero estrazioni)
SEmedia quindi minore di , ossia dello scarto quadratico
medio che caratterizza i valori dellurna

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

261

Liberazione incontrollata di metano - 1


Nelle fasi di ripristino di unarea di cava, si deve
fronteggiare il rischio di liberazione incontrollata di biogas,
tra cui soprattutto metano (CH4).
Si vogliono individuare otto sub-aree su cui realizzare il
progetto di recupero.
Da precedenti progetti di questo genere, si dedotto che
nel 10% dei casi, lentit del metano sviluppato in una sub
area inferiore a 23 ppm, nel 60% dei casi di 23, nel
20% dei casi di 24, nel restante 10% dei casi superiore
a 24.
Per le due classi aperte, si pu ragionevolmente stimare
un valore medio di 20 (prima classe) e di 26 (ultima
classe).
Quale la probabilit che la media delle 8 sub-aree
individuate casualmente sia compresa tra 23 ppm e 24
ppm?
Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

262

Liberazione incontrollata di metano - 2


8 estrazioni
media attesa: 23,2
SEmedia: 0,495 ( : 1,40)
trasformazione dei due limiti in unit standard
z = (limite media attesa) / errore standard

per L1:
per L2:

z1 = 0,404
z2 = +1,616

area sottesa tra z1 e z=0


15,54%
area sottesa tra z=0 e z2
44,74%
La probabilit che la media delle estrazioni sia compresa
tra 23 e 24:
60,28%
Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

263

Secondo esempio: Negli ultimi anni, la frequenza di decessi per


disturbi psichici e neurologici in Emilia Romagna stato pari a
2500. In media, in un anno si sono rilevati 21 giorni con un
numero di decessi, per queste cause, superiore a 18, e 344 giorni
con un numero di decessi pari al massimo a 18.
Quale la probabilit che, nellanno successivo, il numero di
giornate con un numero di decessi superiore a 18, sia superiore a
20?
Modello durna:

21 [+1]

344 [0]

somma attesa = 21
SD = 0,233
SE = 0,233 radq (365) = 4,45
20, in unit standard, diventa 0,22
quindi la probabilit del 59%

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

264

Formula abbreviata per calcolare


(valida quando in unurna ci sono solo due tipi di valori)

= (Ma Mi) radice quadrata di [n(Ma) / n n(Mi) / n)]


Ma: valore maggiore tra i due presenti nellurna
Mi: valore minore tra i due presenti nellurna
n(Ma): numero di volte in cui il valore maggiore presente
nellurna
n(Mi): numero di volte in cui il valore minore presente
nellurna
n: totale numeri presenti nellurna

Nel caso precedente:


= [1 0] radq (0,0575 0,9425)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

265

Terzo esempio: il dilemma del prigioniero


Due pregiudicati arrestati per reati minori, ma sospettati di
crimini gravi
A. Se nessuno confessa il crimine grave, saranno condannati
entrambi a 2 anni
B. Se entrambi confessano, saranno condannati a una pena
ridotta per il crimine grave (7 anni)
C. Se uno solo confessa, sar condannato a una pena minima
(1 anno), laltro sar condannato alla pena massima (12
anni)

Lesperienza del giudice gli suggerisce che probabilit che


si verifichi il caso A pari al 40%; per il caso B, la
probabilit del 25%; per il caso C, la probabilit del
35%
Si considerano 16 casi di questo tipo che si prospettano
per i crimini recentemente compiuti. Determinare la
somma (anni di condanna) attesa e lerrore standard
Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

266

Le soluzioni
modello durna:
valori contenuti: 4 14 13
ci sono 40 valori 4, 25 valori 14
35 valori 13
estrazioni: 16

Media dellurna: 9,65 SD: 4,63


Somma attesa: 9,65 16 = 154,4
SE: 4 4,63 = 18,52

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

267

Dipartimento di
Comunicazione ed Economia

La distribuzione binomiale

Introduzione
Nome
corso alla statistica per le scienze economiche e sociali

Febbraio 2015

268

Condizioni di utilizzo
Questa distribuzione esprime la probabilit che si
verifichino k successi (indipendentemente
dall'ordine) che si alternano a n - k insuccessi, su
un totale di n osservazioni tra loro indipendenti,
estratte nellambito di variabili bernoulliane.
Una variabile bernoulliana una variabile
dicotomica, ossia con due soli possibili valori,
come 0 e 1.
Ci si trova in questa situazione, per esempio,
quando si compiono esperimenti che possono
avere solamente due risultati possibili (come
conforme non conforme).

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

269

Il calcolo
Con questa distribuzione quindi possibile calcolare la
probabilit che un evento si verifichi un numero preciso (k)
di volte, in un certo numero (n) di ripetizioni tra loro
indipendenti:

n!

k! (n-k)!

(1-p)

n-k

k un numero intero non negativo (k=0,1,2,3,...,n)


p compreso tra 0 e 1 esclusi (0<p<1), ed la probabilit
che levento si verifichi nella singola osservazione
(tenere presente che ogni numero elevato a potenza 0
pari a 1)
Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

270

n fattoriale

n! si legge n fattoriale ed il prodotto di:


n n-1 .. 2 1
(tenere presente che 0! = 1)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

271

La formula precedente pu anche essere


scritta nel seguente modo:

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

272

Il coefficiente binomiale
La prima parte della formula il coefficiente
binomiale:

che esprime le diverse maniere in cui possono


essere ripartiti i k successi negli n tentativi
ossia, identifica il numero di modi in cui si
possono ordinare n soggetti in una sequenza,
con k soggetti di un tipo e n-k soggetti
dellaltro tipo.

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

273

Trattamento terapeutico
Un trattamento terapeutico porta a un 75% di casi di
successo e a un 25% di insuccessi.
Sui prossimi 15 trattamenti, quale la probabilit
che esattamente 12 portino a un risultato positivo?
15!

12! 3!

(0,75)

12

(0,25)

= 0,2252

La probabilit cercata quindi pari al 22,52%

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

274

Inadempienze

Su 120 aziende analizzate, 108 sono risultate regolari


in riferimento a un determinato adempimento
normativo, 12 sono invece risultate inadempienti
Assumendo che queste proporzioni siano valide
anche per lintera popolazione delle aziende da cui
stato estratto il campione di 120 unit, quale la
probabilit di ottenere esattamente 5 aziende
inadempienti su 20 esaminate?
20!
(1/10) 5 (9/10) 15 = 0,0319
5! 15!
La probabilit cercata quindi pari al 3,19%
Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

275

Eco-contributo
I produttori di apparecchiature elettriche ed
elettroniche iscritti al repertorio RAEE hanno la
possibilit di applicare in modo visibile al consumatore
il sovrapprezzo corrispondente alleco-contributo per il
finanziamento dei rifiuti elettronici.
Il 20% dei produttori sfrutta questa possibilit.
Quale la probabilit che, su 8 apparecchi acquistati,
meno di tre abbiano esposto lapplicazione del
sovrapprezzo in modo visibile?

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

276

Soluzioni
8!

2! 6!

(0,20)2 (0,80)6 = 0,2936

8!

1! 7!

(0,20)1 (0,80)7 = 0,3355

8!

0! 8!

(0,20)0 (0,80)8 = 0,1677

La probabilit cercata quindi pari al 79,68%


Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

277

Dipartimento di
Comunicazione ed Economia

La distribuzione di Poisson

Introduzione
Nome
corso alla statistica per le scienze economiche e sociali

Febbraio 2015

278

Le condizioni per lapplicazione

Questa distribuzione rappresenta il limite a cui tende


una distribuzione binomiale, quando la probabilit p
di un evento molto bassa e contemporaneamente la
grandezza del campione n piuttosto alta
Alcuni studiosi fissano le condizioni per passare dalla
distribuzione binomiale a quella di Poisson in n > 50,
p (1-p) quasi uguale a p, n p < 10
Si applica quindi al posto della distribuzione
binomiale per la descrizione di eventi discreti che
hanno una probabilit molto ridotta di realizzarsi. La
distribuzione di Poisson infatti detta legge degli
eventi rari.

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

279

Un altro caso di applicazione


Un altro caso di applicazione della distribuzione di
Poisson corrisponde allobiettivo di identificare il
numero di successi (si parla sempre di fenomeni
discreti) in un determinato intervallo continuo, come
il tempo, la superficie o il volume.

Per esempio, il numero di clienti che si presentano a


una determinata cassa, il numero di esemplari di
pesce luna presenti in un determinato volume di
acqua, ecc.

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

280

(lambda)
Il valore atteso di questa distribuzione indicato
con
il numero di successi che ci si aspetta in un
dato intervallo. Per esempio, se un evento si
verifica con una cadenza media di 4 minuti e
vogliamo sapere quante volte questo evento si
potr verificare in 10 minuti, il valore di sar
10/4 = 2,5
Al crescere di , la distribuzione di Poisson si
approssima con una distribuzione normale

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

281

Lapprossimazione alla normale

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

282

Tavole della distribuzione di Poisson - 1


= 0,1; 0,2; ... 1,0
k

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

.9048

.8187

.7408

.6703

.6065

.5488

.4966

.4493

.4066

.3679

.0905

.1637

.2222

.2681

.3033

.3293

.3476

.3595

.3659

.3679

.0045

.0164

.0333

.0536

.0758

.0988

.1217

.1438

.1647

.1839

.0002

.0011

.0033

.0072

.0126

.0198

.0254

.0383

.0494

.0613

.0001

.0003

.0007

.0016

.0030

.0050

.0077

.0111

.0153

.0001

.0002

.0004

.0007

.0012

.0020

.0031

.0001

.0002

.0003

.0005

4
5
6
7

.0001

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

283

Tavole della distribuzione di Poisson - 2

= 1,2; 1,4; ... 3,0


k
0
1
2
3
4
5
6
7
8
9
10
11
12

1,2
.3012
.3614
.2169
.0867
.0260
.0062
.0012
.0002

1,4
.2466
.3452
.2417
.1128
.0395
.0111
.0026
.0005
.0001

1,6
.2019
.3230
.2584
.1378
.0551
.0176
.0047
.0011
.0002

1,8
.1653
.2975
.2678
.1607
.0723
.0260
.0078
.0020
.0005
.0001

2
.1353
.2707
.2707
.1804
.0902
.0361
.0120
.0034
.0009
.0002

Introduzione alla statistica per le scienze economiche e sociali

2,2
.1108
.2438
.2681
.1966
.1082
.0476
.0174
.0055
.0015
.0004
.0001

2,4
.0907
.2177
.2613
.2090
.1254
.0602
.0241
.0083
.0025
.0007
.0002

2,6
.0743
.1931
.2510
.2176
.1414
.0735
.0319
.0118
.0038
.0011
.0003
.0001

2,8
.0608
.1703
.2384
.2225
.1557
.0872
.0407
.0163
.0057
.0018
.0005
.0001

Febbraio 2015

3
.0498
.1494
.2240
.2240
.1680
.1008
.0504
.0216
.0081
.0027
.0008
.0002
.0002

284

Tavole della distribuzione di Poisson - 3


= 3,5; 4,0; ... 8,0
k
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

3,5
.0302
.1057
.1850
.2158
.1888
.1322
.0771
.0385
.0169
.0066
.0023
.0007
.0002
.0001

4
.0183
.0733
.1465
.1954
.1954
.1563
.1042
.0595
.0298
.0132
.0053
.0019
.0006
.0002
.0001

4,5
.0111
.0500
.1125
.1687
.1898
.1708
.1281
.0824
.0463
.0232
.0104
.0043
.0016
.0006
.0002
.0001

5
.0067
.0337
.0842
.1404
.1755
.1755
.1462
.1044
.0653
.0363
.0181
.0082
.0034
.0013
.0005
.0002

5,5
.0041
.0225
.0618
.1133
.1558
.1714
.1571
.1234
.0849
.0519
.0285
.0143
.0065
.0028
.0011
.0004
.0001

6
.0025
.0149
.0446
.0892
.1339
.1606
.1606
.1377
.1033
.0688
.0413
.0225
.0113
.0052
.0022
.0009
.0003
.0001

Introduzione alla statistica per le scienze economiche e sociali

6,5
.0015
.0098
.0318
.0688
.1118
.1454
.1575
.1462
.1188
.0858
.0558
.0330
.0179
.0089
.0041
.0018
.0007
.0003
.0001

7
.0009
.0064
.0223
.0521
.0912
.1277
.1490
.1490
.1304
.1014
.0710
.0452
.0263
.0142
.0071
.0033
.0014
.0006
.0002
.0001

7,5
.0006
.0041
.0156
.0389
.0729
.1094
.1367
.1465
.1373
.1144
.0858
.0585
.0366
.0211
.0113
.0057
.0026
.0012
.0005
.0002
.0001

Febbraio 2015

8
.0003
.0027
.0107
.0286
.0573
.0916
.1221
.1396
.1396
.1241
.0993
.0722
.0481
.0296
.0169
.0090
.0045
.0021
.0009
.0004
.0002
.0001
285

Infrazioni stradali

Ipotizziamo che lungo una importante strada statale,


nellultimo mese si sia verificata in media 1 infrazione
grave al Codice della Strada per km.
Immaginando che le condizione non siano destinate a
cambiare a breve termine, quale la probabilit che in
1 km di questa strada, identificato casualmente, non si
verifichi nessuna infrazione grave nel prossimo mese?
R.: 0,3679 (k = 0; = 1)
Quale la probabilit che in 5 km di questa strada non
si verifichi nessuna infrazione grave nel prossimo
mese? R.: 0,0067 (in questo caso, k = 0 e = 5)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

286

Difettosit
Ipotizziamo che in linea generale un prodotto ogni 20
presenti una difettosit
Quale la probabilit che sui prossimi 60 prodotti si
verifichino 2 casi di difettosit? R.: 0,2240
Quale la probabilit che di questi 60 prodotti si
verifichino pi di casi di difettosit? Conviene ricorrere
allevento complementare: 1-0,423 = 0,577

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

287

Giorni favorevoli allaccumulo di PM10


I giorni critici favorevoli allaccumulo di PM10, sono
quelli caratterizzati da precipitazioni inferiori a 0,3
mm e indice di ventilazione (prodotto dellaltezza di
rimescolamento media per velocit media del vento)
inferiore a 800 m2/s.
Negli anni precedenti, si sono rilevati in una
determinata area in media 4 giorni critici nellintero
corso dellanno.

Quale la probabilit che nei prossimi due anni si


verifichino 11 giorni critici?
= 8;

k = 11

La probabilit cercata pari al 7,22%

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

288

Il recupero delle cave

Nelle ex-cave in fase di recupero territoriale, lo


sviluppo di biossido di carbonio superiore a una soglia
di pericolosit avviene, secondo esperienze pregresse,
in 2 rilevazioni su 100 mq di territorio.
Quale la probabilit che su 300 mq di intervento, si
verifichino 5 rilevazioni caratterizzate da pericolosit?
R.: 0,1606 (k = 5; = 6)
Quale la probabilit che su 300 mq di intervento, si
verifichino pi di 2 rilevazioni caratterizzate da
pericolosit? Conviene calcolare prima la probabilit
dellevento contrario, ossia la probabilit che 0, 1
oppure 2 rilevazioni abbiano questa caratteristica.
Successivamente , si calcola la probabilit oggetto
della richiesta. R.: 0,062

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

289

Dipartimento di
Comunicazione ed Economia

La distribuzione t di Student

Introduzione
Nome
corso alla statistica per le scienze economiche e sociali

Febbraio 2015

290

Le situazioni di utilizzo
Unaltra importante legge o distribuzione di probabilit
quella di Student (pseudonimo di William Gosset)
Questa distribuzione riguarda il parametro t, ed
utilizzata in molti test statistici
In modo particolare, si deve ricorrere a questa
distribuzione quando il campione di dimensione limitata
(n inferiore o uguale a 30), e proviene da una popolazione
distribuita normalmente, di cui per si ignorano i
parametri
In questo caso, la distribuzione delle medie (o delle
proporzioni) campionarie non segue la legge della
distribuzione normale, ma quella della distribuzione t di
Student

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

291

La forma
La distribuzione di Student ha una forma a campana,
come la normale, ma pi appiattita, quindi la sua
dispersione maggiore.
La forma della distribuzione di t cambia al mutare dei
gradi di libert (GL)
Allaumentare dei GL, la distribuzione di t tende a
coincidere con quella normale.
In altri termini, la deviazione standard in questo caso non
pari a 1, come per la distribuzione normale
standardizzata, ma varia in funzione dei gradi di libert.
Quando i gradi di libert sono pari a 30, la forma della
distribuzione di Student arriva praticamente a coincidere
con la forma della distribuzione normale.

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

292

Il concetto di gradi di libert


Il numero di gradi di libert (si indica con GL oppure con la
lettera greca - pronuncia ni) di un parametro statistico
corrisponde al numero di valori, indipendenti tra loro, che
devono essere utilizzati per calcolare quel parametro.
Il numero di G.L. dato dal numero di osservazioni (n),
detratto dal numero delle stime dei parametri della
popolazione (k) che entrano nel calcolo del parametro
considerato.
Nel caso della deviazione standard, per stimarla occorre
calcolare la media del campione, quindi k pari a 1.

In altri termini, i gradi di libert rappresentano il numero di


possibilit che i dati che compongono un campione hanno di
variare liberamente. Si calcolano togliendo dal numero delle
osservazioni il numero delle condizioni cui essi sono
vincolati.

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

293

Il parametro t per stimare la media della


popolazione
Il parametro t corrisponde al rapporto:
media campionaria - media popolazione

stima corretta della SD / radq (n)

Questa distribuzione viene quindi impiegata per calcolare i limiti di


confidenza della media della popolazione, con la seguente formula:
media popolazione =
media campione [(t stima corretta della SD) / radq (n)]

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

294

La stima corretta della SD


Quando il numero di osservazioni (ossia, la numerosit del
campione) piccolo e non si conosce la SD della popolazione,
possibile stimarla, calcolando la deviazione standard del campione
con una formula leggermente diversa da quella che conosciamo,
ossia si rimpiazza il denominatore n con (n-1)
La formula diventa quindi:
SD = radq [ (xi - M)2 / (n-1)]
Si ottiene una deviazione standard leggermente maggiore
(n-1) rappresenta i gradi di libert del campione

Del resto, se si conoscesse la media della popolazione, per


calcolare la SD si utilizzerebbe questa. In realt, si conosce la
media del campione. Gli scarti tra i valori osservati e la media del
campione saranno tendenzialmente inferiori agli scarti tra i valori
osservati e la media della popolazione; si impiega allora stima
corretta della SD per controbilanciare questo errore
Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

295

P
1 P ()

Nella tavola della


distribuzione di t, sono
riportati i valori di t che
hanno probabilit pari a P
di non essere superati, in
funzione del numero di
gradi di libert [ossia,
probabilit 1-P ( si indica
con ) di essere superati].
La probabilit P quindi
uguale allarea a sinistra
di t

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

296

Tavole della distribuzione di Student - 1


P

75%

80%

85%

90%

95%

97.5%

99%

99.5%

99.75%

99.9%

99.95%

1,000

1,376

1,963

3,078

6,314

12,71

31,82

63,66

127,30

318,30

636,60

0,816

1,061

1,386

1,886

2,920

4,303

6,965

9,925

14,09

22,33

31,60

0,765

0,978

1,250

1,638

2,353

3,182

4,541

5,841

7,453

10,21

12,92

0,741

0,941

1,190

1,533

2,132

2,776

3,747

4,604

5,598

7,173

8,610

0,727

0,920

1,156

1,476

2,015

2,571

3,365

4,032

4,773

5,893

6,869

0,718

0,906

1,134

1,440

1,943

2,447

3,143

3,707

4,317

5,208

5,959

0,711

0,896

1,119

1,415

1,895

2,365

2,998

3,499

4,029

4,785

5,408

0,706

0,889

1,108

1,397

1,860

2,306

2,896

3,355

3,833

4,501

5,041

0,703

0,883

1,100

1,383

1,833

2,262

2,821

3,250

3,690

4,297

4,781

10

0,700

0,879

1,093

1,372

1,812

2,228

2,764

3,169

3,581

4,144

4,587

11

0,697

0,876

1,088

1,363

1,796

2,201

2,718

3,106

3,497

4,025

4,437

12

0,695

0,873

1,083

1,356

1,782

2,179

2,681

3,055

3,428

3,930

4,318

13

0,694

0,870

1,079

1,350

1,771

2,160

2,650

3,012

3,372

3,852

4,221

14

0,692

0,868

1,076

1,345

1,761

2,145

2,624

2,977

3,326

3,787

4,140

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

297

Tavole della distribuzione di Student - 2


P

15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

75%
0,691
0,690
0,689
0,688
0,688
0,687
0,686
0,686
0,685
0,685
0,684
0,684
0,684
0,683
0,683
0,683

80%
0,866
0,865
0,863
0,862
0,861
0,860
0,859
0,858
0,858
0,857
0,856
0,856
0,855
0,855
0,854
0,854

85%
1,074
1,071
1,069
1,067
1,066
1,064
1,063
1,061
1,060
1,059
1,058
1,058
1,057
1,056
1,055
1,055

90%
1,341
1,337
1,333
1,330
1,328
1,325
1,323
1,321
1,319
1,318
1,316
1,315
1,314
1,313
1,311
1,310

95%
1,753
1,746
1,740
1,734
1,729
1,725
1,721
1,717
1,714
1,711
1,708
1,706
1,703
1,701
1,699
1,697

97.5%
2,131
2,120
2,110
2,101
2,093
2,086
2,080
2,074
2,069
2,064
2,060
2,056
2,052
2,048
2,045
2,042

Introduzione alla statistica per le scienze economiche e sociali

99%
2,602
2,583
2,567
2,552
2,539
2,528
2,518
2,508
2,500
2,492
2,485
2,479
2,473
2,467
2,462
2,457

99.5%
2,947
2,921
2,898
2,878
2,861
2,845
2,831
2,819
2,807
2,797
2,787
2,779
2,771
2,763
2,756
2,750

99.75%
3,286
3,252
3,222
3,197
3,174
3,153
3,135
3,119
3,104
3,091
3,078
3,067
3,057
3,047
3,038
3,030

99.9%
3,733
3,686
3,646
3,610
3,579
3,552
3,527
3,505
3,485
3,467
3,450
3,435
3,421
3,408
3,396
3,385

Febbraio 2015

99.95%
4,073
4,015
3,965
3,922
3,883
3,850
3,819
3,792
3,767
3,745
3,725
3,707
3,690
3,674
3,659
3,646

298

Un esempio (tratto da Castino-Roletto,


Statistica applicata)
Si sono estratte 10 porzioni di cortecce di pioppo sottoposte a
umidificazione, e per ognuna si determinato il contenuto in
ceneri.
Questi i valori (in %) rilevati:
15,7 16,2 16,8 16,2 15,7 17,6 17,1 16,4 15,5 17,0
In quale intervallo potrebbe cadere il valore vero del contenuto
in ceneri, con una probabilit del 99%?
media: 16,42, stima corretta di : 0,692
Dalla tavola di Student, si ricava, con 9 GL:
t = 3,25
Il rischio , infatti, ripartito in due rischi uguali, ognuno pari a
/2, simmetrici rispetto al valore centrale.
Quindi:
16,42 (3,25 * 0,692) / radq (10) = 16,42 0,71
Abbiamo cio il 99% di probabilit che il valore della popolazione
sia compreso tra 15,71 e 17,13

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

299

Il riferimento per la lettura delle tavole


Per quale motivo si individuato
t = 3,25, che corrisponde (nella
tavola) a P = 0,995?
Perch nella tavola della distribuzione
di t, sono riportati i valori di t che
hanno probabilit pari a P di non
essere superati, cio probabilit
1-P ( = ) di essere superati.
Nellesempio, uguale a 0,01,
ripartito in due rischi uguali, ognuno
pari a /2, nelle due code. Per
utilizzare correttamente la tavola,
dobbiamo comprendere una delle due
code (quella a sinistra) ed escludere
laltra. Ci dobbiamo quindi riferire a
un valore di P di 0,995. .
Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

300

I gradi di libert, in questo esempio

Le porzioni di corteccia sono state estratte in


modo aleatorio, per cui sono indipendenti tra loro.
Ossia, conoscendo il primo valore, non si pu
predire il secondo, ecc.
La conoscenza dei primi dati non consente di
avanzare ipotesi sui successivi.
Se per consideriamo gli scarti dalla media, su cui
si basa il calcolo della deviazione standard, dato
che la loro somma sempre zero, conoscendo i
primi n-1 valori, si pu ricavare lultimo.
I dati indipendenti tra loro sono quindi n-1, e
questo il numero di gradi di libert.

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

301

Dipartimento di
Comunicazione ed Economia

9 I METODI DI
CAMPIONAMENTO

Introduzione
Nome
corso alla statistica per le scienze economiche e sociali

Febbraio 2015

302

Sulla popolazione o sul campione?


Quando si affronta una indagine statistica, una delle
alternative da porsi riguarda la scelta tra:
lindagine completa (sull'intera popolazione)
lindagine su un campione (su una parte della
popolazione)
Naturalmente, quando si lavora su un campione, il
fine quello di proiettare sulla popolazione le
informazioni che si ottengono dal campione

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

303

A volte, inevitabile campionare


Nel caso di animali di piccole dimensioni, con forte
velocit riproduttiva, ad elevata mortalit e mobilit
accentuata, impossibile il conteggio censuario di
tutti gli individui.
Si lavora allora su un campione di porzioni di aree:
possono essere quadrati di terreno, volumi di acqua,
piante nel caso degli insetti erbivori, ecc.

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

304

Lerrore di campionamento
Il campione caratterizzato da un particolare
rischio di errore: lerrore di campionamento
Si tratta del margine di approssimazione dovuto al
fatto di considerare una parte rispetto al tutto. E
fisiologico in ogni indagine su campione
Nonostante ci, non sempre la rilevazione sulla
popolazione fornisce risultati pi precisi: in
un'indagine ci sono tanti rischi di errore
(imprecisioni, omissioni, sbagli di ogni genere)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

305

Gli errori nelle indagini su campione e nelle


indagini sulla popolazione

Indagine sulla popolazione


Nessun errore di campionamento
Errori non statistici elevati
Indagine su campione
Presenza errori di campionamento
Errori non statistici ridotti

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

306

La popolazione e il campione

La popolazione

N elementi

Introduzione alla statistica per le scienze economiche e sociali

Il Campione

n elementi

Febbraio 2015

307

Metodi di campionamento

Nel campionamento probabilistico (o casuali) ogni


componente della popolazione ha la stessa
probabilit di entrare nel campione
Nel campionamento non probabilistico (o non
casuale) ci non si verifica

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

308

La casualit statistica

In un campionamento probabilistico, il caso (in


senso statistico) che determina gli elementi che
faranno parte del campione
In questo modo, possibile eliminare distorsioni
provocate da inevitabili fattori umani di scelta
facile lasciarsi trarre in inganno da una casualit
solo apparente del campionamento

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

309

Il campione casuale semplice

il tipo pi elementare di campione probabilistico


Consiste nella estrazione di un certo numero di
elementi dallelenco di tutte le unit che
compongono la popolazione (si parla in questo caso
di scelta random)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

310

Il campione casuale stratificato


Il criterio della stratificazione finalizzato a
migliorare la rappresentativit del campione

realizzabile quando si pu suddividere la


popolazione in categorie omogenee di unit (strati),
che saranno rappresentate nel campione nella
giusta proporzione
Gli strati vengono individuati facendo riferimento
alle caratteristiche pi importanti per l'indagine, in
modo da ottenere una buona omogeneit all'interno
del singolo strato

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

311

Confronto tra campione casuale semplice e


campione casuale stratificato
CAMPIONE CASUALE
SEMPLICE

CAMPIONE CASUALE
STRATIFICATO
POPOLAZIONE

POPOLAZIONE

C
A
M
P
I
O
N
E

CAMPIONE

STRATO A

STRATO B

STRATO C

STRATO D

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

312

Il campionamento sistematico

un altro criterio di campionamento (sempre


probabilistico)
Consiste nell'estrazione della prima unit; le
successive vengono determinate a partire da questa,
applicando un passo fisso (per esempio, una ogni 10)
utile soprattutto quando la lista dei componenti
della popolazione non disponibile

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

313

Il campionamento a stadi - 1
In molti casi, la scelta casuale delle unit da un
unico elenco pu essere complessa e comportare
costi elevati
A livello nazionale, per esempio, lestrazione da una
sola lista porterebbe alla costruzione di un campione
molto disperso territorialmente, con costi elevati in
termini di tempi e di spese
Per risolvere questi problemi, si pu ricorrere a un
campionamento a stadi (anch'esso probabilistico)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

314

Il campionamento a stadi - 2

Per esempio, si pu estrarre un campione di


province; all'interno di ogni provincia, si pu
estrarre un campione di comuni; ecc.

Pi il fenomeno che stiamo studiando si presenta


diffuso in modo omogeneo, maggiori sono le
garanzie che il campione a stadi rappresenti in
modo soddisfacente la popolazione

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

315

Il campionamento a stadi
Estrazione
di un
campione di
province

POPOLAZIONE
DELLE
PROVINC
E
ITALIANE

Estrazion
e di un
campione
di comuni

Estrazione di
un campione
di unit
statistiche

Provincia
A

Provincia
B

Provincia
C

Provincia
D

Provincia
E

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

316

I campioni non probabilistici


Tra i metodi non probabilistici pi utilizzati, rientra il
campione per quote
adatto a ridurre la mole di lavoro non solo in fase
di campionamento, ma nellintera esecuzione della
ricerca

La scelta avviene con l'indicazione delle proporzioni


che dovranno caratterizzare il campione
lasciando ai rilevatori la libert di scegliere le unit
statistiche su cui effettuare la rilevazione (con tutti i
rischi di distorsione connessi)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

317

Dipartimento di
Comunicazione ed Economia

10 DISTRIBUZIONI
CAMPIONARIE E INTERVALLI
DI CONFIDENZA

Introduzione
Nome
corso alla statistica per le scienze economiche e sociali

Febbraio 2015

318

Lo scopo dellindagine su campione

Si utilizzano le statistiche campionarie per stimare i


corrispondenti parametri della popolazione
Per esempio:
_
X per stimare
^

per stimare p

Si tratta di stimatori che forniscono un valore vicino


al parametro sconosciuto della popolazione
allaumentare della dimensione del campione, e che
non presentano forte variabilit da campione a
campione

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

319

I principali tipi di informazione


Le principali informazioni che si possono ottenere da
un'indagine sono di due tipi:

l'obiettivo dell'indagine pu essere la stima di una


media: per esempio, il costo medio di trattamento
delle acque sotterranee nei progetti di recupero di siti
industriali inquinati
quando il fenomeno di tipo qualitativo, l'obiettivo
dell'indagine pu essere la stima di una proporzione,
ossia di una quota: per esempio, in un tratto stradale,
la quota di veicoli diesel circolanti dotati di filtro
antiparticolato

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

320

I quattro fattori da considerare per


calcolare la dimensione di un campione

La dimensione della popolazione


L'errore di campionamento
Il livello fiduciario
Il grado di eterogeneit della popolazione

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

321

Il procedimento da seguire

Individuazione della dimensione della


popolazione
Scelta del livello fiduciario che si intende
accettare
Scelta dell'errore che si intende accettare
Stima del grado di eterogeneit
Lintero procedimento presuppone che il metodo
di campionamento sia probabilistico (casuale)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

322

La dimensione della popolazione

All'aumentare di N tende a crescere anche n, e


viceversa
L'aumento (o la diminuzione) di n per meno che
proporzionale rispetto all'aumento (o alla diminuzione)
di N

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

323

La regola dei grandi numeri

Del resto, se il campione formato da pochi


elementi, sono elevati i rischi che questi elementi
siano scarsamente rappresentativi della popolazione
Al crescere di N, n pu aumentare in misura meno
che proporzionale, in quanto si riduce il rischio che
gran parte del campione sia formata da elementi non
rappresentativi: stiamo lavorando su grandi numeri

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

324

L'errore di campionamento
Il valore rilevato con un'indagine campionaria non
corrisponde perfettamente al valore della
popolazione, ma caratterizzato da un errore (e),
per eccesso o per difetto
Questo intervallo noto come intervallo di
confidenza: lintervallo che (con una prefissata
probabilit) contiene il valore reale del parametro
Gli estremi dellintervallo di confidenza sono chiamati
limiti di confidenza
L'errore che si disposti ad accettare viene deciso in
fase di impostazione della ricerca

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

325

Errore e ampiezza del campione

All'aumentare dell'errore accettato, si riduce


l'ampiezza del campione, e viceversa
Del resto, per avere risultati pi precisi, intuitivo
che occorra lavorare su un campione pi grande

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

326

Livello fiduciario (o livello di confidenza)


Il valore ottenuto da unindagine campionaria, oltre che
da un intervallo di confidenza, caratterizzato anche
da un grado di fiducia sulla correttezza della stima
la probabilit che lintervallo di confidenza contenga il
valore reale del parametro
In molti casi, il livello di confidenza viene assunto pari
al 95%; in questa situazione, si considerano tutti i
possibili campioni di ampiezza pari a n, e per ciascuno
si calcola la media campionaria (o la proporzione
campionaria) e lintervallo centrato su questa, il 95%
degli intervalli ottenuti contiene la media (o la
proporzione) della popolazione, il 5% non la comprende

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

327

Medie campionarie e TCL


La distribuzione di probabilit di una media campionaria fa
riferimento al Teorema Centrale del Limite.
Nel campionamento casuale, da una popolazione con
media e scarto quadratico medio , se n abbastanza
grande la distribuzione delle medie campionarie
approssima la distribuzione normale.
Questa distribuzione delle medie campionarie ha media
pari a e variabilit (errore standard) pari a:
/ (radice quadrata di n)
La variabilit delle medie campionarie (che indica quanto
la media del singolo campione varia da campione a
campione) quindi minore della variabilit dei valori della
popolazione (il calcolo delle medie campionarie tende a
smussare la variabilit originaria).

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

328

Proporzioni campionarie e TCL


Anche la distribuzione di probabilit di una proporzione
campionaria fa riferimento al Teorema Centrale del
Limite.
Nel campionamento casuale, da una popolazione con
proporzioni p e (1-p), se n abbastanza grande la
distribuzione delle proporzioni campionarie approssima
la distribuzione normale.
Questa distribuzione delle proporzioni campionarie ha
media pari a p e variabilit (errore standard) pari
a:
radice quadrata di [p * (1-p) /n]

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

329

Livello fiduciario e ampiezza del campione

il livello fiduciario si modifica al variare dell'ampiezza


del campione: pi grande n, pi alto il grado di
certezza
Come gi affermato, nella maggior parte delle
indagini, il grado di certezza accettato pari al 95%.
Ci significa che viene usata una tecnica che, a lungo
andare, in grado di fornire stime corrette 95 volte
su 100

A parit degli altri fattori, si pu decidere di


aumentare il livello fiduciario, ma riducendo la
precisione della stima, ossia aumentando lerrore

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

330

L'eterogeneit della popolazione


All'aumentare del grado di eterogeneit della
popolazione, crescono i rischi connessi al
campionamento
Pi la popolazione eterogenea, infatti, maggiori sono
le probabilit di fornire (tramite l'indagine su campione)
una stima distante dal corrispondente valore della
popolazione .
. in quanto sono maggiori anche le probabilit di
lavorare su un campione poco rappresentativo

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

331

L'eterogeneit e lampiezza del campione

Di fronte a una forte eterogeneit della popolazione,


occorre cautelarsi dai maggiori rischi di distorsione,
utilizzando un campione pi ampio
Si ha la situazione di massima omogeneit quando
tutti i componenti della popolazione si comportano
nello stesso modo, in riferimento al fenomeno che
stiamo studiando

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

332

Come stimare leterogeneit?


Prima di fare un'indagine, non si conoscono le
caratteristiche della popolazione e la sua eterogeneit

Se si disponesse di queste informazioni, si potrebbe


evitare di effettuare l'indagine
Soluzioni:
risultati di altri studi
indagine preliminare
ipotesi maggiormente pessimistica (massima
eterogeneit) ( lultima alternativa!)
Le prime due alternative si basano sul fatto che, se la
popolazione normale e il campione > 30, si utilizza s
al posto di . Allo stesso modo, si usa
^
p al posto di p

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

333

Come si misura l'eterogeneit?

Occorre tenere distinti i due casi in cui ci si trova


quando si effettua un'indagine:
Lobiettivo dellindagine la stima di una
media
Lobiettivo dellindagine la stima di una
proporzione

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

334

Se lobiettivo la stima di una media .

Lindicatore del grado di eterogeneit la


deviazione standard

Se non possiamo seguire altre vie, ci affidiamo


all'ipotesi di massima deviazione standard
possibile .

. ossia il campo di variazione del fenomeno


(differenza tra il valore pi grande e il valore
pi piccolo possibile), diviso 2

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

335

Se lobiettivo la stima di una proporzione .

Lindicatore del grado di eterogeneit il


prodotto
p * (1 - p)

dove p la percentuale attesa come risultato


dellindagine (rapportata non a 100, bens
all'unit: di conseguenza, p varia da 0 a 1)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

336

La massima eterogeneit nel caso di stima


di una proporzione

Si ha forte omogeneit quando una proporzione


preponderante di unit statistiche si concentra su
una modalit

Si ha invece forte eterogeneit quando il campione


ripartito in parti pressoch uguali tra le due
modalit

L'ipotesi maggiormente pessimistica in termini di


eterogeneit corrisponde quindi a p = 0,50
(se il fenomeno presenta pi di due modalit,
sempre possibile fare riferimento a una di esse o a
una classe di esse, e considerare tutte le rimanenti
come facenti parte di un'unica categoria)
Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

337

Calcolo della dimensione del campione,


quando lobiettivo dellindagine la stima di
una proporzione, per una popolazione finita

N * z2 * p * (1 - p)
n = __________________________
(N - 1) * e2 + z2 * p * (1 - p)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

338

Calcolo della dimensione del campione,


quando lobiettivo dellindagine la stima di
una media, per una popolazione finita

N * z2 * 2
n = ______________________
(N - 1) * e2 + z2 *

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

339

Calcolo della dimensione del campione, quando


lobiettivo dellindagine la stima di una proporzione,
per una popolazione infinita (reimmissione):
z2 * p * (1-p)
n = ____________
e2

Calcolo dellerrore campionario, quando lobiettivo


dellindagine la stima di una proporzione, per una
popolazione infinita (reimmissione):
z * radq [p * (1-p)]
e = ________________
radq (n)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

340

Calcolo della dimensione del campione, quando


lobiettivo dellindagine la stima di una media,
per una popolazione infinita (reimmissione)
z2 * 2
n = _________
e2

Calcolo dellerrore campionario, quando lobiettivo


dellindagine la stima di una media, per una
popolazione infinita (reimmissione)
z*
e = _________
radq (n)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

341

Il significato dei fattori

N = dimensione della popolazione


e = errore
z = coefficiente di confidenza, il cui valore legato al
livello fiduciario (ed desumibile dalle tavole della
distribuzione normale)
= deviazione standard della popolazione
p = proporzione attesa

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

342

Livello fiduciario e il coefficiente di confidenza


A ogni livello fiduciario prescelto, corrisponde
quindi un valore di z, come si deduce dalle
tavole della distribuzione normale
Alcuni livelli fiduciari tra i pi utilizzati e i
corrispondenti valori di z sono i seguenti:

livello fiduciario (%)


99
98
95
90

Introduzione alla statistica per le scienze economiche e sociali

z
2,58
2,33
1,96
1,65

Febbraio 2015

343

Parametri non noti e campione piccolo

importante ricordare che, quando il campione di


dimensione limitata (n inferiore o uguale a 30), e
proviene da una popolazione distribuita
normalmente, di cui per si ignorano i parametri, la
distribuzione delle medie campionarie non segue la
legge della distribuzione normale, ma quella della
distribuzione t di Student

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

344

Dipartimento di
Comunicazione ed Economia

10 VERIFICA DELLE IPOTESI:


I TEST STATISTICI

Introduzione
Nome
corso alla statistica per le scienze economiche e sociali

Febbraio 2015

345

Lo scopo
Si tratta di procedure che consentono di prendere
decisioni, basate su un certo grado di probabilit
Lo scopo quello di verificare ipotesi
Per esempio: due indagini portano a due diverse
percentuali (p1 e p2):
C una differenza statisticamente
significativa tra p1 e p2?
Oppure si tratta delleffetto di errori di
campionamento?

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

346

Situazioni di utilizzo

Si impiegano test parametrici quando la variabile


quantitativa ed normalmente distribuita
Negli altri casi, si utilizzano test non parametrici
In questo corso, si affronteranno esclusivamente i
test parametrici

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

347

Ipotesi nulla e ipotesi alternativa

La prima fase operativa costituita dalla


formulazione di due ipotesi, tra loro esclusive,
ossia incompatibili, oltre che esaustive (coprono
tutte le possibilit):
H0, ipotesi nulla: es. assenza di differenza
significativa
H1, ipotesi alternativa: es. presenza di
differenza significativa

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

348

Si parte dallipotesi nulla


Normalmente, il punto di partenza lipotesi nulla
Del resto, in prima istanza pu essere ragionevole
attribuire una differenza alle fluttuazioni
campionarie, ossia agli errori di campionamento
Tutte le procedure dei test sono di tipo
conservativo, cio ci si comporta in modo prudente:
si crede allipotesi nulla tranne quando levidenza
derivante dai dati campionari contraddice questa
assunzione

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

349

Non abbiamo certezze assolute


Non possiamo provare con certezza assoluta che
una ipotesi sia corretta o falsa

Possiamo per accettare o rifiutare una ipotesi con


un certo grado di probabilit (livello di confidenza),
normalmente deciso a priori
La procedura consiste nel determinare i limiti di
confidenza, per mezzo di:
il livello di confidenza
il valore atteso
lerrore standard (SE)
Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

350

Il livello di significativit

Il complemento a 1 del livello di confidenza viene


denominato livello di significativit del test (e viene
indicato con )
Solitamente, si pone pari a un valore compreso tra
0,01 e 0,05

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

351

Larea di rifiuto

Larea (o regione) di rifiuto lintervallo dei valori


campionari (valori della statistica-test) che ci porta
a rifiutare lipotesi nulla
Larea di rifiuto delimitata dai valori critici,
corrispondenti ai limiti di confidenza
Se la statsitica-test cade nella regione di rifiuto,
allora rifiuteremo lipotesi nulla

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

352

Bidirezionale o monodirezionale?
Larea di rifiuto pu essere ripartita su entrambe le
code (test a due code, bidirezionale)

oppure su una sola coda (test a una coda,


monodirezionale): in questo secondo caso, si fissa
lattenzione su una sola alternativa (minore di,
oppure maggiore di .)
H0 comprende sempre il simbolo =. Se il test
bidirezionale, H0 corrisponde a una uguaglianza; se
invece monodirezionale,, H0 corrisponde a > oppure
a<

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

353

Test a una coda per ipotesi monodirezionali


(si intende accettazione o rifiuto di H0; il livello
di significativit qui pari a 0,025)

Regione di
accettazione
Regione di rifiuto

V.att. + 1,96 SE
Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

354

Test a due code (per ipotesi bidirezionali)


(si intende accettazione o rifiuto di H0; il livello
di significativit qui pari a 0,05)
Regione di
accettazione

Regione
di rifiuto
V.att. - 1,96

Regione
di rifiuto
*

SE

V.att. + 1,96

Introduzione alla statistica per le scienze economiche e sociali

SE
Febbraio 2015

355

Deduzioni dal grafico precedente


Ogni valore campionario cadr entro i limiti di
confidenza con una probabilit del 95%
di conseguenza:
Se un valore campionario cade entro i limiti di
confidenza, accetteremo lipotesi H0
In caso contrario, la rifiuteremo
La regione di rifiuto corrisponde ai valori che hanno
una piccola probabilit di verificarsi, quando lipotesi
nulla vera

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

356

Il p-value
Oltre al metodo accennato, basato sulla regione di
rifiuto, si pu adottare un metodo diverso, che
ovviamente conduce agli stessi risultati:
il metodo del p-value

In base a questa procedura, si rifiuta lipotesi nulla


se il p-value inferiore a
In altri termini, si rifiuta H0 quando la probabilit di
rifiutare erroneamente questa ipotesi inferiore al
massimo che siamo disposti a tollerare, ossia
Il p-value infatti leffettiva probabilit di rifiutare
lipotesi nulla, quando questa vera

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

357

Tipi di errore
Si ribadisce lassenza di certezze assolute, per cui le
conclusioni di un test statistico sono soggette ad
errori, di primo o secondo tipo

Nella realt:

Si decide di
accettare H0

Si decide di rifiutare
H0

H0 vera

Decisione
corretta

Errore di primo tipo

Errore di secondo
tipo

Decisione corretta

H1 vera

La probabilit di commettere un errore di primo tipo


corrisponde al livello di significativit
Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

358

Cosa si intende verificare, nella maggior


parte dei casi?

Su quali tipologie di indicatori si effettuano le


verifiche?
Quattro sono i casi pi importanti:
Medie
Proporzioni
Differenze tra medie
Differenze tra proporzioni

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

359

Valore atteso ed errore standard


Indicatore
MEDIA

PROPORZIONE

DIFFERENZA TRA
MEDIE
DIFFERENZA TRA
PROPORZIONI

Valore atteso

Errore standard (SE)

radq (n)

p * (1-p)
Radq []
n

21
22
Radq [ + ]
n1
n2

p1 * (1-p1)
p2 * (1-p2)
Radq [ + ]
n1
n2

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

360

In realt, solitamente non si dispone di o di p.


Al loro posto, si utilizza il valore relativamente
al quale stiamo verificando levidenza
campionaria, ossia quello che compare in H0
Quando poi non si conoscono i parametri della
popolazione (, , p), si utilizzano i valori
campionari noti
(questa impostazione corretta se il campione ha
una ampiezza superiore a 30)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

361

Verifica di una media - 1

Una agenzia turistica afferma che in una determinata


regione gli esercizi di ristorazione in attivit nel
semestre aprile-settembre siano in media 70 (questo
viene sostenuto alla presentazione ufficiale
dellagenzia).
Si compie una rilevazione, impiegando un campione
di 36 giornate estratte casualmente e si rileva una
media di 59 esercizi, con deviazione standard pari a
18 esercizi.
Quanto sostenuto alla presentazione era errato? (si
decide un livello di significativit pari a 0,02)
H0 : M > 70

H1 : M < 70

Introduzione alla statistica per le scienze economiche e sociali

(test a una coda)


Febbraio 2015

362

Verifica di una media - 2

Regione di
accettazione

Regione di
rifiuto (2%)

V.atteso - z

SE

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

363

Verifica di una media - 3


V. atteso: 70
SE: 18 / radq (36) = 3
Dalla tavola della distribuzione normale, ricaviamo
che:
area 0,48

z = - 2,05

limite di confidenza: 70 2,05

Introduzione alla statistica per le scienze economiche e sociali

3 = 63,85

Febbraio 2015

364

Verifica di una media - 4

Ci sono solo 2 possibilit su 100 che un campione di


ampiezza pari a 36 fornisca un valore medio
inferiore a 63,85
Di conseguenza, H0 da rifiutare
molto probabile che la presentazione non sia stata
veritiera: la differenza tra la media campionaria e la
media proclamata significativa

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

365

Verifica di una media - 5


Quando non si conoscono determinati parametri
della popolazione (in modo specifico, la SD)
si utilizzano i valori campionari noti ( quanto si
fatto in questo esempio); tale impostazione
per corretta solo se il campione ha una ampiezza
superiore a 30
Se il campione avesse avuto dimensioni pi
limitate, si sarebbe impiegata la distribuzione di
Student (come nellesempio successivo)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

366

Verifica di una media - 6


Per la rilevazione della concentrazione di monossido di
carbonio (Co), lo strumento da utilizzare (lo
spettrofotometro) deve essere tarato ogni giorno, su
un gas a concentrazione nota (70 ppm, ossia parti di
volume per milione)
Ogni giorno si effettuano alcune misurazioni su questo
gas
La SD di queste misurazioni non nota, in quanto
cambia ogni giorno
Questi i valori di 5 rilevazioni in un determinato
giorno: 78, 83, 68, 72, 88
La media 77,8, la deviazione standard 7,22

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

367

Verifica di una media - 7

Ipotesi nulla: errore sistematico pari a 0


Ipotesi alternativa: errore sistematico diverso da 0
(test a due code)
Si decide un livello di significativit pari a 0,05
I gradi di libert sono 4
V. atteso: 70
SE: 3,61
Lo SE stato calcolato utilizzando la stima corretta
della deviazione standard della popolazione (8,07),
data la ridotta numerosit campionaria

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

368

Verifica di una media - 8


Dalla tavola della distribuzione t di Student (essendo
il campione di ridotte dimensioni), ricaviamo che
unarea pari a 0,975 corrisponde a t = 2,78
I limiti di confidenza sono quindi:
70 - 2,78 * 3,61 = 60,0
70 + 2,78 * 3,61 = 80,0
Di conseguenza, H0 non da rifiutare

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

369

Verifica di una proporzione - 1

Secondo la letteratura, determinate missioni di


inseminazione delle nuvole per prolungare la
stagione delle piogge sono caratterizzate da un
75% di fallimenti e da un 25% di successi.
In una determinata area, si sono compiute 1200
missioni, ed risultato che il 23% di queste ha avuto
esito positivo.
Si pu affermare che la % rilevata in questa area
diversa rispetto a quella indicata dalla letteratura?
(si decide un livello di significativit pari a 0,05)
H0 : p = 0,25
H1 : p 0,25
(test a due code)
Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

370

Verifica di una proporzione - 2

Regione di
accettazione

Regione di
rifiuto (2,5%)

V.att. - z

Regione di
rifiuto (2,5%)

SE

V.att. + z

Introduzione alla statistica per le scienze economiche e sociali

SE

Febbraio 2015

371

Verifica di una proporzione - 3

V.att.: 0,25

SE: radq (0,25

Dalla tavola della distribuzione normale, ricaviamo che:


area 0,475

0,75 / 1200) = 0,0125

z = - 1,96

limite inf. di confidenza: 0,25 - 1,96

limite sup. di confidenza: 0,25 + 1,96

Introduzione alla statistica per le scienze economiche e sociali

z = + 1,96

0,0125 = 0,2255
*

0,0125 = 0,2745

Febbraio 2015

372

Verifica di una proporzione - 4

La % campionaria compresa nella regione di


accettazione

Di conseguenza, H0 non da rifiutare (differenza


non significativa)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

373

Verifica di una differenza tra medie - 1


stata realizzata una indagine su un elevato numero di
aree cittadine con differente dimensione demografica,
relativamente al numero di borseggi avvenuti nellultimo
anno.
In particolare, si vuole effettuare un test sulla differenza
tra la media dei borseggi avvenuti in un campione di aree
nellambito di centri con 25.000-30.000 residenti (PRIMO
CAMPIONE), e la media dei borseggi avvenuti in un
campione di aree nellambito di centri con 5.000-10.000
residenti (SECONDO CAMPIONE).
Il primo campione ha media pari a 1,10 borseggi (su 100
residenti) e s pari a 0,60 (n pari a 400)
Il secondo campione ha media pari a 0,90 e s pari a 0,40
(n pari a 100)
Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

374

Verifica di una differenza tra medie - 2


Si vuole verificare se effettivamente la media del
primo campione diversa dalla media del secondo
campione
Lipotesi nulla afferma quindi che le due medie sono
uguali, mentre secondo lipotesi alternativa la media
del primo campione differente dalla media del
secondo campione.
Il test a due code.
(si decide un livello di significativit pari a 0,05)

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

375

Verifica di una differenza tra medie - 3


Basandoci sullipotesi nulla, secondo la quale le due
media sono uguali, il valore atteso della differenza
pari a zero. Occorre confrontare la differenza osservata
(ossia: 1,10 0,90 = 0,20) con questo valore atteso.
Per ottenere lo SE della differenza, non si possono
sommare i due SE (0,03 + 0,04 = 0,07), in quanto si
trascurerebbe leventualit che i due SE si elidano a
vicenda.
Lo SE della differenza pari a
s21
s22
Radq [ + ]
n1
n2
ossia 0,05

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

376

Verifica di una differenza tra medie - 4

Dalla tavola della distribuzione normale, ricaviamo che:


area 0,475

z = - 1,96

z = + 1,96

limiti di confidenza:
0 - 1,96 * 0,05 = - 0,098
0 + 1,96 * 0,05 = + 0,098
Ci sono solo 5 possibilit su 100 che due campioni con
queste caratteristiche forniscano una differenza tra i
valori medi esterni al range compreso tra 0,098 e +
0,098
Di conseguenza, H0 da rifiutare

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

377

Verifica di una differenza tra proporzioni - 1


Si vuole confrontare lopinione di due campioni di cittadini,
di strato sociale differente, relativamente allatteggiamento
da assumere nei confronti delle droghe.

In particolare, si chiede ai cittadini quale delle seguenti tre


posizioni, fra tutte quelle antiproibizioniste, sarebbe pi
opportuna:
Liberalizzazione (completa rimozione delle norme che
vietano la vendita, lacquisto, il consumo)
Legalizzazione (regolazione delle condizioni di acquisto e
di consumo)
Depenalizzazione (rimozione delle sanzioni legate alla
domanda)
Entrambi i campioni sono estratti casualmente e sono
composti da 150 cittadini.
Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

378

Verifica di una differenza tra proporzioni - 2

Lipotesi della legalizzazione ottiene la preferenza


di una quota del 60% di cittadini intervistati nel
campione A, e di una quota del 56% di cittadini
nel campione B

La superiorit riscontrata nel campione A


effettiva, con un livello di significativit pari a 0,03,
o attribuibile a errori casuali?

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

379

Verifica di una differenza tra proporzioni - 3


Come sempre, si parte dallipotesi nulla, ossia che
non esistano reali differenze tra i due campioni
In questo caso, lipotesi nulla corrisponde a
sostenere che le due proporzioni sono uguali
Allipotesi nulla si contrappone lipotesi alternativa:
il campione A mostra una superiorit significativa,
come quota di favorevoli alla legalizzazione
Il test a una coda

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

380

Verifica di una differenza tra proporzioni - 4


Basandoci sullipotesi nulla, secondo la quale le due
percentuali sono uguali, il valore atteso della
differenza pari a zero. Occorre confrontare la
differenza osservata (ossia: 0,6 0,56 = 0,04) con
questo valore atteso.

Per ottenere lo SE della differenza, utilizziamo la


formula:
p1* (1-p1) p2 * (1-p2)
Radq [ + ]
n1
n2
In questo caso: 0,0569

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

381

Verifica di una differenza tra proporzioni - 5


Dalla tavola della distribuzione normale, ricaviamo
che:
area 0,47
limite di confidenza:
0 + 1,88

z = 1,88
*

0,0569 = 0,107

Dal momento che la differenza osservata tra le due


proporzioni (0,04) inferiore al suddetto limite di
confidenza, H0 non da rifiutare

Introduzione alla statistica per le scienze economiche e sociali

Febbraio 2015

382

Das könnte Ihnen auch gefallen