Beruflich Dokumente
Kultur Dokumente
ESTADSTICA DESCRIPTIVA
Estadstica descriptiva describe las regularidades o
caractersticas existentes en un conjunto de datos, organizndolos en
tablas y representaciones grficas y analizndolos mediante la
obtencin de ndices estadsticos representativos (medidas de
tendencia central y de dispersin).
2.1 Conceptos bsicos. Muestreo y tipos de muestreo.
- Poblacin: Colectivo que se desea estudiar, puede ser finita
infinita, pero normalmente incluye demasiados individuos para
poder estudiarlos a todos.
- Muestra: es el subconjunto de la poblacin sobre el que se
recogern y analizarn datos, con el objeto de extraer
conclusiones para toda la poblacin.
- Variable: caracterstica observable medida en la muestra, que
vara en la poblacin. Existen diferentes tipos de variables en
funcin de los valores que puede tomar y/o de cmo ha sido su
medicin.
- Muestreo: Es el procedimiento que permite obtener una
muestra que sea representativa de la poblacin. Se llama
muestreo aleatorio, a aqul en que los individuos son
seleccionados al azar.
a) Muestreo aleatorio simple: todos los individuos de la poblacin (N)
tienen igual probabilidad de ser elegidos. Es el ms habitual aunque
no siempre es posible realizarlo. Presenta la ventaja de que puede
asumirse la independencia de los valores observados entre los sujetos
y cuando el tamao de la poblacin es muy grande es irrelevante si
se permite o no la posibilidad de que los individuos puedan ser
reelegidos (muestreo con reemplazamiento).
b) Muestreo aleatorio sistemtico: para obtener una muestra de n
individuos, se toma un nmero aleatorio k entre 1 y h=N/n, como
integrantes de la muestra se tomaran a los individuos: K, k+h, k+2h,
k+3h, , k+(n-1)h. La muestra podra no ser representativa si los
datos dentro de los grupos estn ordenados segn alguna
caracterstica que tenga que ver con el parmetro de inters.
c) Muestreo aleatorio estratificado: Es el mtodo ideal cuando la
poblacin se divide en varios grupos o estratos cuya representacin
en la muestra se desea asegurar. Consiste en tomar una submuestra
en cada grupo manteniendo en la muestra la proporcionalidad que se
da en la poblacin.
Es decir, si N: tamao de la poblacin y N i el tamao del estrato i,
Ni N , y se desea obtener una muestra de tamao n, en cada
i
Ni
n
N
hi
ni
n
si si1
. Las marcas de clase coinciden con LA y
2
fi
655
Fi
655
123
16
655+123=
778
778+16=7
94
797+1=79
5
Ejemplo 3
Ejemplo 4
hi
655/795=0,8
24
123/795=0,1
55
16/795=0,02
0
1/795=0,001
Hi
0,824
0,824+0,155=
0,979
0,979+0,02=0,
999
100%
(%)i
82,4
%
15,5
%
2%
(%)acum.,i
82,4%
0,1%
100%
97,9%
99,9%
Ejemplo 5
Tablas de contingencia
Si estudiamos dos variables [X con M modalidades e Y con M modalidades]
la variable conjunta tendr M*M modalidades y la presentacin de los datos
la haremos mediante una tabla de doble entrada [tabla de contingencia] con
contendr las modalidades y el nmero (o proporcin) de casos que
observamos de cada una de ellas.
f2 .
f2
2j 120
j3
414
A las frecuencias resultantes de sumar toda una fila o columna se les llama
frecuencias marginales y proporcionan la TDF de cada una de las
variables estudiadas, Si sumamos todas las frecuencias obtendremos el
numero total de casos y lo mismo ocurre si sumamos las frecuencias
marginales de cualquiera de las dos variables estudiadas.
f f f
i
ij
i,j
687
444
285
A=14
743
Otra
30
21
53
total
474
306
16
796
Evol/luga
r
Maternidad
(M)
Dilatacin
(D)
Paritorio
(P)
total
Normal
B=55,8
35,8
1,8
93,3
Otra
3,8
2,6
0,3
6,7
total
59,5
38,4
2,0
100
Evol/luga
r
Maternidad
(M)
Dilatacin
(D)
Paritorio
(P)
total
Normal
59,76
38,36
1,88
100
Otra
56,60
39,62
C=3,77
100
total
58,18
38,99
2,83
100
C: Los ingresos por paritorio suponen un 3,77% de los ingresos con evolucin
no normal, i.e. de los ingresos con evolucin no normal, el 3,77% fueron por
paritorio.
Evol/luga
r
Maternidad
(M)
Dilatacin
(D)
Paritorio
(P)
total
Normal
93,67
93,14
87,50
91,44
Otra
6,33
6,86
D=12,50
8,56
total
100
100
100
100
i 360
Ejemplo 6: El grfico de sectores de los datos sobre trasplantes del ejemplo 3 se
muestra a continuacin. El ngulo que correspondera por ejemplo a la categora
hgado es:
112 387
360 112
104,2 grados
-> i
i 360
387
*Diagrama de barras
Sobre unos ejes coordenadas marcamos en el eje de abscisas las posibles
modalidades y sobre el eje de ordenadas la frecuencia (o porcentaje). Sobre
cada modalidad trazamos rectngulos de base constante y altura igual a la
frecuencia (o porcentaje) correspondiente [en el ejemplo
se representan las proporciones de las modalidades de la variable Lugar de
ingreso]
fi
siendo ai
ai
H x
0 si x l1
h x li
Hi1 i
si li x Li
Li li
1 si x Lm
Es decir, supuesta una barra sin peso que empezara en el dato de menor
valor y acabara en el de mximo, si se colocaran en las posiciones
correspondientes a los datos tantos kilos como su frecuencia, la media
aritmtica sera el punto dnde se ha de apoyar la barra para que sta se
mantuviera en equilibrio.
Ejemplo 6: X: nmero de hijos en 500 mujeres entre 20 y 30 aos
x f
i
z a bx cy
x1N1 x2 N2
N
x x 0
i
Marca de
clase(xi)
fi
hi
Fi
Hi
[0,10)
[10, 20)
[20, 30)
[30,40)
[40,50]
[50, 60)
[60, 70)
[70, 80)
[80, 90)
[90, 100)
[100, 110)
[110, 120)
totales
5
15
25
35
45
55
65
75
85
95
105
115
1
6
14
14
17
8
9
3
6
1
0
1
80
0,0125
0,075
0,175
0,175
0,2125
0,1
0,1125
0,0375
0,075
0,0125
0
0,0125
1,00
1
7
21
35
52
60
69
72
78
79
79
80
0,0125
0,0875
0,2625
0,4375
0,65
0,75
0,8625
0,9
0,975
0,9875
0,9875
1
1820 1610
17,33
30
Me 1
Me 1,5
Me li (Li li)
n/ 2 Hi1
hi
Hi-1 0,5 Hi
Propiedades de la Mediana
- La mediana no depende de los valores de la variable, tan solo de la
frecuencia con la que se dan, por lo que no es sensible a datos
extremos.
- En caso de distribuciones simtricas, la media y la mediana toman el
mismo valor. En caso de distribuciones asimtricas, la mediana es
mejor medida de tendencia central que la media.
- En el mismo sentido que la mediana puede trabajarse con otro
porcentaje del tamao muestral y calcular los llamados percentiles.
Algunos percentiles, muy usados, tienen nombres especiales. Por
ejemplo se llaman cuartiles (Q1,Q2,Q3) a los valores que separan la
distribucin en 4 partes con igual frecuencia, es decir a los valores
que dejan atrs respectivamente el 25, el 50 y el 75% de los datos.
Los deciles (D1,,D9) son los puntos que separan a la distribucin en
10 partes con igual frecuencia.
- Los percentiles se calculan igual que la mediana sin ms que cambiar
n/2 por la fraccin de la frecuencia correspondiente. Por ejemplo si se
va a calcular el percentil 25, n/2 se sustituir por 25n/100, es decir
por n/4.
* Moda: es el valor ms frecuente de la muestra. Si la variable es continua
hablamos de intervalo modal.
Propiedades de la Moda
La moda no tiene porqu ser nica, las distribuciones con una sola
moda se llaman unimodales.
En caso de distribuciones simtricas y unimodales, la media, la
mediana y la moda coinciden
Ejemplo 14:
Mo 1
Mo 2
Var(x) S
2
x
Propiedades de la Varianza
x x
i
fi
2
i
fi
x2
x 0,9
225 4 75 9 25
S2x
0,92 0,69
500
x 1,2
75
4 225 9 25
S2x
1,22 0,96
500
Sx 0,69 0,83
Sx 0,96 0,98