Beruflich Dokumente
Kultur Dokumente
n
e
n
T
o
m
a
t
e
30
20
10
0
Polgono de frecuencias acumuladas,
Grficos Multivariados
Grfico de Barras que incorpora 4 variables dicotmicas (si- no)
Este tipo de grfico
permite resumir de
manera muy eficiente
la informacin de
hasta 6 o 7 variables.
Es ideal para usar
con escalas de
opinin como la
escala Likert o
variables dicotmica,
SI y NO.
Telfono
Asistencia Mdica
Agua Potable
Electricidad
Escuela Cercana
P
o
r
c
e
n
t
j
e
d
e
r
e
s
p
u
e
s
t
a
a
f
i
r
m
a
t
i
v
a
120
100
80
60
40
20
0
19
30
43
98
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
19
Grfico De Barras, Bivariado en Cluster
Grfico bivariado, que se puede acompaar de una tabla cruzada de frecuencias y
porcentajes con
una prueba
estadstica X
2
de
independencia.
Grfico Bivariado De Barras Apiladas
Grfico
bivariado que
reduce el
nmero de
barras y por lo
tanto se
simplifica el
diseo. Se
puede construir
con frecuencias
o porcentajes
Nivel educativo
solo lee universitario secundaria primaria
P
o
r
c
e
n
t
a
j
e
50
40
30
20
10
0
Sexo
varn
mujer
13
23
41
8
9
19
46
Sexo
mujer varn
C
a
n
t
i
d
a
d
d
e
e
n
t
r
e
v
i
s
t
a
d
o
s
140
120
100
80
60
40
20
0
Rol en la familia
hijo/a
madre
padre
jefe de familia
62
79
28
22
10
15
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
20
Definicin de estudio:
En matemtica, el smbolo Griego E en mayscula se utiliza para indicar
sumatoria de datos donde:
Siendo x un valor de una medicin de la variable en estudio e i un ndice que
vara de 1 a n . n es el nmero de datos de la muestra.
1.3. Medidas de Tendencia Central
Al forjarnos una imagen mental de la distribucin de frecuencias de un conjunto de
mediciones, una de las primeras apreciaciones descriptivas de inters es una
medida de tendencia central, es decir, una que localiza el centro de la distribucin.
n
i x
1
= x
1
+x
2
+x
3
+x
4
+.......+ x
n
Un Grfico es una manera de ver
rpidamente lo que nos dicen los
datos
A partir de la realidad observable
debo crear un modelo numrico
terico para intentar estudiar esa
realidad
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
21
Una de las medidas de tendencia central ms comn y til es el promedio comn
o media aritmtica, pero tambin son de importancia, segn las circunstancias y
el tipo de variables la moda y la mediana.
Media Aritmtica
La media aritmtica o simplemente media de un conjunto de mediciones es la
medida de tendencia central ms usada y conocida. Esta medida se simboliza
como x ( x con raya ) cuando representa la media muestral y como (letra griega
minscula) para representar la media poblacional. x o es la suma de todos
los valores de la muestra o poblacin divididos por el nmero de casos. En el caso
de la media muestral esta es igual a : x = x
1
+ x
2
+ x
3
+ .. x
n
/ n donde n es el
nmero de datos de la muestra y x el valor numrico del dato. La frmula
simplificada de la media es:
x =(
n
x
1
i
/ n) , donde
n
x
1
f )/n donde f es la frecuencia de la clase y x el punto medio de cada
intervalo.
Una debilidad de la media aritmtica es que es sensible a valores extremos de la
distribucin y que carece de sentido para varibles medidas en un nivel nominal o
ordinal.
x
=(
n
x
1
i
/ n)
Media Aritmtica
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
22
Ejemplo de clculo de una media o promedio.
Si tengo la nota de un examen de matemticas de 10 estudiantes en una escala
de 1 a 100 donde:
Estudiante Variable Nota = x
i
Valor de x
i
Luis X
1
62
Alberto X
2
68
Juan X
3
92
Pedro X
4
88
Robero X
5
55
Mara X
6
79
Raquel X
7
89
Luisa X
8
92
Rosa X
9
67
Diana X
10
69
i
x
10
1
=
761.
En este caso i varia de 1 a 10.
Media de notas de los estudiantes =
i
x
10
1
/10 = 761/10 = 76.1
La Mediana
La segunda medida de tendencia central es la mediana. La mediana m de un
conjunto de mediciones x
1
, x
2
, x
3
, ...., x
n
es el valor de x que se encuentra en el
punto medio o centro cuando se ordenan los valores de menor a mayor.
Si las mediciones de un conjunto de datos se ordenan de menor a mayor valor y
n es impar, la mediana corresponder a la medicin con el orden (n + 1) / 2. Si
el nmero de mediciones es par , n = par, la mediana se escoge como el valor de
x a la mitad de las dos mediciones centrales, es decir como el valor central entre
la medicin con rango n/2 y la que tiene rango (n/2) + 1.
Reglas para calcular la mediana
- Ordenar las mediciones de menor a mayor
- Si n es impar, la mediana m es la medicin con rango (n + 1) / 2
- Si n es par, la mediana m es el valor de x que se encuentra a la mitad
entre la medicin con rango n / 2 y la medicin con rango (n /2)+1.
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
23
Ejemplo de clculo de una mediana.
En el ejemplo de las notas de matemticas la mediana se construye ordenando
los datos de menor a mayor:
Estudiante Datos ordenados Valor de x
i
Roberto 1
55
Luis 2 62
Rosa 3 67
Alberto 4 68
Diana 5 69
Mara 6 79
Pedro 7 88
Raquel 8 89
Juan 9 92
Luisa 10 92
Como n es impar, la normal es igual a la mitad entre la medicin con rango n /
2 y la medicin con rango (n/2) +1, donde n / 2 = 5 y (n /2) +1 )= 6.
El dato 5 vale 69 y el dato 6=79, entonces la mediana es igual a 69 + 79 / 2= 74
En este ejemplo la mediana es semejante a la media.
La Moda
La moda es la medida de tendencia central ms fcil de calcular y tambin es la
ms sujeta a fluctuaciones cuando cambian unos pocas valores de la distribucin.
Por esta razn la moda se suele usar para una evaluacin rpida de la tendencia
central. La moda se define comoel valor ms frecuente de una distribucin. Se
debe usar cuando se describen datos nominales, es la nica medida de tendencia
central que funciona con este tipo de escala..
La moda es el valor ms frecuente y
funciona bien con escalas nominales
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
24
Comparaciones entre las diferentes medidas.
Las tres medidas de tendencia central, la media, mediana y moda, no son
igualmente tiles para obtener una medida de tendencia central. Por el contrario,
cada una de estas medidas tiene caractersticas que hacen que su empleo sea
una ventaja en ciertas condiciones y en otras no.
La media es la medida de tendencia central, generalmente ms usada y tiene la
caracterstica que incorpora todos los datos de la variable en su clculo por lo
tanto su valor suele ser ms estable. Adems se suele preferir en la construccin
de pruebas de hiptesis, en la estadstica inferencial. Se usa normalmente con
datos de intervalo y de razn constante y cuando las distribuciones tiene forma
simtrica.
La mediana suele ser la medida preferida cuando se emplea una escala ordinal,
estas son las situaciones donde el valor asignado a cada caso no tiene otro
significado ms que el indicar el orden entre los casos. Por ejemplo saber en una
clase cuales alumnos estn dentro del 50% con mejores notas y cuales dentro del
50% con peores notas. Tambin se suele preferir la mediana cuando unos pocos
valores extremos distorsionan el valor del promedio. Por ejemplo si tengo 9
personas con 0 ingresos y uno sola que tiene ingresos de 10 unidades, el
promedio me puede dar a entender que la mayora recibe 1 uni dad, cuando esto
no es real.
La moda en ciertas condiciones puede ser la ms apropiada, por ejemplo cuando
se quiere informacin rpida y cuando la precisin no sea un factor especialmente
importante. En ciertos casos solo esta medida tiene sentido por ejemplo en un
equipo de ftbol llevo la estadstica por jugador (escala ordinal) de la cantidad de
pases que realiza por juego, esto para detectar quien es el que mejor
distribuyendo la pelota, en este caso la media y la mediana no tendran
significado, solo la moda.
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
25
No necesariamente una escala de medida nos debe decir que tipo de medida de
tendencia central debemos usar, pero si nos ayuda a determinar cual es la ms
apropiada.
Un aspecto interesante entre las tres medidas es su comportamiento referente a la
simetra que toma una distribucin. Cuando las distribuciones son simtricas, sin
sesgo, caso de la distribucin Normal que tiene forma de campana, la media, la
mediana y la moda coinciden. Si la distribucin es asimtrica con sesgo positivo,
hay ms datos hacia la izquierda de la media, entonces la media es mayor que la
mediana y esta mayor que la moda. Si ocurre lo contrario, el sesgo es negativo,
entonces la media es menor que la mediana y esta menor que la moda.
1.4 Medidas de Dispersin o de Variabilidad
Las medidas de variabilidad indican la dispersin de los datos en la escala de
medicin. As como las medidas de tendencia central son valores en una
distribucin, las medidas de dispersin son intervalos, distancias o un nmero de
unidades en la escala de medicin. Este tipo de medida se complementa con las
medidas de centralidad y ambas permiten describir a la mayora de las
distribuciones. Los tipos de medidas de Dispersin ms comunes son: el Rango,
el Desvo Estndar y la Varianza.
El Rango.
El Rango, Recorrido o Amplitud de un conjunto de mediciones, es la diferencia
entre el valor mayor y el valor menor, indica el nmero necesario y mnimo de
unidades, en la escala de medicin, para incluir los valores mnimo y mximo. Es
la medida de dispersin ms fcil de calcular, pero tambin es la menos estable al
estar fuertemente influenciada por valores extremos atpicos.
Cuanto ms grande es el rango, mayor ser la dispersin de los datos de una
distribucin. Es adecuada para medir la variacin de pequeos conjuntos de datos
y para escalas de tipo nominal.
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
26
El Desvo Estndar.
El Desvo Estndar es la medida de dispersin ms ampliamente usada y es la
ms estable ya que depende de todos los valores de la distribucin. Es el
promedio de desviacin de los valores con respecto a al media, aunque una
definicin completa sera: la raz cuadrada de la suma de las desviaciones
alrededor de la media, elevadas al cuadrado y divididas entre el nmero de casos
menos uno en el caso de S, .
Cuando se trabaja con muestras el desvo estndar se simboliza con una S y con
la letra sigma minscula o cuando se usan datos de una poblacin. Su frmula
de clculo es:
Donde i es cualquier valor de uno a n o N, y n es el nmero total de datos de
la muestra y N de la poblacin.
El desvo estndar, S o o, se interpreta como cuanto se desva, en promedio,
de la media un conjunto de valores y se grafico como un intervalo. Esta medida
solo se utiliza con escalas de intervalo y de razn constante.
Desvo Estndar S: la raz
cuadrada de la suma de las
desviaciones alrededor de la
media, elevadas al cuadrado y
divididas entre el nmero de
casos menos uno.
=
n
i n x x S
1
2
1 / ) (
=
N
i N x
1
2
/ ) ( o
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
27
Ejemplo de clculo de Desvo Estndar S
Con el ejemplo de las notas de matemticas haremos clculo de S
S=
= 13.6
Se sugiere hacer estos clculos usando una calculadora cientfica en funcin
estadstica.
La Varianza.
La varianza es el desvo estndar elevado al cuadrado y se simboliza con S
2
cuando es muestral, o o
2
cuando es poblacional. Este es un concepto que se usa
en muchas pruebas estadsticas, por ejemplo el Anlisis de Varianza, ANDEVA
que se basa en la descomposicin y relacin de las varianzas de las causas de
variacin de los datos. Pero para fines descriptivos se prefiere usar el desvo
estndar en vez de la varianza, que suele ser un valor mayor y difcil de
interpretar.
El Coeficiente de variacin
El coeficiente de variacin, CV, es un cociente entre el desvo estndar y la media
de los datos
X
S
CV =
. Este coeficiente permite comparar la variabilidad de
diferentes muestras de una poblacin la variabilidad entre variables diferentes.
En general un CV menor a 0.10, nos dice que los datos tienen poca variabilidad,
que es lo mismo que decir que los valores observados son en general, cercanos
al valor medio.
9 / ) ) 1 . 76 92 ( ) 1 . 76 92 ( ) 1 . 76 89 ( ) 1 . 76 88 (
) 1 . 76 79 ( ) 1 . 76 69 ( ) 1 . 76 68 ( ) 1 . 76 67 ( ) 1 . 76 62 ( ) 1 . 76 55 ((
2 2 2 2
2 2 2 2 2 2
+ + +
+ + + + + +
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
28
Interpretacin de las medidas de tendencia central y de la variabilidad.
Cabe destacar que al describir nuestros datos, debemos interpretar nuestros datos
de tendencia central y de variabilidad en conjunto y no de manera separada. Con
la media y el desvo estndar se pueden construir intervalos donde supongo estn
la mayora de los datos en el caso que la distribucin sea normal. La moda,
mediana y el rango pueden completar la informacin sobre la distribucin y as
tener una buena idea de lo que sucede con la variable en estudio.
1.6 Otras medidas tiles en Estadstica Descriptiva.
Cuando los polgonos de frecuencia de una variable se presentan en forma de
curva hay dos medidas esenciales para describir estas curvas: La Asimetra y la
Curtosis.
La Asimetra.
La Asimetra es una estadstica necesaria para conocer cuanto se parece nuestra
distribucin a una distribucin terica llamada curva normal y constituye un
indicador del lado de la curva donde se agrupan las frecuencias. Si es cero
(asimetra = 0), la curva de distribucin es simtrica. Cuando es positiva quiere
decir que hay valores agrupados hacia la izquierda de la curva, por debajo de la
media. Cuando es negativa significa que los valores tienden a agruparse hacia la
derecha de la curva, por encima de la media.
La Curtosis.
La curtosis es un indicador de lo plano o puntiaguda que es una curva. Cuando es
cero, curtosis = 0, significa que se trata de una curva Normal. Si es positiva, quiere
decir que la curva o distribucin o polgono es ms puntiaguda o levantada. Si es
negativa quiere decir que es ms plana.
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
29
Ejercicio 6
Clase Prctica de Estadstica: A partir del grupo de clase generar una base de
datos como la que a continuacin se muestra, proponer un modelo de anlisis en
computadora, de estas variables. Explicar que tablas, grficos y pruebas
estadsticas se pueden hacer para describir la informacin
Definicin:
Las medidas calculadas a partir de la poblacin, Ej.
y o se llaman PARMETROS
Las medidas calculadas a partir de las muestras, Ej. x
S se llaman ESTADSTICOS
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
30
GENERACIONDEDATOS
NOMBRE NOTAS
Prom.
EST
ADO
CIVIL
EDAD ALTU
RA
SEXOPESOorigen INGRE
SO
FAMI
LIAR
BE
CA
S
Opinin
Abel 74 2 25 1.75 1 140 2 1 0 3
Adely 70 2 18 1.55 2 110 1 1 0 3
Alexis 80 2 24 1.85 1 150 1 1 1 2
Aracely 70 2 20 1.54 2 117 1 1 1 4
Candelario 78 1 24 1.65 1 150 2 1 0 5
Carlos 85 2 19 1.8 1 150 1 2 0 5
Cesar 70 2 19 1.7 1 140 2 1 0 5
Cleotilde 75 1 20 1.5 2 112 1 1 1 1
Danny T 70 2 18 1.7 1 160 1 1 0 4
Danny 85 2 18 1.67 1 120 2 1 0 4
David N 77 2 18 1.63 1 135 1 1 0 2
Deice 75 2 20 1.52 2 110 1 1 1 3
Edwin 80 1 18 1.75 1 110 1 1 0 3
Ronal 80 2 21 1.73 1 160 2 1 0 3
Sara 80 2 17 1.6 2 114 2 1 0 2
Sayda 78 2 18 1.5 2 128 2 1 0 5
Seyla 75 2 20 1.7 2 120 1 1 1 5
Tania 90 2 19 1.65 2 130 2 1 0 4
Uriel 70 2 22 1.65 1 140 2 1 0 2
Yilmar 78 2 18 1.8 1 174 2 2 0 4
Cdigos: Estado Civil: 1 Soltero, 2 Casado; Origen: 1 Estel, 2 No Estel; Sexo: 1
Varn, 2 Mujer; Becas: 1 Si 2 No; Opinin: 1 Negativa 5 Positiva
Tomando como fuente de datos las variables continuas recolectadas a partir de los
datos que generen los estudiantes en clase debe construir
- medias,
- modas
- medianas,
- desviacin estndar y rango
- distribucin de frecuencias
- espacios:
x
2 S y determinar cuantos datos entran en este intervalo.
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
31
- Grficos de barras, histogramas y grficos de pastel
1.7 Muestras y Poblacin.
Llamaremos poblacin a un conjunto homogneo de elementos en el que se
estudia una caracterstica dada. El censo es la forma de estudio de todos los
elementos de una poblacin. Frecuentemente no es posible estudiar toda la
poblacin ya que suele ser econmicamente inviable o llevar tanto tiempo que es
impracticable.
Como generalmente no se puede estudiar la poblacin, se selecciona un conjunto
representativo de elementos de esta, que llamaremos muestra. Cuando la
muestra est bien escogida podemos obtener informacin de la poblacin similar a
la de un censo, pero con mayor rapidez y menor costo.
La clave de un procedimiento de muestreo es garantizar que la muestra sea
representativa de la poblacin. Por lo tanto cualquier informacin al respecto de
las diferencias entre sus elementos debe tenerse en cuenta para seleccionar la
muestra, esto origina diferentes tipos de muestreo, los cuales se describen a
continuacin.
Muestreo Aleatorio Simple
Decimos que una muestra es aleatoria cuando:
- Cada elemento de la poblacin tiene la misma probabilidad de ser elegido.
- La poblacin es idntica en todas las extracciones de muestreo. Esta
caracterstica es irrelevante si el tamao de la poblacin (N) es grande en
relacin al tamao de la muestra (n) .
Cuando la fraccin n / N a priori se determina que ser mayor que 0.1, un mtodo
para determinar n de manera aproximada es el siguiente:
q * p D * 1 ) ( N
q * p * N
n
+
=
Donde:
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
32
- Los valores p y q cumplen que p + q = 1 y generalmente se acepta que
p = q = 0.5.
- D es un valor que se vincula al error de estimacin prefijado donde D = B
2
/4
- B es el error de estimacin que se debe fijar y generalmente flucta entre
0.01 y 0.10 .
- p x q es la variancia de una distribucin binomial de una pregunta
dicotmica, con tiene 2 posibles respuestas.
Si bien este modelo es bastante terico es un mtodo muy usado para aproximar
un valor de n entrevistados, cuando se realiza investigacin social .
Muestreo Estratificado
El muestreo aleatorio simple debe utilizarse cuando los elementos de la poblacin
son homogneo respecto a las caractersticas a estudiar, es decir a priori no
conocemos que elementos de la poblacin tendrn valores altos de ella. Cuando
dispongamos de informacin sobre la poblacin conviene tenerla en cuenta al
seleccionar la muestra.
Un ejemplo clsico son las encuestas de opinin, donde los elementos (personas)
son heterogneas en algunas variables como: sexo, edad, profesin, etc. Interesa
en estos casos que la muestra tenga una composicin anloga a la poblacin, lo
que se consigue mediante una muestra estratificada.
Se denomina muestra estratificada aqul en que los elementos de la poblacin se
divide en clases o estratos. La muestra se toma asignando un nmero o cuota de
miembros a cada estrato y escogiendo los elementos por muestreo aleatorio
simple dentro del estrato.
En concreto si existen k estratos de tamao N
1
...N
k
y tales que N = N
1
+ N
2
+
....+ N
k
se tomar una muestra nque garantice una presencia adecuada de cada
estrato n
i
.
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
33
Existen dos criterios bsicos para dividir el tamao total de la muestra n entre los
estratos de n
i
:
1. Mtodo Proporcional al tamao relativo del estrato de la poblacin, por
ejemplo si en la poblacin hay un 55 % de mujeres y un 45 % de hombres,
mantendremos esta proporcin de la muestra. En general se har n
i
= n *
N
i
/ N .
2. Mtodo Proporcional a la Variabilidad del Estrato. Si conocemos la varianza
de la caracterstica estudiada de cada estrato, tomaremos el tamao
muestral en cada una de manera proporcional a su variabilidad, de manera
que los estratos ms variables estn representados. En concreto si
llamamos
i
o a la desviacin estndar en el estrato i, se tomar la
siguiente ecuacin:
=
n
1
i i
i i
i
. N
. N
n n
=
= + + + =
n
i
n n
A p A B p A p A B p A p A B p A p A B p B p
1
1 1 2 2 1 1
/ / ..... / /
p (B) = 0,003 * 0,25 + 0,001 * 0,75 = 0,0015
Planteo del Teorema de Bayes
Si los sucesos A
i
son una particin y B un suceso tal que p (B) = 0 y para i=
1,2,..n, como lo visto en la teora de Probabilidad Total
A
1
A
2
A
n
A
1
A
2
A
n
B
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
42
( )
( ) ( )
( ) ( )
=
=
n
j
j j
i i
i
A p A B p
A p A B p
B A p
1
/
/
/
Ejercicio resuelto:
Tres mquinas, A, B y C, producen el 45%, 30% y 25%, respectivamente, del total
de las piezas producidas en una fbrica. Los porcentajes de produccin
defectuosa de estas mquinas son del 3%, 4% y 5%.
a. Seleccionamos una pieza al azar; calcula la probabilidad de que sea
defectuosa. (probabilidad Total)
b. Tomamos, al azar, una pieza y resulta ser defectuosa; calcula la
probabilidad de haber sido producida por la mquina B.
c. Qu mquina tiene la mayor probabilidad de haber producido la citada
pieza defectuosa?
Sea D= "la pieza es defectuosa" y N= "la pieza no es defectuosa". La informacin
del problema puede expresarse en el diagrama de rbol adjunto.
a. Para calcular la probabilidad de que la pieza elegida sea defectuosa, P(D),
por la propiedad de la probabilidad total,
P(D) = P(A) P(D/A) + P(B) P(D/B) + P(C) P(D/C) =
= 0.45 x 0.03 + 0.30 x 0.04 + 0.25 x 0.05 = 0.038
Resolucin por diagrama de rbol. Un diagrama de rbol es una representacin
grfica de un experimento que consta de pasos, donde cada uno de los pasos
tiene un nmero finito de maneras de ser llevado a cabo.
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
43
Prob. Mquina Prob. Tipo de
produccin
0.45 A 0.03 D
0.97 N
0.30 B 0.04 D
0.96 N
0.25 C 0.05 D
0.095 N
b. Debemos calcular P(B/D). Por el teorema de Bayes,
( )
( ) ( )
( ) ( ) ( ) ( ) ( ) ( ) C D P C P B D P B P A D P A P
B D P B P
D B P
/ . / . / .
/ .
/
+ +
=
( )( )
( )( ) ( )( ) ( )( )
316 . 0
38
12
05 . 0 25 . 0 04 . 0 3 . 0 03 . 0 45 . 0
04 . 0 30 . 0
= =
+ +
=
c. Calculamos P(A/D) y P(C/D), comparndolas con el valor de P(B/D) ya
calculado. Aplicando el teorema de Bayes, obtenemos:
( )
( )( )
( )( ) ( )( ) ( )( )
355 . 0
380
135
05 . 0 25 . 0 04 . 0 3 . 0 03 . 0 45 . 0
03 . 0 45 . 0
/ = =
+ +
= D A P
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
44
( )
( )( )
( )( ) ( )( ) ( )( )
329 . 0
380
125
05 . 0 25 . 0 04 . 0 3 . 0 03 . 0 45 . 0
05 . 0 25 . 0
/ = =
+ +
= D C P
La mquina con mayor probabilidad de haber producido la pieza defectuosa
es A
2.4 Tcnicas de conteo: Combinaciones y Permutaciones
Las tcnicas de conteo son aquellas que son usadas para enumerar eventos
difciles de cuantificar.
Combinaciones:
Para calcular el nmero de combinaciones se aplica la siguiente frmula:
)! ( !
!
.
n m n
m
C
n m
=
El termino " n ! " se denomina "factorial de n" y es la multiplicacin de todos los
nmeros que van desde "n" hasta 1.
Por ejemplo: 4 ! = 4 * 3 * 2 * 1 = 24
La expresin "C
m,n
" representa las combinaciones de "m" elementos, formando
subgrupos de "n" elementos.
Ejemplo: C
10,4
son las combinaciones de 10 elementos agrupndolos en
subgrupos de 4 elementos:
210
) 1 . 2 . 3 . 4 . 5 . 6 )( 1 . 2 . 3 . 4 (
1 . 2 . 3 . 4 . 5 . 6 . 7 . 8 . 9 . 10
)! 4 10 ( ! 4
! 10
4 , 10
= =
= C
Es decir, podramos formar 210 subgrupos diferentes de 4 elementos, a partir de
los 10 elementos.
Por ejemplo: Si tomamos el conjunto A={a,b,c,d}, cuntos subconjuntos de 2
elementos cada uno se pueden obtener?
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
45
Hacindolos se obtienen: {a,b}, {a,c}, {a,d}, {b,c}, {b,d}, {c,d}. Son seis los
subconjuntos.
Permutaciones:
Para calcular el nmero de permutaciones se aplica la siguiente frmula:
)! (
!
.
n m
m
P
n m
=
La expresin "P
m,n
" representa las variaciones de "m" elementos, formando
subgrupos de "n" elementos. En este caso, como vimos en la leccin anterior, un
subgrupo se diferenciar del resto, bien por los elementos que lo forman, o bien
por el orden de dichos elementos.
Ejemplo: P
(10,4)
son las permutaciones de 10 elementos agrupndolos en
subgrupos de 4 elementos:
040 , 5
1 . 2 . 3 . 4 . 5 . 6
1 . 2 . 3 . 4 . 5 . 6 . 7 . 8 . 9 . 10
)! 4 10 (
! 10
4 , 10
= =
= P
Es decir, podramos formar 5.040 subgrupos diferentes de 4 elementos, a partir de
los 10 elementos.
Por ejemplo: Sea A={a,b,c,d}, cuntas "palabras" de dos letras se pueden
obtener?
Se pide formar permutaciones u ordenaciones de 2 letras, cuando el total de letras
es 4. En este caso r=2 y n=4.
Las "palabras" de 2 letras formadas son: aa, ab, ac, ad, ba, bb, bc, bd, ca, cb, cc,
cd, da, db, dc, dd. En total son 16.
Bibliografa y Documentos Consultados
Abraira V. PROBABILIDAD.. Centro de Estudios Ramn Areces. Madrid. 1996.
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
46
Dicovskiy, L. Mdulo Nro 1. Bioestadstica. Folleto de clase. UCATSE.
Sampieri R, Collado C y Lucio P. 2004.Metodologa de la Investigacin. Tercera
Edicin edit. Mc Graw Hill.
Vermeer I.1996. Estadstica, Curso Bsico. EAGE. 104 p.
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
47
Unidad 3. Variables aleatorias y sus distribuciones.
Aplicar el concepto de variable aleatoria
Explicar las distribuciones ms usadas en la ingeniera
Identificar que modelos se usan con variables discretas y continuas
3.1 Distribuciones de Frecuencia, Introduccin.
Hasta esta unidad nos hemos ocupado de descripciones de muestras usando
tablas, grficos y valores tpicos como la media y la varianza. Pero generalmente
nuestro inters va ms all que una simple descripcin, suele haber inters en
tratar de generalizar los resultados de la muestra hacia el grupo total, es decir la
Poblacin.
Para generalizar podemos usar modelos estadsticos tericos diseados por
estadsticos famosos como Gauss, Fisher, Gosset y otros.
Hoy en da los modelos estadsticos tericos son frecuentemente utilizados para
observar y comprender fenmenos naturales que implican el estudio de variables
o caractersticas de poblaciones naturales. El instrumento conceptual que
permitir esta generalizacin es un modelo de la poblacin, es decir una
representacin simblica de su comportamiento. Los modelos estadsticos van a
actuar de puente entre lo observado, la muestra y lo desconocido, la poblacin.
Los modelos estadsticos son un puente entre la muestra observada y la
poblacin desconocida.
Objetivos
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
48
Las distribuciones de probabilidad estn relacionadas con las distribuciones de
frecuencias. Una distribucin de frecuencias terica es una distribucin de
probabilidades que describe la forma en que se espera que varen los resultados.
Debido a que estas distribuciones tratan sobre expectativas de que algo suceda,
resultan ser modelos tiles para hacer inferencias y para tomar decisiones en
condiciones de incertidumbre.
Las distribuciones de probabilidad son idealizaciones de los polgonos de
frecuencias. En el caso de una variable estadstica continua consideramos el
histograma de frecuencias relativas, y se comprueba que al aumentar el nmero
de datos y el nmero de clases el histograma tiende a estabilizarse llegando a
convertirse su perfil en la grfica de una funcin.
Una distribucin de frecuencias es un listado de las frecuencias observadas de
todos los resultados de un experimento que se presentaron realmente cuando se
efectu el experimento, mientras que una distribucin de probabilidad es un listado
de las probabilidades de todos los posibles resultados que podran obtenerse si el
experimento se lleva a cabo.
Las distribuciones de probabilidad pueden basarse en consideraciones tericas o
en una estimacin subjetiva de la posibilidad. Se pueden basar tambin en la
experiencia.
Las distribuciones de probabilidad se clasifican como continuas y discretas. En la
distribucin de probabilidad discreta est permitido tomar slo un nmero limitado
de valores. En una distribucin de probabilidad continua, la variable que se est
considerando puede tomar cualquier valor dentro de un intervalo dado. Las
distribuciones continuas son una forma conveniente de presentar distribuciones
discretas que tienen muchos resultados posibles, todos muy cercanos entre s.
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
49
3.2 Variables aleatorias.
Una variable es aleatoria si toma diferentes valores como resultado de un
experimento aleatorio. Puede ser discreta o continua. Si puede tomar slo un
nmero limitado de valores, entonces es una variable aleatoria discreta. En el otro
extremo, si puede tomar cualquier valor dentro de un intervalo dado, entonces se
trata de una variable aleatoria continua. Las variables aleatorias definidas sobre
espacios muestrales discretos se llaman variables aleatorias discretas y las
definidas sobre espacios muestrales continuos se llaman continuas.
Se puede pensar en una variable aleatoria como un valor o una magnitud que
cambia de una presentacin a otra, sin seguir una secuencia predecible. Los
valores de una variable aleatoria son los valores numricos correspondientes a
cada posible resultado de un experimento aleatorio.
Una variable aleatoria asocia un nmero o ms generalmente una caracterstica a
todo resultado posible del experimento. Por ejemplo, si consideramos el
experimento que consiste en realizar una edicin de la concentracin de un
producto en una solucin, nos interesa la variable aleatoria X= valor medido de la
concentracin. Otro ejemplo de variable aleatoria asociada a un proceso de
fabricacin, al experimento de escoger un elemento producido, y considerar la
variable aleatoria X= duracin hasta el fallo.
La distribucin de probabilidad de una variable aleatoria proporciona una
probabilidad para cada valor posible, y estas probabilidades deben sumar 1.
Funcin de densidad de probabilidad: funcin que mide concentracin
de probabilidad alrededor de los valores de una variable aleatoria continua.
Ejemplo 3: Tiramos una moneda 3 veces. Representamos escudo por c y
nmero por z.
S = {ccc, ccz, czc, zcc, czz, zcz, zzc, zzz}
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
50
La probabilidad de cada suceso elemental es 1/8. Por ejemplo p (ccc)=1/8, ya que
la probabilidad de sacar cara en una tirada es 1/2 segn la definicin clsica y las
tiradas son independientes.
Definimos la variable aleatoria. X: nmero de escudos, que puede tomar los
valores {0, 1, 2, 3}. Se buscan todos los puntos muestrales que dan lugar a cada
valor de la variable y a ese valor se le asigna la probabilidad del suceso
correspondiente.
x Sucesos p
x
0 {zzz} 1/8
1 {czz, zcz, zzc} 3/8
2 {ccz, czc, zcc} 3/8
3 {ccc} 1/8
A esta funcin se le denomina funcin densidad de probabilidad (fdp), que
desgraciadamente "funciona" de distinta manera en las variables discreta que en
las continuas. En el caso de las variables discretas, como en el ejemplo, es una
funcin que para cada valor de la variable da su probabilidad.
Para las variables continuas la probabilidad de que una variable tome cualquier
valor concreto es 0, por lo tanto la fdp slo permite calcular la probabilidad para un
intervalo del tipo (a<X<b), mediante el rea bajo la curva de la fdp.
Para las variables aleatorias de inters hay tablas, y programas de
computacionales, donde buscar esos valores.
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
51
Distribucin acumulativa o funcin de distribucin
Funcin que acumula probabilidades asociadas a una variable aleatoria. Su
notacin es F(x) = p(X s x). Para el ejemplo anterior, F (X) es:
X f(x) F(x)
0 1/8 1/8
1 3/8 4/8
2 3/8 7/8
3 1/8 8/8
En variables continuas F(X) = P(X < a) = } f(x) dx
La probabilidad de que la variable est dentro de un intervalo [a - b] se calcula:
P (a< x < b) = F(b) - F(a)
La probabilidad de que la variable tome un valor particular se puede expresar
como:
F(c) - F(c) = 0
Esto explica la idea de que para el caso de una variable aleatoria continua no
tiene sentido trabajar con la probabilidad de un valor particular.
Parmetros caractersticos de una funcin de densidad de
probabilidad.
Valor esperado o esperanza matemtica o media
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
52
= = ) ( ) ( x xf x E
x
caso discreto
}
= = dx x xf x E
x
) ( ) ( caso continuo
Si X es una variable aleatoria cualquier funcin de ella, h(x), es tambin una
variable aleatoria, en consecuencia tambin se define este parmetro para una
funcin de variable aleatoria.
| |
= = ) ( ) ( ) ( x f x h x h E
x
Caso discreto
| |
}
= = dx x f x h x h E
x
) ( ) ( ) ( Caso continuo
Ejemplo: Se tira un dado. Se define como v.a. el nmero que sale Cul es su
media?
La variable X puede tomar los valores 1, 2, ..., 6 y para todos ellos f(x) = 1/6. En
consecuencia la media es
5 . 3
6
1
6 ....
6
1
2
6
1
1 ) (
6
1
= + + + = =
=
x xf
x
x
Obsrvese que es un nmero que la variable aleatoria no puede alcanzar.
Se define ahora una funcin sobre X: el premio: si sale 1 2 se gana 100 C$, si
sale 3 se gana 500 y si sale 4, 5 6 no se gana nada
X h(x)
1 100
2 100
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
53
3 500
4 0
5 0
6 0
Cul es el valor medio de esta funcin?
6 . 116 0 0 0
6
1
500
6
1
100
6
1
100 ) ( ) (
6
1
= + + + + + = =
=
x f x h
x
x
Qu significa? es el valor medio a la larga: si se juega un nmero grande de
veces la ganancia final es como si en cada jugada se hubiera ganado 116,6 C$. Si
la apuesta costara menos de eso el juego sera ventajoso para el jugador, si
costara ms, para la banca.
Varianza:
Se define como:
( )
2 2
x x
x E o =
Aunque para el clculo se suele usar esta otra frmula equivalente:
2 2 2
) (
x x
x E o =
Qu mide la varianza? Mide la dispersin de la variable alrededor de la media.
Ejemplo de clculo de varianza:
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
54
Si lanzamos tres veces una moneda, la esperanza y la varianza de la variable
aleatoria X nmero de escudos es:
E (X) = 0* 1/8 + 1* 3/8 + 2* 3/8 + 3 * 1/8 = 3/2
2 2 2
) (
x x
x E o =
= 0
2
* 1/8 + 1
2
* 3/8 + 2
2
* 3/8 + 3
2
* 1/8 (3/2)
2
=
866 . 0 4 / 3
2
= = =
o o
x x
El Desvo Estndar y el Teorema de Chebyshev
Es conocida en el rea de la probabilidad y estadstica, la desigualdad de
Chebyshev, matemtico Ruso del siglo XIX, que dice que la probabilidad de que
una variable aleatoria est distanciada de su media en ms de a veces la
desviacin estndar, es menor o igual que1/a
2
. Si E(x) es la media (o la
esperanza matemtica) y es la desviacin estndar, entonces podemos redefinir
la relacin como:
2
1
) ) ( (
a
a x E x P s > o
Tomando en cuenta el teorema de Chebyshev se puede construir las siguientes
reglas sobre el uso del desvo estndar:
3.3 Distribucin Normal
La distribucin Normal es un modelo terico para variables aleatorias y continuas y
representa la distribucin de frecuencias de una poblacin de valores.
Segn el teorema de Chebyshev, y sin importar el tipo de distribucin de
los datos, se cumple que:
El intervalo x 2 S contendr al menos de los datos.
El intervalo x 3 S contendr al menos 8/9 de los datos.
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
55
La curva normal es una campana simtrica cuya forma y posicin depende de dos
parmetros
- , media poblacional, que se localiza en el centro de la del eje
horizontal.
- o , desviacin estndar que determina el ancho de la curva.
Para una variable x con media y desviacin estndar o , que est
normalmente distribuida, escribimos: x es N ( ,o ).
La funcin de densidad de la distribucin normal es:
2
2
2
) (
2
1
) (
o
t o
=
x
e x f
Ejemplo de una distribucin de frecuencias de Mg. de Aflotoxinas (toxinas) en
maz y la curva Normal terica que genera el programa SPSS.
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
56
Cantidad de Aflatoxinas en mg en maiz
70 65 60 55 50 45 40 35 30 25 20 15 10 5
Histograma de frecuencias y curva terica Normal
F
r
e
c
u
e
n
c
i
a
30
20
10
0
A continuacin se observa un grfico de una distribucin normal tipificada(0,1)
donde est sombreado un intervalo de ms menos 1.96 desvi estndar.
Si un Distribucin de datos tiene aproximadamente el perfil o forma de campana
se cumple que:
El intervalo o contendr aproximadamente el 68 % de los datos.
El intervalo 2 o contendr aproximadamente el 95 % de los datos.
El intervalo 3 o contendr aproximadamente casi la totalidad de los
datos.
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
57
-3.00 -2.00 -1.00 0.00 1.00 2.00 3.00
Variable
0.00
0.10
0.20
0.30
0.40
D
e
n
s
i
d
a
d
Funcin de densidad distribucin normal tipificada
Normal(0,1): p(evento)=0.9500
3.4 Distribucin t de Student.
La curva Normal y Normal Estndar son modelos tericos adecuados para
describir muchas poblaciones, basndose en dos parmetros y o . Sin embargo
por lo general, trabajamos con muestras, lo que da alguna inseguridad sobre el
modelo empleado al desconocerse estos parmetros. Un investigador, Gosset
(seudnimo Student) estudio este problema y lleg a la conclusin que la
distribucin Normal no funciona bien con muestras pequeas, de tamao menor a
30 datos, y encontr una distribucin que supera este problema, luego esta
distribucin se llamara t de Student. Esta distribucin se usa con variables
aleatorias y continuas
Es as que si X
1
, X
2
, . . . , X
n
son variables aleatorias independientes que son
todas normales con media,
y desviacin estndar
o
. La variable aleatoria
n
s
x
t
=
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
58
Tiene una distribucin t con n-1 grados de libertad. Cuando hay menos de 30
grados de libertad la curva es ms aplanada que una curva normal, con ms
grados de libertad la distribucin t es casi igual que la distribucin normal.
Esta Distribucin se usa en construccin de intervalos de confianza y pruebas de
hiptesis de dos promedios.
-5.00 -2.50 0.00 2.50 5.00
Variable
0.00
0.10
0.20
0.30
0.40
D
e
n
s
i
d
a
d
n=1
n=10
n=100
Funcin de densidad Distribucin "t"
3.5 La distribucin X2 de Pearson.
La distribucin X
2
se genera a partir de n variables aleatorias independientes
normales con media 0 y varianza 1 . Si realizamos la siguiente operacin:
Es decir elevamos los n valores generados al cuadrado y los sumamos. Si
aplicamos este procedimiento muchas veces, obtendremos la distribucin de una
variable que solo depende del nmero de sumandos. Esta distribucin se
denomina X
2
con n grados de libertad. Esta distribucin comienza desde el valor
0, ya que al ser una suma de cuadrados no posee valores negativos.
2 2
1
2
....
n n
z z X + =
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
59
Este tipo de distribucin se usa en pruebas de hiptesis sobre:
- Distribuciones, por ejemplo para verificar si un distribucin observada se
comporta como una distribucin Normal.
- Independencia, para verificar si dos variables discretas son independientes
o no.
0.00 3.81 7.62 11.44 15.25
Variable
0.00
0.06
0.12
0.18
0.24
D
e
n
s
i
d
a
d
Funcin de densidad de una Distribucin Chi cuadrada
3.6 La distribucin F de Fisher.
La distribucin F de Fisher surge del cociente de dos distribuciones X
2
independientes, con n y m grados de libertad respectivamente. Un valor F se
define matemticamente de la siguiente manera:
La distribucin de F es asimtrica y comienza del valor 0, no posee valores
negativos, al igual que la distribucin X
2
.
2
2
,
m
X
n
X
F
m
n
m n
=
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
60
Este tipo de distribucin se usa mucho con pruebas de hiptesis de promedios
donde:
- Hiptesis nula, los promedios de los tratamientos pertenecen a un mismo
promedio poblacional
- Hiptesis alternativa, al menos un promedio de los tratamientos evaluados
no pertenecen al mismo promedio poblacional
3. 7 La distribucin Binomial.
Se usa con variables discretas, es decir cuyos valores son contables. Este modelo
se aplica a poblaciones finitas de las que tomamos elementos al azar con
reemplazamiento y tambin a poblaciones conceptualmente infinitas, como son
piezas que generara una mquina, siempre que el proceso generador sea estable
e
n
x x x H .... , :
2 1 0
e
n
x x x H .... , :
2 1 1
0.00 4.14 8.29 12.43 16.57
Variable
0.0
0.2
0.3
0.5
0.6
D
e
n
s
i
d
a
d
Funcin de densidad de una distribucin "F"
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
61
(proporcin de pieza defectuosas constante a largo plazo) y sin memoria (el
resultado en cada momento es independiente de lo previamente ocurrido).
Un experimento Binomial tiene las siguientes caractersticas:
- Las observaciones se clasifican en dos categoras, por ejemplo A =
aceptable y D = defectuoso.
- La proporcin de elementos A y D en la poblacin es constante y no se
modifica, siendo en este caso p la probabilidad de defectuosos y q la
probabilidad de aceptables.
- Las observaciones son independientes, es decir que la probabilidad de
elemento defectuoso es siempre la misma y no se modifica por cualquier
combinacin de elementos defectuosos o aceptables observados.
Ejemplos de este proceso son:
- Observar cinco de cerdos hembras de una camada de 12 lechones recin
nacidos,
- Ganar 4 veces apostando a docena en diez tiradas sucesivas de una ruleta
- La aparicin de 10 plantas planta enferma en 100 plantas de cultivo.
La variable binomial posee siempre 2 eventos, por ejemplo A y B. Se define
como r:
Conociendo que :
- p es la probabilidad de ocurrencia del evento A
- q es la probabilidad de ocurrencia del evento B
Por lo tanto la probabilidad de encontrar r elementos que cumplen el evento A
luego de n repeticiones del experimento, se define como P ( r ):
r = nmero de elementos del evento A al observar n
experimentos
P ( r ) =
r n r
n
r
q p
|
.
|
\
|
siendo r = 0, 1, ..., n
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
62
Siendo
|
.
|
\
|
n
r
las posibles combinaciones de ocurrencia de r en n experimentos y
esto se resuelve de la siguiente manera:
Estos problemas se pueden resolver directamente o con una tabla de
probabilidades binomiales.
Una distribucin binomial B(n,p) se parece a una normal tanto ms cuanto mayor
es el producto n * p (o n * q si q<p, siendo q=1-p). Cuando n * p y n * q superan
el valor 5, la aproximacin es casi perfecta.
En estas condiciones:
B(n,p) se aproxima a un distribucin normal, ) , ( npq np N
Veamos un ejemplo donde se usa esta distribucin, Cual es la probabilidad de
nacer 5 varones en 12 nacimientos? Este problema se puede resolver con un
diagrama de rbol de probabilidades, pero se hace muy complicado. Por
distribucin Binomial se resuelve el problema de la siguiente manera.
Si sabemos que:
- A evento varn
- B evento no varn, es decir mujer.
)! ( ! / ! r n r n
n
r
=
|
.
|
\
|
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
63
- p probabilidad de varn = 0.5
- q probabilidad de mujer = 0.5
- n son 12 nacimientos totales
- r son 5 nacimientos de varones
Por lo tanto:
P ( 5 varones ) =
5 12 5
12
5
5 . 0 5 . 0
|
.
|
\
|
Donde )! 5 12 ( ! 5 / ! 12
12
5
=
|
.
|
\
|
= 1*2*3........*12 / 1*2*3...*5 ( 1*2*...*7)
= 8*9*10*11*12 / 1*2*3*4*5 = 3*2*11*12= 792
P ( 5 varones ) =
7 5
5 . 0 5 . 0 * 792 = 792* 0.03125 * 0.0078125 = 0.19
Ejercicio de prctica
La Secretara del Trabajo reporta que 20% de la fuerza de trabajo en un pueblo
est desempleada. De una muestra de 14 trabajadores, calcule las siguientes
probabilidades con la frmula de la distribucin binomial (n=14, p=0.2):
1. Tres estn desempleados: P(x=3)=.250
2. Al menos un trabajador est desempleado:
P(x > 1) = 1 - P(x=0) =1 - .044 = .956
3. A lo ms dos trabajadores estn desempleados:
P(x s 2)=.044 +.154 +.250 =.448
3.8 Distribucin de Poisson
En teora de probabiliddes y estadstica, la distribucin de Poisson es una
distribucin de probabilidad discreta. Expresa la probabilidad de un nmero de
eventos ocurriendo en un tiempo fijo si estos eventos ocurren con una tasa media
conocida, y son independientes del tiempo desde el ltimo evento. La distribucin
fue descubierta por Simon Poisson en 17811840.
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
64
La distribucin de probabilidades binomial se hace cada vez ms sesgada a la
derecha conforme la probabilidad de xitos disminuye.
La forma lmite de la distribucin binomial donde la probabilidad de xito es muy
pequea y n es grande se llama distribucin de probabilidades de Poisson..
La distribucin de Poisson se puede describir matemticamente por la frmula:
!
) (
x
e
x P
x
=
Donde u es la media aritmtica del nmero de ocurrencias en un intervalo
especfico de tiempo, e es la constante 2.71828 y x es el nmero de ocurrencias.
El nmero medio de xitos u se puede determinar en situaciones binomiales por
n p, donde n es el nmero de ensayos y p la probabilidad de xito. La varianza
de la distribucin de Poisson tambin es igual a n p.
Ejemplo: un Hospital se especializa en el cuidado de lesiones menores. En las
horas de la tarde de 6-10 PM el nmero medio de llegadas es 4.0 personas por
hora.
Cul es la probabilidad de 4 llegadas en una hora?
P(4) = (4
4
) (e
-4
) / 4!= 0.1954.
Bibliografa y Documentos Consultados
Cebran, M. 2001. Distribuciones continuas. Ministerio de Educacin y ciencia.
Espaa.
http://descartes.cnice.mecd.es/Bach_HCS_2/distribuciones_probabilidad/dis_co
ntinuas.htm
Dicovskiy, L.1998. Mdulo Nro 3. Bioestadstica. EAGE. Folleto de clase.
CYTA. Gua de Estadsticas. Distribucin de Poisson
http://www.cyta.com.ar/biblioteca/bddoc/bdlibros/guia_estadistica/index.htm.
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
65
Hospital Universitario Ramn y Cajal. Material docente de la Unidad de
Bioestadstica Clnica. Madrid. http://www.hrc.es/bioest/M_docente.html#tema2
Kessler, M. 2005. Apuntes de Mtodos estadsticos de la Ingeniera
http://filemon.upct.es/~mathieu/metodos/teoria/pdftema3.pdf
Pea D. Estadstica 1, modelos y mtodos, Fundamentos. 551 p.
Vermeer I..1996. Estadstica, Curso Bsico. EAGE. 104 p.
Zad, I. Metodologa. Variable Aleatoria.
http://www.southlink.com.ar/vap/VARIABLE%20ALEATORIA.htm
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
66
Unidad 4. Estimacin y prueba de hiptesis.
- Desarrollar el concepto de estimacin de parmetros
- Explicar que es una prueba de hiptesis
- Diferenciar grupos de una poblacin utilizando pruebas de Student
- Diferenciar grupos de una poblacin usando pruebas de varianzas
- Realizar pruebas de independencia chi cuadrado
4.1 Estimacin por Intervalos de Confianza.
En estadstica se llama estimacin al conjunto de tcnicas que permiten dar un
valor aproximado de un parmetro (Ej.: o , ) de una poblacin a partir de
estadsticos, generados por los datos (Ej: x , S, n). Un estimador puntual de un
parmetro es un valor que puede ser considerado representativo de este y se
obtiene a partir de alguna funcin de la muestra, por Ej. x , promedio muestral,
estima puntualmente a , el promedio poblacional.
La estimacin por intervalos consiste en la obtencin de un intervalo dentro del
cual estar el valor del parmetro estimado, con una cierta probabilidad. Un uso de
la distribucin Normal y de la t de Student es la creacin de Intervalos de
confianza, estimacin por intervalos, de los promedios poblacionales, .
El promedio poblacional, , se estima por un intervalo calculado a partir de S y
x
de muestras.
Objetivos
Se debe poder hacer conclusiones generales para toda la
poblacin, a partir del estudio de las muestras.
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
67
El intervalo de confianza de con un 95 de confianza, IC
95 %
, es el ms usado y
para muestras de ms de 30 datos se calcula como :
Para menos de 30 datos se usa:
Donde t es el valor dado por la distribucin t de Student con n-1 Grados de
Libertad, para un 95 % se busca el valor del t 0.975, ya que esta es una prueba
de dos colas.
El IC
95 %
nos dice que con un 95 % de confiabilidad en este intervalo encuentro el
promedio de la poblacin, el cual desconozco. Para esto necesito conocer de la
muestra los siguientes estadsticos: x , S y n.
El grfico de IC
95 %
se usa cuando se cruza una variable discreta que genera
grupos, con una variable continua. En este grfico se observan los promedios de
cada grupo con sus intervalos de confianza al 95 %, estos en forma de dos rayas.
Veamos un ejemplo de este tipo.
IC
95 %
= x 1.96 ) / ( n s
IC
95 %
= x t
95
) 1 / ( n s ,
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
68
Grfico de Promedios e Intervalos de Confianza de , t
95%
, desagregada
por sexo, de la Edad de una poblacin adulta de Estados Unidos.
En este tipo de grfico es interesante observar si los intervalos de confianza de los
diferentes promedios tienen valores superpuestos, ya que si es as, al hacer una
prueba de hiptesis lo ms probable que la respuesta sea de hiptesis nula, es
decir los promedios superpuestos pertenecen a un mismo promedio poblacional.
4.2 Generalidades de las pruebas de Hiptesis
Una hiptesis estadstica es una asuncin relativa a una o varias poblaciones, que
puede ser cierta o no. Las hiptesis estadsticas se pueden contrastar con la
informacin extrada de las muestras y tanto si se aceptan como si se rechazan se
puede cometer un error.
La hiptesis formulada con intencin de rechazarla se llama hiptesis nula y se
representa por H
0
. Rechazar H
0
implica aceptar una hiptesis alternativa (H
1
).
La situacin se puede esquematizar:
Sexo
Muj er Hombre
I
d
e
C
a
l
9
5
%
d
e
l
a
E
d
a
d
49
48
47
46
45
44
43
42
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
69
H
0
cierta H
0
falsa
H
1
cierta
H
0
rechazada Error tipo I (o ) Decisin correcta (*)
H
0
no rechazada Decisin correcta Error tipo II (| )
(*) Decisin correcta que se busca
o = p (rechazar H
0
siendo H
0
cierta)
| = p (aceptar H
0
siendo H
0
falsa)
Potencia =1-| = p (rechazar H
0
siendo H
0
falsa)
Detalles a tener en cuenta
1 o y | estn inversamente relacionadas.
2 Slo pueden disminuirse las dos, aumentando n.
Los pasos necesarios para realizar un contraste relativo a un parmetro u son:
1. Establecer la hiptesis nula en trminos de igualdad
0 0
: u = u H
2. Establecer la hiptesis alternativa, que puede hacerse de tres maneras,
dependiendo del inters del investigador
0 0 0 1
....... .......... . .......... : u u u u u = u H
en el primer caso se habla de contraste bilateral o de dos colas, y en los otros dos
de lateral (derecho en el 2 caso, o izquierdo en el 3) o una cola.
3. Elegir un nivel de significacin: nivel crtico para o
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
70
4. Elegir un estadstico de contraste: estadstico cuya distribucin muestral se
conozca en H
0
y que est relacionado con u y establecer, en base a dicha
distribucin, la regin crtica: regin en la que el estadstico tiene una probabilidad
menor que o si H
0
fuera cierta y, en consecuencia, si el estadstico cayera en la
misma, se rechazara H
0
.
Obsrvese que, de esta manera, se est ms seguro cuando se rechaza una
hiptesis que cuando no. Por eso se fija como H
0
lo que se quiere rechazar.
Cuando no se rechaza, no se ha demostrado nada, simplemente no se ha podido
rechazar. Por otro lado, la decisin se toma en base a la distribucin muestral
en H
0
, por eso es necesario que tenga la igualdad.
5. Calcular el estadstico para una muestra aleatoria y compararlo con la regin
crtica, o equivalentemente, calcular el "valor p" del estadstico (probabilidad de
obtener ese valor, u otro ms alejado de la H
0
, si H
0
fuera cierta) y compararlo con
o.
4.3 Prueba de hiptesis con pruebas t
El promedio de una muestra pertenece a poblacin con promedio
conocido.
Esta es una prueba que permite contrastar si una muestra de una variable difiere
significativamente de un promedio poblacional dado o no. Generalmente este
promedio es histrico.
La hiptesis nula es H
0
:
x =
El estadstico de contraste es el valor t calculado:
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
71
n s
x
t
c
/
=
Ejemplo: Histricamente la edad de los alumnos que entran a primer ao de la
Universidad es de 18 aos. Se quiere saber si para el ao que viene la edad de
ingreso ser la misma a la histrica, para estudiar esto se tom una muestra de 36
estudiantes del ltimo ao de secundaria y se calcul la edad de ingreso a la
universidad. En funcin de los datos observados surge la hiptesis de que la edad
de los estudiantes es mayor que 18 aos. La muestra de 36 sujetos dio los
siguientes datos:
X
= 18.5 S=3.6
Se trata de un contraste sobre medias. La hiptesis nula (lo que queremos
rechazar) es:
18 :
0
= H
La hiptesis alternativa
18 :
0
H
Este un contraste lateral derecho.
Fijamos "a priori" el nivel de significacin en 0,05 y la regin crtica T>t
o
Si el contraste hubiera sido lateral izquierdo, la regin crtica sera T<t
1-o
y si hubiera sido bilateral T<t
1-
o/2
o T>t
o/2
. En este ejemplo t
(35)0,05
=1,69.
Calculamos el valor de t
c
en la muestra
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
72
82 . 0
1 36
6 . 3
18 5 . 18
" " =
=
c
t
No est en la regin crtica (no es mayor que 1,69), por tanto no rechazamos H
0
,
la edad histrica de ingreso se mantiene.
Dos promedios tomados en una misma muestra, en momentos diferentes,
son iguales.
Esta es una prueba t para muestras relacionadas, donde pretendemos contrastar
las medias de una misma muestra que se ha medido dos veces en los mismos
sujetos. Se pretende saber si estos promedios difieren o no.
El estadstico de contraste es
n S
d
t
d
c
/
=
Donde d es el promedio de las diferencias de los datos repetidos, S
d
es la
desviacin estndar de las diferencias. n es el nmero de pares (diferencias).
Los promedios de dos muestras o grupos pertenecen a una misma
poblacin.
Esta es una prueba de hiptesis muy usada cuando se tienen dos grupos y se
quiere saber si estos tienen un mismo promedio poblacional.
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
73
La hiptesis nula H
0
:
1
2
= d0
Generalmente d
0
=0
Hay diferentes tipos de prueba t, pero suponiendo varianzas iguales, el
estadstico a calcular se hace:
1 1
" "
2
2
2
1
2
1
2 1
=
n
S
n
S
X X
t
c
Ejemplo
En un ensayo para evaluar la vida til de dos productos. La variable medida es el
tiempo de vida til en aos: producto T, n = 35; = 3,7 aos de vida y s
2
= 33,9;
producto P n = 40; = 15,1 aos y s
2
= 12,8. El producto P tiene ms vida
til que el producto P?
Se trata de un contraste sobre diferencias de medias
H
0
:
T
P
= 0
H
1
:
T
P
> 0
Como no conocemos las varianzas, para realizarlo debemos decidir si son iguales
o distintas, para ello primero se plantea un contraste de prueba de hiptesis de
variancias. Si las variancias son iguales se sigue con la prueba t que se
presenta, sino se debe hacer otra variante de prueba t de ms difcil clculo.
Hiptesis de Variancias
2 2
0
:
P T
H o o =
UNI Norte
Estadstica I Luis Mara Dicovskiy Riobo
74
2 2
1
:
P T
H o o =
El estadstico es 65 . 2 8 . 12 / 9 . 33 /
2 2
= = =
T P
S S F , para el que p<0,05, en
consecuencia rechazamos la H
0
y concluimos que las varianzas son distintas. Por
lo tanto usaramos la t para varianzas distintas. Luego se hace la prueba de
hiptesis de promedios bajo el siguiente estadstico
90 . 9
1 40
8 . 12
1 35
9 . 33
7 . 3 1 . 15
" " =
=
T P
t
Rechazamos la H
0 ,
ya que este valor es mayor que el valor de tabla con n
1
+ n
2
2 , 35 + 40 -2 = 73 grados de libertad. Estos grados de libertad con un alfa del 5%
bilateral posee un valor t de 2, valor menor que 10.42, entonces concluimos que
las medias son distintas.