Beruflich Dokumente
Kultur Dokumente
La Distribucin Normal
La distribucin normal fue reconocida por primera vez por el francs Abraham de Moivre (16671754). Posteriormente, Carl Friedrich Gauss (1777-1855) elabor desarrollos ms profundos y
formul la ecuacin de la curva; de ah que tambin se la conozca, ms comnmente, como la
"campana de Gauss". La distribucin de una variable normal est completamente determinada
por dos parmetros, su media y su desviacin estndar, denotadas generalmente por
Que determina la curva en forma de campana que tambin conocemos (Figura 2). As, se dice
que una caracterstica
y varianza
, y se denota
como
i.
ii.
La curva normal es asinttica al eje de abscisas. Por ello, cualquier valor entre
y
es tericamente posible. El rea total bajo la curva es, por tanto, igual
a 1.
iii.
iv.
, ms aplanada ser
v.
vi.
(Figura 3).
curva ser ms plana. Un valor pequeo de este parmetro indica, por tanto, una
gran probabilidad de obtener datos cercanos al valor medio de la distribucin.
Como se deduce de este ltimo apartado, no existe una nica distribucin normal, sino una
familia de distribuciones con una forma comn, diferenciadas por los valores de su media y su
varianza. De entre todas ellas, la ms utilizada es la distribucin normal estndar, que
corresponde a una distribucin de media 0 y varianza 1. As, la expresin que define su
densidad se puede obtener de la Ecuacin 1, resultando:
Es importante conocer que, a partir de cualquier variable X que siga una distribucin
se puede obtener otra caracterstica Z con
Ecuacin 2:
puede obtener de modo sencillo la probabilidad de observar un dato menor o igual a un cierto
valor z, y que permitirn resolver preguntas de probabilidad acerca del comportamiento de
variables de las que se sabe o se asume que siguen una distribucin aproximadamente
normal.
Consideremos, por ejemplo, el siguiente problema: supongamos que se sabe que el peso de
los sujetos de una determinada poblacin sigue una distribucin aproximadamente normal, con
una media de 80 Kg y una desviacin estndar de 10 Kg. Podremos saber cul es la
probabilidad de que una persona, elegida al azar, tenga un peso superior a 100 Kg?
Denotando por X a la variable que representa el peso de los
. Si su distribucin fuese la de
una normal estndar podramos utilizar la Tabla 1 para calcular la probabilidad que nos
interesa. Como ste no es el caso, resultar entonces til transformar esta caracterstica segn
la Ecuacin 2, y obtener la variable:
para poder utilizar dicha tabla. As, la probabilidad que se desea calcular ser:
De modo anlogo, podemos obtener la probabilidad de que el peso de un sujeto est entre 60 y
100 Kg:
Finalmente, la probabilidad buscada de que una persona elegida al azar tenga un peso
entre 60 y 100 Kg., es de 0.9772-0.0228=0.9544, es decir, aproximadamente de un 95%.
Resulta interesante comprobar que se obtendra la misma conclusin recurriendo a la
propiedad (iii) de la distribucin normal.
No obstante, es fcil observar que este tipo de situaciones no corresponde a lo que
habitualmente nos encontramos en la prctica. Generalmente no se dispone de informacin
acerca de la distribucin terica de la poblacin, sino que ms bien el problema se plantea a la
inversa: a partir de una muestra extrada al azar de la poblacin que se desea estudiar, se
realizan una serie de mediciones y se desea extrapolar los resultados obtenidos a la poblacin
de origen. En un ejemplo similar al anterior, supongamos que se dispone del peso de n=100
individuos de esa misma poblacin, obtenindose una media
muestral de
alguna conclusin acerca del valor medio real de ese peso en la poblacin original. La solucin
a este tipo de cuestiones se basa en un resultado elemental de la teora estadstica, el llamado
teorema central del lmite. Dicho axioma viene a decirnos que las medias de muestras
aleatorias de cualquier variable siguen ellas mismas una distribucin normal con igual media
que la de la
. En nuestro caso,
caeran
n Y /
Y
n
S
nos dar como base para el desarrollo de mtodos de inferencias con respecto a .
nY / S
esta dada
por una funcin de densidad de probabilidad conocida como distribucin t de Student con n 1
grados de libertad . La definicin general de una variable aleatoria que posee una distribucin t
de Student ( 0 simplemente distribucin t), es la siguiente:
Z
T
2 /
Si Y1, Y2, ..., Yn es una muestra aleatoria de una poblacin normal con media y
2
, se puede aplicar el teorema 7.1 para demostrar
varianza
Z n Y /
que
tiene una
distribucin normal estndar. El teorema
7.3 nos dice que
2
2
2
n 1S / tiene una distribucin con v n 1 grados de libertad y que
2
Zy
son independientes (ya que Yy 2 los son). Por lo tanto, por la definicin
2 7.2
nY
/
Z
T
2/
v
n 1S / n 1
n
S
v/ ( v - 2 ). As
el mismo valor
esperado que una variable normal estndar. Sin embargo, una variable aleatoria normal
estndar siempre tiene una varianza de 1, mientras que la varianza de una variable aleatoria
con una distribucin t siempre es mayor que 1.
En al figura 7.2 se muestran las grficas de una funcin de densidad normal estndar y
de una funcin de densidad t. Ntese que ambas funciones de densidad son simtricas con
respecto al origen, pero que la densidad t tiene mas masa probabilstica en las colas.
Normal
7
.
2
estndar
0.100 .
0.100
0.100
para 21g.1. la probabilidad de que una variable aleatoria con distribucin t sea mayor que 1.323
es 0.100.
, 0;0 y
1e y / f (y)
y
()
0
En donde:
() 0 y 1e y dy
para cualquier intervalo de alfa mayor o igual a uno y que la funcin de n sea igual a n menos
uno factorial, para un nmero entero n.
0cd
donde
y
1e y /
cd
() dy
Y por lo tanto es importante obtener las reas bajo la funcin de densidad tipo gamma
mediante integracin directa.
Hay dos casos especiales de las variables aleatorias tipo gamma que merece
consideracin particular:
Una variable aleatoria tipo gamma que tiene una funcin de densidad con parmetros
alfa igual a v entre dos y beta igual a dos se denomina variable aleatoria ji - cuadrada.
0;0 y
1 e y /
f (y)
0
En cualquier punto.
f (y) {
y 1 (1 y) 1 B(, )
y 1 (1 y) 1 dy
B(, )
() ( )
( )
Ntese que la definicin de (y) sobre el intervalo 0<= y <= 1 restringe su aplicacin. Si c<= y <=
d, y = (y- c) / (d- c) definir una nueva variable en el intervalo 0<= y <= 1. As la funcin de
densidad beta se puede aplicar a una variable aleatoria definida en el intervalo c<= y <= d
mediante una traslacin y una medicin en la escala.
y
1
(1 t) 1
dt
F(y)
(, )
y
B(, )
Para valores enteros de alfa y beta, Iy (alfa, beta) est relacionada con la funcin de
probabilidad binomial. Cuando y = p, se puede demostrar que
1
y
F( p)
1
(1 y)
n
dy p y (1 p)n
y
B(, )
. As intuitivamente podramos pensar en utilizar S12 / S22 para hacer inferencias con
2
i
, entonces la
razn siguiente
S
2 / 2
1 1
2
2
S2
1
2
1
2
S2
2 2
2 / 2
y 2 son independientes,
1
2
2 / v
1 22 / v2
se dice que tiene una distribucin F con v1 grados de libertad del numerador y v2 grados de
libertad del denominador.
v1 n1 1yv2 n2 1
2 /v
1 1
n 1S 2/ 2n 1
1
1 1 1
S2/ 2
1 1
22 / v2
n 2 1S 22 / 22 n 2 1
S22 / 22
n2 1
F.
densidad
Los
valoras de F tales que PF F se dan en la tabla 7 del apndice III, para los valores de
0.100, 0.050, 0.025, 0.010 y 0.005. En la tabla 7 del apndice III, los encabezados de las
columnas corresponden a los grados de libertad del numerador, en tanto que los grados de
libertad del denominador se encuentran como los encabezados principales de los renglones.
Frente a los grados de libertad del denominador (los encabezados de los renglones), se
encuentran los valores de 0.100, 0.050, 0.025, 0.010 y 0.005. Por
ejemplo, si la variable F estudiada tiene 5 grados de libertad del numerador y 7
grados de libertad del denominador, F 0.100= 2.88, F 0.050= 3.97, F 0.025 = 5.29, F 0.010
= 7.46 y F 0.005 =9.52. luego la probabilidad de que una variable aleatoria con una distribucin F
con 5 grados de libertad del numerador y 7 grados de libertad del
denominador exceda de 7.46 es 0.01 . Lo correspondiente se afirma para los dems casos.
FIGURA 7.3
f u
u
F
Devuelve la probabilidad de una variable aleatoria siguiendo una distribucin de Weibull. Esta
distribucin se aplica en los anlisis de fiabilidad, para establecer, por ejemplo, el periodo de
vida de un componente hasta que presenta una falla.
Fx,, 1 e x
f x ,, x 1e x .
Sean y1, y2, ..., yn un conjunto de variables aleatorias normalmente distribuidas con
media E(y
. , n). Si
l a1y1 a2 y2 . . . . . an yn
en donde
1, a2
,......,a
aleatorias normales tiene una funcin de densidad normal con media y varianza:
= E ( l ) = a11 a2 2 . . . . . . ann
( , 2 ) y ( , 2 )
1 1
2 2 ,
la
distribucin de la diferencia (y 1 y 2 )
Solucin:
1. 1. Paso
Puesto que y1 y y2 son funciones lineales de variables aleatorias distribuidas normalmente, por
el teorema de combinaciones lineales tendrn una distribucin normal. Las medias y
varianzas de las medias de muestra son:
V (Y )
E(Y )
i
2
i
n
(i = 1, 2 )
2. 2. Paso
La funcin lineal es
l y
1 y2
3. 3. Paso
( l ) tendr una distribucin normal con
4. 4. Paso
Como las muestras se seleccionaron de forma independiente,
0
y1 y y2
son
independientes y
Cov(y
, y )
. Por tanto,
2
1
2
2
V (l)
1
5. 5. Paso Conclusin:
2
1
2
2
( ,
y y2
N
1
)
n
1
n2
El Teorema Central del Lmite dice que si tenemos un grupo numeroso de variables
independientes y todas ellas siguen el mismo modelo de distribucin (cualquiera que ste sea),
la suma de ellas se distribuye segn una distribucin normal.
Ejemplo : la variable "tirar una moneda al aire" sigue la distribucin de Bernouilli. Si lanzamos la
moneda al aire 50 veces, la suma de estas 50 variables (cada una independiente entre si) se
distribuye segn una distribucin normal.
Este teorema se aplica tanto a suma de variables discretas como de variables continuas.
Los parmetros de la distribucin normal son:
Media : n * (media de la variable individual multiplicada por el nmero de variables
independientes)
Varianza : n * (varianza de la variable individual multiplicada por el nmero de variables
individuales)
Veamos ahora un ejemplo:
Se lanza una moneda al aire 100 veces, si sale cara le damos el valor 1 y si sale cruz el valor 0.
Cada lanzamiento es una variable independiente que se distribuye segn el modelo de
Bernouilli, con media 0,5 y varianza 0,25. Calcular la probabilidad de que en estos 100
lanzamientos salgan ms de 60 caras.
La variable suma de estas 100 variables independientes se distribuye, por tanto, segn una
distribucin normal.
Media = 100 * 0,5 = 50
Varianza = 100 * 0,25 = 25
Para ver la probabilidad de que salgan ms de 60 caras calculamos la variable normal tipificada
equivalente:
Concepto de muestreo
El muestreo es una herramienta de la investigacin cientfica. Su funcin bsica es determinar
que parte de una realidad en estudio (poblacin o universo) debe examinarse con la finalidad
de hacer inferencias sobre dicha poblacin. El error que se comete debido al hecho de que se
obtienen conclusiones sobre cierta realidad a partir de la observacin de slo una parte de ella,
se denomina error de muestreo. Obtener una muestra adecuada significa lograr una versin
simplificada de la poblacin, que reproduzca de algn modo sus rasgos bsicos.
Terminologa
Poblacin objeto: conjunto de individuos de los que se quiere obtener una informacin.
Unidades de muestreo: nmero de elementos de la poblacin, no solapados, que se van a
estudiar. Todo miembro de la poblacin pertenecer a una y slo una unidad de muestreo.
Unidades de anlisis: objeto o individuo del que hay que obtener la informacin.
Marco muestral: lista de unidades o elementos de muestreo.
Muestreo probabilstico
El mtodo otorga una probabilidad conocida de integrar la muestra a cada elemento de la
poblacin, y dicha probabilidad no es nula para ningn elemento.
Los mtodos de muestreo no probabilisticos no garantizan la representatividad de la muestra y
por lo tanto no permiten realizar estimaciones inferenciales sobre la poblacin.
(En algunas circunstancias los mtodos estadsticos y epidemiolgicos permiten resolver los
problemas de representatividad aun en situaciones de muestreo no probabilistico, por ejemplo
los estudios de caso-control, donde los casos no son seleccionados aleatoriamente de la
poblacin.)
Entre los mtodos de muestreo probabilsticos ms utilizados en investigacin encontramos:
Muestreo aleatorio simple
Muestreo estratificado
Muestreo sistemtico
Muestreo polietpico o por conglomerados
CARACTERISTICAS
VENTAJAS
INCONVENIENTES
Sencillo y de fcil
Aleatorio
Requiere que se
comprensin.
posea de antemano
un listado completo
de tamao n de una
simple
poblacin de N unidades,
Clculo rpido de
de toda la
medias y varianzas.
poblacin.
Se basa en la teora
Cuando se trabaja
con muestras
existen paquetes
pequeas es
informticos para
posible que no
represente a la
poblacin
adecuadamente.
tendencia cono
Sistemtico Conseguir un listado de los N elementos de la
Elegir un nmero
Fcil
aleatorio, r, entre 1
de aplicar.
yk
asegura una
poblacin
cobertura de
No siempre es
unidades de
necesario tener un
(r=arr
Determinar tamao muestral n.
listado de toda la
anqu
e
poblacin.
aleat
Definir un intervalo k=N/n.
Cuando la
orio).
todos
los
siguiendo una
tipos.
Si la constante de
muestreo est
asociada con el
fenmeno de
inters, las
estimaciones
obtenidas a partir
de la muestra
pueden contener
sesgo de seleccin
Se ha de conocer la
muestra represente
distribucin en la
adecuadamente a la
poblacin de las
poblacin en funcin de
variables utilizadas
unas variables
para la
seleccionadas.
estratificacin.
Se obtienen
estimaciones ms precisa
Su objetivo es conseguir
una muestra lo mas
semejante posible a la
poblacin en lo que a la
o las variables
estratificadoras se
refiere.
muestreo sucesivas
La necesidad de
(polietpico)
listados de las
unidades de una
El error estndar es
la poblacin es muy
mayor que en el
anterior.
grande y dispersa.
muestreo aleatorio
simple o
No es preciso tener un
estratificado.
listado de toda la
poblacin, slo de las
El clculo del
unidades primarias de
error estndar es
muestreo.
complejo.
Tamao muestral
Valor correspondiente a la distribucin de Gauss 1,96 para =0,05 y 2,58 para =0,01.
Error que se prev cometer. Por ejemplo, para un error del 10%, introduciremos en la
frmula el valor 0,1. As, con un error del 10%, si el parmetro estimado resulta del 80%,
tendramos una seguridad del 95% (para =0,05) de que el parmetro real se sita entre
el 70% y el 90%. Vemos, por tanto, que la amplitud total del intervalo es el doble del error
El Teorema Central del Lmite dice que si tenemos un grupo numeroso de variables
independientes y todas ellas siguen el mismo modelo de distribucin (cualquiera que ste
sea), la suma de ellas se distribuye segn una distribucin normal.
Ejemplo : la variable "tirar una moneda al aire" sigue la distribucin de Bernouilli. Si
lanzamos la moneda al aire 50 veces, la suma de estas 50 variables (cada una
independiente entre si) se distribuye segn una distribucin normal.
Este teorema se aplica tanto a suma de variables discretas como de variables continuas.
Los parmetros de la distribucin normal son:
Media : n * (media de la variable individual multiplicada por el nmero de variables
independientes)
Importancia: El teorema central del lmite (TCL) nos permite usar la distribucin normal como
la distribucin de las medias de muestras grandes, sin interesar cual sea la distribucin
original de las variables aleatorias.
Teorema. Sea X1, X2,...,Xn una muestra aleatoria de tamao n de variables independientes e
idnticamente distribuidas tomadas de una poblacin infinita, con
media y varianza , entonces la distribucin lmite de
Ejemplo grfico
es grande, la media de una muestra aleatoria tiende a seguir la distribucin normal. Cundo n
es lo suficientemente grande?. En general depende de la distribucin original de la variable
aleatoria X; sin embargo, para variables continuas y n 30, la aproximacin normal se aplica,
no importa cual sea la distribucin original. Para n< 30 la aproximacin es vlida segn la
forma de la distribucin original.
Si la distribucin original es continua y uniforme (por ejemplo el caso de los nmeros aleatorios
que van de cero a uno), para que el promedio tienda hacia una distribucin normal, se requieren
muestras de por lo menos 10 observaciones (esto se determinado mediante pruebas de bondad
de ajuste).
x2
representa
2
2
1 y 2
n2
n1
respectivamente. Esta aproximacin mejora conforme n1
incrementan.
y n2
se
x2 x 1
1 2
n
y
1
x 1
1 2
n
2
De aqu que,
(X1 X2 ) (1 2 )
Z
2
1
2
2
n1
n2
Sea
Sabemos que
1 y una varianza
varianza
cuando n2 es grande.
Tenemos que:
1 = 2 , es decir, 1 - 2 = 0.
5.15. Distribucin muestral de la varianza
P(S2=s2)
Distribucin muestral de la
.42
Varianza
con
media
.5
.48
.1
(S ) y varianza Var(S )
P(S2 = s2 )
= 0) =
P(S2 P(1,1)
+ P(2,2) + P(3,3)
= 0.5*0.5+ 0.4*0.4 + 0.1*0.1 = 0.42
= 0.5) = P(1,2) +
P(S2 P(2,1)
+ P(2,3) + P(3,2)
= 0.5*0.4 + 0.4*0.5+ 0.4*0.1+ 0.1*0.4 =
0.48
3 n
n n ( n 1) 4
5.16.
VARIANZAS
)=4 +Var(S
Entonces, para construir el intervalo de confianza para la relacin de dos varianzas, nos
basamos en la siguiente probabilidad:
Teorema. Si
Bibliografa
http://bochica.udea.edu.co/~bcalderon/4_relvarianzasnormale
s.html
http://www.eumed.net/libros/2006a/rmss/a8.htm
Spiegel, M.R. (1970). Estadstica, Primera Edicin, Serie Schaum, Mc Graw Hill.
Walpole, R. E., Myers, R.H., y Myers, S.L. (1998). Probabilidad y Estadstica para
Ingenieros, Sexta Edicin, Prentice Hall.