Beruflich Dokumente
Kultur Dokumente
Taller 4
1. Inferencias sobre una poblacin con distribucin normal Supongamos que se est interesado en aprender sobre los hbitos de dormir de los estudiantes de una universidad en particular. Donde se extrae una muestra de tamao n que corresponde a los tiempos de sueo en horas para 20 estudiantes.
9.0 8.5 7.0 8.5 6.0 12.5 6.0 9.0 8.5 7.5 8.0 6.0 9.0 8.0 7.0 10.0 9.0 7.5 5.0 6.5
a. Asumiendo que las observaciones de la muestra aleatoria representan una muestra de una poblacin normal con media y varianza , adems se tiene que la a priori no es ), es decir ( ) informativa sobre ( , entonces mediante la simulacin de 1000 replicas se obtiene:
10
-4.6
Varianza
-2.3
-6.9
8 Media
10
| ) de ( ) de un modelo muestral La Figura 1. Muestra de la distribucin conjunta ( normal, donde los puntos verdes representan la simulacin de la muestra aleatoria para esta distribucin.
b.
Usando la simulacin anterior, se realiz el clculo del Intervalo del 90% de confianza para la media , donde por medio de R usando la funcin quantile se obtuvo que el intervalo de confianza que estima con el 90% que en promedio un estudiante duerme entre (7,21;8,63) horas. Ahora el intervalo de confianza del 90% de confianza para la desviacin estndar , se tiene que el verdadero valor est entre (1,36;2,25) horas.
c.
Suponiendo que se est interesado en estimar el cuartil superior 3 mediante de una poblacin normal, por lo tanto se obtiene Media posterior del cuartil 3:
2. Problema de Behrens Fisher a. Teneniendo dos muestras aleatorias que se distribuyen normalmente, donde la primera ( ) y la distribucin viene dada por ( ), entonces se define la funcin de densidad conjunta a segunda ), as; priori de ( ( )
)
(
(
( ) (
|
)
) (
) ]
) ]
Donde
( (
) y | )
[(
) ]
) (
); primero se debe b. Para simular valores de la distribucin posterior conjunta de ( simular valores en forma simultnea de las densidades posteriores de los vectores de parmetros ( )y( ), siguiendo con el proceso se multiplican los valores simulados c. Los siguientes datos estn dados para observar la comparacin en las mediciones de las mandbulas de chacales dorados del museo britnico por sexos, donde:
Luego de observar las mediciones se podra pensar que a simple vista en promedio la mandbula de los chacales machos es mayor que la de las hembras, para ratificar la observacin inicial, se consider que las mediciones de mandbula para ambos sexos provienen de distribuciones normales, asi; ( ( ) )
Donde la distribucin posterior conjunta de dos muestras que provienen de poblaciones normales independientes, poseen como funcin de densidad:
( Y la distribucin posterior de
[(
) ]
Teniendo en cuenta que las funciones de densidad posteriores de y son independientes., se har uso de la diferencia entre valores simulados de estas dos funciones, como estadstico para observar ; mediante la simulacin de 1000 valores de la diferencia de distribuciones posteriores de y .
Densidad Posteriori entre machos y hembras
0.25 Densidad posterior 0.00 0.05 0.10 0.15 0.20
10
En la Figura 2. Se obtiene la siguiente distribucin de valores, donde se quiere evaluar si existe evidencia suficiente para concluir que los machos tienen un promedio ms grande:
- sobre las 1000 simulaciones, Mediante el clculo de la probabilidad , se tiene que esta probabilidad es de 0.996, por lo tanto se puede llegar a pensar que la longitud de la mandbula de los chacales dorados machos en promedio es mayor que la de las hembras.
3. Comparando dos proporciones La siguiente tabla muestra los registros de accidentes en 1998 recopilada por el departamento de seguridad de autopistas y vehculos motorizados en el estado de Florida.
Denotar el nmero de accidentes y victimas cuando no se uso el equipo de seguridad por respectivamente. Similarmente sea que denotan el nmero de accidentes y victimas cuando se llevaba en uso el cinturn de seguridad. Asumir que y son independientes y se distribuyen binomial de la siguiente manera y se asume una distribucin a priori uniforme sobre el vector de probabilidades ( ). ( ( a. Mostrar que ) )
Teniendo en cuenta la distribucin a priori uniforme plana sobre el vector de probabilidades , se tiene que la distribucin a posteriori conjunta se considera independiente, de la siguiente manera: ( ( ) )
Tambin se tiene que la distribucin a priori es uniforme sobre el vector de probabilidades ( ), luego esto es igual a una distribucin a priori beta con parmetros . Es decir ( ) ( ) ( )
| )
) ( )
( )
) ( ( ( ) )
) ( )
Donde , se puede ver claramente que en la distribucin posterior conjunta hay un producto de dos distribuciones beta, una con parmetros ( ) y la otra ), es decir las distribuciones marginales, de esta con parmetros (
b. Simulacin de la distribucin posterior conjunta mediante la funcin rbeta en el programa estadstico R, a continuacin se presenta la grafica de la densidad posterior:
Densidad posterior
Density
0e+00
2e+05
4e+05
6e+05
1.0e-05
1.1e-05
1.2e-05
1.3e-05
1.4e-05
c.
Usando los datos anteriores se realiz un histograma del cociente entre la marginal de que corresponde a la proporcin de victimas en accidentes cuando no llevaban ningn equipo de seguridad y la marginal de que corresponde a la proporcin de victimas en accidentes cuando llevaban cinturn de seguridad, es decir
Cociente PN y PS
200 Frequency 0 50 100 150
6.5
7.0
7.5
8.0 Cociente
8.5
9.0
9.5
Se procedi a calcular el Intervalo del 95% de confianza para el cociente la funcin quantile del software R.
, mediante
Por lo tanto, se estima con un 95% de confianza que el cociente que corresponde a la proporcin de victimas en accidentes cuando no llevaban ningn equipo de seguridad sobre la proporcin de victimas en accidentes cuando llevaban cinturn de seguridad, est entre [ 7.17 ; 8.65 ] victimas, lo que indica que la proporcin de victimas en accidentes que no equipo de seguridad es mucho mayor que la proporcin de victimas en accidentes cuando llevaban cinturn de seguridad.
0.0080
0.0085 Diferencia
0.0090
0.0095
Lo que significa que la diferencia es positiva, por lo tanto la proporcin de victimas en accidentes cuando no llevan ningn equipo de seguridad es mayor que la proporcin de victimas en accidentes cuando llevan cinturn de seguridad , y observando el eje X del histograma de las diferencias de proporciones contrarresta lo anterior. 4. Aprendizaje sobre datos redondeados
Un problema muy comn para que las medidas sean observadas de una manera redondeada, suponiendo que se ha pesado un objeto 5 veces y estas medidas se redondearon a las libras ms cercanas de 10, 11, 2, 11 y 9. Se asumi que las medidas que no se aproximaron estn distribuidas normal con una distribucin a priori no informativa con media y varianza 2. : Mediciones sin redondeo ) informativa sobre ( ( ). A la cual se le asocia una distribucion a priori no
Teniendo las mediciones de los pesos son datos exactos sin redondear, luego la distribucion posterior de la media y la varianza estan dadas respectivamente para n valores por: ( | ( ) ( ) )
| ) (
Se observa que estas funciones son anlogas a las distribuciones simuladas en el punto 1. La ) es: distribucin posterior conjunta de ( ( Grficamente se tiene:
Distribucin conjunta
30
| )
[(
) ]
Variance
15
20
25
-6.9
10
-4.6
-2.3
10
11 Mean
12
13
14
La distribucin correcta para las mediciones obtenidas asumiendo valores redondeados para ( ) es:
Media Datos no redondeados 10,6 1,5 Desviacin Estndar 0,77 0,82 2,5% 25% 50% 75% 9,2 0,7 10,2 10,6 11,0 1,0 1,3 1,6 97,5% 11,9 3,5
2,5% 25% 50% 75% 9,2 0,7 10,2 10,6 11,0 1,0 1,2 1,6
5. Estimacin de los parmetros de una densidad Poisson/Gamma Suponga que es una muestra aleatoria de una densidad Poisson / gamma. Supongamos ) es asignado a la distribucin a priori no informativa que es proporcional a ( ) . Si que ( transformamos los parmetros del valor real posterior es proporcional a ( | ) ( ( ) y , entonces la densidad
) ( )
* +y * + Utilizar el marco de modelo de datos recogidos por Gilchrist Donde (1984), en los que se establecieron una serie de 33 trampas para insectos a travs de las dunas de arena y el nmero de diferentes insectos atrapados en un tiempo fijo que registraron. El nmero de insectos de los taxones Staphylinoidea atrapados en las trampas se muestra aqu
2 5 0 2 3 1 3 4 3 0 3 2 1 1 0 6 0 0 3 0 1 1 5 0 1 2 0 0 2 1 1 1 0
Se realiza el clculo de la densidad posterior en base con a la muestra mediante la simulacin de 1000 valores donde se obtienen la siguiente grafica de contorno que indica la densidad posterior ( ). de
-4.6
-2.3
theta2
-2
-1
-6.9
-4
-3
-2
-1
1 theta1
Luego se calcula el Intervalo del 90% confianza para el parmetro Donde el intervalo de confianza estima con un 90% de confianza que el parmetro est entre [ -0.57 ; 1.09 ], y
Intervalo del 90% confianza para el parmetro indica que con un 90% de confianza intervalo de confianza se estima que el parmetro est entre [ -1.297 ; 0.636 ]
6. Comparacin de dos tasas Poisson Las ventas producidas semanalmente , en dos reas geogrficas se distribuyen Poisson cada una con tasas y respectivamente, donde se asume independencia en las ventas semanales por rea geogrfica. Tasa de ventas semanales en el rea geogrfica 1 Distribucin a priori: ( ) ( )
Teniendo en cuenta que las ventas semanales en cada rea geogrfica se presentan en forma independiente, se expone que ambas tasas presentan distribuciones posteriores independientes. ( ). Se tiene que el nmero de ventas semanales en un periodo de tiempo t se distribuye Se registra el nmero de ventas en un periodo de 4 semanas, con los siguientes resultados. Se construye La funcin de verosimilitud para las ventas en las reas geogrficas 1 y 2 estn dadas respectivamente por: ( | ) ( ) ( | ) ( ) ( ) ( )
( | ( | )
) (
) | ) ( )
( )
( |
Como las funciones de densidad posteriores de y producto las distribuciones posteriores para cada tasa. ( | ) ( |
- es calculada usando el De manera grafica se observa que la probabilidad de que , programa estadstico R, mediante simulacin calculando valores de las distribuciones posteriores de y y observando la proporcin de valores simulados que cumplen dicha condicin, esta probabilidad es de 0.645
2000
2500 jointpost
3000
7. Ajuste de una densidad Gamma Suponiendo que se observa una muestra aleatoria parmetro de forma y parmetro de escala , es decir: ( | Si se pone una uniforme a priori sobre por: ( | ) ( ) de una densidad Gamma con
( |
Mediante la funcin gamma.sampling.post se realiza el logaritmo de la densidad posterior. gamma.sampling.post=function(theta,y) sum(dgamma(y,shape=theta[1],scale=theta[2],log=TRUE)) Supongamos que este modelo se utilozara para el ajuste de la duracin (en minutos) de la siguiente muestra de las llamadas de telfono celular.
12.2, 0.9, 0.8 ,5.3 ,2 , 1.2 ,1.2 ,1 , 0.3, 1.8 ,3.1 ,2.8
a.
Se realiza el calculo de la densidad posterior conjunta de ( ) en base de la muestra usando la funcin mycontour, para crear el siguiente grafico de la densidad posterior.
-2.3
-4.6
-6.9
0.0
0.5
1.0
1.5 alfa
2.0
2.5
3.0
3.5
Utilizando la simulacin sobre los valores de la muestra usando la funcin simcontour se construye el siguiente intervalo del 90% de confianza para la estimacin de la media
Media posterior
Density
0.0
0.1
0.2
0.3
0.4
6 mu
10
12
En el grafico anterior donde se muestra la media posterior se observa la estimacin del intervalo indicando la duracion promedio de las llamadas por telefono celular la cual se encuentra con una cofianza del 90% entre 1.9 y 5.7 minutos.
b. Si se supone una parametrizacion del modelo Gamma utilizando el parmetro de forma . Entonces la densidad posterior de y el parmetro de tasa de ( ) se calcula de la siguiente manera: De esta manera se tiene:
| )
( )
| )
( )
| )
( )
| se simulo 1000
Luego para la construccion de un intervalo de confianza para valores de la densidad posterior con los nuevos parametros.
-6.9
1.5
-4.6
-2.3
Beta
0.0
0.5
1.0
2 Alfa
Este intervalo indica que la duracion promedio de las llamadas por telefono celular se encuentra con una cofianza del 90% entre 1.7 y 3.4 minutos.
c. Si se supone una parametrizacion del modelo Gamma utilizando el parmetro de forma y la media . Entonces la densidad posterior de ( ) se calcula de la siguiente manera: De esta manera se tiene:
| )
( )
| )
( )
| |
( )
mu 10 20
30
40
-2.3
-6.9
-4.6
0.0
0.5
1.0
1.5 Alfa
2.0
2.5
3.0
3.5
Luego de calcular la distribucin posteriori, el intervalo de confianza de 90% estima que el valor promedio para la duracin de llamadas esta entre 1,81 y 6,23 minutos. d. Compare sus tres mtodos de clculo. Cul es el mejor mtodo para el clculo de la estimacin del intervalo para ? Al comparar los tres metodos y observando que el nivel de confianza para los tres intervalos es del 90% se concluy que el mejor metodo es el de la densidad posterior de ( ) ya que la amplitud del intervalo no es tan grande y proporciona una mejor informacion que los demas intervalos. 8.