Beruflich Dokumente
Kultur Dokumente
FACULTAD DE INGENIERÍA
DEPARTAMENTO DE MATEMÁTICA Y FÍSICA APLICADAS
DISTRIBUCIONES MUESTRALES DE
ESTADÍSTICOS
Concepción, 2019
1
ÍNDICE GENERAL
INTRODUCCIÓN …………………… 3
2
01. INTRODUCCIÓN
En muchos trabajos prácticos se requiere trabajar con medidas estadísticas obtenidas de
objetos que han sido seleccionados mediante algún procedimiento de muestreo, por ejemplo
que tan probable resulta encontrar que la media de una muestra cualquiera en un proceso
productivo se encuentre entre dos valores de especificación a y b o que, la probabilidad de
que la proporción de elementos tenga una medida superior a la especificada, cuando se basa
en una muestra aleatoria seleccionada en determinado momento.
Cuando obtenemos una medida estadística para todas las muestras posibles, observamos un
patrón de su comportamiento, patrón que puede ser modelado mediante una función de
probabilidad teórica que denominamos Distribución Muestral.
El objeto de muestrear una población es tener estimaciones de los parámetros poblacionales
mediante las observaciones obtenidas en una muestra aleatoria.
Conceptos previos
Un parámetro es una medida estadística obtenido con todos los datos de la población, esto
indica que para conocer el valor de un parámetro se debe estudiar la población en su totalidad,
es decir, realizar un censo, sin embargo, realizar un censo es poco práctico ya sea por el alto
costo que ello involucra y por el tiempo asociado a los procesos, de aquí la importancia de
esta unidad. No conocer el valor del o los parámetros implica no poder determinar
probabilidades de ocurrencia de eventos. Debemos por lo tanto buscar alguna solución que
nos permita obtener dichas probabilidades.
En estadística, la solución nace de estudiar una pequeña parte de la población, que llamamos
muestra y a partir de esta inferir hacia la población.
Las medidas obtenidas con datos de una muestra reciben el nombre de estadístico.
Básicamente un estadístico es lo mismo que un parámetro, sólo que el parámetro es obtenido
con todos los datos de la población y un estadístico con los datos de la muestra, es por esto
que también serán denotados de distinta forma. El valor del estadístico puede cambiar de una
muestra a otra.
Es importante conceptualizar a los estadísticos como variables aleatorias que pueden asumir
diferentes valores en muestras diferentes, que será su distribución de probabilidad asociada
y cuáles son sus propiedades.
Comprender las distribuciones muestrales nos proporciona fundamentos para comprender los
procedimientos que permiten inferir sobre un parámetro que no conocemos a partir del valor
de un estadístico obtenido en un estudio realizado por muestreo probabilístico.
3
4. DISTRIBUCIONES MUESTRALES DE ESTADÍSTICOS
X 0 1 2
f(x) = P(X = x) 0.2 0.5 0.3
0.6
0.5
0.4
0.3
0.2
0.1
0
0 1 2
4
c) Defina la variable aleatoria T = X1 + X2. Obtenga la distribución de probabilidad de T.
Distribución de Probabilidad de T
Muestras Probabilidad Suma T P(T = t)
(0,0) p(0,0) = p(0) p(0) 0 0.04
(1,0) (0,1) 2p(0)p(1) 1 0.2
(0,2) (2,0) (1,1) 2p(0)p(2) +p(1)p(1) 2 0.37
(1,2) (2,1) 2 p(1) p(2) 3 0.3
(2,2) p(2)p(2) 4 0.09
1
Para la varianza de T
E(T2) = 02×0.04 + 12×0.2 + 22×0.37 + 32×0.3 + 42×0.09 = 5.82
V(T) = E(T2) - (E(T))2 = 5.82 – 2.22 = 0.98
5
Distribución de probabilidad del número medio de detenciones
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
0 0.5 1 1.5 2
Ahora calcule la media y desviación estándar de las medias muestrales. Compárela con (c).
E(𝑋) = 0×0.04 + 0.5×0.2 + 1×0.37 + 1.5×0.3 + 2×0.09 = 1.1
Usando propiedades: E(𝑋) = E( ( X 1 X 2 ) / 2 ) = (1.1 +1.1)/2 = 1.1. Coincide E(𝑋) = µ
Observe que:
E( S2 ) =0× 0.38 + 0.5× 0.50 + 2× 0.12 = 0.49 = 𝜎
E(S4 ) = 02× 0.38 + 0.52× 0.50 + 22× 0.12 = 0.605. Así V(S2 ) = 0.605 – 0.492 = 0.3649
6
En primer lugar podemos definir la variable aleatoria “número de componentes que
funcionan correctamente en el sistema” con distribución binomial de parámetros n=100
ensayos y probabilidad de que funcione una componente cualquiera p = 0,95. Luego,
escribimos en lenguaje simbólico P80 S n 100 e intentamos de calcular la probabilidad.
Hacemos notar que el valor es demasiado grande para las tablas que tenemos. De esta manera
estamos introduciendo la idea de aproximación mediante las preguntas: ¿Son muchos
términos en la suma?, ¿Los términos son difíciles de calcular?, ¿Podríamos usar otra
distribución de probabilidades para aproximar el cálculo de la probabilidad pedida?
Solución aproximada: Para calcular P (80 Sn 100) primero obtenemos la esperanza y
varianza de la variable de interés.
Cabe señalar, que esta problemática es un caso particular de un resultado general; el teorema
central del límite, y que nuestro interés en los temas siguientes es conducirlos a su
generalización y formalización. La interrogante general que lleva a analizar los teoremas de
límite es la siguiente: ¿En qué condiciones y mediante qué funciones o distribuciones de
probabilidad pueden aproximarse la suma de otras distribuciones por la distribución
normal, cuando aumentamos progresivamente el número de sumandos? Destacamos la
importancia práctica en ingeniería, en estudios de la masa forestal, producción, cargas en
estructuras, etc., y que permite usar la distribución normal tabulada para calcular
probabilidades que provienen de la suma de diferentes distribuciones.
Nota: (algo acerca de la prueba WAIS). Puntajes de más de 115 se considera inteligencia
brillante. Más de 130 comienza la clasificación de superdotación intelectual con sus grados
7
de moderada a profunda para los que alcanzan más de 175. Personas con puntajes bajo 60 se
consideran con inteligencia muy baja.
Observe lo relevante de esta conclusión, al no conocer la media real, podemos tomar una
muestra aleatoria de dicha población, entonces calcular su media y a partir de esta y de que
tan confiable queramos mostrar dicho resultado, podemos proporcionar un rango de valores
donde se puede encontrar la media verdadera. La probabilidad que nos damos recibe el
nombre de nivel de confianza, y lo denotamos por 1- , y el rango de valores define lo que
llamamos intervalo de confianza.
La conclusión que hemos obtenido nos lleva a dar una definición de intervalo de confianza
para media de una población distribuida normal, que será analizada en la próxima
Unidad.
Hay 28,43% de probabilidad que el contenido total de nicotina supere los 14,88 miligramos.
Existe una probabilidad de 57,63% de que la media de la muestra difiera del verdadero
contenido en no más de 0,07 miligramos.
9
4.1.5 Actividad guiada 5
Consideramos una señal de intensidad que puede ser representada por una variable aleatoria
X, cuya distribución de valores se puede modelizar por una Normal con media µ y desviación
estándar σ (ambos desconocidos), pero se sabe que:
P(X < 9) = 0,97725 y P(X > 3) = 0,8665
a) Determinar los parámetros de la distribución de la variable aleatoria X.
P(X < 9) = 0,97725 → 𝑃(𝑍 < ) = 0,97725 → =2
P(X > 3) = 0,8665 → 𝑃 𝑍 < = 0,1335 → = −1,11
Resolviendo el sistema de ecuaciones se tiene 𝜇 = 5,142 y 𝜎 = 1,929
Por tanto, 𝑋 ~ 𝑁(𝜇 = 5,14; 𝜎 = 1,93 )
b) Si, al realizar una emisión, la señal tiene una intensidad menor de 3, se considera de
intensidad baja, mientras que, si tiene una intensidad mayor de 9, se considera de intensidad
alta. Si la intensidad está incluida entre 3 y 9, se considera de intensidad media.
b.1) Determinar la proporción de emisiones con señal de intensidad media.
10
x e
i
X i P ( ) p ( X i ) con x = 0, 1, 2,....
xi !
xi
e n
La función de verosimilitud es L ( X , )
xi!
n
Aplicando logaritmo natural ln L( X , ) = n xi ln ln xi !
i 1
Supóngase que una población de cinco empleados de producción tiene índices de eficiencia
de 97, 103, 96, 99 y 105. Considere además que se selecciona una muestra de dos índices de
la población. La media de todos los índices (la media de la población) es igual a 100. Cada
diferencia x - µ es el error que habría al evaluar la media poblacional con base en la media
muestral, y estos errores de muestreo se deben al azar. La cantidad de estos errores será
diferente de una muestra a la siguiente.
Muestra Media Error de muestreo
97, 105 101 1.0
103, 96 99.5 -0.5
11
las medias muestrales posibles de un tamaño de muestra dado y sus probabilidades de
ocurrencia. Además, se establece que:
a. Para un tamaño de muestra dado, el valor medio de todas las medias muestrales posibles
seleccionadas de la población, es exactamente igual a la media poblacional.
b. Existe menos variación en la distribución muestral de medias que en la distribución de la
población.
c. El error estándar de la media mide la variación en la distribución muestral de la media
muestral.
c1) Si se conoce la desviación estándar poblacional, el error estándar es X n
c2) Si no se conoce la desviación estándar poblacional, el error estándar es estimado
mediante X S n.
Aunque en la práctica se puede ver sólo una muestra aleatoria en particular, en teoría puede
surgir cualquiera de las muestras. El uso de la distribución de muestreo de la media muestral
es importante porque la mayoría de las decisiones en las empresas y negocios se toman
basándose en los resultados de una muestra. Damos dos ejemplos. En cada una de estas
situaciones se tiene una población de la que se tiene alguna información. Se toma una muestra
de la población y se desea determinar si el error muestral –la diferencia entre el parámetro
poblacional y el estadístico muestral- se debe a la casualidad. Luego, se puede calcular la
probabilidad de que una media muestral se encuentre dentro de cierto intervalo.
Al calcular la probabilidad de que una media muestral se encuentre dentro de cierto intervalo,
surge la interrogante: ¿Bajo qué condiciones la distribución de la media muestral sigue una
distribución normal? La condición que analizaremos en esta sección será cuando no se
conoce la forma de la distribución de probabilidad de la población, o si se sabe que no es
normal, pero el tamaño de la muestra es suficientemente grande. Consideraremos las
aplicaciones del Teorema Central del Límite (TCL) en aquellas distribuciones de
probabilidades clásicas que se utilizan en la inferencia estadística.
El teorema señala que, si se seleccionan de cualquier población todas las muestras de un
tamaño determinado, la distribución de las medias muestrales se acercará a una del tipo
normal. Esta aproximación aumenta en el caso de muestras más grandes. Esta proposición
general estudia la convergencia hacia la distribución normal independientemente de la forma
de la distribución de la poblacional.
S X i
2
n cuando n es grande. Además, también la variable aleatoria X n n
2 i 1
Sn
n n
12
2
converge a la distribución normal con media X y varianza X2 cuando n es
n
grande, con esto:
𝑖) 𝑆 ≈ 𝑁(𝑛𝜇 ; 𝑛𝜎 ) y 𝑍= ≈ 𝑁(0; 1)
√
Sean X 1 , X 2 ,......., X n una muestra aleatoria extraída de una población normal con media
y varianza 2 . Entonces, la variable aleatoria X tiene distribución normal con media
2
y varianza , es decir, 𝑋 ~ 𝑁(𝜇, )
n
13
4.2.2 Distribución de Probabilidad de la Varianza Muestral (S2)
k 2
Una variable aleatoria independientes Z i con distribución normal N(0,1), la v.a. Zi
i 1
tiene distribución Chi-Cuadrado con k grados de libertad.
Anotamos X ~ X k2 Además, E X k y V X 2k .
Considere X 1 , X 2 ,......., X n una muestra aleatoria extraída de una población normal con media
Xi
y varianza 2 . La variable aleatoria Z i tiene distribución normal N(0,1), y
entonces
n
xi 2 ~ X n2
i 1 2
Teorema 2. Sea X 1 , X 2 ,......., X n una muestra aleatoria extraída de una población normal
X ~ N (, 2 ) y denotemos Y
n 1S 2 . Entonces, la variable aleatoria Y tiene
2
n n
Demostración. Escribamos la descomposición: (Xi )2 (Xi X ) 2 n ( X ) 2 Dividamos
i 1 i 1
n n
(Xi )2 (Xi X )2
n( X ) 2 n( X )2
cada término de la igualdad por , 2 i 1
i 1
La expresión
2 2 2 2
corresponde al cuadrado de una variable normal estándar con una distribución 12 . Por otra parte,
n
(Xi )2
W= i 1
sigue una distribución n2 . Así, W =
n 1S 2 n ( X ) 2
2
2 2
14
Si multiplicamos por un parámetro real t, aplicamos la función exponencial a ambos
miembros, y tomamos esperanzas, teniendo en cuenta la independencia de la media y la
varianza muestral, tenemos:
n12S t
2
E e = E e
tw
e tz donde W y Z tienen distribuciones chi-cuadrado con n y 1 grados de
n 1S 2
t 1 1
libertad, por lo que podemos escribir: E e
2
1 2t n 1 / 2
;t es la función generadora
2
de momentos de una n21 y en consecuencia:
Y
n 1S 2 ~ n21
2
independientes. Entonces, consideremos el caso particular, para una muestra con distribución
normal, es posible demostrar que x es independiente de S 2 , y por tanto podemos formar una
V
n 1S 2 ~ X n21 variables aleatorias independientes, entonces T
/ n
=
x
~ t-
2 n 1S 2 S/ n
2 (n 1)
15
Propiedades:
1. f(t) es simétrica con respecto al eje de la ordenada, E(t)=0, pero su varianza es mayor
que 1 lo que resulta ser más achatada y de colas más altas que la normal.
2. Existe una curva para cada (n-1) grados de libertad.
3. P(t t 0 ) FT t 0 se encuentra tabulada para los distintos grados de libertad.
La muestra aleatoria es sacada de una población normal, pero los parámetros y 2 son
desconocidos. La estandarización de la variable aleatoria está dada en el siguiente teorema:
Teorema 3. Sea X 1 , X 2 ,......., X n una muestra aleatoria extraída de una población normal
X ~ N (, 2 ) . Entonces, la variable aleatoria 𝑡 = tiene distribución t de Student con
/√
𝑛 − 1 grados de libertad.
y V .
Insesgamiento Un estimador es insesgado si el valor medio de todas sus estimaciones
obtenidas en una muestra de tamaño n, es igual al parámetro que estima. Entonces es un
estimador insesgado si E . De lo contrario se dice que es sesgado. El sesgo B de un
Observación
Sea p el estimador de la proporción p de elementos de una población con cierto atributo. Se
n
Xi 1 si el elemento posee el atributo de interés
define p i 1 donde X i
n 0 si el elemento no posee el atributo de interés
16
p (1 p )
Verifique que: i) p es estimador insesgado de p. ii) la varianza de p es
n
2
E ( ) = E E ( ) E ( ) = V ( ) + B 2 ( )
2
Esto es, el error cuadrático medio de es igual a la varianza del estimador más el cuadrado
del sesgo. Si es un estimador insesgado de , el error cuadrático medio de es igual a
la varianza de . El error cuadrático medio es un criterio importante para comparar dos
estimadores. Según los valores del parámetro, es posible que un estimador sesgado sea mejor
que uno insesgado.
Métodos de estimación. Existen métodos para obtener unos estimadores puntuales de los
parámetros poblacionales; como por ejemplo el método de máxima verosimilitud.
Observación:
1. Para simplificar el cálculo del máximo de la función de verosimilitud aplicamos logaritmo
natural a la función L( X ; ) , lo que es posible dado que la función logaritmo es una función
creciente y por tanto, el máximo valor de L( X ; ) se obtiene para el mismo valor que la
función logaritmo natural.
d
2. Si la distribución depende de un parámetro entonces ln l ( X , ) = 0 llamada
d
Ecuación de Verosimilitud. Si la distribución depende de dos parámetros = , entonces
se forma un sistema de ecuaciones de verosimilitud.
Observe que los EMV pueden ser sesgados, pero al incrementar el tamaño de la muestra n se
hace asintóticamente insesgados. Por ejemplo: El estimador de la varianza obtenida en una
muestra n de una población normal es
2 n 1 S2 .
n
17
Se muestra en la Tabla siguiente algunos Estimadores Máximo verosímiles de acuerdo a la
distribución de probabilidad
Gamma (𝛼 = 2 𝑦 𝜃) 𝜃 ∑ 𝑋
𝜃=
2𝑛
Se pide P 521 x 540 = 521 500
P
50 / 5
Z
540 500
50 / 5
= (1,79) (0,94) = 0,1369
b) P(
n 1S 2
9 68,56 2
) = P X 2 16,92 = 0.95
2 50 2 9
Actividad 4.3.2
Se desea comparar los tiempos promedios de ejecución utilizados en una empresa cuando un
mismo trabajo se realiza permanentemente por dos métodos diferentes. Se sabe que los
tiempos de ejecución, en minutos, por los dos métodos sigue una distribución normal con 𝜇
= 100 y 𝜇 = 80. Se sabe además, que las varianzas de los tiempos de ejecución son
desconocidas pero iguales.Si seleccionamos dos muestras aleatorias independientes de
tamaños 𝑛 = 10 del método 1 y 𝑛 = 20 del método 2, obteniendo 𝑆 = 4 y 𝑆 = 12
respectivamente.
18
a) ¿Cuál es la probabilidad que la media de la muestra de los tiempos de ejecución del trabajo
por el método 1 sea superior a 99,56 minutos?
b) ¿Cuál es la probabilidad que en la muestra del método 2, la razón de la varianza de la
muestra entre la varianza verdadera sea inferior a 0,53247?
Sean
𝑋 : Tiempo de aplicación de un trabajo por el método 1 𝑋 ~ 𝑁(𝜇 = 100; 𝜎 )
𝑋 : Tiempo de aplicación de un trabajo por el método 2 𝑋 ~ 𝑁(𝜇 = 80; 𝜎 )
Además, 𝑛 = 10 𝑆 = 4 𝑛 = 20 𝑆 = 12
a) La varianza de la población es desconocida, por tanto: ~𝑡
√
,
𝑃(𝑋1 > 99,56) = 1 − 𝑃(𝑡 ≤ ) = 1 - 𝑃(𝑡 ≤ −0,6957) = 0,75
√
Hay una probabilidad del 75% de que la media de la muestra de los tiempos de ejecución del
trabajo por el método 1 sea superior a 99,56 minutos
( )
b) ~ 𝑋 𝐴𝑠í, 𝑃 < 0,53247 = 𝑃(𝑋 < 10,11693) = 0,05
Actividad 4.3.3
Los pesos de los ladrillos para techos producidos en la planta R de cierta empresa presentan
distribución normal con peso medio 930 kg. y desviación estándar 0,06 kg. Se seleccionó al
azar 40 ladrillos para techo producidos en la planta R.
a) ¿De los 40 ladrillos para techo producidos por la máquina R, ¿cuál es la probabilidad de
que la desviación estándar muestral del peso sea a los más de 0,076 kg.?
b) ¿Cuántos ladrillos se deben seleccionar para que el peso medio de la muestra no difiera de
la verdadera media en a lo más de 0,02 kg. con un 98% de confianza?
19
Actividad 4.3.4
En una empresa que se dedica a la producción de motos se estableció lo siguiente en relación
con sus operarios encargados del ensamble de los motores de alta cilindrada: el tiempo de
ensamble se distribuye normalmente con una media de 16 minutos y una varianza de 0,36
minutos2. Si se elige aleatoriamente 25 motores para ser ensamblados.
a) ¿Cuál es la probabilidad de que la media muestral del tiempo de ensamblaje sea a lo más
de 15,75 minutos?
b) ¿Cuál es la probabilidad de que la desviación estándar de la muestra del tiempo de
ensamblaje sea mayor que 0,7057 minutos?
c) ¿Cuántos motores deberían de seleccionarse tal que se tenga una probabilidad de 0,045 de
que la media muestral del tiempo de ensamblaje sea de por lo menos 16,15 minutos?
∙ ,
b) 𝑃(𝑆 > 0,7057) = 𝑃 𝑋 > = 1 − 𝑃(𝑋 ≤ 33,2) = 1 − 0,9 = 0,1
,
Hay una probabilidad de 0,1 de que la desviación estándar de la muestra del tiempo de
ensamblaje sea mayor que 0,7057 minutos. (5 puntos)
, , √
c) 𝑃(𝑋 ≥ 16,15) = 1 − 𝑃 𝑍 ≤ = 0,045 → 𝑃 𝑍 ≤ = 0,955
, ,
→ 0,25√𝑛 = 1,70 → 𝑛 = 47
Se requieren 47 motores.
20
Si observamos el agricultor tiene 227.760 árboles y para estimar la cosecha se aplican ciertas
fórmulas que implican medir cada árbol, sin embargo medir cada olivo tiene un costo no
muy bajo ya que se requiere de expertos en la materia pero, ¿Es realmente importante medir
la totalidad de los olivos para estimar su producción?
Como mencionamos anteriormente, la estadística ofrece métodos alternativos para realizar
dichas estimaciones, con un ahorro significativo en los costos del estudio y con un alto grado
de confianza. A fin de comprender dicha teoría vamos a considerar una población teórica de
sólo ocho olivos y realizaremos un muestreo aleatorio simple de sólo 4 árboles.
Cuando seleccionamos una muestra mediante un muestreo aleatorio simple, sin reemplazo
8
dicha muestra es una de entre las 70 muestras posibles, ya que si la realizamos con
4
4
reemplazo tenemos 8 = 4.096 muestras posibles.
Suponga que nuestra población censada de 8 árboles arrojo los siguientes valores en
kilogramos de aceituna:
árbol 1: 36 árbol 2: 30 árbol 3: 39 árbol 4: 46
árbol 5: 41 árbol 6: 48 árbol 7: 25 árbol 8: 37
A partir de los datos tenemos que la cantidad total de kg de aceitunas es de 302 kg,
37.75 kg, 2 51.375 7.17199414.
Hacer un censo implica conocer los valores reales de los parámetros. Supongamos ahora que
no es posible estudiar la población total y que para representar los parámetros trabajaremos
con una muestra de tamaño 4.
A continuación se muestran las 70 muestras posibles, sin reemplazo, de tamaño 4
seleccionada aleatoriamente de la población de tamaño 8 junto al promedio de cada muestra.
x1 x2 x3 x4 promedio x1 x2 x3 x4 promedio
36 30 39 46 37.75 36 30 41 25 33
36 30 39 41 36.5 36 30 41 37 36
36 30 39 48 38.25 36 30 48 25 34.75
36 30 39 25 32.5 36 30 48 37 37.75
36 30 39 37 35.5 36 30 25 37 32
36 30 46 41 38.25 36 39 46 41 40.5
36 30 46 48 40 36 39 46 48 42.25
36 30 46 25 34.25 36 39 46 25 36.5
36 30 46 37 37.25 36 39 46 37 39.5
36 30 41 48 38.75 36 39 41 48 41
36 39 41 25 35.25 36 46 25 37 36
36 39 41 37 38.25 36 41 48 25 37.5
36 39 48 25 37 36 41 48 37 40.5
36 39 48 37 40 36 41 25 37 34.75
36 39 25 37 34.25 36 48 25 37 36.5
36 46 41 48 42.75 30 39 46 41 39
36 46 41 25 37 30 39 46 48 40.75
21
36 46 41 37 40 30 39 46 25 35
36 46 48 25 38.75 30 39 46 37 38
36 46 48 37 41.75 30 39 41 48 39.5
x1 x2 x3 x4 promedio x1 x2 x3 x4 promedio
30 39 41 25 33.75 30 46 25 37 34.5
30 39 41 37 36.75 30 41 48 25 36
30 39 48 25 35.5 30 41 48 37 39
30 39 48 37 38.5 30 41 25 37 33.25
30 39 25 37 32.75 30 48 25 37 35
30 46 41 48 41.25 39 46 41 48 43.5
30 46 41 25 35.5 39 46 41 25 37.75
30 46 41 37 38.5 39 46 41 37 40.75
30 46 48 25 37.25 39 46 48 25 39.5
30 46 48 37 40.25 39 46 48 37 42.5
39 46 25 37 36.75 46 41 48 25 40
39 41 48 25 38.25 46 41 48 37 43
39 41 48 37 41.25 46 41 25 37 37.25
39 41 25 37 35.5 46 48 25 37 39
39 48 25 37 37.25 41 48 25 37 37.75
Distribución de frecuencias de
la variable promedio muestral, Distribución del promedio muestral
muestras sin reemplazo. 0.27
Clase LI LS ni fi
1 32.00 33.64 5 0.07 0.20
frecuencia relativa
Algunas medidas estadísticas para la variable promedio muestral basada en muestras sin
reemplazo son:
22
variable promedio muestral
Media 37.75
Mediana 37.75
Moda 37.75
Desviación estándar 2.710758987
Varianza de las medias 7.348214286
Mínimo 32
Máximo 43.5
N 70
N n
2
N n 1 84 1
0.142857 veces más pequeña, es decir 2
.
N 1 n 8 1 4 N 1 n
X
Clase LI LS FA FR
1 25.00 26.77 5 1.2E-03 Distribución del promedio muestral
2 26.77 28.54 18 4.4E-03 0.20
3 28.54 30.31 73 0.02
4 30.31 32.08 186 0.05 0.15
frecuencia relativa
Algunas medidas estadísticas para la variable promedio muestral basada en muestras con
reemplazo son:
23
Variable Promedio muestral
Media 37.75
Mediana 37.75
Moda 37.25
Desviación estándar 3.58599707
Varianza de las medias 12.859375
Mínimo 25
Máximo 48
N 4096
Caso 1: Distribución del promedio muestral basado en 1000 muestras de tamaño 10.
Distribución de frecuencias de las medias muestrales basadas en 1000 muestras de tamaño 10
Nota: La media de la muestra debería ser 120, la no coincidencia se basa en que estamos
tomando sólo 1000 muestras en una población infinita.
24
Caso 2: Distribución del promedio muestral basado en 1000 muestras de tamaño 20.
Distribución de frecuencias de las medias muestrales
basadas en 1000 muestras de tamaño 20
frecuencia relativa
4 104.48 112.48 150 0.15
5 112.48 120.49 270 0.27 0.14
Nota: La media de la muestra debería ser 120, la no coincidencia se basa en que estamos
tomando sólo 1000 muestras en una población infinita.
Caso 3: Distribución del promedio muestral basado en 1000 muestras de tamaño 30.
Clase LI LS ni fi
Distribuciòn del promedio muestral
1 86.46 93.74 2 2.0E-03
0.36
2 93.74 101.02 15 0.02
3 101.02 108.29 77 0.08 0.27
frecuencia relativa
25
Clase LI LS ni fi
1 94.48 100.21 5 0.01 Distribución del promedio muestral
0.30
2 100.21 105.95 33 0.03
3 105.95 111.68 98 0.10 0.23
frecuencia relativa
4 111.68 117.42 248 0.25
5 117.42 123.15 288 0.29 0.15
Nota: La media de la muestra debería ser 120, la no coincidencia se basa en que estamos
tomando sólo 1000 muestras en una población infinita.
Si observamos los histogramas para cada caso, estos se ven bastante simétricos, la media y
mediana son muy similares. Además, es poco frecuente encontrar valores de medias
muestrales muy alejadas del valor central, la mayor concentración de dichas medidas está en
tres o cuatro intervalos centrales.
Actividad 4.4.3
Por último, simularemos la selección de muestras obtenidas desde una Distribución
Binomial con parámetros m = 25 y p = 0.3. Consideraremos cuatro casos de 1000 muestras
de tamaño 10, 20, 30 y 40 cada una. Para cada una de las 1000 muestras obtendremos su
media a fin de estudiar la distribución muestral de este estadístico.
Caso 1: Distribución del promedio muestral basado en 1000 muestras de tamaño 10.
Distribución de frecuencias de las medias muestrales basadas en 1000 muestras de tamaño 10
Distribución del promedio muestral
0.25
Clase LI LS FA FR
1 5.30 5.77 10 0.01 0.19
frecuencia relativa
26
Caso 2: Distribución del promedio muestral basado en 1000 muestras de tamaño 20.
Distribución de frecuencias de las medias muestrales basadas en 1000 muestras de tamaño 20
Clase LI LS ni fi
1 6.00 6.33 11 0.01 Distribución del promedio muestral
frecuencia relativa
5 7.31 7.64 235 0.24
6 7.64 7.97 225 0.23 0.12
Caso 3: Distribución del promedio muestral basado en 1000 muestras de tamaño 30.
Distribución de frecuencias de las medias Distribución del promedio muestral
muestrales basadas en 1000 muestras de tamaño 30 0.33
Clase LI LS ni fi
1 6.20 6.51 7 0.01 0.25
frecuencia relativa
Caso 4: Distribución del promedio muestral basado en 1000 muestras de tamaño 40.
Distribución de frecuencias de las medias
muestrales basadas en 1000 muestras de tamaño 40
Distribución del promedio muestral
Clase LI LS ni fi
1 6.33 6.58 5 0.01 0.30
27
Estadística de la variable promedio muestral basado en 1000 muestras de tamaño 40
Observando los histogramas, su forma pareciera no diferir mucho de la simetría. Aquí hay
que considerar los valores de los parámetros, por lo que será un buen desafío para Ud.
verificar lo comentado.
Actividad 4.4.4
Generación de muestras aleatorias y determinación aproximada de la distribución muestral
para 𝑥 y 𝑆 , ya que no se puede trabajar con todas las muestras posibles, usando R. Para ello
seguir los siguientes pasos:
1) Abrir el programa R, para ello hacemos clic en el icono, hecho esto aparece la consola de
R:
2) Cargar la aplicación Rcmdr, que nos permitirá trabajar en R usando una plataforma de
menú. Para ello siga la siguiente secuencia:
Hacer clic sobre la opción Paquete → Cargar → Buscar Rcmdr → ok y esperar que aparezca
la siguiente pantalla.
28
3) Generar 1000 muestras de tamaño 100 de una población distribuida normal con media 120
y desviación estándar 20, para ello seguimos la siguiente secuencia:
El nombre del archivo con las 1000 será NormalSamples, el cual se puede ver en el icono
Visualizar conjunto de datos en la pantalla de Rcmdr.
4) En las últimas columnas del archivo NormalSample, se puede visualizar que esta contiene
1000 medias muéstrales y 1000 sumas muéstrales cada una basada en 100 observaciones.
29
En el proceso de estimación puntual para el parámetro 𝜇, media de la población, sólo una de
las medias muéstrales será usada en este proceso ¿qué tan alejado estará del verdadero valor?
Las probabilidades nos dan la respuesta.
par(mfrow = c(1,2))
Esta prepara la hoja para recibir dos gráficos, (una fila dos columnas). Para ejecutar la
instrucción marcar el rango y luego haga clic sobre ejecutar, luego seguir los siguientes
comandos:
curve(dnorm(x,mean=mean(NormalSamples$obs25),sd=sd(NormalSamples$obs25)),
xlim= c(60,190),add=TRUE, col="red", lwd=2)
curve(dnorm(x,mean=mean(NormalSamples$mean),sd=sd(NormalSamples$mean)),
xlim =c(110,130),add=TRUE, col="red", lwd=2)
30
De la gráfica ¿Podemos observar que ambas variables siguen una distribución Normal?
Actividad 4.4.5
Repetir el procedimiento desarrollado en la actividad 4.4.4, pero con la generación de 1000
muestras de tamaño 100 de una población distribuida binomial con parámetros 𝑛 = 50, 𝑝 =
0,3 ¿Qué se puede observar de la distribución de la media y alguna observación?
Actividad 4.4.6
Repetir el procedimiento desarrollado en la actividad 4.4.4, pero con la generación de 500
muestras de tamaño 80 de una población distribuida exponencial con 𝜆 = 1⁄15 ¿Qué se
puede observar de la distribución de la media y alguna observación?
31