Beruflich Dokumente
Kultur Dokumente
1
ÍNDICE
2
MÓDULO II
TEORIA DEL MUESTREO Y ESTIMACIONES
Para que estos datos estadísticos sean de utilidad tienen que presentar dos
características básicas:
Deben ser pertinentes; es decir, deben guardar una relación con el tema a investigar.
Deben ser in sesgado; es decir no deben tener deformaciones o errores provenientes
de los instrumentos empleados en la recolección de los datos.
3
Para que una muestra sea aceptable desde el punto de vista del análisis estadístico
deberá reunir las siguientes características:
Deberá seleccionarse de manera que sea representativa de la población de la cual
se obtuvo.
La muestra además de permitir obtener estimaciones de características de la
población (totales, promedios, porcentajes, entre otros) deberá proporcionar medidas de
la precisión de dichas estimaciones.
La muestra debe ser bastante reducida para evitar gastos innecesarios y lo bastante
amplia para que el error de muestreo sea admisible y además debe reunir las exigencias
de eficiencia, representatividad, seguridad y flexibilidad.
Por otra parte, la aplicación del muestreo presenta algunas limitaciones comunes entre
las cuales tenemos:
No permite hacer cálculos, proyecciones o tabulaciones con respecto a sectores
pequeños de una población o cuando se requiere información de cada elemento de la
población, ya que las dudas serían tan importantes que no es posible tener una
acertada predicción en base de la muestra.
El cálculo de los resultados está sujeto a los errores del muestreo en sí y de errores
ajenos al muestreo.
Las investigaciones completas ofrecen un margen más sólido y eficiente de exactitud
que los obtenidos en base a la muestra.
4
En base a una muestra se dificulta la tabulación cruzada de algunas características
investigadas.
Las probabilidades de error se multiplican en las diferentes operaciones y en las
complicaciones que surjan de su propio mecanismo.
La preparación estadístico-matemática del muestrista para el diseño eficiente de la
muestra en todas sus etapas.
a. Muestreos Probabilísticos
Los métodos de muestreo probabilísticos son aquellos que se basan en el principio de
equiprobabilidad. Es decir, aquellos en los que todos los individuos tienen la misma
probabilidad de ser elegidos para formar parte de una muestra y, consiguientemente,
todas las posibles muestras de tamaño n tienen la misma probabilidad de ser
seleccionadas. Sólo estos métodos de muestreo probabilísticos nos aseguran la
representatividad de la muestra extraída y son, por tanto, los más recomendables. Dentro
de los métodos de muestreo probabilísticos encontramos los siguientes tipos:
5
• Para la selección de los sujetos de la muestra utilizar una tabla de números
aleatorios o un procedimiento similar utilizando medios electrónicos.
• Administrar los instrumentos de recopilación de datos a los sujetos
seleccionados. Aquellos sujetos que por alguna razón no sean sometidos a
observación integrarán la categoría mortalidad experimental
6
D. Muestras Sistemáticas: Este tipo de muestreo consiste en escoger una
unidad al azar y luego selecciona cada unidad que se encuentre a m unidades
de aquella. Esta técnica suele ser más rápida y está menos expuesta a errores
que la del muestreo aleatorio simple. Generalmente, se emplea cuando se quiere
seleccionar elementos de un estrato, en un diseño estratificado. Por ejemplo, se
desea escoger una muestra probabilística de 16 hospitales, de una lista de 160
hospitales.
b. Muestreos No Probabilísticos
A veces, para estudios exploratorios, el muestreo probabilístico resulta
excesivamente costoso y se acude a métodos no probabilísticos, aun siendo
conscientes de que no sirven para realizar generalizaciones (estimaciones
inferenciales sobre la población), pues no se tiene certeza de que la muestra
extraída sea representativa, ya que no todos los sujetos de la población tienen
la misma probabilidad de ser elegidos. En general se seleccionan a los sujetos
siguiendo determinados criterios procurando, en la medida de lo posible, que la
muestra sea representativa.
En algunas circunstancias los métodos estadísticos y epidemiológicos permiten
resolver los problemas de representatividad aun en situaciones de muestreo no
probabilístico, por ejemplo los estudios de caso-control, donde los casos no son
seleccionados aleatoriamente de la población.
Entre los métodos de muestreo no probabilísticos más utilizados en investigación
encontramos:
7
A. Muestras a Conveniencia: Es aquella muestra seleccionada de acuerdo a la
comodidad del investigador; los elementos de este tipo de muestra son
escogidos en forma simple porque se tiene acceso a ellos. Carecen de validez
externa y confiabilidad, además presentan sesgos de muestreo por criterios
arbitrarios de selección de los sujetos (aunque el investigador no los advierta).
Por ejemplo; se desea estudiar la disciplina del Colegio “Padre José María
Veláz”; para ello el profesor Carlos toma como muestra a la sección de 8vo A,
donde el cumple funciones como profesor guía.
8
1.3 Aplicaciones:
Imaginemos que hemos de recoger una muestra de 20 estudiantes entre los 600 de la
facultad de contabilidad de la USMP.
Muestreo aleatorio simple
Elegiríamos un alumno al azar (probabilidad de elegirlo 1 600. Lo devolvemos a la
población y se elige otro (probabilidad de elegirlo 1 600), y así hasta 20. Notemos
que si no devolviésemos al alumno, entonces, la probabilidad de escoger al 2º
alumno sería 1 599, y ya no todos tendrían la misma probabilidad de ser elegidos. El
problema es que entonces permitimos que se puedan repetir individuos.
Muestreo sistemático:
Como hemos de elegir 20 alumnos de 600, es decir, 1 de cada 30, se procede así:
Se ordenan los alumnos y se numeran, se elige uno al azar, por ejemplo el alumno
27, y luego los demás se eligen a partir de este a intervalos de 30 alumnos.
Escogeríamos por tanto a los alumnos:
27,57,87,117,147,177,207,237,267,297,327,357,387,417,447,477,507,537,567,597
y el alumno 627 ya es otra vez el 27.
9
Muestreo por conglomerados: Supongamos que queremos extraer una muestra
aleatoria de los estudiantes universitarios del país. Necesitaríamos una lista con
todos ellos para poder realizar algún muestreo del tipo de los 3 anteriores, lo cual es
muy difícil de conseguir. Sin embargo, los estudiantes están clasificados por
Universidades, Facultades y Clases. Podemos seleccionar en una primera etapa
alguna Universidades, después algunas facultades al azar, dentro de las facultades
algunas clases y dentro de las clases, algunos estudiantes por muestreo aleatorio
simple. Los conglomerados en cada etapa serían las diferentes Universidades, las
diferentes facultades y las diferentes clases. Como vemos los conglomerados son
unidades amplias y heterogéneas.
Para establecer una fórmula del tamaño de muestra se requiere saber el tipo de
parámetro que se desea estimar, es decir, si el interés es estimar una media aritmética
se requiere una fórmula específica y si se quiere estimar una proporción se considera
otra fórmula.
n = Z² ² N
E²(N-1)+Z²²
Er = E* X
100
Donde:
N: Tamaño de la población que es objeto de estudio.
E: Error absoluto o precisión de la estimación deseada de la media.
Er = Error relativo
Z: es una desviación normal cuyo valor corresponde al grado de confianza que se
establece.
10
Es decir:
N.C.: 90% 95% 99%
Z : 1.64 1.96 2.57
²: Varianza poblacional de la población que es objeto de estudio
En la práctica, el valor de la varianza se desconoce.
Para establecer el valor a la varianza, hay que tener en cuenta las siguientes
recomendaciones:
Recurrir a estudios similares que se han realizado y obtener el valor de la varianza
respectiva.
Realizar un estudio piloto para estimar ².
Ejemplo
Se tiene el interés de conocer el promedio con respecto a la preferencia por
determinado producto consumido por los estudiantes de la Facultad de Contabilidad
de la USMP. (Suponemos que la población es 1800 alumnos)
El estudio queremos realizarlo mediante una muestra, para ello necesitamos calcular el
tamaño de muestra n, considerando: un grado de confianza del 95%, y los resultados
de un estudio preliminar:
_
X = 210 y s = 30; error relativo del 6%
Solución
Por definición de error relativo. Er = E*100 / X. Por consiguiente, E= Er* X /100.
Como grado de confianza 95%, nos indica que Z=1.96
E= 6*210/ 100 = 12.6; s= 30.
n= (1.96)²(30)²(1800)
(12.6)²(1799) + 1.96²(30²)
Por tanto, n = 22
(Para realizar el estudio se requiere como mínimo 22 estudiantes)
11
Determinación del tamaño de muestra para estimar una proporción
n = Z² P (1 – P) N
E²(N-1) + Z²P(1-P)
N: Tamaño de la población
Z: Desviación normal
P: Proporción de unidades que poseen el atributo de interés en la población
E: Error absoluto o precisión de la estimación de la proporción.
En la práctica, el valor de la proporción P se desconoce. Para determinar dicho valor se
recurre a las siguientes recomendaciones:
Recurrir a estudios similares que se hayan realizado y extraer el valor de P.
En caso de no haber antecedentes, se recurre a un estudio piloto para conocer P.
En caso contrario se recurre a la máxima varianza cuando P=0.5
Ejemplo
Interés: Conocer la proporción de estudiantes que fuman cigarrillos en la Facultad de
Economía de La USMP número de estudiantes N= 1700.
Solución
Z= 2.57. De un estudio preliminar se ha determinado que la proporción de alumnos que
fuman cigarrillos es de p=0.40. El error absoluto que se toma en cuenta es de E=0.05
Reemplazando la información en fórmula, se tiene:
n = Z² P (1 – P) N
E²(N-1) + Z²P(1-P)
n = (2.57)²(0.4)(0.6)(1700)
(0.05)²(1699) + (2.57)²(0.4)(0.6)
n = 462
12
Por lo menos se requiere para ejecutar el estudio por lo menos 462 estudiantes, con un
grado de confianza del 99% y precisión del 5%.
13
En el caso del error estándar de p´,
14
Suficiencia. Un estimador es suficiente si utiliza tanta información de la muestra que
ningún otro estimador puede extraer información adicional acerca del parámetro de
población que se está estimando.
Por ejemplo, supongamos que la compañía Sonytron desea estimar la edad media
de los compradores de equipos de alta fidelidad. Seleccionan una muestra de 100
compradores y calculan la media de esta muestra, este valor será un estimador
puntual de la media de la población.
15
Tenemos:
= 102 jeringas
Así, al usar la media de la muestra, x como estimador, la estimación puntual de la
media de la población, es 102 jeringas por caja. El precio de fabricación de cada
jeringa hipodérmica desechable es bastante bajo (alrededor de 25 centavos), de
modo que tanto el comprador como el vendedor aceptarían esta estimación puntual
como base para la facturación, y el fabricante puede ahorrarse el tiempo y el gasto
de contar las jeringas contenidas en las cajas.
= 6,01
16
Por consiguiente, los límites del intervalo se obtienen sumando o restando el error
estándar al valor de la media muestral. Específicamente, para hallar el límite inferior
(L1) se resta el error estándar y para hallar el límite superior (L2) se suma el error
estándar.
Solución
Si no se especifica el grado de confianza, se utiliza por lo general 95%, lo cual
corresponde a z = 1.96. Conociendo los datos. Se puede aplicar la fórmula:
17
Estimación para la Diferencia de Medias
Para calcular el intervalo de confianza para la diferencia de dos medias se debe
saber si las varianzas poblacionales son conocidas o desconocidas, y en caso de
que sean desconocidas, se debe probar si son igual es o diferentes. Cada uno de
estos tres casos se analizará por separado
Si las varianzas poblacionales son conocidas y diferentes, los pasos a seguir para
encontrar el intervalo de confianza son los siguientes:
a) El estadístico usado como estimador puntual de la diferencia de medias μ1 − μ 2,
será T = x 1 − x 2 , que es un estimador suficiente
b) La variable aleatoria asociada con el estimador será la variable normal estándar
dada por:
𝑥1− 𝑋2 −(𝜇1 − 𝜇2 )
𝑧=
𝜎12 𝜎22
√ +
𝑛1 𝑛2
𝜎12 𝜎22
X1 - X2 ± Z √ +
𝑛1 𝑛2
Ejemplo. Construya un intervalo de confianza del 94% para la diferencia real entre
las duraciones de dos marcas de focos, si una muestra de 40 focos tomada al azar
de la primera marca dio una duración media de 418 horas, y una muestra de 50 focos
18
de otra marca dieron una duración media de 402 horas. Las desviaciones estándares
de las dos poblaciones son 26 horas y 22 horas, respectivamente.
𝜎12 𝜎22
IC = X1 - X2 ± Z √ +
𝑛1 𝑛2
26 22
IC= (418 402 ) ± 1.88 √ +
40 50
19
luego registrar la presencia o ausencia de daños. En este caso, si encontramos que
la proporción de cajas dañadas en la muestra es 0.08, diríamos que:
pˆ = 0.08 ← Proporción de la muestra dañada
Y, debido a que la proporción de la muestra pˆ es un estimador conveniente de la
proporción de la población p, podemos estimar que la proporción de cajas dañadas
de toda la población será también 0.08.
Por consiguiente, los límites del intervalo se obtienen sumando o restando el error
estándar al valor de la proporción muestral (p). Específicamente, para hallar el límite
inferior (L1) se resta el error estándar y para hallar el límite superior (L2) se suma el
error estándar.
Ejemplo Supóngase que en una muestra de 2000 personas se encontró que 250 son
alcohólicos. Es decir, el porcentaje de alcohólicos en la muestra es:
p=250/2000x100=12.5%.
Calcular el intervalo de confianza al 95%.
20
Por lo tanto, con un nivel de confianza de 95%, se puede afirmar que el porcentaje
de alcoholismo en la población se encuentra entre 11.05% y 13.95%.
Donde el símbolo zα/2 es el mismo valor crítico utilizado anteriormente (Z > zα/2) =
α/2, y corresponde a un intervalo de confianza 1 − α %.
21
22