Beruflich Dokumente
Kultur Dokumente
: Jezabel Fermín
ASIGNATURA: ESTADISTICA II (0913863)
La teoría del muestreo es el estudio de las relaciones existentes entre una población y
muestras extraídas de la misma.
Muestreo: Es el procedimiento por medio del cual se estudia una parte de la población
llamada muestra, con el objetivo de inferir con respecto a toda la población.
1
Tipos de Muestreo:
1. Muestreos No Probabilísticos: Los elementos o individuos de la muestra se
eligen sin tomar en cuenta su probabilidad de ocurrencia. Por tanto, es imposible
determinar el grado de representatividad de la muestra. Estas pueden ser:
a. Muestreo por Juicio: También conocido como muestreo por selección experta o
selección intencional. El investigador toma la muestra seleccionando los elementos que
a él le parecen representativos o típicos de la población.
b. Muestreo Casual o fortuito: Se utiliza en los casos en que no es posible
seleccionar los elementos, y deben sacarse conclusiones con los elementos que estén
disponibles.
c. Muestreo de Cuota: Se utiliza en el estudio de opinión de mercado.
d. Muestreo de Poblaciones Móviles: En este tipo de muestreo se utiliza métodos
de captura, marca y recaptura. Se utiliza mucho en el estudio de migración de
poblaciones de animales y otras características.
N población
cociente
n muestra
El primer elemento de la muestra es seleccionado al azar.
c. Muestreo Estratificado: Para este tipo de muestreo se divide la población en
grupos, llamados estratos, que son más homogéneos que la población como un todo.
Los elementos de la muestra son seleccionados al azar o por un método sistemático de
cada estrato. El número de elementos seleccionado de cada estrato puede ser
proporcional al tamaño del estrato en relación con la población.
2
n n NE n
E nE
NT N E NT
Distribuciones Muéstrales
Los símbolos utilizados para representar los estadísticos y los parámetros son los
siguientes:
Medida Parámetro Estadístico
Media Aritmética x
Varianza 2 s2
Desviación Típica o Estándar s
Proporción p
Nº de Elementos N n
3
de una población, sería casi imposible esperar el mismo valor para el estimador. Si por
ejemplo el estimador es 𝑋̅y tomamos varias muestras, lo más probable es que ninguna
de las 𝑋̅ de cada una de las muestras sería igual a las otras. Esas diferencias se deben
precisamente a que se trata de un proceso aleatorio en la selección de las muestras.
Distribución en el muestreo
Cuando el tamaño de la muestra (n) es más pequeño que el tamaño de la población
(N), dos o más muestras pueden ser extraídas de la misma población. Un cierto
estadístico puede ser calculado para cada una de las muestras posibles extraídas de la
población.
La distribución muestral es una lista de todos los valores posibles para un estadístico
y la probabilidad relacionada con cada valor.
N!
K N Cn
n!( N n)!
Dónde:
N: tamaño de la población.n: tamaño de la muestra.
K: número posible de muestras de tamaño n, que pueden ser obtenidas de una
población de tamaño N.
4
La media de la distribución muestral X es igual a la media de la población original
X
Se recuerda:
∑(𝑥−𝜇)2
: Desviación estándar de la población.𝜎 = √ 𝑁
f (x )
2 2
f (x X )
2 2
x K x K
2
f (x X )
. x x 2
K x
5
independientemente de la forma de la distribución de la población de la que fue tomada
la muestra.
6
N n
conoce la población, al error estándar se le aplica factor de corrección
N 1
siempre y cuando se cumpla la siguiente condición, si n 0.05 N se requiere del
factor de corrección, por lo tanto, el error estándar a utilizar sería:
N n
x
n N 1
E ( p)
7
Cuando se conoce la población, al error estándar se le aplica factor de corrección
N n
siempre y cuando se cumpla la siguiente condición, si n 0.05 N se
N 1
requiere del factor de corrección, por lo tanto el error estándar se determina de la
siguiente manera:
(1 ) N n
p
n N 1
ESTIMACIONES
Estimación Puntual
Un estimador puntual de un parámetro poblacional es una función de la muestra que da
como resultado un único valor. Por ejemplo, la media muestral (X ) es un estimador
puntual de la media poblacional ( )
Formulas:
Xi
Media muestral: X
n
8
2 2 2
(Xi X )
2 Xi nX
Varianza muestral: S
n 1 n 1
Proporción muestral:
X X : nº de éxito en la muestra
p donde :
n n : nº de elementos en la muestra
Propiedades de un estimador
Un buen estimador debe tener las siguientes propiedades:
a) Insesgado.Un estimador es “insesgado”, cuando el valor promedio de las
estimaciones para todas las posibles muestras de igual tamaño, es igual al verdadero
parámetro poblacional. Por ejemplo, la media muestral, la varianza muestral y la
proporción muestral son estimadores insesgado de sus correspondientes parámetros
poblacionales:
9
Estimación con Intervalos de Confianza
Una forma de estimar un parámetro poblacional consiste en estimar con algún grado de
confianza, un intervalo que incluya un límite inferior y un límite superior dentro de los
cuales esperamos que se encuentre el verdadero valor del parámetro. Con esto,
estamos admitiendo que existe una probabilidad “ ” de que esto no ocurra y por
consiguiente una probabilidad “1 – ” de que ello si ocurra. Es decir, “ ” es la
probabilidad de fallar en la estimación y “1 – ” es la confiabilidad que merece la
estimación.
Un intervalo de confianza (estimación por intervalo) denota un rango dentro del cual
puede encontrarse el parámetro, y el nivel de confianza que el intervalo contiene del
parámetro. Este tiene un límite inferior de confianza (LIC) y un límite superior de
confianza (LSC). Estos límites se determinan calculando primero al estadístico (la
media muestral (X ) o la proporción) luego se suma una cierta cantidad al estadístico
para obtener el límite superior de confianza (LSC), y la misma cantidad se resta del
estadístico para obtener el límite inferior de confianza (LIC).
10
Consideremos una muestra aleatoria de n observaciones extraídas de una población
que sigue una distribución normal de media y varianza 2 . Si la media muestral es
X , entonces el intervalo de confianza al (1 ) 100% de la media poblacional, cuando
la varianza es conocida, viene dado por:
: X Z → X Z X Z
2 n 2 n 2 n
11
Distribución t de Student
Cuando debe tomarse una muestra pequeña, la distribución normal puede no aplicarse.
El teorema del límite central asegura normalidad en el proceso de muestreo solo si la
muestra es grande. Cuando se utiliza una muestra pequeña, puede ser necesaria una
distribución alternativa, la distribución t de Student. Esta se utiliza cuando se cumple
las tres (3) condiciones siguientes:
Aunque sólo hay una distribución normal estándar, hay una distribución t distinta por
cada tamaño muestral n. Sin embargo, a medida que n se hace más grande, la
distribución t se aproxima a la distribución normal estándar hasta que, cuando n 30 ,
son aproximadamente iguales.
X
t Sigue una distribución t de Student con n – 1 grados de libertad
S
n
La distribución t de Student utiliza una tabla de probabilidad especial, cuyo uso sugiere
como compensación el cálculo previo de los grados de libertad (g.l), que se define como
el tamaño de la muestra “n”, al cual se le ha restado tantas unidades como parámetros
de la población halla que estimar a partir de la muestra.
12
Intervalo de confianza para la media de una población con varianza poblacional
( 2 ) desconocida y muestra pequeña (n < 30)
S S S
: X tn 1; → X tn 1; X tn 1;
2 n 2 n 2 n
Z
X
Z
X n
n
13
Intervalo de confianza para la proporción de una población
Sea p la proporción observada de éxito en una muestra aleatoria de n observaciones
procedentes de una población con una proporción de éxitos. Entonces, si n es
grande, un intervalo de confianza del (1 ) 100% para la proporción poblacional viene
dado por:
p1 p p1 p p1 p
: p Z → p Z p Z
2 n 2 n 2 n
14
Hay una distribución ji cuadrada diferente según el valor de n – 1, lo cual representa los
grados de libertad.
Dado que la varianza muestral es un estimador in sesgado de la varianza poblacional,
el valor esperado a largo plazo de la razón anterior es igual a los grados de libertad (n –
1). Sin embargo, en cualquier muestra dada por lo general la varianza muestral no es
idéntica en valor a la varianza poblacional.
Las distribuciones ji cuadrada no son simétricas, en consecuencia, un intervalo de
confianza de dos extremos para una varianza o desviación estándar implica el uso de
dos valores diferentes de ji cuadrado.
(n 1) S 2 (n 1) S 2 (n 1) S 2 (n 1) S 2
2
2
g2.l superior g2.l inferior 2 2
n 1; n 1; 1
2 2
(n 1) S 2 (n 1) S 2 (n 1) S 2 (n 1) S 2
g2.l superior g2.l inferior 2 2
n 1; n 1; 1
2 2
( X 1 X 2 ) Z X X 1 2 ( X 1 X 2 ) Z X X
2 1 2 2 1 2
Dónde:
X 1 X 2 2 2 X
X1 X2 n
15
Con desviación estándar poblacional ( )desconocida:
( X 1 X 2 ) Z S X X 1 2 ( X 1 X 2 ) Z S X X
2 1 2 2 1 2
Dónde:
S
SX X S2 S2 SX
1 2 X1 X2 n
Por tanto, el error estándar de la diferencia entre medias cuando procede el uso de la
distribución t es combinar las dos varianzas muéstrales:
2 1 1
2 2
SX SX
SX X
1 2
SX X SX
1 2 n n con g.l n1 n2 2
n1 n2 1 2
El intervalo de confianza es:
( X 1 X 2 ) t g.l ; S X X 1 2 ( X 1 X 2 ) t g.l ; S X X
2 1 2 2 1 2
( p1 p2 ) Z S p1 p2 1 2 ( p1 p2 ) Z S p1 p2
2 2
Dónde:
16
S p1 p2 S 2p S 2p
1 2
p (1 p1) 2 p2 (1 p2 )
S 2p 1 yS
p2
1 n1 n2
17
UNIDAD II: PRUEBAS DE HIPÓTESIS
HIPÓTESIS ESTADÍSTICAS
Para tomar decisiones, es conveniente hacer ciertos supuestos acercas de las
poblaciones objeto de investigación. Estos supuestos que pueden ser ciertos o falsos,
en base a distribuciones de probabilidad de las poblaciones se le llaman hipótesis
estadística.
Una Hipótesis Estadística es un enunciado provisional referente a uno o más
parámetros de una población o grupo de poblaciones.
PRUEBAS DE HIPÓTESIS
Tiene como propósito determinar si el valor supuesto de un parámetro poblacional,
como la media de la población (µ), debe aceptarse como verosímil (como verdadera)
con base en evidencias muéstrales.
H 0 : 0
H1 : 0
- Z0 Z0
H 0 : 0 ó H 0 : 0
H1 : 0
Z0
H 0 : 0 ó H 0 : 0
H1 : 0
- Z0
Z0 = Representa el valor crítico, es decir, el límite de separación de las dos zonas
de contraste (Zona de Rechazo y Zona de Aceptación).
19
Estos valores pueden ser uno o dos, dependiendo de si están implicadas las así
llamadas pruebas unilaterales o bilaterales. Un valor crítico identifica el valor de la
estadística de prueba requerido para rechazar o aceptar la hipótesis nula (H0)
Paso 5:Decisión.
El valor observado de la estadística muestral se compara con el valor (o valores)
crítico (s) de la estadística de prueba. Se rechaza o no entonces la hipótesis nula. Si la
hipótesis nula es rechazada se acepta la hipótesis alterna.
Estadístico de Prueba
H o : o X 0 X 0
Zc Zc
S
n n
Hipótesis
Criterio de Rechazo
Alterna
H1 : o Z c Z
H1 : o Z c Z
H1 : o Z c Z
2
Estadístico de Prueba
Hipótesis Nula
X 0
H o : o tc Tn1
S
n
Hipótesis Alterna Criterio de Rechazo
H1 : o t c t
H1 : o t c t
H1 : o t c t
2
20
PRUEBA DE HIPÓTESIS SOBRE LA PROPORCIÓN (Π) DE UNA POBLACIÓN
La prueba es apropiada cuando n 5 y n(1 ) 5 , donde n es el tamaño de
la muestra y π es la proporción poblacional.
Estadístico de Prueba
Hipótesis Nula
p 0
Ho : o Zc
0 (1 0 )
n
Hipótesis
Criterio de Rechazo
Alterna
H1 : o Z c Z
H1 : o Z c Z
H1 : o Z c Z
2
PRUEBA DE HIPÓTESIS SOBRE LA VARIANZA 2 DE UNA POBLACIÓN
H1 : 2 o2 c2 n21,
H1 : 2 o2 c2 n21,1
c2 n21,
2
H 0 : 2 o2
c2 n21,1
2
21
PRUEBAS DE HIPÓTESIS PARA LAS DIFERENCIAS ENTRE DOS MEDIAS
POBLACIONALES CONσ CONOCIDA Yσ DESCONOCIDA
Estadístico de Prueba
Hipótesis Nula
CON σ CONOCIDA CON σ DESCONOCIDA
H 0 : 1 2
X1 X 2 X1 X 2
H 0 : 1 2 ZC ZC
H 0 : 1 2
12 22 S12 S 22
n1 n2 n1 n2
Hipótesis Alterna Criterio de Rechazo
H 1 : 1 2 Z c Z
H 1 : 1 2 Z c Z
H 1 : 1 2 Z c Z
2
22
Hipótesis Nula Estadístico de Prueba
H 0 : 1 2 p1 p 2
ZC
H 0 : 1 2 (1 ) (1 )
H 0 : 1 2 n1 n2
Hipótesis Alterna Criterio de Rechazo
H1 : 1 2 Z c Z
H1 : 1 2 Z c Z
H1 : 1 2 Z c Z
2
DISTRIBUCION F
Se define como la distribución que sigue el cociente de dos variables aleatorias
independientes con distribución Ji cuadrada ( 2 ), cada una dividida por sus grados de
libertad.
Suponga que se toman muestras aleatorias independientes de n x y n y
observaciones de dos poblaciones normales con varianzas x2 y y2 , y varianzas
muéstrales S x2 y S 2y , entonces, la variable aleatoria:
S x2
x2
F F( nx 1),( n y 1)
S y2
y2
F(nx 1),(n y 1) : tiene distribución F con ( n x 1 ) grados de libertad en el
numerador y ( n y 1) grados de libertad en el denominador. Si se asume que las
varianzas poblacionales x2 = 2y , entonces:
S x2
F F( nx 1),( n y 1)
S y2
La distribución F tiene una función de densidad asimétrica, definida solo para
valores no negativos.
23
Hipótesis Nula Estadístico de Prueba
H 0 : x2 y2 S x2
Fc
H 0 : x2 y2 S y2
H1 : x2 y2 Fc F
( nx 1),( n y 1),
2
24
ANÁLISIS DE VARIANZA (ANOVA) A UNA VÍA: DISEÑO COMPLETAMENTE
ALEATORIZADO.
El término proviene del hecho que varios sujetos o unidades experimentales se
asignan aleatoriamente a diferentes niveles de un solo factor. Por ejemplo: varios
empleados (unidades experimentales) pueden seleccionarse aleatoriamente para
participar en diversos tipos (niveles diferentes) de un programa de capacitación (factor).
El análisis de varianza se basa en una comparación de la cantidad de variación en
cada uno de los tratamientos. Si de un tratamiento al otro la variación es
significativamente alta, puede concluirse que los tratamientos tienen efectos diferentes
en las poblaciones.
Variación total: existe variación entre el número total de las observaciones.
Variación entre muestras: existe variación entre los diferentes tratamientos
(muestras).
Variación dentro de la muestra: existe variación dentro de un tratamiento dado
(muestra).
Al comparar estas fuentes diferentes de variación es que se puede utilizar el
análisis de varianza para probar la igualdad de las medias de poblaciones diversas.
25
Pasos para el Análisis de varianza:
1.- El análisis de varianza se utiliza para contrastar la hipótesis nula de que las
medias de dos o más poblaciones son iguales, frente a la hipótesis de que, al menos,
una de las medias es distinta.
H 0 : 1 2 3 .... c
H1 : No todas las medias son iguales
2.- Se estima la varianza de la población a partir de la varianza entre las medias
muéstrales (MSA)
3.- Se estima la varianza de la población de cada muestra (MSE)
4.- Se calcula el estadístico F:
var ianza entre medias muestrales MSA
Fc
var ianza de las medias MSE
SSA r X j X
2
Suma del cuadrado del error (no explicado por el factor A):
SSE X ij X j 2
Suma de cuadrados total:
SST X ij X 2
SSA SSE
26
SSA
Cuadrado Medio del Tratamiento: MSA
c 1
SSE
Cuadrado Medio del Error: MSE
r 1c
X ij
Media de la muestra j compuesta por r observaciones: Xj
r
Xij
Media de todas las muestras (La gran media): X
rc
MSA
Estadístico de Prueba: F
MSE
Grados de libertad numerador = c – 1
Grados de libertad denominador = (r – 1)c
Dónde: c: es el número de tratamientos
r: es el número de observaciones en cada tratamiento
ANALISIS DE REGRESIÓN:
Se utiliza para predecir el valor de la variable dependiente (Y) basada en la
variable independiente (X).
27
𝑌 = 𝑓(𝑋1 , 𝑋2 , 𝑋3 , … , 𝑋𝑘 )
ECUACIÓN DE REGRESIÓN LINEAL: Ecuación que expresa la relación lineal entre dos
variables.
En donde:
𝑌 ′ 𝑒𝑠 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑞𝑢𝑒 𝑠𝑒 𝑝𝑟𝑒𝑑𝑖𝑗𝑜 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑌 𝑝𝑎𝑟𝑎 𝑢𝑛 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑋 𝑠𝑒𝑙𝑒𝑐𝑐𝑖𝑜𝑛𝑎𝑑𝑜
𝑏0 𝑒𝑠 𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑐𝑒𝑝𝑡𝑜 ó 𝑙𝑎 𝑖𝑛𝑡𝑒𝑟𝑠𝑒𝑐𝑐𝑖ó𝑛 𝑌.
𝑏1 𝑒𝑠 𝑙𝑎 𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑙𝑎 𝑟𝑒𝑐𝑡𝑎.
Con frecuencia se encuentra que al utilizar una variable para explicar otra, existe
alguna variación en la relación. Por tanto, habrá algún error en el intento por explicar o
predecir dicha variable. Se dice que un modelo de esta naturaleza es estocástico, por
la presencia de la variación aleatoria y puede expresarse como:
𝑀𝑜𝑑𝑒𝑙𝑜 𝐿𝑖𝑛𝑒𝑎𝑙: 𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝜀
28
MÍNIMOS CUADRADOS ORDINARIOS (MCO): La recta de mejor ajuste.
29
2
√∑(𝑌𝑖 − 𝑌̂𝑖 )
𝑆𝑒 =
𝑛−2
Uno de los supuestos básicos del modelo MCO es que la varianza en los errores
alrededor de la recta de regresión es la misma para todos los valores de X. Entre
menos sea el valor de la varianza poblacional (𝜎 2 ), menos será la dispersión de los
puntos de datos alrededor de la recta.
ERROR ESTÁNDAR:
𝑆𝑒 = √𝐶𝑀𝐸
ANALISIS DE CORRELACIÓN:
Es el estudio de la relación entre variables. Se utiliza para medir la fuerza de
relación o grado de asociación entre dos variables.
30
correlación producto-momento de Pearson. Puede asumir cualquier valor de -1 a +1
inclusive, es decir, −1 ≤ 𝑟 ≤ +1
𝑆𝐶𝑥𝑦
FÓRMULA PARA CALCULAR EL COEFICIENTE DE CORRELACIÓN:𝑟 =
√(𝑆𝐶𝑥)(𝑆𝐶𝑦)
COEFICIENTE DE DETERMINACIÓN: Es el porcentaje de la variación total en la variable
dependiente Y que se explica, o contabiliza, por la variación en la variable
independiente X.
2 (𝑆𝐶𝑥𝑦)2
Formula: 𝑟 = (𝑆𝐶𝑥)(𝑆𝐶𝑦)
31
HIPÓTESIS:𝐻0 : 𝛽1 =0 𝑣𝑠 𝐻1 : 𝛽1 ≠ 0
𝑏
ESTADÍSTICO DE PRUEBA:𝑡𝑐 = 𝑆1
𝑏1
Dónde:
𝑆𝑏1 Es el error estándar del coeficiente de regresión y se determina de la siguiente
manera:
𝑆𝑒
𝑆𝑏1 =
√𝑆𝐶𝑥
HIPÓTESIS:𝐻0 : 𝜌 =0 𝑣𝑠 𝐻1 : 𝜌 ≠ 0
𝑟
ESTADÍSTICO DE PRUEBA:𝑡𝑐 =𝑆
𝑟
Dónde:
𝑆𝑟 Es el error estándar del coeficiente de correlación y se determina de la siguiente
manera:
1 − 𝑟2
𝑆𝑟 = √
𝑛−2
Para calcular este intervalo para el valor promedio condicional de Y, se debe hallar
primero el Error Estándar de la Media Condicionada (𝑆𝑦 ). El error estándar de la media
condicionada reconoce que se utiliza una muestra para calcular 𝑏0 𝑦 𝑏1 en la ecuación
de regresión. Por tanto, 𝑏0 𝑦 𝑏1 están sujetos al error de muestreo. El propósito de 𝑆𝑦
32
es tener en cuenta los diferentes valores de 𝑏0 𝑦 𝑏1 que resultan del error de muestreo.
Se determina de la siguiente manera:
1 (𝑋𝑖 −𝑋̅)2
Error Estándar de la Media Condicionada:𝑆𝑦 = 𝑆𝑒 √ +
𝑛 𝑆𝐶𝑥
En donde:
𝑆𝑒 = es el error estándar de estimación
𝑋𝑖 = es el valor dado para la variable independiente
𝜇𝑦/𝑥 : 𝑌̂𝑖 ± (𝑡𝛼⁄2;𝑔𝑙 ) (𝑆𝑦 ) → 𝑌̂𝑖 − (𝑡𝛼⁄2;𝑔𝑙 ) (𝑆𝑦 ) < 𝜇𝑦 < 𝑌̂𝑖 + (𝑡𝛼⁄2;𝑔𝑙 ) (𝑆𝑦 )
𝑥
Para calcular este intervalo de predicción, primero se debe hallar el Error Estándar
del Pronóstico (𝑆𝑦𝑖 ). Este error estándar del pronóstico explica el hecho de que los
valores individuales estén más dispersos que las medias. El error estándar de
pronóstico (𝑆𝑦𝑖 ) refleja el error de muestreo inherente al error estándar de la media
condicionada (𝑆𝑦 ) más la dispersión adicional, porque se están tratando con un valor
individual de Y. Se determina de la siguiente manera:
1 (𝑋𝑖 −𝑋̅)2
Error Estándar del Pronóstico:𝑆𝑦𝑖 = 𝑆𝑒 √1 + +
𝑛 𝑆𝐶𝑥
𝑌𝑥 : 𝑌̂𝑖 ± (𝑡𝛼⁄2;𝑔𝑙 ) (𝑆𝑦𝑖 ) → 𝑌̂𝑖 − (𝑡𝛼⁄2;𝑔𝑙 ) (𝑆𝑦𝑖 ) < 𝑌𝑥 < 𝑌̂𝑖 + (𝑡𝛼⁄2;𝑔𝑙 ) (𝑆𝑦𝑖 )
33