Sie sind auf Seite 1von 45

Conceptos Básicos de Inferencia

Intervalos de confianza

Álvaro José Flórez


1 Escuelade Estadística
Facultad de Ingenierías

Febrero - Junio 2012


Inferencia Estadística
Cuando obtenemos una muestra, conocemos las respuestas de cada
uno de sus individuos. No obstante, en general, no tenemos suficiente
con la información de la muestra. Queremos inferir a partir de los
datos de la muestra algunas conclusiones sobre la población que esta
representa (Moore, 2005).
Inferencia Estadística
Cuando obtenemos una muestra, conocemos las respuestas de cada
uno de sus individuos. No obstante, en general, no tenemos suficiente
con la información de la muestra. Queremos inferir a partir de los
datos de la muestra algunas conclusiones sobre la población que esta
representa (Moore, 2005).
Inferencia Estadística

Definición:
Proceso inductivo que permite inferir acerca de una característica
de la población proposiciones, usando información obtenida de un
subconjunto o una muestra de la población.
Inferencia Estadística

Definición:
Proceso inductivo que permite inferir acerca de una característica
de la población proposiciones, usando información obtenida de un
subconjunto o una muestra de la población.

Ejemplo:
Una empresa productora está interesada en conocer el gasto promedio
semanal en alimentos de las familias de estrato socioeconómico bajo, con
el fin de diseñar una estrategia de mercado para promover la demanda en
el mercado.

En la ciudad hay una gran cantidad de familias de este perfil, y resulta casi
imposible saber el gasto de cada una de estas familias. Por lo cual, se hace
necesario el uso de una muestra representativa para lograr el objetivo de
estimar el parámetro poblacional (gasto promedio semanal de una familia
de estrato socioeconómico bajo)
Población

Se llama población objetivo al conjunto de elementos de interés en


un estudio, sobre los cuales se desea información y hacia los cuales
se extenderán las conclusiones. Esta población puede ser concreta
(estar delimitada e identificada, en el sentido de saber quiénes cuáles
son sus miembros) o puede ser hipotética.
• En un estudio de mercados se puede estar interesado en las
familias de estrato socieconómico bajo.
Población

Se llama población objetivo al conjunto de elementos de interés en


un estudio, sobre los cuales se desea información y hacia los cuales
se extenderán las conclusiones. Esta población puede ser concreta
(estar delimitada e identificada, en el sentido de saber quiénes cuáles
son sus miembros) o puede ser hipotética.
• En un estudio de mercados se puede estar interesado en las
familias de estrato socieconómico bajo.
• En un estudio social se puede estar interesado en las personas
que están desempleadas en la ciudad.
Población

Se llama población objetivo al conjunto de elementos de interés en


un estudio, sobre los cuales se desea información y hacia los cuales
se extenderán las conclusiones. Esta población puede ser concreta
(estar delimitada e identificada, en el sentido de saber quiénes cuáles
son sus miembros) o puede ser hipotética.
• En un estudio de mercados se puede estar interesado en las
familias de estrato socieconómico bajo.
• En un estudio social se puede estar interesado en las personas
que están desempleadas en la ciudad.
• En un estudio de calidad se puede estar interesado en los
elementos producidos por una maquina.
Muestra Aleatoria

Una muestra es un subconjunto representativo de elementos obteni-


dos de la población de interés.

¿Qué hace a una muestra representativa de la población?


Muestra Aleatoria

Una muestra es un subconjunto representativo de elementos obteni-


dos de la población de interés.

¿Qué hace a una muestra representativa de la población?

La muestra debe conservar la estructura de las características y las rela-


ciones que se quieren observar, que los alejamientos se deban solamente a
la acción del azar (aleatoriedad )

el mecanismo de selección debe ser tal que se conozca la probabilidad


que tiene cada unidad de la población de ser incluida en la muestra

Si una muestra no es aleatoria se puede estar tentado a elegir una muestra


seleccionando los miembros más convenientes de la población, lo que puede
llevar a una falsa idea sobre el valor del parámetro o una inadecuada toma
de decisiones (Sesgo, sobre-estimación o sub-estimación del parámetro)
Muestra Aleatoria

Una muestra es un subconjunto representativo de elementos obteni-


dos de la población de interés.

¿Qué hace a una muestra representativa de la población?

El tamaño también influye en la representatividad de la muestra, aunque


este no está relacionado directamente con el tamaño de la población

El grado de homogeneidad, es decir la variabilidad de la característica de


interés, toma un papel importante en la definición del tamaño de muestra.
El criterio que define si una muestra de un tamaño determinado, puede
considerarse como representativa, tiene relación también con el nivel de
precisión requerido.
Algunas otras definiciones

Variable:
Característica de interés medible sobre cada elemento de la población.

Parámetro:
Valor numérico constante que resume la característica de interés de toda
población (µ, σ 2 )

Estadístico:
Valor numérico que resume la característica de interés en una
muestra(X̄, S 2 )

En general, una estadística es una función de los datos de la muestra. En


caso de que se usen para hacerse idea (estimar) de los parámetros de una
población estos reciben el nombre de Estimadores
Estimación Puntual de un parámetro

Ejemplo:
Para estimar el gasto promedio semanal en alimentos de familias de
estratos bajos, se tomó una muestra aleatoria de tamaño 10 y los
resultados (en miles de pesos) fueron: 70, 45, 50, 48, 40, 55, 66, 44,
65. Por lo cual el promedio muestral (x̄ = $53,666) es un estimador
de la media teórica (µ)
Estimación Puntual de un parámetro

Ejemplo:
Para estimar el gasto promedio semanal en alimentos de familias de
estratos bajos, se tomó una muestra aleatoria de tamaño 10 y los
resultados (en miles de pesos) fueron: 70, 45, 50, 48, 40, 55, 66, 44,
65. Por lo cual el promedio muestral (x̄ = $53,666) es un estimador
de la media teórica (µ)

Si:
• El valor calculado de x̄ dificilmente nos da el valor exacto de µ
• El valor de x̄ cambia cuando se toma otra muestra aleatoria

¿ Podemos estar seguros de que x̄ me proporciona


estimaciones confiables de la media poblacional ?
Estimación Puntual de un parámetro
Simulación:
Suponga que el gasto promedio semanal de las familias (µ) es de
$60.000 y se toman 100 muestras aleatorias diferentes de tamaño 10
y se observa su x̄


70

Parámetro


Estimación

● ●
65

● ● ●





● ●

● ●
● ●

Estimación

● ●
● ●
● ●

● ●
● ●
● ● ● ●
● ● ● ●●
● ● ●

60

● ● ●
● ●
●● ● ● ● ● ● ●
● ● ●
● ● ● ●
● ● ●
● ● ● ● ●

● ● ●


● ●
● ● ● ● ●




55


● ● ● ● ●


0 20 40 60 80 100

# Muestra
Estimación Puntual de un parámetro
Simulación:
Suponga que el gasto promedio semanal de las familias (µ) es de
$60.000 y se toman 100 muestras aleatorias diferentes de tamaño 10
y se observa su x̄ 30
25
20
frecuencia

15
10
5
0

50 55 60 65 70

Promedio de cada muestra


Propiedades de un estimador

Puesto que cualquier estadístico puede ser usada para la estimación


de un parámetro, es necesario que verificar que el estimador cumpla
con unas propiedades para que pueda ser catalogado como un buen
estimador. Algunas de estas son:
X Insesgamiento.
X Eficiencia.
X Consistencia.
Propiedades de un estimador
Se desea que los valores que toma el estimador (T) en promedio sean
cercanos al parámetro (θ). Se debe cumplir que E(T ) = θ (la esperanza
de una variable aleatoria puede ser vista como un promedio de todos los
valores que toma la variable) (Propiedad de insesgamiento)

Fig: Estimaciones de un estimador insesgado


75

Parámetro
Prom. Estimaciones

Estimación
70


● ● ●
65


● ● ●
● ● ●
● ● ●
● ●
● ● ●
Estimación

● ●
● ●

● ●
● ●● ● ● ●
● ●
● ●
● ●
60

●● ● ● ●
● ● ● ● ● ● ●
● ● ● ● ●
● ● ● ●
● ● ●● ●
● ● ● ● ● ● ●
● ● ● ●
● ● ● ● ● ●
● ● ●


● ●

55

● ●

● ●
● ●



50
45

0 20 40 60 80 100

# Muestra
Propiedades de un estimador
Se desea que los valores que toma el estimador (T) en promedio sean
cercanos al parámetro (θ). Se debe cumplir que E(T ) = θ (la esperanza
de una variable aleatoria puede ser vista como un promedio de todos los
valores que toma la variable) (Propiedad de insesgamiento)

Fig: Estimaciones de un estimador sesgado


75

Parámetro
Prom. Estimaciones

Estimación
70
65
Estimación


●●
60

● ●


● ● ●
● ● ●
● ● ●
● ● ● ●
● ●
● ● ●
● ●
● ● ● ●
● ● ● ●

55

● ● ● ● ● ●
● ● ● ●
● ● ● ●
● ●● ● ● ●● ● ● ●
● ● ●
● ● ●
● ●
● ● ●
● ● ● ●
● ● ● ●
● ●
● ● ●
● ● ●

● ●●

50


● ●

● ● ●
45

0 20 40 60 80 100

# Muestra
Propiedades de un estimador
También se quiere que el estimador tenga una variabilidad alrededor de
la media lo más pequeño posible (Varianza Mínima). Se dice que un
estimador T1 es más eficiente que T2 si: Var(T1 ) < Var(T2 )

Fig: Comparación de los resultados de dos estimadores


80
70


Estimacion

60
50
40

T1 T2

Estimador
Estimación Puntual de un parámetro
Si el valor que adquiere un estimador es el resultado de un experi-
mento aleatorio (una muestra aleatoria), el estimador se considera
como una variable aleatoria y debe tener una distribución asociada.
La distribución de probabilidad de un estimador recibe el nombre de
distribución muestral.

Fig: Simulación del promedio de 10000 muestras


1400
1200
1000
800
frecuencia

600
400
200
0

50 55 60 65 70

Promedio de cada muestra


Distribución de la media muestral

Suponga que se toma una muestra aleatoria de tamaño n de una


población normal con media µ y varianza σ 2 (conocida). Cada ob-
servación xi , i = 1, . . . , n de la muestra tiene entonces la misma
distribución normal que la población que está siendo muestrada. De
aquí que:
x1 + x2 + . . . + xn
X̄ =
n
Tiene una distribución aproximadamente normal con media igual a
µ y una varianza de σ 2 /n

σ2
 
X̄ ∼ Normal µ,
n
Ejemplo
Una fabrica embotelladora de jugos emplea una maquina para enva-
sarlo, la cual llena las botellas automáticamente con 16 onzas. Sin
embargo, la cantidad de líquido que se vierte en cada botella puede
diferir. El fabricante garantiza que la cantidad de líquido que se vierte
en cada botella se aproxima a una distribución normal con media 16
onzas y una desviación estándar de 1 onza.

¿Cuál es la probabilidad de que una botella sea llenada con menos


de 15.5 onzas?
Ejemplo
Una fabrica embotelladora de jugos emplea una maquina para enva-
sarlo, la cual llena las botellas automáticamente con 16 onzas. Sin
embargo, la cantidad de líquido que se vierte en cada botella puede
diferir. El fabricante garantiza que la cantidad de líquido que se vierte
en cada botella se aproxima a una distribución normal con media 16
onzas y una desviación estándar de 1 onza.

¿Cuál es la probabilidad de que una botella sea llenada con menos


de 15.5 onzas?

Si luego de tomar una muestra aleatoria de 10 botellas se encuentra


que el promedio es inferior a 15.5 onzas ¿Usted dudaría de lo que el
fabricante le está afirmando?
Ejemplo
Una fabrica embotelladora de jugos emplea una maquina para enva-
sarlo, la cual llena las botellas automáticamente con 16 onzas. Sin
embargo, la cantidad de líquido que se vierte en cada botella puede
diferir. El fabricante garantiza que la cantidad de líquido que se vierte
en cada botella se aproxima a una distribución normal con media 16
onzas y una desviación estándar de 1 onza.

¿Cuál es la probabilidad de que una botella sea llenada con menos


de 15.5 onzas?

Si luego de tomar una muestra aleatoria de 10 botellas se encuentra


que el promedio es inferior a 15.5 onzas ¿Usted dudaría de lo que el
fabricante le está afirmando?
¿Y si la muestra es de 30 botellas?
Ejemplo
Una fabrica embotelladora de jugos emplea una maquina para enva-
sarlo, la cual llena las botellas automáticamente con 16 onzas. Sin
embargo, la cantidad de líquido que se vierte en cada botella puede
diferir. El fabricante garantiza que la cantidad de líquido que se vierte
en cada botella se aproxima a una distribución normal con media 16
onzas y una desviación estándar de 1 onza.

¿Cuál es la probabilidad de que una botella sea llenada con menos


de 15.5 onzas?

Si luego de tomar una muestra aleatoria de 10 botellas se encuentra


que el promedio es inferior a 15.5 onzas ¿Usted dudaría de lo que el
fabricante le está afirmando?
¿Y si la muestra es de 30 botellas?

¿Que puedo hacer si la distribución de los datos no es normal?


Teorema Central del Límite

La suma de un gran numero de variables aleatorias independientes


tiende a seguir de manera asintótica una distribución normal,
siempre que determinadas condiciones queden satisfechas
Teorema Central del Límite

La suma de un gran numero de variables aleatorias independientes


tiende a seguir de manera asintótica una distribución normal,
siempre que determinadas condiciones queden satisfechas

Importancia:
La normalidad es fundamental en los procedimientos inferenciales
como son las estimaciones por intervalos de confianza, pruebas de
hipótesis, pronósticos, entre otros procedimientos.

Uso de la normal como distribución de los errores aleatorios de me-


dición. El error de medición esta compuesto de muchos errores pe-
queños no observables que pueden considerarse aditivos
Teorema Central del Límite

Sea X1 , X2 , Xn una sucesión de variables aleatorias independientes


e igualmente distribuidas con media µ y varianza σ 2 < ∞. Sea:
n
X Xj
X̄ =
n
j=1

Entonces, la sucesión de variables X̄1 , X̄2 , . . . converge en distribu-


ción a una variable aleatoria con una distribución normal (cuando n
es suficientemente grande) . Esto es,

σ2
 
d
X̄n → N ormal µ,
n
Ejemplo

Cierto fabricante de bombillos asegura que su producto tiene una


vida media de 800 horas con una desviación estándar de 150 horas.
Un distribuidor esta dispuesto a representar su producto si al efectuar
una prueba con 40 focos la duración media es superior a 750 horas.

Que probabilidad tiene el fabricante de cerrar el negocio si:


• Realmente la producción de bombillos tiene los parámetros
declarados.
• La verdadera duración media es de 700 horas con la misma
desviación estándar.
• La verdadera desviación estándar es de 300 horas (media igual,
800).
Intervalo de Confianza
Se puede hacer una estimación puntual de µ . . . pero no hay razón
para esperar que esta estimación proveniente de una muestra sea
exactamente igual al parámetro poblacional que se supone estima
(diferentes muestras arrojan diferentes resultados). En el caso que se
quiera estimar µ por medio de x̄:

70

Parámetro


Estimación

● ●
65

● ● ●





● ●

● ●
● ●

Estimación

● ●
● ●
● ●

● ●
● ●
● ● ● ●
● ● ● ●●
● ● ●

60

● ● ●
● ●
●● ● ● ● ● ● ●
● ● ●
● ● ● ●
● ● ●
● ● ● ● ●

● ● ●


● ●
● ● ● ● ●




55


● ● ● ● ●


0 20 40 60 80 100

# Muestra
Intervalo de Confianza
Una estimación por intervalos para un parámetro poblacional es lla-
mada un intervalo de confianza. No podemos estar seguros que el
intervalo contiene al verdadero valor del parámetro poblacional des-
conocido. Sin embargo, el intervalo de confianza es construido de
forma que se tenga una alta confianza (probabilidad) de que el in-
tervalo contenga el parámetro poblacional (?).
Intervalo de Confianza
Una estimación por intervalos para un parámetro poblacional es lla-
mada un intervalo de confianza. No podemos estar seguros que el
intervalo contiene al verdadero valor del parámetro poblacional des-
conocido. Sin embargo, el intervalo de confianza es construido de
forma que se tenga una alta confianza (probabilidad) de que el in-
tervalo contenga el parámetro poblacional (?).

Definición: Dada una muestra aleatoria X1 , . . . , Xn con función de


densidad f (xi , θ), un intervalo de confianza de (1 − α) × 100 % para
un parámetro θ es un intervalo aleatorio (T1 , T2 ) con Pr(T1 < θ <
T2 ) = 1 − α.

Para la estimación de µ el intervalo de confianza estará determinado


como:
x̄ ± Error de estimación
Intervalo de Confianza para µ

Si se tiene una muestra aleatoria x1 , . . . , xn proveniente de una distribución


normal con media µ desconocida y σ 2 conocida (o de cualquier distribución
de probabilidad con un n suficientemente grande). Entonces, x̄ se distribuye
normalmente con media µ y varianza σ 2 /n. Además se tiene que:
x̄ − µ
Z= √ ∼ Normal(0, 1)
σ/ n
Intervalo de Confianza para µ

Si se tiene una muestra aleatoria x1 , . . . , xn proveniente de una distribución


normal con media µ desconocida y σ 2 conocida (o de cualquier distribución
de probabilidad con un n suficientemente grande). Entonces, x̄ se distribuye
normalmente con media µ y varianza σ 2 /n. Además se tiene que:
x̄ − µ
Z= √ ∼ Normal(0, 1)
σ/ n
Un intervalo de confianza para µ es un intervalo de la forma LI ≤ µ ≤ LS,
donde LS y LI son calculados a partir de la muestra (Variables aleato-
rias). Estos valores se determinan de tal forma que se cumpla la siguiente
condición:

P (LI ≤ µ ≤ LS) = 1 − α
Donde 0 ≤ α ≤ 1. Lo que indica que hay una probabilidad de 1 − α de
que para la muestra seleccionada el intervalo de confianza contenga a µ
Intervalo de Confianza para µ

Dado que:

x̄ − µ
Z= √ ∼ Normal(0, 1)
σ/ n

Entonces:
 
x̄ − µ Prob = α/2 Prob = α/2
P zα/2 ≤ √ ≤ z1−α/2 = 1−α
σ/ n
Z(α/2) 0 Z( 1 − α/2)

Los valores de LS y LI se encuentran al despejar µ en la desigualdad.


Intervalo de Confianza para µ

Si x̄ es la media muestral de una muestra aleatoria de tamaño n


proveniente de una población normal (o de cualquier distribución si
n es suficientemente grande) con varianza σ 2 conocida, entonces el
intervalo del (1 − α) × 100 % para µ está dado por:
σ σ
x̄ + zα/2 √ ≤ µ ≤ x̄ + z1−α/2 √
n n
Intervalo de Confianza para µ

Si x̄ es la media muestral de una muestra aleatoria de tamaño n


proveniente de una población normal (o de cualquier distribución si
n es suficientemente grande) con varianza σ 2 conocida, entonces el
intervalo del (1 − α) × 100 % para µ está dado por:
σ σ
x̄ + zα/2 √ ≤ µ ≤ x̄ + z1−α/2 √
n n

• Se tiene probabilidad (1 − α) de seleccionar una muestra aleatoria


que produzca un intervalo que contenga µ.
• A mayor nivel confianza mayor seguridad de que el intervalo dado
contiene a µ.
Ejemplo

Un fabricante produce pistones para motores de vehículos. Por es-


pecificaciones del fabricante se sabe el diámetro de los pistones está
normalmente distribuido con σ = 0,01mm. Para realizar un control
de calidad sobre el producto se decide observar una muestra alea-
toria de 15 pistones y se encontró que el promedio del diámetro de
76,03mm.

• Construir un intervalo del 99 % de confianza para la media del


diámetro de los pistones.
• Construir un intervalo del 95 % de confianza para la media del
diámetro de los pistones.
Ejemplo

Un fabricante produce pistones para motores de vehículos. Por es-


pecificaciones del fabricante se sabe el diámetro de los pistones está
normalmente distribuido con σ = 0,01mm. Para realizar un control
de calidad sobre el producto se decide observar una muestra alea-
toria de 15 pistones y se encontró que el promedio del diámetro de
76,03mm.

Para el caso del 99 % el intervalo queda de la siguiente forma:

(76.02335; 76.03665 )

Lo que nos indica que con un 99 % de confianza se puede concluir


que el diámetro medio de los pistones está entre 76.02335mm y
76.03665mm
Intervalo de Confianza para µ

Fig: Simulación de 50 intervalos del 95 % confianza para µ

intervalo de confianza

0 10 20 30 40 50

Muestra

Si se toman muchas muestras de la misma población, todas del


mismo tamaño, y construimos un intervalo para cada uno, se puede afir-
mar que el (1 − α) × 100 % de los intervalos así construidos contendrán el
verdadero valor del parámetro.
Comportamiento de los intervalos de
confianza

Para estimar µ:
σ
x̄ ± z1−α/2 √
n

Estimación ± Error de estimación

Es deseable tener un nivel de confianza alto y un error de estimación


pequeño. El último se hace pequeño cuando:
• El nivel de confianza (1 − α) se hace pequeño.
• La variabilidad entre los elementos de la población es pequeña.
(σ es pequeño).
• Se incrementa el tamaño de muestra.
Comportamiento de los intervalos de
confianza
Para estimar µ:
σ
x̄ ± z1−α/2 √
n

Estimación ± Error de estimación

Este procedimiento es correcto sólo en circunstancias concretas:


• Los datos deben proceder de una muestra aleatoria.
• La población de los datos debe ser normal.
• Si la población no es normal, el tamaño de la muestra debe ser
grande (teorema central del límite).
• Se tiene que tener conocimiento de la desviación estándar.
Ejemplo

Una compañía constructora resuelve estudiar la resistencia a la com-


presión de una mezcla de concreto, con el objetivo de hacer control
de calidad. Para ello se tomaron 18 cilindros de prueba de acuerdo
con las normas establecidas. Se encontró en la muestra que luego
de 28 días de curado que x̄ = 280kg/cm2 y según la compañía la
desviación estándar del proceso es de 20 kg/cm2 .

Construir un intervalo de confianza del 90 % y del 96 % para el


valor real de la resistencia a la compresión de la mezcla de concreto.
Bibliografía

Canavos, G. (1988). Probabilidad y Estadística: Aplicaciones y mé-


todos. Mc Graw Hill, México, vol. 1 edition.
Devore, J. L. (2008). Probabilidad y estadística para ingeniería y
ciencias. Thomson Paraninfo, México, vol. 7 edition.
Gutierrez, A. and Zhang, H. (2010). Teoría Estadística: Aplicaciones
y Métodos. Universidad Santo Tomás, Bogotá,Colombia, vol. 1
edition.
Mayorga, J. H. (2004). Inferencia Estadística. Universidad Nacional
de Colombia, Bogotá,Colombia, vol. 1 edition.
Moore, D. S. (2005). Estadística aplicada básica. Antoni Bosch
Editor, Barcelona, España, vol. 2 edition.

Das könnte Ihnen auch gefallen