Beruflich Dokumente
Kultur Dokumente
y un evento de inters es
Ahora si
positivos
correspondientes a sus
interesados en la distancia
aleatoria de inters es
en
se puede asignar un
despues de horas.
En ambos ejemplos estamos interesados no en la ocurrencia de un elemento
espacio muestral
Frecuentemente el resultado
del
1.1.1Definicin
Sea
elemento
un nmero real
Suponiendo que
aleatoria)
?.
Todos los subconjuntos de un solo punto y todos los intervalos (cerrados, abiertos, o
semicerrados) son eventos. Tambin uniones, diferencias e intersecciones de intervalos.
Cal es la
La
es la llamada
. Esta
lgebra de Borel
y es denotada por
Nota 2.
asignado por
, ,U,V,W, etc. El
Ejemplo 1
Nmero de hijos en una familia, nmero de cuartos en una casa, el ingreso de una
familia, el tiempo de duracin de una pieza de un equipo, el nmero de errores en un
pgina de un libro, la corriente elctrica que pasa por un punto dado.
Ejemplo 2
. Se
como:
un nmero real
como se
2
3
4
5
6
entonces
Ejemplo 3
Un dado es lanzado dos veces, entonces
Algunas variables aleatorias que se podran definir son:
El rango o los valores que toman las anteriores variables son respectivamente:
un espacio muestral y
proyecta
en
la
conjunto de Borel en
de todo
de todo conjunto de
Teorema
es una variable aleatoria si y solo si para cada
Ejemplo 1
Sea el experimento: lanzar una moneda, entonces el espacio muestral es
sea
lgebra
de
todos
los
subconjuntos
de
como
y
dada
por
Entonces
luego para
lgebra
la imgen inversa
es siempre un conjunto de la
Ejemplo 2
Sea el experimento: lanzar dos monedas, entonces el espacio muestral es
y sea
la variable aleatoria
. Defina
como
nmero de caras
en
Entonces
luego para
lgebra
la imgen inversa
es siempre un conjunto de la
Ejercicios
1. Sea
el valor
d. Chequear si
Ejemplo
Sea el nmero de caras al lanzar dos monedas. Los valores que asigna son
el cual es un conjunto contable (finito).
Funcin de Probabilidad
Sea una variable discreta. La coleccin de nmeros
propiedades:
Ejemplo de 2 dados
Se realiza el siguiente experimento: se lanzan dos dados, uno rojo y otro azul.
El espacio muestral para este experimento es:
En una funcin de probabilidad sobre una sigma lgebra asociada al espacio muestral
es dada por:
:
donde
es definida como
Explicacin: Esta es una de las maneras de definir una funcin de probabilidad sobre la
sigma lgebra. En este caso debido a que el espacio muestral es finito, se define la
funcin de probabilidad para cada elemento de
como:
El valor
y la letra
, cuya
sea menor
Esto es,
Ejemplo
de la
es determinada as:
cuando
es
Mas ejemplos
EJEMPLOS 1
Se extraen dos pelotas de una urna que contiene 4 pelotas rojas
R y 3 blancas (B).
que cuenta el
Solucin.
Los elementos del espacio muestral en este experimento son:
es dada por:
1
2
0
son:
El evento
B,B
R,B
B,B
R,B
B,B
B,B
B,B
es equivalente al evento
y por ser
luego
Por tanto
B,B ,
Una manera ms sencilla de obtener el resultado anterior es conociendo que en este caso
la variable aleatoria se distribuye binomial , en donde
y as:
haciendo
un
razonamiento
similar
al
de
0
1
2
El grfico de esta funcin de probabilidad aparece en la figura.
como:
se
obtiene
que
0
1
2
2. El espacio muestral de un experimento aleatorio es
,y
cada resultado es igualmente probable. Se define una variable aleatoria de la siguiente
manera
b
c
1.5
d
e
es
Ejercicio 1
Verifique que la siguiente funcin es funcin de probabilidad y calcule las
probabilidades pedidas.
x
-2 -1 0 1 2
f(x)
1.
2.
3.
4.
P( X/2)
P( X>-2)
P( -1/X/1)
P( X/-1/text o X=2)
Ejercicio 2
2. Cul es el valor de
3. Cul es el valor de
Ejercicio 3
Un ingeniero de control de calidad muestrea cinco piezas de un lote grande de
percutores fabricados y determina si tiene defectos. Aunque el inspector no lo sabe, tres
de los cinco percutores muestreados tiene defectos. El ingeniero prueba los cinco
percutores en un orden escogido al azar hasta que observa un percutor defectuoso (en
cuyo caso se rechazar todo el lote). Sea Y el nmero de percutores que debe probar el
ingeniero de control de calidad. Calcule y grafique la distribucin de probabilidad de Y.
Sea
La funcin de densidad
tal que
Sea
integrable sobre
y satisface:
. Toda funcin
que es
Este teorema nos sirve para determinar cuando una funcin integrable sobre
funcin de densidad de alguna variable aleatoria continua
es una
Ejemplo
Sea
dada por
para todo
como se
Sea el evento A=
sobre
, denotada por
Ejemplo
por
cuando
es
y el grfico
es dado
Sea el evento A=
Teorema
Sea
lm
lm
F es continua a la
y lm
Ejemplo
Sea
una variable aleatoria con funcin de distribucin acumulada dada por (Figura 3)
Diferenciando
La funcin
no es continua en
, o en
Mas ejemplos
Ejemplo 1
, que tiene la
Ejercicio 1
El nmero total de horas, medidas en unidades de 100 horas, que una familia utiliza una
aspiradora en un periodo de un ao es una variable aleatoria continua
funcin de densidad
que tiene la
a. Calcule el valor de .
b. Obtenga la funcin de distribucin acumulativa
c. Calcule
d. Calcule
Ejercicio
de
o el valor esperado
por
. Si
o el valor esperado de
por
Mas ejemplos
Ejemplo 1
Un jugador tiene tres oportunidades de lanzar una moneda normal y obtener cara, si cae
cara la 1ra vez el jugador gana $2, si cae cara la 2da vez gana $4 y si cae cara en la 3ra
vez gana $8, el juego termina en el momento en que cae una cara o despus de tres
intentos. Si no cae cara en los tres lanzamientos pierde $20.
Cul es la esperanza de ganancia o perdida en el juego?
La probabilidad de que en la 1ra ocasin salga cara es
La probabilidad de que en la 2ra ocasin salga cara es
La probabilidad de que en la 3ra ocasin salga cara es
La probabilidad de que no salga ninguna cara en los tres lanzamientos es
As, el jugador esperar ganar luego de muchos juegos $0.5. Cabe notar que 50 centavos
no es ninguno de los posibles valores de la variable aleatoria, as, es completamente
posible que una variable aleatoria nunca tome el valor de su esperanza.
Ejemplo 2
Suponga que el nmero de autos que pasa por un lavado de autos entre 4:00 p.m. y
5:00 pm en cualquier viernes soleado tiene la siguiente distribucin de probabilidad:
Sea
la cantidad de dinero en dlares, que el administrador paga al
dependiente. Encuentre las ganancias esperadas del dependiente en este periodo
particular.
Solucin:
Ejemplo 3
Ejercicios
Ejercicio 1
Cul es el valor de
Cul es el valor de
Cul es el valor de
es el conjunto
f(y)=
Demuestre que
Calcule la media de la distribucin de friccin triangular.
Calcule la varianza de la distribucin de friccin triangular.
X UD(
Definicin
Es la ms simple de todas las distribuciones modelo y en ella la variable aleatoria asume cada
uno de los valores con una probabilidad idntica.
O sea que el parmetro clave en esta distribucin es =nmero de valores que asume la
variable aleatoria X y que sera un parmetro de conto.
As por ejemplo cuando se lanza un dado correcto, cada una de las seis caras posibles
conforman el espacio muestral:
La v.a X: nmero de
puntos en la cara superior del dado tiene una distribucin de probabilidad Uniforme
discreta, puesto que:
=
para
en otro caso.
Varianza (
Para el caso del lanzamiento del dado: el valor esperado y la varianza del nmero de
puntos en la cara superior son:
Ejercicio
Definicin
Es una distribucin de probabilidad conjunta para mltiples variables aleatorias (
discretas donde cada
, dndose cuando en cada prueba
ensayo independiente (con reposicin) del E.A. interesa contar el nmero de exitos en
cada una de la k maneras como se puede dar un atributo.
Ejemplo
El atributo calidad de un producto se puede dar como: Excelente, bueno, regular y malo.
icas:
1. Son
permanecen
En pruebas independientes.
y donde:
ocurrir con
de probabilidad.
Con
Ejemplo
Se sabe que las bombas de gasolina para autos existentes en el mercado se pueden
clasificar en:
de rendimiento excelente
de rendimiento bueno
.
.
de rendimiento regular
de rendimiento malo
Se selecciona una muestra de
.
.
bombas mediante proceso aleatorio. Cal sera la
Ejercicio
(Walpole, pag 123)
Un estudiante que va a la universidad en carro encuentra un semforo, el cual
permanece en verde durante 35 segundos, en amarillo 5 segundos y en rojo 60
segundos. Su viaje a la universidad es entre 8:00 y 8:30 AM en la semana de 6 dias
hbiles. Sea
amarilla y
en luz
.
respectivamente
xito
.
Una variable aleatoria de Bernoulli, por s sola, tiene poco inters en las aplicaciones de
ingeniera. En cambio la realizacin de una serie de experimentos bernhoulli conduce a
varias distribuciones de probabilidad discretas muy tiles.
La funcin de probabilidad de una variable bernoulli es dada por
donde
es la probabilidad de xito en una sola prueba.
es el nmero de xitos en la prueba.
El parmetro es
Media y Varianza
La media y varianza de una variable aleatoria bernoulli son respectivamente
Ejemplo
El experimento de seleccionar un producto y observar si tiene defectos o no.
Aqui se puede definir ser defectuoso como el xito y no ser defectuoso como el fracaso.
Definicin
ensayos.
Para
entero y
Planteamiento Bsico
Supongamos un proceso productivo en serie de una misma unidad metalmecnica y en
l que: Probabilidad de una unidad defectuosa :
defectuosa:
y probabilidad de unidad no
Supongamos que el inters est en evaluar el proceso mediante una muestra aleatoria de
4 unidades y por tanto se define la v.a X como el nmero de unidades defectuosas en la
muestra. Para garantizar que los ensayos resulten independientes hacemos la seleccin
con reemplazamiento o sustitucin.
esta conformado
.....
Se puede entonces notar que los eventos favorables a
constiuyen el subconjunto
o sea:
para cada posible resultado de una unidad defectuosa
Como son cuatro resultados los que satisfacen el inters especfico de una unidad
defectuosa entonces
Si generalizamos:
donde:
ensayos;
aplicando la definicin
Asimetria deformacon (Forma): con base en la razn entre los momentos centrales
de orden dos y tres como quedo definido antes:
(por lo tanto
tienda a
(# de pruebas) y en la medida
), limite en el cual se torna
Total
; tambien
;
Ejemplo
Una empresa adopt un proceso de control ded calidad consistente en diariamente
seleccionar al azar 20 unidadeds del total producido y conocer el nmero de unidades
defectuosas. El plan establece que si al examinar diariamente las veinte unidades, tres mas
salen defectuosas, algo esta pasando y se ordena detener el proceso productivo para buscar la
falla. Cal es la probabilidad de que se ordene parar el proceso productivo si se sabe por
experiencia que la probabilidad de una unidad defectuosa es 10%?
Se pide:
La solucin ms corta para este planteamiento sera entonces:
o sea
que sera la probabilidad de que cualquier dia se ordene parar el proceso de produccin
segn el planteamiento de control del mismo.
Si consideramos las caractersticas, tenemos:
Valor esperado
unidades defectuosas.
Varianza
Valores que como es lgico tambien pueden ser hallados por el mtodo tradicional.
Si se hace la grafica para determinar la forma (aunque se deduce que como
ser sesgada a la derecha). Veremos sin embargo que dado
como en el caso del otro ejemplo tratado aqui.
Si se hace crecer
, no es tan sesgada
pero si alejado de
La A con
de
ya planteado.
Definicin
Muchas veces en la prctica es difcil realizar pruebas con reposicin
reemplazamiento. Por ejemplo, si en el control de calidad se pierde el elemento que se
prueba, pues no se puede hacer reposicin directamente. Se planta entonces la prueba
sin reposicin, donde los elementos de la muestra se toman todos a la vez y no
individualmente donde el elemento seleccionado no se reintegra al experimento a la
muestra nuevamente.
La diferencia mas simple con la binomial es la forma de aplicar el muestreo. En efecto,
en:
: Muestreo con reemplazamiento e independencia de pruebas ensayos.
: Muestreo sin reemplazamiento y sin independeencia entre pruebas
ensayos.
Sus aplicaciones estan en areas con uso considerable de muestreo de aceptacin,
pruebas electronicas y de aseguramiento de la calidad, fabricacin de piezas, etc.
Definicin
En la distribucin Hipergeomtrica
aleatoria (sin reposicin) de tamao
y de la
cual
satisface una caracteristica propiedad (xito) antes del muestreo y
satisface (fracaso).
no la
son "fracasos".
resultados
de
formas
productos,
de ellos ser:
entonces
productos no defectuosos
entre
de ellos.
, no se aplica el
Ejemplo
En una empresa industrial diariamente se producen 90 unidades de unidad
metalmecnica, de las cuales generalmente 5 salen defectuosas. Se examina en un dia
cualquiera una muestra de 5 unidades. Hallar la probabilidad de unidades defectuosas.
para
Que simplificadamente:
Varianza:
tambien.
pues
Introduccin
Llamada asi por su autor Simon Denis Poisson, probabilista del siglo XIX, pues fue el
primero en describirla. Es una generalizacin de la distribucin binomial cuando sobre
un
. se define una variable aleatoria que representa el nmero de xitos
independientes que ocurren para intervalos de medida especficos ( tiempos, lugares,
espacios) , ademas con una probabilidad de ocurrencia pequea.
Se le llama distribucin de los "eventos raros" pues se usa como aproximacin a la
binomial cuando el tamao de muestra es grande y la proporcin de xitos es pequea.
Esos intervalos de medida pueden referirse a: Tiempo: (Segundo , minuto, hora, dia,
semana, etc.) Area: (Segmento de linea, pulgada cuadrada, Centimetro cuadrado, etc).
Volumen:( Litro, galn, onza, etc.)
Ejemplo
Criterios propiedades
1. Se da un intervalo de medida que divide un todo de nmeros reales y donde el
conto de ocurrencias es aleatorio. Esa divisin puede ser un subintervalo de
medida.
2. El nmero de ocurrencias de resultados en el intervalo subintervalo de
medida, es independiente de los dems intervalos subintervalos. por eso se
dice que el proceso de Poisson no tiene memoria.
3. La probabilidad de que un solo resultado ocurra en un intervalo de medida muy
corto pequeo es la misma para todos los dems intervalos de igual tamao y
es proporcional a la longitud del mismo al tamao de medida.
4. La probabilidad de que ms de un resultado ocurra en un intervalo
subintervalo corto es tan pequea que se considera insignificante (cercana
igual a cero).
Procesos que se ajustan a estos criterios, se dice, son procesos de Poisson.
Definicin
Sea una variable aleatoria que representa el nmero de eventos aleatorios
independientes que ocurren con igual rapidez en un intervalo de medida. Se tiene
entonces que la funcin de probabilidad de esta variable, se expresa por:
Acudiendo a las tablas existentes para tal fn a los medios electrnicos, se llega a
construir la tabla de distribucin de probabilidades, dando:
Varianza:
Forma sesgo: Hacia la derecha con sesgo positivo y que se va perdiendo a medida
que crece. Veamos una grfica de funciones de probabilidad para diferentes valores de
Es de
que
Alternativa: Si se da la probabilidad de tener, de manera exacta, ocurrencias en un
intervalo veces mayor que el de refencia en la medicin entonces la distribucin de
probabilidades de Y nmero de xitos en la nueva unidad de referencia viene dada por
donde
y
Aqui
Ejemplo
El nmero de pulsos que llegan a un contador GEIGER se presentan en promedio de 6
pulsos por minuto. Hallar la probabilidad de que en 15 minutos se reciban exactamente
20 pulsos.
minutos.
El modelo matemtico
donde
es la constante matemtica aproximada por 2.71828
es la constante matemtica aproximada por 3.14159
Parmetros
es cualquier valor de la variable aleatoria continua, donde
As,
caso 2:
Cuando se mantiene la misma varianza, pero cambia la media.
Ejemplo: (
si
, y es cncava hacia arriba en cualquier otro punto.
4. La curva normal se aproxima al eje horizontal de manera asinttica conforme
nos alejamos de la media en cualquier direccin.
Haciendo una transformacin a la variable aleatoria normal
nuevo conjunto de observaciones de una variable aleatoria normal con media cero y
varianza 1. A dicha transformacin se le conoce como estadarizacin de la variable
aleatoria normal
Definicin
La distribucin de probabilidad de una variable aleatoria normal con media cero y
varianza 1 se llama distribucin normal estndar.
Funcin de Densidad
Normal (0,1)
Grfico 6.
En la distribucin normal estndar se sabe que las reas se distribuyen de la siguiente
manera:
Funcin de Densidad
Normal (0,1)
Manejo de tablas
La tabla anexa representa las probabilidades o reas bajo la curva normal calculadas
hasta los valores particulares de inters (Transformados). Al observar la tabla se
observa que todos los valores deben registrarse primero con hasta dos lugares
decimales. Por ejemplo, para leer el rea de probabilidad bajo la curva hasta
,
podemos recorrer hacia abajo la columna Z de la tabla hasta que ubiquemos el valor de
inters (en dcimas). As pues, nos detenemos en la fila
. A continuacin,
leemos esta fila hasta que intersecamos la columna que contiene el lugar de centsimas
del valor (
). Por tanto, en el cuerpo de la tabla, la probabilidad tabulada para
z=1.57 corresponde a la interseccin de la fila z=1.5 con la columna z=0.07 y es 0.9418.
normales,
3. Construir una grfica de probabilidad normal para los datos Si los datos son
aproximadamente normales, los puntos caern (aproximadamente) en una lnea
recta.
en el eje horizontal.
y varianza
cuando
Introduccin
Antes de introducir la variable exponencial puede mirarse un origen natural de sta a
partir de una variable aleatoria Poisson, la cual indica el nmero de veces que ocurre un
evento en una unidad de tiempo. Si se escribe la funcin de probabilidad Poisson de la
siguiente manera:
la probabilidad de que no ocurra algn evento, en el periodo hasta el tiempo est dada
por:
que mide el
Definicin
La variable aleatoria
Valor esperado:
Varianza:
Observaciones:
2. ESTADISTICA INFERENCIAL
1.1 DEFINICION DE TERMINOS
Parmetro: Es una medida estadstica (promedio, varianza, etc.) calculada con todos los
elementos de la poblacin. Generalmente se simbolizan con letras del alfabeto griego o con
letras maysculas.
Estimador: Es una medida estadstica (promedio, varianza, etc.) calculada con la
informacin suministrada por una muestra. Generalmente se simbolizan con la letra que
identifica al parmetro y un ^ encima que se lee estimado, o con letras minsculas de
nuestro alfabeto.
Estimacin: Es el valor numrico del estimador
Generalmente, en estadstica no es posible tomar toda la informacin, es decir, no se puede
hacer un censo, por lo tanto se debe tomar una muestra para analizarla y con base en la
informacin suministrada por la muestra generalizar el comportamiento de la poblacin. A
esta generalizacin o paso de lo particular a lo general se le llama inferencia estadstica .
En la estadstica es fundamental el proceso de inferencia, ya que se afirma algo acerca del
comportamiento de la poblacin a partir de una muestra.
Dentro del proceso de inferencia hay dos tipos de estimacin: estimacin puntual y
estimacin por intervalo.
1.2.1 ESTIMACION PUNTUAL . Si se toma una muestra aleatoria y con la informacin
suministrada por ella se obtiene un indicador cualquiera (promedio, desviacin estndar o
proporcin) es un estimador puntual del valor del parmetro. Es decir que un estimador
puntual es un solo valor que se supone nos representa adecuadamente el comportamiento
de una variable.
Un estimador puntual debe cumplir las siguientes condiciones mnimas para que sea
considerado un buen estimador. Estas condiciones o propiedades son: insesgado,
consistente, eficiente o de varianza mnima y suficiente.
Insesgado . Un estimador es insesgado si el valor promedio o esperanza matemtica del
estimador es igual al valor del parmetro.
Cuando un estimador es sesgado se puede introducir una correccin que elimine el sesgo.
Consistente . Un estimador es consistente, si a medida que aumenta el tamao de la
muestra, el valor del estimador se acerca al valor del parmetro.
Eficiente o de varianza mnima . Si se toman dos muestras aleatorias del mismo tamao
provenientes de la misma poblacin y si con cada una de estas muestras se obtiene un
estimador insesgado, es eficiente el que tenga menor varianza.
Suficiente . Un estimador es suficiente si para calcularlo se utiliza toda la informacin
suministrada por la muestra.
/n.
DISTRIBUCIONES MUESTRALES
De una poblacin de tamao N, se pueden sacar N combinado n muestras diferentes de
tamao n. Con cada una de estas muestras es posible obtener un estimador, ya sea la
media, proporcin, varianza, etc.. La distribucin de estos estimadores se conoce como
distribucin en el muestreo.
El conocer la distribucin en el muestreo de algunos de estos estimadores es til en el
desarrollo terico de los temas correspondientes a estimacin por intervalo y pruebas de
hiptesis. A continuacin se vern las distribuciones en el muestreo ms utilizadas.
, con s 2 conocida.
(1.6)
1.4.2.2 . Se selecciona una muestra aleatoria de tamao n > 30 de una poblacin con
distribucin diferente a la normal
(1.7)
(1.8)
Si se utiliza la varianza corregida:
(1.9)
(1.13)
y varianza
Si se multiplica por n/
se obtiene:
(1.1)
La expresin (1.1) es similar a:
(1.2)
que tiene distribucin chi-cuadrado con n grados de libertad. La nica diferencia es que en el
uno interviene la media muestral (x) y en el otro la media poblacional ( ). Por lo tanto, la
pregunta es si la expresin (1.1) tambin tiene distribucin chi-cuadrado con n grados de
libertad.
que tiene distribucin chi-cuadrado con n grados de libertad. La nica diferencia es que en el
uno interviene la media muestral (x) y en el otro la media poblacional ( ). Por lo tanto, la
pregunta es si la expresin (1.1) tambin tiene distribucin chi-cuadrado con n grados de
libertad.
Recordemos que una variable aleatoria con distribucin normal estndar, elevada al
cuadrado, tiene distribucion chi-cuadrado y sus grados de libertad dependen del nmero de
observaciones.
Si una variable aleatoria X tiene distribucin normal, N( ,
lmite:
(1.3)
Para hacer la demostracin partimos de la expresin (1.2), a la que se le resta y se le suma
la media muestral:
Despejando:
Por lo tanto,
(1.4)
Es decir que la sustitucin de la media poblacional por la media muestral reduce en 1 los
grados de libertad de la chi-cuadrado. Lo anterior nos indica que cada vez que se reemplaza
un parmetro por un estimador, se reduce en 1 los grados de libertad de la distribucin chicuadrado.
(1.5)
Lo anterior se debe a que la varianza corregida se define como:
En caso de ser iguales se trabaja con el 3 y si son diferentes se trabaja con el caso 4 de los
casos especiales.
1.4.3.1 . Si las muestras proceden de poblaciones con distribucin normal y las varianzas
poblacionales son conocidas :
(1.10)
1.4.3.2 . Si las muestras provienen de poblaciones no normales pero los tamaos de
muestra son grandes , es decir, n1 30 y n2 30, la distribucin de la diferencia de medias es
como en el caso anterior.
1.4.3.3 . Si las muestras provienen de poblaciones normales con varianzas poblacionales
iguales pero desconocidas y tamaos de muestra pequeos , es decir, n1 30 y n2 30. Como
se desconocen las varianzas poblacionales se debe obtener una expresin que elimine dichas
varianzas, y debido a que las muestras son pequeas se debe obtener una distribucin tStudent
Simplificando se obtiene:
(1.11)
1.4.3.4 . Si las muestras provienen de poblaciones normales con varianzas poblacionales
desconocidas pero diferentes y tamaos de muestra pequeos , es decir, n1 30 y n2 30:
(1.12)
Donde:
(1.14)
1.4.6 DISTRIBUCION DEL COCIENTE DE VARIANZAS De dos poblaciones con
distribucin normal y varianzas poblacionales
y
se toman dos muestras aleatorias
independientes de tamaos n1 y n2 .
Como se vi, en la distribucin de la varianza se llega a una distribucin chi-cuadrado y del
cociente de dos chi-cuadrado se obtiene una distribucin F de Snedecor.
(1.15)
Conocidas las distribuciones en el muestreo de los principales estimadores, se tiene la
fundamentacin terica que nos permite desarrollar el tema correspondiente a los intervalos
de confianza y las pruebas de hiptesis.
Donde:
1- = Se conoce como confiabilidad o nivel de confianza y generalmente est entre el 90 y
el 99%
= Nivel de significancia o mrgen de error, del 1 al 10%
Z1 y Z2 = son percentiles correspondientes a una distribucin de probabilidad, la cual
depende de la distribucin en el muestreo del estimador con el que se est trabajando. Los
valores de estos percentiles tambin dependen del nivel de confianza.
Grficamente, se hallan dos valores tales que el rea que hay entre Z1 y Z2 sea 1- y el rea
restante ( ) se divide en dos partes iguales, quedando /2 en la parte inferior y el otro /2
en la parte superior de la distribucin, tal como se observa en la figura 2.1. Por esta razn
de ahora en adelante
Z1 y Z2 se notarn como
En este caso, por las condiciones de la muestra se utiliza la distribucin normal estndar, por
lo tanto
distribucin normal,
es negativo y
es
(2.1)
Donde Z pertenece a una distribucin normal estndar.
Interpretando este intervalo se dir que el promedio poblacional estar entre:
) por ciento.
EJEMPLO
Un proceso manufacturero usado por una fbrica durante los ltimos 10 aos, tiene una
distribucin normal con desviacin estndar de 8 unidades por hora. Se desea estimar un
intervalo de confianza del 90 por ciento para el promedio de unidades por hora producido
con dicho proceso. Para tal efecto, se toma una muestra aleatoria de la produccin por hora
durante 25 horas y se obtiene un promedio de 160 unidades.
Solucin . Como la distribucin de la poblacin es normal y se conoce la desviacin estndar
poblacional, se utiliza la expresin 2.1 para calcular el intervalo de confianza.
El valor de Z se halla en una tabla de la distribucin normal. La confiabilidad es del 90 por
ciento, por lo tanto el nivel de significancia o a (0.1) se divide en dos y se deja a /2 en la
cola inferior y a /2 en la cola superior. En la figura 2.2, el rea que hay de - a Z es 0,95 y
para sta rea el valor de Z en la distribucin normal es 1,64
(2.2)
Donde Z pertenece a una distribucin normal estndar.
EJEMPLO
En un estudio elaborado acerca de la duracin de 51 bombillas de semforos en cierta
ciudad, se determin un promedio de duracin de 1.795 horas con una desviacin estndar
de 489 horas. Halle un intervalo con el 95 por ciento de confiabilidad para estimar la media
poblacional.
Solucin
Como el tamao de la muestra es mayor que 30, se utiliza la expresin 2.2 y para una
confiabilidad del 95 por ciento, el valor de Z en la distribucin normal es 1,96.
Reemplazando:
Interpretacin . Con una confiabilidad del 95 por ciento, la duracin promedio de las
bombillas de semforos de dicha ciudad, est entre 1.661 y 1.921 horas.
Interpretacin . El promedio de unidades por hora producidas en dicha fbrica est entre
157 y 163 con una confiabilidad del 90 por ciento.
2.2.3 . Intervalo de confianza para la media si se selecciona una muestra aleatoria
de tamao n<30 .
Como la muestra es pequea, se utiliza la expresin (1.8) para despejar el intervalo de
confianza para , obtenindose:
(2.3)
En donde Z pertenece a una distribucin t con (n-1) grado de libertad.
Si se trabaja con la desviacin estndar corregida, se utiliza la expresin (1.9),
obtenindose:
(2.4)
En donde Z pertenece a una distribucin t con (n-1) grado de libertad.
EJEMPLO
Se desea hallar un intervalo de confianza para la estatura promedio de todos los estudiantes
de ingeniera industrial de la Universidad Nacional Sede Manizales. Para tal efecto, de los
estudiantes de dicha carrera se seleccion una muestra aleatoria de 15 personas a quienes
se les pregunt su estatura en metros, obtenindose los siguientes resultados:
ESTATURA: 1,50 1,63 1,50 1,69 1,69 1,79 1,73 1,69 1,56 1,70 1,65 1,74 1,70 1,70 1,65
Halle un intervalo de confianza del 95 por ciento.
Solucin . Con la informacin disponible se calcul el promedio aritmtico y la desviacin
estndar, los que respectivamente son 1,6613 y 0,0808 n = 15 y 1- = 0,95
Como la muestra es pequea se utiliza la expresin 2.3. El valor de Z se halla en una tabla
de la distribucin t con 14 grados de libertad, que para un nivel de confianza del 95 por
ciento es 2,145. Reemplazando:
(2.5)
Donde Z pertenece a la distribucin normal estndar.
Ejemplo
La Federacin Nacional de Cafeteros, realiz un estudio con el fin de conocer el porcentaje de
propietarios y arrendatarios de las fincas productoras del grano en la regin del viejo Caldas.
Para tal efecto se tom una muestra aleatoria de 100 fincas, en las cuales se encontr que
65 de los caficultores eran dueos del predio. Halle un intervalo del 95 por ciento de
confianza para el porcentaje de propietarios de fincas en la regin del viejo Caldas.
Solucin
Se invierte:
Reescribiendo:
(2.6)
Donde
lo tanto,
son diferentes y
<
Ejemplo
La varianza de la resistencia a la rotura de 30 cables probados fu de 32.000 lbs 2. Halle un
intervalo de confianza del 90 por ciento, para la varianza de la resistencia de todos los cables
de sta marca.
Solucin . Se utiliza la expresin 2.6. Los valores de
y
pertenecen a una
distribucin chi-cuadrado con 29 grados de libertad. como puede observarse en la figura 2.3
el rea que hay por debajo de Z a /2 es 0,05, por lo tanto
=17,71 y el rea que hay por
debajo de
=42,56
PRUBAS DE HIPOTESIS
Dentro del proceso de inferencia, adems de la estimacin puntual y la por intervalo, en
muchas ocasiones es necesario hacer pruebas de hiptesis, las cuales se hacen con base en
la informacin muestral.
En este captulo se ver la prueba de hiptesis para la media, la proporcin, la varianza, la
diferencia de medias, la diferencia de proporciones, el cociente de varianzas, la prueba de
independencia y la prueba de bondad de ajuste.
3.1 HIPOTESIS
Una hiptesis estadstica es un supuesto acerca del valor de un parmetro de una poblacin
determinada. Este supuesto debe comprobarse con la informacin suministrada por una
muestra aleatoria obtenida de dicha poblacin.
Cuando se realiza una prueba de hiptesis, se plantean dos hiptesis que deben ser
mutuamente excluyentes; una es la hiptesis nula que se nota como H0 y la otra es la
hiptesis alternativa que se nota como H1 .
Se debe establecer un criterio o regla de decisin segn la cual no se rechace la hiptesis
nula o se rechace. Si se rechaza la hiptesis nula (H0 ) se acepta hiptesis alternativa (H1 ).
Para establecer esta regla de decisin la distribucin de probabilidad se divide en dos
categoras mutuamente excluyentes: la que lleva al rechazo de H0 , es decir est en la zona
de rechazo y la que lleva al no rechazo de H0 , es decir, est en la zona de no rechazo.
Debido a que se est trabajando con una muestra aleatoria, cuando se realiza una prueba de
hiptesis se pueden cometer dos tipos de errores. La hiptesis nula (H0 ) es en realidad
verdadera, pero debido a que los datos muestrales parecen ser inconsistentes con ella, se la
rechaza (ERROR TIPO I) y la probabilidad de cometer un error tipo I se llama nivel de
significancia ( ). Puesto que cuando se comete un error tipo I, seguiramos una accin
errnea, se puede definir el nivel de significancia como la probabilidad de decidirnos por H 1
dado que H0 es verdadera.
Por otro lado, podemos no rechazar H0 siendo en realidad falsa, a este error se le llama
ERROR TIPO II.
=k
H1:
= k H0:
H1 :
> k H1 :
>k
H0 :
= k H0 :
H1 :
< k H1 :
<k
Una vez establacidas las hiptesis, se selecciona el nivel de significancia o mrgen de error (
) el que generalmente se fija entre el uno y el diez por ciento.
El tercer paso es la estadstica a probar o estadstica de trabajo, la cual depende de la
distribucin en el muestreo del estimador con el que se est trabajando y de los supuestos
correspondientes a la poblacin y al tamao de la muestra. Cuando se realizan los clculos
siempre se supone que la hiptesis nula (H0) es cierta.
El cuarto paso es establecer la regla de decisin, la cual depende de la distribucin de
probabilidad de la estadstica a probar, del nivel de significancia ( ) y de la hiptesis
alternativa (H1).
Finalmente se toma la decisin de no rechazar la hiptesis nula o rechazarla.
=k
H1 :
= k H0 :
H1 :
>k H1 :
k
>k
= k H0 :
H1 :
< k H1 :
<k
(3.1)
Donde:
REGLA DE DECISION
- Si se ha planteado la hiptesis alternativa como: H1 :
k se tiene una prueba de hiptesis
a dos colas, por lo tanto, el nivel de significancia ( ) se divide en dos partes iguales,
quedando estos valores en los extremos de la distribucin como se aprecia en la figura 3.1
Figura 3.1 Regla de decisin para una prueba de hiptesis a dos colas.
Figura 3.2 Regla de decisin para una prueba de hiptesis a una cola superior.
Figura 3.3 Regla de decisin para una prueba de hiptesis a una cola inferior.
EJEMPLO
Un proceso manufacturero usado por una fbrica durante los ltimos aos da una produccin
media de 100 unidades por hora con una desviacin estndar de 8 unidades. Se acaba de
introducir en el mercado una nueva mquina para realizar ese tipo de producto. Aunque es
muy cara comparada con la que est ahora en uso, si la media de produccin de la nueva
mquina es de ms de 150 unidades por hora, su adopcin dara bastantes beneficios.
Para decidir si se debiera comprar la nueva mquina, a la gerencia de la fbrica se le permite
hacer un ensayo durante 35 horas, hallndose un promedio de 160 unidades por hora. Con
sta informacin qu decisin se debe tomar si se asume un nivel de confianza del 99 por
ciento.
Solucin .
Segn el enunciado, solo se compra la mquina si la produccin es de mas de 150 unidades
por hora, por lo tanto las hiptesis son:
H0 :
= 150
H1 :
> 150
Para elegir la estadstica de trabajo se tiene en cuenta que se conoce la varianza poblacional,
por lo tanto se usa la expresin 3.1
Figura 3.4 Regla de desicin para una prueba de hiptesis a una cola inferior.
REGLA DE DECISION
Es la misma que en el caso anterior y depende en todo caso de la hiptesis alternativa.
EJEMPLO
La duracin promedio de las llantas producidas por una fbrica de llantas, segn experiencias
registradas es de 46.050 kms. Se desea probar si el promedio poblacional ha cambiado; para
tal efecto se toma una muestra aleatoria de 60 llantas y se obtiene una duracin promedio
de 45.050 kms. con una desviacin estndar de 3.070 kms.
Solucin
H
H1 :
= 46.050
46.050
Figura 3.5 Regla de decisin para una prueba de hiptesis a dos colas
(3.3)
Si se utiliza la varianza corregida la estadstica de trabajo es la expresin (1.9):
(3.4)
EJEMPLO
En su calidad de comprador comercial para un supermercado, se toma una muestra aleatoria
de doce (12) sobres de caf de una empacadora. Se encuentra que el peso promedio del
contenido de caf de cada sobre es 15,97 grs. con una desviacin estndar de 0,15. La
compaa empacadora afirma que el peso promedio mnimo del caf es de 16 grs. por sobre.
Puede aceptarse sta afirmacin si se asume un nivel de confianza del 90 por ciento?
Solucin
Se desea probar si el peso mnimo es de 16 grs., es decir mayor o igual a 16 grs., as que las
hiiptesis adecuadas son:
H0 :
16
H1 :
< 16
Figura 3.6 Regla de decisin para una prueba de hiptesis a una cola inferior
=k
H1 :
= k H0 :
H1 :
> k H1 :
>k
= k H0 :
< k H1 :
k
<k
Cuando se va a estimar una proporcin el tamao de la muestra (n) siempre debe ser mayor
a 30, por lo tanto se tiene un solo caso.
La estadstica de trabajo a utilizar es la expresin (1.13):
(3.5)
REGLA DE DECISION
Si se ha planteado la hiptesis alternativa como:
H1:
k se tiene una prueba de hiptesis a dos colas, por lo tanto, el nivel de significancia (
) se divide en dos partes iguales, quedando estos valores en los extremos de la distribucin
como se aprecia en la figura 3.1
y
< Zp <
no se rechaza H0 .
no se rechaza H0 .
EJEMPLO
Un fabricante afirma que por lo menos el 90 por ciento de las piezas de una maquinaria que
suministra a una fbrica guardan las formas especificadas. Un exmen de 200 de esas piezas
revel que 160 de ellas no eran defectuosas. Pruebe si lo que afirma el fabricante es cierto.
Solucin
H0 :
0,9
H1 :
< 0,9
Para realizar una prueba de hiptesis para la proporcin se utiliza la expresin 3.5
Figura 3.7 Regla de decisin para una prueba de hiptesis a una cola inferior
=k
H1 :
= k H0 :
H1 :
> k H1 :
>k
= k H1 :
H1 :
< k H1 :
<k
En este caso se tienen dos situaciones, dependiendo de si se utiliza la varianza muestral sin
corregir o corregida.
Si se utiliza la varianza sin corregir (
(3.6)
Si se utiliza la varianza corregida, la estadstica de trabajo es la expresin (1.5):
(3.7)
REGLA DE DECISION
- Si se ha planteado la hiptesis alternativa como:
H1 :
k se tiene una prueba de hiptesis a dos colas, por lo tanto, el nivel de significancia
( ) se divide en dos partes iguales, quedando estos valores en los extremos de la
distribucin como se aprecia en la figura 3.8
Figura 3.8 Regla de decisin para una prueba de hiptesis a dos colas
<T<
no se rechaza
Figura 3.9 Regla de decisin para una prueba de hiptesis a una cola superior
Z1-
no se rechaza H0 .
Figura 3.10 Regla de decisin para una prueba de hiptesis a una cola inferior
EJEMPLO
Se supone que los dimetros de cierta marca de vlvulas estn distribudos normalmente con
una varianza poblacional de 0,2 pulgadas , pero se cree que ltimamente ha aumentado.
Se toma una muestra aleatoria de vlvulas a las que se les mide su dimetro, obtenindose
los siguientes resultados en pulgadas: 5,5 5,4 5,4 5,6 5,8 5,4 5,5 5,4 5,6 5,7
Con sta informacin pruebe si lo que se cree es cierto.
Solucin
Se cree que la varianza poblacional ha aumentado, es decir es superior a 0,2; por lo tanto:
H0 :
= 0,2
H1 :
> 0,2
Figura 3.11 Regla de decisin para una prueba de hiptesis a una cola superior
H1 :
H0 :
H1 :
/
/
=1
1
H0 :
H1 :
>
H1 :
>1
H0 :
H1 :
<
H1 :
<1
(3.8)
REGLA DE DECISION
Si se ha planteado la hiptesis alternativa como:
H1 :
H1 :
/
1 se tiene una prueba de hiptesis a dos colas, por lo tanto, el
nivel de significancia ( ) se divide en dos partes iguales, quedando estos valores en los
extremos de la distribucin como se aprecia en la figura 3.8
y
pertenecen a una distribucin F con (n1 -1) grado de libertad en el numerador y
(n2-1) grado de libertad en el denominador. Si el valor de la estadstica de trabajo (T) est
entre
<T<
no se rechaza H0 .
EJEMPLO
Dos fuentes de materias primas estn siendo consideradas. Ambas fuentes parecen tener
caractersticas similares, pero no se est seguro de su homogeneidad. Una muestra de 10
grupos de la fuente A produce una varianza de 250 y una muestra de 11 grupos de la fuente
B produce una varianza de 195. Con base en sta informacin se puede concluir que la
varianza de la fuente A es significativamente mayor que la de la fuente B?. Asuma un nivel
de confianza del 99 por ciento.
Solucin
H
H1 :
A=
A>
B
B
Con un nivel de confianza del 99 por ciento, en la tabla de la distribucin F con 9 grados de
libertad en el numerador y 10 grados de libertad en el denominador, se obtiene un valor
para Z de 4,94. Como puede observarse en la figura 3.12, el valor de la estadstica de
trabajo est en la zona de no rechazo de la hiptesis nula, por lo tanto, con una confiabilidad
del 99 por ciento, no se puede rechazar que la variabilidad de las dos fuentes de materia
prima es igual.
Figura 3.12 Regla de decisin para una prueba de Hiptesis a una cola superior
H1 :
H0 :
H1 :
=k
k
H0 :
H1 :
>
H1 :
>k
H0 :
H1 :
<
H1 :
<k
(3.9)
REGLA DE DECISION
- Si se ha planteado la hiptesis alternativa como:
H1 :
>
H1 :
> k se tiene una prueba de hiptesis a dos colas, por lo tanto, el
nivel de significancia ( ) se divide en dos partes iguales, quedando estos valores en los
extremos de la distribucin como se aprecia en la figura 3.1
y
EJEMPLO
Un constructor est considerando dos lugares alternativos para construir un centro
comercial. Como los ingresos de los hogares de la comunidad son una consideracin
importante en sta seleccin, desea probar que el ingreso promedio de la primera comunidad
excede al promedio de la segunda comunidad en cuando menos $1.500 diarios. Con la
informacin de un censo realizado el ao anterior sabe que la desviacin estndar del
ingreso diario de la primera comunidad es de $1.800 y la de la segunda es de $2.400
Para una muestra aleatoria de 30 hogares de la primera comunidad, encuentra que el
ingreso diario promedio es de $35.500 y con una muestra de 40 hogares de la segunda
comunidad el ingreso promedio diario es de $34.600. Pruebe la hiptesis con un nivel de
confianza del 95 por ciento.
Solucin
Se desea probar si la diferencia entre los ingresos de la comunidad 1 y la 2 es de $1.500 o
ms, por lo tanto:
H0 :
1.500
H1 :
< 1.500
El tamao de las muestras es grande y las varianzas poblacionales son conocidas, por
consiguiente la estadstica de trabajo a utilizar es la expresin 3.9
Para un nivel de confianza del 95 por ciento, en la tabla de la distribucin normal se tiene un
valor de Z de -1,64. Como puede observarse en la figura 3.13, la estadstica de trabajo se
ubica en la zona de aceptacin de la hiptesis nula; por lo tanto, con una confiabilidad del 95
por ciento, la diferencia entre el ingreso promedio por hogar en las dos comunidades es
mayor a $1.500 diarios.
Figura 3.13 Regla de decisin para una prueba de hiptesis a una cola inferior
(3.10)
REGLA DE DECISIN
La regla de decisin es la misma que en caso anterior y en todo caso, depende de la
hiptesis alternativa.
EJEMPLO
Una muestra de 80 alambres de acero producidos por la fbrica A presenta una resistencia
promedio a la ruptura de 1.230 lbs . con una desviacin estndar de 120 lbs .. Una muestra
de 100 alambres de acero producidos por la fbrica B presenta una resistencia promedio a la
ruptura de 1.110 lbs . con una desviacin estndar de 90 lbs .. Con base en sta informacin
pruebe si la resistencia promedio a la rotura de los alambres de acero de la marca A es
significativamente mayor que la de los alambres de acero de la marca B. Asuma un nivel de
confianza del 99 por ciento.
Solucin
H0 :
A=
H1 :
A>
El tamao de las muestras es grande, las varianzas poblacionales son desconocidas, por la
tanto la estadstica de trabajo a utilizar es la expresin 3.10
Con un nivel del confianza del 99 por ciento, en la tabla de la distribucin normal el valor de
Z es 2,33. como puede observarse en la figura 3.14, la estadstica de trabajo est en la zona
de rechazo de la hiptesis nula, por consiguiente, con una confiabilidad del 99 por ciento se
acepta que la resistencia promedio de los alambres de la marca A es significativamente
mayor que la resistencia promedio de los alambres de la marca B.
Figura 3.14 Regla de decisin para una prueba de hiptesis a una cola superior
(3.11)
REGLA DE DECISIN
La regla de decisin es la misma que en los casos anteriores, pero los valores de la tabla se
hallan en una distribucin t con (n1 +n2-2) grados de libertad.
Nota . Cuando se tienen muestras pequeas y se va a realizar una prueba de hiptesis para
la diferencia de medias, primero se debe probar si las varianzas poblacionales son iguales o
diferentes, lo cual se hace con la prueba de hiptesis para el cociente de varianzas. Si las
varianzas son iguales se aplica el caso 3.6.3 y si son diferentes se aplica el caso 3.6.4.
EJEMPLO
Se desea probar si la cantidad promedio de cera superficial en el lado interno (I) de las
bolsas de papel encerado es mayor que la cantidad promedio en el lado externo (E). Para tal
efecto se tom una muestra aleatoria de 25 bolsas, midindose la cantidad de cera en cada
lado de esas bolsas, obtenindose los siguientes resultados:
Con base en esta informacin cul es su conclusin?. Asuma un nivel de confianza del 90 por
ciento.
Solucin
=1
H1 :
Con una confiabilidad del 90 por ciento, en la tabla de la distribucin F con 24 grados de
libertad en el numerador y 24 grados de libertad en el denominador, el valor de Z 0,05 es
0,505 y el valor de Z 0,95 es 1,98. como puede observarse en la figura 3.15, la estadstica
de trabajo cae en la zona de no rechazo de la hiptesis nula, por consiguiente las varianzas
poblacionales son iguales.
Como las varianzas poblacionales son iguales, para realizar la prueba de hiptesis para la
diferencia de medias se usa la expresin 3.11
H0 :
H1 :
I>
E
E
Con una confiabilidad del 90 por ciento, en la tabla de la distribucin t con 48 grados de
libertad, el valor de Z es 1,3. Como puede observarse en la figura 3.16, la estadstica de
trabajo se encuentra en la zona de no rechazo de la hiptesis nula, por lo tanto, con una
confiabilidad del 90 por ciento se concluye que la cantidad promedio de cera en el lado
interno no es mayor que la cantidad promedio de cera en el lado externo.
Figura 3.16 Regla de decisin para una prueba de hiptesis a una cola superior
(3.12)
REGLA DE DECISIN
La regla de decisin es la misma que en los casos anteriores pero los valores de la tabla se
hallan en una distribucin t con k grados de libertad, siendo:
(3.13)
EJEMPLO
Un fabricante de bombillos sospecha que una de sus lneas de produccin est produciendo
bombillos con una duracin promedio menor que la de otra lnea. Para probar su sospecha
toma una muestra aleatoria de 16 bombillos de la lnea sospechosa (s) y 18 de la otra lnea
(c), obteniendo los siguientes resultados:
Con sta informacin cul es su conclusin si se asume un nivel de confianza del 90 por
ciento.
Solucin
Como el tamao de las muestras es pequeo, para decidir cul es la estadstica de trabajo
adecuada para la prueba de hiptesis de la diferencia de medias, primero se debe probar si
las varianzas poblacionales son iguales o no.
H0 :
=1
H1 :
Con una confiabilidad del 90 por ciento, en la tabla de la distribucin F con 15 grados de
libertad en el numerador y 17 grados de libertad en el denominador, el valor de Z 0,05 es
0,43 y el valor de Z 0,95 es 2,31. como puede observarse en la figura 3.17, la estadstica de
trabajo cae en la zona de rechazo de la hiptesis nula, por consiguiente las varianzas
poblacionales son diferentes.
Figura 3.17 Regla de decisin para una prueba de hiptesis a dos colas
H0 :
S=
H1 :
S<
Figura 3.18 Regla de decisin para una prueba de hiptesis a una cola inferior
1=
H1 :
2 H0 :
2 H1 :
1-
1-
2=k
1=
2 H0 :
H1 :
1>
2 H1 :
11-
2>k
1=
2 H0 :
H1 :
1<
2 H1 :
11-
2<k
(3.14)
REGLA DE DECISION
Como en los casos anteriores depende del tipo de hiptesis que se haya planteado.
- Si se ha planteado la hiptesis alternativa como:
H1 : 1
2 H1 : p 1 - p 2 k se tiene una prueba de hiptesis a dos colas, por lo tanto, el
nivel de significancia ( ) se divide en dos partes iguales, quedando estos valores en los
extremos de la distribucin como se aprecia en la figura 3.1
y
no se rechaza H0 .
no se rechaza H0 .
EJEMPLO
Se seleccion una muestra aleatoria de 100 hombres y 100 mujeres de un departamento de
Colombia; se hall que de los hombres 60 estaban a favor de una ley de divorcio y de las
mujeres 55 estaban a favor de dicha ley. Con base en sta informacin, pruebe que la
proporcin de hombres que favorece sta ley es mayor que la proporcin de mujeres. Asuma
un nivel de confianza del 99 por ciento.
Solucin
H0 :
H=
H1 :
H>
Figura 3.19 Regla de decisin para una prueba de hiptesis a una cola superior
REGRESION Y CORRELACION
Cuando se posee informacin acerca de dos o ms variables relacionadas, es natural buscar
un modo de expresar la forma de la relacin funcional entre ellas. Adems, es deseable
conocer la consistencia de la relacin. Es decir, no se busca solamente una relacin
matemtica que nos diga de qu manera estn relacionadas las variables, sino que se desea
saber tambin con qu precisin se puede predecir o pronosticar el valor de una variable, si
se conocen o suponen valores para las otras variables. Las tcnicas usadas para lograr estos
dos objetivos se conocen como mtodo de regresin y correlacin.
Los mtodos de regresin se usan para elegir la "mejor" relacin funcional entre las
variables, es decir, la funcin o ecuacin que mejor se ajuste a los datos. Mientras que los
mtodos de correlacin se utilizan para medir el grado de asociacin o de relacin entre las
distintas variables.
Se debe tener en cuenta que la nica persona que puede decir con seguridad, que las
variables bsicas son las que se estn utilizando y que el mecanismo bsico opera de
acuerdo con la funcin matemtica elegida, es una persona bien entrenada en el asunto o
campo en el cual se est investigando. El anlisis estadstico es solamente un instrumento
que ayuda en el anlisis e interpretacin de los datos.
METODOLOGIA
Para dar un ejemplo de la metodologa, consideramos la teora Keynesiana del consumo 1: los
hombres estn dispuestos, por regla general y en promedio, a aumentar su consumo a
medida que su ingreso crece, aunque no tanto como el crecimiento de dicho ingreso.
Especificacin del modelo . Aunque Keynes postula una relacin positiva entre consumo e
ingreso, no especifica la forma precisa de la relacin funcional entre las dos variables,
entonces se puede sugerir la siguiente forma para la funcin de consumo de Keynes:
Y=
donde:
Y: son los gastos de consumo
X: ingreso
y
parmetros, siendo
E(Y/Xi ) = f(Xi )
Si E(Y/Xi ) es una funcin lineal de Xi , se tiene:
E(Y/Xi ) =
Xi
de regresin y especficamente,
coeficiente de interseccin y
anterior se conoce como funcin de regresin poblacional.
se denominan coeficientes
la pendiente. La ecuacin
Para un valor dado de Xi , los valores de Y se concentran alrededor del promedio de Y, lo cual
indica que se van a presentar algunas diferencias o desviaciones de un valor individual de Yi
alrededor de su valor esperado, por lo tanto:
Y i = E(Y/Xi ) + ui
Donde ui es una variable aleatoria que toma valores positivos o negativos. Esta ui se puede
considerar como una variable sustitutiva de todas las variables omitidas que pueden afectar
a Y, pero que por una u otra razn no pudieron incluirse en el modelo de regresin.
Reemplazando el E(Y/Xi ) se tiene:
Yi=
Xi + ui
El caso ms simple de regresin es cuando se tienen dos variables (una dependiente y una
independiente o explicativa), es decir, n parejas de datos.
Una vez especificadas las variables es necesario determinar la relacin entre ellas, de la cual
se puede tener una idea general, graficando las variables en un sistema de coordenadas, en
donde, en el eje de las abcisas se ubica la variable independiente y en el de las ordenadas la
variable dependiente; esta grfica se llama nube de puntos .
La relacin ms sencilla es la lineal, la funcin de regresin poblacional es:
Yi =
Xi + ui
Donde:
Si
Para deducir este coeficiente se tiene en cuenta la figura 4.2 en donde se tiene la ecuacin
ajustada a unos datos. Para un valor dado de X se ha tomado el correspondiente valor de Y.
La distancia que hay entre el valor observado y la media
, puede descomponerse
en dos partes que son: la distancia entre el valor observado y el estimado con la ecuacin de
regresin
decir:
, es
Siendo:
: Distancia Total.
Donde:
Estadstica de trabajo:
), ya
, es un estimador puntual
es:
Este intervalo se interpreta como los valores dentro de los cuales aumentar (si
disminuir si
la variable dependiente (Y) por cada aumento de una unidad en la
variable independiente (X), con un nivel de confianza del (1- ) por ciento.
4.2.7 Proyeccin media
El principal objetivo del anlisis de regresin es el proyectar o estimar el valor de la variable
dependiente (Y) cuando se conoce o se supone un valor para la variable independiente (X).
Este objetivo se logra cuando se reemplaza en la ecuacin de regresin 4.1 el valor supuesto
para X. El valor obtenido, es una estimacin puntual, por lo tanto se puede construir una
estimacin por intervalo, ya sea para el valor individual de Y dado un valor de X o para el
valor promedio de Y.
4.2.7.2 Proyeccion media. Como en el caso anterior, para obtener el valor promedio de Y
dado un valor de X como Xi , se debe obtener la desviacin estndar para esta estimacin:
Cuando se utiliza la ecuacin de regresin para hacer proyecciones, se debe tener muy
presente que a medida de que nos alejemos del rango dentro del cual se observ X, la
proyeccin pierde confiabilidad y adems estos valores proyectados tienen sentido en la
medida que se conserven las condiciones bajo las cuales se observaron las variables.
EJEMPLO
Con la informacin sobre el consumo anual de agua y el nmero de suscriptores al servicio
de acueducto en Manizales entre 1977 y 1988 (cuadro 4.1) se aplica toda la teora vista
anteriormente.
Cuadro 4.1. Manizales: consumo anual facturado (en miles de metros cbicos) y nmero de
suscriptores al servicio de acueducto en el sector residencial. 1977-1988
AOS
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
Para obtener
El coeficiente de interseccin (
) indica que el consumo promedio anual de agua, debido a
otras variables no consideradas en el modelo, es de 6'636.730 (6.636,73 * 1000) metros
cbicos.
La pendiente por ser positiva, indica que hay una relacin directa entre el nmero de
suscriptores y el consumo de agua. El valor de 0,1861 indica que por cada suscriptor ms, el
consumo anual de agua se incrementa en 186,1 (0,1861 * 1000) metros cbicos.
El coeficiente de determinacin (R2 ) se obtiene con la ecuacin 4.5, para lo cual es necesario
hallar la Suma de Cuadrados Explicada (SCE) y la Suma de Cuadrados Total (SCT), con las
ecuaciones 4.6 y 4.7 respectivamente.
La Suma de Cuadrados de los Residuos (SCR) se obtiene con la ecuacin 4.8:
Este resultado indica que la ecuacin es confiable, ya que tenemos un valor cercano a 1.
Adems, quiere decir que el 86,26% del consumo de agua se debe o est explicado por el
nmero de suscriptores.
Regla de decisin: Para una confiabilidad del 95%, el valor en la distribucin t con 10 grados
de libertad es: 2,228. El valor de la estadstica de trabajo (T) est en la zona de rechazo
para H 0 (figura 4.5), por lo tanto se acepta que b 0 es diferente de cero, es decir que el
coeficiente de interseccin es necesario en el modelo.
H0 :
H1 :
El valor de la estadstica de trabajo (T) est en la zona de rechazo para H0 (figura 4.5), por
lo tanto se acepta H1 , lo cual indica que s hay relacin entre el consumo de agua y el
nmero de suscriptores.
Con el valor obtenido en el coeficiente de determinacin, los signos de los coeficientes de
regresin y el resultado de las pruebas de hiptesis se puede concluir que el modelo es
confiable y por lo tanto, lo son las proyecciones o pronsticos que se hagan con dicho
modelo.
Intervalo de confianza para : El valor que se obtuvo para b 1 es una estimacin
puntual. La estimacin por intervalo se obtiene con la ecuacin 4.13:
Indicando que con una confiabilidad del 95%, por cada suscriptor ms, el consumo anual de
agua se incrementa entre 129 y 234 metros cbicos.
Proyeccin media . Se desea estimar o proyectar el consumo promedio anual de agua, si
se tienen 52.900 suscriptores.
Se reemplaza el valor de X en la ecuacin de regresin obtenida, as que:
El intervalo de confianza para el consumo promedio anual, se obtiene con la ecuacin 4.17:
Por lo tanto, con una confiabilidad del 95%, si el nmero de suscriptores es de 52.900, el
consumo promedio anual de agua, estar entre 15'430.270 y 17' 585.730 metros cbicos .
pares
, respectivamente. Sea
y varianza
diferencias
de la variable
es:
es la diferencia en los
son independientes. La
mientras que
se estima con
se estima con
, el
, la
con
se obtiene:
el cual rechaza
si
EJEMPLOS
Considernse el siguiente conjunto de datos:
los cuales tienen que ver con el tiempo que requieren 14 sujetos que
estacionan dos automviles sustancialmente distintos en cuanto al
Ejercicio 5
El administrador de un lote de automviles prueba dos marcas de
llantas radiales. Para ello asigna al azar una llanta de cada marca a
las dos ruedas posteriores de ocho automviles, y luego corre los
automviles hasta que las llantas se desgastan. Los datos obtenidos
(en kilmetros) aparecen en la siguiente tabla:
Ejercicio 6
Un cientfico de la computacin esta investigando la utilidad de dos
lenguajes de diseo para mejorar las tareas de programacin. Se pide a
doce programadores expertos, familiarizados con los dos lenguajes, que
codifiquen una funcin estndar en ambos lenguajes, anotando el
tiempo, en minutos, que requieren para hacer esta tarea. Los datos
obtenidos son los siguientes:
, y varianzas conocidas
, respectivamente.
para la
Sean
de la primera poblacin y
observaciones tomadas
son las
es un estimador puntual de
. La variable aleatoria
, donde se
el cual rechaza
si
Se desea encontrar un
medias
Se toman muestras aleatorias de tamao
representadas por
muestrales, y
, respectivamente; sean
las medias
y
, mejor que
son
es la distribucin
con
ntese que la
, donde se
el cual rechaza
si
EJEMPLOS
Un artculo publicado en el Hazardous Waste and Hazardous Materials
(Vol. 6, 1989) dio a conocer los resultados de un anlisis del peso de
calcio en cemento estndar y en cemento contaminado con plomo. Los
niveles bajos de calcio indican que el mecanismo de hidratacin del
cemento queda bloqueado y esto permite que el agua ataque varias
partes de una estructura de cemento. Al tomar diez muestras de cemento
estndar, se encontr que el peso promedio de calcio es 90.0, con una
desviacin estndar muestral 5.0; los resultados obtenidos con 15
muestras de cemento contaminado con plomo fueron que el peso promedio
es de 87.0 y una desviacin estndar de 4.0.
Supngase que el porcentaje de peso de calcio est distribuido de
manera normal. Encuntrese un intervalo de confianza del 95% para la
diferencia entre medias de los dos tipos de cemento. Por otra parte,
supngase que las dos poblaciones normales tienen la misma desviacin
estndar.
Solucin
El inters es la diferencia entre el promedio del peso de los cementos
:
donde,
>T
fuese verdadera.
Ejercicio 1
Un fabricante produce anillos para los pistones de un motor de
automvil. Se sabe que el dimetro del anillo est distribuido
aproximadamente de manera normal, y que tiene una desviacin estndar
mm. Una muestra aleatoria de 15 anillos tiene un diametro
promedio de
mm.
Ejercicio 2
Un experimento para comparar la resistencia de cohesin a la tensin
del mortero modificado de ltex de polmeros (mortero de cemento
portland al que se han agregado emulsiones de ltex de polmeros
durante el mezclado), con la resistencia de mortero no modificado
resulto en
kgf/cm
kgf/cm
y
. Sean
y
las verdaderas resistencias de cohesin a la tensin para los
morteros modificado y no modificado, respectivamente.
a. Si se supone que
, pruebe
vs