You are on page 1of 160

Anlisis Estadstico

Prof. Saulo Sierra Valenzuela


Anlisis Estadstico:
la dispersin medidas de desviacin promedio.

La frmula de la varianza es: La desviacin estndar de la


poblacin (), es simplemente
la raz cuadrada de la varianza,
por ejemplo, la raz cuadrada
de 25 es 5, puesto que
= Varianza de la poblacin.
tomamos la raz cuadrada del
x = elemento u observacin.
valor y de las unidades con que
= Media de la poblacin.
se les mide. La desviacin
N = Nmero total de elemento de estndar, en consecuencia,
poblacin. est en las misma unidades
= suma de todos los valores (x que los datos originales.
- ) o todos los valores de x
Es decir, que la desviacin
estndar es la raz cuadrada
del promedio de las distancias
al cuadrado que van de las
observaciones a la media.
Anlisis Estadstico:
la dispersin medidas de desviacin promedio.

Propiedades de la varianza
El valor de la varianza debe ser siempre positivo > 0. Como la
varianza se encuentra elevada al cuadrado, por consiguiente se
encontraran resultados positivos.
La varianza de una constante es igual a cero Si
todos los elementos de una observacin tienen el mismo
resultado, encontraremos que no existe ninguna diferencia entre
los resultados y su media, por consiguiente la varianza ser igual
a cero.
La varianza de una constante ms una variable, es igual a la
varianza.
Anlisis Estadstico:
la dispersin medidas de desviacin promedio.

En donde:
= varianza de la poblacin.
= desviacin estndar de la poblacin.
= frecuencia de cada una de las clases.
x = punto medio de cada clase.
= media de la poblacin.
N = tamao de la poblacin.
Anlisis Estadstico:
la dispersin medidas de desviacin
promedio.

s = varianza de la muestra.
s = desviacin estndar de la muestra.
x = valor de cada una de las n observaciones.
= media de la muestra.
n-1 = nmero de observaciones de la muestra menos 1.
DETERMINARCIN DE LA VARIANZA Y DE LA DESVIACIN TPICA DE LAS VENTAS DE 100
RESTAURANTES

PUNTO FRECUENCIA
CLASE MEDIO (x) (x) *x MEDIA () x - (x - ) (x - )
700 - 799 750 4 3000 1250 -500 250000 1000000
800 - 899 850 7 5950 1250 -400 160000 1120000
900 - 999 950 8 7600 1250 -300 90000 720000
1000 -
1099 1.050 10 10500 1250 -200 40000 400000
1100 -
1199 1.150 12 13800 1250 -100 10000 120000
1200 -
1299 1.250 17 21250 1250 0 0 0
1300 -
1399 1.350 13 17550 1250 100 10000 130000
1400 -
1499 1.450 10 14500 1250 200 40000 400000
1500 -
1599 1.550 9 13950 1250 300 90000 810000
1600 -
1699 1.650 7 11550 1250 400 160000 1120000
1700 -
1799 1.750 2 3500 1250 500 250000 500000
1800 -
1899 1.850 1 1850 1250 600 360000 360000
100 125000 6680000
media es igual
Anlisis Estadstico:
Distribucin de muestreo.
Teorema: Dada una poblacin, si extraemos todas las muestras
posibles de un mismo tamao, entonces la media de la distribucin de
todas las medias muestrales posibles. Ser igual a la media de la
poblacin.
Base conceptual para muestrear distribuciones.
Si tomamos todas las muestras posibles de una poblacin que
deseamos estudiar , a continuacin calcularamos la media y la
desviacin estndar para cada una de estas muestras como resultado
cada muestra tendra su propia media, y su propia desviacin
estndar para cada una de estas muestras.
Nota: Ninguna de las medias individuales sera la misma que la media
de poblacin. stas tenderan a estar cerca de la media de la poblacin,
pero rara vez quedaran exactamente en ese valor.
Si producimos una distribucin de todas las medias de cada muestra
que se pudiera tomar. Dicha distribucin, conocida como distribucin
de muestreo de la media. Esta distribucin de las medias de la
muestra tendra su propia media
Tendra su propia media (my sub x testada) y su propia desviacin
estndar
(sigma sub x testada).

Muestreo de poblaciones normales primero vamos a hacer mencin de las


propiedades de muestreo de las poblaciones normales.
La distribucin de muestreo tiene una media igual a la media de la poblacin
La distribucin de muestreo tiene una desviacin estndar (un error estndar)
igual a la desviacin estndar de la poblacin dividida entre la raz cuadrada
del tamao de la muestra.

La distribucin de muestreo est normalmente distribuida.


Donde: Error estndar de la media, desviacin estndar de
la poblacin y la raz cuadrada de la muestra.
Anlisis Estadstico:
Distribucin de muestreo.
Ejemplo: Supongamos una poblacin de 5 elementos (N=5) y los
valores que toma la variable son: X= 7 X=3 X=5 X=8
X=2 N=5
Con los anteriores valores se puede calcular la media, la varianza
y la desviacin estndar de la poblacin.

Ahora determinamos el nmero de muestra posible (M) de esta


poblacin, si el tamao de la muestra que fijamos arbitrariamente
es 2 y la seleccin se hace sin repeticin.
Anlisis Estadstico:
Distribucin de muestreo.
En el primer caso se tendr que:

Las combinaciones que se pueden tener con los cinco elementos,


son:
X X X X X X X X X X
X X X X X X X X X X

Calculemos la media aritmtica para cada una de las posibles


muestras.
Anlisis Estadstico:
Distribucin de muestreo.
Ejercicio: Supongamos una poblacin de 5 elementos
(N=5) y los valores que toma la variable son: X=2 X=4
X=8 X=6 X=4 N=5
Con los anteriores valores se puede calcular la media, la
varianza y la desviacin estndar de la poblacin.
Tomando el tamao de la muestra de 2 y la seleccin se
hace sin repeticin.
Demostrar que la media de la distribucin de todas las
medias muestrales posibles, Ser igual a la media de la
poblacin. (Teorema del Lmite Central).
Obtener la varianza y la desviacin de las medias
muestrales.
Inferencia Estadstica:
Teora de estimacin.
Una estimacin es cuando alguien est tratando de inferir algo acerca
de una poblacin a partir de la informacin adquirida de una muestra.
Tipos de estimacin, se pueden hacer dos tipos de estimaciones a una
poblacin: La estimacin puntual y la estimacin de intervalo.
Una estimacin puntual es un solo nmero que se utiliza para estimar
un parmetro de poblacin desconocido. Ejemplo, en el mes de
agosto llueve 20 das del mes, por consiguiente, este ao llover en
20 das del mes.
Una estimacin de intervalo a menudo resulta insuficiente, debido a
que slo tiene dos opciones: es correcta o est equivocada.
Una estimacin puntual es mucho ms til si viene acompaada de
una estimacin de error que podra estar implicado. Por el simple
hecho, de que el ejemplo que hemos puesto podramos estar
equivocado, quizs con un da o dos de diferencia se aceptara la
estimacin puntual, pero si no equivocaramos por 7 das, se podra
rechazar la estimacin por poco fiable.
Inferencia Estadstica:
Teora de estimacin.
La estimacin de intervalo, es un intervalo de valores que se utiliza para
estimar un parmetro de poblacin, esta estimacin ndica el error de dos
maneras:
a. Por la extensin del intervalo y
b. Por probabilidad de obtener el verdadero parmetro de la poblacin que se
encuentra dentro del intervalo. Ejemplo estimo a que en el prximo mes
de agosto llover entre 17 y 22 das.
. Estimador y estimaciones, ejemplo, la media de la muestra puede ser un
estimador ,es decir, que cualquier estadstica de muestra que se utilice
para estimar un parmetro de poblacin se conoce como estimador.
. Estimacin, es un valor numrico especfico observado de una estadstica.
Criterio para seleccionar un bue estimador.
. Insesgado, es decir, que no tenga sesgo, es cuando el valor del estimado
es igual al del parmetro. En caso contrario la estimacin ser sesgada. La
media de la distribucin de muestreo, las medias de muestra tomadas de
la misma poblacin es igual a la media de la poblacin misma.
Inferencia Estadstica:
Teora de estimacin.
Consistente es aquel estimador que, al aumentar el tamao de la
muestra, converge en probabilidad al parmetro que estima.
Eficiente es el estimador que tiene la menor varianza entre todos los
estimadores posibles.
Suficiente cuando incluye todas la informacin que la muestra
puede proporcional acerca del parmetro.
Nota: La mediana de la muestra de una poblacin distribuida
simtricamente sera un estimador imparcial (insesgado) y
consistente de la media de la poblacin, pero no el ms eficiente
estimador porque en muestra grandes su error estndar es mayor
que el de la media de la muestra.
Estimaciones puntuales
La media de la muestra es el mejor estimador de la media de la
poblacin . Es imparcial, coherente, ms eficiente y, siempre y
cuando la muestra sea lo suficientemente grande, su distribucin de
muestreo puede ser aproximada por la distribucin normal.
Inferencia Estadstica:
Teora de estimacin.
Estimaciones puntuales.
Ejemplo: Supongamos que trabajamos en un proceso de fabricacin
de tornillos que producen un nmero x de cajas diarias de tornillos
y, para no contar uno por uno todos los tornillos producidos ( con la
finalidad de facturacin) seleccionamos 10 cajas alzar que contienen
bolsas llenas de tornillos. Obtenemos la estimacin sumando cada
uno de los resultados de las unidades contadas en la 10 cajas.
234; 271; 199, 224, 231, 259, 244, 218, 283, 201=

La estimacin puntual de la media de la poblacin es 237 por caja.


De esta manera los responsable de la empresa podrn sin dudas
algunas aceptarlo como un estimador puntual.
Inferencia Estadstica:
Teora de estimacin.
La estimacin puntual de la varianza y de la desviacin
estndar de la poblacin.
Imaginemos que la productora de tornillos desea hacer la
estimacin de la varianza y/o de la desviacin estndar de la
distribucin del nmero de tornillos.
Inferencia Estadstica:
Teora de estimacin.

Valor de x x (x-x) (x-x)


tornillos
por caja
234 54,756 237 -3 9
271 73,441 237 34 1,156
199 39,601 237 -38 1,444
224 50,176 237 -13 169
231 53,361 237 -6 36
259 67,081 237 22 484
244 59,536 237 7 49
218 47,524 237 -19 361
283 80,089 237 46 2116
201 40,401 237 -36 1,296
=565,966 =7120
Inferencia Estadstica:
Teora de estimacin.
Estimacin puntual de la porcin de la estimacin la porcin
de unidades de una poblacin dada que posee una caracterstica
particular se representa con el smbolo de p y su estimador ser
entonces , podemos utilizar como estimador de p, podemos
analizar que tiene todas las caractersticas deseadas
(insesgado, coherente, eficiente y suficiente).
Supongamos que la empresa necesita determinar el nmero de
cajas que llega daada a su destino final. Si encontramos, por
ejemplo, que la porcin de cajas daadas en la muestra es de
0.12. en consecuencia, podemos estimar que la porcin de cajas
daadas de toda la poblacin ser tambin de 0.12.
Inferencia Estadstica:
Teora de estimacin.
Estimacin de intervalo, describe un intervalo de valores dentro
de cual es posible que est un parmetro de la poblacin. Ejemplo
se han tomado un muestra de 200 bateras de carro con una vida
media de 36 meses con 10 meses de desviacin. Si utilizamos la
estimacin puntual de la media de la muestra como el mejor
estimador de la media de la poblacin , informaramos que la
vida media de las bateras de la empresa es de 36 meses.
Pero, tambin es necesario saber acerca del intervalo dentro del
cual es probable que est la media de la poblacin desconocida.
Para esto necesitamos conocer el error estndar de la media. Por
el teorema del lmite central podemos demostrar que la media de
la distribucin de muestreo es igual a la media de la poblacin,
por tanto, para medir la extensin, o dispersin, de nuestra
distribucin de media de muestra, podemos utilizar la siguiente
frmula y calcular el error estndar de la media: Entonces el error
estndar de la media ser:
Inferencia Estadstica:
Teora de estimacin.
La vida til real para todas las bateras puede estar en alguna parte de
la estimacin de intervalo comprendida entre 35.293 y 36.707 meses,
esto podra ser de utilidad pero no es suficiente.
Necesitamos saber, adems, calcular la probabilidad de que la
duracin real de las bateras est en este intervalo o en otros intervalos
de diferentes anchos que podamos escoger 2(2*0.707).
3(3*0.707), y as sucesivamente.
Probabilidades de que el verdadero parmetro de la poblacin est dentro de la
estimacin de intervalo.
La probabilidad de 0.955 de que la media de una muestra de 200
bateras est dentro de 2 errores estndar de la poblacin. Dicho de
manera diferente, 95.5% de todas las medias de muestras estn dentro
de 2 errores estndar de y, en consecuencia est dentro de 2
errores estndar del 95.5% de todas las medias de muestra. De igual
manera la probabilidad de que la media de la muestra est dentro 1
error estndar de la media de la poblacin es de 0.683.

Inferencia Estadstica:
Teora de estimacin.
Estimaciones de intervalo e intervalo de confianza
Recuerde: En estadstica, la probabilidad que asociamos con una
estimacin de intervalo se conoce como el nivel de confianza.
Esta probabilidad ndica qu tanta confianza tenemos de que la
estimacin de intervalo incluya al parmetro de poblacin.
Los intervalo de confianza se expresan con frecuencia en trminos
de errores estndar, ms que como valores numricos.

Inferencia Estadstica:
Teora de estimacin.
Clculo de estimaciones de intervalo de la media a partir de
muestras grandes.
Ejemplo, se quiere estimar la vida media que se puede esperar de
los limpiadores de parabrisas. Se ha determinado que la
desviacin estndar de la vida til de la poblacin es de 6 meses,
con una vida media de 21 meses, se selecciona una sola muestra
de 100 parabrisas.
Cmo el vendedor utiliza 10,000 al ao, nos pide que encontremos
una estimacin de intervalo con un nivel de confianza de 95%. El
tamao de la muestra es mayor que 30, de modo que el teorema
central del lmite nos permite usar la distribucin normal como
nuestra distribucin de muestreo, incluso si nuestra poblacin no
est normalmente distribuida. Entonces calculamos el error
estndar de la media.
Inferencia Estadstica:
Teora de estimacin.
A continuacin consideraremos el nivel de confianza 95%,
buscamos en la tabla y, conseguimos un error estndar de 1.96 de
la media y nuestros lmites de confianza son:

Entonces situamos valores numricos en estas dos expresiones:

Ahora podemos informar que estimamos la vida media de la


poblacin de parabrisas entre 19.82 y 22.18 con 95% de
confianza.
Inferencia Estadstica:
Teora de estimacin.
Cuando no se conoce la desviacin estndar
Ejemplo, un ayuntamiento est interesado en estimar el ingreso
medio anual de 700 familias que viven en una seccin de cuatro
manzanas. Tomamos una muestra y encontramos los siguientes
resultados: n= tamao de la muestra 50 ingreso $11,800 y
s=$950 desviacin estndar de la muestra.
Nos piden que calculemos una estimacin de intervalo de ingreso
anual medio de las 700 familias de modo que pueda tener 90% de
confianza de que la media de la poblacin se encuentra dentro del
intervalo.
Solucin: no conocemos la desviacin estndar de la poblacin y,
por tanto, utilizaremos la desviacin estndar de la muestra para
estimar la desviacin estndar de la poblacin.

La estimacin estndar de la poblacin.


Inferencia Estadstica:
Teora de estimacin.

Como estamos calculando el error estndar de la media mediante


una estimacin de desviacin estndar de la poblacin, se escribe
la ecuacin 2
Inferencia Estadstica:
Teora de estimacin.
Enseguida consideramos un nivel de confianza de 90%, por
consiguiente tenemos:

Entonces inferimos que con una confianza de 90%, estimamos que


el ingreso anual promedio de las 700 familias que viven en una
seccin de cuatro manzanas se encuentran entre $11,587.50 y
12,012.50.
Inferencia Estadstica:
Teora de estimacin.
Clculo de la estimacin de intervalo de la proporcin a partir de
muestras grandes.
Nota: se ha comprobado que la distribucin binomial es la
distribucin correcta para utilizarse en la construccin de intervalos
de confianza para estimar una porcin de la poblacin.

Por lo tedioso que resulta el calculo de las probabilidades por


distribuciones binomiales, en consecuencia, los estadsticos utilizan
la distribucin normal como aproximacin a la distribucin binomial.
Si una distribucin probabilidad binomial satisface los requisitos.
Entonces la distribucin de probabilidad binomial puede
aproximarse como una distribucin normal de = np desviacin
estndar.
Inferencia Estadstica:
Teora de estimacin.
n= nmeros de ensayos o intentos.
P= probabilidad de xitos.
q= 1-p= probabilidad de fallo.
La media de la distribucin de muestreo de la porcin es igual al
producto del nmero de ensayos, n, por la probabilidad de xito p
esto es np.
Para cambiar el nmero de xitos a la porcin de xitos, dividimos
np entre el nmero de xitos y obtenemos el valor de la
proporcin.

De igual manera el error estndar viene dado:


Probabilidad y Estadstica.
Distribucin binomial.
Ejemplo 3:Cinco nio estn en el jardn. La directora ha
determinado que hay una probabilidad de 0.4 de que cualquier
estudiante llegue tarde y, que las llegadas de los estudiantes son
independiente entre s. Cmo podemos usar una distribucin
binomial de probabilidad para ejemplificar las probabilidades de
que 0,1,2,3, 4 , 5 estudiante lleguen tarde simultneamente.
p = 0.40
q = 0.60
n=5

Probabilidad y Estadstica.
Distribucin binomial.
Probabilidad de un estudiante llegue tarde.
Probabilidad y Estadstica.
Distribucin binomial.
Probabilidad de dos estudiantes lleguen tarde r= 2
Probabilidad y Estadstica.
Distribucin binomial.
Probabilidad de que tres estudiantes lleguen tarde r= 3
Probabilidad y Estadstica.
Distribucin binomial.
Probabilidad de que cuatro estudiantes lleguen tarde r= 4
Probabilidad y Estadstica.
Distribucin binomial.
Probabilidad de que cinco estudiantes lleguen tarde r=5

Con los datos obtenidos en la casos anteriores dibujar una grfica


de distribucin binomial. Recordar graficar en eje Y las
probabilidades y en el eje x n en este caso r= 0, 1, 2, 3, 4, 5
Inferencia Estadstica:
Teora de estimacin.
Ejemplo: Un sindicato quiere estimar que porcin de sus
empleados prefieren planificar su propios beneficios de retiro en
lugar de seguir un plan patrocinado por la compaa. De 75
empleados en una muestra se encontr que el 40% de ellos estn
interesados en seguir sus propios planes de retiro.

Necesitamos encontrar un intervalo con un nivel de confianza de


99% de que contenga la verdadera porcin de la poblacin.
Anlisis Estadstico:
Teora de estimacin.
Estimacin de intervalo mediante la distribucin t.
Los primeros trabajos tericos sobre la distribucin t fueron hechos
por W. S. Gossett a principio del siglo XX. Gossett era empleado de la
Guinness Brewery en Dublin, Irlanda; la empresa no permita que los
empleados, con su propio nombre, publicaran los hallazgos de
investigacin. De modo que Gossett adopt el seudnimo de Student
para publicar.
En consecuencia a la distribucin t se le conoce como distribucin t
de student o simplemente distribucin de student.

Caracterstica de la distribucin t
Es simtrica
Es ms plana que la distribucin normal.
Hay una distribucin t para cada tamao posible de muestra.
A medida que el tamao de muestra se hace ms grande la
distribucin t se aproxima igual a la distribucin normal.
Anlisis Estadstico:
Teora de estimacin.
Una distribucin t es menor en la media y mayor en los extremos que una
distribucin normal.
La distribucin t tiene, ms porcentaje de su rea en los extremos que
distribucin normal.
Nota: Para tamaos de muestra mayores de 30, la distribucin t se
asemeja tanto a la normal que se utiliza esa ltima para aproximar a la
distribucin t.
Grados de libertad es el nmero de valores de una muestra que podemos
especificar libremente, despus de que ya sabemos algo de dicha
muestra.
Ejemplo si tenemos

Podemos observar que cuando existen dos elementos de una muestra y


slo conocemos la media de muestra de esos dos elementos, entonces
somos libre de especificar solo uno de esos elementos.
Anlisis Estadstico:
Teora de estimacin.
Ejemplo 2: Existen 7 elementos en nuestra muestra y sabemos que
la media de estos elementos es 16 ,

En este caso, los grados de libertad o el nmero de variables que


podemos especificar libremente es 7-1= 6
Con dos valores de muestra tenemos un grado de libertad (2-1=1) y
con siete valores de muestra tenemos seis grado de libertad.
En cada uno de estos dos ejemplos, tenemos grados de
libertad.
Nota: Utilizaremos los grados de libertad cuando elijamos una
distribucin t para estimar una media de la poblacin, y utilizaremos
grados de libertad, tomando n igual al tamao de la muestra,
si por ejemplo, tomamos una muestra de 17 para estimar una media
de poblacin, usaremos 16 grados de libertad con la finalidad de
elegir la distribucin t apropiada.
Anlisis Estadstico:
Teora de estimacin.
Uso de la tabla de la distribucin t.
La tabla t es ms compacta que la z y muestra rea y valores de t
solamente para algunos porcentaje (10,5,2 y 1%).
La tabla t no se enfoca en la probabilidad de que el parmetro de la
poblacin que se est estimando se encuentre dentro de nuestro intervalo
de confianza. En lugar de ello mide la probabilidad de que el parmetro de
la poblacin que estamos estimando no est dentro de nuestro intervalo
de confianza ( es decir, la probabilidad de que est fuera de ste). Si
estamos haciendo una estimacin de un nivel de confianza de 95%,
buscamos en la tabla t en la columna encabezada con el valor 0.05, es
decir es la probabilidad de 0.05 de tener un error, se representa con el
smbolo ( alfa).
Debemos especificar los grados de libertad con lo cual estamos
trabajando. Supongamos que hacemos una estimacin a un nivel de
confianza de 90% con una muestra de tamao 16, que tiene un grado de
libertad de 15, entonces, buscamos en la tabla t la columna encabezada
por 0.10 hasta encontrar la hilera 15, el valor encontrado 1.753. Indica que
estamos a una distancia de la media
Anlisis Estadstico:
Teora de estimacin.
Ejemplo: El administrador de la planta generadora de energa
deseaba estimar la cantidad de carbn que se necesita para este
ao, y tomo muestra consistente en el registro de la cantidad de
carbn utilizado durante 10 semanas. Los datos de la muestras
son:
n= 10 semanas tamao de la muestra.
d= grados de libertad.
= 11,400 media de la muestra.
S = 700 toneladas desviacin estndar de la muestra.
El administrador de la planta desea una estimacin de intervalo
del consumo medio de carbn, y quiere estar 95% seguro de que
el consumo medio se encuentre dentro de dicho intervalo.
Solucin: El problema requiere el uso de la distribucin t, porque
el tamao de la muestra es menor que 30, no se conoce la
desviacin estndar de la poblacin.
Inferencia Estadstica:
Teora de estimacin.
Recuerde que se puede estimar la desviacin estndar de la
poblacin a partir de la desviacin estndar de la muestra; por
consiguiente.

Ahora buscamos en la tabla t en la columna correspondiente a


0.05(100%- 5%) hasta llegar a la hilera de 9 grados. En ese punto
tomamos el valor t 2.262 en consecuencia, estableceremos
nuestros lmites de confianza.

Anlisis Estadstico:
Prueba de Hiptesis.
Las dos actividades principales de la estadstica inferencial
son el uso de datos:
Para estimar un parmetro poblacional (la media, la porcin o la desviacin
estndar).
Probar una hiptesis o afirmacin con respecto a un parmetro poblacional.
La prueba de hiptesis es un procedimiento estndar para probar una
aseveracin acerca de una propiedad de una poblacin.
La prueba de hiptesis tiene como objeto principal evaluar suposiciones o
afirmaciones acerca de los valores estadsticos de poblacin.
La suposicin puede ser cierta o falsa.
La prueba comienza con un suposicin, llamada hiptesis que hacemos con
respecto a un parmetro de la poblacin.
Luego recolectamos datos de muestra, producimos estadsticas y usamos
esta informacin para decidir qu tan probable es que sea correcto nuestro
parmetro de poblacin acerca del cual hicimos la hiptesis.
Anlisis Estadstico:
Prueba de Hiptesis.
Digamos que suponemos un cierto valor para una
media de poblacin. Para probar la validez de
nuestra suposicin recolectamos datos de muestra y
determinamos la diferencia entre el valor
hipotetizado y el valor real de la media de dicha
muestra.
Despus juzgamos si la diferencia es significativa o
no.
Mientras ms pequea sea la diferencia, mayor ser
la probabilidad de que nuestro valor hipotetizado
para la media sea correcto. Mientras mayor sea la
diferencia, ms pequea ser la probabilidad.
Anlisis Estadstico:
Prueba de Hiptesis.
Nota: No podemos aceptar o rechazar una hiptesis sobre un parmetro
de poblacin simplemente por intuicin. Ms bien, necesitamos aprender
cmo decidir objetivamente si aceptamos o rechazamos una corazonada,
con base en informacin acerca de la muestra.
En la prueba de hiptesis, debemos establecer el valor supuesto o
hipotetizado del parmetro de la poblacin antes de comenzar a tomar la
muestra.
La suposicin que deseamos probar se conoce como hiptesis nula, y se
simboliza H. Ejemplo si quisiramos probar la hiptesis de que la media
de la poblacin es igual a 100. La simbolizaramos y la leeramos La
hiptesis nula es que la media de la poblacin es igual a 100 H: =100
Si en un problema usamos un valor hipotetizado de una media de
poblacin, lo representaramos como: se lee el hipotetizado de la
media de la poblacin.
Si los resultados de nuestra muestra no respaldan la hiptesis, debemos
concluir que se cumple alguna otra cosa.
Anlisis Estadstico:
Prueba de Hiptesis.
Siempre que rechazamos la hiptesis, la conclusin que si aceptamos, se
llama hiptesis alternativa y se simboliza H.
H: > 100 La hiptesis alternativa es que la media de poblacin es
mayor que 100.
H: < 100 La hiptesis alternativa es que la media de la poblacin es
menor que 100.
Nota: El propsito de la prueba de hiptesis no es cuestionar el valor
calculado de la estadstica de muestra, sino hacer juicio con respecto a la
diferencia entre estadstica de muestra y un parmetro de la poblacin.
Si suponemos que la hiptesis es correcta, entonces el nivel de
significancia indicar el porcentaje de media de muestra que est fuera
de ciertos lmites.
Seleccin del nivel de significancia.
Mientras ms alto sea el nivel de significancia que utilizamos para probar
una hiptesis, mayor ser la probabilidad de rechazar hiptesis nula
cuando es cierta.
Anlisis Estadstico:
Prueba de Hiptesis.
Anlisis Estadstico:
Prueba de Hiptesis.
Errores tipo I y tipo II
El rechazo de un hiptesis nula cuando es cierta se denomina error del
tipo I ( su probabilidad es tambin el nivel de significancia de la prueba).
Se simboliza como (alfa).
Al hecho de aceptar una hiptesis nula cuando es falsa se denomina error
del tipo II y su probabilidad se simboliza como beta (beta).
La probabilidad de cometer un tipo de error puede reducirse slo si
deseamos incrementar la probabilidad de cometer el otro tipo de error, es
decir, con el fin de obtener un beta bajo, tendremos que tolerar un alfa
alta.
Despus de definir el nivel de significancia a utilizar, lo siguiente ser en
determinar la distribucin de probabilidad adecuada ( La distribucin
normal (z) y la distribucin t de student ).
Nota: Al probar el valor hipotetizado de una media al igual que en la
estimacin, se utiliza el multiplicador de la poblacin finita siempre que la
poblacin sea finita en tamao, el muestreo se haga sin remplazo y la
muestra sea de ms de 5% de la poblacin.
Anlisis Estadstico:
Prueba de Hiptesis.
Decisiones en cuanto a los tipos de error.
Si se acepta una hiptesis verdadera la decisin es correcta.
Si se acepta una hiptesis falsa, cometemos el error tipo II.
Si rechazamos una hiptesis verdadera, cometemos el error tipo I.
Si rechazamos una hiptesis falsa la decisin es correcta.
Ejemplo I: Probar la hiptesis de que el precio medio de un
apartamento con tres dormitorios y dos baos, en un sector del
D.N. es 15,000 pesos. Explique en qu condiciones cometeramos
un error y de qu tipo?
Error tipo II, si aceptamos el precio del apartamento de 15,000,
cuando no lo es.
Error tipo I, si rechazamos el precio de 15,000, cuando es cierto.
Ejemplo II: Supongamos que la universidad desea contratar los
servicios de una estudiante para trabajar en la biblioteca. Para ello
es sometida a una entrevista bajo las siguientes hiptesis.
Anlisis Estadstico:
Prueba de Hiptesis.
a) La estudiante Awilda es competente parar desarrollar la labor.
b) La estudiante Awilda no es competente para esa labor.
) En qu condiciones los encargados de evaluarla cometern un
error de tipo I o de tipo II.
) Error tipo I: Decidir si Awilda no es competente si realmente lo
es.
) Error tipo II: Decidir que Awilda es competente si realmente no lo
es.
Anlisis Estadstico:
Prueba de Hiptesis.
Prueba de hiptesis de dos extremos y de un extremo
Una prueba de dos extremos rechazar la hiptesis nula si la media de
muestra es significativamente mayor o menor que la media de la
poblacin hipotetizado. Por consiguiente, en una prueba de dos
extremos existe, dos regiones de rechazo.
Una prueba de dos extremos es apropiada cuando la hiptesis nula es
= (en donde es algn valor especificado) y la hiptesis
alternativa es distinta .
Ejemplo: Un fabricante de focos elctricos desea producirlo con una
vida media de 1,000 horas = = 1,000 si el tiempo de vida es
ms corto perder clientes si el tiempo de vida es muy largo, entonces
subirn los costos. Deber tomar una muestra con el fin de probar la
hiptesis H: = 1,000. Como no quiere desviarse significativamente de
1,000 horas en ninguna direccin, la hiptesis alternativa ser H:
1,000, y entonces rechaza la hiptesis nula si la vida media de los focos
de la muestra est muy por arriba de 1,000 horas y muy por debajo de
1,000 horas.
Anlisis Estadstico:
Prueba de Hiptesis.
Prueba de un solo extremo, si un comprador de focos no desea
aceptar un lote a menos que su vida media sea de al menos 1,000
horas. La empresa rechazar el lote cuando pruebe que su vida
media est por debajo de la mil horas. Entonces la hiptesis para
el mayorista son: H: = 1,000 H < 1,000. Rechaza la : H slo si
la vida media de los focos muestreados est significativamente
por debajo de las 1,000 horas. Esta prueba de extremo es
conocida como prueba de extremo izquierdo.
Una prueba de extremo derecho es cuando H: = H >
conocida tambin como prueba de extremo superior.
Anlisis Estadstico:
Prueba de Hiptesis.
Prueba de hiptesis de media cuando se conoce la desviacin
estndar de la poblacin.
Prueba de dos extremos de medias: Prueba en la escala de la varianza
original
Ejemplo: Los ejes traseros de camiones deben soportar 80,000 lbs. por
pulgadas cuadradas. La experiencia indica que la desviacin estndar de la
fuerza de los ejes es de 4,000 lbs. El fabricante selecciona una muestra de
100 ejes de la produccin. Los prueba y encuentra que la capacidad de
carga media de la muestra es de 79, 600 libras. Simblicamente.

= 80,000 valor hipotetizado de la media de la poblacin.


= 4,000 desviacin estndar de la poblacin.
n = 100 tamao de la muestra.
= 79,600 media de la muestra.
Anlisis Estadstico:
Prueba de Hiptesis.
Si el fabricante elije un nivel de significancia ( ) de 0,05 en la prueba
satisfarn los ejes sus requerimientos de carga? Simblicamente el
problema se establece:
H: = 80,000 hiptesis nula: la media real es 80,000 libras por pulgadas.
H: 80,000 hiptesis alternativa: La media real no es 80,000 libras por
pulgadas.
= 0,05 es el nivel de significancia para probar esta hiptesis.
Solucin: Como conocemos la desviacin estndar de la poblacin, y como
el tamao de la poblacin es lo suficientemente grande para considerarlo
infinito, podemos utilizar la distribucin normal.
1. Calculamos el error estndar de la muestra.

2. Para hacer esta prueba se necesita un valor observado calculado a partir


de la muestra, y un valor crtico que define la frontera entre las regiones de
aceptacin y de rechazo.
Anlisis Estadstico:
Prueba de Hiptesis.
3. Buscar el valor de z, como tenemos un valor de significancia de
0,05 podemos ver que el valor apropiado para 0,475 es de 1,96
desviaciones y con esto podemos determinar los lmites de la regin
de aceptacin.

Como se puede observar la media de muestra cae dentro de la regin


de aceptacin; el fabricante debe aceptar la hiptesis nula, porque no
hay diferencia significativa entre la media hipotetizado de 80,000 y la
media de la muestra.
Anlisis Estadstico:
Prueba de Hiptesis.
Anlisis Estadstico:
Prueba de Hiptesis.
Prueba de hiptesis usando la escala estandarizada
Si miramos el ejercicio anterior, que nuestra media de muestra es
de 79,600, esta dada en la escala sin procesar, pero los valores
de z de 1.96 estn dados en escala estandarizada.
Como estos dos nmeros estn dados en dos escalas distintas, no
podemos compararlos directamente cuando probamos nuestra
hiptesis, es decir, que debemos convertir uno de ellos en la
escala del otro.

La media de la muestra est a un error estndar por debajo de la


media de la poblacin.
Anlisis Estadstico:
Prueba de Hiptesis.
Pasos Accin a ejecutar
1 Decida de cunto extremos es la prueba. Establezca un
hiptesis y el nivel significancia ( )
2 Decida la distribucin apropiada ( z, t ). Encuentre los
valores crticos
3 Calcule el error estndar de la estadstica de muestra. Use
el error estndar para convertir el valor observado de la
estadstica de muestra a un valor estandarizado.
4 Marque la posicin del valor de la muestra estandarizado
5 Compare el valor de la estadstica de muestra estandarizado
con los valores crticos e interprete el resultado.
Anlisis Estadstico:
Prueba de Hiptesis.
Prueba de un extremo de media.
Suponga que un hospital utiliza un medicamento que con 100 cc
es la dosis apropiada, la accin del medicamento es tal que el
cuerpo tolera inocuamente dosis excesivas. Por otra parte, las
dosis insuficiente no producen los efectos mdicos deseados.
El hospital sabe que la desviacin estndar de la poblacin es de
2cc. El hospital inspecciona aleatoriamente 50 dosis de la
medicina y encuentra que la media de la dosis es 99.75 cc.
= 100 valor hipotetizado de la media de la poblacin.
= 2 desviacin estndar de la media de la poblacin.
n = 50 tamao de la muestra.
= 99.75 media de la muestra.
Con un nivel de significancia 10% queremos saber si la dosis de
ese lote es demasiado pequea.
Anlisis Estadstico:
Prueba de Hiptesis.
Anlisis Estadstico:
Prueba de Hiptesis.
= 100 hiptesis nula: La media de la dosis del lote es 100cc.
100 hiptesis alternativa: La media es menor que 100 cc.
= 0.10 nivel de significancia.
Solucin: Como conocemos la desviacin estndar de la poblacin, y n es
mayor que 30, podemos utilizar la distribucin normal.
Podemos determinar que el valor crtico de z para 40% del rea bajo la curva
es de 1.28.
Procedemos calcular el error estndar de la media, utilizando la desviacin
estndar de la poblacin que conocemos.

Ahora estandarizamos. Con los resultados estandarizado el hospital debe


aceptar la hiptesis nula, porque la media observada de la muestra no es
significativamente menor que nuestra media hipotetizado.

Anlisis Estadstico:
Prueba de Hiptesis.
Anlisis Estadstico:
Prueba de Hiptesis.
Prueba de hiptesis de porcin: Muestras grandes
Pruebas de dos extremos de porciones. Recordemos que la binomial
es la distribucin tericamente para usarse a trabajar con porciones,
por el simple hecho de que los datos son discreto y el tamao de la
muestra es menor de 30. Si aumenta el tamao de la muestra
podemos usar la distribucin normal, porque al aumentar el tamao
de la muestra la distribucin binomial se aproxima a la normal.
Por consiguiente, podemos utilizar la distribucin normal para
aproximar la distribucin de muestreo.
Ejemplo: La compaa trata de evaluar la porcin de empleados cuyas
capacidad, capacitacin y experiencia de supervisin los califican
para promocionarlos. Recursos Humanos dice que el 80% de los
empleados de la compaa son promocionables. Se hace una
entrevista a fondo con 150 empleados y encuentra que, a su juicio
slo el 70% de la muestra est calificada para su promocin.
Anlisis Estadstico:
Prueba de Hiptesis.

El presidente desea probar al nivel de significancia de 0,05 la hiptesis


de que 0.80 de los empleados son promocionables:
H:p= 0.80 hiptesis nula: 80% de los empleados son promocionables.
H:P 0.8 hiptesis alternativa: La porcin de los empleados
promocionables no es 80%.
= 0.05 nivel de significancia para probar la hiptesis.
En este caso la compaa necesita saber si la porcin verdadera es
mayor o menor que la porcin hipotetizada.
Anlisis Estadstico:
Prueba de Hiptesis.
Solucin: Es adecuado una prueba de dos extremos de una porcin, en
ambos lados de los extremos tenemos 0.025 y la regin de aceptacin de
95%, es decir, cada una contiene un rea de 0.475. Puesto que np y nq
son cada una mayores que 5, podemos utilizar la aproximacin normal de
la distribucin binomial, podemos determinar que el valor crtico para z
0.475 del rea bajo la curva es 1.96.
Podemos calcular el error estndar de la porcin, utilizando los valores
hipotetizados de y

A continuacin estandarizamos la porcin de la muestra dividiendo la


diferencia entre la porcin de muestra observada y la porcin
hipotetizada, entre el error estndar de la porcin.

Anlisis Estadstico:
Prueba de Hiptesis.

AL sealar la porcin de la muestra estandarizada calculada,


-3.06, en una parte de la distribucin de muestreo, es evidente
que esta muestra cae fuera de la regin de aceptacin.
El presidente debe rechazar la hiptesis nula y concluir que existe
una diferencia entre la porcin hipotetizada de empleados
promocionables (0.80) de recursos humanos y la porcin
observada de empleados promocionables en la muestra. De esto,
debe inferir que la porcin real de empleados promocionables en
toda la compaa no es de 80%.
Anlisis Estadstico:
Prueba de Hiptesis.
Anlisis Estadstico:
Prueba de Hiptesis.
Pruebas de un extremo de porcin.
Un protestante preocupado por la contaminacin de las industrias
afirma, que menos de 60% de las plantas industriales cumple con los
estndares de contaminacin ambiental. A la reunin asisti una
funcionaria pblica que cree que el 60% de las plantas si cumple con
los estndares; decide probar esta hiptesis a nivel de significancia de
0,02.

La funcionaria presenta 60 plantas de una poblacin de ms de 10,000


plantas y encuentra que 33 cumplen con los estndares de
contaminacin ambiental. Es vlida la afirmacin de los protestantes?
Anlisis Estadstico:
.

Prueba de Hiptesis.

Esta es una prueba de un extremo.


Como np y nq estn cada uno por arriba de 5, podemos usar la
aproximacin normal de distribucin binomial. El valor crtico de z
para 0.48 del rea bajo la curva es de 2.06

Finalmente estandarizamos la porcin de muestra dividiendo la


diferencia entre la porcin de muestra observada y la porcin
hipotetizada entre el error estndar de la porcin.
Anlisis Estadstico:
Prueba de Hiptesis.
Anlisis Estadstico:
Prueba de Hiptesis.
Podemos observar que la porcin de muestra cae dentro de la
porcin de la regin de aceptacin. Por consiguiente, la
funcionaria debe aceptar la hiptesis nula de que la porcin de la
planta es de 0.6.
Aunque la porcin de la muestra observada est por debajo de
0,6, no est lo bastante debajo de 0.6 para hacer que aceptemos
la afirmacin del miembro del grupo de inters pblico.
Anlisis Estadstico:
Prueba de Hiptesis.
Prueba de hiptesis de medias cuando no se conoce la desviacin
estndar de la poblacin.
Recodar: Que si el tamao de la muestra n es de 30 o menor y
error estndar ( ) se desconoce, debemos utilizar la distribucin
( t ).
La distribucin ( t) tiene n-1 grado de libertad. Esta regla tambin
se aplica a la prueba de hiptesis.
Prueba de hiptesis de dos extremos usando la distribucin t.
En una prueba de aptitud, la directora le dice al presidente que la
puntuacin promedio ser de aproximadamente de 90%. En una
revisin el presidente encuentra que la puntuacin media es de
84% con una desviacin de 11 de una muestra de 20.
Anlisis Estadstico:
Prueba de Hiptesis.
Si el presidente desea probar su hiptesis al nivel de significancia
de 0.10. El procedimiento es el siguiente:

Solucin:
Es una prueba de dos extremos.
Puesto que el tamao de la muestra es de 20 el nmero de grados
de libertad es de 19, es decir, 20-1.
Entonces buscamos en la tabla de la distribucin t en la columna
encabezada por 0.10, hasta llegar a la hilera correspondiente a 19
grados de libertad, all encontramos el valor crtico de t, 1,729.
Como no se conoce la desviacin estndar de la poblacin
debemos estimarla usando la desviacin estndar de la muestra.
= S = 11.
Anlisis Estadstico:
Prueba de Hiptesis.
Como estamos usando una estimacin de error estndar de la
poblacin, el error estndar de la media tambin ser una
estimacin.

A continuacin estandarizamos la media de la muestra, ,


restando la media hipotetizada, y dividiendo entre el error
estndar estimado de la media.

Al sealar este resultado en una grfica de la distribucin de


muestreo, nos damos cuenta que la media de la muestra cae
fuera de la regin de aceptacin, por consiguiente, el presidente
debe rechazar la hiptesis nula.
Anlisis Estadstico:
Prueba de Hiptesis.
Pruebas de hiptesis para diferencias entre medias y porciones.
En ocasiones, la gente necesita determinar si los parmetros de dos poblaciones
son parecidos o diferentes.
Por ejemplo: El gobierno tendra algn inters en saber si los salarios de los
trabadores del campo de la Regin Sur son iguales a los salarios de los
trabajadores agrcola de la Regin Norte.
El gerente de una compaa este interesado en la proporcin de empleados que
deseen formacin interna, con otra proporcin que desee formacin en otra
institucin.
Nota: Debido a que ahora deseamos estudiar dos poblaciones, la distribucin de
muestreo que nos interesa, es la distribucin de muestreo de diferencias entre
media.
Ahora tendremos dos poblaciones identificada como poblacin 1 y poblacin 2.
stas tienen media y y desviacin estndar y , respectivamente.
Las distribuciones de muestreo tericas de la media se forman a partir de todas
las muestras posibles de un tamao dado que se pueden tomar de la
distribucin de la poblacin correspondiente.
Anlisis Estadstico:
Prueba de Hiptesis.
Supongamos que tomamos una muestra de la distribucin de la
poblacin 1 y una muestra de la poblacin 2. Si luego restamos las
dos medias de las muestras obtenemos: estos es la
diferencia entre las medias de las muestras.
Esta diferencia ser positiva si es mayor que , y ser
negativa si , es menor que .
La media de la distribucin de muestreo de la diferencia entre las
medias de las muestras se representa con el smbolo y es
igual a si

La desviacin estndar de la distribucin de la diferencia entre las


medias de las muestras se conoce como error estndar de la
diferencia entre dos medias, y se calcula de la siguiente manera:
Anlisis Estadstico:
Prueba de Hiptesis.
En donde:

Si no conocemos las dos desviaciones estndar de poblacin, podemos estimar


el error estndar de las diferencias entre dos medias.

Ahora tendremos el error estndar estimado de la diferencia entre dos muestras.


Anlisis Estadstico:
Prueba de Hiptesis.
Pruebas para diferencias entre medias: Tamao grande.
Recuerde que cuando pasa de 30 el tamao de la muestra se considera
grande.
Ejemplo se le pide a un experto que determine si los salarios por horas de
los obreros semiespecializados son los mismos en dos ciudades distintas.

CIUDAD SALARIOS DESVIACIN TAMAO DE LA


MEDIOS POR ESTNDAR DE MUESTRA
HORA DE LA LA MUESTRA
MUESTRA
D.N. 8.95 0.40 200
STGO. 9.10 0.60 75
Se desea probar la hiptesis en el nivel de 0.05 de que no hay diferencias
entre los salarios por hora de los trabajadores semiespecializados de las
dos ciudades.
Anlisis Estadstico:
Prueba de Hiptesis.
H: = hiptesis nula: No hay diferencia.
H: hiptesis alternativa: Existe diferencia
= 0.05 nivel de significancia para la prueba de esta hiptesis.
Solucin:
Vemos que es una prueba de dos extremos.
El nivel de significancia es de 0.05 dividido en ambas cola de
0.025 del rea.
La regin de aceptacin contiene dos reas iguales de 0.475.
Como ambas pruebas son grandes, podemos utilizar la tabla de la
distribucin normal.
Como no se conocen las desviaciones estndar de las dos
poblaciones, entonces, debemos estimarla
Anlisis Estadstico:
Prueba de Hiptesis.
Ahora estimamos.

A continuacin estandarizamos la diferencia de las medias de las


muestras,
Primero calculamos la diferencia hipotetizada
de las medias de las poblaciones, luego dividimos entre , el
error estndar estimado de la diferencia entre las medias de la
muestras.
Anlisis Estadstico:
Prueba de Hiptesis.
Sealamos la diferencia estandarizada en una grfica de la
distribucin de muestreo y comparamos con el valor crtico. En la
figura se muestra que la diferencia estndar entre las dos medias
de la muestra se encuentra fuera de la regin de aceptacin. As
rechazamos la hiptesis nula de no diferencia y llegamos a la
conclusin de que las medias de las poblaciones son diferentes.
Anlisis Estadstico:
Prueba de Hiptesis.
Tambin pudimos haber investigado si los salarios promedios
estaban aproximadamente diez centavos por hora ms bajos en el
D.N. que en Stgo. En este caso la hiptesis hubiera sido:
H: = -0.10 hiptesis nula: Los salarios estn 0.10 ms abajo
en el D.N. que en STGO.
H: -0.10 hiptesis alternativa: Los salarios no estn 0.10
ms bajos en D.N. que en STGO.
= 0.05 nivel de significancia para la prueba de esta hiptesis.
Solucin: En este caso, la diferencia hipotetizada entre las dos
medias sera

Anlisis Estadstico:
Prueba de Hiptesis.
Prueba para diferencias entre medias: Tamao de muestra pequeos.
Cuando el tamao de la muestra es pequea basaremos la prueba
de muestra en la distribucin t.
Ejemplo: Se va aprobar un programa educativo para grupo de
jvenes altamente peligrosos, el programa es ms caro, que el
que haban usado anteriormente. Un psiclogo desea saber, a un
nivel de significancia de 0,05, si este gasto ha aumentado la
sensibilidad de los jvenes.
H: = hiptesis nula: No hay diferencia en los niveles de
sensibilidad proporcionados por los dos programas.
H: < hiptesis alternativa: El nuevo programa tiene como
resultado niveles ms altos de sensibilidad.
= 0.05 Nivel de significancia para la prueba de esta hiptesis.
Anlisis Estadstico:
Prueba de Hiptesis.
H:= hiptesis nula: No hay diferencia en los niveles de sensibilidad
proporcionados por los dos programas.
H:> hiptesis alternativa : El nuevo programa tiene como resultado niveles de
sensibilidad ms altos.
= 0.05 nivel de significancia para la prueba de esta hiptesis.

Programa Sensibilidad Nmeros de Desviacin


muestreado media jvenes estndar de
despus de observados la
tomar el sensibilidad
examen despus del
programa
Formal 92% 12 15%
Informal 84% 15 19%
La compaa desea probar si la sensibilidad adquirida despus de tomar el nuevo
programa es significativamente mayor que la adquirida en el programa ms
antiguo.
Anlisis Estadstico:
Prueba de Hiptesis.
Solucin: Vemos que es una muestra de un solo extremo, luego
procedemos a calcular el error estndar.

Hasta tanto no llegar al otro captulo asumiremos que la varianza


de la poblacin 1 es igual a la varianza de la poblacin 2
Supongamos, por el momento, que Para hallar la
varianza de la poblacin a partir de la varianza de la muestra
usamos un promedio pesado, de en que los pesos son el
nmero de grado de libertad, usamos un promedio pesado de
en el cual los pesos son el nmero de grado de libertad de
cada muestra.
Anlisis Estadstico:
Prueba de Hiptesis.
A este promedio pesado se le conoce como estimacin conjunta
de la varianza.

Como la muestra es pequea tenemos que usar la distribucin t y,


al tener dos muestras, entonces, tenemos dos grados de libertad
n- 1 de la muestra 1 y n- 2 de la muestra dos. En consecuencia,
tenemos 12 + 15 2 = 25 grados de libertad.
Debido a que estamos efectuando una prueba de extremo
superior aun nivel de significancia de 0.05 el valor crtico de t es
de 1.708.
Buscamos el error estndar estimado
Anlisis Estadstico:
Prueba de Hiptesis.
Entonces:

Sacando la raz obtenemos:


Anlisis Estadstico:
Prueba de Hiptesis.
A continuacin estandarizamos la diferencia de las medias de las
muestras, primero hacemos la operacin.

La diferencia estandarizada entre las dos medias de la muestra se


encuentra dentro de la regin de aceptacin. De esta manera
aceptamos la hiptesis nula de que no existe una diferencia
significativa entre los niveles de sensibilidad adquiridos en los dos
programas, Es decir que los gastos de la empresa con respecto al
programa formal no ha producido un alza significativa en el nivel
de sensibilidad.
Anlisis Estadstico:
Prueba de Hiptesis.
Prueba de diferencias entre medias con muestras dependientes.
Dos muestras son dependientes ( 0 consistentes en datos
apareados) si los miembros de una muestra pueden utilizarse para
determinar los miembros de la otra muestra.
Para cada par de datos de valores muestrales, calculamos la
diferencia entre los dos valores y luego utilizamos esas diferencias
muestrales para probar aseveraciones acerca de la diferencia
poblacional.
La muestra dependiente se trabajan iguales que las
independientes, con la diferencia de que se utiliza una frmula
distinta para el error estndar, adems, se requiere que las
muestras sea del mismo tamao.
Anlisis Estadstico:
Prueba de Hiptesis.
Un balneario de agua curativas ha anunciado un programa de
reduccin de peso y afirma que el participante promedio en el
programa pierde ms de 17 libras. Un investigador toma los registros
de 10 participantes y anot el peso que tenan antes y despus.
Antes 189 20 220 207 194 177 193 202 208 233
2
Despu 170 179 203 192 172 161 174 187 186 204
s
El investigador desea probar a un nivel de significancia de 5% la
prdida promedio de peso anunciada a 17 libras.
H: - = 17 hiptesis nula: La prdida promedio de peso es de
solamente de 17 libras.
H: - > 17 hiptesis alternativa: La prdida promedio de peso
excede las 17 libras.
= 0.05 nivel de significancia.
Anlisis Estadstico:
Prueba de Hiptesis.
Si la poblacin de prdida de peso tiene una media , podemos
replantear nuestra hiptesis.
H: = 17 H: > 17.
Solucin: Es una prueba de extremo derecho.
Usamos la distribucin t
El nmero de grado de libertad es de (10 1).
El nivel de significancia de 0.05 para una distribucin de extremo
superior es de 1.833.
Empezamos con la comparacin de las prdidas individuales, su
media y su desviacin estndar, y procedemos de manera
exactamente igual como lo hicimos al probar hiptesis de una sola
media. Ver siguiente tabla
Anlisis Estadstico:
Prueba de Hiptesis.
ANTES DESPUS PRDIDA (X) PRDIDA AL
CUADRADO
(X)
189 170 19 361
202 179 23 529
220 203 17 289
207 192 15 225
194 172 22 484
177 161 16 256
193 174 19 361
202 187 15 225
208 186 22 484
233 204 29 841
= 197 x= 4,055
Anlisis Estadstico:
Prueba de Hiptesis.
Entonces la media y la desviacin sern:

Como no conocemos la desviacin estndar de la poblacin la


estimamos a partir de la muestra.
Ahora podemos estimar el error estndar de la media.

Luego estandarizamos la prdida media de peso observada


Restndole la prdida media hipotetizada, y dividiendo el
resultado entre el error estndar estimado de la media
Anlisis Estadstico:
Prueba de Hiptesis.
Finalmente tenemos:

Vemos que la media de la muestra se encuentra fuera de la regin


de aceptacin, de modo que el investigador puede rechazar la
hiptesis nula y llegar a la conclusin de que la prdida de peso
anunciada con el programa es legitima.
Anlisis Estadstico:
Prueba de Hiptesis.
Pruebas de diferencias para porciones: Tamaos de muestras grandes.
Esta prueba es utilizada para saber por ejemplo, si las mujeres
tienen la misma probabilidad que los hombres de adquirir un carro
deportivo, o si un partido poltico es ms fuerte en regin que en
otra.
Para llegar a conclusiones en situaciones como stas, podemos
tomar muestras de cada uno de los dos grupos en cuestin
( ejemplo votantes en la regin sur y votantes del norte). Y utilizar
las porciones de muestra para probar la diferencia entre las dos
poblaciones.
El procedimiento es muy parecido cuando se comparan dos medias
utilizando muestras independientes.
La nica diferencia importante se dar en la forma en que
encontremos una estimacin para el error estndar de la diferencia
entre las dos porciones de muestra.
Anlisis Estadstico:
Prueba de Hiptesis.
Prueba de dos extremos para las diferencias entre porciones.
Ejemplo: un laboratorio est probando dos nuevos compuestos
destinados a reducir los niveles de la presin sangunea. Los
compuestos son suministrados a dos diferentes conjuntos de
animales de laboratorio. En el grupo I, 71 de 100 animales
probados respondieron a la droga I con niveles menores de
presin arterial. En el grupo II, 58 de 90 animales probados
respondieron a la droga dos, con menores niveles de presin
sangunea, La compaa desea probar a un nivel de significancia
de 0.05 si existe una diferencia entre las dos medicinas De qu
manera se puede proceder con este problema?
Anlisis Estadstico:
Prueba de Hiptesis.
Entonces tenemos que:
Anlisis Estadstico:
Prueba de Hiptesis.
Solucin: Es una prueba de dos extremos.
El nivel de significancia de 0.05. corresponde a un nivel crtico de
1.96.
La muestras son grandes por lo que podemos usar la distribucin
normal para aproximar a la binomial.
corresponde a un nivel crtico de 1.96. para ocupar un rea de
0.475 bajo la curva.
Se calcula la desviacin estndar de la distribucin de muestreo,
la distribucin binomial es la correcta.
Deseamos encontrar el error estndar de la diferencia entre dos
porciones, por tanto, debemos recordar la frmula para el error
estndar de la porcin

Anlisis Estadstico:
Prueba de Hiptesis.
Continuando.

Para probar los dos medicamentos, no sabemos los parmetros de


la poblacin p, q, p, q y, por consiguiente, necesitamos
estimarlos a partir de la estadstica de muestra, obteniendo una
nueva frmula:

Despus de todo, si hacemos la hiptesis de que no hay diferencia


entre las dos porciones de poblacin, entonces nuestra mejor
estimacin de la porcin completa de xitos en la poblacin, es la
porcin combinada de xitos de ambas muestras.
Anlisis Estadstico:
Prueba de Hiptesis.
Seguimos

Ahora tenemos las estimaciones de p y q,


por lo que podemos obtener el error
estndar.

Anlisis Estadstico:
Prueba de Hiptesis.
Ahora calculamos el error estndar:

Estandarizamos la diferencia entre las dos porciones de muestra


observadas dividindola entre el error estndar
Anlisis Estadstico:
Prueba de Hiptesis.
Podemos ver que la diferencia estandarizada entre las dos
porciones de muestra se encuentran dentro de la regin de
aceptacin. As pues, aceptamos la hiptesis nula y concluimos
que estos dos nuevos medicamentos producen efectos en la
presin sangunea que no son significativamente diferentes.
Anlisis Estadstico:
Prueba de Hiptesis.
Prueba de extremo para diferencias entre porciones.
Ejemplo: el ayuntamiento de una cuidad ha estado utilizando dos
mtodos para listar propiedades.
El primero requiere que el dueo de la propiedad aparezca en
persona ante el recibidor de la informacin;
El segundo mtodo permite que el dueo de la propiedad envi
por correo una forma fiscal con la informacin requerida..
El alcalde piensa que el mtodo en el cual se requiere la presencia
de la persona produce menos errores que el otro.
Por consiguiente, autoriza la realizacin de un examen de 50
listas hechas con el primer mtodo y de 75 listas tomadas de los
datos llegados por correo.
El 10% de las formas llenadas ante el representante del fisco
tienen errores; 13.3% de las formas llenadas por correo tienen
errores.
Anlisis Estadstico:
.

Prueba de Hiptesis.
Los resultados del muestreo son:

El alcalde desea probar, al nivel de significancia de 0.15, la


hiptesis de que el mtodo de entrega personal produce una
porcin menor de errores.
Anlisis Estadstico:
Prueba de Hiptesis.
H:p = p hiptesis nula: No existe diferencia entre los dos
mtodos.
H:P < P hiptesis alternativa: El mtodo de entrega personal
tiene una porcin menor de errores que el mtodo de entrega por
correo.
= 0.15 nivel de significancia para probar la hiptesis.
Solucin para estimar el error estndar de la diferencia entre dos
porciones, primero utilizamos las porciones combinadas de ambas
para estimar la porcin completa de xito.
Anlisis Estadstico:
Prueba de Hiptesis.
Ahora podemos calcular el error estndar de la diferencia entre las
dos porciones.

Ahora utilizamos el error estndar estimado de la diferencia


para convertir la diferencia observada entre las dos porciones de
muestra, en un valor estandarizado.

El alcalde debe aceptar la hiptesis nula de que no existe diferencia


entre los dos mtodos de recabar informacin. Nos damos cuenta de
que el mtodo de envo por correo es ms econmico.
Inferencia Estadstica:
Anlisis de regresin y correlacin.
El trmino regresin fue utilizado por primera vez como un concepto
estadstico en 1877 por sir Francis Galton. ste realiz un estudio que
mostr que la altura de los nios nacidos de padres altos tendern a
retroceder o regresar hacia la altura media de la poblacin.
Le dio el nombre a la palabra regresin como el proceso general de
predecir una variable (la altura de los nios) de otra ( la altura de los
padres). Ms tarde los estadsticos acuaron el trmino regresin
mltiple para describir el proceso mediante el cual se utilizan varias
variables para predecir otras.
En el anlisis de regresin, desarrollaremos una ecuacin de estimacin,
esto es, una frmula matemtica que relaciona las variables conocidas
con las variables desconocidas.
La regresin y los anlisis de correlacin nos mostrarn cmo determinar
tanto la naturaleza como la fuerza de una relacin entre dos variables.
El anlisis de correlacin, entonces, nos dice qu tan bien la ecuacin de
estimacin describe la relacin.
Inferencia Estadstica:
Anlisis de regresin y correlacin.
La regresin y los anlisis de correlacin se basan en la relacin, o
asociacin, entre dos o ms variables. La variable (es) conocida(s) se
denomina variable independiente y la variable que tratamos de
predecir es la variable dependiente.
En regresin slo podemos tener una variable dependiente en
nuestra ecuacin de estimacin. Sin embargo, podemos usar ms de
una variable independiente. A menudo cuando aadimos variables
independientes mejoramos la exactitud de nuestra prediccin.
Relacin directa es cuando al aumentar la variable independiente se
produce un aumento en la variable dependiente. Por ejemplo, si
esperamos que las ventas de una empresa se incrementen al
aumentar la inversin en publicidad, entonces, podemos observar
una relacin directa al ubicar la variable independiente en el eje X y
la variable dependiente en el eje Y. La pendiente que toma la lnea de
regresin es positiva.
Inferencia Estadstica:
Anlisis de regresin y correlacin.
Relacin inversa es cuando al aumentar o disminuir la variable
independiente la variable dependiente toma la direccin opuesta.
Por ejemplo, el aumento en agente policiales reduce ndice de
criminalidad callejera. En este caso la pendiente que toma la lnea
de regresin es negativa.
Relacin causal entre variables se produce cuando la variable
independiente ocasiona que la variable dependiente cambie. Por
ejemplo, el aumento de ventas de carros produce un aumento de
ventas de apartamentos.
Inferencia Estadstica:
Anlisis de regresin y correlacin.
Nota: Es importante que considere que las relaciones encontradas
por la regresin sean consideradas como relaciones de asociacin
pero no necesariamente de causa y efecto.
Diagrama de dispersin, el primer paso en la determinacin de si
existe relacin entre dos variables es examinar la grfica de los
datos observados, llamada diagrama de dispersin.
Un diagrama de dispersin nos puede dar dos tipos de
informacin:
Visualmente, podemos buscar patrones que indiquen que la
variables estn relacionadas.
Entonces, si esto sucede podemos ver qu tipo de lnea o
ecuacin de estimacin, describe esta relacin.
Inferencia Estadstica:
Anlisis de regresin y correlacin.

Ejemplo, el director de registro de


INTEC quiere determinar si existe
una relacin, entre las calificaciones
de un estudiante en su examen de
admisin y el promedio de puntos
acumulados en el grado. El director
toma una muestra de 8 estudiantes.
Inferencia Estadstica:
Anlisis de regresin y correlacin.
Calificaciones de estudiantes en exmenes de admisin y
promedios de puntos de grado
Estudi A B C D E F G H
ante
Calific 74 69 85 63 82 60 79 91
acion
es
GPA(4 2.6 2.2 3.4 2.3 3.1 2.1 3.2 3.8
.0 =A)
Inferencia Estadstica:
Anlisis de regresin y correlacin.
En este ejemplo, la lnea
trazada a travs de nuestros
puntos de datos representan
una relacin directa, porque Y
se incrementa al incrementar X.
Como los puntos de datos estn
relativamente cerca de esta
lnea, podemos decir que existe
un alto grado de asociacin
entre las calificaciones de
exmenes y GPA acumulativo.
Podemos ver tambin, que la
relacin descrita por los puntos
de datos est bien representada
por una lineal recta, en
consecuencia, podemos decir
que existe una relacin lineal
Inferencia Estadstica:
Anlisis de regresin y correlacin.
Estimacin mediante la lnea de La b es la pendiente de la lnea.
regresin, es una ecuacin que Representan qu tanto cada
relaciona la dos variables cambio de unidad de la variable
matemticamente.
independiente X cambia la
Nota: hasta el momento slo veremos
variable dependiente Y.
la relaciones lineales involucrando
slo dos variables. Tanto a (intercepto) como b (la
Y= a+bx pendiente) son constante
Y= variable dependiente. numricas, puesto que, para
a = interseccin de Y. cualquier lnea recta dada, sus
b = pendiente de la lnea. valores no cambian.
X = variable independiente.
Con esta ecuacin, podemos tomar un
valor dado de X y calcular el valor de Y.
La a se denomina la interseccin
porque su valor es el punto en el cual
la lnea de regresin cruza el eje Y, es Usando esta ecuacin podemos
decir, el eje vertical. tomar un valor dado de X y
calcular el valor de Y
Inferencia Estadstica:
Anlisis de regresin y correlacin.
Uso de la ecuacin de estimacin para una lnea recta.
Cmo se pueden encontrar los valores de las constantes
numricas a y b?
En la prxima figura podemos encontrar visualmente a (la
interseccin de Y) la localizamos en el punto donde la lnea cruza
al eje Y, es decir, cuando a es igual a 3.
Para encontrar la pendiente de la lnea, b, debemos determinar
cmo cambia la variable dependiente, Y, al cambiar la variable
independiente, X. Podemos empezar eligiendo dos puntos sobre la
lnea, luego debemos encontrar la coordenada de ambos puntos.
A la coordenada de nuestro primer punto la llamaremos y las
del segundo punto podemos ver que el primer punto
corresponde a
Inferencia Estadstica:
Anlisis de regresin y correlacin.
Entonces, en este punto, podemos calcular el valor de b, usando
esta ecuacin:

Por tanto, podemos conocer los valores de las constantes


numricas, a y b, y escribir la ecuacin para una lnea recta. En
nuestro caso a=3 y b=2
Inferencia Estadstica:
Anlisis de regresin y correlacin.
El mtodo de mnimos cuadrados.
Ser un poco difcil calcular una ecuacin para una lnea dibujada
en medio de un conjunto de puntos en un diagrama de dispersin,
es decir, cmo podemos ajustar una lnea matemticamente si
ninguno de los puntos cae en ella.
La lnea tendr un buen ajuste si minimiza el error entre los
puntos estimados en la lnea y los verdaderos puntos observados
que se utilizaran para trazarla.
Ahora debemos comenzar a usar para simbolizar los valores
individuales de los puntos estimados.
Una forma en que podemos medir el error de nuestra lnea de
estimacin es sumando todas las diferencias, o errores
individuales, entre los puntos estimados y los puntos observados.
Inferencia Estadstica:
Anlisis de regresin y correlacin.
Si usamos el criterio de los mnimos cuadrados, podemos
determinar si una lnea de estimacin es un mejor ajuste que otro.
Los estadsticos han derivado dos ecuaciones que podemos
utilizar para encontrar la pendiente y la interseccin Y de la lnea
de regresin de mejor ajuste.
La primera frmula calcula la pendiente.
Inferencia Estadstica:
Anlisis de regresin y correlacin.
La segunda frmula calcula la interseccin Y.


Ejemplo: El sndico de Santo Domingo est interesado en la
relacin que existe entre la edad de un camin de basura y los
gastos anuales de reparacin que debera esperar. Con el fin de
determinar esta relacin, el director ha acumulado informacin
referente a cuatro de los camiones que la ciudad posee
actualmente.
Inferencia Estadstica:
Anlisis de regresin y correlacin.

Ejemplo:
Nmero de camin Edad (X) Gasto de reparacin
en miles de pesos
(Y)
101 5 7
102 3 7
103 3 6
104 1 4
Inferencia Estadstica:
Anlisis de regresin y correlacin.
Ya hemos conseguido la pendiente, ahora debemos encontrar la
interseccin.

Para obtener la ecuacin de estimacin que describe la relacin


entre la edad de un camin y sus gastos anuales de reparacin.
Podemos sustituir sus valores de a y b en la ecuacin general para
una lnea recta.
Inferencia Estadstica:
Anlisis de regresin y correlacin.
Camiones Edad (X) Gasto de XY X
n=4 reparacin(Y
)
101 5 7 35 25
102 3 7 21 9
103 3 6 18 9
104 1 4 4 1
x=12 y= 24 xy=78 x=44
Inferencia Estadstica:
Anlisis de regresin y correlacin.

Verificacin de la ecuacin de estimacin.


Una forma burda es observar la grfica, si se presenta una grfica
con los puntos muy cerca de la lnea de regresin, entonces,
podemos decir que existe alguna relacin entre las variables.
La otra es hacer una relacin de los errores individuales positivos
y negativos, es decir, que la suma de los errores sean igual a cero.
Ejemplo:
X Y ERROR INDIVIDUAL

5 31 (20+(2)(5) 1

11 40 (20+(2)(11) -2

4 30 (20+(2)(4) 2

5 34 (20+(2)(5) 4

3 25 (20+(2)(3) -1

2 20 (20+(2)(2) -4 ERROR TOTAL = O


Inferencia Estadstica:
Anlisis de regresin y correlacin.
El error estndar de la estimacin.
Mide la confiabilidad de la ecuacin de estimacin. Para medir la
confiabilidad de la ecuacin de estimacin los estadsticos han
desarrollado el error estndar de la estimacin. Se simboliza S e.
Nota: La desviacin estndar se utiliza para medir la dispersin de
un conjunto de observaciones respecto a una medida de
tendencia central, en tanto, el error estndar de la estimacin,
mide la variabilidad, o dispersin, de los valores observados
alrededor de la lnea de regresin.
Inferencia Estadstica:
Anlisis de regresin y correlacin.
Con el ejemplo de los camiones del sndico, nuestra ecuacin de
estimacin resulto ser: en la X era la edad del
camin y Y era la cantidad en peso realizada en reparaciones.
Para calcular el error estndar primero debemos determinar el
valor de
X Y ERROR
INDIVIDUAL

5 7 3.75+(0.75)(5) 7-7.5=-0.5 0.25

3 7 3.75+(0.75)(3) 7-6.0=1.0 1.00

3 6 3.75+(0.75)(3) 6-6.0= 0.0 0.00

1 4 3.75+(0.75)(1) 4-4.5= 0.5 0.25

Error total = 0

Suma de los
errores cuadrados
= 1,50
Inferencia Estadstica:
Anlisis de regresin y correlacin.
Ejemplo: El ejercicio que relaciona los gastos en investigacin,
desarrollo e innovacin con las ganancias.

AO Gastos Ganancia XY X Y
(n=6) en I+D+I s anuales
(X) (Y)
2006 5 31 155 25 961
2007 11 40 440 121 1600
2008 4 30 12 16 900
2009 5 34 170 25 1156
2010 3 25 75 9 625
2011 2 20 40 4 400
x=30 XY= 180 X=200 Y=5,642
Inferencia Estadstica:
Anlisis de regresin y correlacin.
Ahora ya podemos calcular el error estndar.

Mtodo de atajo para calcular el error estndar de la estimacin.

X = valores de la variable independiente.


Y = valores de la variable dependiente.
a = interseccin de Y
b = pendiente de la ecuacin.
n = nmero de puntos de datos.
Inferencia Estadstica:
Anlisis de regresin y correlacin.
Veamos un ejemplo.
Camione Edad (X) Gasto de XY X Y
s reparacin
n=4 (Y)
101 5 7 35 25 49
102 3 7 21 9 49
103 3 6 18 9 36
104 1 4 4 1 16
x=12 y= 24 xy=78 x=44 Y=150
Inferencia Estadstica:
Anlisis de regresin y correlacin.
Interpretacin del error estndar: Mientras ms grande sea el error
estndar de la estimacin, mayor ser la dispersin de los puntos
alrededor de la lnea de regresin. De manera inversa, s = 0,
esperamos que la ecuacin de estimacin sea un estimador
perfecto de la variable dependiente. En este caso, todos los
puntos de datos caeran directamente sobre la lnea de regresin, y
no habra puntos dispersos alrededor.
Suponiendo que los puntos observados estn normalmente
distribuidos, podemos encontrar que:
El 68% de los puntos caen dentro de ms o menos un error
estndar.
El 95.5% de los puntos caen dentro de ms o menos dos error
estndar
El 99.7% de los puntos caen dentro de ms o menos tres error
estndar.

Inferencia Estadstica:
Anlisis de regresin y correlacin.
Intervalos de prediccin aproximados.
Como podrn recordar, por ejemplo, que si un valor estimado cae
dentro de dos desviaciones estndar, esto nos dar el 95% de
seguridad que as es.
Si tomamos la ecuacin de estimacin de la reparacin de los
camiones, y realizamos una estimacin para cuatro aos
predecimos que tendr un gasto de reparacin anual de 6.75

Sabemos que el error estndar de esta operacin fue de 86.60,


por consiguiente, si quisiramos estar seguro en
aproximadamente 68% de que el gasto en reparacin estar
dentro 1 error estndar de la estimacin de
Inferencia Estadstica:
Anlisis de regresin y correlacin.
Nota: Los estadsticos aplican los intervalos de prediccin basados
en la distribucin normal, es decir, slo a grandes muestras, esto
es, cuando n>30. En caso que acabamos de realizar n= 4, por lo
que, las conclusiones no son del todo correcta.
Si quisiramos algo ms exacto cuando el tamao de la muestra
es pequeo, entonces utilizamos la distribucin t.
Supongamos que el sndico le pide al director de salubridad del
ayuntamiento que desea estar aproximadamente 90% seguro de
que los gastos anuales de reparacin caern en el intervalo de
prediccin.
Solucin: No se conoce la desviacin estndar y el tamao de la
muestra es menor que 30, en consecuencia, utilizamos la
distribucin t para conseguir estos intervalos.
Inferencia Estadstica:
Anlisis de regresin y correlacin.
100%-90%=10%.
Recuerden que perdemos dos grados de libertad al estimar a a ( el
intercepto) y b (la pendiente) n-2 = 4-2 = 2.
Ya tenemos los dato para referirnos a la tabla t y encontramos
para un 10% y dos grados de libertad t=2.920
Con este valor de t, podemos hacer un calculo ms exacto de
nuestro lmite de intervalo de prediccin, de la siguiente manera:

Inferencia Estadstica:
Anlisis de regresin y correlacin.
Anlisis de correlacin.
El anlisis de correlacin es la herramienta estadstica que
podemos usar para describir el grado hasta el cual una variable
est relacionada linealmente con otra.
Nota: Con frecuencia, el anlisis de correlacin se utiliza junto con
el anlisis de regresin para medir qu tan bien la lnea de
regresin explica los cambios en la variable dependiente Y.
Sin embargo, la correlacin tambin se puede usar sola para
medir el grado de asociacin entre dos variables.
Existen dos medidas para describir la correlacin entre dos
variables: El coeficiente de determinacin y el coeficiente de
correlacin.

Inferencia Estadstica:
Anlisis de regresin y correlacin.
El coeficiente de determinacin: Es la principal forma en que
podemos medir la extensin, o fuerza, de la asociacin que existe
entre dos variables, X,Y. Como se ha usado una muestra de puntos
para desarrollar lneas de regresin, nos referimos a esta medida
como el coeficiente de determinacin de muestra.
El coeficiente de determinacin de muestra se desarrolla de la
relacin entre dos tipos de variacin: La variacin de los valores
de X en conjunto de datos alrededor de:
I. La lnea de regresin ajustada
II. Su propia media.
. Nota: El termino variacin en esto dos casos se utiliza en sentido
estadstico usual para significar la suma de un grupo de
desviaciones cuadradas. Por lo que es razonable expresar la
variacin de los valores de Y alrededor de la lnea de regresin
con esta ecuacin.
Inferencia Estadstica:
Anlisis de regresin y correlacin.
La segunda variacin, la de los valores de Y alrededor de su propia
media, est determinada:

Uno menos la razn entre esta dos variaciones es el coeficiente de


determinacin de muestra, que se simboliza r:

Interpretacin de r
Condiremos la dos formas en la que las variables X y Y pueden
relacionarse. En la siguiente tabla pueden ver que cada valor
observado de Y cae en la lnea de estimacin, como puede
demostrarse visualmente. Esta es una correlacin perfecta.
Inferencia Estadstica:
Anlisis de regresin y correlacin.
La ecuacin de estimacin para estos datos es fcil de determinar.
Puesto que la lnea de regresin pasa a travs del origen, sabemos
que la interseccin Y es cero, y puesto que Y se incrementa en 4
cada vez que X aumenta en 1, la pendiente es igual a 4, Por
consiguiente la lnea de regresin es:

PUNTOS DE DATOS VALOR DE X VALOR DE Y


1 1 4
2 2 8
3 3 12
4 4 16
5 5 20
6 6 24
7 7 28
8 8 32 Y= 144
Inferencia Estadstica:
Anlisis de regresin y correlacin.
Para determinar el coeficiente de determinacin de muestra para
lnea de regresin, primero calculamos el numerador de la fraccin
de la ecuacin anterior.

= (0) = 0
Inferencia Estadstica:
Anlisis de regresin y correlacin.
Ahora podemos encontrar el denominador de la fraccin:

(4-18) = (-14) = 196


(8-18) = (-10) = 100
(12-18) = (-6) = 36
(16-18) = (-2) = 4
(20-18) = (2) = 4
(24-18) = (6) = 36
(28-18) = (10) = 100
(32-18) = (14) = 196 =
672
Inferencia Estadstica:
Anlisis de regresin y correlacin.
Nota: r es cero cuando no hay correlacin, por el contrario, un r
cercano a 1 indica una fuerte correlacin entre la variable X, Y. Por
otra parte hay que recordar que r mide slo la fuerza de una
relacin lineal entre dos variables.
Los estadsticos calculan tambin el r viendo la cantidad de la
variacin en la variable dependiente Y que es explicada por la
lnea de regresin.
Frmula de atajo:

r = coeficiente de determinacin de muestra.


a = interseccin Y
b = pendiente de la lnea de regresin. X valores de var.
Independiente. Y valores de la var. dependiente media de los
valores de Y
Inferencia Estadstica:
Anlisis de regresin y correlacin.
Ejemplo: Vamos a realizar de nuevo el ejercicio que relaciona los
gastos en investigacin, desarrollo e innovacin con las ganancias.

AO Gastos Ganancia XY X Y
(n=6) en I+D+I s anuales
(X) (Y)
2006 5 31 155 25 961
2007 11 40 440 121 1600
2008 4 30 12 16 900
2009 5 34 170 25 1156
2010 3 25 75 9 625
2011 2 20 40 4 400
x=30 XY= 180 X=200 Y=5,642
Inferencia Estadstica:
Anlisis de regresin y correlacin.
Solucin:

Podemos concluir que la variacin en los gastos de I+D+I la


variable independiente(X) explica 82.6% la variacin de las
ganancias anuales (la variable dependiente y).
Inferencia Estadstica:
Anlisis de regresin y correlacin.
El coeficiente de correlacin: Es la segunda medida que podemos
usar para describir qu tambin una variable explica a la otra.
Cuando tratamos con muestras, el coeficiente de correlacin de
muestra se denota como r y es la raz cuadrada del coeficiente de
determinacin de muestra.

El signo de r indica la direccin de la relacin entre dos variables


x, y Y. Si existe una relacin directa, esto es, si Y aumenta cuando
X aumenta, entonces r caer entre 0 y 1. De manera similar
existir una relacin inversa si al aumentar X se produce una
disminucin de Y, entonces, r caer entre 0 y -1.
Por ejemplo: El problema que relaciona la inversin en I+D+I y las
ganancias, el coeficiente de determinacin de muestra era: r=
0.826
Inferencia Estadstica:
Anlisis de regresin y correlacin.
Inferencia sobre el parmetro de la poblacin. Hasta ahora, hemos
usado los anlisis de regresin y correlacin para relacionar dos
variables sobre la base de informacin de muestra. Pero los datos
de una muestra slo representan una parte de la poblacin. Debido
a esto, podemos concebir nuestra lnea de regresin de muestra
estimada como una estimacin de una lnea de regresin de
poblacin verdadera, aunque desconocida, de la forma: Y = A + BX
Volviendo al problema de sndico y la reparacin de los camiones,
estos gastos anuales consiste en dos partes:
I. Mantenimiento regular que no depende de la edad: afinacin ,
cambio de aceite y lubricacin. Este gasto es captado en el
trmino intersecado de A.
II. Gastos por reparaciones debido a la edad: realineacin de frenos,
revisin de motor, transmisin y pintura. Estos gastos son
captados en trmino BX de la lnea de regresin de la poblacin.
Inferencia Estadstica:
Anlisis de regresin y correlacin.
Como no todos los camiones no se desgastarn al mismo tiempo,
debido a esto los puntos de datos individuales no caern
exactamente en la lnea de regresin de poblacin. Algunas
estarn por encima, otros, por debajo. As que, en vez de
satisfacer:
Y = A + BX los puntos de datos individuales satisfarn la frmula
siguiente: Y = A + BX + e
En la que e es una alteracin aleatoria de la lnea de regresin de
poblacin, en promedio e es igual a cero, porque las alteraciones
por encima de la lnea de regresin de poblacin son anuladas por
las alteraciones por debajo de esta lnea.
Puesto que nuestra lnea de regresin de muestra, estima
la lnea de regresin de poblacin, Y = A + BX, entonces
podramos, hacer inferencias acerca de la lnea de regresin de
poblacin por consiguiente, haremos inferencias respecto a la
pendiente B de la verdadera ecuacin de regresin (aquella para
toda la poblacin)
Inferencia Estadstica:
Anlisis de regresin y correlacin.
Basada en la pendiente b de la ecuacin de regresin estimada a
partir de una muestra de valores.
Pendiente de la lnea de regresin de poblacin: Como la lnea de
regresin se deriva de una muestra y no de una poblacin entera.
Como resultado, no podemos esperar que la ecuacin de regresin,
Y=A+BX. Sea exactamente la misma que la ecuacin estimada a
partir de observaciones de muestra, Aun as, podemos usar
el valor de b (la pendiente que calculamos a partir de una muestra),
para probar hiptesis respecto al valor de B ( la pendiente de la lnea
e regresin para toda la poblacin).
Ejemplo: volvamos al problema de I+D+I recuerde que tena una
pendiente de b=2, Supongamos que durante un periodo extenso, la
pendiente de la relacin entre X y Y fue 2.1. Para probar si ste es
todava el caso, podramos definir las hiptesis como:
H:B=2.1 hiptesis nula.
H:B2.1 hiptesis alternativa.
Inferencia Estadstica:
Anlisis de regresin y correlacin.
Para encontrar el estadstico de prueba para B, es necesario
primero encontrar el error estndar del coeficiente de regresin.
Con el coeficiente de regresin que estamos trabajando es b, as
que el error estndar de este coeficiente se denota La frmula
ser:

= error estndar del coeficiente de regresin.


= error estndar de la estimacin.
X = valores de la variable dependiente.
= media de los valores de la variable independiente.
n = nmero de puntos de datos.
Inferencia Estadstica:
Anlisis de regresin y correlacin.
Una vez que hemos calculado podemos utilizar la siguiente
ecuacin para estandarizar la pendiente de la ecuacin de
regresin.

b = pendiente de la regresin ajustada.


= error estndar del coeficiente de regresin.
= pendiente hipotetizada de la poblacin.

El error estndar de la estimacin ser igual:

Inferencia Estadstica:
Anlisis de regresin y correlacin.
Ahora podemos determinar el error estndar del coeficiente de
regresin.

0.46 es el error estndar del coeficiente de regresin. Ahora


usamos el error estndar del coeficiente de regresin para calcular
nuestra estadstica de prueba estandarizada:

Supongamos que tengamos razn y queremos probar la hiptesis


al 10% de significancia, como sabemos que tenemos a un n 2
vamos a la tabla t y encontramos el valor de 2.132. Puesto que lo
que nos interesa si b ( la pendiente de la lnea de regresin de la
muestra ) es significativamente distinta de B (la pendiente
hipotetizada de la lnea de regresin).
Inferencia Estadstica:
Anlisis de regresin y correlacin.
Solucin : sta es una prueba de dos extremos y los valores crticos
son 2.132. El coeficiente estandarizado es -0.217, que est dentro
de la regin de aceptacin de la prueba hiptesis. Por lo tanto,
aceptamos la hiptesis nula de que B sigue siendo igual a 2.1
Tambin es esta se puede construir un intervalo de confianza para el
valor de B.

Estamos 90% seguros de que el valor real de B cae entre 1.019 y


2,981, estos , cada milln adicionales gastados en I+D+I incrementa
la ganancias anuales entre 1.02 millones y 2.98 millones.
Inferencia Estadstica:
Regresin mltiple y anlisis de correlacin.
Este anlisis est basada bajo las misma suposiciones y procedimientos que el
anlisis de regresin simple. Con la diferencia que el modelo de regresin
mltiple incluye varias variables independientes, para predecir la variable
dependiente Y .
La ventaja de la regresin mltiple es que nos permite utilizar ms informacin
disponible para estimar la variable dependiente.
En ocasiones, la correlacin entre dos variables puede resultar insuficiente para
estimar una ecuacin de estimacin confiable.
Sin embargo, si agregamos los datos de ms variables independientes, podemos
ser capaces de determinar una ecuacin de estimacin que describa la relacin
con mayor precisin.
Existen tres pasos para describir la regresin.
I. Describimos la ecuacin de regresin mltiple.
II. Examinamos el error estndar de la regresin mltiple.
III. Utilizamos el anlisis para determinar qu tan bien describe la ecuacin de
estimacin los datos observados.
Inferencia Estadstica:
Regresin mltiple y anlisis de correlacin.
Ejemplo: El servicio Interno de Reembolso (SIR) est tratando de
estimar la cantidad mensual de impuestos no pagados
descubiertos por su departamento de auditoras. En el pasado, el
SIR estimaba esta cantidad sobre la base del nmero esperado de
horas de trabajo de auditoras de campo. En los ltimos aos, sin
embargo, las horas de trabajo de auditoras, se han vuelto un
factor de prediccin errtico de los impuestos reales no pagados.
El departamento de auditora tiene un registro del nmero de
horas que su computadoras usan para detectar impuestos no
pagados. Conjuntamente con las horas de auditora de campo y el
registro que se calcula a travs de la computadora el cual detecta
los impuestos no pagados, podramos obtener una informacin
ms precisa.
Inferencia Estadstica:
Regresin mltiple y anlisis de correlacin.
Mes (X)Horas de (X) Horas en (Y) Impuestos
trabajo computadora reales no
auditoria pagados
campo
Enero 45 16 29
Febrero 42 14 24
Marzo 44 15 27
Abril 45 13 25
Mayo 43 13 26
Junio 46 14 28
Julio 44 16 30
Agosto 45 16 28
Septiembre 44 15 28
Octubre 43 15 27
Inferencia Estadstica:
Regresin mltiple y anlisis de correlacin.
Puestos, que tenemos ahora dos variables independientes,
dejaremos que X el nmero de horas de trabajo de auditora de
campo y X representa el nmero de horas en computador. La
variable dependiente, Y, ser los impuestos reales no pagados
descubiertos.
La representacin matemtica de la regresin mltiple es la
siguiente:
Inferencia Estadstica:
Regresin mltiple y anlisis de correlacin.
Mes (Y) (X (X) (XY) XY XX Y
)
Ene. 29 45 16 1305 464 720 2025 256 841

Feb. 24 42 14 1008 336 588 1764 196 576

Mar. 27 44 15 1188 405 660 1936 225 729


Abril 25 45 13 1125 325 585 2025 169 625
Mayo 26 43 13 1118 338 559 1849 169 676
Junio 28 46 14 1288 392 644 2116 196 784
Julio 30 44 16 1320 480 704 1936 256 900
Ago. 28 45 16 1260 448 720 2025 256 784
Sept. 28 44 15 1232 420 660 1936 225 784
Oct. 27 43 15 1161 405 645 1849 225 729
44
SUMA 272 147 12005 4013 6485 19461 2173 7428
1
Inferencia Estadstica:
Regresin mltiple y anlisis de correlacin.
Para determinar los valores de la variable numrica a, b, b se necesitaran
tres ecuaciones.

Atendiendo a los datos de la tabla anterior:

Inferencia Estadstica:
Regresin mltiple y anlisis de correlacin.
Los datos que estn en la tabla se sustituyen con facilidad en la
frmula:

Como se puede observar tenemos un sistema de ecuaciones de


tres incgnitas, el cual podrn resolver por el que mejor manejen.
Inferencia Estadstica:
Regresin mltiple y anlisis de correlacin.
Solucin: a = -13.828 b = 0.564 b = 1.099