Beruflich Dokumente
Kultur Dokumente
Datos de variables
Age = distribucin de la edad, nmero de varones de edad 14-24 por cada mil de
toda la poblacin del estado
S = variable binaria que distingue entre estados del sur (S = 1) del resto
DECLARACIN DE VARIABLES
X2 = variable binaria que distingue entre estados del sur (S = 1) del resto
ECUACIN DE REGRESIN
De acuerdo a los datos, se presentar la siguiente ecuacin a resolver:
Y=0+
1X1+2X2+3X3+4X4+5X5+6X6+7X7+
8X8
La ecuacin de regresin est formada por:
ECUACIN DE REGRESIN
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal
Interpretacin:
Interpretacin
X3, X4, X5, X6, X7, X8), concretamente entre la variable respuesta y la recta de
regresin estimada. Se representa por r y vara entre -1 y 1.
COEFICIENTE DE MALLOWS
Por lo general se deben buscar modelos en los que el Coeficiente de Mallows sea
pequeo y est cerca del nmero de predictores del modelo ms la constante (p).
Un valor pequeo del Coeficiente de Mallows indica que el modelo es
relativamente preciso (tiene poca varianza) para estimar los coeficientes de
regresin reales y predecir futuras respuestas. En este caso, se observa que
nuestro valor ms pequeo es 2.1.
Los resultados indican que el modelo con las variables Ed = nivel educativo,
nmero medio de aos de escolarizacin, Ex1 = gasto per cpita en proteccin
policial relativa a 1960, M = Nmero de varones por mil mujeres y N = Tamao
de la poblacin del estado en cien mil son relativamente precisos y no tienen
sesgo puesto que su Coeficiente de Mallows es (2.1) siendo el valor ms bajo y el
ms cercano al nmero de predictores ms la constante.
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal
1. Planteamiento de la hiptesis
H0 : 0 = 1 = 2 = 3 = 4 = 5 = 6 = 7 = 8
H1 : Al menos una de las i 0
2. Nivel de significancia
=0.05
3. Regin critica.
Parmetro desconocido de la
poblacin sobre el que queremos
realizar un contraste; regin de
valores que dan lugar a rechazar
la hiptesis.
F0.05, 8,17= 2.548
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal
4. Clculos.
5. Conclusin.
Dado que el valor de F (80.09) > F0.05, 8,17 = 2.548 con un nivel de significancia de
=0.05 se rechaza la hiptesis nula. Con un error de riesgo de error tipo I, se puede
afirmar que las evidencias mustrales sugieren que si hay efecto significativo entre
el ndice de criminalidad y las variables distribucin de la edad, variable binaria
que distingue entre estados del sur, nivel educativo, gasto per capita en proteccin
policial relativa a 1960, gasto per capita en proteccin policial relativa a 1959,
proporcin en participacin en trabajos de fuerza, nmero de varones por mil
mujeres y el tamao de la poblacin del estado en cien mil.
1. Datos
B0 = - 1.82
2. Prueba de hiptesis
H0: B0 = - 1.82
5. Clculos
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal
1. Planteamiento de hiptesis
8
6 7
8
6 7
3. Regin critica
rea de
4. Clculos rechazo
Para llevar a cabo esta comparacin hay que tomar en cuenta que cuando el valor
estadstico de prueba es mayor que el valor crtico, H 0 se rechaza.
Tval1= 0.63. Como Tcal1= 0.63 < 2.060, por lo tanto se ACEPTA
Tval2= 0.19. Como Tcal2= 0.19 < 2.060, por lo tanto se ACEPTA
Tval3= - 0.66. Como Tcal3= - 0.66 < 2.060, por lo tanto se ACEPTA
Tval4= 1.01. Como Tcal4= 1.01 < 2.060, por lo tanto se ACEPTA
Tval5= - 0.65. Como Tcal5= -0.65 < 2.060, por lo tanto se RECHAZA
Tval6= - 0.04. Como Tcal3= -0.04 < 2.060, por lo tanto se ACEPTA
Tval7= 1.85. Como Tcal4= 1.85< 2.060, por lo tanto se ACEPTA
Tval8= 2.27. Como Tcal5= 2.27 > 2.060, por lo tanto se RECHAZA
5. Conclusin
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal
Los resultados sugieren que las variables X1, X2, X3, X4, X5, X6 Y X8 no son
significativas en el modelo de anlisis de regresin lineal mltiple para la variable
de respuesta Y (ndice de criminalidad), a excepcin de la variable X7 que hace
referencia al nmero de varones por mil mujeres puesto que esta variable s
representa muestra un efecto significativo para el modelo.
INTERVALO DE PREDICCION
Interpretacin:
INTERVALO DE CONFIANZA
Los valores de Y que se obtienen al reemplazar los valores de X1, X2, X3, X4, X5,
X6, X7 y X8 en la ecuacin de regresin
Este error indica la diferencia promedio entre los valores reales de Y y los
valores estimados de Y a partir de la ecuacin de regresin.
Syx1x2x3x4x5x6x7x8 = 24,78
Haciendo uso de las herramientas que nos proporciona Excel, fue posible obtener
los intervalos de confianza por cada variable, arrojando los siguientes resultados:
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal
Grafica de distribucin
de normalidad (t). Esto
facilita la obtencin de
los intervalos de
confianza.
Con un intervalo de confianza del 95% se asume que el valor medio de la variable
binaria que distingue entre estados del sur caer en el intervalo de: (-36.25, 43.58)
Con un intervalo de confianza del 95% se asume que el valor medio de la variable
nivel educativo, nmero medio de aos de escolarizacin caer en el intervalo de:
(-2.59, 1.36)
Con un intervalo de confianza del 95% se asume que el valor medio de la variable
gasto per capita en proteccin policial relativa a 1960 caer en el intervalo de: (-
3.00, 8.57)
Con un intervalo de confianza del 95% se asume que el valor medio de la variable
(8.22, 4.34)
Con un intervalo de confianza del 95% se asume que el valor medio de la variable
proporcin en participacin en trabajos de fuerza caer en el intervalo de: (-0.57,
0.55)
Con un intervalo de confianza del 95% se asume que el valor medio de la variable
nmero de varones por cada mil mujeres caer en el intervalo de: (-0.08, 1.14)
Con un intervalo de confianza del 95% se asume que el valor medio de la variable
tamao de la poblacin del estado en cien mil caer en el intervalo de: (0.03, 0.87)
Subconju
nto
ptimo
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal
Utilizando este mtodo de paso a paso, el programa nos arroja que con un nivel
de significancia de = 0.1 las variables dentro de nuestro modelo tienen una
significancia importante en la regresin lineal mltiple. A su vez, este modelo se
encarga de eliminar variables innecesarias. Por ello, al analizar la recta de
regresin lineal mltiple original, se tiene:
Despus de hacer la regresin lineal mltiple con el mtodo paso a paso ajustado
podemos observar la eliminacin de algunas variables dado que stas, son
insignificantes para el modelo de regresin ajustado.
Subconjunto
ptimo
Despus de hacer la regresin lineal mltiple con el mtodo hacia atrs, podemos
observar la eliminacin de algunas variables dado que stas, son insignificantes
para el modelo de regresin ajustado. El programa arroj la siguiente ecuacin:
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal
Subconju
nto
ptimo
Despus de hacer la regresin lineal mltiple con el mtodo hacia atrs, podemos
observar la eliminacin de algunas variables dado que stas, fueron insignificantes
para el modelo de regresin ajustado. El programa arroj la siguiente ecuacin:
Interpretacin: En este caso si existe una normalidad dado que los puntos estn
muy juntos a la lnea recta, excepto por el punto sealado el cual no se ajusta
completamente a la grfica.
Interpretacin: El plot de los residuales versus los valores predichos muestra que
la varianza de los errores es inconstante con respecto a la variable de respuesta,
pues va fluctuando y tiende a aumentar cuando el valor de la variable de
respuesta aumenta.
Yij = + i + ij
= media global
Los datos siguientes presentan las producciones de frijol soya (en bushels por
acre) plantados a dos pulgadas de distancia entre s en terrenos esencialmente
similares con las columnas de 20, 24, 28 y 32 pulgadas de distancia:
ANLISIS DE VARIANZA
Haciendo uso de MINITAB 17 el programa nos arroja los siguientes datos:
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal
PRUEBA DE HIPTESIS
Nivel de significancia.
=0.05
Prueba hiptesis
Regin crtica
Clculos
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal
Conclusin
PRUEBA DE MEDIAS
PRUEBA TUKEY
Prueba Fisher
PRUEBA DE VARIANZAS
Prueba de Levene
GRAFICAS E INTERPRETACIN
Esta grfica revela la diferencia que hay en promedio de la resistencia entre las
cuatro medidas de pulgadas incluidas en el anlisis.
Indica tambin que en el conjunto de pulgadas comparado con el nivel de
coeficientes obtenidos muestran una simetra constante en la cual se tiene
variabilidad y dispersiones similares.
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal
Plot de Normalidad: Permite cotejar normalidad. Si los puntos estn cerca de una
lnea recta se concluye que hay normalidad.
Interpretacin: En este caso nos indica la normalidad que existe en los factores y
las rplicas, es decir que si los puntos estn completamente alineados en la lnea
azul se puede decir que hay distribucin de normalidad en los datos. Excepcin
por dos puntos que salen por una desviacin menor, se tendran que revisar estos
datos con otros estudios para que hubiese una normalidad exacta.
Interpretacin: En este caso nos seala que la variabilidad en funcin del valor
no se modifica a gran escala. La fluctuacin de los puntos no es anormal y se
puede decir que las varianzas son constantes. Los puntos no se muestran tan
dispersos y se encuentran siempre apegados a la lnea de referencia.
Plot de Residuales versus los valores predichos (FITS): Se usa para detectar
si hay datos anormales, cuando hay datos que caen bastantes alejados, tanto en
el sentido vertical como horizontal.
Listados entre
76 94 85 77 89
otros platillos
Clasificados
como
109 117 102 92 115
especialidade
s del chef
Clasificados
como delicias
100 83 102 91 79
para el
gourmet
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal
NIVEL DE
SIGNIFICANCIA.
=0.05
PRUEBA HIPTESIS
HO: 1 = 2 = 3=0
H1: al menos una de las medias no son iguales.
REGIN CRTICA
Clculos
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal
Conclusin
PRUEBA DE MEDIAS
PRUEBA TUKEY
Prueba Fisher
PRUEBA DE VARIANZAS
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal
Prueba de Levene
INDEPENDENCIA
Anlisis de grficas
Esta grfica muestra que existe una considerable diferencia que hay los platillos
preparados con pollo. Indica que en el conjunto de platillos comparado con el nivel
de coeficientes obtenidos muestran una simetra constante en la cual forma se
tiene variabilidad y dispersiones similares.
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal
Plot de Normalidad: Permite cotejar normalidad. Si los puntos estn cerca de una
lnea recta se concluye que hay normalidad.
Interpretacin: En este caso nos indica la normalidad que existe en los factores y
las rplicas, es decir que si los puntos estn completamente alineados en la lnea
azul se puede decir que hay distribucin de normalidad en los datos. Sin
embargo, en este problema existe un punto que sale por una desviacin menor, de
igual manera se tendran que revisar estos datos con otros estudios para que
hubiese una normalidad exacta.
Plot de Residuales versus los valores predichos (FITS): Se usa para detectar
si hay datos anormales, cuando hay datos que caen bastantes alejados, tanto en
el sentido vertical como horizontal.
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal
MODELO ESTADSTICO
Los siguientes son los contenidos de colesterol (en miligramos por paquete) que
cuatro laboratorios obtuvieron por paquetes de 6 onzas de tres alimentos
dietticos muy similares:
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal
Alimentos Laboratorios
dietticos
1 2 3 4
Hiptesis
Bloques
H1: Existe una diferencia significativa de los niveles de colesterol en los alimentos
dietticos.
Tratamiento
H0: No existe una relacin significativa entre las muestras tomadas de colesterol
por los laboratorios
H1: Existe una relacin significativa entre las muestras tomadas de colesterol por
los laboratorios
Despus de calcular f
f > f [K-1, (K-1)(b-1)]
CON P-VALOR
Podemos
inferir con un
nivel de
significancia
del 0.05 que NO existe una
diferencia significativa de los niveles de colesterol
en los alimentos dietticos.
Para los
tratamientos que en este caso seran los
laboratorios, comparando los valores de F con la grfica podemos observar que
es menor 3.37 < 5.41 por lo tanto la hiptesis nula H0 se acepta.
En este caso podemos inferir con un nivel de confianza del 95% que NO existe
una relacin significativa entre las muestras tomadas de colesterol por los
laboratorios.
vs. orden
(la respuesta es colesterol)
0.3
0.2
0.1
Residuo
0.0
-0.1
-0.2
1 2 3 4 5 6 7 8 9 10 11 12
Orden de observacin
EJERCICIO
Datos:
D1 D2 D3 D4
Hiptesis
H0: A=B=C=D
Hi: Al menos una de las = 0
Ho: no hay diferencia alguna entre las pelotas de golf por lo que no influyen en la
distancias del tee.
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal
Hi: si hay diferencia entre las pelotas de golf por lo que s influyen en la distancias
del tee.
Nivel de significancia:
= 0.05
Regin crtica
f > f [p-1, (p-1)(p-2)]
f0.05 (3,6)=4.76
Clculos:
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal
Columna en este caso son los palos de golf, analizando el resultado obtenido de
F junto con la grfica es menor que el valor de 4.76 de la zona de rechazo por lo
tanto en este caso se acepta H0, se infiere con un nivel de significancia del 0.05
que NO existe una diferencia significativa de los palos de golf.
Fila (distancia), se observa que este dato de F es mayor que el dato que se
observa en la grfica por lo tanto se rechaza H, entonces se puede concluir con un
nivel de significancia del 0.05 que existe una distancia significativa entre las
pelotas de golf que fueron golpeadas.
Interpretacin: graficar los predichos contra los residuos nos permiten verificar el
supuesto de varianza constante. Si los residuos se distribuyen de una manera
aleatoria y en una banda horizontal, es seal de que se cumple el supuesto de que
los tratamientos tienen igual varianza. Estos residuos se encuentran dispersos y
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal
EJERCICIO
Datos
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal
Regin crtica
95
90
80
Porcentaje
70
60
50
40
30
20
10
1
-3 -2 -1 0 1 2 3
Residuo
Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda
Ingeniera Industrial Juana Monserrat Rubio Carbajal
Histograma
(la respuesta es Rendimiento)
9
6
Frecuencia
0
-2 -1 0 1 2
Residuo