Ejercicios U1, U3, U4

Estadstica Inferencial II
Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda

Ingeniera Industrial Juana Monserrat Rubio Carbajal
Regresin lineal mltiple

Conceptos bsicos
Un modelo de regresin mltiple trata de explicar el comportamiento de una

variable dependiente en funcin de un conjunto de variables explicativas.
Variable dependiente: Una variable dependiente es aquella cuyos valores

dependen de los que tomen otra variable. La variable dependiente en una funcin
que suele representar por y.
Variable independiente: Una variable independiente es aquella cuyo valor no

depende de otra variable. Es aquella caracterstica o propiedad que se supone es
la causa del fenmeno estudiado.
Se est interesado en investigar la variable ndice de criminalidad en relacin con

otras variables. Para ello se dispone de datos de 47 estados de EEUU relativos al
ao 1960.
R AGE S ED EX1 EX2 LF M N

79,1 151 1 91 58 56 510 950 33
163,5 143 0 113 103 95 583 1012 13
57,8 142 1 89 45 44 533 969 18
196,9 136 0 121 149 141 577 994 157
123,4 141 0 121 109 101 591 985 18
68,2 121 0 110 118 115 547 964 25
96,3 127 1 111 82 79 519 982 4
155,5 131 1 109 115 109 542 969 50
85,6 157 1 90 65 62 553 955 39
70,5 140 0 118 71 68 632 1029 7
167,4 124 0 105 121 116 580 966 101
84,9 134 0 108 75 71 595 972 47
51,1 128 0 113 67 60 624 972 28
66,4 135 0 117 62 61 595 986 22
79,8 152 1 87 57 53 530 986 30
94,6 142 1 88 81 77 497 956 33
53,9 143 0 110 66 63 537 977 10
92,9 135 1 104 123 115 537 978 31
75 130 0 116 128 128 536 934 51
122,5 125 0 108 113 105 567 985 78
74,2 126 0 108 74 67 602 984 34
43,9 157 1 89 47 44 512 962 22
121,6 132 0 96 87 83 564 953 43
96,8 131 0 116 78 73 574 1038 7

52,3 130 0 116 63 57 641 984 14
199,3 131 0 121 160 143 631 1071 3
Datos de variables
R = ndice de criminalidad, nmero de delitos conocidos por la polica por cada

milln de habitantes
Age = distribucin de la edad, nmero de varones de edad 14-24 por cada mil de
toda la poblacin del estado
S = variable binaria que distingue entre estados del sur (S = 1) del resto
Ed = nivel educativo, nmero medio de aos de escolarizacin
Ex1 = gasto per cpita en proteccin policial relativa a 1960
Ex2 = gasto per cpita en proteccin policial relativa a 1959
LF = proporcin en participacin en trabajos de fuerza por cada mil hombres con

edad 14-24
M = Nmero de varones por mil mujeres
N = Tamao de la poblacin del estado en cien mil
DECLARACIN DE VARIABLES
Variables independientes o predictoras:
X1 = distribucin de la edad, nmero de varones de edad 14-24 por cada mil de

toda la poblacin del estado
X2 = variable binaria que distingue entre estados del sur (S = 1) del resto
X3 = nivel educativo, nmero medio de aos de escolarizacin
X4 = gasto per cpita en proteccin policial relativa a 1960
X5 = gasto per cpita en proteccin policial relativa a 1959
X6 = proporcin en participacin en trabajos de fuerza por cada mil hombres con

edad 14-24
X7 = Nmero de varones por mil mujeres

X8 = Tamao de la poblacin del estado en cien mil
Variable dependiente o respuesta:
Y= ndice de criminalidad, nmero de delitos conocidos por la polica por cada

milln de habitantes
ECUACIN DE REGRESIN
De acuerdo a los datos, se presentar la siguiente ecuacin a resolver:
Y=0+
1X1+2X2+3X3+4X4+5X5+6X6+7X7+
8X8
La ecuacin de regresin est formada por:
1. Ocho variables independientes o predictoras. (X1, X2, X3, X4)

2. Una variable dependiente o respuesta. (Y)
3. Coeficientes de regresin poblacional o pendientes. (0, 1, 2, 3)
Mediante el uso del el programa MINITAB 17; se calcular la ecuacin de

regresin mltiple obteniendo lo siguiente:
ECUACIN DE REGRESIN
Interpretacin:
Nos muestra que a menor nmero de variable binaria, nivel educativo,

nmero medio de aos de escolarizacin, gasto per cpita en proteccin
policial relativa a 1960, gasto per cpita en proteccin policial relativa a
= 1959, etctera haciendo referencia a las variables X 1, X2,, Xn
(independientes), el ndice de criminalidad y el nmero de delitos conocidos
por la polica por cada milln de habitantes tiene un valor menor ya que
afecta de manera proporcional a la disminucin o aumento de estos.
= El aumento promedio en el ndice de criminalidad es de 0.437 por cada

incremento en una unidad en la distribucin de la edad, asumiendo que la
las variables X2, X3, X4, X5, X6, X7 y X8 son constantes.
El aumento promedio en el ndice de criminalidad es de 3.75 por cada

= incremento en una unidad en la variable binaria que distingue entre estados
del sur, asumiendo que la las variables X1, X3, X4, X5, X6, X7 y X8 son
constantes.
El decremento promedio en el ndice de criminalidad es de 0.615 por cada

= aumento en una unidad en el nivel educativo, nmero medio de aos de
escolarizacin asumiendo que la las variables X1, X2, X4, X5, X6, X7 y X8
son constantes.
El aumento promedio en el ndice de criminalidad es de 2.78 por cada

incremento en el gasto per capita en proteccin policial relativa a 1960,
=
asumiendo que la las variables X1, X2, X3, X5, X6, X7 y X8 son
constantes.
El decremento promedio en el ndice de criminalidad es de 1.94 por cada

aumento en una unidad en el gasto per capita en proteccin policial
= relativa a 1959 asumiendo que la las variables X1, X2, X3, X4, X6, X7 y X8
son constantes.
6 = El decremento promedio en el ndice de criminalidad es de 0.010 por cada

aumento en una unidad en la proporcin en participacin en trabajos de
fuerza asumiendo que la las variables X1, X2, X3, X4, X5, X7 y X8 son
constantes.
El aumento promedio en el ndice de criminalidad es de 0.534 por

7 cada incremento en el nmero de varones por cada mil mujeres
=
constantes.
El aumento promedio en el ndice de criminalidad es de 0.450 por

88 cada incremento en el tamao de la poblacin del estado en cien mil,
=
constantes.
COEFICIENTE DE DETERMINACION AJUSTADA
El coeficiente de determinacin ajustada es el porcentaje de variacin en la

variable de respuesta que es explicado por su relacin con una o ms variables
predictoras. El valor de R2 ajustado incorpora el nmero de predictores del modelo
para elegir el modelo correcto. El R 2 ajustado se utiliza para determinar qu tan
bien se ajusta el modelo; ajusta a los datos cuando desee ajustar el nmero de
predictores del modelo.
Coeficiente de determinacin ajustado de los datos:
COEFICIENTE DE DETERMINACIN AJUSTADO
Interpretacin
El coeficiente de determinacin al cuadrado ajustado indica que se puede

minimizar en un 69.16% la suma de todas las correlaciones entre las variables
predictoras (X1, X2, X3 Xn) con nuestra variable dependiente.
COEFICIENTE DE CORRELACION MULTIPLE
El coeficiente de correlacin mltiple establece una medida del grado de

asociacin lineal entre la variable respuesta (Y) y las variables predictoras (X 1, X2,
X3, X4, X5, X6, X7, X8), concretamente entre la variable respuesta y la recta de
regresin estimada. Se representa por r y vara entre -1 y 1.
DATOS OBTENIDOS CON ANLISIS DE DATOS EN EXCEL
El valor de 79.03% se traduce como el porcentaje de variabilidad de Y (ndice de

criminalidad, nmero de delitos conocidos por la polica por cada milln de
habitantes) explicada o debida a la recta de regresin, en tanto que puede
comprobarse que cuando todos los puntos se encuentran sobre la recta de
regresin estimada, a suma de cuadrados de residuos, SSE, toma el valor cero.
COEFICIENTE DE MALLOWS
El Coeficiente de Mallows se utiliza como ayuda para elegir entre mltiples

modelos de regresin, comparando la precisin y el sesgo del modelo completo
con modelos que incluyen un subconjunto de los predictores.
Por lo general se deben buscar modelos en los que el Coeficiente de Mallows sea
pequeo y est cerca del nmero de predictores del modelo ms la constante (p).
Un valor pequeo del Coeficiente de Mallows indica que el modelo es
relativamente preciso (tiene poca varianza) para estimar los coeficientes de
regresin reales y predecir futuras respuestas. En este caso, se observa que
nuestro valor ms pequeo es 2.1.
Los resultados indican que el modelo con las variables Ed = nivel educativo,
nmero medio de aos de escolarizacin, Ex1 = gasto per cpita en proteccin
policial relativa a 1960, M = Nmero de varones por mil mujeres y N = Tamao
de la poblacin del estado en cien mil son relativamente precisos y no tienen
sesgo puesto que su Coeficiente de Mallows es (2.1) siendo el valor ms bajo y el
ms cercano al nmero de predictores ms la constante.
PRUEBA DE HIPOTESIS DEL CONJUNTO
Prueba de todo el conjunto de datos el cual determinar si existe una regresin

lineal en la poblacin, en la variable dependiente (Y) con todas las variables
independientes en conjunto.
1. Planteamiento de la hiptesis
H0 : 0 = 1 = 2 = 3 = 4 = 5 = 6 = 7 = 8
H1 : Al menos una de las i 0
2. Nivel de significancia
=0.05
3. Regin critica.
Parmetro desconocido de la
poblacin sobre el que queremos
realizar un contraste; regin de
valores que dan lugar a rechazar
la hiptesis.
F0.05, 8,17= 2.548
4. Clculos.
Valor de f = 80.09. Distribucin f con 5 grados de libertad en el numerador y 16 grados de

libertad en el denominador
5. Conclusin.
Dado que el valor de F (80.09) > F0.05, 8,17 = 2.548 con un nivel de significancia de
=0.05 se rechaza la hiptesis nula. Con un error de riesgo de error tipo I, se puede
afirmar que las evidencias mustrales sugieren que si hay efecto significativo entre
el ndice de criminalidad y las variables distribucin de la edad, variable binaria
que distingue entre estados del sur, nivel educativo, gasto per capita en proteccin
policial relativa a 1960, gasto per capita en proteccin policial relativa a 1959,
proporcin en participacin en trabajos de fuerza, nmero de varones por mil
mujeres y el tamao de la poblacin del estado en cien mil.
PRUEBA DE HIPOTESIS DEL SUBCONJUNTO
1. Datos
B0 = - 1.82
2. Prueba de hiptesis
H0: B0 = - 1.82
H1: B0 > - 1.82
3. Nivel de significancia Zona de

=0.05 rechazo
Zona de
aceptacin
4. Regin critica
5. Clculos
Como Tr (0.980) < T0.05, 25 (1.725) con un nivel de significancia de = 0.05 se

acepta H1. Por lo que el ndice de criminalidad es de 1.82 cuando el resto de las
variables son 0.
PRUEBAS INDIVIDUALES DE COEFICIENTES INDIVIDUALES DEL

MODELO
Estas pruebas permiten deducir qu variables predictivas contribuyen de manera

significativa al modelo de regresin lineal mltiple.
1. Planteamiento de hiptesis
8
6 7
8
6 7
2. Nivel de significancia rea de aceptacin

=0.05
3. Regin critica
rea de
4. Clculos rechazo
Los datos obtenidos para realizar la

comparacin de cada uno de los
coeficientes se obtuvo de los
coeficientes individuales
Comparacin entre estadstico de prueba y nivel de significancia:
Para llevar a cabo esta comparacin hay que tomar en cuenta que cuando el valor
estadstico de prueba es mayor que el valor crtico, H 0 se rechaza.
Tval1= 0.63. Como Tcal1= 0.63 < 2.060, por lo tanto se ACEPTA
Tval3= - 0.66. Como Tcal3= - 0.66 < 2.060, por lo tanto se ACEPTA
Tval5= - 0.65. Como Tcal5= -0.65 < 2.060, por lo tanto se RECHAZA
Tval6= - 0.04. Como Tcal3= -0.04 < 2.060, por lo tanto se ACEPTA
Tval7= 1.85. Como Tcal4= 1.85< 2.060, por lo tanto se ACEPTA
Tval8= 2.27. Como Tcal5= 2.27 > 2.060, por lo tanto se RECHAZA
P-valor y el nivel de significancia:
P-valor1= 0.535 es > = 0.05, se acepta

P-valor7= 0.082 es < = 0.05, se rechaza
5. Conclusin
Los resultados sugieren que las variables X1, X2, X3, X4, X5, X6 Y X8 no son
significativas en el modelo de anlisis de regresin lineal mltiple para la variable
de respuesta Y (ndice de criminalidad), a excepcin de la variable X7 que hace
referencia al nmero de varones por mil mujeres puesto que esta variable s
representa muestra un efecto significativo para el modelo.
INTERVALO DE PREDICCION
Utilizando una muestra aleatoria especificada de una poblacin se obtiene un

intervalo o lmite de prediccin para una nica observacin futura de la poblacin.
Interpretacin:
Existe una herramienta y la posibilidad de obtener un intervalo de prediccin con

MIBITAB 17. De acuerdo a los datos, con un intervalo de prediccin del 95% se
asume que el valor futuro del ndice de criminalidad caer en el intervalo de
(146,653; 289,605).
INTERVALO DE CONFIANZA
Un intervalo de confianza es un rango de valores, derivado de los estadsticos de

la muestra, que posiblemente incluya el valor de un parmetro de poblacin
desconocido.
La desviacin estndar de una estadstica empleada como estimador de un

parmetro poblacional tambin se denomina error estndar del estimado
(abreviado SE) porque se refiere a la precisin denomina. Es posible calcular el
error que se comete al tratar de predecir valores de Y a travs de la ecuacin de
regresin:
Haciendo uso de la siguiente frmula:
Los valores de Y que se obtienen al reemplazar los valores de X1, X2, X3, X4, X5,
X6, X7 y X8 en la ecuacin de regresin
Este error indica la diferencia promedio entre los valores reales de Y y los
valores estimados de Y a partir de la ecuacin de regresin.
Syx1x2x3x4x5x6x7x8 = 24,78
Al estimar valores de la variacin se encontr que se alejan en 24,78 promedio en

las 26 observaciones. Es un dato considerable y podra causar una importante
fluctuacin en el resultado global.
ANLISIS DE DATOS EN EXCEL
Los clculos de los intervalos de confianza se pueden obtener mediante:
Haciendo uso de las herramientas que nos proporciona Excel, fue posible obtener
los intervalos de confianza por cada variable, arrojando los siguientes resultados:
Grafica de distribucin
de normalidad (t). Esto
facilita la obtencin de
los intervalos de
confianza.
Intervalo de confianza del 95 (1-) % para la interseccin (0)
Con un intervalo de confianza del 95% se asume que el valor medio de la

interseccin caer en el intervalo de: (-1112.73, 81.84)
Intervalo de confianza del 95 (1-) % para el coeficiente 1
Con un intervalo de confianza del 95% se asume que el valor medio de la

distribucin de la edad caer en el intervalo de: (-1.02, 1.89)
Con un intervalo de confianza del 95% se asume que el valor medio de la variable
binaria que distingue entre estados del sur caer en el intervalo de: (-36.25, 43.58)
nivel educativo, nmero medio de aos de escolarizacin caer en el intervalo de:
(-2.59, 1.36)
gasto per capita en proteccin policial relativa a 1960 caer en el intervalo de: (-
3.00, 8.57)

(8.22, 4.34)
proporcin en participacin en trabajos de fuerza caer en el intervalo de: (-0.57,
0.55)
nmero de varones por cada mil mujeres caer en el intervalo de: (-0.08, 1.14)
tamao de la poblacin del estado en cien mil caer en el intervalo de: (0.03, 0.87)
METODO DE SELECCIN PASO A PASO
Regresin paso a paso es una herramienta que se utiliza en las etapas

preliminares de la construccin de modelos para identificar un subconjunto til de
predictores. El proceso aade sistemticamente la variable ms significativa o
elimina la variable menos significativa durante cada paso. Adems, busca de entre
todas las posibles variables explicativas aquellas que ms y mejor expliquen a la
variable dependiente sin que ninguna de ellas sea combinacin lineal de las
restantes.
Nivel de significancia: = 0.25
Subconju
nto
ptimo
Utilizando este mtodo de paso a paso, el programa nos arroja que con un nivel
de significancia de = 0.1 las variables dentro de nuestro modelo tienen una
significancia importante en la regresin lineal mltiple. A su vez, este modelo se
encarga de eliminar variables innecesarias. Por ello, al analizar la recta de
regresin lineal mltiple original, se tiene:
Despus de hacer la regresin lineal mltiple con el mtodo paso a paso ajustado
podemos observar la eliminacin de algunas variables dado que stas, son
insignificantes para el modelo de regresin ajustado.
Asimismo, se observa que el coeficiente de determinacin para la regresin paso

a paso del modelo nuevo o de eliminacin de variables es de r^2 = 77.68%. Nos
muestra que las otras variables tales como el ndice de criminalidad, nmero de
delitos conocidos por la polica por cada milln de habitantes, distribucin de la
edad, nmero de varones de edad 14-24 por cada mil de toda la poblacin del
estado, variable binaria que distingue entre estados del sur (S = 1) del resto,
gasto per cpita en proteccin policial relativa a 1959 y la proporcin en
participacin en trabajos de fuerza por cada mil hombres con edad 14-24 se han
eliminado. Con esto se obtienen variables significativas para el modelo de
regresin haciendo uso de la herramienta paso a paso.
METODO DE SELECCIN HACIA ATRS
El procedimiento hacia atrs incluye todas las variables en el modelo de regresin

sin embargo en sta se van eliminando variables progresivamente de menor a
mayor contribucin hasta que sta sea lo suficientemente significativa como para
no poder ser eliminada.
Subconjunto
ptimo
En la eliminacin las variables incluidas en el modelo se toman de la ecuacin

original y se van eliminando conforme se consideren variables insignificantes para
el modelo final ajustado.
Con un valor de =0.1 las variables propuestas en el modelo de regresin
original cambian ya que algunas tienden a ser insignificantes para explicar el
ndice de criminalidad (Y). Por ello, al analizar la recta de regresin lineal mltiple
original, se tiene:
Despus de hacer la regresin lineal mltiple con el mtodo hacia atrs, podemos
observar la eliminacin de algunas variables dado que stas, son insignificantes
para el modelo de regresin ajustado. El programa arroj la siguiente ecuacin:
Como puede observarse, s hubo variables eliminadas puesto que fueron

insignificantes en el modelo de regresin ajustado.
Asimismo, se observa que el coeficiente de determinacin para la regresin paso

a paso del modelo nuevo o de eliminacin de variables es de r^2 = 77.68%. Nos
muestra que las otras variables tales como el ndice de criminalidad, nmero de
delitos conocidos por la polica por cada milln de habitantes, distribucin de la
edad, nmero de varones de edad 14-24 por cada mil de toda la poblacin del
estado, variable binaria que distingue entre estados del sur (S = 1) del resto,
gasto per cpita en proteccin policial relativa a 1959 y la proporcin en
METODO DE SELECCIN HACIA ENFRENTE
El procedimiento hacia delante (es equivalente al anterior excepto en el sentido

que no existe ninguna reevaluacin, y se van incluyendo, por tanto en el modelo
las variables segn su importancia. Frecuentemente este mtodo coincide con el
anterior cuando no hay que extraer ninguna de las variables introducidas.
Subconju
nto
ptimo
Al realizar el anlisis de regresin para obtener el modelo mediante el mtodo de

eliminacin hacia adelante y con un valor de =0.1 las variables propuestas en el
modelo de regresin original cambian ya que algunas tienden a ser insignificantes
para explicar el ndice de criminalidad (Y). Por ello, al analizar la recta de regresin
lineal mltiple original, se tiene:
Despus de hacer la regresin lineal mltiple con el mtodo hacia atrs, podemos
observar la eliminacin de algunas variables dado que stas, fueron insignificantes
para el modelo de regresin ajustado. El programa arroj la siguiente ecuacin:
En este mtodo, a diferencia de los otros se incluye la variable EX2 referente al

gasto per cpita en proteccin policial relativa a 1959. Se observa que el
coeficiente de determinacin para la regresin hacia enfrente del modelo nuevo o
de eliminacin de variables es de r^2 = 78.30%. Nos muestra que las otras
variables tales como el ndice de criminalidad, nmero de delitos conocidos por la
polica por cada milln de habitantes, distribucin de la edad, nmero de
varones de edad 14-24 por cada mil de toda la poblacin del estado, variable
binaria que distingue entre estados del sur (S = 1) del resto y la proporcin en
ANLISIS DE GRAFICA DE RESIDUOS; RESIDUALES GRAFICA DE

NORMALIDAD, RESIDUALES HISTOGRAMA, RESIDUALES VARIANZA
AJUSTES Y ANALISIS DE LOS RESIDUALES VARIANZA ORDEN
PLOT DE NORMALIDAD: Permite comprobar si la distribucin est sesgada, si es

demasiado plana o picuda, o si tiene valores extremos permitiendo cotejar
normalidad. El grfico ms especfico para este fin es el de probabilidad
normal (q-q plot), en el que los valores se ajustan a la lnea diagonal si la
distribucin sigue una normal. Si los puntos estn bien cerca de una lnea recta se
concluye, que hay normalidad.
Interpretacin: En este caso si existe una normalidad dado que los puntos estn
muy juntos a la lnea recta, excepto por el punto sealado el cual no se ajusta
completamente a la grfica.
HISTOGRAMA DE LOS RESIDUOS: El histograma de residuos determina si los

datos son asimtricos o si existen valores atpicos en los datos. Tambin
permitiendo cotejar normalidad. Cuando el histograma es simtrico, con un nico
pico en el centro, se concluye que hay normalidad.
Interpretacin: en el histograma, el flujo es simtrico excepto por el nico lado

izquierdo el punto o limite el cual esta fuera, o se aleja de -50 a 50.
PLOT DE RESIDUALES VERSUS LOS VALORES PREDICHOS (FITS): Esta

grfica muestra un patrn aleatorio de residuos a ambos lados de 0. Los patrones
no aleatorios, pueden violar el supuesto de que las variables predictoras no estn

relacionadas con los residuos.
Interpretacin: En este caso la grfica nos muestra datos no tan dispersos a

excepcin de uno que se encuentra sealado excepto por un punto el cual est
sealado en la parte inferior, pero afecta en un pequea parte al modelo. Por lo
tanto se puede deducir que es normal.
PLOT DE RESIDUALES VERSUS LA VARIABLE PREDICTORA: Al utilizar los

residuos vs. los ajustes para verificar el supuesto de que los residuos tienen
varianza constante. Es usado para detectar datos anormales as como si la
varianza de los errores es constante con respecto a la variable predictora.
Interpretacin: El plot de los residuales versus los valores predichos muestra que
la varianza de los errores es inconstante con respecto a la variable de respuesta,
pues va fluctuando y tiende a aumentar cuando el valor de la variable de
respuesta aumenta.
DISEO DE UN SOLO FACTOR

MODELO DEL DISEO COMPLETAMENTE ALEATORIZADO: MUESTRAS

IGUALES
El anlisis de la varianza de un factor (ANOVA) es una metodologa para analizar

la variacin entre muestras y la variacin al interior de las mismas mediante la
determinacin de varianzas.
ECUACION DEL MODELO ESTADISTICO
Yij = + i + ij
Yij= medicin que corresponde al tratamiento i y al bloque j
= media global
i= parmetro que mide el efecto del al tratamiento i
ij= error aleatorio atribuible a la medicin Yij
Los datos siguientes presentan las producciones de frijol soya (en bushels por
acre) plantados a dos pulgadas de distancia entre s en terrenos esencialmente
similares con las columnas de 20, 24, 28 y 32 pulgadas de distancia:
ANLISIS DE VARIANZA
Haciendo uso de MINITAB 17 el programa nos arroja los siguientes datos:
El anlisis de varianza (ANOVA) es la tcnica central en el anlisis de datos

experimentales. En el caso del DCA (diseo completamente aleatorizado) de
muestra desigual lo que se lleva a cabo es separar la variabilidad debida a los
tratamientos y la variabilidad debida al error, para as poder contrastar los
resultados y poder hacer una inferencia en los efectos logrados en el experimento.
Los valores sealados en el ANOVA se utilizaran para hacer comparaciones y para

el resto del ejercicio.
PRUEBA DE HIPTESIS
Nivel de significancia.
=0.05
Prueba hiptesis
HO: 1 = 2 = 3=0 4=0

H1: al menos una de las medias no son iguales.
Regin crtica
Zona de aceptacin Zona de rechazo
F0.05, 3,20 = 3.098
Clculos
Conclusin
Comparando F: 10.78 > 3.098, se rechaza Ho.

Utilizando el valor P: P = 0.000 < 0.05, se rechaza Ho
Dado que p (0.000) es menor que el nivel de significancia de =0.05 se rechaza
H0 (hiptesis nula) y concluimos que la distancia (pulgadas) a la que estn
plantados los bushels s influye en las producciones de frijol soya.
PRUEBA DE MEDIAS
Cuando no se rechaza la hiptesis nula H0: A B C D el objetivo del

experimento est cubierto y la conclusin es que los tratamientos no son
diferentes. Si se rechaza H0, y por consiguiente se acepta la hiptesis alternativa
es necesario investigar cules tratamientos resultaron diferentes, o cules
provocan la diferencia.
PRUEBA TUKEY
El mtodo de Tukey se utiliza en ANOVA para crear intervalos de confianza para

todas las diferencias en parejas entre las medias de los niveles de los factores
mientras controla la tasa de error por familia que especifique. Es importante
considerar la tasa de error por familia cuando se realizan mltiples comparaciones
debido a que la probabilidad de cometer un error tipo I para una serie de

comparaciones es mayor que la tasa de error para cualquier comparacin
individual. Para contrapesar esta mayor tasa de error, el mtodo de Tukey ajusta el
nivel de confianza de cada intervalo individual, de modo que el nivel de confianza
simultneo resultante sea igual al valor que especifique. El valor crtico est dado
por:
El mtodo de Tukey trabaja con un error a muy cercano al declarado por el

experimentador.
Interpretacin: Las medias que no comparten una letra son

significativamente diferentes. Nuestros datos muestran que tres de nuestros
factores comparten la letra A. Sin embargo, el cuarto factor que hace referencia a
las 32 pulgadas, aparece con una letra distinta indicando que con un nivel de
confianza del 95% se concluye que una hay variacin significativa entre la
distancia de 32 pulgadas a la que estn plantados los bushels y las producciones
de frijol-soya.
Prueba Fisher

significativamente diferentes. Esta prueba nos indica que nuestros datos
distintos datos. Por lo que se puede concluir con un nivel de confianza del 95%
que una hay variacin significativa entre la distancia (pulgadas) a la que estn
plantados los bushels y las producciones de frijol-soya.
PRUEBA DE VARIANZAS
Prueba de Levene
La prueba de Levene utiliza la desviacin absoluta de las observaciones en cada

tratamiento de la mediana del tratamiento. Luego evala si la media de estas
desviaciones es o no igual para todos los tratamientos. Si las desviaciones medias
son iguales, las varianzas de las observaciones en todos los tratamientos sern
iguales. El estadstico de la prueba de Levene es el estadstico F de ANOVA para
probar igualdad de medias aplicado a las desviaciones absolutas.
Interpretacin: Como podemos observar en la prueba de Levene el estadstico de

prueba de valor p que es igual a 0.433 y dado que nuestro valor P > 0.05 podemos
concluir con un nivel de confianza del 95% que la variacin entre grupos de
factores y respuestas demuestra desigual no es estadsticamente significativa en
cuanto a la variabilidad.
GRAFICAS E INTERPRETACIN
Esta grfica revela la diferencia que hay en promedio de la resistencia entre las
cuatro medidas de pulgadas incluidas en el anlisis.
Indica tambin que en el conjunto de pulgadas comparado con el nivel de
coeficientes obtenidos muestran una simetra constante en la cual se tiene
variabilidad y dispersiones similares.
Plot de Normalidad: Permite cotejar normalidad. Si los puntos estn cerca de una
lnea recta se concluye que hay normalidad.
Interpretacin: En este caso nos indica la normalidad que existe en los factores y
las rplicas, es decir que si los puntos estn completamente alineados en la lnea
azul se puede decir que hay distribucin de normalidad en los datos. Excepcin
por dos puntos que salen por una desviacin menor, se tendran que revisar estos
datos con otros estudios para que hubiese una normalidad exacta.
Histograma de Residuales: De igual manera permite cotejar normalidad. Cuando

el histograma es simtrico, con un nico pico en el centro, se concluye que hay
normalidad.
Interpretacin: En este caso nos seala que la variabilidad en funcin del valor
no se modifica a gran escala. La fluctuacin de los puntos no es anormal y se
puede decir que las varianzas son constantes. Los puntos no se muestran tan
dispersos y se encuentran siempre apegados a la lnea de referencia.
Plot de Residuales versus los valores predichos (FITS): Se usa para detectar
si hay datos anormales, cuando hay datos que caen bastantes alejados, tanto en
el sentido vertical como horizontal.
Interpretacin: Los datos no se encuentran tan dispersos excepto por algunos

datos que afectan en una mnima parte al modelo.
Plot de Residuales versus la variable predictora: Es usado para detectar datos

anormales as como si la varianza de los errores es constante con respecto a la
variable predictora.
DISEO DE UN SOLO FACTOR
MODELO DEL DISEO COMPLETAMENTE ALEATORIZADO: MUESTRAS

DESIGUALES
El gerente de un restaurante quiere determinar si las ventas de platillos

preparados con pollo dependen de la manera en que estos se describen en el
men. Tiene tres clases de mens impresos, que listan, entre otros, platillos de
pollo o los clasifican como Especialidades del Chef y Delicias para el gourmet y
pretende usar cada clase de men en seis domingos distintos. En realidad, el
gerente recopila los datos siguientes que revelan el nmero de platillos preparados
con pollo vendidos en doce domingos:
Listados entre
76 94 85 77 89
otros platillos
Clasificados
como
109 117 102 92 115
especialidade
s del chef
Clasificados
como delicias
100 83 102 91 79
para el
gourmet
NIVEL DE
SIGNIFICANCIA.
=0.05
PRUEBA HIPTESIS
HO: 1 = 2 = 3=0
H1: al menos una de las medias no son iguales.
REGIN CRTICA
Zona de aceptacin Zona de rechazo
F0.05, 2,12 = 3.885
Clculos
Conclusin
Comparando F: 7.71 > 3.885, por lo tanto Ho se acepta

Utilizando el valor P: P = 0.007 < 0.05, por lo tanto Ho se acepta
Dado que p (0.007) es menor que el nivel de significancia de =0.05 aceptamos
la hiptesis nula y concluimos que las ventas de platillos preparados con pollo
dependen de la manera en que estos se describen en el men.
PRUEBA DE MEDIAS
Cuando no se rechaza la hiptesis nula H0: A B C D el objetivo del

experimento est cubierto y la conclusin es que los tratamientos no son
diferentes. Si se rechaza H0, y por consiguiente se acepta la hiptesis alternativa
es necesario investigar cules tratamientos resultaron diferentes, o cules
provocan la diferencia.
PRUEBA TUKEY
El mtodo de Tukey se utiliza en ANOVA para crear intervalos de confianza para

todas las diferencias en parejas entre las medias de los niveles de los factores
mientras controla la tasa de error por familia que especifique. Es importante
considerar la tasa de error por familia cuando se realizan mltiples comparaciones
debido a que la probabilidad de cometer un error tipo I para una serie de
comparaciones es mayor que la tasa de error para cualquier comparacin
individual. Para contrapesar esta mayor tasa de error, el mtodo de Tukey ajusta el
nivel de confianza de cada intervalo individual, de modo que el nivel de confianza
simultneo resultante sea igual al valor que especifique. El valor crtico est dado
por:
El mtodo de Tukey trabaja con un error a muy cercano al declarado por el

experimentador.

significativamente diferentes. Nuestros datos muestran que dos de nuestros
factores comparten la letra B. Sin embargo, el factor 2 que hace referencia a los
platillos clasificados como especialidades del chef, aparece con una letra distinta
indicando con un nivel de confianza del 95% que hay una variacin significativa
entre los platillos de pollo, Especialidades del Chef y Delicias para el gourmet.
Prueba Fisher

significativamente diferentes. Nuestros datos muestran que dos de nuestros
factores comparten la letra B. Sin embargo, el factor 2 que hace referencia a los
platillos clasificados como especialidades del chef, aparece con una letra distinta
indicando con un nivel de confianza del 95% que hay una variacin significativa
entre los platillos de pollo, Especialidades del Chef y Delicias para el gourmet.
PRUEBA DE VARIANZAS
Prueba de Levene
La prueba de Levene utiliza la desviacin absoluta de las observaciones en cada

tratamiento de la mediana del tratamiento. Luego evala si la media de estas
desviaciones es o no igual para todos los tratamientos. Si las desviaciones medias
son iguales, las varianzas de las observaciones en todos los tratamientos sern
iguales. El estadstico de la prueba de Levene es el estadstico F de ANOVA para
probar igualdad de medias aplicado a las desviaciones absolutas.
Interpretacin: Como podemos observar la prueba de valor p que es igual a 0.00

y dado que nuestro valor P > 0.05 podemos concluir con un nivel de confianza del
95% que la variacin entre grupos de factores y respuestas de muestra desigual
no es estadsticamente significativa en cuanto a la variabilidad.
INDEPENDENCIA
La suposicin de independencia en los residuos puede verificarse si se grafica el

orden en que se colect un dato contra el residuo correspondiente.
Al graficar de esta manera, dado que no se detecta un patrn del todo definido o
una tendencia claramente definida, esto es evidencia de que no es probable que
exista una correlacin entre los errores y por lo tanto, el supuesto de
independencia se pudiera cumplir.
Anlisis de grficas
Esta grfica muestra que existe una considerable diferencia que hay los platillos
preparados con pollo. Indica que en el conjunto de platillos comparado con el nivel
de coeficientes obtenidos muestran una simetra constante en la cual forma se
tiene variabilidad y dispersiones similares.
Plot de Normalidad: Permite cotejar normalidad. Si los puntos estn cerca de una
lnea recta se concluye que hay normalidad.
Interpretacin: En este caso nos indica la normalidad que existe en los factores y
las rplicas, es decir que si los puntos estn completamente alineados en la lnea
azul se puede decir que hay distribucin de normalidad en los datos. Sin
embargo, en este problema existe un punto que sale por una desviacin menor, de
igual manera se tendran que revisar estos datos con otros estudios para que
hubiese una normalidad exacta.
Histograma de Residuales: Permite cotejar normalidad. Cuando el histograma es

simtrico, con un nico pico en el centro, se concluye que hay normalidad.
Interpretacin: Nos seala que la variabilidad en funcin del valor no se modifica

a gran escala; sin embargo, la fluctuacin de los puntos es anormal y se puede
decir que las varianzas podran no ser constantes. Los puntos no se muestran un
poco dispersos y no se encuentran siempre apegados a la lnea de referencia..
Plot de Residuales versus los valores predichos (FITS): Se usa para detectar
si hay datos anormales, cuando hay datos que caen bastantes alejados, tanto en
el sentido vertical como horizontal.
Interpretacin: Los datos no se encuentran tan dispersos excepto por un dato

que podra afectar en una mnima parte al modelo.
Plot de Residuales versus la variable predictora: Es usado para detectar datos

anormales as como si la varianza de los errores es constante con respecto a la
variable predictora.
DISEO COMPLETAMENTE AL AZAR (DCA)
El diseo completamente al azar es el ms simple de todos los diseos. Es un

diseo en el cual los tratamientos son asignados aleatoriamente a las
unidades experimentales sin ningn tipo de restriccin. Este diseo es
utilizado cuando las unidades experimentales son bastante homogneas, es decir
cuando la variabilidad entre ellas es pequea y no existe ningn criterio de
bloqueo que permita disminuirla. Dado que los tratamientos constituyen el nico
criterio de clasificacin para las unidades experimentales, a este diseo se le
conoce tambin como diseo de clasificacin de una va.
MODELO ESTADSTICO
Los siguientes son los contenidos de colesterol (en miligramos por paquete) que
cuatro laboratorios obtuvieron por paquetes de 6 onzas de tres alimentos
dietticos muy similares:
Alimentos Laboratorios
dietticos
1 2 3 4
A 3.7 2.8 3.1 3.4
B 3.1 2.6 2.7 3.0
C 3.5 3.4 3.0 3.3
Hiptesis
H0: 1=2=3=4=5 H0:1=2=3=4=5

HI: Al menos una es diferente HI: Al menos una ser distinto a 0
Las hiptesis en relacin al problema serian
Bloques
H0: No existe una diferencia significativa de los niveles de colesterol en los

alimentos dietticos.
H1: Existe una diferencia significativa de los niveles de colesterol en los alimentos
dietticos.
Tratamiento
H0: No existe una relacin significativa entre las muestras tomadas de colesterol
por los laboratorios
H1: Existe una relacin significativa entre las muestras tomadas de colesterol por
los laboratorios
El nivel de significancia correspondiente es: =0.05

Valor Crtico: Por medio del programa MINITAB se obtuvo la grfica de

distribucin, la cual nos servir de ayuda para poder observar si se aceptan o se
rechazan las hiptesis propuestas anteriormente
[Escriba una cita del

documento o el resumen de un
punto interesante. Puede
situar el cuadro de texto en
cualquier lugar del documento.
Use la ficha Herramientas de
dibujo para cambiar el formato
del cuadro de texto de la cita.]
Despus de calcular f
f > f [K-1, (K-1)(b-1)]
CON P-VALOR
P-VALOR < 0.05
Analisis de varianza (ANOVA) el cual se obtuvo en Minitab

Interpretacion de los datos obtenidos en minitab:
Para los bloques que estos son los

alimentos dieteticos, el valor F
podemos observar que es menor al valor obtenido en la grafica lo cual nos
indica que la hipotesis nula H0 se acepta 1.40 < 5.41
Podemos
inferir con un
nivel de
significancia
del 0.05 que NO existe una
diferencia significativa de los niveles de colesterol
en los alimentos dietticos.
Para los
tratamientos que en este caso seran los
laboratorios, comparando los valores de F con la grfica podemos observar que
es menor 3.37 < 5.41 por lo tanto la hiptesis nula H0 se acepta.
En este caso podemos inferir con un nivel de confianza del 95% que NO existe
una relacin significativa entre las muestras tomadas de colesterol por los
laboratorios.
ANALISIS DE LOS RESIDUALES GRAFICA DE NORMALIDAD

Interpretacin: se puede observar que los puntos de las muestras se ajustan a la

recta. Sin embargo, los dos ltimos puntos se encuentran un poco alejados del
resto, esto nos indica que existe una ligera variacin entre estos dos datos, por lo
que analizarlo a fondo y tratar de eliminarlo nos proporciona una mejor tendencia.
ANALISIS DE LOS RESIDUALES RESIDUOS HISTOGRAMA

Interpretacin: El histograma nos muestra una ausencia de simetra. Podemos

observar que hay un rango que no cuenta con una barra; esto podra afectar el
supuesto de normalidad debido a que la grfica nos permite verificar que los
residuos presenten dicha normalidad. Aunado a ello, estos resultados nos indican
que se debe analizar el experimento para averiguar las causas de valores atpicos.
ANALISIS DE LOS RESIDUALES VARIANZA AJUSTES
Interpretacin: una forma de verificar el supuesto de varianza constante es

graficando los predichos contra los residuos. Si los residuos se distribuyen de una
manera aleatoria y en una banda horizontal, es seal de que se cumple el
supuesto de que los tratamientos tienen igual varianza. Estos residuos se
encuentran dispersos y no siguen un patrn constante por lo que se concluye que
la varianza es constante.
ANALISIS DE LOS RESIDUALES VARIANZA ORDEN
vs. orden
(la respuesta es colesterol)
0.3
0.2
0.1
Residuo
0.0
-0.1
-0.2
1 2 3 4 5 6 7 8 9 10 11 12
Orden de observacin
Interpretacin: La suposicin de independencia en los residuos puede verificarse

si se grafica el orden en que se colect un dato contra el residuo correspondiente.
Se observa que no existe un patrn definido en la grfica de varianza de orden, lo
que indica la ausencia de correlacin entre los errores y demuestra que el
supuesto de independencia se cumple. Cuando este supuesto no se cumple,
indica que existen deficiencias en la ejecucin del experimento.
DISEO CUADRADO LATINO (DCL)
En este diseo la restriccin para controlar la variabilidad est en

dos direcciones, hileras y columnas. Los tratamientos se arreglan en bloques de
dos sentidos y cada tratamiento aparece una vez en cada hilera y columna. El
anlisis de los datos puede eliminar el error la variabilidad debida a la hilera y
columna. Debe existir el mismo nmero de tratamientos, hileras y columnas, o
sea, el nmero de tratamientos es igual al nmero de repeticiones. Un
arreglo para cuatro tratamientos podra ser:
MODELO ADITIVO LINEAL
EJERCICIO
Para comparar cuatro diseos diferentes de pelotas de golf, A, B, C, D, cada una

golpeado por cada uno de cuatro golfistas profesionales, P 1, P2, P3, P4, usando una
vez cada uno de cuatro palos, D 1, D2, D3, D4. Las distancias del tee a los puntos en
que las pelotas se detuvieron (en yardas) aparecen en las siguientes tablas:
Datos:
D1 D2 D3 D4
P1 D 231 B 215 A 261 C 199
P2 C 234 A 300 B 280 D 266
P3 A 301 C 208 D 247 B 255
P4 B 253 D 258 C 210 A 290
Hiptesis
H0: A=B=C=D
Hi: Al menos una de las = 0
Ho: no hay diferencia alguna entre las pelotas de golf por lo que no influyen en la
distancias del tee.
Hi: si hay diferencia entre las pelotas de golf por lo que s influyen en la distancias
del tee.
Nivel de significancia:
= 0.05
Regin crtica
f > f [p-1, (p-1)(p-2)]
f0.05 (3,6)=4.76
Se obtiene el ANOVA con MINITAB donde aparecen los siguientes resultados:
Clculos:
Interpretacin de los datos obtenidos en el ANOVA de F, comparndolos con

la grfica de la distribucin: Para el primer dato que seran los golfistas, el dato
que se obtuvo de F es mayor que el valor de la grfica lo cual podemos decir que
H0 se rechaza, por lo cual podemos inferir con un nivel de significancia del 0.05
que existe una relacin en la forma de golpear las pelotas de golfs de los golfistas
profesionales.
Columna en este caso son los palos de golf, analizando el resultado obtenido de
F junto con la grfica es menor que el valor de 4.76 de la zona de rechazo por lo
tanto en este caso se acepta H0, se infiere con un nivel de significancia del 0.05
que NO existe una diferencia significativa de los palos de golf.
Fila (distancia), se observa que este dato de F es mayor que el dato que se
observa en la grfica por lo tanto se rechaza H, entonces se puede concluir con un
nivel de significancia del 0.05 que existe una distancia significativa entre las
pelotas de golf que fueron golpeadas.
ANALISIS DE LOS RESIDUALES GRAFICA DE NORMALIDAD
Interpretacin: Existe una tendencia lineal dentro de los primeros datos; se

mantienen juntos. Sin embargo, los cuatro ltimos puntos se encuentran un poco
alejados del resto, esto nos indica que existe una ligera variacin.
ANALISIS DE LOS RESIDUALES HISTOGRAMA

Interpretacin: El histograma nos muestra una ausencia de simetra. Podemos

observar hay un rango que no cuenta con una barra; esto podra afectar el
supuesto de normalidad debido a que la grfica nos permite verificar si los
residuos presenten normalidad. Estos resultados nos indican que se debe analizar
el experimento para averiguar las causas de valores atpicos
ANALISIS DE LOS RESIDUALES VARIANZA AJUSTES
Interpretacin: graficar los predichos contra los residuos nos permiten verificar el
supuesto de varianza constante. Si los residuos se distribuyen de una manera
aleatoria y en una banda horizontal, es seal de que se cumple el supuesto de que
los tratamientos tienen igual varianza. Estos residuos se encuentran dispersos y
no siguen un patrn constante por lo que se concluye que la varianza es

constante.
ANALISIS DE LOS RESIDUALES VARIANZA ORDEN
Interpretacin: La suposicin de independencia en los residuos puede verificarse

si se grafica el orden en que se colect un dato contra el residuo correspondiente.
Se observa que no existe un patrn definido en la grfica de varianza de orden, lo
que indica la ausencia de correlacin entre los errores y demuestra que el
supuesto de independencia se cumple. Cuando este supuesto no se cumple,
indica que existen deficiencias en la ejecucin del experimento.
DISEO CUADRADO GRECO-LATINO (DCL)

El modelo en cuadrado greco-latino se puede considerar como una extensin del
cuadrado latino en el que se incluye una tercera variable de control o
variable de bloque. En este modelo, como en el diseo en cuadrado latino, todos
los factores deben tener el mismo nmero de niveles K y el nmero de
observaciones necesarias sigue siendo K 2. Este diseo es, por tanto,
una fraccin del diseo completo en bloques aleatorizados con un factor principal
y 3 factores secundarios que requerira K4 observaciones. Los cuadrados greco-
latinos se obtienen por superposicin de dos cuadrados latinos del
mismo orden y ortogonales entre s, uno de los cuadrados con letras latinas el otro
con letras griegas. Dos cuadrados reciben el nombre de ortogonales si,
al superponerlos, cada letra latina y griega aparecen juntas una sola vez en el
Planteamiento del modelo
En un diseo en cuadrado greco-latino la variable respuesta Y ij (hp) viene descrita

por la siguiente ecuacin
EJERCICIO
Se compara el rendimiento de tres procesos de fabricacin (A, B, C) entre

condiciones experimentales (, , ) tres das distintos con tres
procedimientos de medicin. El diseo y los resultados obtenidos se indican en el
cuadro. El nmero entre parntesis en cada casilla es la media de
las dos replicaciones.
Datos
Anlisis de varianza (ANOVA) de Minitab
Si el P valor es menor a 0,05 se rechaza la hiptesis alterna, eso quiere

decir que hay diferencia significativa entre tratamientos (sali valor =
0,000) hay diferencia entre tratamientos Si el P valor fuese mayor que 0,05
se acepta la hiptesis nula, No hay diferencia entre tratamientos.
Regin crtica
Interpretacin de los datos obtenidos en MINITAB comparndolos con la

grfica de distribucin
Procesos donde observamos que F es menor 1.09<4.26 por lo tanto H0 se

acepta por lo tanto con un nivel de significancia del 0.05 afirmamos que el
rendimiento de los procesos de fabricaciones es significativo en los tres
casos.
Las condiciones experimentales analizamos F la cual es menor 0.82 <
4.26, por lo cual podemos inferir con un nivel de confianza del 95% que las
condiciones experimentales son significativas en los procesos de
fabricacin, H0 se acepta.
Los das de acuerdo a los datos que nos arroj minitab la F es menor 1.96
< 4.26, por lo tanto se infiere con un nivel de significancia del 0.05 que H0
se acepta y entonces los das tienen relacin significativa con los
procedimientos de medicin.
Mtodos que como se observa la F es mayor 4.36 > 4.26 por lo tanto H0 se
rechaza con un nivel de confianza del 95% se puede inferir que NO existe
una relacin significativa entre los mtodos utilizados durante los procesos
de fabricacin. Por lo tanto se deberan de mejor para que los mtodos
utilizados tuvieran mayor relacin con esto se pretenda mejorar tiempos en
los procesos.
ANALISIS DE RESIDUALES GRAFICA DE NORMALIDAD
Grfica de probabilidad normal

(la respuesta es Rendimiento)
99
95
90
80
Porcentaje
70
60
50
40
30
20
10
1
-3 -2 -1 0 1 2 3
Residuo
En este grafico de probabilidad normal para greco-latino realmente se puede

observar que los residuos estn distribuidos pero de una manera simtrica, por lo
tanto el rendimiento es bastante bueno.
ANALISIS DE RESIDUALES HISTOGRAMA
Histograma
(la respuesta es Rendimiento)
9
6
Frecuencia
0
-2 -1 0 1 2
Residuo
Interpretacin: El histograma muestra simetra, no presenta cambios que

pudieran afectar los resultados obtenidos, por lo que se concluye que el supuesto
de normalidad demuestra que los residuos son normales sin fluctuaciones
atpicas.
ANALISIS DE RESIDUALES VARIANZA AJUSTES
Interpretacin: Existe una

constante en la varianza
dentro de los puntos, lo cual
hace que sea significativo el
equilibrio en los puntos que
estn sobre la lnea de 0.
ANALISIS DE RESIDUALES VARIANZA ORDEN
Interpretacin: No hay un patrn definido en la grfica del orden, esto muestra

que no existe correlacin entre los errores. Se debe prestar atencin a ciertos
puntos atpicos puestos que estos, nos podran indicar qu factores o qu es lo
que afecta a los resultados obtenidos, sin embargo el supuesto de independencia
se cumple.

Ejercicios U1, U3, U4

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Ejercicios U1, U3, U4

Hochgeladen von

Copyright:

Verfügbare Formate

Estadstica Inferencial II

Regresin Lineal Mltiple ALUMNAS: Gutirrez Flores Polette Fernanda

Regresin lineal mltiple

Un modelo de regresin mltiple trata de explicar el comportamiento de una

Variable dependiente: Una variable dependiente es aquella cuyos valores

Variable independiente: Una variable independiente es aquella cuyo valor no

Se est interesado en investigar la variable ndice de criminalidad en relacin con

R AGE S ED EX1 EX2 LF M N

96,8 131 0 116 78 73 574 1038 7

R = ndice de criminalidad, nmero de delitos conocidos por la polica por cada

Ed = nivel educativo, nmero medio de aos de escolarizacin

Ex1 = gasto per cpita en proteccin policial relativa a 1960

Ex2 = gasto per cpita en proteccin policial relativa a 1959

LF = proporcin en participacin en trabajos de fuerza por cada mil hombres con

M = Nmero de varones por mil mujeres

N = Tamao de la poblacin del estado en cien mil

Variables independientes o predictoras:

X1 = distribucin de la edad, nmero de varones de edad 14-24 por cada mil de

X3 = nivel educativo, nmero medio de aos de escolarizacin

X4 = gasto per cpita en proteccin policial relativa a 1960

X5 = gasto per cpita en proteccin policial relativa a 1959

X6 = proporcin en participacin en trabajos de fuerza por cada mil hombres con

X7 = Nmero de varones por mil mujeres

X8 = Tamao de la poblacin del estado en cien mil

Variable dependiente o respuesta:

Y= ndice de criminalidad, nmero de delitos conocidos por la polica por cada

1. Ocho variables independientes o predictoras. (X1, X2, X3, X4)

Mediante el uso del el programa MINITAB 17; se calcular la ecuacin de

Nos muestra que a menor nmero de variable binaria, nivel educativo,

= El aumento promedio en el ndice de criminalidad es de 0.437 por cada

El aumento promedio en el ndice de criminalidad es de 3.75 por cada

El decremento promedio en el ndice de criminalidad es de 0.615 por cada

El aumento promedio en el ndice de criminalidad es de 2.78 por cada

El decremento promedio en el ndice de criminalidad es de 1.94 por cada

6 = El decremento promedio en el ndice de criminalidad es de 0.010 por cada

El aumento promedio en el ndice de criminalidad es de 0.534 por

El aumento promedio en el ndice de criminalidad es de 0.450 por

COEFICIENTE DE DETERMINACION AJUSTADA

El coeficiente de determinacin ajustada es el porcentaje de variacin en la

Coeficiente de determinacin ajustado de los datos:

COEFICIENTE DE DETERMINACIN AJUSTADO

El coeficiente de determinacin al cuadrado ajustado indica que se puede

COEFICIENTE DE CORRELACION MULTIPLE

El coeficiente de correlacin mltiple establece una medida del grado de

DATOS OBTENIDOS CON ANLISIS DE DATOS EN EXCEL

El valor de 79.03% se traduce como el porcentaje de variabilidad de Y (ndice de

El Coeficiente de Mallows se utiliza como ayuda para elegir entre mltiples

PRUEBA DE HIPOTESIS DEL CONJUNTO

Prueba de todo el conjunto de datos el cual determinar si existe una regresin

Valor de f = 80.09. Distribucin f con 5 grados de libertad en el numerador y 16 grados de

PRUEBA DE HIPOTESIS DEL SUBCONJUNTO

H1: B0 > - 1.82

3. Nivel de significancia Zona de

Como Tr (0.980) < T0.05, 25 (1.725) con un nivel de significancia de = 0.05 se

PRUEBAS INDIVIDUALES DE COEFICIENTES INDIVIDUALES DEL

Estas pruebas permiten deducir qu variables predictivas contribuyen de manera

2. Nivel de significancia rea de aceptacin

Los datos obtenidos para realizar la

Comparacin entre estadstico de prueba y nivel de significancia:

P-valor y el nivel de significancia:

P-valor1= 0.535 es > = 0.05, se acepta

Utilizando una muestra aleatoria especificada de una poblacin se obtiene un

Existe una herramienta y la posibilidad de obtener un intervalo de prediccin con