Sie sind auf Seite 1von 50

UNIVERSIDAD TCNICA PARTICULAR DE LOJA

La Universidad Catlica de Loja

MODALIDAD ABIERTA Y A DISTANCIA


ESCUELA DE ECONOMA

E
1. Datos informativos

STADSTICA II

Gua didctica
4 CRDITOS

CICLOS

CARRERAS
Administracin de Empresas Tursticas y Hoteleras Contabilidad y Auditora Administracin en Banca y Finanzas Administracin de Empresas Economa

3
UTPL-ECTS

4 5

AUTOR: Ing. Wehrli Enrique Prez. Ing. Karina Bajaa Zambrano.

Reciba asesoria virtual en: www.utpl.edu.ec

19508
MATERIAL DE USO DIDCTICO PARA ESTUDIANTES DE LA UNIVERSIDAD TCNICA PARTICULAR DE LOJA, PROHIBIDA SU REPRODUCCIN TOTAL O PARCIAL POR CUALQUIER MEDIO

ESTADSTICA II
Gua didctica

Wehrli Enrique Prez Karina Bajaa Zambrano UNIVERSIDAD TCNICA PARTICULAR DE LOJA Diagramacin, diseo e impresin: EDITORIAL DE LA UNIVERSIDAD TCNICA PARTICULAR DE LOJA Call Center: 593 - 7 - 2588730, Fax: 593 - 7 - 2611418 C. P.: 11- 01- 608 www.utpl.edu.ec San Cayetano Alto s/n Loja-Ecuador Cuarta edicin Primera reimpresin ISBN-978-9942-08-120-9 Reservados todos los derechos conforme a la ley. No est permitida la reproduccin total o parcial de esta gua, ni su tratamiento informtico, ni la transmisin de ninguna forma o por cualquier medio, ya sea electrnico, mecnico, por fotocopia, por registro u otros mtodos, sin el permiso previo y por escrito de los titulares del Copyright.

Abril, 2012

2. ndice
3. Introduccin ........................................................................................................................................ 4. Bibliografa .........................................................................................................................................
7 8

4.1 Bsica .................................................................................................................................................. 8

Orientaciones generales para el estudio ................................................... 9 6. Proceso de enseanza-aprendizaje para el logro de competencias ..................................................................................................................................... 11
PRIMER BIMESTRE 6.1 6.2 6.3 6.4 Competencias Genricas .............................................................................................................. Planificacin para el trabajo del alumno .............................................................................. Sistema de evaluacin ................................................................................................................. Orientaciones especficas para el aprendizaje por competencias ..................................
11 11 13 15

4.2 Complementaria ................................................................................................................................ 8.

CAPTULO 1: REGRESION LINEAL .................................................................................................................. 15

1.1. Introduccin .......................................................................................................................................... 1.2. Supuestos generales del modelo ....................................................................................................... 1.3. Supuesto especfico de Normalidad .................................................................................................. 1.4. Modelo de Regresin Lineal Simple .................................................................................................. 1.5. Coeficiente de Determinacin R....................................................................................................... 1.6. Potencia de Explicacin del Modelo .................................................................................................. 1.7. Coeficiente de Correlacin .............................................................................................................. 1.8. Coeficiente de Correlacin Muestral r ................................................................................................ 1.9. Relacin entre el Coeficiente de Determinacin y el Coeficiente de Correlacin ........................ 1.10. Prueba de Significancia del modelo ............................................................................................... 1.11. Valor p ................................................................................................................................................. 1.12. Tabla de Anlisis de Varianza .......................................................................................................... 1.13. Estimacin de ............................................................................................................................. 1.14. Anlisis Residual ................................................................................................................................

15 15 16 16 22 23 24 24 24 27 28 29 30 35

Autoevaluacin 1 .......................................................................................................................................... 40
CAPTULO 2: REGRESION MULTIPLE.............................................................................................................. 41

2.2. Suposiciones del modelo..................................................................................................................... 2.3. Supuesto especfico de Normalidad .................................................................................................. 2.4. Mtodo de Mnimos Cuadrados ......................................................................................................... 2.5. Coeficiente de Determinacin Mltiple R2 ....................................................................................... 2.6. Potencia de Explicacin del Modelo R2 * 100% ............................................................................ 2.7. Coeficiente de Determinacin Mltiple Ajustado ............................................................................. 2.8. Prueba de Significancia....................................................................................................................... 2.9. Tabla de Anlisis de Varianza ............................................................................................................

41 41 42 42 43 44 44 46

Autoevaluacin 2 ......................................................................................................................................... 56

CAPTULO 3: ANLISIS DE REGRESIN: CONSTRUCCIN DE MODELOS ...................................................... 57

3.1. Introduccin .......................................................................................................................................... 3.2. Modelo de orden superior ................................................................................................................... 3.3. Modelo con interaccin ....................................................................................................................... 3.4. Determinacin de cundo agregar variables ................................................................................... 3.5. Determinacin de cundo agregar variables, el caso general ...................................................... Autoevaluacin 3 ..........................................................................................................................................

57 57 62 65 70 75

SEGUNDO BIMESTRE 6.5 Competencias genricas ............................................................................................................. 77 6.6 Planificacin para el trabajo del alumno .............................................................................. 77 6.7 Orientaciones especficas para el aprendizaje por competencias .................................. 80
CAPTULO 4: NMEROS NDICES

4.1. Introduccin .......................................................................................................................................... 4.2. Precios relativos .................................................................................................................................... 4.3. ndices de precios agregados ............................................................................................................. 4.4. ndices de precios agregados no ponderado.................................................................................... 4.5. ndice de precios agregados ponderados ......................................................................................... 4.6. Clculo de un ndice de precios agregados ponderados a partir de precios relativos ............... 4.7. Algunos ndices de precios importantes............................................................................................ 4.8. Deflactar una serie mediante ndices de precios ............................................................................. Autoevaluacin 4 ..........................................................................................................................................

80 80 80 82 82 84 86 88 93

CAPTULO 5: PRONSTICOS ........................................................................................................................... 94

5.1. Introduccin .......................................................................................................................................... 94 5.2. Serie de Tiempo .................................................................................................................................... 94 5.3. Pronstico .............................................................................................................................................. 94 5.4. Componentes de una serie de tiempo............................................................................................... 94 5.5. Componente de tendencia .................................................................................................................. 94 5.6. Componente cclico .............................................................................................................................. 94 5.7. Componente estacional ....................................................................................................................... 94 5.8. Componente irregular .......................................................................................................................... 94 5.9. Mtodos de suavizamiento ................................................................................................................. 94 5.10. Promedios mviles ............................................................................................................................. 95 5.11. Promedios mviles ponderados ....................................................................................................... 101 5.12. Suavizamiento exponencial.............................................................................................................. 101 5.13. Proyeccin de tendencia ................................................................................................................... 109 5.14. Componentes de tendencia y estacionales .................................................................................... 112

5.15. Modelo multiplicativo ....................................................................................................................... 113 5.16. Clculo de los ndices estacionales ................................................................................................. 113 5.17. Desestacionalizacin de una serie de tiempo ............................................................................... 118 5.18. Uso de una serie de tiempo desestacionalizada para la identificacin de tendencias ........... 120 5.19. Ajustes estacionales........................................................................................................................... 123 Autoevaluacin 5 .......................................................................................................................................... 124
CAPTULO 6: MTODOS NO PARAMTRICOS ................................................................................................. 126

6.1. Introduccin .......................................................................................................................................... 126 6.2. Prueba de los signos ............................................................................................................................ 126 6.3. Caso de muestras pequeas ............................................................................................................... 126 6.4. Nivel de Significacin y Valor p ......................................................................................................... 127 6.5. Caso de muestras grandes .................................................................................................................. 130 6.6. Nivel de significacin y Valor p......................................................................................................... 131 6.7. Prueba de hiptesis acerca de la mediana ...................................................................................... 132 6.8. Prueba de los rangos con signo de Wilcoon .................................................................................... 134 6.9. Distribucin Muestral De T Para Poblaciones Idnticas ................................................................. 137 6.10. Prueba de Mann - Whitney - Wilcoxon .......................................................................................... 138 6.11. Caso para muestras pequeas ......................................................................................................... 138 6.12. Caso de muestras grandes................................................................................................................ 141 6.13. Distribucin Muestral De T Para Poblaciones Idnticas ............................................................... 141 6.14. Prueba de Kruskal-Wallis ................................................................................................................. 143 6.15. Correlacin de rangos........................................................................................................................ 145 6.16. Prueba de significancia de correlacin de rangos ........................................................................ 147 Autoevaluacin 6 .......................................................................................................................................... 149

7. Solucionario ....................................................................................................................................... 150

PRELIMINARES

Gua didctica: Estadstica II

3. Introduccin
La Estadstica II es una asignatura de carcter genrica que se desarrolla de manera conjunta en las carreras del rea administrativa de la UTPL, distribuida de la siguiente manera: Economa, Administracin de Empresas, Asistencia Gerencial y Relaciones Pblicas en quinto ciclo; Contabilidad y Auditora, Administracin en Banca y Finanzas en el cuarto ciclo, y en Administracin de Empresas Tursticas en el tercer ciclo. Esta asignatura contempla un total de 4 crditos acadmicos. La importancia de la materia radica en su aplicacin para la toma de decisiones. En los ltimos aos hemos visto que se aplica estadstica en todas las reas, las oficinas de estadstica del gobierno publican cada mes nueva informacin numrica sobre la inflacin, el desempleo, y la inseguridad. Los especialistas, asesores financieros y los que determinan las polticas de una empresa y del gobierno estudian los datos para tomar decisiones basadas en la informacin, para ofrecer un tratamiento adecuado en sus estrategias. Un da las estadsticas sern tan necesarias para la vida ciudadana como el leer y escribir por Herbert George Wells (1866-1946) La asignatura de Estadstica II est estructurada en 6 captulos. En el primer bimestre se estudia los tres primeros captulos, muestran cmo construir modelos de regresin, sean estos modelos de regresin simple o modelos de regresin mltiple, interpretar sus resultados, as mismo la construccin e interpretacin de la tabla ANOVA (Anlisis de Varianza) para determinar la validez del modelo mediante una Prueba de Hiptesis. El segundo bimestre comprende tres captulos. En el captulo 4 veremos el uso de los nmeros ndices, permiten hacer comparaciones entre los precios actuales por unidad de un artculo en particular con los precios de los mismos productos en el ao base. Este tipo de procedimiento se utiliza para determinar un ndice de precios (Inflacin). Tambin se analizarn los ndices de precios agregados ponderados y los no ponderados quienes miden la variacin combinada de un grupo de artculos. En el captulo 5 llamado Pronsticos, trata de realizar una estimacin de lo que podra ocurrir en un futuro con una serie de tiempo, y ver la tendencia que tienen los datos que en algunos casos se presenta como una lnea creciente, tambin se observaran otras que no necesariamente tienen un comportamiento lineal. Y el ltimo captulo llamado mtodos no paramtricos, que son alternativas ms robustas para Probar Hiptesis sobre el valor central que siguen un conjunto de datos. La asignatura de Estadstica II es parte fundamental de su formacin por esto le motivo para que realice un estudio sistematizado, utilizando el texto bsico paralelo con la gua didctica, y que utilice los recursos virtuales como videoconferencias y el sistema de aprendizaje EVA. Estamos gustosos de presentarles este material didctico que ha sido elaborado para que le acompae durante su proceso formativo. xito en su estudio!

UNIVERSIDAD TCNICA PARTICULAR DE LOJA La Universidad Catlica de Loja

Gua didctica: Estadstica II

PRELIMINARES

4. Bibliografa
4.1 Bsica El texto bsico es: Anderson D. Sweeney D. y Williams T. (2009). Estadstica para Administracin y Economa. Dcima edicin. Cosegraf. Mxico Los autores del libro son expertos en el tema, lo cual les permite presentar un texto con gran cantidad de ejercicios, utilizando el Excel como herramienta principal. Prez W. (2011). Gua didctica de Estadstica II. Loja-Ecuador: Editorial UTPL. La gua didctica ha sido elaborada en base al libro de Anderson D., y otros. Administracin y Economa, dcima edicin. Estadstica para

Contiene el desarrollo de los principales temas de la estadstica utiliza recursos didcticos como autoevaluaciones, actividades recomendadas, casos prcticos y ejemplos, todo esto junto con el texto bsico sern sus principales herramientas para el desarrollo de la asignatura. 4.1 Complementaria Berenson M. Levine D. Krenhbiel T. (2001). Estadstica para administracin. Mxico. Editorial Pearson Educacin. Este libro es bastante didctico por cuanto los contenidos se encuentran agrupados de forma sistemtica, al igual que sus ejercicios, lo que permite manejar, de mejor manera, los diferentes temas tratados. Lind D. Marchall W. Wathen S. (2004). Estadstica para Administracin y Economa. Onceava edicin Alfaomega. Colombia. Los autores del libro son expertos en la materia, lo cual les permite presentar un texto con gran cantidad de ejercicios, utilizando el Excel como herramienta principal.

UNIVERSIDAD TCNICA PARTICULAR DE LOJA

La Universidad Catlica de Loja

PRELIMINARES

Gua didctica: Estadstica II

5. Orientaciones generales para el estudio


Estimado estudiante, considere las siguientes indicaciones para obtener los mejores resultados en el estudio de la materia: Materiales: 1. 2. 3. Usted dispone del libro bsico y gua didctica, realice una lectura simultnea detenindose en los ejemplos que se indican en cada uno. El trabajo a distancia y la evaluacin presencial han sido elaborados en funcin del texto bsico y la gua didctica por lo que su lectura debe concentrarse en estas dos herramientas. Para una mejor comprensin de cada tema realice las actividades complementarias y las autoevaluaciones propuestas al final de cada unidad. Puede comparar las respuestas en el solucionario adjunto al final de este texto.

4. Dispone del Entorno Virtual de Aprendizaje EVA, encontrar un mensaje semanal con la explicacin de los contenidos crticos de la asignatura, claves de respuesta de las evaluaciones a distancia y presenciales, o alguna comunicacin especfica. 5. Dispone de un horario de tutora semanal, utilcelo para obtener informacin y explicacin de los contenidos de la materia. La tutora puede realizarse por Internet a travs del Entorno Virtual de Aprendizaje EVA, correo electrnico o telfono. Contenidos: 6. 7. Los conocimientos previos que se requieren para la asignatura son las nociones generales de economa que revis en Microeconoma II. Para mejor comprensin de los contenidos se utiliza grficos y algunos ejemplos.

Estudio de la materia: 8. En la gua didctica dispone de la planificacin bimestral, luego de revisarla verifique el cumplimiento de los indicadores de aprendizaje, de esta forma podr medir sus avances acadmicos, aptitudes y habilidades desarrolladas con el estudio de la materia. Realice un estudio sistemtico, distribuyendo su tiempo de manera que disponga de al menos dos horas diarias para leer los contenidos y una semana para que prepare las pruebas bimestrales.

9.

10. Le sugiero que utilice un mtodo especfico para su estudio, por ejemplo el mtodo cientfico. Este supone la observacin, induccin, planteamiento y demostracin de hiptesis y elaboracin de conclusiones. Este mtodo tiene algunas tipologas por lo que le sugiero utilizar la lgica (hacer analogas), deducciones y sntesis. 11. Utilice activamente los recursos tecnolgicos como EVA, biblioteca virtual, videoconferencias, recursos educativos abiertos, etc. Antes de ello le propongo que:

UNIVERSIDAD TCNICA PARTICULAR DE LOJA La Universidad Catlica de Loja

Gua didctica: Estadstica II

PRELIMINARES

Verifique el horario de tutoras con su profesor. Revise las fechas propuestas para las tutoras por videoconferencia, stas se dictan una vez por bimestre, es su oportunidad para resolver dudas sobre los contenidos de la materia. Durante su estudio utilice una libreta de notas para que durante las tutoras formule todas las preguntas que tiene respecto del tema. 12. Recuerde que ante alguna duda comunquese con su tutor va correo electrnico o por telfono.

10

UNIVERSIDAD TCNICA PARTICULAR DE LOJA

La Universidad Catlica de Loja

PRIMER BIMESTRE

Gua didctica: Estadstica II

6. Proceso de enseanza-aprendizaje para el logro de competencias

PRIMER BIMESTRE
6.1 COMPETENCIAS GENRICAS Adquirir hbitos y tcnicas de estudio eficaces Capacidad de abstraccin, anlisis y sntesis Capacidad de aplicar los conocimientos en la prctica Capacidad de investigacin Capacidad para identificar, plantear y resolver problemas Capacidad creativa e innovadora Capacidad para tomar decisiones

6.2 PLANIFICACIN PARA EL TRABAJO DEL ALUMNO.


Indicadores de Aprendizaje
Utiliza la regresin lineal simple para la toma de decisiones

Competencias Especficas
Desarrollar el pensamiento lgico para la aplicacin en aspectos econmicos y la interpretacin de resultados, grficas y anlisis de datos en modelos reales.

Contenido Unidades/Temas
Unidad 1: Regresin lineal 1.1 Supuestos generales del modelo 1.2 Supuesto especifico de normalidad 1.3 Modelo de regresin lineal simple 1.4 Coeficiente de determinacin 1.5 Coeficiente de correlacin muestral 1.6 Relacin entre el coeficiente de determinacin y el coeficiente de correlacin 1.7 Prueba de significancia del modelo 1.8 Valor p 1.9 Tabla de anlisis de varianza 1.10 Estimacin de 2 1.11 Anlisis residual

Actividades de Aprendizaje
Lectura comprensiva Desarrollo de autoevaluacin Elaboracin de cuadro sinpticos Elaborar ejercicios Desarrollo de la evaluacin a distancia

Cronograma Orientativo Tiempo estimado


Semanas: 1y2 8 horas de estudio a la semana y 8 horas de interaccin por el EVA

UNIVERSIDAD TCNICA PARTICULAR DE LOJA La Universidad Catlica de Loja

11

Gua didctica: Estadstica II


Utiliza la regresin mltiple para la toma de decisiones Unidad 2: Regresin mltiple 2.1 Supuestos del modelo 2.2 Supuesto especfico de normalidad 2.3 Mtodo de Mnimos Cuadrados 2.4 Coeficiente de determinacin Mltiple R2 2.5 Potencia de explicacin del Modelo R2 2.6 Coeficiente de determinacin Mltiple Ajustado 2.7 Prueba de significancia 2.8 Tabla de anlisis de varianza

PRIMER BIMESTRE

Lectura comprensiva Desarrollo de autoevaluacin Elaboracin de cuadro sinpticos Desarrollo de la evaluacin a distancia Interaccin con el EVA

Semanas: 3y4 8 horas de estudio a la semana y 8 horas de interaccin por el EVA

Construye modelos de Unidad 3: Anlisis de regresin regresin: Construccin de modelos 3.1 Modelo de orden superior 3.2 Modelo con interaccin 3.3 Determinacin de cuando agregar variables 3.4 Determinacin de cuando agregar variables, el caso general

Lectura comprensiva Desarrollo de autoevaluacin Elaboracin de cuadro sinpticos Desarrollo de la evaluacin a distancia Interaccin con el EVA

Semanas: 5y6 8 horas de estudio a la semana y 8 horas de interaccin por el EVA

Unidades del 1-3

Resolver Semanas: autoevaluaciones 7 y 8 Resolver trabajo a distancia Realizar cuadros sinpticos

12

UNIVERSIDAD TCNICA PARTICULAR DE LOJA

La Universidad Catlica de Loja

PRIMER BIMESTRE

Gua didctica: Estadstica II

6.3 Sistema de evaluacin


2. Heteroevaluacin 1. Autoevaluacin*

Formas de Evaluacin

P r u e b a

P a r t e

Interaccin

Comportamiento tico

Ensayo

Competencia: Criterio

de Ensayo

en el EVA

Objetiva

Objetiva

Parte

Actitudes

Cumplimiento, puntualidad y responsabilidad Esfuerzo e inters en los trabajos Respeto a las personas comunicacin Creatividad e iniciativa y a las normas de

Habilidades

Contribucin en el trabajo colaborativo y de equipo

Presentacin, orden y ortografa Emite juicios de valor argumentadamente Dominio del contenido

Conocimientos

Investigacin (cita fuentes de consulta) Aporta con criterios y soluciones Anlisis y profundidad en el desarrollo de los temas

Mximo 1 punto

(Completa la

Estrategia de

evaluacin a

Aprendizaje

PORCENTAJE

Puntaje

14

TOTAL

20 Puntos

Para aprobar la asignatura se requiere obtener un puntaje mnimo de 28/40 puntos, que equivale al 70%. * Son estrategias de aprendizaje, no tienen calificacin; pero debe responderlas con el fin de autocomprobar su proceso de aprendizaje. ** Recuerde: que la evaluacin a distancia del primer bimestre y segundo bimestre consta de dos partes: una objetiva y otra de ensayo, debe desarrollarla y entregarla en su respectivo Centro Universitario.

Seor estudiante:

Tenga presente que la finalidad de la valoracin cualitativa es principalmente formativa.

UNIVERSIDAD TCNICA PARTICULAR DE LOJA La Universidad Catlica de Loja

Presenciales y en el eva

10%

20% 30%

70% distancia) Actividades

x x

x x x x x x

x x

3. Coevaluacin

Evaluacin a Distancia** de

Evaluacin Presencial y

x x x x

x x x x x x x x x x

x x x x x x x x x x x

x x x

13

PRIMER BIMESTRE

Gua didctica: Estadstica II

6.4 Orientaciones especficas para el aprendizaje por competencias

UNIDAD 1 REGRESIN LINEAL


Para el desarrollo de este captulo, vaya revisando conjuntamente con esta gua el captulo 14 del texto bsico Anderson, D., Sweeney, D., y Williams, T. Estadstica para administracin y economa, decima edicin.

INTRODUCCIN La Regresin Lineal es un modelo estadstico que utiliza una frmula para explicar la relacin lineal entre una variable y en trminos de otras variables xi, para i=1, 2,, p en un conjunto de individuos o unidades analizadas. RECUERDE: La variable y es la variable a ser explicada o tambin llamada variable dependiente, y las variables x se las denomina variables de explicacin o variables independientes. El modelo es de la forma: y = + x + x + ... + p x p + Los valores i para i=1,2,, p son llamados coeficientes de regresin (parmetros del modelo), y sern calculados (estimados) por un mtodo estadstico. El valor es la expresin de la variable aleatoria del error del modelo conformado por todos los i errores en cada individuo u observaciones. En esta unidad vamos a estudiar el modelo ms sencillo de anlisis de regresin en el cual solo intervienen dos variables, la variable de explicacin o independiente x y la variable a ser explicada o dependiente y; a este modelo se lo conoce como modelo de Regresin Lineal Simple. SUPUESTOS GENERALES DEL MODELO En Estadstica, todos los mtodos de estimaciones de parmetros se realizan bajo ciertos supuestos que deben verificarse para no utilizar un mtodo inapropiado o concluir de forma incorrecta.

UNIVERSIDAD TCNICA PARTICULAR DE LOJA La Universidad Catlica de Loja

15

Gua didctica: Estadstica II

PRIMER BIMESTRE

En el modelo de regresin lineal simple y = + x + , los supuestos son: El valor esperado o media, de los errores de estimacin del modelo sobre las observaciones es cero; E [i] = 0; Es decir que la varianza del error, ser la misma para todos los valores de la variable x , en este caso al modelo se lo conoce con el nombre de modelo homocedstico. Cuando la varianza no es constante al modelo se lo conoce con ;el nombre de modelo heterocedstico. Var ( i) = La covarianza del error entre observaciones es cero, suponemos que las variables aleatorias del error son independientes. Cov (i j) = 0; i j ; i = 1,2,...,n; SUPUESTO ESPECFICO DE NORMALIDAD Es muy comn utilizar el supuesto adicional de normalidad, en un modelo de regresin. La variable aleatoria como ~N ( 0 , ). sigue una distribucin Normal con media cero y varianza , esto se expresa es una funcin lineal

Se puede demostrar que si y= + x + , y adems ~N (0, ); entonces de , por lo tanto es una variable aleatoria tambin distribuida normalmente. y~N (+x, )

Este es un supuesto muy importante que debe cumplirse cuando utilizamos regresin lineal simple. MODELO DE REGRESIN LINEAL SIMPLE En regresin lineal simple tratamos de explicar a y en trminos de x, con el modelo: y = + x +

Donde y son los parmetros del modelo y son desconocidos, pero se los puede estimar por y respectivamente. Por otra parte, es la variable aleatoria que representa el error de estimacin. IMPORTANTE:Para estimar los valores de y se necesita encontrar la ecuacin de regresin estimada:

16

UNIVERSIDAD TCNICA PARTICULAR DE LOJA

La Universidad Catlica de Loja

PRIMER BIMESTRE

Gua didctica: Estadstica II

y i = 0 + 1 xi = b0 + b1 xi

i = 1,2,...,n, son las observaciones Para realizar las estimaciones de y mediante 0 y 1 utilizaremos el Mtodo de Mnimos Cuadrados. Este es un mtodo mediante el cual se utilizan los datos para hallar la ecuacin de regresin estimada. La ecuacin de regresin como ya habamos visto antes es: = b + b x Los valores de b y b se los halla con las siguientes frmulas:
^ ^

b1

n i =1

( xi x)( yi y )
n i =1

( xi x)

Donde:

b = x - b x

xi : Valor de la variable independiente en la i-sima observacin. yi : Valor de la variable dependiente en la i-sima observacin.

x : Media de la variable independiente. y : Media de la variable dependiente.


n : Nmero total de observaciones. Ejemplo 1.1 A seis clientes del servicio de cajeros automticos de un banco se les pide califiquen la calidad de tal servicio en una escala de cero a veinte; para el efecto se escogen los clientes de acuerdo al nmero de aos que han estado relacionados con el banco que ofrece el servicio. Se selecciona un cliente por cada ao de antigedad, mnimo un ao y mximo seis1. Los resultados se muestran en la siguiente tabla. Xi (Antigedad en aos) Yi (Calificacin) 1 4.8 2 7.3 Tabla 1.1 3 8.4 4 11.0 5 13.1 6 15.2

1. Zurita, G. Probabilidad y Estadstica. Fundamentos y Aplicaciones. Primera edicin. Ecuador. Centro de Difusin y Publicaciones - ESPOL.

UNIVERSIDAD TCNICA PARTICULAR DE LOJA La Universidad Catlica de Loja

17

Gua didctica: Estadstica II

PRIMER BIMESTRE

Se nos pide: determinar los estimadores de Mnimos Cuadrados para un modelo de Regresin Lineal Simple. Desarrollo: Con las instrucciones que nos han dado ya estamos preparados para realizar el ejercicio con las frmulas anteriores para determinar el modelo de Regresin Simple que se ajuste a estos datos. Cliente i 1 2 3 4 5 6 Totales xi 1 2 3 4 5 6 yi 4,8 7,3 8,4 11 13,1 15,2

(xi - x ) -2,5 -1,5 -0,5 0,5 1,5 2,5

(yi- y ) -5,17 -2,67 -1,57 1,03 3,13 5,23

(xi - x )(yi - y ) 12,92 4,00 0,78 0,52 4,70 13,08

(xi - x ) 6,25 2,25 0,25 0,25 2,25 6,25

x
3,5

y
9,97 36,00 17,50

Utilizando las ecuaciones ya antes vistas procedemos a calcular el valor de b

Ahora calculamos el valor de b b = y - b x b = 9,97 - (2,057 + 3,5) b = 2,775


Por lo tanto, la ecuacin de regresin estimada es: ^ y = 2,775 + 2,057x

x
b=2,057

b1 =

36.00 17, 50

El grfico de los datos con la recta de regresin estimada, se presenta a continuacin:

18

UNIVERSIDAD TCNICA PARTICULAR DE LOJA

La Universidad Catlica de Loja

PRIMER BIMESTRE

Gua didctica: Estadstica II

Figura 1.1 Como la pendiente de la ecuacin es positiva nos indica que a medida que se incrementa los aos de antigedad del cliente, se incrementar la calificacin que este le da al servicio que el Banco le ofrece. Si nosotros quisiramos estimar el valor de la calificacin (variable y) que le dara al Banco un cliente que tiene 6,5 aos de antigedad, haramos lo siguiente: Ya tenemos nuestra ecuacin de regresin estimada que es = 2,775 + 2,057x, solo reemplazaramos en la variable x el valor de aos de antigedad del cliente y as obtendremos la calificacin estimada que dara este cliente en particular. = 2,775 + 2,057(6,5)=16,15 Dado que el modelo es de la forma y = + x + , entonces = y - ( + x ). Pero la expresin en parntesis se la reemplaza por = + xi cada observacin i se estima como: i =y i - y i

. De esta forma el error para

As, en cada observacin evaluamos el error de estimacin. Cliente i 1 2 3 4 5 6 Totales xi 1 2 3 4 5 6 yi 4,8 7,3 8,4 11,0 13,1 15,2 i = 2,775 + 2,057 (xi) 4,83 6,89 8,95 11,00 13,06 15,12 Ei = yi - i -0,03 0,41 -0,55 -0,00 0,04 0,08

x
3,5

y
9,97

UNIVERSIDAD TCNICA PARTICULAR DE LOJA La Universidad Catlica de Loja

19

Gua didctica: Estadstica II

PRIMER BIMESTRE

Ejemplo 1.2 Esperara que los automviles ms confiables fueran los ms caros? Consumer Reports evalo 15 de los mejores automviles sedan, la confiabilidad se evalo con una escala de 5 puntos: mala (1), regular (2), buena (3), muy buena (4) y excelente (5). Los precios y la evaluacin sobre la confiabilidad de estos 15 automviles son los siguientes: Marca y Modelo Acura TL BMW 330i Lexus IS300 Lexus ES330 Mecedes-Benz C320 Lincoln LS Premium (V6) Audi A4 3.0 Quattro Cadillacc CTS Nissan Maxima 3.5 SE Infiniti I35 Saab 9-3 Aero Infiniti G35 Jaguar X-Type 3.0 Saab 9-5 Arc Volvo S60 2.5T Confiabilidad xi 4 3 5 5 1 3 2 1 4 5 3 4 1 3 3 Precio yi 33.150 40.570 35.105 35.174 42.230 38.225 37.605 37.695 34.390 33.845 36.910 34.695 37.995 36.955 33.890

Tabla 1.2 Consumer Reports, febrero de 20042

Se nos pide ahora determinar la ecuacin de regresin utilizando el criterio de mnimos cuadrados para determinar los valores de b y b Realizando un diagrama de dispersin con estos datos, observamos que hay una tendencia lineal.

Figura 1.2

2. Anderson D. Sweeney D. Williams T. (2009). Estadstica para administracin y economa. Decima edicin. Mxico.

20

UNIVERSIDAD TCNICA PARTICULAR DE LOJA

La Universidad Catlica de Loja

PRIMER BIMESTRE

Gua didctica: Estadstica II

Realizando los clculos, tenemos:

Calculando el valor de b:

b1

n i =1

( xi x)( yi y )
n i =1

( xi x)

b1 =
ahora calculamos el valor de b b = y - b x b = 36.562,27 - (1.301,35* 3,13) b = 40.639,35

36.086, 53 = 1.301, 20 27, 73

Por lo tanto, la ecuacin de regresin estimada es: = 40.639,35 - 1.301,20x

Como se puede apreciar al estimar la recta de regresin, b tiene signo negativo, lo que nos indica que la pendiente de esta recta es negativa. Interprete los resultados, analizando la ecuacin de regresin estimada, y observando detenidamente el grfico de dispersin.

UNIVERSIDAD TCNICA PARTICULAR DE LOJA La Universidad Catlica de Loja

21

Gua didctica: Estadstica II

PRIMER BIMESTRE

Figura 1.3 En este ejemplo, se puede observar a medida que la confiabilidad del automvil aumenta, disminuye el precio del mismo. Ahora se pide que se estime el precio de un automvil sedn cuya evaluacin de confiabilidad es 4. Como ya tenemos la ecuacin de regresin, podemos estimar cuanto sera el precio de un automvil cuyo valor de confiabilidad fue de 4, en este caso, en la ecuacin de regresin evaluamos en la variable x el valor de 4 de la siguiente forma:

= 40.639,35 - 1.301,20 (4) = 35.434,55

Es decir, a estos automviles si alguien le asigna el valor de confiabilidad de 4, el costo del mismo ser de $ 35.434,55 COFICIENTE DE DETERMINACIN R2 IMPORTANTE:El coeficiente de determinacin es aquel que indica la proporcin de la varianza de la variable y ; es decir de la variable a ser explicada, por el modelo de regresin que se ha estimado. Se lo denota como R2. Se define al coeficiente de determinacin como el cociente entre la suma cuadrtica de regresin (SCR) y la suma cuadrtica total (SCT), este cociente es no negativo y su valor se encuentra entre cero y uno, y se lo define de la siguiente manera:

R2 =
en donde:

SCR SCT

La Suma Cuadrtica de Regresin se la define como la suma de la diferencia al cuadrado de los valores estimados de y es decir los valores de i con el valor promedio de los mismos;

SCR = (Y i Y ) 2
i =1

La Suma Cuadrtica Total se la define como la suma de la diferencia al cuadrado de los valores observados de y , con el valor promedio de los mismos;

22

UNIVERSIDAD TCNICA PARTICULAR DE LOJA

La Universidad Catlica de Loja

PRIMER BIMESTRE

Gua didctica: Estadstica II

SCT = (Y i Y ) 2
i =1

y; la Suma Cuadrtica del Error o Residuos que se la define como la suma de la diferencia al cuadrado de los valores observados de y , y los valores estimados de y es decir los valores de i. Y es la medida de variabilidad de las observaciones reales con respecto a la lnea de regresin estimada. A este lo utilizaremos ms adelante cuando veamos la estimacin de .

SCE = (Y i Y i ) 2
i =1

De tal forma que existe una relacin entre estas tres sumas cuadrticas: SCT = SCR + SCE

En caso de que solo tengamos informacin de dos de las tres sumas cuadrticas, podemos utilizar la frmula anterior para encontrar aquella que nos hace falta, de la siguiente forma. Si poseemos informacin de la SCT y de la SCR, y nos piden hallar el valor de la SCE, al despejar la ecuacin nos queda que; SCE= SCT - SCR

Siguiendo la misma analoga, y ahora poseemos informacin de la SCT y de la SCE, y nos piden hallar el valor de la SCR, al despejar la ecuacin nos queda que; SCR= SCT SCE

POTENCIA DE EXPLICACIN DEL MODELO Se define como el porcentaje R2 * 100%, es aquel porcentaje que va a explicar que tan bueno es el modelo. RECUERDE: Si el porcentaje se acerca ms a 100% significa que el modelo de regresin tiene perfecta explicacin para los datos, si por el contrario el porcentaje se acerca ms a 0%, significa que el modelo de regresin no puede explicar los datos. En la prctica encontrar 0% 100% es imposible, por lo que debemos acostumbrarnos a encontrar porcentajes menores de 100% en las ecuaciones de regresin y realizar diversos tipos de pruebas para comprobar que tan bueno es un modelo alternativo. COEFICIENTE DE CORRELACIN

UNIVERSIDAD TCNICA PARTICULAR DE LOJA La Universidad Catlica de Loja

23

Gua didctica: Estadstica II

PRIMER BIMESTRE

El coeficiente de correlacin nos indica el grado de relacin lineal que existe entre las variables que estn siendo objeto de estudio, en nuestro caso la relacin lineal entre las variables x y y , es un nmero que se encuentra entre -1 y 1. IMPORTANTE: A medida que el valor de se acerque a 1, entonces decimos que la relacin entre el par de variables es perfecta linealmente con pendiente positiva, si el valor de se va acercando a -1, se indica que la relacin entre el par de variables es perfecta linealmente pero con pendiente negativa, y, si este valor de se va acercando a cero (0) diremos que la relacin lineal entre este par de variables va desapareciendo o no existe. Entindase por no existe, que estas variables no estn relacionadas linealmente, pero puede ser que estn relacionadas de forma exponencial, cuadrtica, logartmica, etc. Se define al coeficiente de correlacin entre el par de variables x y y como: -1
xy

COEFICIENTE DE CORRELACIN MUESTRAL R El coeficiente de correlacin muestral realiza las mismas acciones que el coeficiente de correlacin , para datos que son tomados de una misma muestra y en los cuales se quiere medir la relacin lineal que existe entre ellas. Tambin es un nmero que se encuentra entre -1 y 1 como el coeficiente de correlacin, y se lo calcula de la siguiente manera:

rxy =

( x x)( y y ) ( x x) ( y y )
i =1 i 2 i i =1 n i i 2

RELACIN ENTRE EL COEFICIENTE DE DETERMINACIN Y EL COEFICIENTE DE CORRELACIN Se puede determinar el valor del coeficiente de correlacin muestral a partir del coeficiente de determinacin de la siguiente forma: r xy = R Donde el signo es positivo o negativo dependiendo del signo de la pendiente en el modelo de regresin que se ha estimado, es decir el signo que tenga b. Ejemplo 1.3 Con los datos del Ejemplo 1.2, que trataba sobre de la confiabilidad de los automviles, determine la SCT, SCE y SCR, calcule adems el coeficiente de determinacin y el coeficiente de correlacin muestral. Desarrollo:

24

UNIVERSIDAD TCNICA PARTICULAR DE LOJA

La Universidad Catlica de Loja

PRIMER BIMESTRE

Gua didctica: Estadstica II

Procedemos a calcular los valores de la SCT, SCR y SCE, con las frmulas que ya hemos visto en lneas previas, y nos queda de la siguiente manera: SCT; la sumatoria de cada uno de los valores observados restados del valor de la media al cuadrado, es decir;

SCT= (33.150 36.562,27)2 + SCT = 94.072.518,93. (33.890 36.562,27)2

(40.570 36.562,27)2 + +

SCE; la sumatoria de cada uno de los valores observados restados de cada uno de los valores estimados al cuadrado. Los valores estimados son aquellos donde al reemplazar el valor de la variable independiente x , en la ecuacin de regresin que se ha encontrado este genera los valores estimados de y. La ecuacin de regresin estimada es =40.639,35 - 1.301,20x, entonces reemplazamos cada uno de los valores que toma la variable x de la siguiente forma:

35.434,56

: :

36.735,76 36.735,76

Al encontrar cada uno de los valores de , hacemos resta de los valores observados de y con los valores de y esto lo elevamos al cuadrado, de la siguiente forma:

SCE= (33.150 - 35.434,56)2 + SCE= 47.116.825,86


Y la SCR =
n ^

(40.570 - 36.735,76)2 + + (33.890 - 36.735,76)2

(Y i Y )2 pero tambin podemos obtenerla por la diferencia entre la SCT con la SCE,
i =1

de esta forma.

UNIVERSIDAD TCNICA PARTICULAR DE LOJA La Universidad Catlica de Loja

25

Gua didctica: Estadstica II

PRIMER BIMESTRE

Sabemos que la SCT = SCR+SCE, despejando la SCR nos que lo siguiente: SCR = SCT - SCE SCR = 94.072.518,93 - 47.116.825,86 SCR = 46.955.693,07

En la tabla adjunta se muestran los clculos de cmo se ha desarrollado el ejercicio.

El coeficiente de determinacin es:

= R2

SCR 46.955.693, 07 = = 0, 50 SCT 94.072.518, 93

Y el coeficiente de correlacin muestral es: r xy = R r xy = - 0,50 r xy - 0,71 En este caso el coeficiente de correlacin muestral es negativo porque la pendiente de la ecuacin de regresin b lo es, como ya lo habamos mencionado.

26

UNIVERSIDAD TCNICA PARTICULAR DE LOJA

La Universidad Catlica de Loja

PRIMER BIMESTRE

Gua didctica: Estadstica II

PRUEBA DE SIGNIFICANCIA DEL MODELO

Al momento de nosotros realizar un modelo de regresin lineal simple, y al hacer las estimaciones siempre esperamos obtener un modelo como el que ya hemos visto, la variable que es la variable a ser explicada en trminos de la variable x: = b + b xi

Qu pasara si b es cero? Entonces el modelo quedara de la siguiente forma: i = b Si esto llegase a pasar, entonces no existir relacin alguna entre este par de variables, por lo que sera conveniente realizar un contraste de hiptesis para determinar si el valor de b es o no cero. El contraste de hiptesis sera el siguiente: H: = 0 Vs.

Donde en la H0 sugiere que el valor de la constante es igual a cero, versus, la H1 que postula que esta constante tiene un valor diferente a cero. El estadstico de prueba para este contraste es el siguiente:

F=

MCR SCR / p 1 = MCE SCE / n p

Con (1 - ) * 100% de confianza se rechaza la H0 en favor de H1 si el valor del estadstico de prueba F es mayor que el percentil (1 - ) * 100 de la Distribucin F de Fisher con (p-1) grados de libertad en el numerador y (n-p) grados de libertad en el denominador, es decir; se rechaza H0 si;

UNIVERSIDAD TCNICA PARTICULAR DE LOJA La Universidad Catlica de Loja

27

Gua didctica: Estadstica II

PRIMER BIMESTRE

F=

MCR > F ( , p 1, n p ) MCE

Figura 1.4 Valor p O tambin conocido como p-value por sus siglas en ingls, el valor p es la probabilidad de que se rechace la hiptesis nula H0, en cualquiera de los contrastes de hiptesis que se vayan a realizar, y como tal es un nmero que se encuentra entre 0 y 1.

Cmo sabemos cundo debemos rechazar o no la hiptesis nula? Es fcil determinar cuando tenemos que rechazar la hiptesis nula (h0); Si el valor p > 0.1, entonces no existe evidencia estadstica para rechazar la hiptesis nula (h0); Si el valor p < 0.05, entonces existe evidencia estadstica para rechazar la hiptesis nula (h0); y; si el valor p est 0.05 < p < 0.1, entonces en este caso no podemos concluir nada, Nota No decimos se acepta la hiptesis nula, sino que no se rechaza la hiptesis nula.

28

UNIVERSIDAD TCNICA PARTICULAR DE LOJA

La Universidad Catlica de Loja

PRIMER BIMESTRE

Gua didctica: Estadstica II

Figura 1.5 TABLA DE ANLISIS DE VARIANZA IMPORTANTE:La tabla de anlisis de varianza o tambin conocida como tabla ANOVA, se utiliza en regresin para analizar la validez del modelo de regresin que hemos estimado. En la tabla adjunta podemos destacar en columnas las Fuentes de Variacin, Grados de Libertad, las Sumas y Medias Cuadrticas, el valor del Estadstico de Prueba F y la columna del valor p. Algunas frmulas ya son conocidas para nosotros, como son las sumas cuadrticas. En los Grados de libertad vemos que intervienen los valores de n y p, donde el valor de n como ya habamos mencionado es el tamao de la muestra y p es el nmero total de parmetros que estamos estimando. Tambin se puede observar las Medias Cuadrticas de Regresin y Error que son el cociente de las Sumas Cuadrticas con sus respectivos Grados de Libertad, el Estadstico de Prueba F, que es el cociente entre la Media Cuadrtica de Regresin con la Media Cuadrtica del Error y el valor p, que nos indicar si rechazamos o no H0 (hiptesis nula).

Fuentes de Variacin Regresin

Grados de Libertad p-1

Sumas Cuadrticas

Medias Cuadrticas

Estadstico de Prueba F

Valor p

Error

n-p

Total

n-1

Tabla 1.3

UNIVERSIDAD TCNICA PARTICULAR DE LOJA La Universidad Catlica de Loja

29

Gua didctica: Estadstica II

PRIMER BIMESTRE

ESTIMACIN DE

RECUERDE:Como ya sabemos es la varianza del Error ; y como ya habamos mencionado en lneas previas la suma cuadrtica del error SCE es la medida de variabilidad de las observaciones reales con respecto a la lnea de regresin estimada. La SCE dividida para sus grados de libertad (n-p), es decir; MCE es un estimador insesgado de . Para denotar este valor utilizaremos s .

s2 =
o en otras palabras

SCE n p

s = MCE en el caso de que requiera estimar , el cual lo llamaremos s, conocido tambin como el error estndar de estimacin, procedemos a calcular la raz cuadrada de s ; es decir; Ejemplo 1.4 Continuando con el Ejemplo 1.2 de los automviles sedn y la confiabilidad en los mismos, se pide construir la tabla de anlisis de varianza, ANOVA, y comprobar la hiptesis de existe una relacin entre las variables que estn siendo tratadas. Para construir la tabla ANOVA, podemos hacerlo de dos formas, la primera es que haremos uso de los datos que ya hemos calculado, y la otra forma es mediante la ayuda del Software Excel. Para construir la tabla ANOVA necesitamos del valor de n, del valor de p, y los valores de las sumas cuadrticas que ya tenemos, y reemplazamos en tabla descrita en lneas previas. p = 2; n = 15; SCR = 46.955.693,1; SCE =47.116.825,86; SCT = 94.072.518,9;
Fuentes de Variacin Regresin Grados de Libertad 1 Sumas Cuadrticas Medias Cuadrticas Estadstico de Prueba F 12,96 Valor p 0,00

46.955.693,1 46.955.693,1

Error

13

47.116.825,9

3.624.371,2

Total

14

94.072.518,9

30

UNIVERSIDAD TCNICA PARTICULAR DE LOJA

La Universidad Catlica de Loja

PRIMER BIMESTRE

Gua didctica: Estadstica II

Como ya habamos mencionado antes, se rechaza la hiptesis nula si

F= F=

MCR > F ( , p 1, n p ) MCE 49.955.693,1 = 12, 96 > F (0.01,1.13) 3.624.371, 2


12,96 > 9,07

Figura 1.6 Debido a que el estadstico de prueba es mayor que el percentil (1 - )*100 de la distribucin F de Fisher, como se puede apreciar en la figura 1.6, por lo tanto el valor p es un nmero aproximadamente cero con dos decimales de precisin, entonces existe evidencia estadstica para rechazar H0 que postula que = 0 , a favor de H1 que postula que 0. Adicionalmente, para calcular la estimacin de la varianza del error de estimacin: s = MCE s = 3.624.371,2 Y para calcular el error estndar de estimacin: s = 3.624.371,2 = 1.903,78 Ejemplo 1.5 Veamos ahora como con Excel podemos realizar estos mismos clculos.

UNIVERSIDAD TCNICA PARTICULAR DE LOJA La Universidad Catlica de Loja

31

Gua didctica: Estadstica II

PRIMER BIMESTRE

Primero debemos confirmar de que en la pestaa de Datos de Excel, podamos visualizar el cono de Anlisis de Datos en el extremo derecho del men, como se muestra aqu:

Figura 1.7 Si no lo podemos ver, es porque no est instalado y nos debe aparecer una pantalla como esta:

Figura 1.8 Si nos parece como el segundo ejemplo (donde no se visualiza Anlisis de Datos), entonces necesitamos hacer un procedimiento previo. Vamos a dar enter en el Botn de Office (Crculo arriba a la izquierda del Excel) y luego daremos enter en Opciones de Excel.

Figura 1.9

32

UNIVERSIDAD TCNICA PARTICULAR DE LOJA

La Universidad Catlica de Loja

PRIMER BIMESTRE

Gua didctica: Estadstica II

Luego en el men de la izquierda seleccionamos la opcin Complementos, se despliega un cuadro de opciones. Comprobar en la parte inferior que nos encontramos en Administrar = Complementos de Excel y a continuacin daremos enter en el botn Ir, en donde aparece el siguiente cuadro, donde debemos dar enter hasta habilitar la opcin Herramientas para Anlisis y daremos enter en Aceptar.

Figura 1.10 Ahora, ya podemos verificar que en el men de Excel Datos, aparece Anlisis de Datos.

Figura 1.11 Solucionado esto, ahora procedemos a resolver el ejercicio de regresin. En una hoja de Excel tenemos la informacin tanto de la variable como de la variable , en el men de Datos escogemos la opcin Anlisis de datos, aparece un cuadro de dilogo llamado Anlisis de datos / Funciones para anlisis que presenta una serie de opciones con los que podemos trabajar, en nuestro caso escogeremos la opcin Regresin y hacemos clic en aceptar.

UNIVERSIDAD TCNICA PARTICULAR DE LOJA La Universidad Catlica de Loja

33

Gua didctica: Estadstica II

PRIMER BIMESTRE

Figura 1.12 A su vez aparecer otro cuadro de dilogo donde en Rango Y de entrada escogemos los valores de la variable dependiente desde el nombre que caracteriza a la variable, y as mismo en Rango X de entrada, escogemos los valores de la variable independiente desde el nombre que caracteriza a esta variable, marcamos la opcin de Rtulos, la opcin de Nivel de confianza en el cual escribimos 99%, y escogemos por ltimo las opciones de salida, si queremos ver los resultados en una nueva hoja de clculo, en un libro nuevo, o que empiece a mostrar los resultados en cualquiera de las celdas del libro en el que se est trabajando, como se muestra en la figura 1.13; y clic en Aceptar.

Figura 1.13 Como se puede observar en los resultados de Excel, este presenta un resumen de lo que se ha trabajado, Excel muestra el valor del coeficiente de determinacin; el coeficiente de correlacin muestral aqu es denominado Coeficiente de correlacin mltiple, aunque no nos da el signo que este lleva, pero nosotros sabemos que signo debe llevar con solo ver el signo de b1, presenta adems el error estndar de estimacin aqu llamado Error tpico y el nmero de observaciones que hay. La tabla de Anlisis de Varianza o ANOVA muestra las fuentes de variacin como ya lo hubiramos mencionado en lneas anteriores, con sus respectivos grados de libertas (gl), las sumas cuadrticas (SC), las medias cuadrticas (MC), el valor calculado mediante el estadstico de prueba F, y el valor p que si nos damos cuenta para este ejemplo es un nmero aproximadamente cero con dos decimales de precisin.

34

UNIVERSIDAD TCNICA PARTICULAR DE LOJA

La Universidad Catlica de Loja

PRIMER BIMESTRE

Gua didctica: Estadstica II

Lo mismo que ya habamos hallado antes; y con estos resultados concluimos exactamente lo mismo, que existe evidencia estadstica para rechazar H0 a favor de H1.
Resumen Estadsticas de la regresin

Coeficiente de correlacin mltiple R^2 R^2 ajustado Error tpico Regresin Residuos Total

0,71 0,50 0,47

Observaciones

ANLISIS DE VARIANZA

Estadsticas de la regresin gl 1 13 14

1.903,78

Confiabilidad x

Intercepcin

Coeficientes -1.301, 20

SC MC 46.955.693,08 46.955.693,1 47.116.825,86 3.624.371,22 94.072.518,93 361,51 Error tpico 32,93 -3,60

15

F 12,96

Valor p 0,0032

40.639,35 1.234,78

Estadstico t Probabilidad 6,6095E-14 0,0032

Y en las ltimas filas se muestran los parmetros estimados, para este caso b y b ,que si comparamos con nuestros resultados, nos daremos cuenta que son los mismos.

= 40.639,35 - 1.301,20x

ANLISIS RESIDUAL En esta seccin vamos a analizar lo que nosotros conocemos como los residuos (errores de estimacin), que como sabemos es la diferencia entre los valores observados de y con los valores estimados a partir de la ecuacin de regresin . Lo que nos permite observar en el anlisis residual es que se cumplan los supuestos bajo los cuales hemos construido el modelo de regresin, en este caso del supuesto general de que la varianza del error es la misma para todos los valores de x, Var (i) = Un tipo de comprobacin de este supuesto es visual, haciendo un grfico de dispersin entre los residuos y la variable x. Dependiendo de los datos, en esta prueba grfica pueden ocurrir tres casos.

UNIVERSIDAD TCNICA PARTICULAR DE LOJA La Universidad Catlica de Loja

35

Gua didctica: Estadstica II

PRIMER BIMESTRE

Caso 1: El primer caso es que se cumplen con el supuesto de que la varianza es la misma para todos los valores de y, es decir la varianza es constante, como se muestra en el grfico a continuacin:

Figura 1.14 Caso 2: El otro caso que podra ocurrir es el siguiente, en el cual no se cumple el supuesto de que la varianza sea constante, sino que depende de los valores de la variable :

Figura 1.15 Caso 3: El tercer grfico que podra ocurrir es aquel que al hacer la grafica de los residuos, este no represente la relacin que existe entre el par de variables.

Figura 1.16

36

UNIVERSIDAD TCNICA PARTICULAR DE LOJA

La Universidad Catlica de Loja

PRIMER BIMESTRE

Gua didctica: Estadstica II

Ejemplo 1.6 Siguiendo con el ejemplo de los automviles sedn, hemos calculado anteriormente los valores del Error o Residuos y estos los graficamos junto con los valores observados de x (variable independiente). Los datos y el grfico se presentan a continuacin: Confiabilidad Residuos 4 -2.284,56 3 3.834,24 5 971,63 5 1.040,63 1 2.891,85 3 1.489,24 2 -431,96 1 -1.643,15 4 -1.044,56 5 -288,37 3 174,24 4 - 739,56 1 -1.343,15 3 219,24 3 -2.845,76 Tabla 1.4

Figura 1.17 Lo que se puede observar en el grfico es que al parecer si cumple con el supuesto de que la varianza es constante, tiene un aparecido con el grfico de la figura 1.14, pero los altos valores de los residuos segn el eje, podran confundir nuestra apreciacin. Una forma de reducir este riesgo de observacin es el de estandarizar los residuos y observar el grfico con los residuos estandarizados.

UNIVERSIDAD TCNICA PARTICULAR DE LOJA La Universidad Catlica de Loja

37

Gua didctica: Estadstica II

PRIMER BIMESTRE

Para estandarizar los residuos lo que hacemos es al residuo le restamos su media que se supone es cero por los supuestos, y se lo divide para la raz cuadrada de la MCE es decir s. Realizamos los pasos para el primer resultado, los dems se realizan de manera similar; solo se cambian los valores del error.

ei =

ei MCE

e1 =

2.284, 56 0 3.624.371, 22 2.284, 56 1.903, 78

e1 =
^

e1 = 1.20
Confiabilidad 4 3 5 5 1 3 2 1 4 5 3 4 1 3 3 Residuos -2.284,56 3.834,24 971,63 1.040,63 2.891,85 1.489,24 -431,96 -1.643,15 -1.044,56 -288,37 174,24 -739,56 -1.343,15 219,24 -2.845,76 Residuos Estandarizados -1,20 2,01 0,51 0,55 1,52 0,78 -0,23 -0,86 -0,55 -0,15 0,09 -0,39 -0,71 0,12 -1,49

38

UNIVERSIDAD TCNICA PARTICULAR DE LOJA

La Universidad Catlica de Loja

PRIMER BIMESTRE

Gua didctica: Estadstica II

Figura 1.18 Como nos podemos dar cuenta el grfico prcticamente es el mismo, solo que a diferentes escalas, pues en el primero el eje Y est representado por los residuos, en cambio el otro grfico en el eje Y muestra los residuos estandarizados. Por lo tanto podemos concluir que el modelo de regresin lineal empleado en este caso, es un modelo vlido.

Actividades recomendadas

Es conveniente desarrollar actividades recomendadas que le permitan establecer el nivel de comprensin de los temas estudiados en esta unidad, por lo que le sugiero efectuar lo siguiente: 1. 2. 3. 4. 5. 6. Identifique un caso real donde pueda utilizar la regresin lineal. De ese caso, identifique el cumplimiento de los supuestos generales del modelo. El caso real, cumple el supuesto especfico de normalidad?. Justifique su respuesta. Plantee un caso en el que determine la SCT, SCE y SCR. Del caso anterior calcule el coeficiente de determinacin. De ese mismo caso calcule el coeficiente de correlacin muestral.

UNIVERSIDAD TCNICA PARTICULAR DE LOJA La Universidad Catlica de Loja

39

Gua didctica: Estadstica II

PRIMER BIMESTRE

Autoevaluacin 1

Le sugiero, resolver a continuacin, la presenta autoevaluacin que le ayudar a conocer la comprensin de esta unidad. En caso de resolverla satisfactoriamente (80% o ms) podra pasar a la siguiente unidad y, en caso contrario, se debera revisar nuevamente el tema o los temas en los que haya tenido dificultad. En los siguientes enunciados conteste con una V o una F, dentro de los parntesis correspondientes, si considera que el enunciado es verdadero o es falso, respectivamente. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. ( ( ( ( ( ( ( ( ( ( ) ) ) ) ) ) ) ) ) ) La variable y es la variable a ser explicada o tambin llamada variable dependiente En estadstica no todos los mtodos de estimaciones de parmetros se realizan bajo ciertos supuestos que deben verificarse Para estimar los valores de y se necesita encontrar la ecuacin de regresin estimada El coeficiente de determinacin es aquel que indica la proporcin de la varianza de la variable x. Se define al coeficiente de determinacin como el cociente entre la suma cuadrtica de regresin (SCR) y la suma cuadrtica total (SCT) El valor del coeficiente de determinacin se ecuentra entre cero y uno El coeficiente de correlacin nos indica el grado de relacin exponencial que existe entre las variables que estn siendo objeto de estudio No se puede determinar el valor del coeficiente de correlacin muestral a partir del coeficiente de determinacin El valor p es la probabilidad de que se acepta la hiptesis nula H0 . Los residuos (errores de estimacin) son la diferencia entre los valores observados de y con los valores estimados a partir de la ecuacin de regresin .

40

UNIVERSIDAD TCNICA PARTICULAR DE LOJA

La Universidad Catlica de Loja

PRIMER BIMESTRE

Gua didctica: Estadstica II

UNIDAD 2 REGRESION MLTIPLE

Para el desarrollo de este captulo, vaya revisando conjuntamente con esta gua el captulo 15 del texto bsico Anderson, D., Sweeney, D., y Williams, T. Estadstica para administracin y economa, decima edicin.

INTRODUCCIN IMPORTANTE:El modelo de regresin mltiple busca la explicacin de la variable dependiente y; en trminos de dos o ms variables independientes x; en vez de solo una variable x como lo hace la regresin lineal simple. Si recordamos el modelo en regresin lineal simple es: y = + x + En regresin mltiple el modelo ser: y = + xXi + xi + ... + Xi + i En el modelo de regresin lineal simple solo tenamos dos parmetros a estimar y , a travs del mtodo de mnimos cuadrados, algo que vara ahora en el modelo de regresin mltiple que tendremos que estimar , , hasta , como ya hemos visto en el modelo anterior. De forma similar, los p parmetros en el modelo tendramos que estimarlos mediante el mtodo de mnimos cuadrados como ya habramos hecho en el caso de regresin lineal simple. SUPOSICIONES DEL MODELO En regresin mltiple los supuestos son similares a los supuestos de regresin lineal simple:

El valor esperado o media, de los errores de estimacin del modelo sobre las observaciones es
cero; [i] = 0

UNIVERSIDAD TCNICA PARTICULAR DE LOJA La Universidad Catlica de Loja

41

Gua didctica: Estadstica II

PRIMER BIMESTRE

La varianza del error, ser la misma para misma todos los valores de las variables X, Xi1, xi2, ... , xip al igual que en regresin lineal al modelo ser llamado homocedstico. Y cuando la varianza no es constante, al modelo se le da el nombre de modelo heterocedstico.

Var ( i ) = La covarianza del error entre observaciones es cero, suponemos que las variables aleatorias del error son independientes.

Cov (i, i) = 0 ; i j; i = 1,2,...,n Supuesto especfico de Normalidad La variable aleatoria ~ N (0, ) , es decir se distribuye normalmente con media cero y varianza entonces; E[y] = E [ + Xi1, xi2 +... +p xip + i] y = + Xi1, xi2 +... +p xip Al igual que en regresin lineal simple y es una funcin lineal de , por lo tanto y es una variable aleatoria distribuida normalmente. y ~ N ( + Xi1, xi2 +... +p xip, ) MTODO DE MNIMOS CUADRADOS RECUERDE: En muchas ocasiones una variable (independiente) explica perfectamente a otra (dependiente), pero existen casos que una sola variable no es suficiente, y en ese caso se incorporan ms variables al modelo.

Al igual que en regresin lineal simple, se presentan los parmetros del modelo, que son los s, que sabemos que son desconocidos pero estimables. El modelo de regresin mltiple y la ecuacin de regresin estimada se presentan a continuacin: y = + Xi1, xi2 +... +p xip + i = b + bXi1, bxi2 +... +bp xip

42

UNIVERSIDAD TCNICA PARTICULAR DE LOJA

La Universidad Catlica de Loja

PRIMER BIMESTRE

Gua didctica: Estadstica II

Para las estimaciones del caso de regresin lineal simple, tenamos dos ecuaciones con dos incgnitas. En el caso de regresin mltiple tendremos dos o ms ecuaciones con dos o ms incgnitas, como veremos a continuacin:
n n n n

yi = bo * n + b1 * xi1 + b2 * xi 2 + ... + bp * xip


i =1 i =1 i =1 i =1

xi1 * yi = b0 * xi1 + b1 * x 2i1 + b2 * xi1 *xi 2 + ... + bp * xi1 * xip


i =1 i =1 i =1 i =1 i =1

xi 2 * yi = b0 * xi 2 + b1 * xi 2 + xi1 + b2 * x 2i 2 *xi1 + ... + b2 * x 2i 2 * bp * xi 2 * xip


i =1 i =1 i =1 i =1 i =1 i =1

x
i =1

ip

* yi = b0 * xip + b1 * xip + xi1 + b2 * x 2ip *xi 2 + xip * xi 2 + ... + bp * x 2ip


i =1 i =1 i =1 i =1 i =1

As tendremos tantas ecuaciones como parmetros se deban estimar. Dada la complejidad en la resolucin de este sistema, utilizaremos Microsoft Excel para estimar los valores de los parmetros s. COEFICIENTE DE DETERMINACIN MLTIPLE R2 Al igual que en regresin lineal simple, el coeficiente de determinacin R explica la proporcin de la variacin de la variable a ser explicada y , por el modelo de regresin mltiple que se ha estimado, y se lo denota de la misma forma:

R2 =

SCR SCT

En donde SCT, SCR y SCE son las mismas frmulas que utilizbamos en regresin lineal simple:

SCR = ( yi y ) 2
i =1

SCE = ( yi yi ) 2
i =1

SCT = ( yi y ) 2
i =1

UNIVERSIDAD TCNICA PARTICULAR DE LOJA La Universidad Catlica de Loja

43

Gua didctica: Estadstica II

PRIMER BIMESTRE

Si nos hacen falta alguna de las sumas cuadrticas, las podemos hallar despejando la frmula como en regresin lineal simple, sabiendo que: SCT= SCR + SCE

Despejamos el trmino que nos hace falta:

SCR= SCT SCE SCE= SCT SCR

Potencia de Explicacin del Modelo R2 * 100% Se lo define como el porcentaje R2 * 100%, al porcentaje que va a explicar que tan bueno es el modelo. RECUERDE:En regresin mltiple a medida que se aumenta el nmero de variables independientes, tambin aumenta el valor de este cociente. Aunque este incremento puede no ser significativo. En el caso de que este valor sea muy bajo puede deberse a que no se ha incluido alguna variable en el modelo, pero esto no significa que el valor de R2 aumentar de forma significativa, solo lo har siempre y cuando la variable a incluir aporta con gran informacin al modelo. Obviamente tambin cambiarn los valores de las sumas cuadrticas y especficamente el valor del Error disminuir para que este cociente sea alto. COEFICIENTE DE DETERMINACIN MLTIPLE AJUSTADO Se utiliza el coeficiente de determinacin ajustado para comparar dos o ms modelos que tengan en comn la misma variable a ser explicada y, para determinar cual modelo ajusta mejor. Este nmero siempre ser menor que el Coeficiente de Determinacin, adems, penaliza al modelo que contenga ms variables explicativas. Su frmula es:

Donde R es el coeficiente de determinacin, n es el nmero de observaciones y k es el nmero de variables independientes. PRUEBA DE SIGNIFICANCIA Recordemos el modelo con el que estamos trabajando en regresin mltiple; nosotros tratamos de explicar a una variable dependiente y, mediante varias variables independientes xp = 1,2,...,p;

44

UNIVERSIDAD TCNICA PARTICULAR DE LOJA

La Universidad Catlica de Loja

PRIMER BIMESTRE

Gua didctica: Estadstica II

y = + Xi1, xi2 +... +p xip + i

Como sabemos los valores de los coeficientes 's son estimados mediante el mtodo de mnimos cuadrados, y lo que se espera es que ninguno de estos coeficientes al momento de ser estimados sea cero (0), para esto postularemos un contraste de hiptesis en donde se rechace o no la posibilidad de que esto ocurra. El contraste de hiptesis es el siguiente: H: = = ... = Bp = 0 Vs. H : Al menos uno de los 's no es cero

Donde en H0 se afirma que los valores de las constantes , , ... , p son iguales a cero, versus, la H1 que postula que al menos una de estas constantes tiene un valor diferente a cero. El estadstico de prueba para este contraste es el mismo que ya utilizramos cuando tenamos solo una variable de explicacin: MCR F = ______ MCE Con (1 - )*100% de confianza se rechaza la H0 en favor de H1 si el valor del estadstico de prueba F es mayor que el percentil (1 - )*100 de la Distribucin F de Fisher con (p-1) grados de libertad en el numerador y (n-p) grados de libertad en el denominador, es decir;

MCR F = ______ > T ( , p MCE

1 , n p)

Si H0 es rechazada como es lo esperado, ahora tendremos que determinar cul de todos los s, no es cero, es decir cul de los s es realmente significativo para el modelo; y esto lo haremos mediante otro contraste de hiptesis, pero ahora analizaremos esto para cada uno de los valores de los s, como se ve a continuacin; En general, tendramos varios contrastes, uno para cada uno de los i ,as: H: = 0 Vs. H : 0; i - 1,2, ..., (p -1 )

UNIVERSIDAD TCNICA PARTICULAR DE LOJA La Universidad Catlica de Loja

45

Gua didctica: Estadstica II

PRIMER BIMESTRE

H0 postula que uno es igual a cero (0), versus H1 que postula que el valor es diferente de cero (0). El estadstico de prueba para este contraste de hiptesis es:

donde b ; es el valor estimado del parmetro i y sbi es la estimacin de la desviacin estndar de bi, es decir;

Sbi =

( xi x) 2 i =1

donde s = MCF , el error estndar de estimacin. A medida que se aumentan variables al modelo, para realizar los clculos este se vuelve un poco difcil determinar las sumas cuadrticas, realizar cada uno de los contrastes de hiptesis, etc., por lo que recurriremos a Microsoft Excel para estos clculos.

TABLA DE ANLISIS DE VARIANZA La tabla ANOVA que vamos a utilizar para Regresin Mltiple ser la misma que hemos utilizado en Regresin Lineal Simple:

Fuentes de Variacin Regresin

Grados de Libertad p-1

Sumas Cuadrticas

Medias Cuadrticas

Estadstico de Prueba F

Valore p p = Prob (F p-1, n - p F)

( y y)
i =1 n i ^ i =1 n

SCR P 1 SCE n p

F=

MCR MCE

Error

n-p

( y i yi )2 (y y )
i =1 i i 2

Total

n-1

Tabla 2.1

46

UNIVERSIDAD TCNICA PARTICULAR DE LOJA

La Universidad Catlica de Loja

PRIMER BIMESTRE

Gua didctica: Estadstica II

Veamos el siguiente ejemplo: Ejemplo 2.1 En el bisbol, el xito de un equipo se suele considerar en funcin del desempeo en bateo y en lanzamiento de equipo. Una medida del desempeo en el bateo es la cantidad de cuadrangulares que anota el equipo y una medida del desempeo en lanzamiento es el promedio de carreras ganadas por el equipo que lanza. En general, se cree que los equipos que anotan ms cuadrangulares (home run) y tienen un promedio menor de carreras ganadas ganan un mayor porcentaje de juegos. Los datos siguientes pertenecen a 16 equipos que participaron en la temporada de la Liga Mayor del Bisbol de 2003; se da la proporcin de juegos ganados, la cantidad de cuadrangulares del equipo (HR) y el promedio de carreras ganadas (ERA) (www.usatoday.com, 17 de enero de 2004) 33. Equipo Arizona Atlanta Chicago Cincinnati Colorado Florida Houston Los Angeles Milwaukee Montreal New York Philadelphia Pittsburgh San Diego San Francisco St. Louis Proporcin de ganados 0,519 0,623 0,543 0,426 0,457 0,562 0,537 0,525 0,42 0,512 0,41 0,531 0,463 0,395 0,621 0,525 Tabla 2.2 Obtenga la ecuacin de regresin estimada para predecir la proporcin de juegos ganados en funcin de la cantidad de cuadrangulares. Interprete resultados. Desarrollo: Al usar el Software Excel con los mismos pasos como en Regresin Lineal Simple, con la diferencia de que cuando vayamos a seleccionar las variables independientes, tenemos que tomarlas en conjunto las dos columnas (o tres columnas en caso de que se cuenten con tres variables independientes) junto con el nombre que las caracteriza igual como hiciramos en Regresin Lineal. HR 152 235 172 182 198 157 191 124 196 144 124 166 163 128 180 196 ERA 3,857 4,106 3,842 5,127 5,269 4,059 3,88 3,162 5,058 4,027 4,517 4,072 4,664 4,904 3,734 4,642

3. Anderson, D., Sweeney, D., y Williams, T. Estadstica para administracin y economa, decima edicin Mxico.

UNIVERSIDAD TCNICA PARTICULAR DE LOJA La Universidad Catlica de Loja

47

Gua didctica: Estadstica II

PRIMER BIMESTRE

En el men Datos, opcin Anlisis de datos, aparece el cuadro de dilogo en el que escogemos la opcin Regresin, en el cuadro de dilogo Regresin, como ya hiciramos antes, el rango de entrada sern las celdas donde se encuentra la variable dependiente y, en este caso es la proporcin de juegos ganados, como se muestra en la figura:

Figura 2.1 Para escoger el rango de entrada x, es decir las variables independientes en este caso son dos, sealaremos las dos columnas HR y ERA, como se muestra en la figura.

48

UNIVERSIDAD TCNICA PARTICULAR DE LOJA

La Universidad Catlica de Loja

PRIMER BIMESTRE

Gua didctica: Estadstica II

Figura 2.2 Sealamos la opcin Rtulos, Nivel de confianza con 99%, y en el Rango de salida escogemos la celda en la que queremos que se muestren los resultados, en este caso en la celda W6 pero podemos escoger cualquier celda para esto. Al hacer clic en el botn aceptar, Excel muestra los siguientes resultados:

UNIVERSIDAD TCNICA PARTICULAR DE LOJA La Universidad Catlica de Loja

49

Gua didctica: Estadstica II


Resumen R^2

PRIMER BIMESTRE

Estadsticas de la regresin
Coeficiente de correlacin mltiple R^2 ajustado Error tpico Regresin Residuos Total Observaciones

0,93 0,86 0,84 0,03 16 SC MC F Valor p

ANLISIS DE VARIANZA gl 2

13 15

0,06 0,01 0,07

0,0008

0,03

39,37

3,0462E-06

Veamos cmo se han obtenido estos resultados, con las frmulas conocidas: *Estadsticas de la regresin El coeficiente de determinacin es:

R2 =

SCR 0, 06 = = 0, 86 SCT 0, 07

el coeficiente de correlacin muestral es:

r xy = R rxy = 0,86 rxy 0,93 el coeficiente de determinacin mltiple ajustado es:

2 Ra = 1 (1 R 2 )

n 1 n k 1

2 Ra = 1 (1 0, 86)

16 1 16 2 1

2 Ra = 0, 84

Error tpico o error estndar de estimacin

s = MCE

50

UNIVERSIDAD TCNICA PARTICULAR DE LOJA

La Universidad Catlica de Loja

Das könnte Ihnen auch gefallen