Sie sind auf Seite 1von 128

Actividad inicial

Objetivos de la actividad

Revisar los apartados principales de tu curso.

Instrucciones Te invitamos a navegar a travs de los siguientes apartados de tu curso. Revisa la informacin contenida en cada uno:

Introduccin del curso Evaluacin Polticas Metodologa Mdulos

Despus de haber realizado esta actividad inicial ingresa al mdulo 1 para comenzar con tu curso. Mucho xito!

Mdulo 1. Regresin y correlacin


Objetivos del mdulo Al finalizar el mdulo sers capaz de:

Explicar los conceptos de regresin y correlacin entre dos variables. Calcular los coeficientes de correlacin y la ecuacin lineal que explica la relacin entre dos variables. Resolver problemas en los que se involucren funciones obtenidas mediante la regresin lineal.

Explicacin del mdulo Accede a la explicacin de los temas que se cubrirn en este mdulo. Haz clic en el enlace explicacin del mdulo.

Tema 1. Correlacin
Objetivos del tema

Al finalizar el tema sers capaz de: Identificar el concepto de correlacin. Usar diagramas de dispersin para visualizar la relacin entre dos variables. Calcular el coeficiente de correlacin. Calcular el coeficiente de determinacin.

Introduccin En el siguiente video encontrars informacin complementaria a este curso. Da clic aqu. Nota: El usuario y contrasea para acceder al video te los proporcionar tu profesor.

Cul es el ingreso medio que corresponde a un mexicano con 12 aos de escolaridad? Qu relacin existe entre el ingreso medio de un mexicano y la ingesta diaria de caloras? Las preguntas anteriores se refieren a la relacin existente entre dos variables. En el primer caso, entre el ingreso medio y la escolaridad medida en aos de una persona, y en el segundo, entre el ingreso medio y la cantidad diaria de caloras que una persona ingiere. Consideras que son variables relacionadas? A mayor escolaridad se espera mayor ingreso? A mayor ingreso se espera una mayor ingesta de caloras? De qu otras cosas depende, adems de la escolaridad, el ingreso de una persona? De qu otras cosas depende, adems de su ingreso, la ingesta calrica de una persona? En cada caso estamos hablando de una relacin fuerte o dbil? Posiblemente no todos tus compaeros estn de acuerdo con tus respuestas a las preguntas anteriormente planteadas, lo cual es natural, ya que hasta ahora no nos queda otra herramienta para contestarlas que la inferencia basada en el sentido comn. Sin embargo, como en el tema de estimacin, revisado en el curso de Estadstica I, a partir de los datos de una muestra podemos acceder a un mtodo cuantitativo para calificar la relacin entre estas variables. De esta manera, muchos cientficos o economistas han podido calificar la relacin existente entre variables y as poder sustentar cuantitativamente su toma de decisiones. En este tema estudiars el concepto de correlacin, as como el mtodo para obtener el ndice de correlacin de dos variables a partir de los datos de una muestra pareada. Tambin estudiaremos el concepto del coeficiente de determinacin y cmo nos permite cuantificar el porcentaje del cambio en la variable dependiente que puede explicarse en funcin del cambio en la variable independiente.

En el siguiente video encontrars informacin complementaria a este tema. Da clic aqu. Nota: El usuario y contrasea para acceder al video te los proporcionar tu profesor. Contenido Explicacin del tema Informacin sobre los contenidos principales del tema. Bibliografa Referencia bibliogrfica que debes consultar para este tema en la pgina de bibliografa. Recursos de apoyo Presentacin que incluye las ideas principales del tema.

Cierre En este tema hemos revisado los conceptos de coeficiente de correlacin y determinacin. Iniciamos mostrando cmo un diagrama de dispersin permite visualizar la relacin entre las dos variables. Este diagrama puede ayudarnos a comprender cundo tenemos una relacin lineal y cundo no. El coeficiente de correlacin mide la forma en que un conjunto de puntos se ajusta a una lnea recta; valores cercanos al uno indican una relacin fuerte, mientras que valores cercanos al cero indican una relacin dbil o nula. En cambio, el coeficiente de determinacin permite interpretar en trminos porcentuales el cambio en la variable dependiente que se explica mediante variaciones en la variable independiente. Revisamos las frmulas para calcular estos dos coeficientes que nos permiten calificar la relacin que existe entre dos variables. En el prximo tema veremos un mtodo con el que podrs encontrar la ecuacin de la recta que mejor se ajusta a un conjunto de datos y utilizarla para predecir o evaluar valores. Para aprender ms En este apartado encontrars ms informacin acerca del tema para enriquecer tu aprendizaje.

Para conocer informacin sobre los diagramas de dispersin, accede al sitio de YouTube (http://www.youtube.com), escribe las palabras Herramientas estadsticas para control de la calidad y haz clic en el video con el nombre Diagramas de dispersin o correlacin con una duracin de 5:10. Recuerda que este video solamente lo puedes acceder fuera de las instalaciones de la Universidad TecMilenio.

Para conocer informacin sobre la correlacin lineal, accede al sitio de YouTube (http://www.youtube.com), escribe las palabras Correlacin lineal y haz clic en el video con el nombre Correlacion lineal 3 sec estadstica con una duracin de 10:16. Recuerda que este video solamente lo puedes acceder fuera de las instalaciones de la Universidad TecMilenio.

Explicacin del tema 1

Estadstica II Tema 1. Correlacin


1.1 Concepto de correlacin
Consideremos la informacin que nos proporciona la siguiente tabla: Normal licenciatura Estado Chiapas Distrito Federal Guanajuato Jalisco Mxico Oaxaca Puebla Nmero de alumnos 5,864 8,482 15,839 6,903 39,490 7,334 11,092
Fuente: SEP Estadstica Bsica (2006)

Nmero de escuelas 53 35 44 27 68 23 34

Observa la informacin y contesta las siguientes preguntas:

A mayor nmero de alumnos se observa un mayor nmero de escuelas? De qu otra cosa, adems del nmero de alumnos, depende que se construyan ms escuelas normales? Consideras que se trata de una relacin fuerte o dbil?

Para poder contestar estas preguntas, nos podemos auxiliar de una grfica en la que mostremos la dispersin de los datos.

En esta grfica podemos ver que si bien es cierto que existe una tendencia entre los datos, para la cual a mayor nmero de estudiantes corresponde un mayor nmero de escuelas, esta relacin no es de tipo lineal ya que los datos no parecen ajustarse a una lnea recta.

Llamaremos correlacin a la asociacin lineal entre dos variables.

As, para datos que ms se ajusten a una lnea recta diremos que tienen una correlacin fuerte y aquellos que carezcan de relacin lineal tendrn una correlacin dbil o nula. Conviene, por tanto, establecer una medida numrica para calificar la asociacin lineal entre dos variables con la finalidad de calificarla. A esta medida la llamaremos coeficiente de correlacin.

1.2 El coeficiente de correlacin


El coeficiente de correlacin se define como:

Donde:

sxy = covarianza de la muestra, definida como:

sx= desviacin estndar muestral de x, definida como:

sy= desviacin estndar muestral de y, definida como:

Calculemos el coeficiente de correlacin para los datos de la tabla anterior: Para hacerlo, empezaremos con la covarianza, que es el numerador de la frmula. Calculamos las medias para los valores de x y y. Como se observa en la tabla siguiente: Nmero de alumnos x 5,864 8,482 15,839 6,903 39,490 7,334 11,092 13,572 13,572 13,572 13,572 13,572 13,572 13,572 Nmero de escuelas Y 53 35 44 27 68 23 34 40.57 40.57 40.57 40.57 40.57 40.57 40.57 x-7,708 -5,090 2,267 -6,669 25,918 -6,238 -2,480 y12.43 -5.57 3.43 -13.57 27.43 -17.57 -6.57 Suma: (x )(y ) e .

-95799.43 28358.57 7772.57 90507.86 710893.71 109610.57 16297.14 867,641

Despus a cada valor de x, se le resta su media. Por ejemplo, en el primer rengln: x manera anloga para y = 53-40.57 = 12.43.

= 5,864-13,572 = -7,708 y de

Ahora se multiplican los valores correspondientes a "x -

" y "y -

" en cada rengln.

Finalmente se suman dichos valores, y el resultado se divide entre n-1:

Ahora encontraremos la desviacin estndar de x:

Nmero de alumnos x 5,864 8,482 15,839 6,903 39,490 7,334 11,092 13,572 13,572 13,572 13,572 13,572 13,572 13,572 x-7,708 -5,090 2,267 -6,669 25,918 -6,238 -2,480 Suma: (x )

59,413,264 25,908,100 5,139,289 44,475,561 671,742,724 38,912,644 6,150,400 851,741,982

De manera anloga calculamos la desviacin estndar de y:

Nmero de escuelas y 53 35 44 27 68 23 34 40.57 40.57 40.57 40.57 40.57 40.57 40.57 y12.43 -5.57 3.43 -13.57 27.43 -17.57 -6.57 Suma: Finalmente, el ndice de correlacin es: (y )

154.47 31.04 11.76 184.18 752.33 308.76 43.18 1,486

Pero, cmo podemos interpretar este resultado? Como se dijo anteriormente, el coeficiente de correlacin describe la intensidad de la asociacin lineal entre las variables x y y, proporcionando un valor entre -1 y 1.

Finalmente, cuanto ms se acerque el valor a cero, esto indica que las variables no estn relacionadas linealmente.

Decidir la utilidad de un valor para explicar la relacin entre variables depende de aquello que se pretenda demostrar. Para algunas aplicaciones demostrar un coeficiente de correlacin de 0.25 puede ser til, mientras que para otras se requieren valores superiores a 0.90, esto dependiendo de las caractersticas especficas de cada caso.

1.3 El coeficiente de determinacin


Para terminar incluiremos un concepto ms: el coeficiente de determinacin, el cual es ms amplio que el coeficiente de correlacin ya que es una medida de bondad de ajuste (es decir, de qu tan bien se ajusta un conjunto de datos a un modelo matemtico) que no se limita a los modelos lineales. En nuestro caso, el coeficiente de determinacin se puede calcular y denotar como el cuadrado del coeficiente de correlacin.

La ventaja de este coeficiente es que permite su interpretacin en trminos de la variacin en la variable dependiente que se explica en trminos de la relacin lineal de las variables.

Para nuestro ejemplo, Este valor puede interpretarse como que el 59.46% de la variacin en el nmero de escuelas, se puede explicar con la relacin lineal entre el nmero de estudiantes y el nmero de escuelas normales. El 40.54% restante se debe a otras variables que tambin influyen en el nmero de escuelas, como puede ser el presupuesto asignado a la educacin, la densidad de poblacin y muchos ms. Referencias bibliogrficas:

Secretara de Educacin Pblica. (2006). Principales Cifras Ciclo Escolar 2005-2006. Recuperado el 10 de abril de 2010, de http://dgpp.sep.gob.mx/Estadi/PRINCIPALES%20CIFRAS%20CICLO%20ESCOLAR%202005-

2006_Grises.pdf.

Tema 2. Regresin lineal


Objetivos del tema Al finalizar el tema sers capaz de:

Distinguir las caractersticas de las funciones lineales. Calcular la ecuacin de regresin lineal.

Introduccin En el tema anterior aprendiste lo que es el coeficiente de correlacin como una medida que califica el ajuste de una relacin entre dos variables a una lnea recta. Muchas relaciones tienen un comportamiento lineal y por ello conviene contar con un modelo matemtico para evaluar o predecir valores en la relacin. Este modelo matemtico se expresa mediante una ecuacin lineal. En este tema repasars las caractersticas generales de las funciones lineales, las formas de su ecuacin y aprenders el mtodo de mnimos cuadrados para encontrar la recta que mejor se ajuste a una muestra de observaciones. As, si el coeficiente de correlacin nos indica una relacin lineal fuerte, el anlisis de regresin nos proporcionar la ecuacin de la recta que los representa.

En el siguiente video encontrars informacin complementaria a este tema. Da clic aqu. Nota: El usuario y contrasea para acceder al video te los proporcionar tu profesor.

Contenido

Explicacin del tema Informacin sobre los contenidos principales del tema. Bibliografa Referencia bibliogrfica que debes consultar para este tema en la pgina de bibliografa. Recursos de apoyo Presentacin que incluye las ideas principales del tema.

Cierre

En este tema hemos revisado el mtodo de mnimos cuadrados para realizar un anlisis de regresin. Recuerda que el anlisis de regresin lineal tiene como objetivo calcular la ecuacin de la recta que mejor se ajusta a un determinado conjunto de datos. Esta recta ser til para inferir los valores de la variable dependiente que corresponden a determinado valor de la variable independiente, o bien para evaluar si los valores observados corresponden a lo que se espera de ellos. Sin embargo, el uso de la ecuacin de regresin supone verificar que los datos efectivamente presenten una correlacin lineal, lo cual se puede hacer grficamente con un diagrama de dispersin o bien calculando el coeficiente de correlacin estudiado en el tema anterior. En el prximo tema revisaremos las materias de anlisis de regresin y coeficiente de correlacin en aplicaciones especficas. Para aprender ms En este apartado encontrars ms informacin acerca del tema para enriquecer tu aprendizaje.

Para conocer sobre el anlisis de regresin accede al sitio de YouTube (http://www.youtube.com), escribe las palabras Concepto de Regresin y haz clic en el video con el nombre Concepto de Regresin con una duracin de 6:31. Recuerda que este video solamente lo puedes acceder fuera de las instalaciones de la Universidad Tec Milenio.

Para conocer informacin sobre el mtodo de mnimos cuadrados para el anlisis de regresin lineal, accede al sitio de YouTube (http://www.youtube.com), escribe las palabras Construccin en GeoGebra de la recta de mnimos cuadrados y haz clic en el video con el nombre MinimosCuadrados con una duracin de 2:36. Recuerda que este video solamente lo puedes acceder fuera de las instalaciones de la Universidad TecMilenio.

Ingresa al siguiente sitio del Konwledge Hub donde podrs practicar los clculos para encontrar le ecuacin de regresin y el diagrama de dispersin a partir de un conjunto de datos. Simple linear Regression / Knowledge Hub ITESM http://khub.itesm.mx/node/20134

Explicacin del tema 2

Estadstica II Tema 2. Regresin lineal


2.1 Funciones lineales
Jorge Prez est haciendo un estudio para analizar cul es la relacin entre la cantidad semanal que gasta una familia en alimentacin y el nmero de miembros que la integra.

Para ello realiza la siguiente muestra: Gasto semanal en alimentacin 1680 2100 2570 2200 1360 1770 1550 2000 1550 2400

Familia 1 2 3 4 5 6 7 8 9 10

Nmero de miembros 3 6 5 6 3 4 4 5 3 6

Lo primero que hace es poner estos datos en una grfica para visualizar la relacin.

En esta grfica se confirma una relacin lineal fuerte entre las dos variables, pero para confirmarla calcula el coeficiente de correlacin obteniendo un valor de r = .8301 Su problema ahora es encontrar un modelo que le permita inferir cul sera el gasto promedio semanal en una familia de 8 miembros, para lo que necesita encontrar la ecuacin de la recta que ms se ajusta a ese conjunto de datos. Recordemos que la ecuacin de la recta puede tener varias expresiones, en particular:

Donde:

m = pendiente. b = altura de la recta en el origen.

La pendiente m puede calcularse cuando se conocen dos puntos de la recta con la frmula ; sin embargo, en este caso no sabemos si uno o ms puntos de los que conocemos estarn sobre la recta o slo se acercarn a ella, por lo que requerimos de un proceso que minimice las diferencias de esas distancias. Eso es lo que hace el mtodo de mnimos cuadrados que estudiaremos a continuacin. Conviene recordar que si tenemos una pendiente

positiva, la recta es ascendente. negativa, la recta es descendente. cero, la recta es horizontal, lo que significa que no existe relacin entre las variables.

2.2 La regresin lineal


Para obtener la ecuacin de la recta se utilizan las siguientes frmulas que se originan de un procedimiento llamado mtodo de mnimos cuadrados diseado para minimizar la suma de los cuadrados de las desviaciones entre los valores observados de la variable dependiente y los valores estimados de la variable dependiente, lo que permite encontrar la ecuacin de la recta que mejor se ajusta a los datos de la muestra.

Donde:

n = nmero de observaciones. xi = valor de x en la i-sima observacin. yi = valor de y en la i-sima observacin.

Estas frmulas pueden calcularse con facilidad si utilizamos una calculadora cientfica que calcule sumatorias, o bien si se calculan primero sus elementos: x 3 6 5 6 3 4 y 1680 2100 2570 2200 1360 1770 xy 5040 12600 12850 13200 4080 7080 x 9 36 25 36 9 16

4 5 3 6 Suma Promedio Sustituyendo en las frmulas anteriores: 45 4.5

1550 2000 1550 2400 19180 1918

6200 10000 4650 14400 90100

16 25 9 36 217

Sustituyendo en la ecuacin de la recta en la forma pendiente-altura en el origen:

Esta es la ecuacin de la recta que mejor se ajustara al conjunto de datos de la muestra. En el siguiente diagrama se ilustra el segmento de recta que corresponde al dominio de los datos muestrales, extrapolndola hasta el valor de 8, que es el valor que a Jorge le interesa inferir.

Esta ecuacin nos permite utilizarla para dos cosas:

1.

Para predecir algn valor de la variable independiente. Lo cual se recomienda slo para valores cercanos a los lmites del dominio muestral, ya que esta prediccin es una inferencia que se realiza bajo el supuesto que la tendencia que establecen los datos de la muestra se mantiene, lo cual no siempre sucede. Para nuestro caso, se puede utilizar la ecuacin para predecir el gasto semanal en alimentos de una familia de ocho miembros:

2.

Para evaluar alguna de las observaciones muestrales con base en la tendencia de los datos. Por ejemplo, en los datos encontramos una familia de 5 miembros que gasta $2,570 semanales en alimentacin. Lo cual, como podemos observar en la grfica es un valor superior al valor que se esperara.

La ecuacin de la recta me permite calcular la diferencia entre lo que realmente gast esta familia ($2,570) y lo que se esperaba de acuerdo a la tendencia lineal ($2,048.70) por lo que podemos afirmar que su gasto est $521.30 por encima de la cantidad esperada.

Tema 3. Aplicaciones de la regresin lineal y el coeficiente de correlacin


Objetivos del tema Al finalizar el tema sers capaz de:

Aplicar la correlacin y regresin lineal a diversas situaciones. Identificar las consideraciones a tomar en cuenta cuando se aplica la correlacin y regresin lineal.

Introduccin En los temas anteriores aprendiste lo que son el coeficiente de correlacin y el anlisis de regresin lineal, el primero como una medida que califica el ajuste de una relacin entre dos variables a una lnea recta y el segundo como mtodo que proporciona la recta que mejor se ajusta a un conjunto de datos. Tiene sentido realizar un anlisis de regresin si la correlacin es dbil o inexistente? Cmo podemos utilizar la recta de regresin para evaluar y predecir valores de la variable dependiente? Qu consideraciones debemos tomar en cuenta al utilizar la correlacin y regresin lineal? Ambos temas estn relacionados y son utilizados con frecuencia para diversas aplicaciones en las que es necesario describir una relacin entre dos variables. En este tema repasars estos dos primeros temas del mdulo aplicando los procedimientos a la solucin de problemas. Tambin tendrs oportunidad de reflexionar sobre los alcances de estos parmetros, sobre las llamadas correlaciones espurias y recibirs recomendaciones para su uso adecuado.

En el siguiente video encontrars informacin complementaria a este tema. Da clic aqu. Nota: El usuario y contrasea para acceder al video te los proporcionar tu profesor.

Contenido

Explicacin del tema Informacin sobre los contenidos principales del tema. Bibliografa Referencia bibliogrfica que debes consultar para este tema en la pgina de bibliografa. Recursos de apoyo Presentacin que incluye las ideas principales del tema.

Cierre En este tema hemos relacionado los conceptos de correlacin con la regresin lineal. Hemos visto que el coeficiente de correlacin nos permite decidir sobre el uso de una ecuacin de regresin lineal para describir la relacin entre dos variables a partir de los datos de una muestra. Hemos podido aplicar ambos conceptos a la solucin de problemas como los que se te pueden presentar en tu desarrollo profesional. Se ha insistido en que una correlacin alta no necesariamente representa una relacin de causa efecto entre las variables, ya que pueden existir correlaciones de tipo espurio, es decir aquellas en las que el ndice de correlacin es alto, pero no existe relacin entre las variables. En el prximo tema revisaremos la forma en que nos podremos auxiliar de Excel para el clculo y presentacin grfica de esto conceptos simplificando significativamente nuestro trabajo. Para aprender ms En este apartado encontrars ms informacin acerca del tema para enriquecer tu aprendizaje.

Para conocer un ejemplo de aplicacin de la correlacin y regresin lineal explicado por Paco Sez, accede al sitio de YouTube (http://www.youtube.com), escribe las palabras Conceptos fundamentales de la correlacin y el anlisis de regresin y haz clic en el video con el nombre Regresin y Correlacin: ejemplo de Telepizza con una duracin de 10:03. Recuerda que este video solamente lo puedes acceder fuera de las instalaciones de la Universidad TecMilenio.

Tambin puedes revisar varios casos reales de aplicacin de la ecuacin de regresin lineal en Julio H. Cole "Nociones de Regresin Lineal" en Enciclopedia Multimedia Virtual de Economa EMVI. http://eumed.net/cursecon/medir/index.htm

Explicacin del tema 3

Estadstica II Tema 3. Aplicaciones de la regresin lineal y el coeficiente de correlacin

3.1 Ejemplos de aplicacin de la correlacin y la regresin lineal


Guillermo Rodrguez es el coordinador acadmico de la licenciatura en Psicologa de una universidad particular. Guillermo est preocupado por el prximo proceso de seleccin de alumnos, ya que considera que no es tico aceptar alumnos que por sus limitaciones acadmicas, tarde o temprano abandonen la universidad sin haber logrado terminar su licenciatura y graduarse. Sin embargo, no est seguro de cmo poder predecir si un alumno tiene una probabilidad razonable de graduarse. La universidad aplica a todos los estudiantes desde hace varios aos un examen de admisin de conocimientos generales y habilidades bsicas de razonamiento que tiene una calificacin mxima de 120 puntos. Algunos de los profesores de la universidad consideran que se debera negar la admisin a quienes no obtengan al menos 60 puntos en dicho examen, pero Guillermo piensa que la decisin no debera darse en funcin del resultado de admisin sino de la probabilidad de concluir con xito la carrera. Algunos maestros se han burlado de Guillermo, recomendndole que consulte los servicios de una adivina para poder obtener la informacin que desea, ya que consideran que es imposible saber a priori si un alumno tendr xito o no en sus estudios. Guillermo no hace caso de las crticas y se propone investigar la relacin entre los exmenes de admisin que se aplican en la universidad y los resultados del Examen General de Egreso de Licenciatura (EGEL) que realiza el Centro Nacional de Evaluacin (CENEVAL). Para su anlisis recoge una muestra consistente en los resultados de los ltimos 15 alumnos que presentaron dicho examen y consult en su expediente la calificacin del examen de admisin. Los resultados se presentan a continuacin: Examen de admisin 60 42 42 48 66 82 48 72 108 42 104 96 72 72 72

Alumno 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

EGEL 795 750 915 840 1020 780 725 1050 1185 885 900 1200 790 1065 1065

Lo primero que se plantea Guillermo es realizar un diagrama de dispersin donde se tome el puntaje del examen de admisin como variable independiente y el puntaje del EGEL como variable dependiente.

A primera vista este diagrama de puntos le decepcion a Guillermo, ya que l imaginaba que los puntos estaran ms alineados. Esto parece natural, ya que el resultado de un examen de egreso depende de muchos factores; sin embargo, observ que si bien los puntos no estn alineados s parece existir una tendencia positiva entre los valores, es decir, que a mayor puntaje en el examen de admisin parece corresponder un mejor puntaje en el EGEL. A continuacin Guillermo se propuso encontrar la ecuacin de la recta de regresin que le permita predecir los puntajes del EGEL a partir de las calificaciones del examen de admisin. Para hacerlo recab los datos necesarios y recurri a las frmulas estudiadas en el tema 2 para encontrar la pendiente y la altura en el origen de la recta de regresin: x Suma Promedio 1026 68.4 y 13965 931 x 77012 xy 983820

Por lo que determin que la ecuacin de la recta es: y = 4.19x + 644.40 y la grafic en el diagrama de dispersin.

Guillermo quiere utilizar esta ecuacin para determinar qu calificacin mnima se debe exigir a los alumnos para ingresar a la licenciatura para prever que obtengan al menos los 900 puntos del examen EGEL que exige esa universidad para la titulacin. Guillermo utiliza la ecuacin, sustituye y resuelve para x. y = 4.19x + 644.40 900 = 4.19x + 644.40 x = 61 Por lo que determina que debe negarse la admisin a quienes obtengan menos de 61 puntos. Sin embargo, una segunda mirada sobre la grfica le hace preguntarse, qu tan relacionadas pueden estar estas variables como para tomar una decisin as? As que se propone encontrar el coeficiente de correlacin, convencido de que si va a proponer un cambio as al consejo directivo deber justificar su propuesta con argumentos slidos. Aplica las frmulas para encontrar r:

Entonces:

Este coeficiente le seala una relacin lineal dbil entre ambas variables. Decide encontrar tambin el coeficiente de determinacin.

0.3495 Esto lo desanima en su propuesta ya que menos del 35% de los cambios en el puntaje del EGEL estn relacionados con el desempeo en el examen de admisin. Comprende que la relacin es dbil y que poda haber cometido un grave error al sobrevalorar dicha relacin.

3.2 Consideraciones
Aunque las frmulas estudiadas en los dos temas anteriores permiten encontrar el coeficiente de correlacin y la ecuacin de la recta de regresin lineal en prcticamente todos los casos, queda a quien las utiliza la responsabilidad de hacerlo tomando en cuenta algunas consideraciones como las siguientes: 1. La recta de regresin slo deber utilizarse para predecir o evaluar valores cuando se observa una correlacin lineal fuerte entre las variables. La recta de regresin slo deber extrapolarse a valores cercanos a los que se tomaron como base para calcularla. El coeficiente de correlacin no deber interpretarse como una calificacin de la relacin causa-efecto entre dos variables, ya que puede ser que aunque la correlacin lineal sea fuerte, las variables no estn realmente relacionadas entre s, cuando esto sucede decimos que tenemos una correlacin espuria. Por ejemplo, relacionar el nmero de helados vendidos en una ciudad con los casos del llamado golpe de calor, puede dar como resultado un ndice de correlacin alta. Lo cual no significa que el aumento en el consumo de helados provoque un aumento en los casos de golpe de calor. Ambos eventos pueden no estar relacionados entre s sino relacionados con otra variable como puede ser el aumento de la temperatura ambiental. [ cerrar ventana ]

2.

3.

Tema 4. Uso de hoja de clculo para la regresin lineal y el coeficiente de correlacin


Objetivos del tema Al finalizar el tema sers capaz de:

Usar Excel para el clculo del coeficiente de correlacin. Usar Excel para calcular y graficar la regresin lineal.

Introduccin

En los temas anteriores aprendiste cmo puedes calcular y aplicar el coeficiente de correlacin y la ecuacin de regresin lineal. Vimos tambin que es muy til, tanto para la presentacin de los datos como para su interpretacin, realizar un diagrama de dispersin. Antiguamente se dedicaba mucho tiempo de un curso de estadstica a los temas anteriores para realizar los clculos. En cambio, hoy contamos con el uso de la computadora; podemos dar exactitud a los clculos, rapidez a los procesos y vistosidad a las grficas. Como sabes, existen muchos programas especializados en estadstica como el Minitab o SPSS, los cuales son poderosos instrumentos para el anlisis de datos. Sin embargo, tienen una desventaja, no siempre estn disponibles en la computadora ms cercana ya que son programas comerciales que implican un costo elevado para su instalacin y uso. Es por esto que en este curso haremos referencia al manejo de una hoja de clculo como Microsoft Excel que aunque no es un programa especficamente diseado para anlisis estadstico, contiene las funciones estadsticas que requeriremos en este curso. As cuando necesites analizar un conjunto de datos, lo podrs hacer desde tu computadora, o desde la mayora de las computadoras de uso comn disponibles en los centros de cmputo de los campus del TecMilenio o bien en los locales de renta. En este tema repasaremos los conceptos de los temas anteriores apoyados por el uso de la hoja de clculo Microsoft Excel.

En el siguiente video encontrars informacin complementaria a este tema. Da clic aqu. Nota: El usuario y contrasea para acceder al video te los proporcionar tu profesor.

Contenido

Explicacin del tema Informacin sobre los contenidos principales del tema. Bibliografa Referencia bibliogrfica que debes consultar para este tema en la pgina de bibliografa. Recursos de apoyo Presentacin que incluye las ideas principales del tema.

Actividad integradora 1 Instrucciones: A continuacin se muestran los valores de glicemia capilar del personal de una empresa privada.

Paciente
1 2 3 4 5 6 7

Edad
23 29 45 50 37 29 28

Glicemia Capilar
101 89 123 115 78 96 85

8 9 10 a. b. c.

19 25 50

89 71 130

Realizar el diagrama de dispersin. Obtener el coeficiente de correlacin cmo lo interpretas? Obtener la regresin lineal.

Nota: Las actividades se realizarn de manera manual y en Excel. En el programa de Excel, se describirn paso a paso la forma en cmo realiza la actividad por medio de la funcin imprimir pantalla (Impr Pant). La funcin se encuentra en el teclado en la parte superior derecha. Enva la actividad a tu tutor, en formato de prctica de ejercicios.

Examen rpido. Preprate para el examen rpido de este mdulo.

Cierre En este tema hemos revisado la forma en que podemos utilizar Excel para evaluar la relacin entre dos variables por medio de un diagrama de dispersin, de la recta de regresin lineal y del coeficiente de correlacin. La prctica y exploracin autnoma de las posibilidades que brinda Excel permitir aprovechar mejor todas sus posibilidades. As siempre que lo requiramos podremos procesar la informacin de manera rpida, exacta y vistosa. En el prximo mdulo iniciaremos el estudio de las pruebas de hiptesis, las cuales son un til instrumento de la Estadstica Inferencial, para utilizar la informacin de una muestra y obtener conclusiones respecto a una poblacin. Para aprender ms En este apartado encontrars ms informacin acerca del tema para enriquecer tu aprendizaje.

Puedes revisar una presentacin sobre el uso de Excel para la correlacin y regresin lineal en la siguiente liga: http://www.authorstream.com/Presentation/.../

Para conocer informacin sobre el uso de Excel para la correlacin y regresin lineal, accede al sitio de YouTube (http://www.youtube.com), escribe las palabras Anlisis de correlacin y diagramas de dispersion con Excel y haz clic en el video con el nombre Correlacin con Excel con una duracin de 2:45. Recuerda que este video solamente lo puedes acceder fuera de las instalaciones de la Universidad TecMilenio.

Explicacin del tema 4

Estadstica II Tema 4. Uso de hoja de clculo para la regresin lineal y el coeficiente de correlacin

4.1 Uso de Excel para determinar el coeficiente de correlacin


Supongamos que queremos estudiar la relacin entre la superficie de los Estados que conforman la Repblica Mexicana y su poblacin. Los datos se presentan a continuacin: Superficie Poblacin (km) 1 479 21 355 4 950 4 016 5 471 30 491 33 902 11 499 20 813 5 191 71 699 25 267 80 386 59 928 64 924 74 211 Superficie (km) 64 281 38 402 58 328 69 921 63 068 79 384 93 952 26 979 50 212 73 252 149 982 50 812 247 938 182 052 123 181 73 475

Estado 1. Distrito Federal 2. Edo. de Mxico 3. Morelos 4. Tlaxcala 5. Aguascalientes 6. Guanajuato 7. Puebla 8. Quertaro 9. Hidalgo 10. Colima 11. Veracruz 12. Tabasco 13. Jalisco 14. Michoacn 15. Nuevo Len 16. Chiapas

Estado

Poblacin 3 115 202 1 818 948 2 608 442 2 844 469 2 410 414 3 024 238 3 506 821 949 684 1 135 309 1 367 392 2 492 200 754 730 3 241 444 2 393 984 1 509 117 512 170

8 720 916 17. Guerrero 14 007 495 18. Yucatn 1 612 899 19. Sinaloa 1 068 207 20. Baja California 1 065 416 21. San Luis Potos 4 893 812 22. Tamaulipas 5 383 133 23. Oaxaca 1 598 139 24. Nayarit 2 345 514 25. Quintana Roo 567 996 26. Zacatecas

7 110 214 27. Coahuila 2 200 000 28. Campeche 6 752 113 29. Chihuahua 3 966 073 30. Sonora 4 199 292 31. Durango 4 293 459 32. Baja California Sur

Fuente: INEGI. Disponible en http://www.inegi.org.mx/lib/Olap/consulta/general_v2/MDXQueryDatos.asp

Excel puede ayudarnos a realizar un diagrama de dispersin. Esto es muy til porque permite visualizar el tipo de relacin que se presenta entre los datos. As, lo primero que haremos ser copiar o teclear los datos en una hoja de Excel.

Una vez que tenemos los datos en dos columnas adyacentes, seleccionamos los datos y en la pestaa de insertar se elige Grficos / Dispersin y se selecciona el primer tipo.

Automticamente Excel nos proporcionar el diagrama de dispersin, que como bien sabemos puede modificarse en su tamao, aspecto, colores, etc.

Este diagrama puede ser suficiente para determinar que no existe una relacin lineal entre las dos variables, ya que la concentracin de poblacin no es uniforme en el territorio nacional. Sin embargo, tambin podemos corroborar esta apreciacin producto del anlisis de la grfica con el coeficiente de correlacin que tambin puede ser calculado de manera fcil, rpida y exacta por Excel. Para calcularlo, nos ubicamos en una celda diferente a aquellas en las que estn los datos. Por ejemplo, D2 y en la pestaa de Frmulas se elige Ms funciones / Estadsticas y se selecciona COEF.DE.CORREL

En el cuadro de dilogo seleccionaremos los datos de x (superficie) en la matriz 1 y los de y (poblacin) en la matriz 2.

As como podemos ver en el mismo cuadro de dilogo el coeficiente de correlacin lineal r = -0.0575 que nos indica que prcticamente no existe una correlacin lineal entre las variables.

4.2 Uso de Excel para determinar y graficar la regresin lineal


Ahora consideremos la siguiente informacin que relaciona las medidas de estatura y peso de 16 estudiantes. Estudiante 1 2 3 4 5 6 7 8 9 10 11 12 13 Estatura (cm) 165 167 167 170 170 172 172 173 175 175 177 177 178 Peso (kg) 63 65 68 65 70 67 69 72 70 74 72 74 77

14 15 16

180 180 182

74 77 79

Para encontrar la recta que mejor se ajusta a estos datos, primero realizaremos un diagrama de dispersin siguiendo los pasos que se indicaron anteriormente. Despus hay que situar el cursor en alguno de los datos y hacer clic con en el botn derecho. Aparecer un cuadro de dilogo donde seleccionaremos la opcin Agregar lnea de tendencia

Nos aparecer otro cuadro de dilogo que permite graficar y dar formato a diversas opciones para la lnea de tendencia. Para el caso que nos ocupa, elegiremos Lineal y activaremos las opciones de Insertar ecuacin en el grfico y Presentar el valor R cuadrado en el grfico (coeficiente de determinacin).

El cuadro de dilogo nos permite otras opciones no slo para el formato de la lnea (color, ancho, estilo) sino tambin nos permite extrapolar la lnea a valores cercanos. La grfica se obtiene con la lnea, ecuacin y coeficiente de determinacin.

modulo dos

Tema 2. Regresin lineal


Objetivos del tema Al finalizar el tema sers capaz de:

Distinguir las caractersticas de las funciones lineales. Calcular la ecuacin de regresin lineal.

Introduccin En el tema anterior aprendiste lo que es el coeficiente de correlacin como una medida que califica el ajuste de una relacin entre dos variables a una lnea recta. Muchas relaciones tienen un comportamiento lineal y por ello conviene contar con un modelo matemtico para evaluar o predecir valores en la relacin. Este modelo matemtico se expresa mediante una ecuacin lineal. En este tema repasars las caractersticas generales de las funciones lineales, las formas de su ecuacin y aprenders el mtodo de mnimos cuadrados para encontrar la recta que mejor se ajuste a una muestra de

observaciones. As, si el coeficiente de correlacin nos indica una relacin lineal fuerte, el anlisis de regresin nos proporcionar la ecuacin de la recta que los representa.

En el siguiente video encontrars informacin complementaria a este tema. Da clic aqu. Nota: El usuario y contrasea para acceder al video te los proporcionar tu profesor.

Contenido

Explicacin del tema Informacin sobre los contenidos principales del tema. Bibliografa Referencia bibliogrfica que debes consultar para este tema en la pgina de bibliografa. Recursos de apoyo Presentacin que incluye las ideas principales del tema.

Cierre En este tema hemos revisado el mtodo de mnimos cuadrados para realizar un anlisis de regresin. Recuerda que el anlisis de regresin lineal tiene como objetivo calcular la ecuacin de la recta que mejor se ajusta a un determinado conjunto de datos. Esta recta ser til para inferir los valores de la variable dependiente que corresponden a determinado valor de la variable independiente, o bien para evaluar si los valores observados corresponden a lo que se espera de ellos. Sin embargo, el uso de la ecuacin de regresin supone verificar que los datos efectivamente presenten una correlacin lineal, lo cual se puede hacer grficamente con un diagrama de dispersin o bien calculando el coeficiente de correlacin estudiado en el tema anterior. En el prximo tema revisaremos las materias de anlisis de regresin y coeficiente de correlacin en aplicaciones especficas. Para aprender ms En este apartado encontrars ms informacin acerca del tema para enriquecer tu aprendizaje.

Para conocer sobre el anlisis de regresin accede al sitio de YouTube (http://www.youtube.com), escribe las palabras Concepto de Regresin y haz clic en el video con el nombre Concepto de Regresin con una duracin de 6:31. Recuerda que este video solamente lo puedes acceder fuera de las instalaciones de la Universidad Tec Milenio.

Para conocer informacin sobre el mtodo de mnimos cuadrados para el anlisis de regresin lineal, accede al sitio de YouTube (http://www.youtube.com), escribe las palabras Construccin en GeoGebra de la recta de mnimos cuadrados y haz clic en el video con el nombre MinimosCuadrados con una duracin de 2:36. Recuerda que este video solamente lo puedes acceder fuera de las instalaciones de la Universidad TecMilenio.

Ingresa al siguiente sitio del Konwledge Hub donde podrs practicar los clculos para encontrar le ecuacin de regresin y el diagrama de dispersin a partir de un conjunto de datos. Simple linear Regression / Knowledge Hub ITESM http://khub.itesm.mx/node/20134

Explicacin del tema 2

Estadstica II Tema 2. Regresin lineal


2.1 Funciones lineales
Jorge Prez est haciendo un estudio para analizar cul es la relacin entre la cantidad semanal que gasta una familia en alimentacin y el nmero de miembros que la integra. Para ello realiza la siguiente muestra: Gasto semanal en alimentacin 1680 2100 2570 2200 1360 1770 1550 2000 1550 2400

Familia 1 2 3 4 5 6 7 8 9 10

Nmero de miembros 3 6 5 6 3 4 4 5 3 6

Lo primero que hace es poner estos datos en una grfica para visualizar la relacin.

En esta grfica se confirma una relacin lineal fuerte entre las dos variables, pero para confirmarla calcula el coeficiente de correlacin obteniendo un valor de r = .8301 Su problema ahora es encontrar un modelo que le permita inferir cul sera el gasto promedio semanal en una familia de 8 miembros, para lo que necesita encontrar la ecuacin de la recta que ms se ajusta a ese conjunto de datos. Recordemos que la ecuacin de la recta puede tener varias expresiones, en particular:

Donde:

m = pendiente. b = altura de la recta en el origen.

La pendiente m puede calcularse cuando se conocen dos puntos de la recta con la frmula ; sin embargo, en este caso no sabemos si uno o ms puntos de los que conocemos estarn sobre la recta o slo se acercarn a ella, por lo que requerimos de un proceso que minimice las diferencias de esas distancias. Eso es lo que hace el mtodo de mnimos cuadrados que estudiaremos a continuacin. Conviene recordar que si tenemos una pendiente

positiva, la recta es ascendente. negativa, la recta es descendente. cero, la recta es horizontal, lo que significa que no existe relacin entre las variables.

2.2 La regresin lineal


Para obtener la ecuacin de la recta se utilizan las siguientes frmulas que se originan de un procedimiento llamado mtodo de mnimos cuadrados diseado para minimizar la suma de los cuadrados de las desviaciones entre los valores observados de la variable dependiente y los valores estimados de la variable dependiente, lo que permite encontrar la ecuacin de la recta que mejor se ajusta a los datos de la muestra.

Donde:

n = nmero de observaciones. xi = valor de x en la i-sima observacin. yi = valor de y en la i-sima observacin.

Estas frmulas pueden calcularse con facilidad si utilizamos una calculadora cientfica que calcule sumatorias, o bien si se calculan primero sus elementos: x 3 6 5 6 3 4 4 5 3 6 Suma Promedio Sustituyendo en las frmulas anteriores: 45 4.5 y 1680 2100 2570 2200 1360 1770 1550 2000 1550 2400 19180 1918 xy 5040 12600 12850 13200 4080 7080 6200 10000 4650 14400 90100 x 9 36 25 36 9 16 16 25 9 36 217

Sustituyendo en la ecuacin de la recta en la forma pendiente-altura en el origen:

Esta es la ecuacin de la recta que mejor se ajustara al conjunto de datos de la muestra. En el siguiente diagrama se ilustra el segmento de recta que corresponde al dominio de los datos muestrales, extrapolndola hasta el valor de 8, que es el valor que a Jorge le interesa inferir.

Esta ecuacin nos permite utilizarla para dos cosas: 1. Para predecir algn valor de la variable independiente. Lo cual se recomienda slo para valores cercanos a los lmites del dominio muestral, ya que esta prediccin es una inferencia que se realiza bajo el supuesto que la tendencia que establecen los datos de la muestra se mantiene, lo cual no siempre sucede. Para nuestro caso, se puede utilizar la ecuacin para predecir el gasto semanal en alimentos de una familia de ocho miembros:

2.

Para evaluar alguna de las observaciones muestrales con base en la tendencia de los datos. Por ejemplo, en los datos encontramos una familia de 5 miembros que gasta $2,570 semanales en alimentacin. Lo cual, como

podemos observar en la grfica es un valor superior al valor que se esperara.

La ecuacin de la recta me permite calcular la diferencia entre lo que realmente gast esta familia ($2,570) y lo que se esperaba de acuerdo a la tendencia lineal ($2,048.70) por lo que podemos afirmar que su gasto est $521.30 por encima de la cantidad esperada.

Tema 3. Aplicaciones de la regresin lineal y el coeficiente de correlacin


Objetivos del tema Al finalizar el tema sers capaz de:

Aplicar la correlacin y regresin lineal a diversas situaciones. Identificar las consideraciones a tomar en cuenta cuando se aplica la correlacin y regresin lineal.

Introduccin En los temas anteriores aprendiste lo que son el coeficiente de correlacin y el anlisis de regresin lineal, el primero como una medida que califica el ajuste de una relacin entre dos variables a una lnea recta y el segundo como mtodo que proporciona la recta que mejor se ajusta a un conjunto de datos. Tiene sentido realizar un anlisis de regresin si la correlacin es dbil o inexistente? Cmo podemos utilizar la recta de regresin para evaluar y predecir valores de la variable dependiente? Qu consideraciones debemos tomar en cuenta al utilizar la correlacin y regresin lineal? Ambos temas estn relacionados y son utilizados con frecuencia para diversas aplicaciones en las que es necesario describir una relacin entre dos variables. En este tema repasars estos dos primeros temas del mdulo aplicando los procedimientos a la solucin de problemas. Tambin tendrs oportunidad de reflexionar sobre los alcances de estos parmetros, sobre las llamadas correlaciones espurias y recibirs recomendaciones para su uso adecuado.

En el siguiente video encontrars informacin complementaria a este tema. Da clic aqu. Nota: El usuario y contrasea para acceder al video te los proporcionar tu profesor.

Contenido

Explicacin del tema Informacin sobre los contenidos principales del tema. Bibliografa Referencia bibliogrfica que debes consultar para este tema en la pgina de bibliografa. Recursos de apoyo

Presentacin que incluye las ideas principales del tema.

Cierre En este tema hemos relacionado los conceptos de correlacin con la regresin lineal. Hemos visto que el coeficiente de correlacin nos permite decidir sobre el uso de una ecuacin de regresin lineal para describir la relacin entre dos variables a partir de los datos de una muestra. Hemos podido aplicar ambos conceptos a la solucin de problemas como los que se te pueden presentar en tu desarrollo profesional. Se ha insistido en que una correlacin alta no necesariamente representa una relacin de causa efecto entre las variables, ya que pueden existir correlaciones de tipo espurio, es decir aquellas en las que el ndice de correlacin es alto, pero no existe relacin entre las variables. En el prximo tema revisaremos la forma en que nos podremos auxiliar de Excel para el clculo y presentacin grfica de esto conceptos simplificando significativamente nuestro trabajo. Para aprender ms En este apartado encontrars ms informacin acerca del tema para enriquecer tu aprendizaje.

Para conocer un ejemplo de aplicacin de la correlacin y regresin lineal explicado por Paco Sez, accede al sitio de YouTube (http://www.youtube.com), escribe las palabras Conceptos fundamentales de la correlacin y el anlisis de regresin y haz clic en el video con el nombre Regresin y Correlacin: ejemplo de Telepizza con una duracin de 10:03. Recuerda que este video solamente lo puedes acceder fuera de las instalaciones de la Universidad TecMilenio.

Tambin puedes revisar varios casos reales de aplicacin de la ecuacin de regresin lineal en Julio H. Cole "Nociones de Regresin Lineal" en Enciclopedia Multimedia Virtual de Economa EMVI. http://eumed.net/cursecon/medir/index.htm

Explicacin del tema 3

Estadstica II Tema 3. Aplicaciones de la regresin lineal y el coeficiente de correlacin


3.1 Ejemplos de aplicacin de la correlacin y la regresin lineal
Guillermo Rodrguez es el coordinador acadmico de la licenciatura en Psicologa de una universidad particular. Guillermo est preocupado por el prximo proceso de seleccin de alumnos, ya que considera que no es tico aceptar alumnos que por sus limitaciones acadmicas, tarde o temprano abandonen la universidad sin haber logrado terminar su licenciatura y graduarse. Sin embargo, no est seguro de cmo poder predecir si un alumno tiene una probabilidad razonable de graduarse. La universidad aplica a todos los estudiantes desde hace varios aos un examen de admisin de conocimientos generales y

habilidades bsicas de razonamiento que tiene una calificacin mxima de 120 puntos. Algunos de los profesores de la universidad consideran que se debera negar la admisin a quienes no obtengan al menos 60 puntos en dicho examen, pero Guillermo piensa que la decisin no debera darse en funcin del resultado de admisin sino de la probabilidad de concluir con xito la carrera. Algunos maestros se han burlado de Guillermo, recomendndole que consulte los servicios de una adivina para poder obtener la informacin que desea, ya que consideran que es imposible saber a priori si un alumno tendr xito o no en sus estudios. Guillermo no hace caso de las crticas y se propone investigar la relacin entre los exmenes de admisin que se aplican en la universidad y los resultados del Examen General de Egreso de Licenciatura (EGEL) que realiza el Centro Nacional de Evaluacin (CENEVAL). Para su anlisis recoge una muestra consistente en los resultados de los ltimos 15 alumnos que presentaron dicho examen y consult en su expediente la calificacin del examen de admisin. Los resultados se presentan a continuacin: Examen de admisin 60 42 42 48 66 82 48 72 108 42 104 96 72 72 72

Alumno 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

EGEL 795 750 915 840 1020 780 725 1050 1185 885 900 1200 790 1065 1065

Lo primero que se plantea Guillermo es realizar un diagrama de dispersin donde se tome el puntaje del examen de admisin como variable independiente y el puntaje del EGEL como variable dependiente.

A primera vista este diagrama de puntos le decepcion a Guillermo, ya que l imaginaba que los puntos estaran ms alineados. Esto parece natural, ya que el resultado de un examen de egreso depende de muchos factores; sin embargo, observ que si bien los puntos no estn alineados s parece existir una tendencia positiva entre los valores, es decir, que a mayor puntaje en el examen de admisin parece corresponder un mejor puntaje en el EGEL. A continuacin Guillermo se propuso encontrar la ecuacin de la recta de regresin que le permita predecir los puntajes del EGEL a partir de las calificaciones del examen de admisin. Para hacerlo recab los datos necesarios y recurri a las frmulas estudiadas en el tema 2 para encontrar la pendiente y la altura en el origen de la recta de regresin: x Suma Promedio 1026 68.4 y 13965 931 x 77012 xy 983820

Por lo que determin que la ecuacin de la recta es: y = 4.19x + 644.40 y la grafic en el diagrama de dispersin.

Guillermo quiere utilizar esta ecuacin para determinar qu calificacin mnima se debe exigir a los alumnos para ingresar a la licenciatura para prever que obtengan al menos los 900 puntos del examen EGEL que exige esa universidad para la titulacin. Guillermo utiliza la ecuacin, sustituye y resuelve para x. y = 4.19x + 644.40 900 = 4.19x + 644.40 x = 61 Por lo que determina que debe negarse la admisin a quienes obtengan menos de 61 puntos. Sin embargo, una segunda mirada sobre la grfica le hace preguntarse, qu tan relacionadas pueden estar estas variables como para tomar una decisin as? As que se propone encontrar el coeficiente de correlacin, convencido de que si va a proponer un cambio as al consejo directivo deber justificar su propuesta con argumentos slidos. Aplica las frmulas para encontrar r:

Entonces:

Este coeficiente le seala una relacin lineal dbil entre ambas variables. Decide encontrar tambin el coeficiente de determinacin.

0.3495 Esto lo desanima en su propuesta ya que menos del 35% de los cambios en el puntaje del EGEL estn relacionados con el desempeo en el examen de admisin. Comprende que la relacin es dbil y que poda haber cometido un grave error al sobrevalorar dicha relacin.

3.2 Consideraciones
Aunque las frmulas estudiadas en los dos temas anteriores permiten encontrar el coeficiente de correlacin y la ecuacin de la recta de regresin lineal en prcticamente todos los casos, queda a quien las utiliza la responsabilidad de hacerlo tomando en cuenta algunas consideraciones como las siguientes: 1. La recta de regresin slo deber utilizarse para predecir o evaluar valores cuando se observa una correlacin lineal fuerte entre las variables. La recta de regresin slo deber extrapolarse a valores cercanos a los que se tomaron como base para calcularla. El coeficiente de correlacin no deber interpretarse como una calificacin de la relacin causa-efecto entre dos variables, ya que puede ser que aunque la correlacin lineal sea fuerte, las variables no estn realmente relacionadas entre s, cuando esto sucede decimos que tenemos una correlacin espuria. Por ejemplo, relacionar el nmero de helados vendidos en una ciudad con los casos del llamado golpe de calor, puede dar como resultado un ndice de correlacin alta. Lo cual no significa que el aumento en el consumo de helados provoque un aumento en los casos de golpe de calor. Ambos eventos pueden no estar relacionados entre s sino relacionados con otra variable como puede ser el aumento de la temperatura ambiental.

2.

3.

Tema 4. Uso de hoja de clculo para la regresin lineal y el coeficiente de correlacin


Objetivos del tema Al finalizar el tema sers capaz de:

Usar Excel para el clculo del coeficiente de correlacin. Usar Excel para calcular y graficar la regresin lineal.

Introduccin

En los temas anteriores aprendiste cmo puedes calcular y aplicar el coeficiente de correlacin y la ecuacin de regresin lineal. Vimos tambin que es muy til, tanto para la presentacin de los datos como para su interpretacin, realizar un diagrama de dispersin. Antiguamente se dedicaba mucho tiempo de un curso de estadstica a los temas anteriores para realizar los clculos. En cambio, hoy contamos con el uso de la computadora; podemos dar exactitud a los clculos, rapidez a los procesos y vistosidad a las grficas. Como sabes, existen muchos programas especializados en estadstica como el Minitab o SPSS, los cuales son poderosos instrumentos para el anlisis de datos. Sin embargo, tienen una desventaja, no siempre estn disponibles en la computadora ms cercana ya que son programas comerciales que implican un costo elevado para su instalacin y uso. Es por esto que en este curso haremos referencia al manejo de una hoja de clculo como Microsoft Excel que aunque no es un programa especficamente diseado para anlisis estadstico, contiene las funciones estadsticas que requeriremos en este curso. As cuando necesites analizar un conjunto de datos, lo podrs hacer desde tu computadora, o desde la mayora de las computadoras de uso comn disponibles en los centros de cmputo de los campus del TecMilenio o bien en los locales de renta. En este tema repasaremos los conceptos de los temas anteriores apoyados por el uso de la hoja de clculo Microsoft Excel.

En el siguiente video encontrars informacin complementaria a este tema. Da clic aqu. Nota: El usuario y contrasea para acceder al video te los proporcionar tu profesor.

Contenido

Explicacin del tema Informacin sobre los contenidos principales del tema. Bibliografa Referencia bibliogrfica que debes consultar para este tema en la pgina de bibliografa. Recursos de apoyo Presentacin que incluye las ideas principales del tema.

Actividad integradora 1 Instrucciones: A continuacin se muestran los valores de glicemia capilar del personal de una empresa privada.

Paciente
1 2 3 4 5 6 7

Edad
23 29 45 50 37 29 28

Glicemia Capilar
101 89 123 115 78 96 85

8 9 10 a. b. c.

19 25 50

89 71 130

Realizar el diagrama de dispersin. Obtener el coeficiente de correlacin cmo lo interpretas? Obtener la regresin lineal.

Nota: Las actividades se realizarn de manera manual y en Excel. En el programa de Excel, se describirn paso a paso la forma en cmo realiza la actividad por medio de la funcin imprimir pantalla (Impr Pant). La funcin se encuentra en el teclado en la parte superior derecha. Enva la actividad a tu tutor, en formato de prctica de ejercicios.

Examen rpido. Preprate para el examen rpido de este mdulo.

Cierre En este tema hemos revisado la forma en que podemos utilizar Excel para evaluar la relacin entre dos variables por medio de un diagrama de dispersin, de la recta de regresin lineal y del coeficiente de correlacin. La prctica y exploracin autnoma de las posibilidades que brinda Excel permitir aprovechar mejor todas sus posibilidades. As siempre que lo requiramos podremos procesar la informacin de manera rpida, exacta y vistosa. En el prximo mdulo iniciaremos el estudio de las pruebas de hiptesis, las cuales son un til instrumento de la Estadstica Inferencial, para utilizar la informacin de una muestra y obtener conclusiones respecto a una poblacin. Para aprender ms En este apartado encontrars ms informacin acerca del tema para enriquecer tu aprendizaje.

Puedes revisar una presentacin sobre el uso de Excel para la correlacin y regresin lineal en la siguiente liga: http://www.authorstream.com/Presentation/.../

Para conocer informacin sobre el uso de Excel para la correlacin y regresin lineal, accede al sitio de YouTube (http://www.youtube.com), escribe las palabras Anlisis de correlacin y diagramas de dispersion con Excel y haz clic en el video con el nombre Correlacin con Excel con una duracin de 2:45. Recuerda que este video solamente lo puedes acceder fuera de las instalaciones de la Universidad TecMilenio.

Explicacin del tema 4

Estadstica II

Tema 4. Uso de hoja de clculo para la regresin lineal y el coeficiente de correlacin


4.1 Uso de Excel para determinar el coeficiente de correlacin
Supongamos que queremos estudiar la relacin entre la superficie de los Estados que conforman la Repblica Mexicana y su poblacin. Los datos se presentan a continuacin: Estado 1. Distrito Federal 2. Edo. de Mxico 3. Morelos 4. Tlaxcala 5. Aguascalientes 6. Guanajuato 7. Puebla 8. Quertaro 9. Hidalgo 10. Colima 11. Veracruz 12. Tabasco 13. Jalisco 14. Michoacn 15. Nuevo Len 16. Chiapas Superficie Poblacin (km) 1 479 21 355 4 950 4 016 5 471 30 491 33 902 11 499 20 813 5 191 71 699 25 267 80 386 59 928 64 924 74 211 Estado Superficie Poblacin (km) 64 281 38 402 58 328 69 921 63 068 79 384 93 952 26 979 50 212 73 252 149 982 50 812 247 938 182 052 123 181 73 475 3 115 202 1 818 948 2 608 442 2 844 469 2 410 414 3 024 238 3 506 821 949 684 1 135 309 1 367 392 2 492 200 754 730 3 241 444 2 393 984 1 509 117 512 170

8 720 916 17. Guerrero 14 007 495 18. Yucatn

1 612 899 19. Sinaloa 1 068 207 1 065 416 4 893 812 20. Baja California 21. San Luis Potos 22. Tamaulipas

5 383 133 23. Oaxaca 1 598 139 24. Nayarit 2 345 514 567 996 25. Quintana Roo 26. Zacatecas 28. Campeche 29. Chihuahua

7 110 214 27. Coahuila 2 200 000 6 752 113

3 966 073 30. Sonora 4 199 292 31. Durango 4 293 459 32. Baja California Sur

Fuente: INEGI. Disponible en http://www.inegi.org.mx/lib/Olap/consulta/general_v2/MDXQueryDatos.asp

Excel puede ayudarnos a realizar un diagrama de dispersin. Esto es muy til porque permite visualizar el tipo de relacin que se presenta entre los datos. As, lo primero que haremos ser copiar o teclear los datos en una hoja de Excel.

Una vez que tenemos los datos en dos columnas adyacentes, seleccionamos los datos y en la pestaa de insertar se elige Grficos / Dispersin y se selecciona el primer tipo.

Automticamente Excel nos proporcionar el diagrama de dispersin, que como bien sabemos puede modificarse en su tamao, aspecto, colores, etc.

Este diagrama puede ser suficiente para determinar que no existe una relacin lineal entre las dos variables, ya que la concentracin de poblacin no es uniforme en el territorio nacional. Sin embargo, tambin podemos corroborar esta apreciacin producto del anlisis de la grfica con el coeficiente de correlacin que tambin puede ser calculado de manera fcil, rpida y exacta por Excel. Para calcularlo, nos ubicamos en una celda diferente a aquellas en las que estn los datos. Por ejemplo, D2 y en la pestaa de Frmulas se elige Ms funciones / Estadsticas y se selecciona COEF.DE.CORREL

En el cuadro de dilogo seleccionaremos los datos de x (superficie) en la matriz 1 y los de y (poblacin) en la matriz 2.

As como podemos ver en el mismo cuadro de dilogo el coeficiente de correlacin lineal r = 0.0575 que nos indica que prcticamente no existe una correlacin lineal entre las variables.

4.2 Uso de Excel para determinar y graficar la regresin lineal


Ahora consideremos la siguiente informacin que relaciona las medidas de estatura y peso de 16 estudiantes. Estudiante 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Estatura (cm) 165 167 167 170 170 172 172 173 175 175 177 177 178 180 180 182 Peso (kg) 63 65 68 65 70 67 69 72 70 74 72 74 77 74 77 79

Para encontrar la recta que mejor se ajusta a estos datos, primero realizaremos un diagrama de dispersin siguiendo los pasos que se indicaron anteriormente. Despus hay que situar el cursor en alguno de los datos y hacer clic con en el botn derecho. Aparecer un cuadro de dilogo donde seleccionaremos la opcin Agregar lnea de tendencia

Nos aparecer otro cuadro de dilogo que permite graficar y dar formato a diversas opciones para la lnea de tendencia. Para el caso que nos ocupa, elegiremos Lineal y activaremos las opciones de Insertar ecuacin en el grfico y Presentar el valor R cuadrado en el grfico (coeficiente de determinacin).

El cuadro de dilogo nos permite otras opciones no slo para el formato de la lnea (color, ancho, estilo) sino tambin nos permite extrapolar la lnea a valores cercanos. La grfica se obtiene con la lnea, ecuacin y coeficiente de determinacin.

Modulo 2

Tema 5. Concepto de pruebas de hiptesis


Objetivos del tema Al finalizar el tema sers capaz de:

Distinguir situaciones en las que pueden aplicarse las pruebas de hiptesis. Distinguir los pasos a seguir para realizar una prueba de hiptesis.

Introduccin

Seguramente alguna vez has visto una pelcula que muestra el sistema norteamericano de justicia. La imagen de un acusado, el fiscal, el jurado y el juez son escenas recurrentes en el cine. En estos juicios el acusado se declara inocente y el trabajo del fiscal es aportar toda la evidencia que se tenga para demostrar que no lo es. Finalmente, es el jurado quien decide si esta informacin es suficiente para declarar culpable o no culpable (no guilty) al acusado. Este proceso se parece mucho al de una prueba de hiptesis donde alguien declara el valor de un parmetro poblacional, otro recoge evidencias para intentar convencer que el valor proporcionado anteriormente es incorrecto, y existe un procedimiento que permite dar un veredicto sobre si la evidencia proporcionada es suficiente o no. En este tema conocers las generalidades de una prueba de hiptesis; esto es, su definicin, objetivo, componentes y pasos a seguir para aplicarla. Continuaremos utilizando la metfora del juicio como apoyo para la mejor comprensin de algunos conceptos.

En el siguiente video encontrars informacin complementaria a este tema. Da clic aqu. Nota: El usuario y contrasea para acceder al video te los proporcionar tu profesor.

Contenido

Explicacin del tema Informacin sobre los contenidos principales del tema. Bibliografa Referencia bibliogrfica que debes consultar para este tema en la pgina de bibliografa. Recursos de apoyo Presentacin que incluye las ideas principales del tema.

Cierre En este tema hemos revisado el concepto de pruebas de hiptesis, que es otra forma de realizar inferencias sobre los parmetros poblacionales. Hemos visto que esta prueba permite contar con una base cuantitativa para decidir si la diferencia entre lo que se afirma de una poblacin y lo que puede observarse de sta en una muestra es significativa o no. Tambin se han indicado los pasos a seguir para realizar una prueba de hiptesis, los cuales aplicars en los prximos temas, en los que estudiaremos diferentes tipos de pruebas, dependiendo del parmetro a probar o de las condiciones en que se presenta la informacin. Dado lo que ya sabemos de este tema, qu crees que es importante hacer o en qu nos enfocamos ahora? Qu informacin necesitamos? En los siguientes temas conocers las distribuciones y estadsticos que corresponden a las pruebas para la media o proporcin de una poblacin, as como para la diferencia entre medias o proporciones de dos

poblaciones. En cada una de ellas aplicars los pasos que se indicaron en este tema y veremos la forma en que puedes usar Excel para apoyar los clculos. Para aprender ms En este apartado encontrars ms informacin acerca del tema para enriquecer tu aprendizaje.

Puedes repasar el concepto y pasos de una prueba de hiptesis y explorar su aplicacin mediante el uso de una calculadora en: http://descartes.cnice.mec.es/materiales_didacticos/.../pruebas_hipotesis.html Puedes revisar una presentacin del Prof. Mirko Zimic sobre el concepto y pasos para realizar una prueba de hiptesis en: http://www.upch.edu.pe/facien/.../semana%205%20(hipotesis

Explicacin del tema 5

Estadstica II Tema 5. Concepto de pruebas de hiptesis


5.1 Objetivo de una prueba de hiptesis
Como se seal anteriormente, una prueba de hiptesis es un procedimiento estadstico que nos permite poner a prueba si una afirmacin sobre un parmetro poblacional puede considerarse verdadera o no, con base en los datos que aporte una muestra de dicha poblacin. Conozcamos ahora los elementos de una prueba de hiptesis.

5.1.1 Hiptesis
Las hiptesis son afirmaciones sobre los parmetros poblacionales. Existen dos tipos de ellas: a. Hiptesis nula. Se representa normalmente como Ho Consiste en la afirmacin de la que se desconfa y que se da por cierta sobre un parmetro poblacional, mientras no se demuestre lo contrario. Plantea la no diferencia con el dato aportado por lo que siempre incluye la igualdad, ya sea en la forma =, o . Por ejemplo: si se afirma que el 85% de los mexicanos estn a favor de la pena de muerte a secuestradores y asesinos. La hiptesis nula se expresara as: Ho: P = .85 b. Hiptesis alternativa. Se representa normalmente como Ha o H1 Consiste en la afirmacin contraria a la hiptesis nula. Por ejemplo: Para la hiptesis nula anterior, la hiptesis alternativa es: H1: P .85

En el siguiente cuadro podemos ver ms ejemplos: Ejemplo 1 Hiptesis nula La esperanza de vida de un mexicano es de 65.5 aos. Ho: = 65.5 2 El nmero mnimo de pizzas vendidas cada noche es de 54. Ho: 54 3 La dieta no es efectiva en trminos del peso perdido promedio. H o: 0 Hiptesis alternativa La esperanza de vida de un mexicano no es de 65.5 aos. H1: 65.5 El nmero de pizzas vendidas cada noche es menor que 54. H1: < 54 La dieta es efectiva en trminos del peso perdido promedio. H1: > 0

Es importante insistir que es indispensable plantear adecuadamente la hiptesis nula y alternativa para que la prueba pueda llevarse a cabo. Algunas observaciones que debes tomar en cuenta: Al escribir las hiptesis se utilizan dos puntos y no un signo igual despus de los signos de Ho e Ha. Esto es porque Ho y Ha no son valores numricos sino proposiciones que se van a definir. La hiptesis nula siempre incluye la igualdad. Las hiptesis nula y alternativa deben ser excluyentes y complementarias como se muestra en el siguiente cuadro: Hiptesis nula Si se afirma que el parmetro poblacional es igual a: Ho: = 65.5 Si se afirma que el parmetro poblacional es mayor o igual a: Ho: 54 Si se afirma que el parmetro poblacional es menor o igual a: H o: 0 Hiptesis alternativa Se niega la igualdad. H1: 65.5 Se afirma que es menor. H1: < 54 Se afirma que es mayor. H1 : > 0

5.1.2 Tipos de errores


En la metfora del juicio que mencionamos en la introduccin, la hiptesis nula equivaldra a la declaracin del acusado, y la alternativa a lo que quiere probar el fiscal. Sin embargo, todos sabemos que en la prctica el sistema judicial puede errar en su fallo y condenar a un inocente si las pruebas lo incriminan, o absolver a un culpable cuando no se rene suficiente evidencia. Pero qu es peor? Condenar a un inocente o absolver a un culpable? Evidentemente ninguno de los dos tipos de errores es deseable. Sin embargo, la mayor parte de los sistemas judiciales en el mundo se disean buscando evitar sobre todo el primero de estos errores. Todos recordamos la

frase El acusado es inocente mientras no se demuestre lo contrario. De manera anloga, en una prueba de hiptesis podemos cometer dos tipos de errores. Estos errores se definen en la tabla siguiente: Tipo de error I II Definicin Rechazar Ho siendo verdadera. Aceptar Ho siendo falsa. Metfora Condenar a un inocente. Absolver a un culpable. Probabilidad de cometerlo (nivel de significacin)

Como se dijo antes, la prueba de hiptesis se disea para reducir al mnimo la probabilidad de cometer un error de tipo I (). El clculo de la probabilidad de cometer un error de tipo II () no ser abordado en este curso, pero es importante sealar que ambos errores no son complementarios por lo que el clculo de las probabilidades y se realiza de manera independiente.

5.1.3 Estadsticos crtico y de la prueba


Para realizar la prueba ser necesario obtener dos valores: a. Valor estadstico crtico. Representa la diferencia mxima en desviaciones estndar que se puede presentar entre el valor declarado en la hiptesis nula y el valor obtenido en una muestra para un parmetro que puede explicarse como producto de la variacin normal del proceso de estimacin. Depende de la distribucin de probabilidad de la poblacin y del nivel de significacin (). b. Valor estadstico de la prueba. Representa la diferencia real en desviaciones estndar observada en el proceso de comprobacin mediante los valores de una muestra. Su valor se calcula usando una frmula matemtica. La comparacin entre estos dos valores permitir decidir si se acepta la hiptesis nula o se rechaza.

5.2 Pasos para realizar una prueba de hiptesis


Se sugieren los siguientes seis pasos para la elaboracin de una prueba de hiptesis. En esta seccin comentaremos en qu consisten y los aplicaremos en los siguientes temas. 1. Definir las hiptesis. Se identifican las hiptesis nula y alternativa y se escriben utilizando lenguaje algebraico. Es importante recordar que ambas son complementarias; esto es, que la negacin de una, implica a la otra. La hiptesis nula deber contener la igualdad. 2. Elegir la distribucin probabilstica y el nivel de significacin.

Con base en el tipo de prueba a realizar, se determinar si para su anlisis se utilizar la distribucin normal (Z), la distribucin t o alguna otra. En los siguientes temas se indicar qu distribucin es la adecuada en cada caso. Tambin se elige el nivel de significacin, que como se seal anteriormente es la probabilidad de cometer un error de tipo I. Es por esto que se recomienda para un valor pequeo, pero no tanto que implique el uso de una muestra de tamao demasiado grande. El valor que se utiliza con ms frecuencia es =.05 3. Encontrar el valor crtico. Utilizando la tabla de probabilidad de la distribucin y el nivel elegidos en el paso anterior, se encuentra el valor en desviaciones estndar de la distribucin muestral correspondiente. Este valor permite fijar los lmites para dividir la distribucin muestral en reas de aceptacin o rechazo de la hiptesis nula. 4. Calcular el valor estadstico de la prueba. El valor estadstico de la prueba se obtiene a partir de una frmula que en realidad es un despeje de la desviacin estndar en las frmulas de distribuciones muestrales. En cada tipo de prueba se indicar dicha frmula. 5. Decidir si se acepta o se rechaza la hiptesis nula. Una vez obtenidos los valores crtico y de la prueba, se comparan y dependiendo del rea en la que se ubique el valor de la prueba se acepta o rechaza la hiptesis nula. 6. Ofrecer una conclusin. Es importante recordar que las pruebas de hiptesis son una base cuantitativa para la toma de decisiones. Por lo que una vez terminada cada prueba, se te pedir su interpretacin en trminos del problema a resolver. Resumimos estos pasos en el siguiente esquema que utilizaremos como apoyo en los siguientes temas.

Tema 6. Pruebas para la media de una poblacin (caso muestra grande o varianza conocida)
Objetivos del tema Al finalizar el tema sers capaz de:

Distinguir situaciones en las que pueden aplicarse una prueba de hiptesis para una media poblacional con una muestra grande o de varianza poblacional conocida. Usar una prueba de hiptesis para una media poblacional con una muestra grande o de varianza poblacional conocida en la solucin de problemas.

Introduccin Un estudio de 1970 afirma que la estatura promedio de la mujer mexicana es de 1.62 m con una desviacin estndar de 6.9 cm. Sin embargo, Juan Rodrguez, encargado de la lnea de diseo de una fbrica de ropa, piensa que ese valor ha cambiado, ya que tiene la impresin de que ahora la mujer mexicana es ms alta. Situaciones como la anterior requieren poner a prueba una afirmacin que se realiza sobre la media de una poblacin. Este proceso se conoce como prueba de significacin o prueba de hiptesis. Como estudiaste en el tema anterior, podemos estar interesados en probar alguna afirmacin sobre un parmetro poblacional. Este parmetro puede ser un valor promedio o una proporcin. En este tema estudiaremos el caso de las afirmaciones que se realizan sobre la media de una poblacin cuando el tamao de la muestra es grande. Veremos qu distribucin probabilstica nos permitir calcular el valor crtico de la prueba y qu estimador nos servir para calcular el valor de la prueba. Finalmente, exploraremos diversas aplicaciones para las que se pueden aplicar las pruebas de hiptesis.

En el siguiente video encontrars informacin complementaria a este tema. Da clic aqu. Nota: El usuario y contrasea para acceder al video te los proporcionar tu profesor.

Contenido

Explicacin del tema Informacin sobre los contenidos principales del tema. Bibliografa Referencia bibliogrfica que debes consultar para este tema en la pgina de bibliografa. Recursos de apoyo Presentacin que incluye las ideas principales del tema.

Cierre En este tema hemos revisado el procedimiento para realizar pruebas de hiptesis para una media poblacional cuando se conoce la desviacin estndar de la poblacin o bien si la muestra es grande. Revisamos que este tipo de prueba se basa en la distribucin de probabilidad normal (z), la cual se utiliza para determinar el valor crtico de la prueba.

El valor estadstico de la prueba se obtiene con la frmula que al compararse con el valor crtico, permitir decidir cuantitativamente si la diferencia entre lo observado en la muestra y lo afirmado para la poblacin es significativa o no. En el prximo tema revisaremos qu hacer para los casos en los que no se conoce la desviacin estndar

de la poblacin y adems la muestra es de tamao menor a 30 elementos. Para aprender ms En este apartado encontrars ms informacin acerca del tema para enriquecer tu aprendizaje.

Para conocer informacin sobre la prueba de hiptesis para una media, accede al sitio de YouTube (http://www.youtube.com), escribe las palabras z test mean y haz clic en el video con el nombre Z Test for the Mean, el cual tiene una duracin de 9:34. Recuerda que este video solamente lo puedes acceder fuera de las instalaciones de la Universidad TecMilenio.

Explicacin del tema 6

Estadstica II Tema 6. Pruebas para la media de una poblacin (caso muestra grande o varianza conocida)
6.1 Modelo general de la prueba
Para poner a prueba la afirmacin del estudio de 1970, Juan Rodrguez revisa los registros de 50 de sus clientas de las que tiene registrada su estatura. De estos datos se obtiene que el promedio es 1.682 m. Sin embargo, se pregunta si la

diferencia entre los 1.682 m que l obtuvo en su muestra y los 1.625 m que afirma el estudio es suficiente para concluir que el valor ha cambiado. A l le parece que s, pero no quiere basarse en una intuicin, por lo que se prepara a realizar una prueba de hiptesis. En el tema anterior se sealaron los pasos a seguir para cualquier prueba de hiptesis. La secuencia es la misma siempre, y slo variarn los pasos 2 y 4, dependiendo de la prueba a realizar, ya que ambos dependen de la distribucin probabilstica que corresponde al parmetro observado y las caractersticas de la muestra.

En este caso, queremos probar un valor de una media poblacional basados en los resultados de la media muestral y en las inferencias que podemos hacer basados en la distribucin muestral para una media. En el curso de Estadstica I se estudi que las medias muestrales se distribuyen normalmente si el tamao de la muestra es de 30 o mayor, o bien si se conoce la desviacin estndar poblacional.

Tambin se justific el uso de la frmula poblacional.

para encontrar un intervalo de confianza para la media

Si en esta frmula sustituimos por el valor de la media poblacional que se supone cierto de acuerdo a la hiptesis nula, y con el valor observado en la muestra, podemos despejar el valor de z, que nos permitir medir la diferencia entre estos dos valores en desviaciones estndar para la distribucin muestral.

A este valor le llamaremos valor estadstico de la prueba. As, el modelo general para la prueba de hiptesis para una media poblacional cuando la muestra es grande o se conoce la desviacin estndar de la poblacin, puede resumirse con los pasos estudiados en el tema anterior. 1. Definir las hiptesis. Primera opcin: (prueba bilateral) Ho: = 0 Ha: 0 Segunda opcin: (prueba unilateral) Ho: 0

Ha: > 0 Tercera opcin: (prueba unilateral) Ho: 0 Ha: < 0 2. Elegir la distribucin probabilstica y el nivel de significacin. Distribucin normal (z). Encontrar el valor crtico. Primera opcin: (prueba bilateral)

3.

Segunda opcin: (prueba unilateral)

Tercera opcin: (prueba unilateral)

4.

Calcular el valor estadstico de la prueba.

El valor de puede estimarse mediante el de s (desviacin estndar de la muestra) cuando el tamao de la muestra es mayor o igual a 30. 5. 6. Decidir si se acepta o se rechaza la hiptesis nula. Ofrecer una conclusin.

6.2 Ejemplos de aplicacin


Realicemos ahora la prueba de hiptesis que necesita Juan Rodrguez. Comentaremos qu hacer en cada paso. 1. Definir las hiptesis. Como lo que Juan quiere probar es que la estatura media de las mexicanas es mayor que el 1.625 m establecido en el estudio de 1970, entonces esa afirmacin que no contiene la igualdad quedar como hiptesis alternativa y su complemento como hiptesis nula: Ho: 1.625 Ha: > 1.625 2. Elegir la distribucin probabilstica y el nivel de significacin. Como se trata de una prueba para una media poblacional, se conoce la desviacin estndar poblacional (=0.069); adems, el tamao de la muestra es grande (n=50), entonces usaremos la distribucin normal (Z). Elegimos tambin el nivel de significacin que como ya se dijo anteriormente debe ser pequeo; usaremos =.05 3. Encontrar el valor crtico. Por el tipo de hiptesis alternativa (segunda opcin), tenemos una prueba unilateral con el valor crtico en la cola derecha. Como el rea bajo la curva posterior al valor lmite es .05, entonces el rea anterior es .95, por lo que buscando dicho valor en el cuerpo de la tabla Z, encontramos que corresponde a un valor de zc=1.65

Imagen obtenida de http://www.pdf-search-engine.com/tabla-z-pdf.html. Slo para fines educativos.

4.

Calcular el valor estadstico de la prueba.

5.

Decidir si se acepta o se rechaza la hiptesis nula.

Como se observa en la grfica, zp > zc por lo que la diferencia entre lo observado en la muestra y el valor que se esperara para muestras de tamao 50 con =.069 es bastante mayor que la que puede aceptarse, por lo que nuestra decisin es:

rechazar Ho. 6. Ofrecer una conclusin. En trminos del problema podemos afirmar que existe suficiente evidencia en la muestra para afirmar que la media de estatura de las mexicanas es mayor a 1.65. Como se indic anteriormente, el procedimiento de la prueba de hiptesis se compara a un juicio en el que, despus de recabar la informacin suficiente (datos de una muestra), podemos dictar una sentencia sobre la afirmacin inicial (hiptesis nula). Este procedimiento se aplicar en todos los casos que queramos poner a prueba una afirmacin sobre el valor promedio de una poblacin, siempre y cuando el tamao de la muestra sea de 30 o ms elementos, o bien se conozca la desviacin estndar de la poblacin.

Tema 7. Pruebas para la media de una poblacin (caso muestra pequea y varianza desconocida)
Objetivos del tema Al finalizar el tema sers capaz de:

Distinguir situaciones en las que pueden aplicarse una prueba de hiptesis para una media poblacional con una muestra pequea y de varianza poblacional desconocida. Usar una prueba de hiptesis para una media poblacional con una muestra pequea y de varianza poblacional desconocida en la solucin de problemas.

Introduccin En el tema anterior revisamos las pruebas de hiptesis para una media poblacional cuando sabemos que la muestra procede de una poblacin distribuida normalmente o bien cuando tenemos muestras grandes, es decir, de cuando menos 30 elementos. Revisamos que bajo estos supuestos usaremos la distribucin normal (Z). Sin embargo, en muchos casos no se conoce la desviacin estndar de la poblacin y adems el nmero de observaciones con las que contamos o podemos recabar es inferior a 30. En estos casos podemos utilizar la desviacin estndar de la muestra (s) para estimar el valor de la desviacin estndar de la poblacin (), pero ya no podremos utilizar la distribucin normal (Z) para encontrar el valor crtico de la prueba. En estos casos utilizaremos la distribucin t. Quizs recuerdes que esta distribucin fue estudiada en el curso de Estadstica I cuando revisamos el tema de intervalos de confianza para una media. Las pruebas seguirn el mismo procedimiento, slo tendremos cambios en la distribucin y en la frmula del estadstico de prueba. Adems de describir a detalle estas diferencias, en este tema exploraremos otras aplicaciones de las pruebas de hiptesis.

En el siguiente video encontrars informacin complementaria a este tema. Da clic aqu. Nota: El usuario y contrasea para acceder al video te los proporcionar tu profesor.

Contenido

Explicacin del tema Informacin sobre los contenidos principales del tema. Bibliografa Referencia bibliogrfica que debes consultar para este tema en la pgina de bibliografa. Recursos de apoyo Presentacin que incluye las ideas principales del tema.

Cierre En este tema hemos revisado el procedimiento para realizar pruebas de hiptesis para una media poblacional cuando no se conoce la desviacin estndar de la poblacin y adems la muestra es pequea. Este tipo de prueba se basa en la distribucin de probabilidad t de Student (t), la cual se utiliza para determinar el valor crtico de la prueba, considerando n-1 grados de libertad.

El valor estadstico de la prueba se obtiene con la frmula que al compararse con el valor crtico, permitir decidir cuantitativamente si la diferencia entre lo observado en la muestra y lo afirmado para la poblacin es significativa o no. En el prximo tema revisaremos cmo podemos utilizar Excel para realizar los clculos correspondientes. Para aprender ms En este apartado encontrars ms informacin acerca del tema para enriquecer tu aprendizaje.

Puedes revisar una explicacin complementaria sobre la distribucin t en la presentacin del Ing. Jos Manuel Garca Pantigozo disponible en: http://www.scribd.com/.../

Explicacin del tema 7

Estadstica II Tema 7. Pruebas para la media de una poblacin (caso muestra pequea y varianza desconocida)
7.1 Modelo general de la prueba
Cuando no se conoce la desviacin estndar de la poblacin, pero se sabe que sta se distribuye normalmente, entonces para realizar una prueba de hiptesis para la media poblacional podemos estimar su valor a partir del que se obtiene de la muestra. Si el tamao de la muestra es de al menos 30 observaciones, entonces por el Teorema del Lmite Central, estudiado en el curso de Estadstica I, la distribucin muestral para la media tambin se distribuye normalmente y podemos trabajar con los valores de la tabla Z. La desviacin estndar de la poblacin es difcil de conocer cuando se quiere poner a prueba un parmetro, ya que si tuviramos los datos de toda la poblacin entonces sus parmetros seran conocidos con certeza y no tendramos porqu ponerlos a prueba. Sin embargo, en algunas ocasiones se puede utilizar como desviacin estndar de la poblacin los valores de sta en estudios anteriores, similares o cuando se trata de procesos infinitos, como los de produccin, donde los valores se han tomado histricamente para muestras anteriores.

Pero, si no se conoce la desviacin estndar de la poblacin y adems el tamao de la muestra es pequeo, entonces para poder estimar el valor de la desviacin estndar a partir de la muestra, se debe hacer uso de la Distribucin t de Student. Hecha esta aclaracin, veremos que los pasos y estimadores para esta prueba son muy semejantes en lo operativo a la prueba del tema anterior. Slo cambiar la distribucin y por ello, la forma de encontrar los valores crticos en ella, ya que hay que recordar que stos dependen de los grados de libertad de una muestra. El modelo general para la prueba de hiptesis para una media poblacional cuando la muestra es pequea y no se conoce la desviacin estndar de la poblacin, se resume con los siguientes pasos: 1. Definir las hiptesis. Primera opcin: (prueba bilateral). Ho: = 0 Ha: 0 Segunda opcin: (prueba unilateral). Ho: 0 Ha: < 0 Tercera opcin: (prueba unilateral). Ho: 0 Ha: > 0 2. Elegir la distribucin probabilstica y el nivel de significacin. Distribucin t de Student. (t) Encontrar el valor crtico. El valor se encuentra utilizando la tabla t para el nivel de significacin correspondiente al tipo de prueba, con n-1 grados de libertad. Primera opcin: (prueba bilateral).

3.

Segunda opcin: (prueba unilateral).

Tercera opcin: (prueba unilateral).

4.

Calcular el valor estadstico de la prueba.

Observa que el estimador es muy semejante al utilizado en el tema anterior, slo cambiamos la desviacin estndar poblacional () por la de la muestra (s) y el nombre de la distribucin. 5. 6. Decidir si se acepta o se rechaza la hiptesis nula. Ofrecer una conclusin.

7.2 Ejemplos de aplicacin


Un estudio de universidades en Aguascalientes que data del ao 2000 afirma que durante el primer semestre el promedio de alumnos por grupo es de 18.5. Con la finalidad de verificar si este dato ha cambiado, Amaury Medelln, subsecretario de educacin superior del gobierno de dicho Estado, solicita esa informacin para algunas universidades de su Estado, y la resume en la siguiente tabla. Nmero de Alumnos por grupo en el primer semestre

Universidad

Instituto Tecnolgico Agropecuario de Aguascalientes. Instituto Tecnolgico de Aguascalientes. Universidad Autnoma de Aguascalientes. Universidad Bonaterra. Universidad del Valle de Mxico. Universidad Galilea. Universidad Pedaggica Nacional. Universidad Tecnolgica de Aguascalientes.

18 16 28 12 15 8 25 16 =17.25 y

Una vez elaborada esta tabla calcula su promedio y desviacin estndar. Obteniendo los valores de s=6.52.

Compara el valor de la media muestral con el obtenido en el estudio del ao 2000, y duda si puede afirmar ante el secretario de educacin que el nmero de alumnos en las universidades de aguascalientenses ha disminuido. Para no dejar la respuesta en una opinin subjetiva, realizar una prueba de hiptesis para saber si dicha diferencia es significativa o no. 1. Definir las hiptesis. Lo que Amaury quiere probar es si el promedio de alumnos por grupo que estudian el primer semestre en las universidades de Aguascalientes es menor que 18.5, entonces esa afirmacin que no contiene la igualdad quedar como hiptesis alternativa y su complemento como hiptesis nula: Ho: 18.5 Ha: < 18.5 2. Elegir la distribucin probabilstica y el nivel de significacin. Como se trata de una prueba para una media poblacional, no se conoce la desviacin estndar poblacional, ya que el valor de s=6.52 corresponde a la muestra y adems el tamao de la muestra es pequeo (n=8), entonces usaremos la distribucin t. Utilizaremos =.05 3. Encontrar el valor crtico. Por el tipo de hiptesis alternativa (tercera opcin), tenemos una prueba unilateral con el valor crtico en la cola izquierda. Como el rea bajo la curva anterior al valor lmite es .05, y es igual al rea correspondiente en la cola derecha, entonces buscamos en la tabla de la distribucin t, en la columna correspondiente a .05 y en la fila correspondiente a n-1= 7 grados de libertad, por lo que el valor crtico es tc=-1.895 Observa que la tabla no contiene el signo menos, pero al estar el valor crtico a la izquierda de la media, debemos aadirlo nosotros.

Imagen obtenida de http://pdf-search-engine.com/tablas-de-distribucion-pdf.html. Slo para fines acadmicos.

4.

Calcular el valor estadstico de la prueba.

5.

Decidir si se acepta o se rechaza la hiptesis nula.

Como se observa en la grfica, tp > tc por lo que la diferencia entre lo observado en la muestra y el valor de la media en la hiptesis nula no es suficiente para rebasar el lmite establecido por el valor crtico. Nuestra decisin por lo tanto es: aceptar Ho. 6. Ofrecer una conclusin. En trminos del problema podemos afirmar que no existe suficiente evidencia en la muestra para afirmar que el nmero de alumnos de primer semestre por grupo en las universidades aguascalientenses haya disminuido desde el ao 2000. Recuerda que la distribucin t se utiliza cuando el tamao de la muestra no llega a treinta observaciones, por lo que, sta es la diferencia fundamental a observar para decidir qu tipo de prueba utilizar cuando queremos verificar afirmaciones sobre el promedio de una poblacin.

Tema 8. Uso de hoja de clculo para las pruebas de hiptesis para una media poblacional
Objetivos del tema Al finalizar el tema sers capaz de:

Usar Excel para el clculo de los valores crticos y de prueba para realizar una prueba de hiptesis. Usar Excel para realizar pruebas de hiptesis en la solucin de problemas.

Introduccin

En los temas anteriores aprendiste cmo realizar una prueba de hiptesis para una media poblacional. Distinguimos los casos en los que conocemos o no la desviacin estndar poblacional y si la muestra es grande o pequea en trminos del teorema del lmite central. Como lo hemos hecho anteriormente, ahora exploraremos cmo utilizar Excel para realizar una prueba de hiptesis para los casos estudiados. Aprenders cmo realizar una hoja de clculo que te permita resolver los ejercicios rpidamente y el uso de la funcin Prueba.z del men de funciones estadsticas. Aprovecharemos para introducir un concepto asociado a la elaboracin de pruebas de hiptesis, que es el valor p. que representa el valor equivalente al estadstico de la prueba pero en desviaciones estndar de la distribucin de probabilidad que se utiliza en la prueba. De esta manera podremos elegir, segn el caso que se nos presente, si utilizar frmulas y calculadora para resolverlos, o apoyarnos en el uso de Excel, lo cual puede ser muy til sobre todo cuando tenemos un conjunto grande de datos recopilados en la muestra sin haber calculado previamente su media y desviacin estndar.

En el siguiente video encontrars informacin complementaria a este tema. Da clic aqu. Nota: El usuario y contrasea para acceder al video te los proporcionar tu profesor.

Contenido

Explicacin del tema Informacin sobre los contenidos principales del tema. Bibliografa Referencia bibliogrfica que debes consultar para este tema en la pgina de bibliografa. Recursos de apoyo Presentacin que incluye las ideas principales del tema.

Actividad integradora 2 Instrucciones: 1. Un mdico de Mxico, report los datos correspondientes a 35 casos de recin nacidos con malformacin congnita. Las edades de las madres eran de:

Casos
1 2 3 4 5 6 7 8

Edad
25 28 17 26 27 22 25 40

9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35

18 42 35 39 20 19 36 38 10 12 15 17 38 45 41 32 19 18 20 36 45 42 41 19 25 22 16

Se pretende saber si es posible concluir que la media de la poblacin de la que se supone fue extrada la muestra es mayor a 20 aos. Sea una = .0.5. 2. En una preparatoria de la ciudad de Monterrey, se observa que la mayor parte de los alumnos presentan obesidad, por lo que se obtuvo el Indice de Masa Corporal (IMC), de 10 alumnos:

Paciente
1 2 3 4 5 6 7 8 9 10

IMC
26 40 39 45 30 32 34 25 31 38

Se puede concluir que la media de la poblacin es mayor a 35 de IMC. Con un = .05? Nota: Las actividades se realizarn de manera manual y en Excel. En el programa de Excel, se describirn paso a paso la forma en cmo realiza la actividad por medio de la funcin imprimir pantalla (Impr Pant). La funcin se encuentra en el teclado en la parte superior derecha. Enva la actividad a tu tutor, en formato de prctica de ejercicios.

Examen rpido. Preprate para el examen rpido de este mdulo.

Cierre En este tema hemos explorado el uso de Excel para realizar pruebas de hiptesis para medias poblacionales. Se revisaron dos opciones: la primera consistente en construir una hoja de clculo para resolver una o ms pruebas de hiptesis basndose en las funciones programadas en Excel y el planteo de frmulas. La segunda opcin es utilizar la funcin prueba.z que proporciona directamente el valor p, por lo que explicamos que este valor corresponde a la probabilidad de que existan otras muestras con un valor promedio superior al que presenta la muestra que se estudia. En cualquiera de las dos opciones es necesaria la comprensin de los pasos que conforman una prueba para analizar los datos proporcionados por Excel. En el siguiente mdulo continuaremos con el estudio de las pruebas de hiptesis, referidas ahora a las proporciones poblacionales y a la comparacin entre los parmetros de dos poblaciones. Para aprender ms En este apartado encontrars ms informacin acerca del tema para enriquecer tu aprendizaje.

Puedes revisar una explicacin del uso de Excel para resolver pruebas de hiptesis con muestras pequeas realizada por la Mtra. Ma. Isabel Bautista en: http://www.slideshare.net/mib/pruebas-dehiptesis-con-muestras-pequeas

Explicacin del tema 8

Estadstica II Tema 8. Uso de hoja de clculo para las pruebas de hiptesis para una media poblacional
8.1 Uso de Excel para realizar una prueba de hiptesis
Existen varias opciones para realizar una prueba de hiptesis manejando Excel, la primera de ellas es construir nosotros mismos una hoja de clculo que basada en los pasos que estudiamos en los temas anteriores realice los clculos que

requerimos. Ilustraremos esta aplicacin con el siguiente ejercicio: El director acadmico de una universidad privada afirma que el promedio de calificacin final en la materia Metodologa de la Investigacin debe ser de cuando menos 80. Basado en esta afirmacin, analiza las calificaciones de la ltima generacin, cuyos datos se presentan a continuacin: 79 72 88 77 64 72 71 69 90 84 71 84 84 87 72 72 72 63 84 90 89 85 65 82 82 89 74 82 90 78 86 70 86 87 77 71 75 74 76 95 73 94 84 85 88 74 71 88 90 85

Seguiremos los pasos que conocemos, indicando en cada uno el uso de Excel. 1. Definir las hiptesis. Como lo que se quiere probar es que los valores cumplan con que el valor de la media sea mayor o igual a 80, las hiptesis son: Ho: 80 Ha: < 80 2. Elegir la distribucin probabilstica y el nivel de significacin. Como se trata de una prueba para una media poblacional, aunque no conocemos el valor de la desviacin estndar poblacional () pero el tamao de la muestra es grande (n=50), entonces usaremos la distribucin normal (Z) con =.05 3. Encontrar el valor crtico. Este paso se describe a continuacin junto con el paso 4. 4. Calcular el valor estadstico de la prueba. Para realizar los pasos 3 y 4 lo primero que hacemos es copiar los datos a una columna de una hoja de Excel, despus escribiremos los conceptos que queremos que Excel calcule por nosotros de dicha muestra en celdas que se encuentren vacas (En este caso a partir de la celda C2).

Ahora haremos uso de las funciones que tiene Excel para hacer nosotros el trabajo. Para poder utilizar posteriormente esta hoja en la solucin de otros ejercicios, es importante no usar Excel como simple calculadora, sino aprovechar la posibilidad de generalizar los datos. Se han sombreado en color gris las celdas en las que teclearemos valores especficos de la prueba, que despus pueden cambiarse para realizar otra prueba; y en color azul, aquellas en las que introduciremos frmulas, que actualizarn sus valores cuando cambiemos la muestra. Empezamos colocando en las celdas grises, el valor de la media en la hiptesis nula y el nivel de significacin. En el caso del nivel de significacin, hay que tener cuidado de colocar el valor que corresponde al rea que queda a la izquierda del valor crtico. As si la prueba fuera del segundo tipo, donde la hiptesis alternativa tuviera el signo >, entonces en lugar de .05, escribiramos .95.

Ahora introduciremos las frmulas para encontrar los valores de la muestra a partir de la muestra.

Para el tamao introducimos =CONTAR(A1:A100) en la celda D6. Para la media introducimos =PROMEDIO(A1:A100) en la celda D7. Para la desviacin estndar introducimos =DESVEST(A1:A100) en la celda D8.

Fjate cmo intencionalmente hemos preparado la hoja para que calcule los valores de sta o de otras muestras que tengan tamao menor o igual a 100. As no tendremos que cambiar las frmulas para otras muestras. Podramos haber elegido algn otro rango mayor o menor al que se propone, dependiendo de las muestras que consideremos utilizar. Ahora veamos cmo introducir las frmulas para el valor crtico y el valor de la prueba:

Para el valor crtico introducimos =DISTR.NORM.ESTAND.INV(D11) en la celda D8.

Para el valor de prueba, reproduciremos la frmula contienen los valores correspondientes =(D7-D3)/(D8/RAIZ(D6)).

en trminos de las celdas que

5.

Decidir si se acepta o se rechaza la hiptesis nula. Ahora comparamos el valor crtico con el valor de la prueba.

Como se observa, zp > zc por lo que la diferencia entre lo observado en la muestra y el valor que se esperara est en el rango de lo aceptable, por lo que nuestra decisin ser: aceptar Ho.

6.

Ofrecer una conclusin. En trminos del problema podemos afirmar que no existe suficiente evidencia para considerar que las calificaciones promedio de dicho grupo son menores a 80.

8.2 Ejemplos de aplicacin de Excel para pruebas de hiptesis


Existe otra opcin para realizar la prueba de hiptesis, y es acceder directamente al valor p de la prueba, para compararlo con el nivel de significacin. El valor p, tambin llamado nivel observado de significacin, es el rea bajo la curva posterior al nivel crtico. Esto permite comparar los valores en trminos de porcentajes, en lugar de hacerlo en desviaciones estndar. Por ejemplo, para un valor zp=2.00 corresponde un rea posterior p=.022. Por lo que en lugar de comparar zc con zp, podemos comparar con p.

Calcular el valor de p despus de encontrar el valor crtico no tendra ningn sentido, pero Excel puede proporcionarnos este valor directamente con slo proporcionarle la muestra y el valor de la poblacin contra el que lo queremos comparar. Ejemplifiquemos el uso de esta funcin de Excel para el ejemplo anterior: Despus de haber introducido los datos, buscaremos entre las funciones estadsticas de Excel la funcin prueba z.

Una vez elegida, introduciremos en el cuadro de dilogo la matriz en la que se encuentra la muestra, el valor de X que corresponde a la hiptesis nula, y en caso de que la tengamos, la desviacin estndar de la poblacin. Si no conocemos , automticamente Excel calcular la desviacin estndar de la muestra y la utilizar.

Como se puede observar, el valor p=0.56. Cuando el valor que nos proporcione Excel sea mayor a 0.5 esto significar que el valor de la media muestral es menor que el de la hiptesis nula. En este caso, el valor que corresponde en la cola izquierda sera: 1-.5677 = .4323

Como se ve, el uso del valor p puede ser una alternativa eficiente para realizar pruebas de hiptesis apoyadas por Excel, siempre y cuando se conozca el proceso de realizacin de las pruebas de hiptesis y se analicen los resultados arrojados por el programa.

Modulo 3

Mdulo 3. Pruebas de hiptesis (2 parte)


Objetivos del mdulo Al finalizar el mdulo sers capaz de:

Resolver diversos casos de pruebas de hiptesis para diferencias poblacionales. Aplicar la prueba de hiptesis para realizar inferencias sobre una proporcin poblacional.

Explicacin del mdulo Accede a la explicacin de los temas que se cubrirn en este mdulo. Haz clic en el enlace explicacin del mdulo.

Rbricas Requisitos Tecnolgicos Biblioteca y Videoteca Digital TecMilenio

Tema 9. Pruebas para la diferencia entre dos medias poblacionales


Objetivos del tema Al finalizar el tema sers capaz de: Distinguir situaciones en las que puede aplicarse una prueba para diferenciar entre dos medias de poblaciones independientes. Usar una prueba de hiptesis para la diferencia entre dos medias poblacionales independientes en la solucin de problemas. Usar Excel para realizar pruebas de hiptesis para dos medias poblacionales.

Introduccin Tienen una mejor calificacin en los cursos de Estadstica los estudiantes varones que las mujeres? Tienen una menor esperanza de vida los fumadores que los que no lo son? Tienen un mejor salario los profesionistas mexicanos que los australianos?

Las preguntas anteriores pueden provocar interesantes polmicas, pero si se quieren responder de manera objetiva, tendremos que proceder a recopilar informacin sobre

las poblaciones que nos interesan. Supongamos que para contestar a la primera pregunta nos basamos en las calificaciones finales del curso de Estadstica I y recopilamos informacin con los estudiantes del saln. Qu diferencia deber existir entre los promedios de ambos sexos para considerarla significativa? En otras palabras, si uno de los sexos tuviera un promedio de 8.4 y el otro de 8.3, sera suficiente para afirmar que dicho sexo obtiene mejores calificaciones? En este tema estudiars las pruebas de hiptesis, procedimiento que ya conoces, pero esta vez no para probar si una poblacin tiene una media determinada, sino para examinar la diferencia que existe entre las medias de dos poblaciones a partir de lo observado en muestras de cada una. Esto nos dar una base cuantitativa para contestar, de manera objetiva, basada en la estadstica, las preguntas de inicio.

En el siguiente video encontrars informacin complementaria a este tema. Da clic aqu. Nota: El usuario y contrasea para acceder al video te los proporcionar tu profesor. Contenido Explicacin del tema Informacin sobre los contenidos principales del tema. Bibliografa Referencia bibliogrfica que debes consultar para este tema en la pgina de bibliografa. Recursos de apoyo Presentacin que incluye las ideas principales del tema.

Cierre En este tema hemos revisado el procedimiento para realizar pruebas de hiptesis para la diferencia entre dos medias poblacionales. Adems, suponemos que las muestras son independientes, es decir, que no estn relacionadas entre s. Se distinguieron dos casos: cuando se conocen las desviaciones estndar poblacionales o el tamao de ambas muestras es mayor o igual a treinta, en cuyo caso se utiliza la distribucin normal Z y el estadstico de prueba:

El segundo caso es cuando no se conocen las desviaciones estndar de las poblaciones y adems al menos una de las muestras es pequea. En este caso usaremos la distribucin de probabilidad t de Student (t), la cual se utiliza para determinar el valor crtico de la prueba, considerando n1+n2-2 grados de libertad, y el estadstico de la prueba es:

En el prximo tema revisaremos la prueba de hiptesis para la diferencia entre medias poblacionales cuando tenemos muestras pareadas. Para aprender ms En este apartado encontrars ms informacin acerca del tema para enriquecer tu aprendizaje. Puedes revisar una explicacin complementaria sobre las pruebas estudiadas en la presentacin del Ing. Jos Manuel Garca Pantigozo disponible en: http://www.slideshare.net/..

Explicacin del tema 9

Estadstica II Tema 9. Pruebas para la diferencia entre dos medias poblacionales


9.1 Modelo general de la prueba (caso muestras independientes)
Con frecuencia es necesario comparar los parmetros de dos poblaciones, pero sabemos que al realizar una muestra de cada una se acepta un posible error, producto de la variabilidad normal del muestreo. Esta variabilidad nos cuestiona sobre lo significativo de la diferencia que encontremos entre las medias de las dos muestras. A continuacin veremos los pasos y estimadores que se requieren para realizar una prueba para la diferencia entre dos medias poblacionales. Supondremos que las muestras son independientes, es decir, que son elegidas aleatoriamente de cada poblacin sin relacin alguna entre ambas.

9.1.1. Si ambas muestras son grandes (n1 30, n2 30) o bien se conocen las desviaciones estndar de ambas poblaciones (1 y 2). 1. Definir las hiptesis: Primera opcin: (prueba bilateral).

Ho: 1 - 2 =d Ha: 1 - 2 d
Segunda opcin: (prueba unilateral). Ho: 1 - 2 d Ha: 1 - 2 > d Tercera opcin: (prueba unilateral). Ho: 1 - 2 d Ha: 1 - 2 < d Cuando lo que se desea es comparar las medias poblacionales para saber si son iguales o diferentes, se parte del supuesto de que son iguales, en cuyo caso d=0 y las hiptesis nulas y alternativas pueden tambin escribirse as: Ho: 1 = 2 o Ho: 1 2 o Ho: 1 2 Ha: 1 2 o Ha: 1 > 2 o Ha: 1 <2 2. Elegir la distribucin probabilstica y el nivel de significacin: Distribucin normal (Z). 3. Encontrar el valor crtico: Primera opcin: (prueba bilateral).

Segunda opcin: (prueba unilateral).

Tercera opcin: (prueba unilateral).

4.

Calcular el valor estadstico de la prueba:

Si no se conocen los valores de 1 y 2, pueden ser estimados por los de s1 y s2, cuando el tamao de cada muestra es mayor o igual a 30. 5. 6. Decidir si se acepta o se rechaza la hiptesis nula. Ofrecer una conclusin.

9.1.2. Si al menos alguna de las dos muestras es pequea (n1<30 o n2<30) y se desconocen las desviaciones estndar de ambas poblaciones (1 y 2). 1. Definir las hiptesis: El planteo de las hiptesis es el mismo que en el caso anterior. 2. Elegir la distribucin probabilstica y el nivel de significacin: Distribucin t de Student (t). 3. Encontrar el valor crtico: El valor se encuentra utilizando la tabla t para el nivel de significacin correspondiente al tipo de prueba, con n1+n2-2 grados de libertad. Primera opcin: (prueba bilateral).

Segunda opcin: (prueba unilateral).

Tercera opcin: (prueba unilateral).

4.

Calcular el valor estadstico de la prueba:

5. 6.

Decidir si se acepta o se rechaza la hiptesis nula. Ofrecer una conclusin.

9.2 Ejemplos de aplicacin.


Erika Begoa es maestra de secundaria y quiere comparar el nmero de amigos desconocidos que tienen los adolescentes de 15 a 18 aos contra los adultos de 40 a 50 aos que poseen una cuenta activa en una conocida red social de Internet, ya que supone que los adolescentes son ms propensos a caer en una conducta peligrosa al aceptar en sus redes gente a la que no conocen que pueden ser falsos perfiles para promover el spam, phishing o el acoso virtual. Para hacerlo recurre a los siguientes datos obtenidos a partir de una encuesta que hizo en el centro de cmputo de su escuela a sus alumnos y sus compaeros profesores que tienen cuenta en la red social. Ah les pidi que abrieran su perfil y contaran cuntos contactos no identifican.

Nmero de amigos desconocidos en la red social de alumnos. 3 4 6 2 0 15 0 7 1 6 5

Nmero de amigos desconocidos en la red social de profesores. 1 2 0 0 1 0 3

Aunque a primera vista los resultados parecen confirmar su apreciacin, decide realizar una prueba de hiptesis para verificarla y as presentar un proyecto ante la direccin de la escuela con la finalidad de hacer una campaa de informacin sobre los peligros que enfrentan quienes aceptan contactos desconocidos en sus cuentas de redes sociales. 1.

Definir las hiptesis: Como lo que Erika quiere probar es que el promedio de contactos desconocidos de los adolescentes es mayor que el de los adultos, define las siguientes hiptesis: H o: 1 2 Ha: 1 > 2

2.

Elegir la distribucin probabilstica y el nivel de significacin: Como se trata de una prueba para dos medias poblacionales de las que no se conoce la desviacin estndar poblacional y adems el tamao de las muestras es pequeo, entonces utilizaremos la distribucin t. Usaremos =.05 Encontrar el valor crtico: Por el tipo de hiptesis alternativa (segunda opcin), tenemos una prueba unilateral con el valor crtico en la cola derecha. Como el rea bajo la curva anterior al valor lmite es .05, entonces buscamos en la tabla de la distribucin t en la columna correspondiente a .05 y en la fila correspondiente a n1+n2-2= 11+7-2=16 grados de libertad, por lo que el valor crtico es tc=+1.746.

3.

Imagen obtenida de http://pdf-search-engine.com/tablas-de-distribucion-pdf.html. Slo para fines acadmicos.

4.

Calcular el valor estadstico de la prueba: Por tratarse de una prueba para dos medias poblacionales de las que no se conoce la desviacin estndar poblacional y adems, el tamao de las muestras es pequeo, entonces usaremos el estadstico correspondiente a tp:

5.

Decidir si se acepta o se rechaza la hiptesis nula:

Como se observa en la grfica tp tanto es: Rechazar Ho.

> tc por lo que las diferencias entre las medias es significativa. Nuestra decisin por lo

6.

Ofrecer una conclusin: Erika tiene suficiente evidencia para afirmar que el promedio de contactos desconocidos aceptados en una red social es mayor en los adolescentes que en los adultos.

9.3 Uso de Excel para realizar una prueba de hiptesis para dos medias
Existe otra opcin para realizar la prueba de hiptesis, y es acceder directamente al valor p de la prueba, para compararlo con el nivel de significacin, haciendo uso de la funcin PRUEBA.T de Excel. Recuerda que el valor p, es el rea bajo la curva posterior al nivel crtico y permite compararlo con en trminos de proporciones, en lugar de hacerlo en desviaciones estndar. Por ejemplo, para las muestras del ejemplo anterior, una vez que las capturamos en una hoja de Excel, seleccionamos la funcin PRUEBA.T del men de funciones estadsticas.

Una vez elegida, introduciremos en el cuadro de dilogo las matrices en las que se encuentran las muestras, el nmero de colas que tiene la muestra y el tipo de prueba que se va a realizar de acuerdo a las claves indicadas en el cuadro de dilogo. Para este caso elegiremos 2 ya que se trata de dos muestras que se suponen de igual variancia poblacional

Como se puede observar, el valor p=0.03. Cuando el valor que nos proporcione Excel sea menor a 0.5 esto significar que el valor de la diferencia de las medias muestrales es significativo por lo que se rechaza la hiptesis nula.

Como se ve, el uso del valor p puede ser una alternativa eficiente para realizar pruebas de hiptesis apoyadas por Excel,

siempre y cuando se conozca el proceso de realizacin de las pruebas de hiptesis y se analicen los resultados arrojados por el programa. Este proceso tambin puede utilizarse en las pruebas para muestras pareadas que se estudiar en el siguiente tema.

Tema 10. Pruebas para la diferencia entre muestras pareadas


Objetivos del tema Al finalizar el tema sers capaz de:

Distinguir situaciones en las que puede aplicarse una prueba para diferencia entre dos medias de muestras pareadas. Usar una prueba de hiptesis para la diferencia entre dos medias de muestras pareadas en la solucin de problemas.

Introduccin En el tema anterior revisamos cmo realizar una prueba de hiptesis para obtener conclusiones sobre la diferencia entre las medias de dos poblaciones a partir de muestras independientes. Estas pruebas son muy tiles para comparar a dos poblaciones diferentes o lo que sucede con subgrupos de una poblacin cuando se realizan acciones diferentes con ellos, a fin de contrastar los resultados de dichas intervenciones. Sin embargo, a veces lo que queremos comparar no es la diferencia entre dos poblaciones, sino la diferencia en una poblacin antes y despus de algn proceso de intervencin. Pensemos, por ejemplo, en la efectividad de una dieta, en este caso no nos sirve comparar el peso de quienes la realizan contra quienes no, ya que sta no me dara informacin sobre su efectividad. En este caso lo que necesito es una muestra aleatoria a la que peso en dos ocasiones, una antes de seguir la dieta, y otra al concluirla. As tendremos informacin sobre la diferencia promedio obtenida en todas las personas que siguieron la dieta. A este tipo de prueba le llamamos prueba para la diferencia entre dos medias con muestra pareadas. Por tanto, trabajaremos, no con dos muestras, sino con una muestra formada por observaciones en forma de pares ordenados.

En el siguiente video encontrars informacin complementaria a este tema. Da clic aqu. Nota: El usuario y contrasea para acceder al video te los proporcionar tu profesor.

Contenido

Explicacin del tema Informacin sobre los contenidos principales del tema. Bibliografa

Referencia bibliogrfica que debes consultar para este tema en la pgina de bibliografa.

Recursos de apoyo Presentacin que incluye las ideas principales del tema.

Cierre En este tema has aprendido el procedimiento para realizar pruebas de hiptesis para la diferencia entre dos medias poblacionales cuando se parte de observaciones pareadas. Este tipo de pruebas son tiles para la comparacin de un parmetro poblacional en dos momentos diferentes de tiempo o bien, antes y despus de alguna intervencin. Se refiri cmo al calcular la diferencia de los valores para cada observacin se produce una nueva muestra con la que se trabajar. Es por esta razn que esta prueba es equivalente a la prueba de una media poblacional con desviacin estndar desconocida y para trabajar utiliza la distribucin t de Student. Con este tema terminamos con las pruebas de hiptesis para medias poblacionales. En los prximos temas tocar el turno a la revisin de las pruebas de hiptesis para proporciones, es decir, cuando la informacin es cualitativa y se refiere mediante porcentajes. Para aprender ms En este apartado encontrars ms informacin acerca del tema para enriquecer tu aprendizaje.

Puedes acceder a un resumen sobre los principales conceptos y procedimientos de este tema en http://www.cyta.com.ar/biblioteca/bddoc/bdlibros/guia_estadistica/modulo_10.htm

Explicacin del tema 10

Estadstica II Tema 10. Pruebas para la diferencia entre muestras pareadas


10.1 Modelo general de la prueba
Cuando se desea comparar la media poblacional de los mismos individuos en dos momentos diferentes, se cuenta con una muestra no independiente. Donde las observaciones se presentan por pares y se calcula la diferencia entre dichas medias. A continuacin veremos los pasos y estimadores que se requieren para realizar una prueba para la diferencia entre dos medias poblacionales con muestras pareadas. Como se puede advertir, al calcular la diferencia entre cada pareja de datos, en realidad estamos haciendo una prueba para una sola muestra (la de las diferencias) de la que desconocemos su desviacin estndar, por lo que el procedimiento es similar al tratado en el tema 7 de nuestro curso. A continuacin detallamos los pasos:

1.

Definir las hiptesis: Primera opcin: (prueba bilateral). Ho: d = 0 Ha: d 0 Segunda opcin: (prueba unilateral). Ho: d 0 Ha: d >0 Tercera opcin: (prueba unilateral). Ho: d 0 Ha: d < 0

2.

Elegir la distribucin probabilstica y el nivel de significacin: Distribucin t de Student (t).

3.

Encontrar el valor crtico: El valor se encuentra utilizando la tabla t para el nivel de significacin correspondiente al tipo de prueba, con n-1 grados de libertad. Donde n indica el nmero de observaciones pareadas. Primera opcin: (prueba bilateral).

Segunda opcin: (prueba unilateral).

Tercera opcin: (prueba unilateral).

4.

Calcular el valor estadstico de la prueba:

Donde y son la media y desviacin estndar de las diferencias analizadas en las parejas de observaciones. Y el valor de la media en la hiptesis nula (normalmente ser igual a cero).
5. 6. Decidir si se acepta o se rechaza la hiptesis nula. Ofrecer una conclusin.

10.2 Ejemplos de aplicacin


lvaro Osorio realiz un cortometraje que trata sobre los prejuicios contra los homosexuales. Para evaluar si su pelcula tiene un efecto en la reduccin de dichos prejuicios, realiz una prueba con varios estudiantes. La prueba consisti en 10 preguntas cuya respuesta positiva indica un prejuicio y la suma de respuestas positivas, una calificacin (a mayor calificacin, ms prejuicios). Dicha prueba se les aplic a los alumnos en su saln de clases, antes incluso de saber que les proyectaran una pelcula. Una semana despus de levantar la encuesta se proyect la pelcula y despus de otra semana se aplic la misma encuesta al grupo de alumnos.

Los resultados se muestran en la siguiente tabla: Estudiante Puntuacin Puntuacin Pre Post 1 2 3 4 5 6 7 8 9 10 6 7 9 7 8 7 4 6 2 6 4 6 9 4 7 9 1 3 2 4

Puede lvaro concluir que su pelcula tiene un efecto significativo en la disminucin de prejuicios contra los homosexuales? Para contestar esta pregunta, es necesario observar que estamos ante una muestra formada por observaciones pareadas, ya que para cada estudiante se ha obtenido la informacin antes y despus de observar la pelcula. Como lo que nos interesa es si la diferencia es significativa, calcularemos dichas diferencias para formar una nueva muestra, de la que tambin calcularemos su media y desviacin estndar. Estudiante 1 2 3 4 5 6 7 8 9 10 Puntuacin Pre 6 7 9 7 8 7 4 6 2 6 Puntuacin Post 4 6 9 4 7 9 1 3 2 4

d -2 -1 0 -3 -1 2 -3 -3 0 -2 -1.3 1.64

promedio desv. est.

Ahora realizaremos una prueba de hiptesis para verificar si el valor de -1.3 es significativo. 1.

Definir las hiptesis: Como lo que queremos probar es si la pelcula tiene un efecto en la disminucin de prejuicios, esto ser cierto si probamos que la diferencia promedio de las diferencias poblacionales son negativas, es decir, menores que cero, por lo que esto conformar la hiptesis alternativa: H o: d 0 Ha: d < 0

2.

Elegir la distribucin probabilstica y el nivel de significacin: Como se mencion anteriormente, las pruebas para muestras pareadas utilizan la

distribucin t. Usaremos =.05


3.

Encontrar el valor crtico: Por el tipo de hiptesis alternativa (tercera opcin), tenemos una prueba unilateral con el valor crtico en la cola izquierda. Como el rea bajo la curva anterior al valor lmite es .05, y es igual al rea correspondiente en la cola derecha, entonces buscamos en la tabla de la distribucin t, en la columna correspondiente a .05 y en la fila correspondiente a n-1= 9 grados de libertad, por lo que el valor crtico es tc=-1.833. Observa que la tabla no contiene el signo menos, pero al estar el valor crtico a la izquierda de la media, debemos aadirlo nosotros.

Imagen obtenida de http://pdf-search-engine.com/tablas-de-distribucion-pdf.html. Para fines acadmicos.

4.

Calcular el valor estadstico de la prueba:

5.

Decidir si se acepta o se rechaza la hiptesis nula:

Como se observa en la grfica tp < tc, por lo que la diferencia entre lo observado en la muestra de diferencias y el valor de la media en la hiptesis nula (cero) es suficiente para rebasar el lmite establecido por el valor crtico. Nuestra decisin por lo tanto es: rechazar Ho.
6. Ofrecer una conclusin: En trminos de nuestro ejemplo podemos afirmar que existe suficiente evidencia en la muestra para afirmar que la pelcula contribuye a disminuir los prejuicios en contra de los homosexuales.

Como puedes observar, la prueba para medias pareadas supone que se realicen dos observaciones al mismo objeto de estudio bajo dos condiciones diferentes. Por lo que podrs aplicarla siempre que se trate de definir la efectividad de algn mtodo de intervencin. Esta es la clave que te permitir distinguir este caso del expuesto en el tema anterior.

Tema 11. Pruebas para una proporcin poblacional


Objetivos del tema Al finalizar el tema sers capaz de:

Distinguir situaciones en las que puede aplicarse una prueba para la diferencia entre dos proporciones poblacionales. Usar una prueba de hiptesis para la diferencia entre dos proporciones poblacionales en la solucin de problemas.

Introduccin En los temas anteriores aprendiste el concepto y los pasos a seguir para realizar una prueba de hiptesis y los has utilizado para las siguientes pruebas:

Para una media poblacional: o Si se conoce la desviacin estndar poblacional o la muestra es grande. o Si se no se conoce la desviacin estndar poblacional y la muestra es pequea. Para la diferencia entre dos medias poblacionales con muestras independientes: o Si se conocen las desviaciones estndar de ambas poblaciones o ambas muestras son grandes. o Si no se conocen las desviaciones estndar de ambas poblaciones y al menos una de las muestras es pequea. Para la diferencia entre dos medias poblacionales con muestras pareadas.

Como puedes ver, todas las pruebas anteriores se refieren a un parmetro: la media poblacional, que como sabes es el la forma ms comn de resumir un conjunto de datos cuantitativos (numricos). Sin embargo, cuando recopilamos informacin sobre una poblacin normalmente no slo obtenemos datos cuantitativos, sino tambin cualitativos y stos se resumen principalmente mediante la proporcin o porcentaje. Es por esto que ahora toca el turno al estudio de las pruebas de hiptesis para proporciones. El objetivo es el mismo, pero no as los procedimientos.

En el siguiente video encontrars informacin complementaria a este tema. Da clic aqu. Nota: El usuario y contrasea para acceder al video te los proporcionar tu profesor.

Contenido

Explicacin del tema Informacin sobre los contenidos principales del tema. Bibliografa Referencia bibliogrfica que debes consultar para este tema en la pgina de bibliografa. Recursos de apoyo Presentacin que incluye las ideas principales del tema.

Cierre

En este tema aprendiste el modelo general de una prueba de hiptesis para cuando se quiere verificar una afirmacin sobre una proporcin o porcentaje en una poblacin. Los porcentajes son la forma ms comn que se utiliza para resumir informacin cualitativa de un conjunto de datos y es utilizada con frecuencia para dar a conocer las caractersticas de una poblacin. Sin embargo, en muchas ocasiones es importante verificar si lo que se afirma para una poblacin coincide con lo que se observa en una muestra. Revisamos que las pruebas relativas a proporciones poblacionales utilizan la distribucin normal (z) y utilizan el estadstico de prueba:

En el prximo tema concluiremos nuestro estudio de las pruebas de hiptesis analizando el caso de la prueba para las diferencias entre proporciones poblacionales. Para aprender ms En este apartado encontrars ms informacin acerca del tema para enriquecer tu aprendizaje.

Puedes revisar explicaciones complementarias del tema prueba de hiptesis para la proporcin en las siguientes ligas: o http://www.virtual.unal.edu.co/... o http://bc.inter.edu/facultad/JMARTINEZ/cursos/inge3200/c83.doc

Explicacin del tema 11

Estadstica II Tema 11. Pruebas para una proporcin poblacional


11.1 Modelo general de la prueba
Con frecuencia accedemos a informacin sobre los porcentajes que se presentan en una poblacin. Por ejemplo, si el gobernador de un estado afirma en un discurso que el 70% de los nios en edad escolar padecen caries, quizs a ms de alguno esta afirmacin le parezca incorrecta y desee ponerla a prueba. A continuacin veremos los pasos y estimadores que se requieren para realizar una prueba para la proporcin de una poblacin. Fjate cmo al tratarse de proporciones y no de medias, en este caso no hablaremos de la desviacin estndar ni tampoco del tamao de la muestra. 1.

Definir las hiptesis: Primera opcin: (prueba bilateral). Ho: P = P0 Ha: P P0 Segunda opcin: (prueba unilateral).

Ho: P P0 Ha: P > P0 Tercera opcin: (prueba unilateral). Ho: P P0 Ha: P < P0 Donde P es la proporcin poblacional y Po el valor de la misma en la hiptesis nula.
2. Elegir la distribucin probabilstica y el nivel de significacin: Distribucin normal (z). 3. Encontrar el valor crtico: Primera opcin: (prueba bilateral).

Segunda opcin: (prueba unilateral).

Tercera opcin: (prueba unilateral).

4.

Calcular el valor estadstico de la prueba:

Donde
5. 6.

es la proporcin observada en la muestra y Qo es el complemento de Po.

Decidir si se acepta o se rechaza la hiptesis nula. Ofrecer una conclusin.

11.2 Ejemplos de aplicacin


Supongamos que Alejandra Loredo, una maestra de la Facultad de Estomatologa de una universidad estatal, piensa que el dato ofrecido por el gobernador, si bien es preocupante, no refleja la realidad ya que ella considera, dada su experiencia, que el porcentaje de nios que presenta caries rebasa con mucho el 70%. Basada en su intuicin, organiza con sus alumnos una revisin de nios en 5 escuelas, donde se le permiti realizar el estudio, conformando as una muestra de escolares. A continuacin se presentan los resultados: Escuela A B C D E Total Nios con caries 44 20 24 40 11 139 Nios sin caries 13 5 14 14 7 53 Total de nios 57 25 38 54 18 192

Por lo que sumando las observaciones de las 5 escuelas, se tienen 139 nios con caries de un total de 192, es decir, el 72.40%. Comprobemos ahora si los datos son suficientes para afirmar que el gobernador ha proporcionado un dato equivocado. 1. Definir las hiptesis: Como lo que Alejandra quiere probar es que el porcentaje de escolares que presentan caries rebasa el 70%, entonces elegiremos dicha afirmacin como hiptesis alternativa.

Ho: P 0.70 Ha: P > 0.70


2. Elegir la distribucin probabilstica y el nivel de significacin: Como se trata de una prueba para una proporcin poblacional, utilizaremos la distribucin normal (Z). Elegimos tambin el nivel de significacin que, como ya se dijo anteriormente, debe ser pequeo. Usaremos =.05 Encontrar el valor crtico: Por el tipo de hiptesis alternativa (segunda opcin), tenemos una prueba unilateral con el valor crtico en la cola derecha. Como el rea bajo la curva posterior al valor lmite es .05, entonces el rea anterior es .95, por lo que buscando dicho valor en el cuerpo de la tabla Z, encontramos que corresponde a un valor de zc=1.65.

3.

Imagen obtenida de http://www.pdf-search-engine.com/tabla-z-pdf.html. Slo para fines acadmicos.

4.

Calcular el valor estadstico de la prueba:

5.

Decidir si se acepta o se rechaza la hiptesis nula:

Como se observa en la grfica zp < zc., por lo que la diferencia entre lo observado en la muestra y el valor que se esperara para muestras de tamao 192 con P=0.70 no es suficiente para que la hiptesis nula pueda rechazarse, por lo que nuestra decisin es: Aceptar Ho.
6. Ofrecer una conclusin: En trminos del problema podemos afirmar que no existe suficiente evidencia en la muestra para afirmar que la proporcin de escolares que tienen caries es mayor al 70%.

Son numerosas las aplicaciones en las que se puede aplicar una prueba de hiptesis para una proporcin poblacional. Pensemos en la gran cantidad de parmetros poblacionales que son expresados as diariamente en publicaciones financieras, reportes gubernamentales, etc. Tambin es til para comprobar objetivamente si algn porcentaje estudiado en nuestra empresa ha cambiado con el tiempo o despus de algn tipo de intervencin.

Tema 12. Pruebas para la diferencia entre proporciones


Objetivos del tema Al finalizar el tema sers capaz de:

Distinguir situaciones en las que puede aplicarse una prueba para la diferencia entre dos proporciones poblacionales. Usar una prueba de hiptesis para la diferencia entre dos proporciones poblacionales en la solucin de problemas.

Introduccin

En el tema anterior estudiaste cmo realizar una prueba de hiptesis para la proporcin de una poblacin. Vimos que esta prueba permite corroborar las afirmaciones que se hacen respecto a un porcentaje de la poblacin que presenta alguna caracterstica, basados en la informacin proporcionada por una muestra. Sin embargo, con frecuencia el objetivo que se persigue no es probar si la poblacin presenta un determinado porcentaje, sino comparar dos muestras para verificar si stas proceden de poblaciones que tienen la misma proporcin.

Son ms panistas los estados fronterizos del norte que los del sur? Hay mejor eficiencia terminal en las universidades privadas que en las pblicas?

Este tipo de preguntas requieren, para responderse con una base cuantitativa y objetiva, la realizacin de muestras en ambas poblaciones y comparar la diferencia entre los porcentajes observados de panistas o de egresados titulados para decidir si es significativa o no. En este tema con el que terminamos el tercer mdulo de nuestro curso, revisaremos la ltima de las pruebas de hiptesis: la prueba para la diferencia entre dos proporciones poblacionales. Se estudiar su modelo general y cmo aplicarlo en la solucin de problemas.

En el siguiente video encontrars informacin complementaria a este tema. Da clic aqu. Nota: El usuario y contrasea para acceder al video te los proporcionar tu profesor.

Contenido

Explicacin del tema Informacin sobre los contenidos principales del tema. Bibliografa Referencia bibliogrfica que debes consultar para este tema en la pgina de bibliografa. Recursos de apoyo Presentacin que incluye las ideas principales del tema.

Actividad integradora 3 Instrucciones: 1. Algunos investigadores pediatras desean saber si es posible concluir que dos poblaciones de

nios difieren respecto a la edad promedio en la cual pueden caminar por s solos. Los investigadores obtuvieron los siguientes datos (edad en meses)

Poblacin A Poblacin B
9 10 9 10 10 13 12 13 10 9 10 8 8 Qu pueden concluir los investigadores? Tomando en cuenta un = .05 2. En una secundaria privada, dos investigadores desean saber el nivel de autoestima (0-100) de los grupos de secundaria, realizan una prueba antes de iniciar una intervencin y al terminar el programa realizan otra prueba, los datos que se obtuvieron fueron los siguientes: 12 9 13 14 12 14 12 9 12 13 12 11

Nmero de alumno
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Pre-prueba
80 60 23 56 20 9 10 70 30 12 18 30 39 40 70 87 72 70 73 66

Post-prueba
100 83 85 98 10 100 81 89 78 69 63 82 75 89 77 67 83 100 100 87

Es posible concluir, con base en esto datos, que el programa de intervencin aumenta el nivel de autoestima? Tomando en cuenta un = .05. 3. Un mdico encontr que un 60% de los empleados de un hospital, de una muestra de 700 completaron toda la serie de vacunas contra la Hepatitis B. Es posible concluir que con base en estos datos, en la poblacin muestreada, ms de 55% tiene la serie completa de vacunas contra la Hepatitis B? Tomando en cuenta un = .05. En un estudio que se realiz en un asilo. Encontraron que entre 60 pacientes diabticos, 25 tenan una dieta baja en azcares. De 150 pacientes no diabticos, 40 tenan una dieta baja en azcares. Es posible concluir que en las poblaciones muestreadas, la proporcin de pacientes con dieta baja en azcares es mayor entre pacientes con diabetes que entre pacientes no diabticos?

4.

Nota: Las actividades se realizarn de manera manual y en Excel. En el programa de Excel, se describirn paso a paso la forma en cmo realiza la actividad por medio de la funcin imprimir pantalla (Impr Pant). La funcin se encuentra en el teclado en la parte superior derecha. Enva la actividad a tu tutor, en formato de prctica de ejercicios.

Examen rpido. Preprate para el examen rpido de este mdulo.

Cierre Con este tema terminamos el estudio de las pruebas de hiptesis que, como hemos visto, tienen como objetivo corroborar si podemos aceptar las afirmaciones que se realizan para parmetros poblacionales. En este tema en particular aprendiste la estructura de la prueba para la diferencia entre dos proporciones poblacionales que se utiliza para comparar si dos muestras proceden de poblaciones con la misma proporcin. Esta prueba se realiza utilizando la distribucin normal (z) y con el estadstico:

en el que

Vimos cmo esta prueba puede aplicarse para comparar poblaciones, o para verificar el efecto de una intervencin que se realiza en una poblacin mediante la separacin y estudio en grupos. En el prximo mdulo estudiaremos el anlisis de varianza, que tambin es una prueba de hiptesis, pero esta vez para comparar si varias muestras provienen de poblaciones con la misma media. Para aprender ms En este apartado encontrars ms informacin acerca del tema para enriquecer tu aprendizaje.

Puedes revisar un resumen sobre todas las pruebas de hiptesis estudiadas en los mdulos 2 y 3, con la presentacin de Freddy Garca disponible en: http://www.slideshare.net/freddygarcia/prueba-de-hiptesis-presentation

Explicacin del tema 12

Estadstica II Tema 12. Pruebas para la diferencia entre proporciones


12.1 Modelo general de la prueba
Con frecuencia es necesario comparar los porcentajes de algn dato cualitativo en dos poblaciones. Como sabemos, al realizar una muestra de cada una se acepta un posible error, producto de la variabilidad normal del muestreo. Esta variabilidad puede ser significativa o no. A continuacin veremos los pasos y estimadores que se requieren para realizar una prueba para la diferencia entre dos proporciones poblacionales. Supondremos que las muestras son independientes, es decir, que son elegidas aleatoriamente de cada poblacin sin relacin alguna entre ambas. 1.

Definir las hiptesis: Primera opcin: (prueba bilateral). Ho: P1 - P2 =d Ha: P1 - P2 d Segunda opcin: (prueba unilateral). Ho: P1 - P2 d Ha: P1 - P2 > d Tercera opcin: (prueba unilateral). Ho: P1 - P2 d Ha: P1 - P2 < d

Cuando lo que se desea es comparar las proporciones poblacionales para saber si son iguales o diferentes, se parte del supuesto de que son iguales, en cuyo caso d=0 y las hiptesis nulas y alternativas pueden tambin escribirse as:

Ho: P1 = P2 o Ho: P1 P2 o Ho: P1 P2 Ha: P1 P2 o Ha: P1 > P2 o Ha: P1 < P2


2. Elegir la distribucin probabilstica y el nivel de significacin: Distribucin normal (Z). 3. Encontrar el valor crtico: Primera opcin: (prueba bilateral).

Segunda opcin: (prueba unilateral).

Tercera opcin: (prueba unilateral).

4.

Calcular el valor estadstico de la prueba:

Donde 5. 6.

y q*

su complemento.

Decidir si se acepta o se rechaza la hiptesis nula. Ofrecer una conclusin.

12.2 Ejemplos de aplicacin


Se presenta un nuevo modelo de diseo para la pgina web de una institucin, aadiendo una encuesta donde los usuarios podan registrar su edad y su opinin sobre el nuevo diseo. Se registraron 124 respuestas en el grupo de 18 a 25 aos de edad, y 108 en el de 26 a 40 aos. El 80% de los integrantes del primer grupo aprobaron los cambios en el diseo, mientras que slo el 70% del otro grupo lo hizo. Reflejan estos resultados que ambos grupos tienen opiniones diferentes? Aunque a primera vista los resultados parecen confirmar que los grupos tienen opiniones diferentes, la prueba de hiptesis proporcionar una base cuantitativa para confirmarlo. 1. Definir las hiptesis: Como lo que queremos probar es si los grupos de edad tienen la misma opinin o diferente, esto significa que la diferencia entre la proporcin de quienes aprueban los cambios en la pgina web es cero para el primer caso, o diferente de cero para el segundo. Lo cual se expresa con las siguientes hiptesis:

Ho: P1 = P2 Ha: P1 P2
2. Elegir la distribucin probabilstica y el nivel de significacin: Como se trata de una prueba para dos proporciones poblacionales, entonces utilizaremos la distribucin normal (z). Usaremos =.05. Encontrar el valor crtico: Por el tipo de hiptesis alternativa (primera opcin), tenemos una prueba bilateral. Como el rea bajo la curva anterior al valor lmite inferior y posterior al lmite superior es .05, entonces buscamos en la tabla de la distribucin z, los valores correspondientes a un rea de 1-.05/2 = 1-.025=.975 por lo que el valor crtico es

3.

zc=1.96

Imagen obtenida de http://pdf-search-engine.com/tablas-de-distribucion-pdf.html. Slo para fines acadmicos.

4.

Calcular el valor estadstico de la prueba: Por tratarse de una prueba para dos proporciones poblacionales, entonces en primer lugar buscaremos el valor de p* para poderlo sustituir en el estadstico correspondiente.

5.

Decidir si se acepta o se rechaza la hiptesis nula:

Como se observa en la grfica, aunque est muy cerca de traspasar el lmite -zc <zp < +zc, por lo que la diferencia entre las proporciones no se considera significativa. Nuestra decisin por lo tanto es: Aceptar Ho. 6. Ofrecer una conclusin No existe suficiente evidencia para afirmar una diferencia en las opiniones sobre el nuevo diseo del sitio web para los dos grupos de edad. Sin embargo, esto no quiere decir que no se pueda recabar mayor informacin, aumentando el tamao de las muestras, para mejorar la prueba, lo cual puede o no tener como consecuencia un cambio en la decisin.

Existen numerosas aplicaciones en las que interesa comparar objetivamente la diferencia entre dos porcentajes poblacionales. Por ejemplo para comparar los parmetros asociados a regiones, directivos, sucursales, estados, pases, etc. [ cerrar ventana ]

Modulo 4

Mdulo 4. Anlisis de varianza


Objetivos del mdulo Al finalizar el mdulo sers capaz de: Identificar el concepto y las aplicaciones del

anlisis de varianza. Resolver diversos casos de anlisis de varianza. Aplicar el anlisis de varianza para realizar inferencias sobre las medias de varias poblaciones.

Explicacin del mdulo Accede a la explicacin de los temas que se cubrirn en este mdulo. Haz clic en el enlace explicacin del mdulo.

Tema 13. El anlisis de varianza


Objetivos del tema Al finalizar el tema sers capaz de:

Reconocer el concepto y objetivo del anlisis de varianza. Construir una tabla ANOVA a partir del clculo de los elementos que la componen.

Introduccin

- Todos los hombres son iguales!, sentenci ella con despecho. - Si me conocieras, sabras que no tienes razn, porque yo soy diferente a todos los que has conocido, le rebati l con la dignidad de su silencio.
El anlisis de varianza es una prueba de hiptesis que nos permitir inferir si un grupo de muestras proceden de poblaciones que tienen la misma media, o bien si al menos una de ellas procede de una poblacin con un valor promedio significativamente diferente al de los dems. Ya has estudiado la prueba de hiptesis para la diferencia entre las medias de dos poblaciones; sin embargo, el anlisis de varianza que estudiars ahora puede extenderse para ms de dos poblaciones, lo cual la convierte en una prueba ms poderosa para la comparacin de diversas poblaciones. Son muchas las aplicaciones que podemos encontrar para el anlisis de varianza, que van desde el control de estndares de rendimiento establecidos para las utilidades de diversas sucursales de una franquicia, hasta la comparacin del aprovechamiento escolar de los alumnos de diversos estados del pas en trminos del promedio obtenido en una prueba estandarizada.

En el siguiente video encontrars informacin complementaria a este tema. Da clic aqu. Nota: El usuario y contrasea para acceder al video te los proporcionar tu profesor.

Contenido

Explicacin del tema Informacin sobre los contenidos principales del tema. Bibliografa Referencia bibliogrfica que debes consultar para este tema en la pgina de bibliografa. Recursos de apoyo Presentacin que incluye las ideas principales del tema.

Cierre En este tema hemos revisado el objetivo del anlisis de varianza as como sus elementos esenciales. Aprendiste que el nombre de anlisis de varianza no est relacionado con el objetivo de la prueba, sino con su procedimiento, ya que se usa para comprobar si dos o ms muestras proceden de poblaciones que tienen la misma media, pero para hacerlo, el procedimiento se basa en la comparacin de dos formas diferentes de estimar la varianza de estas poblaciones que se supone igual. Tambin revisamos que para ordenar y facilitar el clculo del estimador de la prueba, se estructura una serie de datos en una tabla a la que se conoce como tabla ANOVA. Se presentaron los diversos elementos que la integran, as como sus frmulas. Finalmente, incorporamos esta tabla al procedimiento de la prueba de hiptesis correspondiente y se mostr un ejemplo numrico de aplicacin de las frmulas en la construccin de una tabla ANOVA as como en la consulta de la tabla de distribucin de probabilidad F. En el prximo tema revisaremos la aplicacin del anlisis de varianza a problemas concretos. Para aprender ms En este apartado encontrars ms informacin acerca del tema para enriquecer tu aprendizaje.

Ingresa al siguiente sitio de temoa donde podrs practicar el anlisis de varianza de una forma interactiva: One-way ANOVA / Temoa ITESM http://www.temoa.info/go/10375 Tambin puede repasar los conceptos bsicos del anlisis de varianza con la presentacin de Francisco Montes disponible en: http://www.uv.es/montes/biomecanica2004/anova.pdf

Explicacin del tema 13

Estadstica II Tema 13. El anlisis de varianza


13.1 Concepto de anlisis de varianza
El anlisis de varianza es una prueba que permite inferir si dos o ms muestras proceden de poblaciones que tengan la misma media o, en caso contrario, que al menos una de ellas procede de una poblacin con una media distinta. Para utilizar este anlisis son necesarias tres sencillas condiciones: que las poblaciones de donde proceden las muestras se distribuyan normalmente, que dichas poblaciones tengan la misma desviacin estndar () y que las muestras sean independientes. El anlisis de varianza sigue los mismos pasos que cualquier otra prueba de hiptesis, pero a diferencia de las anteriores, para encontrar el valor de la prueba no utilizamos slo una frmula, sino varios clculos que pueden resumirse en una tabla ANOVA, llamada as por el concepto ANalysis Of VAriance. Veremos a continuacin cmo construir la tabla ANOVA y posteriormente la integraremos en la estructura general de la prueba.

13.2 La tabla ANOVA


La tabla ANOVA tiene los siguientes elementos, los cuales se describirn ms adelante. Fuente de variacin Tratamientos Error Total Suma de cuadrados SSTR SSE SST

Grados de libertad K-1 N-K N-1 = =

Cuadrado medio MSTR MSE

Fp = Fp

Esta tabla proporciona dos estimaciones de la varianza poblacional () que se supone igual en todas las poblaciones: una comparando la variabilidad entre los grupos y otra dentro de los grupos. En caso que las muestras efectivamente provengan de poblaciones con la misma media, entonces el cociente de estas estimaciones ser pequeo (Fp) y no sobrepasar el valor de prueba. Pero si por lo contrario, una o ms de las muestras provienen de poblaciones con medias diferentes, entonces el cociente crecer y sobrepasar el valor de prueba. As pues, si dejamos de lado los supuestos tericos que sustentan cada uno de los elementos de esta tabla, su construccin se reduce a realizar en forma ordenada cada uno de sus elementos. A continuacin indicaremos el proceso para obtener sus elementos en el orden requerido para su construccin. 1. SSTR. Suma de cuadrados de los tratamientos. Es una medida de la dispersin al interior de cada uno de los grupos. Se calcula como la suma del cuadrado de la diferencia entre la media de cada muestra y la media de todos los datos, multiplicada por el nmero de observaciones de cada muestra.

2.

SST. Suma total de cuadrados. Representa la variacin total de los datos. Se calcula como la suma de las diferencias al cuadrado de cada resultado individual respecto a la media de todos los resultados, por lo que representa la variacin total de los datos.

3.

SSE. Suma de cuadrados del error. Es la diferencia entre la suma total de cuadrados y la suma de cuadrados de los tratamientos.

4.

Grados de libertad. Numerador. K-1 Denominador: N-k Donde: N= Nmero de observaciones totales (en todas las muestras). k = Nmero de muestras.

5.

Cuadrados medios.

6.

Valor F de la prueba.

Ejemplo: Supongamos los siguientes datos correspondientes a cuatro muestras.

Calcularemos los elementos de la tabla ANOVA en el orden en que fueron explicados: 1

. 2 . 3 . 4 . 5 .

6 .

Fuente de variacin Suma de cuadrados


Tratamientos Error Total 42.28 242.62 284.901

Grados de libertad
3 24 27 = =

Cuadrado medio

Fp
= 1.39

Veamos ahora la estructura del anlisis de varianza como prueba de hiptesis; se resume en los siguientes pasos: 1. Definir las hiptesis. Ho: 1 = 2 = 3 = . . . k Ha: No todas las medias son iguales. Aqu hay que notar que la hiptesis nula es nica y se refiere a que todas las medias poblacionales son iguales. La hiptesis alternativa se refiere a su negacin. Es importante aclarar que la negacin de todas las medias son iguales no es todas las medias son diferentes, sino existe al menos una media que es diferente a las dems. Por simplicidad esta hiptesis se escribe con palabras y no con smbolos matemticos. 2. Elegir la distribucin probabilstica y el nivel de significacin. Distribucin F de Fisher La forma de la grfica de la Distribucin F no es la de una campana como en el caso de las distribuciones Z y t, sino que vara dependiendo de los grados de libertad del numerador y denominador, como se puede observar en la siguiente grfica:

Es importante notar que la distribucin inicia en el cero y a partir de ah se acumula la probabilidad, por lo que ahora tendremos slo un tipo de prueba con el valor crtico y de situados a la derecha. 3. Encontrar el valor crtico. Como un esquema de ayuda podemos utilizar el siguiente: El valor de Fc se encuentra en la tabla F con k-1, N-k grados de libertad.

4.

Calcular el valor estadstico de la prueba. El valor de Fp se encuentra construyendo la tabla ANOVA a la que hicimos referencia anteriormente:

Fuente de variacin
Tratamientos Error Total 5. 6.

Suma de cuadrados
SSTR SSE SST

Grados de libertad
K-1 N-K N-1 = =

Cuadrado medio
MSTR MSE

Fp
= Fp

Decidir si se acepta o se rechaza la hiptesis nula. Ofrecer una conclusin.

Ejemplo de uso de la Tabla de Distribucin F: En la prueba de hiptesis tendremos que comparar el valor de Fp que encontramos en la tabla ANOVA con el valor crtico. Veamos cmo se encontrara este valor para el ejemplo que usamos anteriormente. Acudimos a la Tabla F correspondiente a un valor =0.05 y con k -1= 4-1=3 grados de libertad en el numerador (n1) y N k= (8+5+7+8)-4=24 en el denominador (n2).

Imagen obtenida de http://www.fagro.edu.uy/~biometria/mmccii/Matcurso/2007/tabla_estad.pdf. Slo para fines acadmicos.

As el valor de fc = 3.01, es mayor al valor de prueba fp = 1.39, por lo que se debe aceptar la hiptesis nula y con ello concluir que las cuatro muestras provienen de poblaciones que tienen la misma media. En caso de no contar con una tabla, este dato puede encontrarse tambin utilizando Excel con la funcin DISTRIV.F.INV en cuyo cuadro de dilogo colocamos los datos de y los grados de libertad.

En el prximo tema veremos el uso de esta prueba en la solucin de problemas concretos.

Tema 14. Aplicaciones del anlisis de varianza


Objetivos del tema Al finalizar el tema sers capaz de:

Distinguir situaciones en las que puede aplicarse el anlisis de varianza. Distinguir los diversos tipos de pruebas de anlisis de varianza.

Introduccin En el tema anterior aprendiste los pasos para elaborar la prueba de hiptesis conocida como anlisis de varianza. Vimos que a pesar del nombre, el objetivo de esta prueba no es verificar los valores de las varianzas de las poblaciones, sino los de sus medias, por lo que la utilizaremos en aquellos problemas en que queramos verificar si dos o ms muestras proceden de poblaciones que tengan la misma media. Tambin aprendiste que para encontrar el valor estadstico de la prueba, es necesario realizar un cociente para comparar valores. Dicho cociente se construye elaborando una tabla conocida como tabla ANOVA. En este tema veremos cmo hacer uso de esta tabla y de la estructura general de la prueba para aplicarlas en la solucin de problemas. Tambin conoceremos otros tipos de pruebas de anlisis de varianza que pueden aplicarse y los tipos de problemas que pueden resolver.

En el siguiente video encontrars informacin complementaria a este tema. Da clic aqu. Nota: El usuario y contrasea para acceder al video te los proporcionar tu profesor.

Contenido

Explicacin del tema Informacin sobre los contenidos principales del tema. Bibliografa Referencia bibliogrfica que debes consultar para este tema en la pgina de bibliografa. Recursos de apoyo Presentacin que incluye las ideas principales del tema.

Cierre En este tema hemos estudiado la aplicacin del anlisis de varianza para resolver problemas en los que se deba decidir sobre si las diferencias numricas que se obtienen al comparar dos o ms muestras de diferentes poblaciones, son lo suficientemente grandes como para que se puedan atribuir al azar. Con esta prueba se puede contrastar una variable en un determinado nmero de poblaciones, como podra ser la media de ventas diarias de tres sucursales de una cadena de supermercados, o el PIB de cuatro estados de una regin, etc. Se estudi que si la conclusin de la prueba es que las medias poblacionales no son iguales, entonces mediante comparaciones por parejas, se puede inferir cul de las poblaciones presenta resultados significativamente diferentes. En el prximo y ltimo tema del curso, aprenders cmo utilizar Excel para poder realizar una prueba de hiptesis basada en el anlisis de varianza. Para aprender ms En este apartado encontrars ms informacin acerca del tema para enriquecer tu aprendizaje. Ingresa al siguiente sitio temoa donde podrs revisar algunas aplicaciones del anlisis de varianza en diversos casos, seleccionando la opcin del lado izquierdo analysis of variance.

Case studies for Statistics / temoa ITESM http://www.temoa.info/go/2964

Puedes revisar un video con una explicacin sobre el anlisis de varianza de Francisco Javier Barn Lpez. Ver video

Explicacin del tema 14

Estadstica II Tema 14. Aplicaciones del anlisis de varianza


14.1 Ejemplos de aplicacin de la prueba ANOVA
Se quiere determinar si la eficacia de un mtodo de capacitacin puede asociarse al instructor. Con este objetivo en mente se implement el mismo curso de capacitacin, con la misma estructura y materiales, pero diferente instructor a cuatro grupos diferentes. Una semana despus se realiz un test a los participantes para calificar su desempeo en cuanto al manejo del mtodo enseado. Las calificaciones se expresaron en nmeros del 0 al 10 y son las que se muestran en la siguiente tabla:

Grupo
Instructor Calificaciones

A
Armando 5 9

B
Bertha 7 7

C
Carolina 6 4

D
Doroteo 3 2

9 7 5 1 5 4

11 8 7

8 6 4 3 1

7 9 4 4

Si los grupos no muestran una diferencia significativa en sus valores promedios, entonces se asumir que el trabajo de los instructores es similar y no influye en la eficacia del mtodo. Si por el contrario se demuestra que no todos los instructores tienen un promedio similar, esto querr decir que existe al menos uno de ellos cuyo desempeo incide de manera significativa en los resultados. Realizaremos una prueba de hiptesis basada en el anlisis de varianza para definirlo cuantitativamente. Realicemos ahora la prueba de hiptesis que se necesita para determinar si la eficacia del mtodo de capacitacin puede asociarse al instructor. Comentaremos qu hacer en cada paso. 1. Definir las hiptesis. Como lo que queremos probar es si el desempeo de los alumnos capacitados por cada instructor es en promedio el mismo, entonces esa afirmacin que contiene la igualdad quedar como hiptesis nula y su complemento como hiptesis alternativa: Ho: A = B = C = D Ha: No todas son iguales 2. Elegir la distribucin probabilstica y el nivel de significacin. Como se trata de una prueba para cuatro medias poblacionales, entonces utilizaremos el anlisis de varianza, el cual tiene asociada la Distribucin F de Fisher. Usaremos un nivel de significacin =.05 Encontrar el valor crtico. Dado el nivel de =.05 y los grados de libertad del numerador: k-1 = 3 y del denominador: N-k = 26-4=22, encontramos en la tabla que corresponde a un valor de Fc=3.05

3.

Imagen obtenida de http://www.fagro.edu.uy/~biometria/mmccii/Matcurso/2007/tabla_estad.pdf. Slo para fines acadmicos.

4. 1 . 2 . 3 . 4 . 5 .

Calcular el valor estadstico de la prueba. TABLA ANOVA

6 .

Fuente de variacin
Tratamientos Error Total 5.

Suma de cuadrados
39.74 128.41 168.15

Grados de libertad
3 22 25 = =

Cuadrado medio

Fp
= 2.27

Decidir si se acepta o se rechaza la hiptesis nula.

Como se observa en la grfica, Fp < Fc por lo que la diferencia entre lo observado en las muestras y el valor que se esperara si las cuatro muestras provienen de poblaciones con la misma media, es menor, por lo que nuestra decisin es: Aceptar Ho. 6. Ofrecer una conclusin. En trminos del problema podemos afirmar que no existe suficiente evidencia en las muestras para afirmar que el desempeo de los instructores incide en la eficacia del mtodo.

14.2 Diversos tipos de pruebas ANOVA


Cuando en un anlisis de varianza se rechaza la hiptesis nula, se concluye que hay cuando menos una poblacin que presenta una media diferente a la de las dems, pero no se concluye cul o cules de ellas son diferentes. Existen algunos procedimientos para rastrear cul es la poblacin que no es igual a las dems. Uno de estos procedimientos consiste en realizar comparaciones mltiples, realizando pruebas de hiptesis para todas las parejas que se puedan formar con las muestras. Ejemplo: si tenemos cuatro muestras A, B, C y D y se rechaza la hiptesis nula, podemos realizar otra prueba para dos muestras comparando:

A con B A con C

A con D B con C B con D C con D

Del resultado de estas comparaciones podemos deducir cul o cules son diferentes. Ejemplo: Si tenemos que:

A con B Se acepta Ho A con C Se rechaza Ho A con D Se acepta Ho B con C Se rechaza Ho B con D Se acepta Ho C con D Se rechaza Ho

Podemos concluir que la poblacin que presenta un promedio diferente a los dems es C. Sin embargo, a veces pueden ser todos diferentes o slo dos iguales, por lo que el anlisis de posibilidades ha de hacerse cuidadosamente. Existen algunos mtodos para realizar estas comparaciones basados en otros procedimientos. Terminamos este tema mencionando algunos de ellos:

Prueba de Tukey: se basa en la construccin de intervalos de confianza para la diferencia entre pares. Prueba de Rango Mltiple: se comparan las diferencias entre medias iniciando con la de media ms grande contra la segunda, y as sucesivamente. Mtodo de Hsu: se compara cada una de las muestras contra la mejor (mayor o menor media, segn el caso).

Tema 15. Uso de hoja de clculo para el anlisis de varianza


Objetivos del tema Al finalizar el tema sers capaz de:

Usar Excel para el clculo de los valores de una tabla ANOVA. Usar Excel para realizar un anlisis de varianza en la solucin de problemas.

Introduccin

En los temas anteriores estudiaste el concepto, objetivo y aplicaciones del anlisis de varianza. Hoy en da contamos con recursos que permiten realizar los clculos de manera rpida y confiable por lo que podemos ahorrar mucho tiempo y centrarnos en la elaboracin de las hiptesis y la obtencin de conclusiones. Uno de estos recursos es el programa Excel, que como sabes, est disponible en gran cantidad de computadoras de uso pblico y privado, por lo que en este tema aprenders a utilizarlo para realizar una prueba ANOVA.

En el siguiente video encontrars informacin complementaria a este tema. Da clic aqu. Nota: El usuario y contrasea para acceder al video te los proporcionar tu profesor.

Contenido

Explicacin del tema Informacin sobre los contenidos principales del tema. Bibliografa Referencia bibliogrfica que debes consultar para este tema en la pgina de bibliografa. Recursos de apoyo Presentacin que incluye las ideas principales del tema.

Actividad integradora 4 Instrucciones: En una escuela secundaria piden a los alumnos que evalen a su profesor de matemticas, en esta escuela 4 profesores imparten la misma materia, las calificaciones fueron las siguientes:

Nmero
1 2 3 4 5 6 7 8 9 10 11 12 13 14

Profesor A
7 8 10 9 6 8 7 9 10 8 9 7 6 10

Profesor B
7 10 8 9 10 10 10 9 8 9 7

Profesor C
10 10 10 8 8 7 7 9 6 10 8

Profesor D
8 7 6 5 4 7 8 9 6 7 6 7 8

15

Se pretende saber si los cuatro profesores tienen diferentes calificaciones en la imparticin de la materia de matemticas. Nota: Las actividades se realizarn de manera manual y en Excel. En el programa de Excel, se describirn paso a paso la forma en cmo realiza la actividad por medio de la funcin imprimir pantalla (Impr Pant). La funcin se encuentra en el teclado en la parte superior derecha. Enva la actividad a tu tutor, en formato de prctica de ejercicios.

Examen rpido. Preprate para el examen rpido de este mdulo.

Cierre En este ltimo tema hemos aprendido cmo utilizar Excel para generar una tabla ANOVA que incluya el valor crtico de la prueba. Con este recurso podremos realizar las pruebas de manera rpida y eficiente sin preocuparnos por los clculos. Sin embargo, recuerda que ni Excel, ni ningn otro programa o herramienta, es capaz de suplirte para el anlisis de un problema, la seleccin del modelo que puede resolverlo, as como para establecer una conclusin. Por tanto, debes recordar que el anlisis de varianza es til cuando queremos comparar si dos o ms muestras provienen de poblaciones que tienen la misma media, y as concluir que las diferencias encontradas son atribuibles al azar. Al finalizar este curso, tienes ahora una visin ms amplia de la Estadstica como la rama de las matemticas que no slo se encarga de proporcionarte mtodos para la organizacin, resumen y presentacin de datos (Estadstica Descriptiva) sino tambin para su recoleccin y toma de decisiones asociada a su interpretacin (Estadstica Inferencial). Para aprender ms En este apartado encontrars ms informacin acerca del tema para enriquecer tu aprendizaje.

Para conocer informacin sobre el uso de Excel para la ANOVA, accede al sitio de YouTube (http://www.youtube.com), escribe las palabras ANOVA y EXCEL y haz clic en el video con el nombre ANOVA with Excel con una duracin de 4:44. Recuerda que este video solamente lo puedes acceder fuera de las instalaciones de la Universidad TecMilenio.

Explicacin del tema 15

Estadstica II Tema 15. Uso de hoja de clculo para el anlisis de varianza

15.1 Uso de Excel para realizar una prueba ANOVA


Excel permite realizar el anlisis de varianza de una manera extraordinariamente sencilla, ya que se encarga de los clculos, de la realizacin de la tabla ANOVA e incluso de la consulta de la distribucin F en un solo paso. La aplicacin que usaremos es parte de un grupo de funciones disponibles en el programa, pero que deben instalarse para empezar a utilizarse. A este tipo de funciones en Excel se les llama complementos y ste se llama Herramientas para anlisis. Si no lo has hecho antes, debes instalarlo para poder empezar a utilizarlo, una vez instalado permanece accesible siempre. Para instalar un complemento debes hacer clic en el icono de office que se encuentra arriba a la derecha y elegir el botn Opciones de Excel que se encuentra en la parte de abajo del cuadro de dilogo.

En el siguiente cuadro de dilogo elegirs la opcin de complementos del men de la izquierda. Una vez desplegados los posibles complementos, busca en la lista y elige el que se llama Herramientas para anlisis y da clic en el botn Ir que est en la penltima lnea del cuadro de dilogo, como lo muestra la siguiente imagen.

Te aparecer otro cuadro de dilogo, del que activars (dando clic en el recuadro) la opcin herramientas para anlisis y despus da clic en Aceptar. Ahora te pedir que confirmes que quieres instalar este complemento y quedar disponible en el men de datos.

Para ejemplificar el uso de este complemento consideraremos el siguiente problema: El director de una casa hogar para nios estudiantes pretende realizar una poltica de becas basada en el aprovechamiento escolar. Sin embargo, no est convencido si el nivel de aprovechamiento es comparable en los niveles de primaria, secundaria y bachillerato de sus alumnos y lo quiere comprobar a partir del promedio de calificaciones de sus estudiantes,

los cuales se muestran a continuacin: Primero copiamos o capturamos los datos en una nueva hoja de Excel, y los ordenamos en tres columnas por los niveles educativos que queremos comparar:

Promedio
10.0 9.7 9.1 8.3 8.1 8.0 7.8 7.8 7.7 7.6 7.6 7.3 7.1 6.6 6.5 6.5 6.3 6.2 6.2 6.1 6.1 5.0 4.8 8.8 8.4 7.7 8.0 8.1 7.6 7.4 7.5 7.3

Nivel
Bachillerato Bachillerato Primaria Primaria Primaria Secundaria Primaria Primaria Bachillerato Primaria Secundaria Secundaria Bachillerato Secundaria Primaria Secundaria Primaria Primaria Secundaria Primaria Primaria Primaria Primaria Primaria Primaria Primaria Secundaria Primaria Primaria Bachillerato Primaria Secundaria

Promedio
5.9 5.9 5.8 5.2 5.1 5.1 10.0 9.4 9.1 8.5 7.8 8.0 7.6 7.6 7.3 7.9 7.2 7.2 7.0 6.8 6.5 6.2 6.2 6.5 6.0 5.9 5.8 6.0 5.6 6.2 5.2 6.0

Nivel
Primaria Primaria Bachillerato Primaria Primaria Primaria Bachillerato Bachillerato Primaria Primaria Primaria Secundaria Primaria Primaria Bachillerato Primaria Secundaria Secundaria Bachillerato Secundaria Primaria Secundaria Primaria Primaria Secundaria Primaria Primaria Primaria Primaria Bachillerato Primaria Primaria

15.2 Ejemplo de aplicacin de Excel para anlisis de varianza


Una vez que tenemos capturada la informacin de las diferentes muestras, podemos solicitar a Excel que realice una Tabla ANOVA para estas muestras. Para hacerlo se selecciona del men de datos la opcin Anlisis de datos y seleccionar la opcin Anlisis de varianza de un factor.

En el cuadro de dilogo se selecciona el rango donde estn todos los datos cuidando que la seleccin los abarque a todos. Tambin seleccionamos que los datos estn dispuestos por columna, que existen rtulos en la primera fila, el nivel de significacin (alfa) y el rango de salida.

Con esta opcin Excel nos proporciona de una sola vez la tabla ANOVA, as como el valor F crtico, lo que nos permite compararlos para decidir sobre la aceptacin o rechazo de la hiptesis nula.

Para nuestro ejemplo, podemos observar que el valor de la prueba es de 3.516, mientras que el valor crtico era 3.14, por lo que se rechaza la hiptesis de igualdad de las muestras, as que sabemos que s existe una diferencia significativa. Si ahora deseamos saber cul de las muestras es diferente a las otras dos o si todas la son, repetimos el proceso tomando las muestras por parejas. Comparando primaria con secundaria. Anlisis de varianza de un factor

Se acepta, luego no existe diferencia entre las dos. Comparando secundaria con bachillerato:

Se acepta, luego no existe diferencia entre estas dos. Comparando primaria con bachillerato:

Se rechaza, luego s existe diferencia significativa entre las dos. Por lo anterior, basados en estas comparaciones podemos afirmar que el aprovechamiento promedio en los alumnos de bachillerato es significativamente diferente, ya que no result igual ni al de los de primaria, ni al de los de secundaria. Mientras que estos ltimos s son semejantes entre s.

Proyecto final

Objetivos

Aplicar diferentes tcnicas estadsticas de anlisis de datos que justifiquen la toma de decisiones y obtencin de conclusiones en problemas especficos.

Instrucciones 1. Investiga el producto interno bruto (en pesos) por Estado en nuestro pas en 2007 o ms actual, as como el nivel de escolaridad en 2005 o ms actual. Tambin debers investigar y registrar algn otro parmetro, a tu eleccin, que quieras analizar junto con los dos anteriores.

Con los resultados llena la siguiente tabla. No olvides citar las fuentes consultadas.

Estado
Aguascalientes Baja California Baja California Sur (completa con todos los Estados de la repblica) Zacatecas Fuentes consultadas: 2.

PIB per cpita (en pesos)

Escolaridad

Otro (indicar)

Emplea el diagrama de dispersin, coeficiente de correlacin y anlisis de regresin lineal para evaluar, calificar y representar la relacin que existe entre variables, as como los procedimientos para poner a prueba las afirmaciones que se realizan sobre los parmetros de una poblacin. Redacta tus resultados e incluye al menos aspectos como los siguientes: a. Anlisis de regresin y correlacin de: i. La escolaridad en funcin del PIB. ii. La escolaridad relacionada con el parmetro que elegiste. iii. El PIB relacionado con el parmetro que elegiste. Incluye: i. ii. iii. iv.

b.

Diagramas de dispersin. Coeficientes de correlacin. Ecuaciones lineales, donde sea adecuado, para describir las relaciones lineales. Una estimacin del aumento que sera necesario en tu estado en el PIB para que se reflejara en un aumento en un ao en la escolaridad.

c.

Un peridico nacional publica un reportaje en el que se afirma que en nuestro pas el PIB supera los 100,000, pero que la escolaridad no llega a 8 aos. Redacta en tu informe tus conclusiones sustentando con lenguaje claro la forma en que puedes refutar o confirmar las afirmaciones del peridico. i. Realizar las pruebas de hiptesis correspondientes dejando constancia clara de tus procedimientos.

3.

Clasifica los estados del pas segn su ubicacin geogrfica en al menos cuatro zonas. Despus compara la escolaridad promedio de las zonas. Redacta tus conclusiones e incluye justificaciones como las siguientes: a. Un anlisis de varianza para determinar si existe o no diferencia en la escolaridad promedio dependiendo de la zona. b. En caso de que exista diferencia, una comparacin por parejas para determinar cul o cules zonas tienen diferencias significativas. Compara el promedio que presenta el otro parmetro que elegiste en las diferentes zonas.

4.

Redacta tus conclusiones e incluye justificaciones como las siguientes: a. Un anlisis de varianza para determinar si existe o no diferencia en el promedio del parmetro dependiendo de la zona. b. En caso de que exista diferencia, una comparacin por parejas para determinar cul o cules zonas tienen diferencias significativas. Entrega tu proyecto final, en formato de desarrollo de proyecto.

Das könnte Ihnen auch gefallen