You are on page 1of 33

Introduccin a la Estad o stica Descriptiva a travs de casos e reales

Paula Lagares Barreiro Frederico Perea Rojas-Marcos Justo Puerto Albandoz MaMaEuSch Management Mathematics for European Schools 94342 - CP - 1 - 2001 - 1 - DE - COMENIUS - C21

University of Seville Este proyecto ha sido llevado a cabo con ayuda parical de la Comunidad Europea en el marco del programa Scrates. El contenido del proyecto no reejy necesariamente la posicin de la Comunidad o o Europea, ni implica ninguna responsabilidad por su parte.

Indice General
1 Estad stica descriptiva unidimensional 1.1 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 El ejemplo: una encuesta de opinin . . . . . . . . . . . . . . . . . . . . . . . . . . . o 1.3 Poblacin, individuo y muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 1.4 Tipos de variables estad sticas: cuantitativas (discretas y continuas) y cualtitativas . 1.5 Tablas estad sticas: Frecuencias absolutas, relativas y porcentuales. Agrupacin de o los datos por intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6 Representaciones grcas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a 1.6.1 Diagrama de barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6.2 Histogramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6.3 Pol gonos de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6.4 Diagrama de sectores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6.5 Pictogramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6.6 Diagrama de tallo y hojas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6.7 Algunas observaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.7 Medidas de centralizacin: media, mediana, moda, cuantiles . . . . . . . . . . . . . . o 1.8 Medidas de dispersin: Rango, varianza, desviacin o o t pica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.9 Utilizacin conjunta de la media y la desviacin t o o pica: el teorema de Tchebiche, el coeciente de variacin de Pearson, tipicacin de variables . . . . . . . . . . . . . . o o 1.9.1 El teorema de Tchebiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.9.2 El coeciente de variacin de Pearson . . . . . . . . . . . . . . . . . . . . . . o 1.9.3 Tipicacin de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 2 Estad stica Descriptiva Bidimensional 2.1 Objetivos . . . . . . . . . . . . . . . . . . . . . . 2.2 El ejemplo: una encuesta de opinin . . . . . . . o 2.3 Introduccin y tablas simples . . . . . . . . . . . o 2.4 Tablas de frecuencias, distribuciones marginales y 2.5 Diagramas de dispersin o nubes de puntos . . . o 2.6 Dependencia funcional y dependencia estad stica 2.7 Covarianza . . . . . . . . . . . . . . . . . . . . . 2.8 Correlacin lineal . . . . . . . . . . . . . . . . . . o 2.9 Rectas de regresin . . . . . . . . . . . . . . . . . o 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . condicionadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2 3 3 4 5 7 7 8 9 10 11 11 13 13 16 19 19 20 20 22 22 23 23 24 26 27 28 29 31

Cap tulo 1

Estad stica descriptiva unidimensional


Vamos a estudiar una encuesta de opinin. Rellenaris una encuesta, vamos a ver qu opinais de o e e un montn de temas y a estudiar caracter o sticas como alturas, n mero de hermanos, etc. Podremos u comprobar si vuestras opiniones las comparte ms gente y si hay muchos compa eros que tengan a n algunas caracter sticas parecidas a las vuestras, por ejemplo cuntos de tus compa eros sern a n a ms altos que t ? Y cuntos tienen el mismo n mero de hermanos que t? Antes de seguir, a u a u u plantearemos los principales objetivos que perseguimos en este cap tulo.

1.1

Objetivos

Distinguir los distintos tipos de caracteres estad sticos. Determinar qu tipo de tratamiento estad e stico conviene hacer, dependiendo de la naturaleza de los datos estudiados. Presentar conjuntos de datos con la ayuda de tablas y grcos. a Conocer los conceptos de centralizacin y dispersin de un conjunto de datos. o o Determinar los parmetros de una distribucin estad a o stica. Estudiar el coeciente de variacin. o Alentar la curiosidad, a travs de la informacin suministrada en ejercicios y problemas, ante e o cuestiones de tipo social, ecolgico, econmico, etc. o o

1.2

El ejemplo: una encuesta de opinin o

A partir de ahora vamos a trabajar con una encuesta de opinin. Queremos saber ciertas cosas o sobre los alumnos del mismo curso que vosotros. Os preguntaremos algunos datos y luego nos daris opinin e informacin sobre muchos aspectos, como la alimentacin, el deporte, etc. Nuestra e o o o encuesta ser annima, para que cada uno pueda contestar libremente y sin pensar en que luego a o los dems sabrn lo que ha contestado. As con estos datos, intentaremos plantearnos preguntas a a , interesantes sobre nosotros mismos, que quizs podamos tomar como referente para responder a a otras sobre un conjunto ms amplio de personas. Por ejemplo a Cul es la altura ms habitual en tu clase? a a Se puede considerar que tu paga es normal en comparacin con la de otros chicos? la o mayor tiene ms o menos paga que t ? a a u Cuntos hacis deporte regularmente? Y cuntos desayunan antes de venir? a e a Qu comis ms: fruta, leche, legumbres, caf, carne, pescado . . . ? e e a e Pues vamos a ver que analizando las respuestas que tenemos en la encuesta podis contestar a todas e estas preguntas. Seguro que al nal del cap tulo ya las hemos respondido todas. Pero primero vamos a ir presentando los conceptos que necesitars para ello. a

1.3

Poblacin, individuo y muestra o

Antes de comenzar a responder preguntas, tenemos que precisar algunas cosas. Sobre quines e queremos obtener informacin? Ya hemos visto que sobre los alumnos de tu curso, luego para o nosotros, la poblacin no sois slo vosotros, sino todos los alumnos de tu nivel. Pero nos llevar o o a mucho tiempo preguntaros a todos, y hemos decidido tomar un grupo representativo de todos los grupos de tu nivel, que en este caso sois vosotros. As vosotros sois la muestra. Adems, a cada , a elemento de la poblacin lo llamaremos individuo. Hagamos algunas observaciones sobre lo que o acabamos de decir. Lo primero es que nosotros podemos querer estudiar alguna caracter stica en animales, plantas o cosas, por ejemplo, la duracin de las bater en los telfonos mviles, y en este o as e o caso, la poblacin no ser humana, sino que ser los diferentes modelos de telfonos mviles. o a an e o Adems, podemos encontrarnos con casos en los que la utilizacin de muestras est ms justicada a o e a a n que en nuestro caso, por diferentes motivos: si queremos conocer lo que votarn los espa oles u a n en las prximas elecciones, no podemos preguntarle a todos los espaoles mayores de 18 a os, o n n porque ser millones de personas y supone mucho dinero y tiempo. Para estudiar, por ejemplo, la an durabilidad media de unas determinadas bombillas hasta que se funden, no podemos examinarlas todas, porque cada examen supone que una bombilla se funda, es decir, es un caso en el que el individuo se destruye. Por tanto, en muchas situaciones, el muestreo est justicado por razones a econmicas, de tiempo o de destruccin con el estudio de los individuos de la poblacin. o o o Ejercicio 1.3.1 La Encuesta de Demanda de Estudios Universitarios en Andaluca fue realizada el ao 2001 para conocer qu pensaban estudiar y por qu los 65356 estudiantes de 2o de Bachillerato. n e e

Para ello, se recogieron los datos de 8500 estudiantes de 2o de Bachillerato de toda Andaluca. Podras decir cules son la poblacin y la muestra en este caso? Qu motivos justican la eleccin a o e o de la muestra?

1.4

Tipos de variables estad sticas: cuantitativas (discretas y continuas) y cualtitativas

Para poder responder correctamente a muchas de nuestras preguntas, lo primero que tenemos que saber es qu tratamiento se le debe dar a los datos. Porque si te jas, no todos los datos e que podemos obtener son del mismo tipo, por ejemplo, pensemos sobre las respuestas a tres de las preguntas de la encuesta 1. La respuesta a la pregunta sexo (hombre o mujer) 2. La respuesta a la pregunta n mero de hermanos u 3. La respuesta a la pregunta altura Lo primero que podemos observar es que la respuesta a la pregunta 1 no es numrica mientras e que las de las preguntas dos y tres s lo son. La caracter stica que corresponde a la respuesta de la pregunta 1 se llama cualitativa mientras que las variables correspondientes a las preguntas 2 y 3 se llaman cuantitativas. Es claro que las variables cuantitativas permiten realizar clculos que no a podemos hacer con las variables cualitativas. A las distintas posibilidades de la caracter stica se les llama modalidades en el caso cualitativo y valores en el caso cuantitativo. Vamos a ver ahora qu e diferencias podemos encontrar entre las variables 2 y 3, porque es algo ms complicada. La variable a n mero de hermanos toma valores numricos que podr u e amos llamar aislados, 0,1,2,3,..., pero no puede tomar cualquier valor entre ellos, es decir, no puede tomar el valor 3.5 por ejemplo. Sin embargo, con la altura no ocurre esto. En realidad, la altura puede tomar cualquier valor dentro de unos l mites, podemos medirla con tanta precisin como queramos. Podr o amos decir que la variable altura puede tomar todos los valores posibles dentro de un intervalo. As a la variable que resulta , en el caso 2 se le llama variable discreta y a la que resulta del caso 3 se le llama variable continua. Ejercicio 1.4.1 Indica si las siguientes variables son cualitativas o cuantitativas, y en caso de ser cuantitativas, si son discretas o continuas: 1. Nmero de nacidos en un da u 2. Grupo sanguneo de una persona 3. Tiempo que se necesita para resolver un problema 4. Nmero de preguntas de un examen u 5. Temperatura de una persona 6. Partido poltico votado en las ultimas elecciones 7. Nmero de goles marcados por un jugador en una temporada u 4

1.5

Tablas estad sticas: Frecuencias absolutas, relativas y porcentuales. Agrupacin de los datos por intervalos o

Bueno, es el momento de empezar a manejar los datos que hemos obtenido de la encuesta. Los datos que hemos obtenido de la pregunta n mero de hermanos son los siguientes: 0 1 3 2 0 1 0 u 1 1 2 2 3 1 2 1 1 1 1 0 0 4 2 3 1 2 1 2 1 1 0 mientras que los siguientes son los datos que se reeren al peso 52 66 54 70 46 62 59 68 49 50 77 57 63 67 58 54 52 47 74 72 80 82 60 75 53 55 69 67 50 52 Tenemos un montn de curiosidades: cuntos compa eros tienen el mismo n mero o a n u de hermanos que yo?Cuntos tienen ms?y menos? Cuntos pesan ms o menos como yo?y a a a a ms?y menos? Para contestar a estas preguntas tendr a amos que contar cuntas veces aparece a cada respuesta. Empecemos por contestar las que se reeren al n mero de hermanos. Para poder u contestar necesitamos saber cuntas veces aparece cada respuesta, as que hacemos recuento: a 0 1 2 3 4 ||||| | 6 ||||| ||||| ||| 13 ||||| || 7 ||| 3 |1

Ya sabemos, por ejemplo, que hay 13 personas que tienen 1 hermano. A este nmero lo llamamos u frecuencia absoluta y lo denotamos por ni . Y cuantos tienen como mucho un hermano? Pues los que tengan 0 1 hermanos, es decir 6 + 13 = 19. A este n mero lo llamamos frecuencia absoluta o u acumulada en este caso para el valor 1. Denotaremos las frecuencias absolutas acumuladas por Ni Construyamos pues la tabla de frecuencias absolutas y acumuladas Num hermanos 0 1 2 3 4 fr. absoluta 6 13 7 3 1 fr. absoluta acumulada 6 13 + 6 = 19 13 + 6 + 7 = 26 13 + 6 + 7 + 3 = 29 13 + 6 + 7 + 3 + 1 = 30

Es importante que ordenemos los valores de la caracter stica de mayor a menor al representarlos en la tabla, para calcular correctamente las frecuencias acumuladas. Vamos a denir alg n otro u tipo de frecuencia ms, porque es interesante saber qu proporcin del total supone cada uno de a e o los n meros, porque as podremos comparar con otras poblaciones. Por ejemplo, en nuestro caso, u 6 alumnos tienen 0 hermanos, pero hemos preguntado en un grupo de 50 personas y sabemos que son 9 personas las que tienen 0 hermanos en cul de los dos grupos hay una mayor proporcin de a o hijos unicos? Pues es fcil, las proporciones son a 6 = 0.2 y 30 9 = 0.18 50

luego la proporcin es mayor en el grupo de 30 personas. Esta proporcin se llama frecuencia o o relativa y se denota por fi . Si la expresamos en porcentaje (multiplicndola por 100), obtenemos a la frecuencia porcentual, que en el caso anterior ser el 20% y el 18% respectivamente. Dean n amos notaremos por pi a estas frecuencias. Aadimos ahora estas frecuencias a la tabla que ten 5

Hermanos fr. absoluta fr. relativa fr. porcentual fr. abs. acum. 6 0 6 = 0.2 20% 6 30 13 1 13 = 0.43 43.3% 13 + 6 = 19 30 7 2 7 23.3% 13 + 6 + 7 = 26 30 = 0.23 3 3 3 10% 13 + 6 + 7 + 3 = 29 30 = 0.1 1 4 1 = 0.3 3.3% 13 + 6 + 7 + 3 + 1 = 30 30 Veamos ahora el caso de los datos sobre el peso. Recontamos los valores iguales 46 47 49 50 52 53 54 55 57 58 59 60 62 63 66 67 68 69 70 72 74 75 77 80 82 |1 |1 |1 || 2 ||| 3 |1 || 2 |1 |1 |1 |1 |1 |1 |1 |1 || 2 |1 |1 |1 |1 |1 |1 |1 |1 |1

fr. rel. acum. 0.2 0.63 0.86 0.96 1

Como ves, la mayor de los valores slo tienen frecuencia uno, y adems, nuestra variable toma 25 a o a valores diferentes, que son demasiados para representar en una misma tabla (y ms a n si, como a u en nuestro caso, tenemos slo 30 observaciones) Qu podemos hacer para obtener una tabla ms o e a representativa de cmo estn repartidos los datos? Pues parece lgico agrupar los valores cercanos o a o por intervalos. Sobre la agrupacin por intervalos hay toda una teor que nos habla de la manera o a correcta de hacer dicha agrupacin. Aqu slo veremos algunas indicaciones importantes: o o El n mero de clases no debe ser ni muy elevado (entre 6-8 es el n mero mximo con el que u u a habitualmente trabajamos) ni muy escaso (no tiene sentido agrupar slo en dos o tres clases, o perdemos mucha informacin) o Salvo tal vez las dos clases extremas, las clases deben tener la misma amplitud, si no, la informacin se ver distorsionada. o a 6

Se te ocurre cules pueden ser los intervalos que buscamos? Pinsalo en funcin del n mero de a e o u clases que quieres obtener, por ejemplo. Observemos lo siguiente: entre el mayor valor (82) y el menor (46) tenemos una diferencia de 36 kg. Si queremos hacer, por ejemplo, 6 clases, pues , amos los siguientes intervalos: la amplitud (tama o del intervalo) debe ser 36 = 6. As obtendr n 6 [46,52], (52,58], (58,64], (64,70], (76,82]. As obtenemos una posible clasiciacin, aunque, por o supuesto, puede haber ms. En algunos estudios, encontrars, que la primera clase es del tipo a a menor que 52y la ultima mayor que 76. A este tipo de intervalos los consideraremos del mismo tama o que los anteriores a efectos de clculo. Una vez decidida la clasicacin por intervalos, n a o podemos calcular las frecuencias: Peso [46,52] (52,58] (58,64] (64,70] (70,76] (76,82] fr. absoluta 8 6 4 6 3 3 fr. relativa 0.26 0.2 0.13 0.2 0.1 0.1 fr. porcentual 26.6% 20% 13.3% 20% 10% 10% fr. abs. acum. 8 14 18 24 27 30 fr. rel. acum. 0.26 0.46 0.6 0.8 0.9 1

Adems, cuando trabajemos con datos agrupados en intervalos, necesitaremos escoger un represena tante de cada uno de los intervalos, lo que llamaremos marca de clase, que ser el punto medio del a intervalo en cuestin (extremo inferior del intervalo ms el extremo superior del intervalo, dividido o a entre 2). Ejercicio 1.5.1 Calcula la tabla de frecuencias de las respuestas a la pregunta 1.3 de la encuesta y de las respuestas a la pregunta altura, decidiendo previamente si es necesaria una agrupacin o por intervalos de los datos o no.

1.6

Representaciones grcas a

Una vez que has calculado las tablas de frecuencias, tu profesor te pide que expongas ante el resto de tus compa eros las conclusiones que has obtenido. Podr presentar las tablas de frecuencias n as y hablar sobre las conclusiones ms relevantes, pero hay alguna forma de presentar los datos de a manera que las principales caracter sticas de estos sean visibles de una manera sencilla? Obviamente, la respuesta es que s Como habrs observado, tanto en libros, como, fundamentalmente, en . a los medios de comunicacin, los datos suelen presentarse a travs de grcos, que resultan ms o e a a atractivos a la vista que una tabla de frecuencias, adems de que permiten una interpretacin ms a o a sencilla de los datos de los que disponemos. En esta seccin vamos a intentar conocer la mayor o a de los grcos, y vamos a hacer especial hincapi en lo importante que es elegir el tipo adecuado de a e grco seg n los datos con los que trabajemos. Ya que tenemos las tablas de n mero de hermanos a u u y del peso, los utilizaremos para ir introduciendo los diferentes tipos de grcos. a

1.6.1

Diagrama de barras

El primer tipo de grco que veremos es el diagrama de barras. Este es un grco que se usa a a 7

tanto para variables cualitativas como para variables discretas no agrupadas por intervalos. Como sabemos que nuestros datos sobre n mero de hermanos corresponden a una variable discreta, vamos u a ver cmo se construye un diagrama de barras utilizando esos datos. En el eje de abscisas (el eje o OX) colocamos las modalidades si la variable es cualitativa o los valores en caso de que la variable sea discreta, en nuestro caso, los valores 0, 1, 2, 3 y 4. Sobre cada uno de estos valores se levanta una barra (o rectngulo) de igual base (que no se solapen entre ellos), cuya altura sea proporcional a a la frecuencia. En nuestro caso, quedar ms o menos de la siguiente manera: En ocasiones, este a a

Figura 1.1: hermanos (barras vericales) tipo de grca tambin se presenta con las barras en horizontal, de la siguiente manera a e

Figura 1.2: hermanos (barras horizontales)

1.6.2

Histogramas

El histograma es un grco muy similar al anterior, pero es el que utilizaremos para variables a agrupadas por intervalos. Nosotros construiremos un histograma para la variable peso. Se realiza, como el anterior, sobre ejes cartesianos, representando en el eje OX los intervalos y levantando rectngulos que tienen como base la amplitud de los distintos intervalos y una altura tal que el a 8

a rea del rectngulo sea proporcional a la frecuencia correspondiente al intervalo. En este tipo a de grco son muy importantes las areas de los rectngulos, porque no representamos una barra a a correspondiente a un punto, sino que el ancho de la barra representa a nuestro intervalo. As si , los intervalos son de la misma amplitud, la altura suele corresponder a la frecuencia, pero si no es as hay que modicar la altura para mantener la proporcin entre la frecuencia y el area. Nuestro , o histograma sobre la variable peso, que tenemos agrupada del ejemplo anterior, podr tener el a siguiente aspecto Tambin podemos representarlo con los rectngulos en horizontal, as tendr e a amos:

Figura 1.3: peso (histograma) Seguro que alguna vez has visto una pirmide de poblacin en alg n medio de comunicacin o a o u o

Figura 1.4: peso (histograma) publicacin. Pues una pirmide de poblacin no es ms que dos histogramas horizontales (uno para o a o a las mujeres y otro para los hombres, en los que se representa el n mero de habitantes agrupados u por edad. (aadir grco) n a

1.6.3

Pol gonos de frecuencias

El siguiente tipo de grco que veremos son los pol a gonos de frecuencias. Este grco se utiliza a 9

para el caso de variables cuantitativas, tanto discretas como continuas. Para realizarlos, partimos del diagrama de barras o del histograma, segn la variable sea agrupada o no agrupada. Lo que u debemos hacer es unir mediante una l nea los puntos medios de las bases superiores del diagrama de barras o del histograma, seg n corresponda. En nuestros dos ejemplos tendr u amos, que para el caso del n mero de hermanos obtenemos El caso del peso es tambin algo diferente. En este grco, el u e a

Figura 1.5: hermanos (pol gono de frecuencias) a rea por debajo de la l nea representa los datos que tenemos, al igual que en el histograma, puesto que estamos hablando de la amplitud completa del intervalo. El grco quedar como sigue Todos a a

Figura 1.6: peso (pol gono de frecuencias) los grcos que hemos visto anteriormente los podemos representar no slo para las frecuencias a o absolutas, sino tambin para las relativas y para las acumuladas. e

1.6.4

Diagrama de sectores

El siguiente tipo de grco que vamos a ver seguro que lo conoces, se llama diagrama de a sectores o de tarta. En l, a cada modalidad o valor se le asigna un sector circular de area e

10

proporcional a la gura que representan. Este grco se utiliza para variables cualitativas o para a variables discretas sin agrupar.

Figura 1.7: hermanos (diagrama sectores)

1.6.5

Pictogramas

Ahora veremos otro grco que tambin es muy frecuente en prensa, se denominan pictogramas. a e Son grcos con dibujos alusivos al carcter que se est estudiando y cuyo tama o (atencin: no a a a n o slo la altura, sino el tamao, en trmino de area) es proporcional a la frecuencia que representan, o n e frecuencia que suele indicarse junto al dibujo para evitar confusiones. (aadir ejemplo) n

1.6.6

Diagrama de tallo y hojas

Existe otro tipo de grco que est entre el recuento de casos y el grco, y que se llama diagraa a a ma de tallo y hojas. Vamos a ir viendo cmo se construye con el ejemplo del peso. Recordamos o que los datos que tenemos son 52 66 54 70 46 62 59 68 49 50 77 57 63 67 58 54 52 47 74 72 80 82 60 75 53 55 69 67 50 52 El diagrama de tallo y hojas, lo primero que hace es indicar, en una columna las diferentes cifras correspondientes a las decenas que podemos encontrar en el conjunto de datos, en nuestro caso, como los valores oscilan entre 46 y 82, tendremos que poner 4, 5, 6, 7 y 8, de la siguiente manera 4 5 6 7 8 A continuacin tomamos la primera observacin, 52, y colocamos la cifra de las unidades al lado de o o la que corresponde a su decena, es decir

11

4 5 2 6 7 8 As seguimos colocando la cifra de las unidades al lado de la correspondiente cifra de las decenas , para el resto de los valores. Obtenemos algo como: 4 697 5 249078423502 6 62837097 7 07425 8 02 Como ves, obtenemos algo similar (que no igual) a un diagrama de barras o un histograma horizontal. Obviamente, tambin lo podr e amos haber hecho en vertical, y nos quedar algo como: a 2 0 5 3 2 7 4 9 8 0 7 7 5 0 3 2 7 9 8 4 9 4 2 7 2 6 2 6 0 0 4 5 6 7 8 que como ves, se parece a un histograma o un diagrama de barras habitual aunque no lo es. Pero el diagrama de tallo y hojas nos sirve para darnos orientacin sobre cmo se distribuyen nuestros o o datos. En realidad nosotros hemos dividido por decenas (de 40 a 49, de 50 a 59, . . . ), pero podr amos hacer una divisin tambin en grupos de 5 (de 40 a 44, de 45 a 49, de 50 a 54, . . . ), sin o e ms que poner dos veces cada una de las decenas, a continuacin de la primera los valores de las a o unidades que estn entre 0 y 4, y a continuacin de la segunda los valores que estn entre 5 y 9. e o a Para el caso horizontal tendr amos 4 4 697 5 24042302 5 9785 6 230 6 68797 7 042 7 75 8 02 8

12

1.6.7

Algunas observaciones

Por ejemplo, imagina que te damos los dos grcos siguientes referidos a los benecios de una a empresa: De las dos cul preferir que fuera tu empresa? Seguro que casi todos estais de acuerdo a as

Figura 1.8: benecios (empresa 1 y empresa 2) en que la 2 es mejor que la 1, porque parece que tiene ms benecios, pero la realidad es que los a datos de las dos grcas son los mismos. Tan slo hemos cambiado la escala del eje OY. Ejemplos a o reales?. Haremos, antes de pasar a la siguiente seccin, algunas reexiones. Los grcos son una o a herramienta muy util y que permiten una fcil interpretacin de los datos que se manejan pero es a o necesario realizarlos correctamente para que dicha interpretacin no nos induzca a error. Es muy o importante mantener las proporciones en las guras que se representan, as como asegurar que las escalas de los ejes se mantienen tambin proporcionales puesto que si hacemos cambios en estos e sentidos los grcos tienen diferente apariencia y pueden ser mal interpretados. a Ejercicio 1.6.1 Realiza varios tipos de grcos, utilizando los datos de las variables altura, edad a y la respuesta a la pregunta 2.4.

1.7

Medidas de centralizacin: media, mediana, moda, cuano tiles

Supongamos ahora que nos vamos de viaje de n de curso y queremos ganar algn dinerito, u as que hemos decidido que vamos a vender camisetas, pero no sabemos a qu precio. Lo unico e que sabemos es que el fabricante nos las vende a 4 euros y nos gustar sacar benecios pero sin a abusar. Nos parece que la paga semanal es una buena referencia para saber cunto podr gastarse a a la mayor de la gente. As que utilizaremos los valores que tenemos de las pagas semanales 6 8 10 a 5 15 20 9 10 9 9 20 15 12 6 15 12 10 25 20 30 15 12 9 20 6 9 10 25 9 9 Tenemos los 30 valores, pero nosotros necesitamos un unico valor que represente a todos. Qu valor podemos elegir? Una e

13

buena solucin ser elegir un valor medio de todos los que tenemos, para ello, los sumamos todos o a y los dividimos entre el n mero total de valores, y obtendr u amos x= 6 + 8 + 10 + 5 + 15 + 20 + 9 + 10 + 9 + 9 + 20 + 15 + 12 + 6 + 15 + 12 + 10 + 25 + 30 +

20 + 30 + 15 + 12 + 9 + 20 + 6 + 9 + 10 + 25 + 9 + 9 390 = = 13 30 30 Ya hemos obtenido una primera cantidad como posible precio, 13 euros. A esta cantidad que acabamos de calcular, la llamamos media aritmtica. Pero otra posibilidad ser elegir como repree a sentante de todos los valores, el valor que aparece ms frecuentemente. En nuestro caso, el valor a ms frecuente es el 9, que tambin podr a e amos utilizarlo como posible precio. A la cantidad ms a frecuente la llamamos moda. Pero ninguna de las dos cantidades anteriores nos dan informacin o sobre el n mero de personas que podr pagar la camiseta. As que se nos ocurre otra opcin. u a o Vamos a ordenar los datos que tenemos 5 6 6 6 8 9 9 9 9 9 9 9 10 10 10 10 12 12 12 15 15 15 15 20 20 20 20 25 25 30 Entonces, ahora queremos encontrar el valor que deje la mitad de los valores a cada lado. Los valores que ocupan el lugar 15 y 16 dejan 14 valores a cada lado, como ambos son el 10, podemos considerar que es el 10 el valor que deja el 50% de los valores a cada lado y podemos considerarlo como posible cantidad. A esta cantidad la llamaremos mediana. Igual que hemos podido pensar en una cantidad que puedan pagar la mitad, podemos decidir que puedan pagarlo el 75% de la poblacin, es decir, encontrar una cantidad que deje el 25% a la izquierda (es o decir, slo el 25% de los datos ser menor), o cualquier otro porcentaje. A estas cantidades las o a llamamos cuantiles. De las tres cantidades obtenidas, podemos elegir la que ms se ajuste a nuestra a situacin. No siempre las tres sern vlidas, pero son tres medidas que nos dan una idea de dnde o a a o est el centro de nuestros datos. Son las principales medidas de centralizacin. Vamos a ver ahora a o la denicin rigurosa de los conceptos que acabamos de presentar. Nos referiremos slo a variables. o o Suponemos que se ha observado una variable en n individuos y se han obtenido k valores diferentes x1 , x2 , . . . xk , cada uno con una frecuencia absoluta de n1 , n2 , . . . nk donde ni es la frecuencia absoluta del valor xi . Por Ni = ji nj denotamos a la frecuencia absoluta acumulada del valor xi y por fi = ni a la frecuencia relativa de xi . Si los valores observados en los n individuos, se agrupan n en intervalos, podemos suponer que se toman h intervalos que notaremos (L0 , L1 ], (L1 , L2 ], . . . (Lh1 , Lh ] cuyas marcas de clase sern c1 , c2 , . . . ch . A las frecuencias absolutas asociadas las denotaremos por a n1 , n2 , . . . , nh , a las frecuencias absolutas acumuladas por N1 , N2 , . . . , Nh = n y a las frecuencias relativas por f1 , f2 , . . . , fh La media aritmtica o, simplemente media se calcula sumando todos los e elementos y dividiendo por el n mero total de elementos de la poblacin, es decir u o x= La media tiene las siguientes caracter sticas: Es el centro de gravedad de la distribucin y es unica para cada distribucin. o o Cuando aparecen valores extremos y poco signicativos (demasiado grandes o demasiado peque os), la media puede dejar de ser representativa. n 14
k i=1

xi ni n

No tiene sentido en el caso de una variable cualitativa ni cuando existen datos agrupados con alg n intervalo no acotado. u a Para variables agrupadas, los xi sern las marcas de clase de cada intervalo. Adems, la media cumple las siguientes propiedades: a Si se suma una constante a todos los valores, la media aumenta en dicha constante. Si se multiplican todos los valores de la variable por una constante, la media queda multiplicada por dicha constante. La moda se suele denir como el valor ms frecuente. En el caso de una variable no agrupada, a es el valor de la variable que ms se repite. En el caso de una variable agrupada por intervalos a de igual amplitud se busca el intervalo de mayor frecuencia (intervalo o clase modal) y se aproxima la moda por el valor obtenido al aplicar la frmula o M o = Li1 + ni ni1 ci (ni ni1 ) + (ni ni+1 )

donde: Li1 es el l mite inferior del intervalo modal. ni es la frecuencia absoluta del intervalo modal. ni1 es la frecuencia absoluta del intervalo anterior al intervalo modal. La moda cumple que ni+1 es la frecuencia absoluta del intervalo posterior al intervalo modal. ci es la amplitud del intervalo. Puede ser que exista ms de una moda. En dicho caso, se dice que la distribucin es bimodal, a o trimodal, . . . , seg n el nmero de valores que presentan la mayor frecuencia absoluta. u u La moda es menos representativa que la media, a excepcin de las distribuciones con datos o cualitativos. Si los intervalos no tienen la misma amplitud, se busca el intervalo de mayor densidad de i frecuencia (que es el cociente entre la frecuencia absoluta y la amplitud del intervalo: ni ) y c se calcula con la frmula anterior. o La mediana es, en el caso de una variable no agrupada, y una vez ordenados los datos, el valor central si el n mero de observaciones es impar y la media de los valores centrales si es par. En el u caso de una variable agrupada, hemos de buscar el intervalo central (en el que se encuentre el o los valores centrales), es decir, quel en el que Ni supera por primera vez n , Ni1 Ni , y aplicar la a 2 frmula o n Ni1 M e = Li1 + 2 ci ni donde: Li1 es el l mite inferior del intervalo. ni es la frecuencia absoluta del intervalo. Ni1 es la frecuencia absoluta acumulada del intervalo anterior. Adems, los cuantiles son media n es el n mero de datos. u ci es la amplitud del intervalo. das de posicin que generalizan el concepto de mediana. Deniremos ahora los centiles o percentiles, o 15

los cuartiles y los deciles. Suponemos que tenemos los datos ordenados. Los centiles o percentiles son los valores de la variable que dejan a su izquierda un determinado porcentaje de la poblacin. o Se representan por Ch o Ph , donde h indica el porcentaje, h = 1, 2, . . . , 99. En el caso de una variable agrupada, una vez obtenido el intervalo en que se encuentra el centil, se aplica la siguiente frmula o n h 100 Ni1 Ph = Ch = Li1 + ci ni donde cada elemento tiene el mismo signicado que en el clculo de la mediana. Los cuartiles son a los valores que, una vez ordenados los datos, dividen a la variable en 4 grupos iguales. En cada uno de ellos hay un 25% de individuos de la poblacin o muestra. Se representan por Q1 , Q2 y o Q3 y verican Q1 = C25 , Q2 = C50 = M e, Q3 = C75 . Los deciles son los valores que, una vez ordenados los datos, dividen a la misma en 10 partes iguales, de modo que entre 2 deciles hay un 10% de los individuos de la poblacin o muestra. Se representan por D1 , D2 , D3 , . . . , D9 . Verican o D1 = C10 , D2 = C20 , D3 = C30 , . . . D9 = C90 . Ejercicio 1.7.1 Para los datos de nmero de hermanos y de peso, calcular media, moda y mediana, u y los cuantiles: Q1 , Q3 , C30 , C74 , D4 , D9

1.8

Medidas de dispersin: Rango, varianza, desviacin o o t pica

Imagina que tenemos 3 conjuntos de personas y nos dicen que en todos los casos, la media del peso es 55. Signica esto que los tres conjuntos de datos son iguales o similares? Conseguimos los datos originales y nos encontramos con que las observaciones son las siguientes: Grupo 1: 55 55 55 55 55 55 55 Grupo 2: 47 51 54 55 56 59 63 vemos que, aunque la media es la misma, los conjuntos de datos Grupo 3: 39 47 53 55 57 63 71 son muy diferentes. F jate si hacemos el diagrama de tallo y hojas lo que obtenemos 5 5 5 5 5 5 5 5

7 4

9 6 5 4 1 5

3 6

9 3

7 4

7 5 1 5

3 6

1 7

Entonces cmo podemos detectar esas diferencias entre los conjuntos de datos? Parece que las o medidas de centralizacin no nos proporcionan informacin suciente en muchas situaciones, as o o que debemos encontrar alguna otra cantidad que nos diga cmo de lejos estn los datos entre ellos o a y de la media, es decir, nos surje la necesidad de medir la dispersin de los datos. Lo primero o que vemos es que en el primer caso todos los datos son iguales, en el segundo hay ms diferencia a entre el mayor y el menor, y en el tercero ms a n que en el segundo. Exactamente tenemos que a u

16

55 55 = 0 63 47 = 16 A esta cantidad la llamamos rango de los datos. Sin embargo, aunque es muy fcil a 71 39 = 32 de calcular, no se usa demasiado, porque si hay un slo valor muy grande o muy pequeo, el rango o n var mucho, as que no siempre es una medida util. Cmo podr a o amos encontrar un nmero que u nos d una aproximacin de la distancia de los datos a la media? Pues podemos calcular todas las e o diferencias (en valor absoluto) entre las observaciones y la media y luego calcular la media de esas diferencias. A esta cantidad la llamamos desviacin media. Calculemos la desviacin media del o o grupo 2 de datos, tenemos |47 55| + |51 55| + |54 55| + |55 55| + |56 55| + |59 55| + |63 55| = 7 8+4+1+0+1+4+8 26 = = 3.714 7 7 Sin embargo, habitualmente se usa otra medida de la variabilidad, que responde a la media de los cuadrados de las desviaciones de los datos respecto a la media, as conseguimos que las desviaciones mayores inuyan ms que las peque as. Pero vamos a ver la denicin rigurosa de todos estos a n o conceptos. El rango o recorrido es la diferencia entre el valor mayor y el menor de la variable si sta e es no agrupada. Si la variable es agrupada, se calcula la diferencia entre el l mite superior del ultimo intervalo y el l mite inferior del primer intervalo. El valor del rango slo tiene en cuenta el mayor y o el menor elemento, en su valor no inuyen los dems elementos de la distribucin. Por ejemplo, los a o siguientes podr ser dos conjuntos de datos representados en una recta para ambos tendr an amos el =

Figura 1.9: rango a mismo rango, ya que la diferencia entre xk y x1 es la misma, pero est claro que los dos conjuntos de datos son muy diferentes. El rango intercuartlico es la diferencia entre el primer y el tercer cuartil, y nos da una franja entre la que se encuentra el 50% de la poblacin. La desviacin media o o es la media de las desviaciones de los valores de la variable respecto a la media de la distribucin. o Se llama desviacin respecto de la media al valor absoluto de la diferencia de los valores entre la o o o variable y la media (|xi x|), luego la expresin de la desviacin media es DM =
k i=1

|xi x| ni n

es una medida muy poco utilizada por lo complicado de su clculo, ya que hay que tratar con la funa cin valor absoluto. Si la desviacin media es muy peque a, indica que hay una gran concentracin o o n o 17

de valores en torno a la media. Existe tambin, aunque se utiliza menos, la desviacin respecto a e o la mediana, que es la media de las desviaciones con respecto a la mediana D=
k i=1

|xi M e| ni n

La varianza es la media de los cuadrados de las desviaciones respecto a la media. Se representa por o S 2 y su expresin es k k (xi x)2 ni x2 ni = i=1 i x2 S 2 = i=1 n n La varianza cumple que Al tomar los cuadrados de las desviaciones tiene la ventaja de que las desviaciones grandes afectan ms al resultado. a Las unidades de S 2 no son las mismas que las de la muestra, ya que estamos elevando las desviaciones al cuadrado. La varianza es siempre positiva. Es nula cuando todos los valores coinciden con la media. Denimos la cuasivarianza como s2 =
k i=1 (xi

x)2 ni n1

a a cuya relacin con la varianza es S 2 = n1 s2 . Esta medida ser muy util ms adelante cuando o n 2 veamos la inferencia estad stica. En ocasiones, tambin se denota por Sc La desviacin tpica es la e o ra cuadrada de la varianza. Se representa por S y su expresin es z o S=+
k i=1 (xi

x)2 ni =+ n

k i=1

x2 ni i x2 = + x2 x2 n

La desviacin t o pica tiene como caracter sticas fundamentales Es la unidad de dispersin ms utilizada. o a Las unidades de S son las mismas que las de la muestra. La desviacin t o pica es siempre positiva o cero. Adems, varianza y desviacin t a o pica verican que: Si a los valores de una variable se les suma la misma constante, la varianza y la desviacin o t pica no var an. Si a los valores de una variable se les multiplica por la misma constante positiva, la varianza queda multiplicada por el cuadrado de la constante y la desviacin t o pica queda multiplicada por dicha constante

18

1.9

Utilizacin conjunta de la media y la desviacin t o o pica: el teorema de Tchebiche, el coeciente de variacin de o Pearson, tipicacin de variables o
El teorema de Tchebiche

1.9.1

Ya hemos encontrado las cantidades que nos dan el centro de los datos y que miden cmo de o dispersos estn, pero seguimos necesitando ms informacin. Recordemos los datos sobre el nmero a a o u de hermanos: N m hermanos u 0 1 2 3 4 entonces tenemos que x = 1.33333, fr. absoluta 6 13 7 3 1 S = 1.011

S 2 = 1.022,

Cunta gente hay alrededor de la media?Hay muchos compaeros que tengan entre 1 y 2 hera n manos? Tomemos un intervalo alrededor de la media, de la forma (x a, x + a). Ya que la varianza y la desviacin t o pica miden la dispersin por qu no las utilizamos? cul usar de las dos? o e a as Bueno, en principio deber amos descartar la varianza, porque no debemos sumarla con la media, dado que no tienen las mismas unidades. Tomemos entonces la desviacin t o pica, es decir, tomemos a = S. Entonces obtenemos el intervalo (1.3333 1.011, 1.3333 + 1.011) = (0.3223, 2.3443). Dentro de este intervalo estn las personas que tienen 1 y 2 hermanos, que son 20 de los 30 alumnos, es a decir, el 66% de los alumnos. Y si en vez de restar y sumar S lo hacemos para 2S? Obtenemos el intervalo (1.3333 2.022, 1.3333 + 2.022) = (0.6887, 3.3553). En este intervalo ya tenemos 29 de los 30 datos, es decir un 96.6%. Obviamente, si restamos y sumamos 3S, en el intervalo que obtenemos ya estn todos los datos. Pero esto ocurre siempre? se concentran siempre tantos a datos en esos intervalos? Vamos a ver otro ejemplo, el de las pagas: Tenemos x = 13, S 2 = 39.2, S = 6.26

(13 6.26, 13 + 6.26) = (6.74, 19.26) contiene 19 datos (63%) Entonces (13 12.52, 13 + 12.52) = (0.48, 25.52) contiene 29 datos (96%) Como ves, ten(13 18.78, 13 + 18.78) = (5.78, 31.78) contiene 30 datos (100%) emos unos resultados muy similares. Esto es porque hay un teorema que asegura que en estos intervalos hay al menos un determinado porcentaje de los datos, exactamente dice que en un intervalo 1 de la forma (x aS, x aS) con a > 1 hay al menos un 100(1 a2 )% de los datos. Este resultado se conoce como teorema de Tchebiche.

19

1.9.2

El coeciente de variacin de Pearson o

Imag nate que trabajamos ahora con los datos de peso y altura. Tenemos que para el peso x = 60.8, mientras que para la altura tenemos x = 1.7133, S 2 = 0.0128, S = 0.1132 S 2 = 99.56, S = 9.97

ahora en cul de los dos casos hay ms variabilidad? Se nos podr ocurrir pensar que en el peso, a a a porque la varianza y la desviacin t o pica son mayores, pero mira lo que ocurre si hacemos los mismos clculos con la altura en cent a metros: x = 171.33, S 2 = 128.35, S = 11.32

Si ahora nos hacemos la pregunta de nuevo qu podemos contestar? La realidad es que no podemos e comparar las desviaciones t picas ni las varianzas porque dependen de las unidades, igual que la media. Debemos encontrar una cantidad que no tenga unidades. De momento, slo sabemos que o la desviacin t o pica y la media tienen las mismas unidades as que cmo podemos conseguir una o cantidad adimensional? Pues podemos dividirlas, as obtenemos lo que se conoce como coeciente de variacin de Pearson o S CV = x Si lo calculamos para nuestros dos casos, tenemos, para el peso CV = mientras que para la altura 11.32 0.1132 = = 0.066 171.33 1.7133 luego el peso presenta ms dispersin que la altura. a o CV = 9.97 = 0.163 60.8

1.9.3

Tipicacin de variables o

Pero a n pueden pasar ms cosas. Imagina que mides 1.74 y tienes una amiga en la clase de al u a lado que mide igual que t . Pero dentro de cada clase cul de las dos es ms alta? cmo podemos u a a o compararla, si slo sabemos que en la clase de tu amiga la media es 1.708 y la desviacin t o o pica 12.53? Existe una manera de transformar estos valores en cantidades comparables. Este mtodo e se llama tipicacin y consiste en restarle la media a la observacin y dividir la cantidad obtenida o o entre la desviacin t o pica. Con esto conseguimos, si lo hacemos para todas las observaciones, la media de los nuevos valores sea 0 y la desviacin t o pica 1, y as ser observaciones comparables. an Para nuestro ejemplo, los dos valores tipicados ser an z1 = 1.74 1.7133 = 0.235 0.1132 20

1.74 1.708 = 0.255 0.1253 Luego llegamos a la conclusin de que la amiga es ms alta (dentro de su clase) puesto que el valor o a tipicado que corresponde a su observacin es mayor. La expresin del valor tipicado correspono o diente a una observacin xi es o xi x zi = S z2 =

21

Cap tulo 2

Estad stica Descriptiva Bidimensional


En el cap tulo anterior estuvimos trabajando con los datos que obtuvimos de la encuesta, obteniendo las primeras conclusiones. Pero no vamos a conformarnos con lo que ya hemos obtenido, porque de esa mismos datos podemos obtener ms informacin con algunas tcnicas que veremos a a o e continuacin. Antes de continuar, los objetivos en este cap o tulo son los siguientes.

2.1

Objetivos

Representar e interpretar un conjunto de valores de dos variables mediante una nube de puntos Identicar un conjunto de valores de dos variables dados en forma de tabla o nube de puntos como una distribucin bidimensional. o Interpretar la relacin entre dos variables a partir de la nube de puntos, determinando de o forma intuitiva si es positiva o negativa, si es funcional o no y, en este caso, si se aproxima a una recta. Comparar los aspectos globales de varias distribuciones mediante su nube de puntos. Asignar nubes de puntos dadas a diferentes tipos de fenmenos. o Determinar la relacin entre las medias de cada una de las variables con la nube de puntos. o Encontrar, de forma grca, una recta que se ajuste a la nube de puntos. a Estimar el coeciente de correlacin a partir de una nube de puntos. o Analizar el grado de relacin entre las dos variables, conociendo el coeciente de correlacin. o o 22

Calcular el coeciente de correlacin de distribuciones bidimensionales y hallar las rectas de o regresin. o Hacer predicciones a partir de la recta de regresin. o

2.2

El ejemplo: una encuesta de opinin o

A lo largo de este cap tulo seguiremos profundizando en el anlisis de la encuesta de opinin a o con la que ya comenzamos a trabajar. A partir de la informacin que ya tenemos, procuraremos o responder a preguntas del tipo: Hay relacin entre la paga que recib y el n mero de hermanos que tenis? o s u e Inuye el deporte que hacis sobre cunto fumis o cunto bebis? e a a a e Podemos medir exactamente estas relaciones? A lo largo del cap tulo pretendemos contestar a estas preguntas y a otras diferentes. Iremos presentando los conceptos necesarios para ellos a partir de ahora.

2.3

Introduccin y tablas simples o

Podr amos pensar en un montn de variables que pueden inuir unas sobre otras. Por ejemplo, o se nos puede ocurrir pensar que cuanto mayores sois ms paga tenis. Vamos a intentar ver si eso a e es cierto, as que como ya sabis del cap e tulo anterior, para poder obtener alguna conclusin, lo o primero que debemos hacer es organizar los datos. Recordamos que los datos de edades y de pagas que tenemos son los siguientes: Edad 16 16 16 16 17 18 16 17 17 17 19 16 17 16 17 Paga 6 8 10 5 15 20 9 10 9 9 20 15 12 6 15 Edad 17 16 18 18 18 19 17 16 19 16 16 16 17 16 16 Paga 12 10 25 20 30 15 12 9 20 6 9 10 25 9 9

23

Estos son los pares de datos que hemos obtenido. Comencemos agrupando los pares que son iguales. Obtenemos lo siguiente Edad 16 16 16 16 16 16 17 17 17 17 17 18 18 18 19 19 Paga 5 6 8 9 10 15 9 10 12 15 25 20 25 30 15 20 N m. Personas u 1 3 1 5 3 1 2 1 3 2 1 2 1 1 1 2

A esta tabla que acabamos de construir la llamaremos tabla simple y ser el punto de partida para a nuestro anlisis. a

2.4

Tablas de frecuencias, distribuciones marginales y condicionadas

Te resulta sencillo obtener conclusiones de la tabla anterior? Podemos encontrar alguna manera alternativa de representar los datos? La idea es evitar las repeticiones (aparecen en la primera columna muchas veces repetida cada edad y en la segunda el valor de las pagas). Agrupamos los datos de la siguiente manera Paga 5 6 8 9 10 12 15 20 25 30 16 1 3 1 5 3 1 Edad 17 18 19

2 1 3 2 1 2 1 1

1 2

24

Esta tabla nos permite una visin ms global del reparto de las frecuencias y es ms util cuanto ms o a a a pares de valores diferentes tenemos. La llamamos tabla de doble entrada cuando lo que reprsentamos son variables y tabla de contingencia cuando estudiamos dos caracteres cualitativos. Pero de esta tabla podemos obtener el total de personas cuya paga es 12 euros? y el n mero de personas que u tienen 17 aos? La respuesta es, obviamente que s Observa que todas puedes sumar todas las n . frecuencias que aparecen en la la correspondiente al 12 y as obtendr el n mero de personas as u cuya paga es 12. Anlogamente puedes obtener el n mero de personas que tienen 17 aos sumando a u n las frecuencias correspondientes a la columna encabezada por el 17. Aadimos estas cantidades a n nuestra tabla Paga 5 6 8 9 10 12 15 20 25 30 Tot 16 1 3 1 5 3 1 Edad 17 18 19 Tot 1 3 1 7 4 3 4 4 2 1 30

2 1 3 2 1 2 1 1 4

1 2

14

En realidad, lo que ests obteniendo son los valores de cada una de las variables idependientea mente de la otra. A estos valores los llamamos distribuciones marginales de las variables estad sticas. Para tener la distribucin marginal completa de la variable edad tomamos la primera y la ultima o la Edad frecuencias 16 14 17 9 18 4 19 3

Igualmente para la variable paga tomamos los datos de la primera y ultima columnas. Ejercicio 2.4.1 Podras construir una tabla similar a la anterior para la variable paga? De manera genrica, una tabla de doble entrada es de la siguiente forma: e Y X x1 x2 ... xs ... xk Tot y1 n11 n21 ... ns1 ... nk1 n1 y2 n12 n22 ... ns2 ... nk2 n2 ... ... ... ... ... ... ... ... yp n1p n2p ... nsp ... nkp np 25 ... ... ... ... ... ... ... ... ym n1m n2m ... nsm ... nkm nm Tot n1 n2 ... ns ... nk n

donde los valores o modalidades de X son x1 , x2 , . . . , xk y los de Y son y1 , y2 , . . . , ym ; nij indica el n mero de individuos que presentan la modalidad xi de la variable X y la modalidad yj de la u u variable Y . Asimismo, ni indica el nmero de individuos que presentan la modalidad xi y nj el n mero de individuos que presentan la modalidad yj . n es el n mero total de individuos de la u u poblacin o muestra. o Una vez que conocemos las distribuciones marginales podemos calcular la media y la desviacin o t pica de cada una de ellas tratndolas como variables unidimensionales. Su expresin ser a o a:
k i=1

x=

xi ni n yj nj

Sx =

k i=1 (xi

x)ni y)nj

n
m j=1 (yj

y=

m j=1

Sy =

Ejercicio 2.4.2 Cules son la media y la desviacin tpica de las variables edad y paga? a o Uno de tus coma eros tiene una curiosidad. El tiene 17 aos y quiere saber si su paga est entre n n a las mayores o las menores para, en caso de que sea de las menores, pedirle una subida a su padre. Para eso se quiere comparar con los compaeros que tienen la misma edad que l, as que saca los n e valores de los compa eros que tienen 17 aos y tiene lo siguiente n n Paga Edad = 17 5 0 6 0 8 0 9 2 10 1 12 3 15 2 20 0 25 1 30 0

Como este chico tiene una paga de 10 euros, decide que la mayor de sus compa eros tienen a n ms paga que l, as que que intentar conseguir que su padre le suba la paga. a e a Lo que acabamos de calcular es la distribucin condicionada de la variable paga jado un valor o de la edad, en este caso 17. De nuevo lo que hemos obtenido es una variable unidimensional a la que podemos calcularle las medidas de centralizacin y dispersin que ya conocemos. o o Ejercicio 2.4.3 Calcula la tabla de frecuencias de la variable edad para paga=15 euros. Ejercicio 2.4.4 Calcula la tabla de frecuencias, con las frecuencias marginales, para el peso y la respuesta a la pregunta 3.1.

2.5

Diagramas de dispersin o nubes de puntos o

Como en el caso de las variables unidimensionales, en muchas ocasiones, los datos se interpretan de manera ms sencilla si los representamos de forma grca. Como en el caso de las variables a a unidimensionales, en muchas ocasiones, los datos se interpretan de manera ms sencilla si los repa resentamos de forma grca. De cualquier manera, ahora estamos ante otra situacin, ya que a o necesitamos representar dos variables con sus correspondientes frecuencias. Para ello, el grco a que utilizaremos es la nube de puntos o diagrama de dispersin. Vamos a ver cmo se construye: o o representamos en el eje de abscisas la variable paga y en el eje de ordenadas la variable edad. A los puntos que representamos le damos mayor grosor seg n la frecuencia con la que aparecen o bien u dibujamos tantos puntos como indica la frecuencia. 26

Figura 2.1: diagrama de dispersin o La forma de que tenga el diagrama de dispersin nos dar una idea de la posible dependenecia o a que haya entre las variables, como veremos a continuacin. o Ejercicio 2.5.1 Dibuja el diagrama de dispersin de la variable peso y las respuestas a la pregunta o 3.1

2.6

Dependencia funcional y dependencia estad stica

Imagina que estudias los siguientes pares de variables: La altura de una persona y su nmero de pie u La paga semanal y la altura El nmero de miembros de una familia y el n mero de habitaciones de su vivienda u u La altura desde la que se tira y el tiempo que tarda en caer un objeto deteminado El peso y el n mero de hermanos u Para cada una de estas situaciones nos interesa saber si existe o no relacin entre las variables o que medimos, si el valor de una inuye sobre el de la otra. El caso 4, por ejemplo, es muy sencillo. Sabemos (por f sica) que hay una relacin funcional entre ambas variables, una ecuacin que las o o relaciona. En otros casos, podemos intuir que no hay ninguna relacin, como en el caso 2 y el 5. o Sin embargo, en los casos 1 y 3 existe la posibilidad de que exista una posible relacin entre las o variables que no somos a priori capaces de concretar.

27

Los diagramas de dispersin pueden tomar diferentes formas y pueden orientarnos mucho sobre o cmo se comportan las variables. Los utilizaremos como primera orientacin, aunque posteriormente o o veremos maneras ms ables de decidir cundo dos variables estn relacionadas. a a a Como ya hemos visto, hay distintos grados de relacin entre variables. Decimos que existe deo pendencia funcional si nos encontramos en un caso similar al caso 4 que hemos visto anteriormente, es decir, Y depende funcionalmente de X cuando a cada valor xi le podemos asignar un unico valor yj de manera que yj = f (xi ), esto es, cuando el valor de una variable determina exactamente el valor de la otra. La dependencia funcional ser lineal cuando todos los pares de puntos se encuentren en a una recta; ser curvil a nea cuando se encuentren en una curva denida por la funcin y = f (x). o Dos variables X e Y se dicen independientes si el valor de una de ellas no inuye sobre la otra, lo que signica que las distribuciones condicionadas relativas coinciden. En el resto de los casos hablaremos de dependencia o relacin estadstica. Esta dependencia o puede ser ms o menos fuerte seg n los casos. Podemos tener una idea de si es fuerte o dbil a a u e travs del diagrama de dispersin, observando que ser ms fuerte cuanto ms se acerque la nube e o a a a de puntos a la representacin de una funcin. o o Diagramas de dispersin en los que las variables tengan dependencia lineal o dispersin curvil o o nea pueden ser por ejemplo:

Figura 2.2: dependencia lineal (A adir diagramas de dispersin como ejemplos.) n o Ejercicio 2.6.1 Puedes deducir alguna conclusin sobre la posible dependencia entre las variables o peso y la respuesta a la pregunta 3.1 a partir del diagrama de dispersin que dibujaste en la seccin o o anterior?

2.7

Covarianza

Recuerda el diagrama de dispersin de las dos variables que estamos estudiando. En principio, o no resulta fcil deducir qu tipo de relacin hay entre ellas, pero por ejemplo crees que, en general, a e o aumenta la paga al aumentar la edad? o crees que es al revs? Intentamos ahora encontrar alguna e

28

Figura 2.3: dependencia curvil nea cantidad que nos d una medida de si la relacin entre dos variables es directa o inversa. Lo que e o utilizaremos ser la covarianza que tiene la siguiente expresin: a o x y n n Esta cantidad tambin se conoce como varianza conjunta. Si la relacin entre las variables es e o directa, la covarianza es positiva y si la covarianza es negativa la relacin ser inversa. Sabiendo o a que la media de edad es 16, 86 y que la media de la paga es 13, para nuestro caso, Sxy = 4, 53 luego la relacin es directa y la covarianza bastante alta. o Si te jas en la expresin de la covarianza, su signo depende de las diferencias (xi x) e o (yj y). Vamos a ver qu ocurre con la covarianza en algunos casos. Representamos 3 diagramas e de dispersin, en los que marcamos el punto (x, y) que es el centro de gravedad de las distribuciones o (ver gura 2.4): Ocurre que en el grco 2 tendremos covarianza alta, puesto que las diferencias (xi x) e (yj y) a a son siempre del mismo signo (xi e yj estn en el primer y tercer cuadrante denidos por los ejes centrados en (x, y). Al ser estas diferencias del mismo signo, contribuyen de forma positiva a la suma. En los otros dos casos, el 1 y el 3, no existe relacin lineal y habr tanto sumandos positivos o a como negativos, ya que los puntos aparece en los cuatro cuadrantes, lo que har que se anulen unos a con otros y el resultado sea ms prximo a 0. a o Puedes observar que la covarianza es una medida que depende de las unidades, como en el caso unidimensional depend la varianza y la desviacin t an o pica, por lo que debemos buscar otra medida que sea adimensional y nos permita comparaciones globales entre distribuciones. Sxy = = Ejercicio 2.7.1 Calcula la covarianza de las variables peso y respuesta a la pregunta 3.1. qu e podemos decir sobre la relacin entre ellas a la vista de este valor? o
k i=1 m j=1 (xi

x)(yj y)nij

k i=1

m j=1

xi yj nij

2.8

Correlacin lineal o

Buscamos ahora una medida que nos indique el grado de relacin entre dos variables (de forma o 29

Figura 2.4: covarianzas directa o inversa) y que no dependa de las unidades. Queremos adems que nos mida el grado de a relacin lineal entre las dos variables. o Partimos de la covarianza que acabamos de ver, que si te jas, depende del producto de las unidades en que estn medidas las variables, ya que (xi x) depende de las unidades de xi e a (yj y) depende de las unidades de yj , mientras que nij y n son adimensionales. Debemos dividir Sxy entre alguna cantidad que anule dichas unidades de medida. No conocemos ninguna otra medida de caracter bidimensional, as que pensemos en las medidas unidimensionales de cada una de las variables. Si recuerdas, la varianza de una variable depende de las unidades de dicha variable al cuadrado, luego no podemos utilizarla, pero la desviacin t o pica de una variable depende de las unidades en las que estn medidas estas variables. Esto quiere decir que el producto Sx Sy depende a del producto de las unidades de x por las unidades de y y es la cantidad que buecbamos como a denominador. Entonces, denimos el coeciente de correlacin lineal de la siguiente manera o r= Sxy Sx Sy

Vamos a calcularlo en nuestro caso, para las dos variables que tenemos. Sabemos que Sxy = 4, 53 e y que Sx = 1, 008 y que Sy = 6, 368 luego r = 0, 706, pero qu signica este valor? El valor de r est siempre entre 1 y 1. Si el valor de r est prximo a 1 o 1, entonces la a a o dependencia lineal de las dos variables es fuerte, siendo directa si est prximo a 1 e inversa si est a o a prximo a 1. o 30

Si el valor de r est prximo a 0, la dependencia es dbil en caso de que la haya. Si el valor a o e coincide con 1 o 1, la dependencia es lineal y todos los puntos de la nube pertenecen a una recta. Entonces, en nuestro caso, conrmamos que la relacin es directa y como el valor de r es algo o ms de 0, 7 podemos decir que la dependencia lineal es considerable. a Ejercicio 2.8.1 Calcula el coeciente de correlacin lineal de las variables peso y respuesta a la o pregunta 3.1. qu podemos decir sobre la relacin entre ellas a la vista de este valor? e o

2.9

Rectas de regresin o

Imagina que sabes que un chico del instituto tiene una paga de 18 euros, pero no sabes su edad. Se nos podr ocurrir plantearnos la posibilidad de predecir el valor que puede tener la edad de este a chico. Cmo podr o amos hacerlo? Hemos hablado durante todo el cap tulo de la posible relacin o entre las dos variables, as que es el momento de utilizarla. Si furamos capaces de escribir la e ecuacin que relaciona la edad con la paga, slo tendr o o amos que sustituir y obtendr amos el valor que buscamos. Pero, desafortunadamente, no es tan sencillo. Como conocemos el hecho de que la correlacin o lineal entre las variables es razonablemente grande, podemos intentar encontrar la recta que mejor se ajuste a los puntos y luego sustituir el valor de la paga para obtener la edad. Esta recta es la que conocemos como recta de regresin. Vamos a ver cmo la denimos para posteriormente calcular o o la que corresponde a nuestro ejemplo. Dadas dos variables X e Y , se dene la recta de regresin como la recta que hace m o nima la suma de los cuadrados de las distancias de los puntos observados a los puntos estimados. Para la recta de regresin de Y sobre X, que ser de la forma y = ax + b se hace m o a nima la suma de los cuadrados de las distancias entre los puntos observados yi y las ordenadas previstas por la recta para dichos puntos axi + b. La ecuacin de esta recta viene dada por: o Y y = Sxy (X x) 2 Sx

Utilizaremos esta recta cuando queramos estimar el valor de Y una vez conocido el valor de X En el caso de la recta de regresin de X sobre Y que ser de la forma x = cy + d se hace o a o m nima la suma de cuadrados de las distancias entre los puntos observados xi y la prediccin para o a las abscisas de esos puntos, cyi + d. La ecuacin de esta recta ser X x= Sxy (Y y) 2 Sy

Utilizaremos esta recta cuando queramos predecir el valor de X una vez conocido el de Y . Calculemos ahora la recta de regresin para el caso prctico que estamos tratando. Como o a nuestras variables son la paga (X) y la edad (Y ) lo que debemos calcular es la recta de regresin o de Y sobre X. Tenemos que x = 13 luego nuestra recta es 31 y = 16, 86 Sxy = 4, 53 Sx = 6, 368
2 Sx = 40, 551

Y 16, 86 = o lo que es lo mismo

4, 53 (X 13) 40, 551

Y 16, 86 = 0, 111(X 13) Y = 0, 111X + 15, 413 luego si la paga de este chico es x = 18, su edad debe ser: Y = 0, 111 18 + 15, 413 = 17, 42 es decir, este chico tiene 17 a os. n Debemos hacer algunas puntualizaciones sobre la recta de regresin. Lo primero es que el punto o de corte de las dos rectas de regresin (la de X sobre Y y la de Y sobre X) es (x, y), salvo en el o caso de correlacin lineal 1 o -1, caso en el que las dos rectas coinciden. o Si queremos realizar estimaciones con la recta de regresin, tenemos que tener considerar que se o dan alguna de las siguientes circunstancias: Que observando el diagrama de dispersin podamos deducir una posible relacin lineal entre o o las variables. Que el coeciente de correlacin lineal est prximo a 1 o a 1. o e o Que el sentido com n nos indique que existe una posible relacin lineal entre las variables. u o Una manera alternativa de expresar la recta de regresin es la siguiente: o Para el caso de la recta de regresin de Y sobre X, sta es de la forma y = ax + b donde o e a= Sxy 2 Sx b=y Sxy x 2 Sx

Para el caso de la recta de regresin de X sobre Y , sta es de la forma x = cy + d donde o e c= Sxy 2 Sy d=x Sxy y 2 Sy

Ejercicio 2.9.1 Calcula las rectas de regresin para las variables peso y la respuesta a la pregunta o 3.1. Si una persona pesa 67 kg puedes estimar cul ser su respuesta a la pregunta 3.1? a a

32