Sie sind auf Seite 1von 8

ESTAD ISTICA DESCRIPTIVA: UNA VARIABLE

Juli an de la Horra Departamento de Matem aticas U.A.M.

Introducci on

Cuando estamos interesados en estudiar alguna caracter stica de una poblaci on (peso, longitud de las hojas, indicadores de contaminaci on, etc) lo m as completo es, evidentemente, estudiar la poblaci on entera. Pero esto suele requerir demasiado tiempo y demasiado dinero. Otras veces, el estudio de un elemento es destructivo, con lo cual es imposible hacer un an alisis de toda la poblaci on (nos quedar amos sin poblaci on). Por tanto, normalmente, nos conformaremos con un conocimiento parcial de la poblaci on. Esto lo conseguiremos observando unos cuantos elementos y viendo c omo es o cu anto vale en ellos esa caracter stica que nos interesa. Este conjunto de elementos que observamos es lo que llamaremos una muestra de la poblaci on. El objetivo b asico de la Estad stica Descriptiva para una variable es hacer una descripci on lo m as sencilla posible de los resultados obtenidos en la muestra. Esta descripci on se har a mediante representaciones gr acas y mediante res umenes num ericos. Este cap tulo est a dedicado a hacer un estudio descriptivo de lo obtenido en una muestra concreta, cuando nos interesamos en una sola caracter stica, es decir, en una sola variable estad stica o variable respuesta. Estas variables pueden ser de dos tipos: cualitativas y cuantitativas.

Variables cualitativas

Una variable respuesta es cualitativa cuando s olo puede clasicarse en categor as no num ericas. Ejemplos de variables cualitativas son el color de los ojos de las personas de una ciudad, la Facultad o Escuela en la que est an matriculados los estudiantes de una Universidad, etc. En este caso s olo podemos hacer representaciones gr acas. Su objetivo es dar una idea visual sencilla de la muestra obtenida. Naturalmente, hay una gran variedad de representaciones gr acas: diagramas de barras, diagramas de sectores,... Todas ellas son muy sencillas de comprender y de interpretar.

Variables cuantitativas

Una variable respuesta X es cuantitativa cuando toma valores num ericos. Son las m as interesantes ya que con ellas podemos obtener res umenes num ericos que no ten an sentido para las variables cualitativas. Es muy habitual distinguir dos tipos de variables cuantitativas que indicamos a continuaci on: Discretas: S olo pueden tomar un conjunto nito o numerable de valores (generalmente valores enteros). Continuas: Pueden tomar cualquier valor en un intervalo (nito o innito). Sin embargo, es conveniente resaltar que para la mayor a de las cosas que vamos a hacer es irrelevante si la variable es discreta o continua. Utilizaremos la siguiente notaci on, tanto para variables discretas como para variables continuas: n: Tama no de la muestra = N umero de elementos observados. x1 , . . . , xn : Representan los n valores de la variable respuesta obtenidos en la muestra (puede haber repeticiones). A veces, al estudiar variables continuas, no disponemos de los datos originales sino que nos dan los datos agrupados en una serie de intervalos o clases A1 , . . . , Ak . En este caso, la notaci on ser a: n: Tama no de la muestra = N umero de elementos observados. x1 , . . . , xk : Representantes de las clases A1 , . . . , Ak (generalmente, los puntos medios de los intervalos). n1 , . . . , nk : N umero de observaciones dentro de cada clase (frecuencias absolutas). f1 , . . . , fk : Frecuencias relativas dentro de cada clase (fi = ni /n). Por supuesto, si se puede, es preferible utilizar los datos originales a usar los datos agrupados en unas clases articiales. Intuitivamente, los datos originales contienen m as informaci on que los datos agrupados.

Res umenes num ericos

Denici on.- La media muestral es una medida de centralizaci on que se dene como: x = 1 n xi n i=1

Cuando se trate de una variable continua con los datos agrupados, usaremos: k 1 k ni xi = fi xi x = n i=1 i=1 Es decir, es como si el valor xi hubiera aparecido ni veces. Pero insistimos en que si los datos est an sin agrupar, no tiene mucho sentido agruparlos. Denici on.- La mediana muestral es otra medida de centralizaci on cuya idea es la siguiente: La mediana, M , es el valor de la muestra que deja el 50% de los datos por debajo (son menores) y el 50 % de los datos por encima (son mayores). Por tanto, para hallar la mediana de una muestra ordenamos las observaciones de menor a mayor y tenemos dos posibilidades: Si el n umero de observaciones es impar, la mediana es el valor central. Si el n umero de observaciones es par, la mediana es el punto medio de los dos valores centrales. Si se trata de una variable continua con los datos agrupados, se puede hallar el intervalo mediana, es decir, la clase en la que se encuentra la mediana. Despu es, se puede hacer una interpolaci on, con el objetivo de hallar el valor aproximado de la mediana. La idea de la mediana se puede extender a los cuartiles: Denici on.- El primer cuartil, Q1 , es el valor de la muestra que deja el 25% de los datos por debajo (son menores) y el 75% de los datos por encima (son mayores). El tercer cuartil, Q3 , es el valor de la muestra que deja el 75% de los datos por debajo (son menores) y el 25% de los datos por encima (son mayores). El m etodo para hallar Q1 y Q3 es an alogo al empleado para hallar la mediana.

Podemos aplicar las deniciones anteriores para calcular mediana y cuartiles en los dos siguientes casos: (a) 3 5 3 6 8 7 6 (b) 3 5 3 6 8 7 6 8 Denici on.- La moda muestral de una variable discreta es una medida de centralizaci on que se dene como el valor que aparece m as repetido en la muestra. La moda es menos interesante como medida de centralizaci on por varias razones: no tiene sentido para variables continuas (habr a que agrupar), puede no ser un valor central, puede haber una moda en cada extremo, etc. Denici on.- La varianza muestral es una medida de dispersi on que se dene como: vx = 1 n (xi x )2 n i=1

Para calcular la varianza suele ser m as c omodo usar la siguiente expresi on que obtenemos desarrollando el cuadrado: vx = = 1 n 1 (xi x )2 = n i=1 n 1 n
n n n

x2 x i 2
i=1 i=1

xi + nx 2

x2 2 i nx
i=1

Si se trata de una variable continua con los datos agrupados, usaremos la expresi on: vx = 1 1 k ni (xi x )2 = ... = n i=1 n
k

ni x2 2 i nx
i=1

Observaci on: La denici on que se ha dado de varianza muestral corresponde a la idea natural de medir la dispersi on cuadr atica media y, por este motivo, dividimos por n (n umero total de datos). Es muy frecuente encontrar textos y paquetes inform aticos en los que, en la denici on de varianza muestral, se divide por n 1, en vez de por n. Esto tiene su justicaci on en la Inferencia Estad stica (cuando se buscan estimadores insesgados), pero no en la Estad stica Descriptiva. Por supuesto, si n es grande, la diferencia entre dividir por n o por n 1 es muy peque na. 4

Denici on.- La desviaci on t pica (o desviaci on standard) muestral es una medida de dispersi on que se dene como la ra z cuadrada positiva de la varianza muestral. Con la desviaci on t pica medimos la dispersi on en las unidades originales, ya que la varianza nos da la media de los cuadrados de las desviaciones a la media muestral.

Representaciones gr acas

Se pueden hacer distintas representaciones gr acas con los datos de una variable cuantitativa X . Tambi en son sencillas de comprender, aunque requieren algo m as de explicaci on que las representaciones gr aca de variables cualitativas. Veremos algunas de las m as interesantes, comenzando por los diagramas de tallos y hojas: Denici on.- El procedimiento para construir un diagrama de tallos y hojas es como sigue: 1. Redondear los datos a un n umero conveniente de cifras signicativas, de modo que el perl que obtengamos sea informativo. 2. Colocarlos en una tabla con dos columnas separadas por una l nea, de la siguiente forma: (a) Todas las cifras menos la u ltima se escriben a la izquierda de la l nea (forman el tallo). (b) La u ltima cifra se escribe a la derecha (forma la hoja). 3. Cada tallo dene una clase y se escribe s olo una vez. El n umero de hojas representa la frecuencia de dicha clase.

Otra representaci on sencilla muy utilizada es el diagrama de caja y bigotes (box-plot): Denici on.- En primer lugar, obtenemos la mediana, M , el primer cuartil, Q1 , el tercer cuartil, Q3 , y los valores m nimo y m aximo de las observaciones. La vers on mas sencilla de diagrama de cajas y bigotes consiste en dos cosas: 5

a) Un rect angulo vertical (caja) que comienza en Q1 , termina en Q3 , y tiene una l nea central en M . b) Dos l neas (bigotes) que parten de Q1 y Q3 y llegan, respectivamente, al m nimo y al m aximo. Este diagrama nos da una idea r apida de la concentraci on y de la simetr a de los datos. Otra representaci on interesante para variables cuantitativas continuas con los datos agrupados es el histograma: Denici on.- Disponemos de los n datos agrupados en k intervalos, cada uno con una anchura ai , i = 1, ..., k . El histograma consiste en construir sobre cada intervalo un rect angulo cuya area represente la frecuencia (absoluta o relativa) de dicho intervalo. De ese modo, si pensamos por ejemplo en frecuencias absolutas, la altura, hi , de cada rect angulo ser a: Area = ni = ai hi hi = ni ai

Ejemplo

En 1778, H. Cavendish realiz o una serie de 29 experimentos con objeto de medir la densidad de la tierra. Sus resultados, tomando como unidad la densidad del agua, fueron: 550 561 488 507 526 555 536 529 558 565 557 553 562 529 544 534 579 510 527 539 542 547 563 534 546 530 575 568 585 Queremos analizar estos datos descriptivamente. En primer lugar, podemos representar los datos sobre la variable estad stica X =Densidad de la tierra con un diagrama de tallos y hojas:

48 49 50 51 52 53 54 55 56 57 58

8 7 0 6997 64940 4276 05873 15238 95 5

Ordenando los datos de menor a mayor, la mediana ser a el dato que ocupa el puesto decimoquinto: M = 5, 46. Procediendo de manera an aloga, el primer cuartil, Q1 , ser a el punto medio de los datos que ocupan los puestos s eptimo y octavo: Q1 = (5, 29 + 5, 3)/2 = 5, 295 An alogamente, el tercer cuartil, Q3 , ser a el punto medio de los datos que ocupan los puestos 22 y 23: Q3 = (5, 61 + 5, 62)/2 = 5, 615 Podemos calcular tambi en la media y la desviaci on t pica: x = 1 n xi = 5, 448; Desviaci on t pica = 1 n (xi x )2 0, 22

Podemos observar que la media y la mediana son muy similares; esto es consecuencia de la simetr a que se puede apreciar en el diagrama de tallos y hojas. Podemos abordar tambi en el an alisis descriptivo que har amos en el caso de que nos hubieran dado los datos agrupados en una serie de clases. Por ejemplo, supongamos que la informaci on que tenemos viene resumida (con alguna simplicaci on) en la siguiente tabla : Clases (5,10; 5,30] (5,30; 5,40] (5,40; 5,50] (5,50; 5,60] (5,60; 5,80] 7 xi ni 5,20 8 5,35 4 5,45 5 5,55 4 5,70 8

Con esta informaci on agrupada, tendr amos: x = 1 n ni xi = 5, 45;

1 1 ni (xi x )2 = ni x2 2 = 0, 1930. i nx n n L ogicamente, existen peque nas diferencias con respecto a lo que se obtuvo con los datos sin agrupar. Desviaci on t pica =

Das könnte Ihnen auch gefallen