Sie sind auf Seite 1von 20

ESTADSTICA APLICADA A LA GESTIN EMPRESARIAL

UNIDAD II: MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIN

CAPACIDAD: Calcula y analiza adecuadamente los indicadores estadsticos de tendencia central y de dispersin, procurando una eficaz toma de decisiones.

CHECK-LIST: Se les aconseja guiarse del check-list para realizar un resumen de la unidad ms fcil de estudiar para el examen. Usted domina la unidad si puede: 1.- Definir claramente los siguientes conceptos: SI Parmetro de posicin Parmetro de dispersin Moda Mediana Cuartil Dcil Centil Media aritmtica Media aritmtica ponderada Amplitud Desviacin intercuartil o rango intercuartlico Desviacin media Varianza Desviacin estndar Asimetra Curtosis Curva de Lorenz Recta de equireparticin ndice de concentracin Bigotes Rango intercuartilco Valores atpicos NO

Pgina 1 de 20

2.- Describir claramente cmo: SI Calcular la moda para caracteres discretos y continuos, agrupados en clases de idnticas o distintas amplitudes Determinar la mediana, los cuartiles, los dciles y los centiles por clculo tanto para datos discretos como continuos Determinar grficamente la mediana y los cuartiles utilizando los polgonos acumulativos Calcular la media aritmtica y la media aritmtica ponderada en base a efectivos y a frecuencias Calcular la amplitud de una serie estadstica Calcular la desviacin intercuartil de una serie estadstica Calcular la desviacin media de una serie estadstica Calcular la varianza y la desviacin estndar de una serie estadstica Calcular el coeficiente de asimetra de Fisher Calcular el coeficiente de curtosis Calcular el ndice de concentracin (ndice de Gini) Elaborar un diagrama de cajas 3.- Hacer las siguientes cosas: SI Calcular la moda para caracteres discretos y continuos, agrupados en clases de idnticas o distintas amplitudes Determinar la mediana, los cuartiles, los dciles y los centiles por clculo tanto para datos discretos como continuos Explicar porqu en el caso de caracteres discretos, la mediana generalmente no existe Determinar grficamente la mediana y los cuartiles utilizando los polgonos acumulativos Calcular la media aritmtica y la media aritmtica ponderada en base a efectivos y a frecuencias Calcular la amplitud de una serie estadstica Calcular la desviacin intercuartil de una serie estadstica Calcular la desviacin media de una serie estadstica Calcular la varianza y la desviacin estndar de una serie estadstica Calcular el coeficiente de asimetra de Fisher Calcular el coeficiente de curtosis Interpreta la presencia de una asimetra positiva o negativa Calcular el coeficiente de curtosis Interpreta el coeficiente de curtosis Contrasta la concentracin de datos en distribuciones mesocrticas, platicrticas y leptocrticas Calcular el ndice de concentracin (ndice de Gini) Elaborar un diagrama de cajas Interpreta un diagrama de cajas con una o varias series estadsticas Pgina 2 de 20 NO NO

I PARAMETROS DE POSICIN:

Para comparar dos series estadsticas, se emplean dos tipos de parmetros: Los parmetros de posicin o valores centrales (moda, mediana, media): como su nombre lo indica se trata de parmetros permitiendo localizar la posicin de series estadsticas comparables. Resumen una serie estadstica caracterizando el orden de magnitud de las observaciones. Se exprimen en las mismas unidades que las observaciones. Sin embargo no bastan para describir en forma sinttica una distribucin. En efecto para parmetros de posicin muy cercanos, podemos encontrar distribuciones cuya forma (dispersin) sea muy diferente. En entonces cuando intervienen los parmetros de dispersin. Los parmetros de dispersin (amplitud, desviacin media, varianza, desviacin estndar, coeficiente de variacin, ndice de dispersin): sirven para medir la variabilidad, la extensin de una serie estadstica.

En esta sesin, nos interesaremos en los parmetros de posicin.

Seccin I: Moda

Llamamos MODA, MODO o DOMINANTE al valor x0 del carcter que corresponde al efectivo mayor. 1.1- Carcter discreto: CANDIDATOS ( xi ) Nmero de votos ( ni ) 1 33 521 2 21 775 3 19 496 4 15 752 5 2 812 6 1 285

Siendo el mayor efectivo 33 521, la moda es x0 = 1 . 1.2- Carcter contino: NOTAS SOBRE 20 ( xi ) Efectivos ( ni ) [6,8[ 1 [8,10[ 8 [10,12[ 29 [12,14[ 63 [14,16[ 100 [16,18[ 70 [18,20[ 9

El mayor efectivo es 100, por lo tanto la CLASE MODAL es la clase [14,16[. Se convendr en tomar por moda el centro de esta clase: x0 = 15 .

Pgina 3 de 20

Nota 1: El efectivo de una serie puede presentar varios mximos, relativos o no:

serie unimodal

serie bimodal

serie multimodal

Es evidente que el uso de la moda solo tiene inters para el caso de series unimodales. Nota 2: En el caso de un carcter continuo, dos reparticiones diferentes de las clases, pueden conducir a dos valores diferentes de la moda. Consideremos, dentro del marco del ejemplo 2, la siguiente reparticin en clases de amplitudes desiguales: NOTAS SOBRE 20 ( xi ) Efectivos ( ni ) [6,8[ 1 [8,10[ 8 [10,14[ 92 [14,20[ 179

Para tomar en cuenta la desigualdad de las amplitudes de las clases, necesitamos razonar por proporcionalidad. Las amplitudes de clase son 2, 2, 4 y 6, todas mltiples de 2. Compararemos los efectivos de clase por proporcionalidad utilizando una regla de tres es decir: si la tercera clase tiene una amplitud de 4 y un efectivo de 92, esto equivale a tener un efectivo de 46 en cada una de las dos sub-clases de amplitud 2 que la componen. Los efectivos a considerar entonces en el ejemplo que nos preocupa son:

1; 8; 92 = 46; 179 =59,67 . Se deduce que la clase modal es [14, 20] y por ende la moda 2 3 es xo = 17 .

Seccin II: Mediana

Se llama mediana al valor del carcter que divide la serie estadstica, en dos series de efectivos iguales. As, la mediana corresponde al valor xm para el cual la frecuencia acumulada vale 1/2. En otras palabras la mitad de los efectivos de la serie estadstica tienen un valor del carcter por debajo de la mediana mientras la otra mitad tiene un valor del carcter por encima de la mediana.

Pgina 4 de 20

f
A1 = A2 1

f acumulada

A1 A2

xm

xm

Indiquemos cmo en la prctica se determina la mediana. 2.1- Determinacin por clculo: Se considerarn dos casos: 2.1.1- El carcter es discreto Ejemplo 1: Tenemos a doce observaciones de cada lado del valor del carcter 4. La mediana aparece evidente.

xi ni

1 2

2 7 12

3 3

4 1

5 7 12

6 5

La mediana es xm = 4 Ejemplo 2:

xi ni

1 2

2 5

3 8 7+1

4 7

5 5

6 2

14 Aqu no hay mediana. En realidad, para

14

xi 3 , n1 + n2 = 7 mientras que para

xi 3 ,

n4 + n5 + n6 = 14 . A causa de la discontinuidad del carcter, se puede decir que la mediana es 3


La conclusin es que por lo general, en el caso de un carcter discreto, la mediana no existe.

Pgina 5 de 20

2.1.2- El carcter es continuo Regresemos al siguiente ejemplo relativo a la reparticin de las explotaciones agrcolas en funcin de su extensin, en Francia en el ao 1955:
Superficie de explotaciones en ha. ( xi ) Nmero de explotaciones ( ni ) Efectivo acumulado [0,1[ 149 723 [1,2[ 229 574 [2,5[ 411 265 [5,10[ 470 736 1 261 325 [10,20[ 530 048 1 791 373 [20,50[ [50,100[ [100,20 0[ 373 810 2 165 183 74 747 2 239 930 16 702 2 239 930 200 y ms 3 523 2 260 155

149 723 379 297 790 562

El efectivo total es de 2 260 155 explotaciones. La mediana sera entonces el valor del carcter (extensin) que divida este efectivo en dos clases de igual efectivo es decir, tal que la mitad de las explotaciones tenga una extensin inferior a la mediana y la otra mitad, una extensin mayor. La mitad del efectivo total es 2 260 155/2 = 1 130 077,5. Consultando el efectivo acumulado creciente, vemos que la CLASE MEDIANA (o INTERVALO MEDIANO) es la clase [5,10[. En efecto hay 790 562 explotaciones acumuladas de menos de 5 ha y 1 261 325 explotaciones acumuladas de menos de 10 ha. La mediana correspondiendo a 1 130 077.5 explotaciones acumuladas se ubica en algn lugar entre 5 ha y 10 ha de extensin de explotacin. Queda por determinar en esta clase la mediana que es del tipo:

xm = 5 + x ( con 0 x 5 )

Para obtener la cantidad x , se procede por interpolacin lineal. El nmero de explotaciones de la clase [5,10[ correspondiendo a x es 1 130 077,5 - 790 562 = 339 515,5. - Para un acrecentamiento del carcter de 10 - 5 = 5, el efectivo acumulado crece en 470 763. - Para un acrecentamiento del carcter de x, el efectivo acumulado crece en 339 515,5. de donde x = ( 5 339515,5 ) 470 763 3,61 = (5 x 339 515,5) / 470 763 3,61 (regla de tres). En consecuencia, la mediana es xm 5 + 3.61 = 8, 61 Concluimos que la mitad de las explotaciones mide menos de 8.61 y la otras mitad, ms. 2.2- Determinacin grfica: Ejemplo 9: Clasificacin segn la edad de 150 obreros de una empresa: EDAD EN AOS ( xi ) Efectivo ( ni ) Efectivo acumulado creciente Efectivo acumulado decreciente [20,25[ [25,30[ [30,35[ [35,40[ [40,45[ [45,50[ [50,55[ [55,60[ 9 9 150 27 36 141 36 72 114 45 117 78 48 135 33 9 144 15 3 147 6 3 150 3

Pgina 6 de 20

El histograma de esta serie estadstica es representado a continuacin:


50 45 40

A1

A2

Efectivo

35 30 25 20 15 10 5 0 20 25 30 35

xm

40

45

50

55

60

Edad Para obtener la mediana, se puede: ya sea trazar el polgono acumulativo creciente: la mediana corresponde a una frecuencia acumulada creciente de o trazar el polgono acumulativo decreciente: la mediana corresponde a una frecuencia acumulada decreciente de o trazar los dos polgonos acumulativos crecientes y decrecientes: la mediana es la abscisa de su punto de interseccin.
1 0,9 0,8 0,7 0,6 0,5

Frecuencias acumuladas

0,4 0,3 0,2 0,1 20 25 30 35 35,3 40 45 50 55 60

Edad

Pgina 7 de 20

Se puede generalizar la nocin de mediana: la mediana permite dividir el efectivo total en dos efectivos iguales: si a su vez se separa estos efectivos en dos efectivos iguales (conteniendo cada uno 25% del efectivo total), se obtiene los valores del carcter: Q1, Q2 = xm , Q3. Estos valores son llamados CUARTILES.

Frecuencia
1

Frecuencia acumulada

0,75

A2 25%

A3 25%

0,5

0,25

A1 25% Q1

A4 25%

xm

Q3

carcter

Q1

xm

Q3

carcter

Igualmente se puede proyectar una divisin del efectivo en 10 (100) efectivos iguales, cada uno representando 10% (1%) del efectivo total; los valores correspondientes del carcter son los DECILES (CENTILES).

Seccin III: Media

Existen diferentes tipos de medias. Aqu nos limitaremos a la principal definicin. 3.1- Media aritmtica ponderada La media aritmtica de una serie de datos es igual al ratio de la suma de estos datos entre el nmero de datos. Segn el diccionario, se trata de un nmero expresando el valor que tendran las partes de una suma si, la suma quedando invariable, todas las partes fuesen iguales entre s. A veces puede ser til otorgar pesos o valores a los datos dependiendo de su relevancia para determinado estudio. Por ejemplo si los datos estn agrupados en clases, los efectivos de clase representan el peso de cada clase considerada. La media aritmtica ponderada m de una serie estadstica con carcter discreto esta definida por la relacin:

m=

n x
i =1 n

xi : valores del carcter ni : efectivo correspondiente

i i

ni
i =1

n : representa el efectivo total N.


i =1 i

Pgina 8 de 20

Reemplazando, obtenemos:

m=

ni xi
i =1

=
i =1

n ni xi = fi xi n i =1

En conclusin:

m = fi xi
i =1

Donde f i es la frecuencia correspondiente al valor del carcter.

Ejemplo: nmero de hijos por mujer en una populacin de 30 mujeres: NMERO DE HIJOS ( xi ) Nmero de mujeres ( ni ) Frecuencia ( f i ) 0 4 1 3 2 8 3 7 4 4 5 3 6 0 7 1

0,13 0,10 0,27 0,23 0,13 0,10 0,00 0,03

A partir de la primera relacin: m = [4x0 + 3x1 + 8x2 + 7x3 + 4x4 + 3x5 + 0x6 + 1x7] / 30 = 2,6 3 A partir de la segunda relacin: m = 0,13x0 + 0,10x1 + 0,27x2 + 0,23x3 + 0,13x4 + 0,10x5 + 0x6 + 0,03x7 = 2,6 3

Seccin IV: Comparacin de los parmetros de posicin

En general, la curva de las frecuencias (supuestamente unimodal) es disimtrica y la moda, la mediana y la media aritmtica son nmeros diferentes que se reparten como lo indica la figura, en el siguiente ejemplo:

Frecuencia

m
Media

xm x0
Moda

carcter

Mediana

Pgina 9 de 20

Cuando la curva de las frecuencias es simtrica (y unimodal), los tres parmetros de posicin estn confundidos:

Frecuencia

m xm x0
Profundizaremos un poco este tema en la siguiente seccin.

carcter

Pgina 10 de 20

II PARAMETROS DE DISPERSIN:

Seccin I: Amplitud, desviacin intercuartil

Llamamos AMPLITUD de una serie estadstica a la diferencia entre los valores extremos del carcter. Se llama DESVIACIN INTERCUARTIL (tambin rango intercuartlico) a la diferencia entre el 1er y 3er cuartil.

Amplitud: b a Desviacin intercuartil: Q3 Q1 50%

Q1

Q3

Se define de manera anloga la DESVIACIN INTERDECIL la DESVIACIN INTERCENTIL:

Desviacin interdecil: D9 D1 80%

D1

xm

D9

Seccin II: Desviacin media

Llamamos DESVIACIN MEDIA a la media aritmtica de las desviaciones (en valor absoluto) con relacin a la media aritmtica.

e=

n
i =1

i n

xi m
i

n
i =1

Pgina 11 de 20

Ejemplo: Calculemos la desviacin media para el siguiente ejemplo; la media es m = 4,24 Distancia en km [0,1[ [1,2[ [2,5[ [5,10[ [10,20[ [20,50[ SUMA Centros ( xi ) 0,5 1,5 3,5 7,5 15 35

ni
353 159 255 147 59 27 1000

Efectivo acumulado 353 512 767 914 973 1000

xi m
3,74 2,74 0,74 3,26 10,76 30,76

ni xi m
1320,22 435,66 188,7 479,22 634,84 830,52 3889,16

Tenemos, sucesivamente: Amplitud: 50 (Diferencia entre el lmite inferior de la primera clase (0) y, el lmite superior de la ltima clase (50). Q1 = 0 + 1*(250 0)/353 =0,71 (Ubicamos el primer cuartil (efectivo acumulado de 250) en la clase [0;1[. Considerando que 353 observaciones se reparten de 0 a 1, buscamos hasta qu distancia llegan las primeras 250 observaciones). Q3 = 2 + 3*(750 - 512)/255 = 4,80 (Ubicamos el tercer cuartil (efectivo acumulado de 750) en la clase [2;5[. Considerando que 255 observaciones se reparten de 2 a 5, buscamos qu distancia necesitamos para llegar al nmero de observaciones que faltan para sumar 75 en total). Desviacin intercuartil: Q3 Q1 = 4,09 (La diferencia entre Q3 y Q1).

Desviacin media: e = 3889,16/1000 = 3,89 (Calculamos la diferencia entre la media y cada centro de clase (en valor absoluto). Multiplicamos para cada clase, el resultado por el efectivo de clase. Sumamos lo obtenido en cada clase y lo dividimos por el efectivo total).

Seccin III: Varianza

La VARIANZA (tambin llamada FLUCTUACIN) es la media de los cuadrados de las desviaciones con relacin a la media:

2 =

ni ( xi m)2
i =1

n
i =1

Pgina 12 de 20

La DESVIACIN ESTNDAR DESVIACIN CUADRTICA MEDIA (en ingls STANDARD DEVIATION) es la raz cuadrada de la varianza. Mide la dispersin de una variable (ms adelante definiremos lo que es una variable aleatoria).

ni ( xi m)2
i =1

n
i =1

Ejemplo: m = 4.24 Distancia en Km. [0,1[ [1,2[ [2,5[ [5,10[ [10,20[ [20,50[ SUMA Centros ( xi ) 0,5 1,5 3,5 7,5 15 35

ni
353 159 255 147 59 27 1000

xi m
-3.74 -2.74 -0.74 3.26 10.76 30.76

( xi m )

ni ( xi m )

13,99 7,51 0,55 10,63 115,78 946,18

4 937,62 1 193,71 139,64 1 562,26 6 830,88 25 546,80 40 213,30

Obtenemos: 2 = 40 213,30/1000 = 40,21 de donde = 6.34 (Elevamos al cuadrado la diferencia entre la media y cada centro de clase. Multiplicamos para cada clase, el resultado por el efectivo de clase. Sumamos lo obtenido en cada clase y lo dividimos por el efectivo total. Nos da la varianza. Sacando la raz cuadrada de la varianza, obtenemos la desviacin estndar).

Seccin IV: Asimetra y curtosis

4.1- Asimetra Hemos evocado la reparticin de los diferentes parmetros de posicin en la seccin IV del captulo anterior. El concepto de asimetra se refiere a si la curva que forman los valores de la serie presenta la misma forma a izquierda y derecha de un valor central (media aritmtica). Curva simtrica Curva asimtrica negativa Curva asimtrica positiva

Pgina 13 de 20

Para medir el nivel de asimetra se utiliza el COEFICIENTE DE ASIMETRA DE FISHER:

F=

1 n ni xi x N i =1

2 1 n n x x i i N i =1

- Si F = 0; la distribucin es simtrica; existe la misma concentracin de valores a la derecha y a la izquierda de la media. - Si F > 0; la distribucin es asimtrica positiva; existe mayor concentracin de valores a la derecha de la media que a su izquierda. - Si F < 0; la distribucin es asimtrica negativa; existe mayor concentracin de valores a la izquierda de la media que a su derecha. Ejemplo: Calculemos el Coeficiente de Asimetra de Fisher de la siguiente serie:
Variable (Estatura) 120 121 122 123 124 125 126 127 128 129 130 Efectivos

( x x)
i

ni xi x
-5.3 -17.2 -13.2 -4.6 -1.3 -0.6 2.1 5.1 10.8 11.1 14.1

ni xi x
28.09 73.96 43.56 10.58 1.69 0.18 1.47 8.67 29.16 41.07 66.27 304.7

ni xi x

ni xi x

1 4 4 2 1 2 3 3 4 3 3

-5.3 -4.3 -3.3 -2.3 -1.3 -0.3 0.7 1.7 2.7 3.7 4.7

-148.877 -318.028 -143.748 -24.334 -2.197 -0.054 1.029 14.739 78.732 151.959 311.469 -79.31

789.0481 1367.5204 474.3684 55.9682 2.8561 0.0162 0.7203 25.0563 212.5764 562.2483 1463.9043 4954.283

Calculamos la media aritmtica de la muestra: x = 125.3 Calculamos la diferencia entre la media y cada valor del carcter. Elevamos separadamente esta diferencia al cuadrado, al cubo y a la potencia 4. Multiplicamos el resultado obtenido por el efectivo correspondiente al valor del carcter. Realizamos la suma vertical de estos datos y las reemplazamos en la frmula:

n ( x x)
n i i i =1 n

= 79.31 = 304.7

n ( x x)
i i i =1

1 79.31 30 F= 0.08 3 1 2 304.7 30

Pgina 14 de 20

El Coeficiente de Asimetra de Fisher de esta muestra es -0,08, lo cual significa que presenta una distribucin asimtrica negativa (se concentran ms valores a la derecha de la media que a su izquierda). Sin embargo, pudiramos debatir de la relevancia de dicha asimetra. 4.2- Curtosis El COEFICIENTE DE CURTOSIS analiza el grado de concentracin que presentan los valores alrededor de la zona central de la distribucin.
4 1 n ni xi x N C = i =1 3 2 2 1 n N ni xi x i =1

Se definen 3 tipos de distribuciones segn su grado de curtosis: - Si C = 0; tenemos una DISTRIBUCIN MESOCRTICA: presenta un grado de concentracin medio alrededor de los valores centrales de la variable (el mismo que presenta una distribucin normal). - Si C > 0; tenemos una DISTRIBUCIN LEPTOCRTICA: presenta un elevado grado de concentracin alrededor de los valores centrales de la variable. - Si C < 0; tenemos una DISTRIBUCIN PLATICRTICA: presenta un reducido grado de concentracin alrededor de los valores centrales de la variable.

Ejemplo: Calculemos el Coefiente de Curtosis de la serie de datos anterior: Calculamos la media aritmtica de la muestra: x = 125.3 Calculamos la diferencia entre la media y cada valor del carcter. Elevamos separadamente esta diferencia al cuadrado y a la potencia 4. Multiplicamos el resultado obtenido por el efectivo correspondiente al valor del carcter. Realizamos la suma vertical de estos datos y las reemplazamos en la frmula:

n ( x x)
n i i i =1 n

= 0.00004967 = 0.03046667

n ( x x)
i i i =1

Pgina 15 de 20

1 4954.28 30 C= 3 1.40 2 1 304.7 30


El Coeficiente de Curtosis de esta muestra es -1,40, lo cual significa que se trata de una distribucin platicrtica, es decir, con una reducida concentracin alrededor de los valores centrales de la distribucin.

Seccin IV: ndice de concentracin

Ejemplo: Distancia Centros en Km. ( xi ) [0,1[ [1,2[ [2,5[ [5,10[ [10,20[ [20,50[ SUMA 0,5 1,5 3,5 7,5 15 35

ni
353 159 255 147 59 27 1000

Efectivo acumulado 353 512 767 914 973 1000

% de efectivo acumulado 35,30 51,20 76,70 91,40 97,30 100,00

ni xi
176,50 238,50 892,50 1 102,50 885,00 945,00 4 240,00

ni xi
acumulado 176,50 415,00 1 307,50 2 410,00 3 295,00 4 240,00

% de ni xi acumulado 4,16 9,79 30,84 56,84 77,71 100,00

Representemos grficamente el porcentaje de ni xi acumulados en funcin del porcentaje de efectivos acumulado. Se obtiene una curva, llamada CURVA DE LORENTZ CURVA DE CONCENTRACIN que se inscribe en un cuadrado. Si la populacin estuviera uniformemente repartida, las dos columnas (% de efectivo acumulado y % de ni xi acumulado) seran idnticas. Este caso correspondera a una concentracin nula y la curva de concentracin estara confundida con la diagonal del cuadrado (recta de equireparticin). En efecto la recta de equireparticin representa una distribucin perfectamente igualitaria. Cada porcin de la poblacin posee una parte igualitaria del valor total de la caracterstica estudiada.

Pgina 16 de 20

100

80 Recta de equireparticin % de n ixi acumulados 60

A
40

a
Curva de Lorentz 0 20 40 60 80 100 % de efectivo acumulado

20

Mientras ms se aleje la curva de Lorentz, de la recta de equireparticin, la concentracin ser ms fuerte. Conviene medir la concentracin a travs de un NDICE DE CONCENTRACIN llamado NDICE DE GINI:

ndice de Gini =

a A

Donde a es el rea de la superficie delimitada por la curva de Lorentz y la recta de equireparticin y es el rea de la mitad del cuadrado, o sea 5000. Para nuestro ejemplo, el ndice de Gini vale 0,68. Calclenlo! Se observa que el ndice de Gini esta comprendido entre 0 y 1; el valor 0 corresponde a una concentracin nula y el valor 1 a la mxima concentracin.

Pgina 17 de 20

Nota: El rea presente debajo de la curva de Lorentz puede fcilmente descomponerse en un tringulo y varios trapecios. El problema de calcular el rea por debajo de la curva de Lorentz puede traducirse en un sencillo problema geomtrico. De ah podemos deducir el rea a como la diferencia entre el rea del medio cuadrado y el rea por debajo de la curva de Lorentz.

Seccin VI: Lectura complementaria box plot

Fuente: http://www.physics.csbsju.edu/, pgina consignada a continuacin visitada el 27 de marzo del 2013: http://www.physics.csbsju.edu/stats/box2.html 6.1- Box plot "The Same and Not the Same" is a short, accurate description of most any set of data...a pile of maple leaves for example. Maple leaves have approximately the same size, but with some variation. Descriptive statistics are an attempt to use numbers to describe how data are the same and not the same. The box plot (a.k.a. box and whisker diagram) is a standardized way of displaying the distribution of data based on the five number summary: minimum first quartile median third quartile maximum

Pgina 18 de 20

In the simplest box plot the central rectangle spans the first quartile to the third quartile (the interquartile range or IQR). A segment inside the rectangle shows the median and "whiskers" above and below the box show the locations of the minimum and maximum. This simplest possible box plot displays the full range of variation (from min to max), the likely range of variation (the IQR), and a typical value (the median).

6.2 Outliers Not uncommonly real datasets will display surprisingly high maximums or surprisingly low minimums called outliers. John Tukey has provided a precise definition for two types of outliers: Outliers are either 3IQR or more above the third quartile or 3IQR or more below the first quartile. Suspected outliers are are slightly more central versions of outliers: either 1.5IQR or more above the third quartile or 1.5IQR or more below the first quartile.

If either type of outlier is present the whisker on the appropriate side is taken to 1.5IQR from the quartile (the "inner fence") rather than the max or min, and individual outlying data points are displayed as unfilled circles (for suspected outliers) or filled circles (for outliers). (The "outer fence" is 3IQR from the quartile.)

Pgina 19 de 20

Note that outliers are not necessarily "bad" data-points; indeed they may well be the most important, most information rich, part of the dataset. Under no circumstances should they be automatically removed from the dataset. Outliers may deserve special consideration: they may be the key to the phenomenon under study or the result of human blunders. 6.3 Examples and interpretation 6.3.1- Consider two datasets: A1={0.22, -0.87, -2.39, -1.79, 0.37, -1.54, 1.28, -0.31, -0.74, 1.72, 0.38, -0.17, -0.62, -1.10, 0.30, 0.15, 2.30, 0.19, -0.50, -0.09} A2={-5.13, -2.19, -2.43, -3.83, 0.50, -3.25, 4.32, 1.63, 5.18, -0.43, 7.11, 4.87, -3.10, -5.81, 3.76, 6.31, 2.58, 0.07, 5.76, 3.50} Notice that both datasets are approximately balanced around zero; evidently the mean in both cases is "near" zero. However there is substantially more variation in A2 which ranges approximately from -6 to 6 whereas A1 ranges approximately from 2 to 2.

6.3.2- One case of particular concern: One case of particular concern -where a box plot can be deceptive- is when the data are distributed into "two lumps" rather than the "one lump" cases we've considered so far. A "bee swarm" plot shows that in this dataset there are lots of data near 10 and 15 but relatively few in between. See that a box plot would not give you any evidence of this.

Pgina 20 de 20

Das könnte Ihnen auch gefallen