Sie sind auf Seite 1von 8

Boxplot o Caja de Tukey

Este ha sido un aporte fundamental realizado por Tukey (1977). Es un gráfico simple, ya que se
realiza básicamente con cinco números, pero poderoso. Se observa de una forma clara la
distribución de los datos y sus principales características. Permite compara diversos conjuntos
de datos simultáneamente. Como herramienta visual se puede utilizar para ilustrar los datos,
para estudiar simetría, para estudiar las colas, y supuestos sobre la distribución, también se
puede usar para comparar diferentes poblaciones. Este graficó contiene un rectángulo,
usualmente orientado con el sistema de coordenadas tal que el eje vertical tiene la misma
escala del conjunto de datos. La parte superior y la inferior del rectángulo coinciden con el
tercer.

Cuartil y el primer cuartil de los datos. Esta caja se divide con una línea horizontal a nivel de la
mediana. Se define un “paso” como 1.5 veces el rango intercuartil, y una línea vertical (un
bigote) se extiende desde la mitad de la parte superior de la caja hasta la mayor observación
de los datos si se encuentran dentro de un paso. Igual se hace en la parte inferior de la caja Las
observaciones que caigan más allá de estas líneas son dibujadas individualmente. La definición
de los cuartiles puede variar y otras definiciones del paso son planteadas por otros autores
(Frigge et al., 1989).

Propiedades del graficó de caja

1. Cinco números de resumen de los datos son representados gráficamente de tal forma que
proporciona información acerca de la localización, la dispersión, el sesgo y las colas del
conjunto de datos que se aprecia de una sola mirada. La localización está representada en la
línea que corta la caja y representa la mediana (que está dentro de la caja), la dispersión está
dada por la altura de la caja, como por la distancia entre los extremos de los bigotes. El sesgo
se observa en la desviación que exista entre la línea de la mediana con relación al centro de la
caja, y también la relación entre las longitudes de los bigotes. Las colas se pueden apreciar por
la longitud de los bigotes con relación a la altura de la caja, y también por las observaciones
que se marcan explícitamente.

2. El graficó de caja contiene información detallada sobre las observaciones de las colas.

3. La grafica de caja es fácil de calcular y dibujar.

4. Es de fácil explicación al usuario corriente de estadística. Existen muchas variaciones de


este graficó, las cuales tratan de involucrar otras características de los datos que en un
momento dado puedan ser de interés para el investigador, por ejemplo, a veces se utilizan
muescas en la caja para comparar la localización de diferentes muestras y ver si la diferencia es
significativa desde el punto de vista estadístico. Otros ponen una marquilla para ubicar la
media aritmética, otros deforman la caja para obtener más claridad acerca de la distribución,
por ejemplo Benjamini, (1988) crea el gr´afico “vaso”, en el cual se involucran conceptos de
estimación de densidades. Zani, Riani y Corbellini (1998) presentan una generalización del
graficó de caja a dos dimensiones.
Histogramas

El histograma es el graficó estadístico por excelencia. El histograma de un conjunto de datos es


un graficó de barras que representan las frecuencias con que aparecen las mediciones
agrupadas en ciertos rangos o intervalos. Para uno construir un histograma se debe dividir la
recta real en intervalos o clases (algunos recomiendan que sean de igual longitud) y luego
contar cuántas observaciones caen en cada intervalo. Es tal vez el ´único graficó que ha tenido
un desarrollo teórico en un ´área que se conoce con estimación de densidades (Scott, 1992). La
idea de agrupar datos en forma de histogramas se conoce desde 1662 con el trabajo de
Graunt.

Los pasos para construir el histograma son:

1. Defina los intervalos o clases de igual longitud.

2. Cuente el número de observaciones que caen en cada clase o intervalo. Esto es llamado la
frecuencia.

3. Calcule la frecuencia relativa,

Nro. de obs. en el intervalo


𝐹𝑅 =
N´umero de datos, n

4. Grafique los rectángulos cuyas alturas son proporcionales a las frecuencias relativas.

Agua Pura Brisa de 600 ml


D. May Btll D. May Btll
66.2

4
66.0

3
65.8

Frequency
65.6

2
65.4

1
65.2
65.0

65.0 65.2 65.4 65.6 65.8 66.0 66.2

DMB

D. Tap Int D. Tap Int


6
28.5

5
28.0

4
Frequency
27.5

3
27.0

2
26.5

1
26.0

25.5 26.0 26.5 27.0 27.5 28.0 28.5 29.0

DTI
D. Tap Ext D. Tap Ext

4
30.3
30.2

3
Frequency
30.1

2
30.0

1
29.9
29.8

0
29.8 29.9 30.0 30.1 30.2 30.3 30.4

DTE

D. Del Fondo D. Del Fondo

8
62.4

6
62.2

Frequency

4
62.0

2
61.8

0
61.6 61.8 62.0 62.2 62.4 62.6

DF

D. Int Rosca D. Int Rosca


7
22.4

6
22.2

5
22.0

Frequency

4
3
21.8

2
21.6

1
21.4

21.4 21.6 21.8 22.0 22.2 22.4 22.6

DIR

Dist Sup Boca Dist Sup Boca


22.2

4
22.0

3
21.8

Frequency
21.6

2
21.4
21.2

1
21.0

20.8 21.0 21.2 21.4 21.6 21.8 22.0 22.2

DSR

Dist Sup Fondo Dist Sup Fondo


18.5

4
18.4

3
18.3

Frequency
18.2

2
18.1

1
18.0
17.9

17.9 18.0 18.1 18.2 18.3 18.4 18.5

DSF

Profund Tapa Profund Tapa


13.5

3.0
13.4

2.5
13.3

2.0
13.2

Frequency

1.5
13.1

1.0
13.0

0.5
12.9
12.8

0.0

12.8 12.9 13.0 13.1 13.2 13.3 13.4 13.5

PT
Vemos que en los grafico “D. May Btll”, "D. Tap Ext" los datos tienden a concentrarse hacia la
parte inferior de la distribución y se extienden más hacia la derecha. La media suele ser mayor
que la mediana en estos casos por tanto tiene una Asimétrica positiva o sesgada a la derecha.
De igual forma observamos que en los grafico "D. Tap Int", Los tiene una Asimétrica negativa
o sesgada a la izquierda y el grafico “D Del Fondo” Los tiene una Asimétrica negativa o sesgada
a la izquierda con tres datos atípicos.

Luego vemos que los grafico “D. Int Rosca” y “Profund Tapa” los datos tienen una simetría
positiva o sesgada a la derecha, como también el grafico “Dist Sup Boca” y “Dist Sup Fondo”
los datos tiene una asimetría negativa o sesgada a la izquierda.

Cristal el Agua de vida de 600ml

D. May Btll D. May Btll


7
65.6

6
5
Frequency

4
65.2

3
2
1
64.8

64.6 64.8 65.0 65.2 65.4 65.6 65.8

DMB

D. Tap Int D. Tap Int


28.0

5
4
27.6

Frequency

3
2
27.2

1
26.8

26.8 27.0 27.2 27.4 27.6 27.8 28.0 28.2

DTI
D. Tap Ext D. Tap Ext

6
5
29.5

4
Frequency

3
29.0

2
1
28.5

0
28.0 28.5 29.0 29.5 30.0

DTE

D. Del Fondo D. Del Fondo

6
64.4

5
4
64.2

Frequency

3
64.0

2
1
63.8

0
63.6 63.8 64.0 64.2 64.4 64.6

DF

D. Int Rosca D. Int Rosca


22.2

5
22.0

4
Frequency

3
21.8

2
21.6

1
21.4

21.2 21.4 21.6 21.8 22.0 22.2

DIR

Dist Sup Boca Dist Sup Boca


18.0

5
4
17.5

Frequency

3
17.0

2
1
16.5

16.0 16.5 17.0 17.5 18.0

DSR
Dist Sup Fondo Dist Sup Fondo

5
14.9

4
Frequency

3
14.7

2
1
14.5

0
14.5 14.6 14.7 14.8 14.9 15.0

DSF

Profund Tapa Profund Tapa

3.0
11.7

2.0
11.5

Frequency

1.0
11.3
11.1

0.0
11.1 11.2 11.3 11.4 11.5 11.6 11.7 11.8

PT

Vemos que en los grafico “D. May Btll”, “D. Del Fondo” los datos tienden a concentrarse hacia
la parte inferior de la distribución y se extienden más hacia la derecha. La media suele ser
mayor que la mediana en estos casos por tanto tiene una Asimétrica positiva o sesgada a la
derecha. De igual forma observamos que en los grafico "D. Tap Int", "D. Tap Ext" Los datos
tienden a concentrarse hacia la parte superior de la distribución y se extienden más hacia la
izquierda. La media suele ser menor que la mediana en estos casos. Por tanto tiene una
Asimétrica negativa o sesgada a la izquierda.

También observamos que en el grafico “Dist Sup Fondo” los datos son simétricos donde su
media, moda, y la mediana coinciden y los datos se distribuyen de igual forma a ambos lados
de estas medidas. Luego vemos que los grafico “D. Int Rosca” y “Dist Sup Boca” los datos
tienen una simetría positiva o sesgada a la derecha, como también el grafico “Profund Tapa”
los datos tiene una asimetría negativa o sesgada a la izquierda.
Manantial de 600ml

D. May Btll D. May Btll


68.4 68.6

4
3
Frequency
68.0 68.2

2
1
67.8

0
67.6 67.8 68.0 68.2 68.4 68.6

DMB

D. Tap Int D. Tap Int

5
27.0

4
Frequency
26.5

3
2
26.0

1
25.5

25.0 25.5 26.0 26.5 27.0 27.5

DTI

D. Tap Ext D. Tap Ext


30.1 30.2

4
3
Frequency
29.9 30.0

2
1
29.8

29.7 29.8 29.9 30.0 30.1 30.2

DTE

D. Del Fondo D. Del Fondo


68.2

6
5
68.0

4
Frequency
67.8

3
2
67.6

1
0

67.4 67.6 67.8 68.0 68.2

DF
D. Int Rosca D. Int Rosca
22.1

5
4
21.9

Frequency

3
2
21.7

1
21.5

0
21.5 21.6 21.7 21.8 21.9 22.0 22.1

DIR

Dist Sup Boca Dist Sup Boca

5
17.6

4
Frequency

3
17.4

2
1
17.2

0
17.2 17.3 17.4 17.5 17.6 17.7

DSR

Dist Sup Fondo Dist Sup Fondo


4
18.6

3
18.4

Frequency

2
18.2

1
18.0

18.0 18.1 18.2 18.3 18.4 18.5 18.6 18.7

DSF

Profund Tapa Profund Tapa


5
4
10.5

Frequency

3
10.3

2
1
10.1

10.1 10.2 10.3 10.4 10.5 10.6 10.7

PT

Observamos que en el grafico “D. May Btll”, "D. Tap Ext" y “Dist Sup Boca” los datos son
simétricos. Luego vemos que los grafico “D.Tap Int”, “D. Del Fondo”, “D. Int Rosca” Los datos
tienden a concentrarse hacia la parte superior de la distribución y se extienden más hacia la
izquierda. “Profund Tapa” La media suele ser menor que la mediana en estos casos. Por tanto
tiene una Asimétrica negativa o sesgada a la izquierda con tres datos atípicos.

Das könnte Ihnen auch gefallen