Sie sind auf Seite 1von 15

Medidas de dispersión

Las medidas de dispersión muestran la variabilidad de una distribución, indicándolo por


medio de un número, si las diferentes puntuaciones de una variable están muy alejadas de
la media. Cuanto mayor sea ese valor, mayor será la variabilidad, cuanto menor sea, más
homogénea será a la media. Así se sabe si todos los casos son parecidos o varían mucho
entre ellos.
Para calcular la variabilidad que una distribución tiene respecto de su media, se calcula la
media de las desviaciones de las puntuaciones respecto a la media aritmética. Pero la suma
de las desviaciones es siempre cero, así que se adoptan dos clases de estrategias para salvar
este problema. Una es tomando las desviaciones en valor absoluto (desviación media) y otra
es tomando las desviaciones al cuadrado (varianza).

Rango estadístico[editar]
El rango estadístico es la diferencia entre el valor máximo y el valor mínimo en un grupo de
números aleatorios. Se le suele simbolizar con R.

Requisitos del rango[editar]


 Ordenamos los números según su tamaño.
 Restamos al valor máximo el valor mínimo.

Ejemplo[editar]
Para la muestra (8, 7, 6, 9, 4, 3, 2, 5), el dato menor es 2 y el dato mayor es 9. Sus valores
se encuentran en un rango de:

Medio rango o Rango medio[editar]


El medio rango o rango medio de un conjunto de valores numéricos es la media del
mayor y menor valor. En consecuencia, el medio rango es:

Ejemplo[editar]
Para una muestra de valores (3, 3, 5, 6, 8), el dato de menor valor Min= 3 y el dato de
mayor valor Max= 8. El medio rango resolviéndolo mediante la correspondiente
fórmula sería:

Repres Varianza[editar]
Artículo principal: Varianza
La varianza es una medida estadística que mide la dispersión de los valores respecto a un

valor central (media), es decir, es el cuadrado de las desviaciones:

Propiedades[editar]

 La varianza es siempre positiva o 0:


 Si a los datos de la distribución les sumamos una cantidad constante la varianza no se
modifica.

 Si los datos de la distribución son multiplicados por una constante, la varianza queda
multiplicada por el cuadrado de esa constante.

 Propiedad distributiva: cov

entación de 1- PLANTEAMIENTO TÉORICO-CONCEPTUAL:


El conocimiento de la forma de la distribución y del respectivo promedio de una colección de valores de una
variable, puede servir para tener una idea bastante clara de la conformación, pero no de de la homogeneidad
de cada una de los valores con respecto a la medida de tendencia central aplicada.
En el caso de las variables con valores que pueden definirse en términos de alguna escala de medida de igual
intervalo, puede usarse un tipo de indicador que permite apreciar el grado de dispersión o variabilidad
existente en el grupo de variantes en estudio.
A estos indicadores les llamamos medidas de dispersión, por cuanto que están referidos a
la variabilidad que exhiben los valores de las observaciones, ya que si no hubiere variabilidad o dispersión en
los datos interés, entonces no habría necesidad de la gran mayoría de las medidas de
la estadística descriptiva.
Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un valor representativo, las
medidas de dispersión nos dicen hasta que punto estas medidas de tendencia central son representativas
como síntesis de la información. Las medidas de dispersión cuantifican la separación, la dispersión, la
variabilidad de los valores de la distribución respecto al valor central. Distinguimos entre medidas de
dispersión absolutas, que no son comparables entre diferentes muestras y las relativas que nos permitirán
comparar varias muestras.

LA DISPERSIÓN.

Al igual que sucede con cualquier conjunto de datos, la media, la mediana y la moda sólo nos revelan una
parte de la información que necesitamos acerca de las características de los datos. Para aumentar nuestro
entendimiento del patrón de los datos, debemos medir también su dispersión, extensión o variabilidad.
La dispersión es importante porque:
 Proporciona información adicional que permite juzgar la confiabilidad de la medida de tendencia central. Si los
datos se encuentran ampliamente dispersos, la posición central es menos representativa de los datos.
 Ya que existen problemas característicos para datos ampliamente dispersos, debemos ser capaces de
distinguir que presentan esa dispersión antes de abordar esos problemas.
 Quizá se desee comparar las dispersiones de diferentes muestras. Si no se desea tener una amplia dispersión
de valores con respecto al centro de distribución o esto presenta riesgos inaceptables, necesitamos tener
habilidad de reconocerlo y evitar escoger distribuciones que tengan las dispersiones más grandes.

Pero si hay dispersión en la mayoría de los datos, y debemos estar en capacidad de describirla. Ya que la
dispersión ocurre frecuentemente y su grado de variabilidad es importante, ¿cómo medimos la variabilidad de
una distribución empírica?. Vamos a considerar sólo algunas medidas de dispersión absolutas: el rango, la
varianza, la desviación estándar y el coeficiente de variación.

1.1.- EL RANGO O RECORRIDO ( R ):


Es la medida de variabilidad más fácil de calcular. Para datos finitos o sin agrupar, el rango se define como la
diferencia entre el valor más alto (Xn ó Xmax.) y el mas bajo (X1 ó Xmin) en un conjunto de datos.
Rango para datos no agrupados;
R = Xmáx.-Xmín = Xn-X1

Ejemplo:
Se tienen las edades de cinco estudiantes universitarios de Ier año, a saber: 18,23, 27,34 y 25., para calcular
la media aritmética (promedio de las edades, se tiene que:
R = Xn-X1 ) = 34-18 = 16 años
Con datos agrupados no se saben los valores máximos y mínimos. Si no hay intervalos de clases abiertos
podemos aproximar el rango mediante el uso de los límites de clases. Se aproxima el rango tomando el limite
superior de la última clase menos el limite inferior de la primera clase.
Rango para datos agrupados;
R= (lim. Sup. de la clase n – lim. Inf. De la clase 1)
Ejemplo:
Si se toman los datos del ejemplo resuelto al construir la tabla de distribución de frecuencia de las cuentas por
cobrar de Cabrera’s y Asociados que fueron los siguientes:
Ejemplo:
Si se toman los datos del ejemplo resuelto al construir la tabla de distribución de frecuencia de las cuentas por
cobrar de Cabrera’s y Asociados que fueron los siguientes:
Clases P.M. fi fr fa↓ fa↑ fra↓ fra↑
Xi
7.420 – 21.835 14.628 10 0.33 10 30 0.33 1.00
21.835 – 36.250 29.043 4 0.13 14 20 0.46 0.67
36.250 – 50.665 43.458 5 0.17 19 16 0.63 0.54
50.665 – 65.080 57.873 3 0.10 22 11 0.73 0.37
65.080 – 79.495 72.288 3 0.10 25 8 0.83 0.27
79.495 – 93.910 86.703 5 0.17 30 5 1.00 0.17
Total XXX 30 1.00 XXX XXX XXX XXX

CUARTILES
Los cuartiles son los tres valores que dividen al conjunto de datos ordenados en cuatro partes
porcentualmente iguales.
Hay tres cuartiles denotados usualmente Q1, Q2, Q3. El segundo cuartil es precisamente la mediana. El
primer cuartil, es el valor en el cual o por debajo del cual queda un cuarto (25%) de todos los valores de la
sucesión (ordenada); el tercer cuartil, es el valor en el cual o por debajo del cual quedan las tres cuartas
partes (75%) de los datos.
Datos Agrupados

Como los cuartiles adquieren su mayor importancia cuando contamos un número grande de datos y tenemos
en cuenta que en estos casos generalmente los datos son resumidos en una tabla de frecuencia. La fórmula
para el cálculo de los cuartiles cuando se trata de datos agrupados es la siguiente:
k= 1,2,3
Donde:
Lk = Límite real inferior de la clase del cuartil k
n = Número de datos
Fk = Frecuencia acumulada de la clase que antecede a la clase del cuartil k.
fk = Frecuencia de la clase del cuartil k
c = Longitud del intervalo de la clase del cuartil k
Si se desea calcular cada cuartil individualmente, mediante otra fórmula se tiene lo siguiente:
 El primer cuartil Q1, es el menor valor que es mayor que una cuarta parte de los datos; es decir, aquel valor
de la variable que supera 25% de las observaciones y es superado por el 75% de las observaciones.

Fórmula de Q1, para series de Datos agrupados:

Donde:
L1 = limite inferior de la clase que lo contiene
P = valor que representa la posición de la medida
f1 = la frecuencia de la clase que contiene la medida solicitada.
Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada.
Ic = intervalo de clase
 El segundo cuartil Q2, (coincide, es idéntico o similar a la mediana, Q2 = Md), es el menor valor que es mayor
que la mitad de los datos, es decir el 50% de las observaciones son mayores que la mediana y el 50% son
menores.

Fórmula de Q2, para series de Datos agrupados:

Donde:
L1 = limite inferior de la clase que lo contiene
P = valor que representa la posición de la medida
f1 = la frecuencia de la clase que contiene la medida solicitada.
Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada.
Ic = intervalo de clase
 El tercer cuartil Q3, es el menor valor que es mayor que tres cuartas partes de los datos, es decir aquel valor
de la variable que supera al 75% y es superado por el 25% de las observaciones.

Fórmula de Q3, para series de Datos agrupados:

Donde:
L1 = limite inferior de la clase que lo contiene
P = valor que representa la posición de la medida
f1 = la frecuencia de la clase que contiene la medida solicitada.
Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada.
Ic = intervalo de clase.
Otra manera de verlo es partir de que todas las medidas no son sino casos particulares del percentil, ya que el
primer cuartil es el 25% percentil y el tercer cuartil 75% percentil.
Para Datos No Agrupados
Si se tienen una serie de valores X1, X2, X3 ... Xn, se localiza mediante las siguientes fórmulas:
- El primer cuartil:
Cuando n es par:

Cuando n es impar:

 Para el tercer cuartil

Cuando n es par:

Cuando n es impar:
Tablas de frecuencias con datos agrupados

Cuando los valores de la variable son muchos, conviene agrupar los datos
en intervalos o clases para así realizar un mejor análisis e interpretación de ellos.

• Para construir una tabla de frecuencias con datos agrupados, conociendo los
intervalos, se debe determinar la frecuencia absoluta (fi)correspondiente a cada
intervalo, contando la cantidad de datos cuyo valor está entre los extremos del
intervalo. Luego se calculan las frecuencias relativas y acumuladas, si es pertinente.

• Si no se conocen los intervalos, se pueden determinar de la siguiente manera:


(recuerda que los intervalos de clase se emplean si las variables toman un número
grande de valores o la variable es continua).

- Se busca el valor máximo de la variable y el valor mínimo. Con estos datos


se determina el rango.

- Se divide el rango en la cantidad de intervalos que se desea tener,(por lo general se


determinan 5 intervalos de lo contrario es ideal que sea un numero impar por ejemplo
5, 7, 9) obteniéndose así la amplitud o tamaño de cada intervalo.

- Comenzando por el mínimo valor de la variable, que será el extremo inferior del
primer intervalo, se suma a este valor la amplitud para obtener el extremo superior y
así sucesivamente.

• Otra forma de calcular la cantidad de intervalos es aplicando los siguientes metodos


Método Sturges: k = 1 + 3,332 log n

donde:
k= número de clases
n= tamaño muestral

Debemos tener en cuenta 2 cosas. Primero que el número de intervalos me tiene que
dar impar, segundo que el resultado se redondea generalmente a la baja. Si al
redondear a la baja nos da como resultado un número par debemos redondear al
alza. Este es el método que tiene mayor precisión.

Método Empírico: este método depende del criterio del evaluador de los datos, por lo
tanto es arbitrario. Dice lo siguiente.

5 ≥ k ≥ 20

Veamos como se resuelve el siguiente ejercicio del libro Santillana 8:


En un centro comercial, se consultó la edad a todas las personas que entraban entre
las 12:00 h y 12:30 h. Los resultados obtenidos fueron los siguientes:
En un centro comercial, se consultó la edad a todas las personas que entraban entre
las 12:00 h y 12:30 h. Los resultados obtenidos fueron los siguientes:

- Construye una tabla de frecuencias cuyos datos estén agrupados en ocho


intervalos.

1°Para poder construir la tabla de frecuencias lo primero que debemos hacer es


calcular el rango.

El rango da la idea de proximidad de los datos a la media. Se calcula restando


el dato menor al dato mayor.

El dato mayor y el menor lo hemos destacado con color rojo:

Dato mayor - dato menor = 73 - 1 = 72

Por lo tanto; Rango = 72

En el problema nos dicen que debemos agruparlo en 8 intervalos o clases, con este
dato podemos calcular la amplitud o tamaño de cada intervalo, dividiendo el valor del
rango por la cantidad de intervalos que se desean obtener (en este caso son 8).

Amplitud: La amplitud de un intervalo es la diferencia entre el límite superior y el


límite inferior. La amplitud(A) de los intervalos puede calcularse mediante la
expresión:

72 / 8 = 9

Por lo tanto la amplitud de cada intervalo será de 9


- El valor de la amplitud se redondea al número inmediato superior de acuerdo a la
cantidad de decimales que tienen los datos o según la precisión con que se desea
trabajar.

- Puede haber intervalos con distinta amplitud.


Puede haber intervalos con amplitud indefinida (intervalos abiertos)

3° Ahora podemos comenzar a construir la tabla de frecuencias:

Hay distintas formas de construir los intervalos dependiendo del tipo de variable que
estemos trabajando.

a) Variables cuantitativas discretas: solo pueden tomar un número finito de valores.


Siendo por lo general estos valores los números naturales 1, 2, 3...Un ejemplo son el
número de hijos, el número de habitaciones de una vivienda, el número de
matrimonios de una persona. Cuando categorizamos variables discretas los límites de
clase son idénticos a los límites reales. Por ejemplo, el número de personas que viven
en una familia podemos agruparlo, De 1 hasta 2 (0 es imposible no hay ninguna
familia sin ningún miembro) De 3 hasta 4, De 5 hasta 7.

b) Variables cuantitativas continuas: Las variables continuas, por el contrario,


pueden, tomar un número infinito de valores en cualquier intervalo dado. En este caso
los valores se agrupan en intervalos cuyos límites inferior y superior serían los
siguientes:

Inferior : Lii
Superior: Lsi-1

Habitualmente, los intervalos se consideran cerrados a la izquierda y abiertos a la


derecha, es decir que el extremo inferior está incluido en el intervalo, pero el extremo
superior no.

Es importante mencionar que las clases o intervalos para las variables continuas
pueden ser de tres tipos:

abiertas: clases abiertas tienen límites determinados (a,b), pero los valores que la
contienen comprenden valores muy cercanos a estos límites sin comprenderlos a
ellos mismos, esto se representa con un intervalo definido entre paréntesis (). Esto
quiere decir que esta clase contiene valores desde a hasta b pero no contiene
exactamente a ni b solo valores muy cercanos.

cerradas: las clases cerradas, además de los valores que están entre a y b, los
contiene a ellos, y se representa con corchetes [a,b].

semiabiertas: pueden contener a o b más los valores que están entre ellos, y se
puede representar con un corchete y un paréntesis, por ejemplo, (a,b], en este caso
no contiene el valor a y si los valores de b, además de los valores que están entre
estos.
C) Registro discreto de variables continuas: Cuando la variable considerada es
continua pero ocurre que la precisión del instrumento de medida se limita a un número
finito de datos, existe la opción de construir los intervalos de tal forma que ambos
extremos estén incluidos en él.

Ej 50 a 52, 53 a 55, 56 a 58, 59 al 61 y 62 al 64

Estos serían los límites aparentes de los intervalos.

→ Con esta información construiremos la tabla en esta ocasión con el último método
explicado.

Marca clase o centro de la clase: es la semisuma de los límites de cada clase.


Representa a todos los datos que están contenidos en una clase.

Responder las siguientes preguntas:

a) Del total de personas encuestadas, ¿cuántas personas tienen entre 31 y 40 años?

Respuesta: Observamos los datos obtenidos en la tabla y tenemos que:


El dato lo obtenemos de la columna de la frecuencia absoluta.

Recuerda que:

Frecuencia absoluta acumulada es la suma de las frecuencias absolutas


observadas hasta el intervalo i.

En este caso es el intervalo 6. Por lo tanto la respuesta es 36 personas tienen 60 o


menos años.

c) ¿Cuál es la probabilidad de, que al elegir al azar a un persona consultada, esta


tenga entre 11 y 20 años?

Respuesta: Observamos los datos obtenidos en la tabla y tenemos que:

El dato lo obtenemos de la columna de frecuencia relativa.

Recuerda que:

Frecuencia relativa Corresponde a la probabilidad de pertenecer a cierta


categoría. Se puede expresar en tantos por ciento.

En este caso es el intervalo 2, ya que es ahí donde se encuentran las edades entre
11 y 20 años.

Entonces la respuesta es: La probabilidad es 14%.

Por último vamos a repasar el concepto de:

Frecuencia relativa acumulada (Hi), Es la probabilidad de observar un valor menor o


igual al valor que toma la variable en estudio en ese intervalo.

Se calcula dividiendo Fi por el número total de datos. También puedes


calcularlo Sumando la frecuencia relativa de cada grupo con la frecuencia relativa
acumulada del grupo anterior.

Si haces correctamente estos cálculos, el último grupo tendrá una frecuencia


acumulada de 1, o muy cerca de 1, permitiendo redondear el error.
Recuerda que este valor se puede expresar como porcentaje, para esto solo debes
multiplicar el valor obtenido por 100 y listo!!!

Este calculo te sirve en el caso de que te pregunten:

d) Si le preguntas a una persona cualquiera ¿Cuál es la probabilidad de que tenga 50


años o menos?

La frecuencia absoluta es el número de veces que aparece un determinado valor en un


estudio estadístico. La suma de las frecuencias absolutas es igual al número total de
datos, que se representa por N. Para indicar resumidamente estas sumas se utiliza la
letra griega Σ (sigma mayúscula) que se lee suma o sumatoria.

Diagrama de caja

Diagrama de caja (Box-Plot).

Un diagrama de caja, también conocido como diagrama de caja y bigotes, es un gráfico que
está basado en cuartiles y mediante el cual se visualiza la distribución de un conjunto de
datos. Está compuesto por un rectángulo (la «caja») y dos brazos (los «bigotes»).
Es un gráfico que suministra información sobre los valores mínimo y máximo, los cuartiles Q1,
Q2 o mediana y Q3, y sobre la existencia de valores atípicos y la simetría de la distribución.
Primero es necesario encontrar la mediana para luego encontrar los 2 cuartiles restantes

Cómo expresarlo gráficamente[editar]


Para la interpretación de este tipo de gráfico, primero obtenemos la media de cada intervalo, y
luego la mediana de la tabla de frecuencias en general. Con estos datos utilizamos la fórmula
de la media de cada intervalo elevado a la mediana. Los datos obtenidos en esta fórmula son
la interpretación.
+-----+-+
* o |-----------| | |---|
+-----+-+

+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+
0 1 2 4 5 7 9 10 12 15

 Ordenar los datos y obtener el valor mínimo, el máximo, los cuartiles Q1, Q2 y Q3 y el
rango intercuartílico (RIC):
En el ejemplo, para trazar la caja:

 Valor 7: es el Q1 (25% de los datos)


 Valor 8.5: es el Q2 o mediana (el 50% de los datos)
 Valor 9: es el Q3 (75% de los datos)
 Rango intercuartílico (Q3–Q1)

 Los bigotes», las líneas que se extienden desde la caja, se extienden hasta los valores
máximo y mínimo de la serie o hasta 1,5 veces el RIC.
Cuando los datos se extienden más allá de esto, significa que hay valores atípicos en la
serie y entonces hay que calcular los límites superior e inferior, Li y Ls.
Para ello, se consideran atípicos los valores inferiores a Q1–1.5·RIC o superiores a
Q3+1.5·RIC.
En el ejemplo:

 inferior: 7–1.5·2 = 4
 superior: 9+1.5·2 = 12
Ahora se buscan los últimos valores que no son atípicos, que serán los extremos de
los bigotes.

 En el ejemplo: 4 y 10

Marcar como atípicos todos los datos que están fuera del intervalo (Li, Ls).
En el ejemplo: 0,5 y 2,5


Además, se pueden considerar valores extremadamente atípicos aquellos
que exceden Q1–3·RIC o Q3+3·RIC.
De modo que, en el ejemplo:

 inferior: 7–3·2 = 1
 superior: 9+3·2 = 15

Utilidad[editar]

 Proporcionan una visión general de la simetría de la distribución de los datos; si la


mediana no está en el centro del rectángulo, la distribución no es simétrica.
 Son útiles para ver la presencia de valores atípicos también llamados outliers.
 Pertenece a las herramientas de las estadística descriptiva. Permite ver como es la
dispersión de los puntos con la mediana, los percentiles 25 y 75 y los valores máximos y
mínimos.
 Ponen en una sola dimensión los datos de un histograma, facilitando así el análisis de la
información al detectar que el 50% de la población está en los límites de la caja.

Diagrama de Caja y Bigotes


Los diagramas de Caja-Bigotes (boxplots o box and whiskers) son una presentación visual que
describe varias características importantes, al mismo tiempo, tales como la dispersión y
simetría.

Para su realización se representan los tres cuartiles y los valores mínimo y máximo de los
datos, sobre un rectángulo, alineado horizontal o verticalmente.

 Construcción:
 Comparar distribuciones
 Diagrama de Caja a través de Excel

Construcción:
Una gráfica de este tipo consiste en una caja rectangular, donde los lados más largos muestran
el recorrido intercuartílico. Este rectángulo está dividido por un segmento vertical que indica
donde se posiciona la mediana y por lo tanto su relación con los cuartiles primero y
tercero(recordemos que el segundo cuartil coincide con la mediana).
Esta caja se ubica a escala sobre un segmento que tiene como extremos los valores mínimo y
máximo de la variable. Las lineas que sobresalen de la caja se llaman bigotes. Estos bigotes
tienen tienen un límite de prolongación, de modo que cualquier dato o caso que no se encuentre
dentro de este rango es marcado e identificado individualmente

EJEMPLO DISTRIBUCIÓN DE EDADES

Utilizamos la ya usada distribución de frecuencias (en tallos y hojas), que representan la edad de
un colectivo de 20 personas.

36 25 37 24 39 20 36 45 31 31

39 24 29 23 41 40 33 24 34 40

ORDENAR LOS DATOS


Para calcular los parámetros estadístico, lo primero es ordenar la distribución

20 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40
41 45

CALCULO DE CUARTILES

Q1, el cuartil Primero es el valor mayor que el 25% de los valores de la distribución. Como N =
20 resulta que N/4 = 5; el primer cuartil es la media aritmética de dicho valor y el siguiente:

Q1=(24 + 25) / 2 = 24,5

Q2, el Segundo Cuartil es, evidentemente, la mediana de la distribución, es el valor de la


variable que ocupa el lugar central en un conjunto de datos ordenados. Como N/2 =10 ; la
mediana es la media aritmética de dicho valor y el siguiente:

me= Q2 = (33 + 34)/ 2 =33,5

Q3 , el Tercer Cuartil, es el valor que sobrepasa al 75% de los valores de la distribución. En


nuestro caso, como 3N / 4 = 15, resulta

Q2=(39 + 39) / 2 = 39

DIBUJAR LA CAJA Y LOS BIGOTES

El bigote de la izquierda representa al colectivo de edades ( Xmín, Q1)


La primera parte de la caja a (Q1, Q2),
La segunda parte de la caja a (Q2, Q3)
El bigote de la derecha viene dado por (Q3, Xmáx).

INFORMACIÓN DEL DIAGRAMA


Podemos obtener abundante información de una distribución a partir de estas representaciones.
Veamos alguna:

 La parte izquierda de la caja es mayor que la de la derecha; ello quiere decir que las
edades comprendidas entre el 25% y el 50% de la población está más dispersa que
entre el 50% y el 75%.
 El bigote de la izquierda (Xmím, Q1) es más corto que el de la derecha; por ello el 25%
de los más jóvenes están más concentrados que el 25% de los mayores.
 El rango intercuartílico = Q3 - Q1 = 14,5; es decir, el 50% de la población está
comprendido en 14,5 años.

Seguro que tú podrás obtener más información (¡Utiliza la mediana!)

Das könnte Ihnen auch gefallen