Beruflich Dokumente
Kultur Dokumente
Rango estadístico[editar]
El rango estadístico es la diferencia entre el valor máximo y el valor mínimo en un grupo de
números aleatorios. Se le suele simbolizar con R.
Ejemplo[editar]
Para la muestra (8, 7, 6, 9, 4, 3, 2, 5), el dato menor es 2 y el dato mayor es 9. Sus valores
se encuentran en un rango de:
Ejemplo[editar]
Para una muestra de valores (3, 3, 5, 6, 8), el dato de menor valor Min= 3 y el dato de
mayor valor Max= 8. El medio rango resolviéndolo mediante la correspondiente
fórmula sería:
Repres Varianza[editar]
Artículo principal: Varianza
La varianza es una medida estadística que mide la dispersión de los valores respecto a un
Propiedades[editar]
Si los datos de la distribución son multiplicados por una constante, la varianza queda
multiplicada por el cuadrado de esa constante.
LA DISPERSIÓN.
Al igual que sucede con cualquier conjunto de datos, la media, la mediana y la moda sólo nos revelan una
parte de la información que necesitamos acerca de las características de los datos. Para aumentar nuestro
entendimiento del patrón de los datos, debemos medir también su dispersión, extensión o variabilidad.
La dispersión es importante porque:
Proporciona información adicional que permite juzgar la confiabilidad de la medida de tendencia central. Si los
datos se encuentran ampliamente dispersos, la posición central es menos representativa de los datos.
Ya que existen problemas característicos para datos ampliamente dispersos, debemos ser capaces de
distinguir que presentan esa dispersión antes de abordar esos problemas.
Quizá se desee comparar las dispersiones de diferentes muestras. Si no se desea tener una amplia dispersión
de valores con respecto al centro de distribución o esto presenta riesgos inaceptables, necesitamos tener
habilidad de reconocerlo y evitar escoger distribuciones que tengan las dispersiones más grandes.
Pero si hay dispersión en la mayoría de los datos, y debemos estar en capacidad de describirla. Ya que la
dispersión ocurre frecuentemente y su grado de variabilidad es importante, ¿cómo medimos la variabilidad de
una distribución empírica?. Vamos a considerar sólo algunas medidas de dispersión absolutas: el rango, la
varianza, la desviación estándar y el coeficiente de variación.
Ejemplo:
Se tienen las edades de cinco estudiantes universitarios de Ier año, a saber: 18,23, 27,34 y 25., para calcular
la media aritmética (promedio de las edades, se tiene que:
R = Xn-X1 ) = 34-18 = 16 años
Con datos agrupados no se saben los valores máximos y mínimos. Si no hay intervalos de clases abiertos
podemos aproximar el rango mediante el uso de los límites de clases. Se aproxima el rango tomando el limite
superior de la última clase menos el limite inferior de la primera clase.
Rango para datos agrupados;
R= (lim. Sup. de la clase n – lim. Inf. De la clase 1)
Ejemplo:
Si se toman los datos del ejemplo resuelto al construir la tabla de distribución de frecuencia de las cuentas por
cobrar de Cabrera’s y Asociados que fueron los siguientes:
Ejemplo:
Si se toman los datos del ejemplo resuelto al construir la tabla de distribución de frecuencia de las cuentas por
cobrar de Cabrera’s y Asociados que fueron los siguientes:
Clases P.M. fi fr fa↓ fa↑ fra↓ fra↑
Xi
7.420 – 21.835 14.628 10 0.33 10 30 0.33 1.00
21.835 – 36.250 29.043 4 0.13 14 20 0.46 0.67
36.250 – 50.665 43.458 5 0.17 19 16 0.63 0.54
50.665 – 65.080 57.873 3 0.10 22 11 0.73 0.37
65.080 – 79.495 72.288 3 0.10 25 8 0.83 0.27
79.495 – 93.910 86.703 5 0.17 30 5 1.00 0.17
Total XXX 30 1.00 XXX XXX XXX XXX
CUARTILES
Los cuartiles son los tres valores que dividen al conjunto de datos ordenados en cuatro partes
porcentualmente iguales.
Hay tres cuartiles denotados usualmente Q1, Q2, Q3. El segundo cuartil es precisamente la mediana. El
primer cuartil, es el valor en el cual o por debajo del cual queda un cuarto (25%) de todos los valores de la
sucesión (ordenada); el tercer cuartil, es el valor en el cual o por debajo del cual quedan las tres cuartas
partes (75%) de los datos.
Datos Agrupados
Como los cuartiles adquieren su mayor importancia cuando contamos un número grande de datos y tenemos
en cuenta que en estos casos generalmente los datos son resumidos en una tabla de frecuencia. La fórmula
para el cálculo de los cuartiles cuando se trata de datos agrupados es la siguiente:
k= 1,2,3
Donde:
Lk = Límite real inferior de la clase del cuartil k
n = Número de datos
Fk = Frecuencia acumulada de la clase que antecede a la clase del cuartil k.
fk = Frecuencia de la clase del cuartil k
c = Longitud del intervalo de la clase del cuartil k
Si se desea calcular cada cuartil individualmente, mediante otra fórmula se tiene lo siguiente:
El primer cuartil Q1, es el menor valor que es mayor que una cuarta parte de los datos; es decir, aquel valor
de la variable que supera 25% de las observaciones y es superado por el 75% de las observaciones.
Donde:
L1 = limite inferior de la clase que lo contiene
P = valor que representa la posición de la medida
f1 = la frecuencia de la clase que contiene la medida solicitada.
Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada.
Ic = intervalo de clase
El segundo cuartil Q2, (coincide, es idéntico o similar a la mediana, Q2 = Md), es el menor valor que es mayor
que la mitad de los datos, es decir el 50% de las observaciones son mayores que la mediana y el 50% son
menores.
Donde:
L1 = limite inferior de la clase que lo contiene
P = valor que representa la posición de la medida
f1 = la frecuencia de la clase que contiene la medida solicitada.
Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada.
Ic = intervalo de clase
El tercer cuartil Q3, es el menor valor que es mayor que tres cuartas partes de los datos, es decir aquel valor
de la variable que supera al 75% y es superado por el 25% de las observaciones.
Donde:
L1 = limite inferior de la clase que lo contiene
P = valor que representa la posición de la medida
f1 = la frecuencia de la clase que contiene la medida solicitada.
Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada.
Ic = intervalo de clase.
Otra manera de verlo es partir de que todas las medidas no son sino casos particulares del percentil, ya que el
primer cuartil es el 25% percentil y el tercer cuartil 75% percentil.
Para Datos No Agrupados
Si se tienen una serie de valores X1, X2, X3 ... Xn, se localiza mediante las siguientes fórmulas:
- El primer cuartil:
Cuando n es par:
Cuando n es impar:
Cuando n es par:
Cuando n es impar:
Tablas de frecuencias con datos agrupados
Cuando los valores de la variable son muchos, conviene agrupar los datos
en intervalos o clases para así realizar un mejor análisis e interpretación de ellos.
• Para construir una tabla de frecuencias con datos agrupados, conociendo los
intervalos, se debe determinar la frecuencia absoluta (fi)correspondiente a cada
intervalo, contando la cantidad de datos cuyo valor está entre los extremos del
intervalo. Luego se calculan las frecuencias relativas y acumuladas, si es pertinente.
- Comenzando por el mínimo valor de la variable, que será el extremo inferior del
primer intervalo, se suma a este valor la amplitud para obtener el extremo superior y
así sucesivamente.
donde:
k= número de clases
n= tamaño muestral
Debemos tener en cuenta 2 cosas. Primero que el número de intervalos me tiene que
dar impar, segundo que el resultado se redondea generalmente a la baja. Si al
redondear a la baja nos da como resultado un número par debemos redondear al
alza. Este es el método que tiene mayor precisión.
Método Empírico: este método depende del criterio del evaluador de los datos, por lo
tanto es arbitrario. Dice lo siguiente.
5 ≥ k ≥ 20
En el problema nos dicen que debemos agruparlo en 8 intervalos o clases, con este
dato podemos calcular la amplitud o tamaño de cada intervalo, dividiendo el valor del
rango por la cantidad de intervalos que se desean obtener (en este caso son 8).
72 / 8 = 9
Hay distintas formas de construir los intervalos dependiendo del tipo de variable que
estemos trabajando.
Inferior : Lii
Superior: Lsi-1
Es importante mencionar que las clases o intervalos para las variables continuas
pueden ser de tres tipos:
abiertas: clases abiertas tienen límites determinados (a,b), pero los valores que la
contienen comprenden valores muy cercanos a estos límites sin comprenderlos a
ellos mismos, esto se representa con un intervalo definido entre paréntesis (). Esto
quiere decir que esta clase contiene valores desde a hasta b pero no contiene
exactamente a ni b solo valores muy cercanos.
cerradas: las clases cerradas, además de los valores que están entre a y b, los
contiene a ellos, y se representa con corchetes [a,b].
semiabiertas: pueden contener a o b más los valores que están entre ellos, y se
puede representar con un corchete y un paréntesis, por ejemplo, (a,b], en este caso
no contiene el valor a y si los valores de b, además de los valores que están entre
estos.
C) Registro discreto de variables continuas: Cuando la variable considerada es
continua pero ocurre que la precisión del instrumento de medida se limita a un número
finito de datos, existe la opción de construir los intervalos de tal forma que ambos
extremos estén incluidos en él.
→ Con esta información construiremos la tabla en esta ocasión con el último método
explicado.
Recuerda que:
Recuerda que:
En este caso es el intervalo 2, ya que es ahí donde se encuentran las edades entre
11 y 20 años.
Diagrama de caja
Un diagrama de caja, también conocido como diagrama de caja y bigotes, es un gráfico que
está basado en cuartiles y mediante el cual se visualiza la distribución de un conjunto de
datos. Está compuesto por un rectángulo (la «caja») y dos brazos (los «bigotes»).
Es un gráfico que suministra información sobre los valores mínimo y máximo, los cuartiles Q1,
Q2 o mediana y Q3, y sobre la existencia de valores atípicos y la simetría de la distribución.
Primero es necesario encontrar la mediana para luego encontrar los 2 cuartiles restantes
+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+
0 1 2 4 5 7 9 10 12 15
Ordenar los datos y obtener el valor mínimo, el máximo, los cuartiles Q1, Q2 y Q3 y el
rango intercuartílico (RIC):
En el ejemplo, para trazar la caja:
Los bigotes», las líneas que se extienden desde la caja, se extienden hasta los valores
máximo y mínimo de la serie o hasta 1,5 veces el RIC.
Cuando los datos se extienden más allá de esto, significa que hay valores atípicos en la
serie y entonces hay que calcular los límites superior e inferior, Li y Ls.
Para ello, se consideran atípicos los valores inferiores a Q1–1.5·RIC o superiores a
Q3+1.5·RIC.
En el ejemplo:
inferior: 7–1.5·2 = 4
superior: 9+1.5·2 = 12
Ahora se buscan los últimos valores que no son atípicos, que serán los extremos de
los bigotes.
En el ejemplo: 4 y 10
Marcar como atípicos todos los datos que están fuera del intervalo (Li, Ls).
En el ejemplo: 0,5 y 2,5
Además, se pueden considerar valores extremadamente atípicos aquellos
que exceden Q1–3·RIC o Q3+3·RIC.
De modo que, en el ejemplo:
inferior: 7–3·2 = 1
superior: 9+3·2 = 15
Utilidad[editar]
Para su realización se representan los tres cuartiles y los valores mínimo y máximo de los
datos, sobre un rectángulo, alineado horizontal o verticalmente.
Construcción:
Comparar distribuciones
Diagrama de Caja a través de Excel
Construcción:
Una gráfica de este tipo consiste en una caja rectangular, donde los lados más largos muestran
el recorrido intercuartílico. Este rectángulo está dividido por un segmento vertical que indica
donde se posiciona la mediana y por lo tanto su relación con los cuartiles primero y
tercero(recordemos que el segundo cuartil coincide con la mediana).
Esta caja se ubica a escala sobre un segmento que tiene como extremos los valores mínimo y
máximo de la variable. Las lineas que sobresalen de la caja se llaman bigotes. Estos bigotes
tienen tienen un límite de prolongación, de modo que cualquier dato o caso que no se encuentre
dentro de este rango es marcado e identificado individualmente
Utilizamos la ya usada distribución de frecuencias (en tallos y hojas), que representan la edad de
un colectivo de 20 personas.
36 25 37 24 39 20 36 45 31 31
39 24 29 23 41 40 33 24 34 40
20 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40
41 45
CALCULO DE CUARTILES
Q1, el cuartil Primero es el valor mayor que el 25% de los valores de la distribución. Como N =
20 resulta que N/4 = 5; el primer cuartil es la media aritmética de dicho valor y el siguiente:
Q2=(39 + 39) / 2 = 39
La parte izquierda de la caja es mayor que la de la derecha; ello quiere decir que las
edades comprendidas entre el 25% y el 50% de la población está más dispersa que
entre el 50% y el 75%.
El bigote de la izquierda (Xmím, Q1) es más corto que el de la derecha; por ello el 25%
de los más jóvenes están más concentrados que el 25% de los mayores.
El rango intercuartílico = Q3 - Q1 = 14,5; es decir, el 50% de la población está
comprendido en 14,5 años.