Sie sind auf Seite 1von 32

INSTITUTO TECNOLGICO DE MRIDA

ESTADISTICA APLICADA
UNIDAD 3
DESCRIPCION DE LOS DATOS: MEDIDAS DE
TENDENCIA CENTRAL Y DE DISPERSIN

PRESENTA:
GUILLERMO BUENFIL RICALDE
NIEVES GARCIA CASTRO
YARELI QUINTAL MARTINEZ
EMIDELFI VARGUEZ PACHECO

PROFESOR:
DR. JORGE EMETERIO MADERO LLANES

MRIDA, YUCATN, MXICO.


9 DE MARZO DE 2014

UNIDAD 3
DESCRIPCIN DE LOS DATOS: MEDIDAS DE TENDENCIA CENTRAL Y DE
DISPERSIN

3.1 Medidas de tendencia central a partir de datos agrupados

Una medida de tendencia central es un valor que se encuentra en el centro o a la mitad de un


conjunto de datos (Triola, 2013).
Las medidas de centralizacin o de posicin, tienen como propsito establecer valores
que representen lo mejor posible las caractersticas de un conjunto de datos. Las medidas de
centralizacin tienen como finalidad indicar la ubicacin del centro de la distribucin.
(Bargas & Camargo, 2004).
(Levin & Rubin, 2004) Mencionan que la tendencia central se refiere al punto medio
de una distribucin, las medidas de tendencia central se conocen tambin como medidas de
dispersin.
Para su mejor comprensin describe los siguientes conceptos:
Dispersin: se refiere a la separacin de los datos que proporcionan informacin til,
es decir al grado en que las observaciones se separan.
Existen dos caractersticas de los conjuntos de datos que proporcionan informacin
til: el sesgo y la curtosis.
Sesgo: los datos que representan los datos puntuales de un conjunto de datos pueden
ser simtricos o sesgados.
Curtosis: cuando medimos la curtosis de una distribucin estamos midiendo estamos
midiendo que tan puntiaguda es.
Triola, (2013), seala que hay muchas formas distintas de determinar el centro, por
lo que existen diferentes definiciones de las medidas de tendencia central, que incluyen la
media, la mediana, la moda y la mitad del rango.

De acuerdo con Triola, (2013), al calcular medidas de tendencia central, a menudo es


necesario redondear los resultados, por lo que utilizamos la siguiente regla
Aumente una posicin decimal a las que hay en el conjunto original de datos.
(Debido a que los valores de la moda son iguales a alguno de los datos originales,
pueden permanecer sin redondeo).
Cuando aplique esta regla, redondee solo la respuesta final y no los valores
intermedios que aparecen durante los clculos. As, la media de 2, 3, 5, es 3.333333, que
se redondea a 3.3, una posicin decimal ms que los valores originales de 2, 3, 5. Otro
ejemplo sera la media de 80.4 y 80.6, que es igual a 80.50 (una posicin decimal ms de la
que se emple para los valores originales). Debido a que la moda es uno o ms de los valores
originales, no redondeamos sus valores; simplemente se utilizan los mismos datos originales
(Triola, 2013).
Spiegel & Stephens (2007) indica que un promedio es un valor tpico o representativo
de un conjunto de datos. Como estos valores tpicos tienden a encontrarse en el centro de los
conjuntos de datos, ordenados de acuerdo con su magnitud, a los promedios se les conoce
tambin como medidas de tendencia central.
Tambin menciona que se pueden definir varios tipos de promedios; los ms usados
son la media aritmtica, la mediana, la moda, la media geomtrica y la media
armnica. Cada una de ellas tiene ventajas y desventajas de acuerdo con el tipo de
datos y el propsito de su uso.

(Webster, 1996), sealan que sin clculos con lo que medir la tendencia central, muchas
decisiones empresariales resultaran bastante difciles de tomar. El hace hincapi en las
diferencias entre estas medidas de la tendencia central no implica que una medida sea
necesariamente mejor que las dems. La medida que se elija depende de la naturaleza de los
datos o de la manera en que stos se vayan a utilizar.
Definicin de equipo:
Es el punto medio o central en el que se distribuyen los datos estos pueden ser simtricos o
sesgados.

3.1.1 Media

Bargas & Camargo (2004) definen a la media aritmtica como la medida central o promedio
en la que intervienen todos los datos de un conjunto. Cuando los datos estn organizados en
una tabla de datos agrupados la media aritmtica se calcula sumando el producto de cada
marca de clase (m) con su respectiva frecuencia (f) y dividiendo este resultado entre el total
de datos o sumatoria de las frecuencias.
=

1 1 + 2 2 + 3 3 + + ()
=

1 + 2 + 3 +

Media aritmtica (): La media aritmtica o simplemente media, que denotaremos por ,
es el nmero obtenido al dividir la suma de todos los valores de la variable entre el nmero
total de observaciones. Si los datos estn agrupados en intervalos, la expresin de la media
aritmtica, es la misma, pero utilizando la marca de clase (Xi). (Ruz, 2004)

La media aritmtica o media de un conjunto de datos es la medida de tendencia central


que se calcula al sumar los datos y dividir el total entre el nmero de datos. Si los datos son
una muestra de una poblacin, la media se simboliza mediante , (que se lee x barra);
cuando se usan todos los valores de la poblacin, la media se simboliza por medio de m (la
letra griega mu minscula). (Por lo general, los estadsticos muestrales se representan con
letras del abecedario latino como y los parmetros poblacionales con letras del alfabeto
griego como m.) (Triola, 2013).

Triola (2013), indica que la siguiente frmula se utiliza para calcular la media cuando
los datos muestrales estn resumidos en una distribucin de frecuencias.

Levin & Rubin, (2004) mencionan que para encontrar la media aritmtica de datos
agrupados, primero calculamos el punto medio de cada clase. Para lograr que los puntos
medios queden en cifras cerradas se redondea las cantidades.
Lind, Marchal, & Wathen, (2012), mencionan que para aproximar la media
aritmtica de datos organizados en una distribucin de frecuencia, comience suponiendo
que las observaciones en cada clase se representan a travs del punto medio de la clase. La
media de una muestra de datos organizados en una distribucin de frecuencias se calcula de
la siguiente manera:

donde:

designa la media muestral.


M es el punto medio de cada clase.
f es la frecuencia en cada clase.
fM es la frecuencia en cada clase multiplicada por el punto medio de la clase.
fM es la suma de estos productos.
n es el nmero total de frecuencias.

Webster (1996), menciona que en el clculo de la media aritmtica a partir de datos


agrupados se adopta la hiptesis de que las observaciones de cada clase son iguales a la
marca de clase. Aunque esta hiptesis suele ser bastante arriesgada, es probable que resulte
equilibrada, puesto que algunas de las observaciones sern mayores que la marca de clase,
mientras que otras estarn por debajo. As pues, en promedio, la hiptesis no es tan ilgica.
Una vez aceptada la hiptesis, hemos de tener en cuenta la frecuencia y la marca de clase
de cada una de las clases al calcular la media a partir de datos agrupados. La frmula es la
siguiente:
g = fM / n = fM / f

donde:
f es la frecuencia o nmero de observaciones de cada clase
M es la marca de cada clase
n es el tamao de la muestra, igual a las frecuencias combinadas en todas las clases.

(Lind, Marchal, & Wathen, 2012), sealan que las caractersticas principales de la media
aritmtica son las siguientes:
a) Por lo menos se requiere la escala de medicin de intervalo.
b) Todos los valores de los datos se incluyen en el clculo.
c) Un conjunto de datos slo posee una media. Es decir, que es nica.
d) La suma de las desviaciones de la media es igual a 0.

Levin & Rubin, (2004) mencionan las Ventajas y desventajas de la media aritmtica:
La media aritmtica, como un solo nmero que representa a un conjunto de datos
completo, tiene importantes ventajas.
Primero se trata de un concepto familiar para la mayora de las personas y es
intuitivamente claro.
Segundo cada conjunto de datos tiene una media; es una medida que puede
calcularse y es nica debido a que cada conjunto de datos tiene una media. Por
ltimo la media es til para llevar a cabo procedimientos estadsticos como la
comparacin de medias de varios conjuntos de datos.
Sus desventajas son:
La primera aunque la media es confiable en cuanto a que toma en cuenta todos los
valores del conjunto de datos, puede verse afectada por valores extremos que no son
representativos del resto de los datos.
El segundo se es incapaz de calcular la media para un conjunto de datos que tiene
clases de extremo abierto en la parte inferior o superior de la escala.

Definicin de equipo:
La media aritmtica o promedio destaca por representar el reparto equitativo, se calcula al
sumar todos los datos y dividir el total entre el nmero de datos.

Ejemplo de clculo de Media:

Ejemplo: La siguiente tabla de frecuencias del nmero de pasajeros que utilizaron las
lneas reas Pigs & People en una observacin realizada durante 50 das.
Clase
(pasajeros)
50 a 59
60 a 69
70 a 79
80 a 89
90 a 99
100 a 109

Frecuencia
(f) (das)
3
7
18
12
8
2
50

M
54.5
64.5
74.5
84.5
94.5
104.5

fM
163.5
451.5
1341.0
1014.0
756.0
209.0
3935.0

Con ayuda de la frmula podemos ver que P&P transport una media diaria de 78.7
pasajeros:
g = fM / n = 3935 / 50 = 78.7

3.1.2. Mediana

Para Bargas & Camargo (2004) la mediana es el valor central que divide en dos partes
iguales un conjunto de datos. Cuando los datos se encuentran organizados en una tabla de
datos agrupados, el calculo de la mediana se realiza empleando la siguiente frmula basada
en la llamada clase mediana, que es aquella clase o intervalo que contiene al dato o datos
centrales:

donde:


= + 2

= lmite real inferior de la clese mediana


= frecuencia total o suma de frecuencias
= frecuencia de la clase mediana

=frecuencia acumulada anterior a la clase mediana


= amplitud del intervalo de la clase mediana

Cuando los datos estn organizados en forma agrupada y la suma de las frecuencias

es impar se sabe que se tiene un dato central, a esta sumatoria se le debe sumar 1 y dividirse
entre 2 para determinar la posicin del dato central. Cuando la suma de las frecuencias es
par se tienen dos datos centrales.
Levin & Rubin, (2004) mencionan que una medida es un solo valor del conjunto de
datos que mide la observacin central del conjunto. Esta sola observacin es el elemento
que est ms al centro del conjunto de nmeros. La mitad de los elementos estn por arriba
de este punto y la otra mitad est por debajo.
La mediana de un conjunto de datos es la medida de tendencia central que implica el
valor intermedio, cuando los datos originales se presentan en orden de magnitud creciente (o
decreciente). La mediana suele denotarse con (y se lee x con tilde) (Triola, 2013).

(Lind, Marchal, & Wathen, 2012), la mediana es el valor que se encuentra en medio
de un conjunto de datos ordenados.
Las principales caractersticas de la mediana son las siguientes:
a) Se requiere por lo menos la escala ordinal de medicin.
b) No influyen sobre sta valores extremos.
c) Cincuenta por ciento de las observaciones son ms grandes que la mediana.
d) sta es nica de un conjunto de datos.
(Webster, 1996), si los datos se han recogido en una tabla de frecuencias, no se pueden
colocar en serie ordenada para calcular la mediana. Empezaremos por hallar la clase mediana
de la distribucin de frecuencias. La clase mediana es la clase cuya frecuencia acumulada es
mayor o igual que n/2. La mediana se puede determinar entonces as:
Mediana = Lmd + n/2 F (C)
fmd
donde:
Lmd es el lmite inferior de la clase mediana
F es la frecuencia acumulada que precede a la clase mediana (10)
Fmd es la frecuencia de la clase mediana
C es el intervalo de clase de la clase mediana

La mediana de un conjunto de nmeros acomodados en orden de magnitud (es decir,


en una ordenacin) es el valor central o la media de los dos valores centrales (Spiegel &
Stephens, 2007). En datos agrupados, la mediana se obtiene por interpolacin, como se
expresa por la frmula:

Geomtricamente, la mediana es el valor de X (abscisa) que corresponde a una recta


vertical que divide al histograma en dos partes que tienen la misma rea. A este valor de X
se le suele denotar:

(Spiegel & Stephens, 2007).

Continuando con el ejemplo de las lneas reas P&P, calcularemos la mediana.


Clase
(pasajeros)

Frecuencia
(f) (das)

50 a 59
60 a 69
70 a 79
80 a 89
90 a 99
100 a 109

3
7
18
12
8
2

Frecuencia
acumulada
3
10
28
40
48
50

Si utilizamos la frmula, obtendremos la mediana:

Mediana = 70 + 50/2 10 (10) = 78.33


18

As pues, podemos concluir que 25 das la mitad de los 50 supervisados volaron


por las lneas reas P&P menos de 78.33 pasajeros y los otros 25 das surcaron los cielos con
P&P ms de 78.33 pasajeros.

Definicin de equipo

La mediana indica el valor que separa los datos en dos fracciones iguales con el cincuenta
porciento de los datos cada una. Para las muestras que cuentan con un nmero impar de
observaciones o datos, la mediana dar como resultado una de las posiciones de
la serie ordenada; mientras que para las muestras con un nmero par de observaciones se
debe promediar los valores de las dos posiciones centrales.

3.1.3. Moda

Levin & Rubin, (2004) mencionan que cuando los datos ya se encuentran agrupados en una
distribucin de frecuencias, podemos suponer que la moda est localizada en la clase que
contiene mayor nmero de elementos es decir en la clase que tiene mayor frecuencia.
Triola, (2013), menciona que la moda de un conjunto de datos es el valor que se
presenta con mayor frecuencia. As mismo, indica que un conjunto de datos puede tener una
moda, ms de una moda o ninguna moda.
Cuando dos valores se presentan con la misma frecuencia y esta es la ms alta, ambos
valores son modas, por lo que el conjunto de datos es bimodal.
Cuando ms de dos valores se presentan con la misma frecuencia y esta es la ms
alta, todos los valores son modas, por lo que el conjunto de datos es multimodal.
Cuando ningn valor se repite, se dice que no hay moda.

De acuerdo con lo plasmado por Bargas & Camargo (2004) la moda es el valor o
valores que ocurren con mayor frecuencia. Para calcular la moda cuando los datos estn
organizados en una tabla de datos agrupados, se utiliza la siguiente frmula basada en la
llamada clase o intervalo modal, que es aquel intervalo o clase que tiene la mayor
frecuencia.

= +
donde:

1

1 + 2

= lmite real inferior de la clese modal

1 = diferencia entre la frecuencia de la clase modal y la frecuencia inmediata inferior

2 = diferencia entre la frecuencia de la clase modal y la frecuencia inmediata superior


= amplitud de la clase modal

(Lind, Marchal, & Wathen, 2012) La moda es el valor que se presenta con mayor frecuencia
en un conjunto de datos.
1. La moda se determina en el caso de datos de nivel nominal.
2. Un conjunto de datos puede tener ms de una moda.

(Webster, 1996), como por definicin la moda es la observacin que se presenta ms


a menudo, se encontrar en la clase de frecuencia ms alta. Esta clase de mxima frecuencia
se llama clase modal. Para estimar la moda en el caso de datos agrupados utilizaremos la
frmula:
Moda = Lmo +

Da

(C)

Db + Da
donde:
Lmo es el lmite inferior de la clase modal
Da es la diferencia entre la frecuencia de la clase modal y la de la clase que la precede
Db es la diferencia entre la frecuencia de la clase modal y la de la clase que la sigue
C es el intervalo de clase de la clase modal

La moda de un conjunto de nmeros es el valor que se presenta con ms frecuencia; es decir,


es el valor ms frecuente. Puede no haber moda y cuando la hay, puede no ser nica. A una
distribucin que slo tiene una moda se le llama unimodal. En el caso de datos agrupados,
para los que se ha construido una curva de frecuencia que se ajuste a los datos, la moda es el
valor (o los valores) de X que corresponden al punto (o puntos) mximos de la curva. A este
valor de X se le suele denotar X^ (Spiegel & Stephens, 2007).

En una distribucin de frecuencia o en un histograma la moda se puede obtener mediante la


frmula siguiente:

Ejemplo: A partir de la tabla, la moda es:

Moda = 70 +

18 - 7

(10) = 76.47

(18-12) + (18-7)
Definicin de equipo
La moda nos indica el valor que ms se repite dentro de los datos. Puede no haber moda y
cuando la hay, puede no ser nica.

3.2 Medidas de dispersin a partir de datos agrupados

Las medidas de dispersin sirven para cuantificar la variabilidad de un conjunto de datos,


es decir, describen la forma en la cual los datos estn separados o dispersos con respecto al
centro de la coleccin o conjunto. (Bargas & Camargo, 2004)
Encontrar una mediad de la tendencia central no siempre es suficiente. A veces
resulta til poder mencionar tambin el grado en que las observaciones individuales se
distribuyen en torno a dicho punto central (Webster, 1996).
Una medida de dispersin ms completa indica el grado en que las observaciones
individuales se dispersan o distribuyen alrededor de su media. As pues, vemos que una
medida de dispersin se puede utilizar para describir con ms detalle un conjunto de datos y
dar al personal estadstico una idea sobre la naturaleza de las observaciones que han sido
recogidas para su anlisis. (Webster, 1996).
El grado de dispersin de los datos numricos respecto a un valor promedio se llama
dispersin o variacin de los datos. Existen varias medidas de dispersin (o variacin); las
ms usadas son el rango, la desviacin media, el rango semi-intercuartil, el rango percentil
10-90 y la desviacin estndar (Spiegel & Stephens, 2007).

3.2.1 Desviacin estndar

Para Triola (2013), la desviacin estndar de un conjunto de valores muestrales, denotada


con s, es la medida de variacin de los valores con respecto a la media. Es un tipo de
desviacin promedio de los valores con respecto a la media. Para calcular la desviacin
estndar s (sigma minscula) de una poblacin, se utiliza una frmula ligeramente diferente:
en vez de dividir entre n - 1, se divide entre el tamao N de la poblacin, como se muestra
en la siguiente expresin:

Para calcular la desviacin estndar de datos agrupados en una distribucin de


frecuencias, pondere cada una de las diferencias cuadradas por el nmero de frecuencias en
cada clase. La frmula es:

donde:
s es el smbolo de la desviacin estndar de la muestra.
M es el punto medio de la clase.
f es la frecuencia de clase.
n es el nmero de observaciones en la muestra.
designa la media muestral.

(Lind, Marchal, & Wathen, 2012) Para determinar la desviacin estndar:


Paso 1: Reste la media del punto medio de clase.
Paso 2: Eleve al cuadrado la diferencia entre el punto medio de clase y la media.
Paso 3: Multiplique la diferencia al cuadrado entre el punto medio de clase y la media por la
frecuencia de clase.
Paso 4: Sume f(M - )2 . Para determinar la desviacin estndar, inserte estos valores en la
frmula antes mencionada.
La desviacin estndar es la raz cuadrada de la varianza. Las principales caractersticas de
la desviacin estndar son:
a) Se expresa en las mismas unidades de los datos originales.
b) Es la raz cuadrada de la distancia promedio al cuadrado de la media.
c) No puede ser negativa.
d) Es la medida de dispersin que se informa con ms frecuencia.

(Webster, 1996), menciona que si los datos estn agrupados en una tabla de frecuencias, la
desviacin estndar se puede calcular as:
s =

fM - n 2
n1

Bargas & Camargo (2004) mencionan como desviacin estndar a la raz cuadrada
del promedio de las desviaciones cuadrticas de los datos con respecto a la media aritmtica
del conjunto, o simplemente como la raz cuadrada de la varianza. Tambin llamada
desviacin tpica, es por mucho la medida de dispersin ms utilizada como una medida
representativa de un conjunto de datos. Cuando los datos estn organizados en una tabla de
datos agrupados se utiliza la frmula:

(( )2 )

= =
donde:
= marca de clase de cada intervalo

( )2 = valor de la desviacin elevada al cuadrado de cada marca de clase y la media


aritmtica
= frecuencia correspondiente a cada dato

= sumatoria de frecuencias o el total de datos

Mtodo abreviado para el clculo de la desviacin estndar

Cuando en una distribucin de frecuencia se tienen datos agrupados y los intervalos de clase
son de un mismo tamao c, se tiene dj = cuj, o Xj = A + cuj y la frmula se trasforma en:

Esta ltima frmula proporciona un mtodo muy sencillo para el clculo de la


desviacin estndar y se recomienda su uso para datos agrupados, siempre que los intervalos
de clase sean de un mismo tamao. A este mtodo se le llama mtodo de compilacin y es
exactamente anlogo al empleado en el captulo 3 para calcular la media aritmtica de datos
agrupados (Spiegel & Stephens, 2007).

Ejemplo: El director de vuelo de P&P necesita informacin sobre la dispersin del nmero
de pasajeros. Las decisiones en relacin con los horarios y el tamao ms eficiente de los
aviones dependen de la fluctuacin de la carga de pasajeros. Si esta variacin del nmero de
pasajeros es grande pueden hacer falta aviones mayores para evitar congestiones los das en
que los pasajeros son muchos. La tabla de frecuencias de P&P era:
Clase
Frecuencia
(pasajeros) (f) (das)
50 a 58
59-67
68 a 76
77 a 85
86 a 94
95 a 103

2
5
14
18
7
4
50

fM
54
63
72
81
90
99

108
315
1008
1458
630
396
3915

M2
2916
3969
5184
6561
8100
9801

fM2
5832
19845
72576
118098
56700
39204
312255

En el apartado de la media ya se haba calculado con un valor de = 78.3


Por tanto sustituyendo los valores en la frmula nos da:
s =

fM - n2
n1

s=

312,255- 50(78.3) 2 = 10.80 pasajeros


50-1

Interpretacin: El director de vuelo puede decidir ahora si los aviones que se utilizan
en la actualidad pueden absorber las fluctuaciones del nmero de pasajeros mediadas pro una
desviacin tpica de 10.8. Si no es as, quiz haya que utilizar aviones ms grandes para
acomodar el exceso, que de otro modo, se producira los das de trfico ms intenso.

3.2.2 Varianza

Triola, (2013), menciona que la varianza de un conjunto de valores es una medida de


variacin igual al cuadrado de la desviacin estndar.
Varianza muestral: el cuadrado de la desviacin estndar s.
Varianza poblacional: s2 el cuadrado de la desviacin estndar poblacional s.
La varianza tiene una gran desventaja: las unidades de la varianza son diferentes de
las unidades del conjunto original de datos. Por ejemplo, si tenemos datos que consisten en
tiempos de espera en minutos, las unidades de varianza estn dadas en minutos cuadrados
(min2), pero, qu es un minuto cuadrado? Como la varianza utiliza unidades distintas, es
sumamente difcil comprenderla si la relacionamos con el conjunto original de datos. Por esta
propiedad, es mejor enfocarnos en la desviacin estndar al tratar de comprender la variacin
(Triola, 2013).
(Lind, Marchal, & Wathen, 2012), las principales caractersticas de la varianza son:
a) Todas las observaciones se utilizan para realizar el clculo.
b) No influyen excesivamente sobre ella observaciones extremas.
c) Resulta de alguna manera difcil trabajar con las unidades, pues son las unidades originales
elevadas al cuadrado.
La varianza de un conjunto de datos se define como el cuadrado de la desviacin
estndar y, por lo tanto, corresponde al valor s2 en las ecuaciones.

Cuando es necesario distinguir la desviacin estndar de una poblacin de la


desviacin estndar de una muestra obtenida de esa poblacin, se suele emplear s para la
ltima y (letra griega sigma minscula) para la primera. De manera que s2 y 2 representan
la varianza muestral y la varianza poblacional, respectivamente (Spiegel & Stephens, 2007).

De acuerdo a lo que indican Bargas & Camargo (2004), la varianza es la medida que
representa el promedio de los cuadrados de las desviaciones de los datos con respecto a la

media aritmtica del conjunto, se simboliza con 2 . Cuando los datos estn organizados en
una tabla de datos agrupados se utiliza la siguiente relacin:

donde:

= 2 =

(( )2 )

= marca de clase de cada intervalo

( )2 = valor de la desviacin elevada al cuadrado de cada marca de clase y la media


aritmtica
= frecuencia correspondiente a cada dato

= sumatoria de frecuencias o el total de datos

3.2.3 Coeficiente de variacin

El coeficiente de variacin (o CV) de un conjunto de datos muestrales o poblacionales sin


valores negativos, expresado como porcentaje, describe la desviacin estndar en relacin
con la media. El coeficiente de variacin est dado de la siguiente forma:

3.2.4 Otras medidas de dispersin


Aunque la varianza y la desviacin tpica son las medidas de la dispersin ms tiles en
anlisis estadstico, hay otras formas de medir la dispersin de un conjunto de datos. Estas
medidas adicionales de la dispersin, que a veces resultan bastante tiles, son los cuartiles,
deciles y percentiles (Webster, 1996).

Percentiles
Los percentiles son medidas de ubicacin, que se denotan con P1, P2, , P99, las cuales
dividen un conjunto de datos en 100 grupos con aproximadamente 1% de los valores en cada
grupo. autor
Centiles o Percentiles ( Pi ), son los valores que dividen a la distribucin en 100 partes
iguales, cada una de las cuales engloba el 1 % de las observaciones. En total habr 99
percentiles. (Q2 = D5 = Me = P50) (Ruz, 2004)

Cuantiles
Los cuantiles son aquellos valores de la variable, que ordenados de menor a mayor, dividen
a la distribucin en partes, de tal manera que cada una de ellas contiene el mismo nmero
de frecuencias. (Ruz, 2004)
Webster, (1996).menciona que los cuantiles ms conocidos son:
a) Cuartiles ( Qi )
Son valores de la variable que dividen a la distribucin en 4 partes, cada una de las
cuales engloba el 25 % de las mismas. Se denotan de la siguiente forma: Q1 es el primer
cuartil que deja a su izquierda el 25 % de los datos; Q2 es el segundo cuartil que deja a su
izquierda el 50% de los datos, y Q3 es el tercer cuartil que deja a su izquierda el 75% de los
datos. (Q2 = Me).
Los cuartiles son medidas de ubicacin, que se denotan por Q1, Q2 y Q3, y dividen
un conjunto de datos ordenado en cuatro partes iguales, con aproximadamente el 25% de los
valores en cada grupo.

Q1 (primer cuartil): Separa el 25% inferior de los valores ordenados del 75% superior.
(Para ser ms precisos, al menos el 25% de los valores ordenados son menores que o iguales
a Q1, y al menos el 75% de los valores son mayores que o iguales a Q1).
Q2 (segundo cuartil): Igual a la mediana; separa el 50% inferior de los valores ordenados
del 50% superior.
Q3 (tercer cuartil): Separa el 75% inferior de los valores ordenados del 25% superior. (Para
ser ms precisos, al menos el 75% de los valores ordenados son menores que o iguales a Q3,
y al menos el 25% de los valores son mayores que o iguales a Q3).

Todo conjunto de datos tiene tres cuartiles que lo dividen en cuatro partes iguales El
primer cuartil es el valor por debajo del cual se sitan a lo sumo el 25% de las observaciones
y por encima del cual se encuentra el 75% restante. El segundo cuartil est justo en el centro,
es igual a la mediana. El tercer cuartil es el valor por debajo del cual se encuentran como
mximo el 75% de las observaciones y por encima del cual se halla el 25% restante. La
determinacin de cuartiles demuestra su utilidad con bastante frecuencia. Por ejemplo,
muchas escuelas universitarias slo admiten a los estudiantes situados en el 25% superior
(tercer cuartil) (Webster, 1996).

Deciles
Los deciles dividen un conjunto de datos en 10 subconjuntos iguales, y los percentiles dan
lugar a 100 partes. El primer decil es la observacin por debajo de la cual se encuentran como
mximo el 10% de las observaciones, mientras que el 90% restante se sitan o encima de l
(Webster, 1996).

Los deciles (Di) son los valores de la variable que dividen a la distribucin en las
partes iguales, cada una de las cuales engloba el 10 % de los datos. En total habr 9 deciles.
(Q2 = D5 = Me) (Ruz, 2004)

El primer percentil es el valor por debajo del cual se localizan no ms del 1% de las
observaciones, y el resto por encima. Cada conjunto de datos tiene 9 deciles y 99 percentiles
(Webster, 1996).

3.3 Interpretacin y usos de la desviacin estndar

Uso y comprensin de la desviacin estndar


En este apartado trataremos de dar sentido a la desviacin estndar, para que no sea solo
un nmero misterioso carente de cualquier significado prctico. Una herramienta rudimentaria
pero sencilla para comprender la desviacin estndar es la regla prctica de las desviaciones,
que se basa en el principio de que, para muchos conjuntos de datos, la vasta mayora (tanto como
el 95%) de los valores muestrales se ubican dentro de dos desviaciones estndar a partir de la
media. Es posible mejorar la exactitud de esta regla si tomamos en cuenta factores como el
tamao de la muestra y la naturaleza de la distribucin, pero preferimos sacrificar exactitud en
aras de la sencillez. Adems, podramos usar tres o incluso cuatro desviaciones estndar en vez
de dos, pero deseamos una regla sencilla que nos ayude a interpretar los valores de las
desviaciones estndar (Triola, 2013).
La desviacin estndar de un conjunto de N nmeros X1, X2, . . . , XN se denota como s y
est definida por:

Donde x representa la desviacin de cada uno de los nmeros Xj respecto a la media


X_. Por lo tanto, s es la raz cuadrada de la media (RCM) de las desviaciones respecto de la
media, o, como suele llamrsele algunas veces, la desviacin raz-media-cuadrado.
Si X1, X2, . . . , XN se presentan con frecuencias f1, f2, . . . , fK, respectivamente, la desviacin
estndar se puede expresar como:

Donde

Esta frmula es til para datos agrupados.

Propiedades de la desviacin estndar

La desviacin estndar mide la variacin entre los valores de los datos.

Los valores cercanos tienen una desviacin estndar menor, y los valores con una
variacin mucho mayor tienen una desviacin estndar ms grande.

La desviacin estndar tiene las mismas unidades de medicin (como minutos, gramos
o dlares) de los datos originales.

Para muchos conjuntos de datos, un valor es inusual si difiere de la media por ms de


dos desviaciones estndar.

Cuando se compara la variacin de dos conjuntos de datos diferentes, solo se comparan


las desviaciones estndar si los conjuntos de datos utilizan la misma escala y las mismas
unidades, y si sus medias son aproximadamente iguales.

La desviacin estndar normalmente se utiliza como medida para comparar la dispersin de


dos o ms conjuntos de observaciones (Lind, Marchal, & Wathen, 2012).

(Lind, Marchal, & Wathen, 2012), mencionan que la desviacin estndar se puede
interpretar empleando dos medidas.

A. Chebyshev (1821-1894) estableci un teorema que nos permite determinar la


mnima porcin de valores que se encuentran a cierta cantidad de desviaciones estndares de
la media. Por ejemplo, de acuerdo con el teorema de Chebyshev, por lo menos tres de cuatro
valores, o 75%, deben encontrarse entre la media ms dos desviaciones estndares y la media
menos dos desviaciones estndares. Esta relacin se cumple con independencia de la forma
de la distribucin. Adems, por lo menos ocho de los nueve valores, 88.9%, se encontrarn
ms de tres desviaciones estndares y menos tres desviaciones estndares de la media. Por lo
menos 24 de 25 valores, o 96%, se encontrar entre ms y menos cinco desviaciones
estndares de la media. El teorema de Chebyshev, establece que independientemente de la
forma de la distribucin, por lo menos 1 _ 1/k2 de las observaciones se encontrarn a k
desviaciones estndares de la media, siendo k mayor que 1.
B. La regla emprica afirma que en cualquier distribucin de frecuencias simtrica
con forma de campana, aproximadamente 68% de las observaciones se encontrarn entre ms

y menos una desviacin estndar de la media; cerca de 95% de las observaciones se


encontrarn entre ms y menos dos desviaciones estndares de la media y, de hecho todas
(99.7%), estarn entre ms y menos tres desviaciones estndares de la media.

De acuerdo con (Webster, 1996), la desviacin tpica es til para describir un


conjunto de datos porque mide el grado en que las observaciones individuales estn
diseminadas en torno a su media. Pero hay como mnimo otras dos aplicaciones de la
desviacin tpica: 1) el Teorema de Chebyshve y 2) la distribucin normal y la regla emprica.
1) El Teorema de Chebyshev, afirma que para cualquier conjunto de datos; al menos
1-1 K2 de las observaciones estn dentro de K desviaciones tpicas de la media, siendo
K, cualquier nmero mayor que 1.
2) La Distribucin normal y la regla emprica. El concepto de distribucin normal se
encuentra a cada paso en anlisis estadstico y tiene considerable importancia. Una
distribucin normal es una distribucin de datos continuos (no discretos) que da lugar
a una curva simtrica y en forma de campana. La regla emprica especfica que:
a. El 68.3% de las observaciones se sita dentro de ms o menos una desviacin
tpica de la media.
b. El 95.5% de las observaciones se sita dentro de ms o menos dos
desviaciones tpicas de la media.
c. El 99.7% de las observaciones est dentro de ms o menos tres desviaciones
tpicas de la media.
3) Otra aplicacin es el coeficiente de sesgo de Pearson. Algunas estn sesgadas a la
izquierda o a la derecha, estas condiciones de sesgo se miden con ste coeficiente:
P=3(

mediana) / s

Si P < 0, los datos estn sesgados a la izquierda; si P > 0, estn sesgados a la derecha;
si P = 0, estn distribuidos normalmente.

Ejemplo: La siguiente tabla de distribucin de frecuencias muestra la forma como se


agruparon las 110 fallas de energa elctrica.

INTERVALOS
(MIN)

FRECUENCIA
(f)

15

14

6 10

32

11 15

28

16 20

16

21 25

13

26 30

110

a) Calcular la media aritmtica


INTERVALOS
(MIN)

LIMITE
INFERIOR

LIMITE
SUPERIOR

MARCA (m)

FRECUENCIA
(f)

mf

15

0.5

5.5

14

42

6 10

5.5

10.5

32

256

11 15

10.5

15.5

13

28

364

16 20

15.5

20.5

18

16

288

21 25

20.5

25.5

23

13

299

26 30

25.5

30.5

28

196

110

1445

=
b) Calcular la mediana

() 1445
=
= 13.14

110

INTERVALOS
(MIN)

LIMITE
INFERIOR

LIMITE
SUPERIOR

FRECUENCIA
(f)

FRECUENCIA ACUMULADA
(fa)

15

0.5

5.5

14

14

6 10

5.5

10.5

32

46

11 15

10.5

15.5

28

74

16 20

15.5

20.5

16

90

21 25

20.5

25.5

13

103

26 30

25.5

30.5

110

110

= 10.5

= 110

= 28

= 46

= 5

110
46
55 46
9
5 = 10.5 +
5 = 10.5 + 5 = 10.5 + (. 321)5
= 10.5 + 2
28
28
28

= 10.5 + 1.6 = 12.1

c) Calcular la moda

INTERVALOS
(MIN)

LIMITE
INFERIOR

LIMITE
SUPERIOR

FRECUENCIA
(f)

15

0.5

5.5

14

6 10

5.5

10.5

32

11 15

10.5

15.5

28

16 20

15.5

20.5

16

21 25

20.5

25.5

13

26 30

25.5

30.5

110

= 5.5

= 5.5 +

1 = 18

2 = 4

= 5

18
18
5 = 5.5 + 5 = 5.5 + (. 82)5 = 5.5 + 4.1 = 9.6
18 + 4
22

d) Calcular la desviacin media


DESVIACIN MEDIA
INTERVALOS (MIN)

MARCA (m)

FRECUENCIA (f)

mf

|m - x|

f |m - x|

15

14

42

10.14

141.96

6 10

32

256

5.14

164.48

11 15

13

28

364

0.14

3.92

16 20

18

16

288

4.86

77.76

21 25

23

13

299

9.86

128.18

26 30

28

196

14.86

104.02

110

1445

620.32

= . . =

620.32
= 5.64
110

e) Calcular la varianza
VARIANZA Y DESVIACIN ESTANDAR
INTERVALOS (MIN)

MARCA (m)

FRECUENCIA (f)

mf

(m - x)2

f(m - x)2

15

14

42

102.82

1439.48

6 10

32

256

26.42

845.44

11 15

13

28

364

0.02

0.56

16 20

18

16

288

23.62

377.92

21 25

23

13

299

97.22

1263.86

26 30

28

196

220.82

1545.74

110

1445

= 2 =

5473
= 4975
110

f) Calcular la desviacin estndar


= = 4975 = 7.05

5473

REFERENCIAS

Bargas, R., & Camargo, M. (2004). Introduccin a la probabilidad y la estadstica.


Mexico: UADY.

Levin, R. I., & Rubin, D. S. (2004). Estadstica para administracin y economa (7a ed.).
Mxico: Pearson Educacin.

Lind, D., Marchal, W., & Wathen, S. (2012). Estadstica aplicada a los negocios y la
economa (15 ed.). Mxico: McGraw Hill.

Ruz, M. (2004). Manual de Estadstica. Sevilla: eumed.net.

Spiegel, M., & Stephens, L. (2007). Estadstica 4ta Edicin. Mxico, D.F.: McGraw Hill.

Triola, M. (2013). Estadstica (11a. ed.). Mxico: Pearson Educacion.

Webster, A. L. (1996). Estadstica aplicada a la Empresa y a la Econom (2a. ed.). Madrid:


Irwin.

Das könnte Ihnen auch gefallen