Beruflich Dokumente
Kultur Dokumente
ESTADISTICA APLICADA
UNIDAD 3
DESCRIPCION DE LOS DATOS: MEDIDAS DE
TENDENCIA CENTRAL Y DE DISPERSIN
PRESENTA:
GUILLERMO BUENFIL RICALDE
NIEVES GARCIA CASTRO
YARELI QUINTAL MARTINEZ
EMIDELFI VARGUEZ PACHECO
PROFESOR:
DR. JORGE EMETERIO MADERO LLANES
UNIDAD 3
DESCRIPCIN DE LOS DATOS: MEDIDAS DE TENDENCIA CENTRAL Y DE
DISPERSIN
(Webster, 1996), sealan que sin clculos con lo que medir la tendencia central, muchas
decisiones empresariales resultaran bastante difciles de tomar. El hace hincapi en las
diferencias entre estas medidas de la tendencia central no implica que una medida sea
necesariamente mejor que las dems. La medida que se elija depende de la naturaleza de los
datos o de la manera en que stos se vayan a utilizar.
Definicin de equipo:
Es el punto medio o central en el que se distribuyen los datos estos pueden ser simtricos o
sesgados.
3.1.1 Media
Bargas & Camargo (2004) definen a la media aritmtica como la medida central o promedio
en la que intervienen todos los datos de un conjunto. Cuando los datos estn organizados en
una tabla de datos agrupados la media aritmtica se calcula sumando el producto de cada
marca de clase (m) con su respectiva frecuencia (f) y dividiendo este resultado entre el total
de datos o sumatoria de las frecuencias.
=
1 1 + 2 2 + 3 3 + + ()
=
1 + 2 + 3 +
Media aritmtica (): La media aritmtica o simplemente media, que denotaremos por ,
es el nmero obtenido al dividir la suma de todos los valores de la variable entre el nmero
total de observaciones. Si los datos estn agrupados en intervalos, la expresin de la media
aritmtica, es la misma, pero utilizando la marca de clase (Xi). (Ruz, 2004)
Triola (2013), indica que la siguiente frmula se utiliza para calcular la media cuando
los datos muestrales estn resumidos en una distribucin de frecuencias.
Levin & Rubin, (2004) mencionan que para encontrar la media aritmtica de datos
agrupados, primero calculamos el punto medio de cada clase. Para lograr que los puntos
medios queden en cifras cerradas se redondea las cantidades.
Lind, Marchal, & Wathen, (2012), mencionan que para aproximar la media
aritmtica de datos organizados en una distribucin de frecuencia, comience suponiendo
que las observaciones en cada clase se representan a travs del punto medio de la clase. La
media de una muestra de datos organizados en una distribucin de frecuencias se calcula de
la siguiente manera:
donde:
donde:
f es la frecuencia o nmero de observaciones de cada clase
M es la marca de cada clase
n es el tamao de la muestra, igual a las frecuencias combinadas en todas las clases.
(Lind, Marchal, & Wathen, 2012), sealan que las caractersticas principales de la media
aritmtica son las siguientes:
a) Por lo menos se requiere la escala de medicin de intervalo.
b) Todos los valores de los datos se incluyen en el clculo.
c) Un conjunto de datos slo posee una media. Es decir, que es nica.
d) La suma de las desviaciones de la media es igual a 0.
Levin & Rubin, (2004) mencionan las Ventajas y desventajas de la media aritmtica:
La media aritmtica, como un solo nmero que representa a un conjunto de datos
completo, tiene importantes ventajas.
Primero se trata de un concepto familiar para la mayora de las personas y es
intuitivamente claro.
Segundo cada conjunto de datos tiene una media; es una medida que puede
calcularse y es nica debido a que cada conjunto de datos tiene una media. Por
ltimo la media es til para llevar a cabo procedimientos estadsticos como la
comparacin de medias de varios conjuntos de datos.
Sus desventajas son:
La primera aunque la media es confiable en cuanto a que toma en cuenta todos los
valores del conjunto de datos, puede verse afectada por valores extremos que no son
representativos del resto de los datos.
El segundo se es incapaz de calcular la media para un conjunto de datos que tiene
clases de extremo abierto en la parte inferior o superior de la escala.
Definicin de equipo:
La media aritmtica o promedio destaca por representar el reparto equitativo, se calcula al
sumar todos los datos y dividir el total entre el nmero de datos.
Ejemplo: La siguiente tabla de frecuencias del nmero de pasajeros que utilizaron las
lneas reas Pigs & People en una observacin realizada durante 50 das.
Clase
(pasajeros)
50 a 59
60 a 69
70 a 79
80 a 89
90 a 99
100 a 109
Frecuencia
(f) (das)
3
7
18
12
8
2
50
M
54.5
64.5
74.5
84.5
94.5
104.5
fM
163.5
451.5
1341.0
1014.0
756.0
209.0
3935.0
Con ayuda de la frmula podemos ver que P&P transport una media diaria de 78.7
pasajeros:
g = fM / n = 3935 / 50 = 78.7
3.1.2. Mediana
Para Bargas & Camargo (2004) la mediana es el valor central que divide en dos partes
iguales un conjunto de datos. Cuando los datos se encuentran organizados en una tabla de
datos agrupados, el calculo de la mediana se realiza empleando la siguiente frmula basada
en la llamada clase mediana, que es aquella clase o intervalo que contiene al dato o datos
centrales:
donde:
= + 2
Cuando los datos estn organizados en forma agrupada y la suma de las frecuencias
es impar se sabe que se tiene un dato central, a esta sumatoria se le debe sumar 1 y dividirse
entre 2 para determinar la posicin del dato central. Cuando la suma de las frecuencias es
par se tienen dos datos centrales.
Levin & Rubin, (2004) mencionan que una medida es un solo valor del conjunto de
datos que mide la observacin central del conjunto. Esta sola observacin es el elemento
que est ms al centro del conjunto de nmeros. La mitad de los elementos estn por arriba
de este punto y la otra mitad est por debajo.
La mediana de un conjunto de datos es la medida de tendencia central que implica el
valor intermedio, cuando los datos originales se presentan en orden de magnitud creciente (o
decreciente). La mediana suele denotarse con (y se lee x con tilde) (Triola, 2013).
(Lind, Marchal, & Wathen, 2012), la mediana es el valor que se encuentra en medio
de un conjunto de datos ordenados.
Las principales caractersticas de la mediana son las siguientes:
a) Se requiere por lo menos la escala ordinal de medicin.
b) No influyen sobre sta valores extremos.
c) Cincuenta por ciento de las observaciones son ms grandes que la mediana.
d) sta es nica de un conjunto de datos.
(Webster, 1996), si los datos se han recogido en una tabla de frecuencias, no se pueden
colocar en serie ordenada para calcular la mediana. Empezaremos por hallar la clase mediana
de la distribucin de frecuencias. La clase mediana es la clase cuya frecuencia acumulada es
mayor o igual que n/2. La mediana se puede determinar entonces as:
Mediana = Lmd + n/2 F (C)
fmd
donde:
Lmd es el lmite inferior de la clase mediana
F es la frecuencia acumulada que precede a la clase mediana (10)
Fmd es la frecuencia de la clase mediana
C es el intervalo de clase de la clase mediana
Frecuencia
(f) (das)
50 a 59
60 a 69
70 a 79
80 a 89
90 a 99
100 a 109
3
7
18
12
8
2
Frecuencia
acumulada
3
10
28
40
48
50
Definicin de equipo
La mediana indica el valor que separa los datos en dos fracciones iguales con el cincuenta
porciento de los datos cada una. Para las muestras que cuentan con un nmero impar de
observaciones o datos, la mediana dar como resultado una de las posiciones de
la serie ordenada; mientras que para las muestras con un nmero par de observaciones se
debe promediar los valores de las dos posiciones centrales.
3.1.3. Moda
Levin & Rubin, (2004) mencionan que cuando los datos ya se encuentran agrupados en una
distribucin de frecuencias, podemos suponer que la moda est localizada en la clase que
contiene mayor nmero de elementos es decir en la clase que tiene mayor frecuencia.
Triola, (2013), menciona que la moda de un conjunto de datos es el valor que se
presenta con mayor frecuencia. As mismo, indica que un conjunto de datos puede tener una
moda, ms de una moda o ninguna moda.
Cuando dos valores se presentan con la misma frecuencia y esta es la ms alta, ambos
valores son modas, por lo que el conjunto de datos es bimodal.
Cuando ms de dos valores se presentan con la misma frecuencia y esta es la ms
alta, todos los valores son modas, por lo que el conjunto de datos es multimodal.
Cuando ningn valor se repite, se dice que no hay moda.
De acuerdo con lo plasmado por Bargas & Camargo (2004) la moda es el valor o
valores que ocurren con mayor frecuencia. Para calcular la moda cuando los datos estn
organizados en una tabla de datos agrupados, se utiliza la siguiente frmula basada en la
llamada clase o intervalo modal, que es aquel intervalo o clase que tiene la mayor
frecuencia.
= +
donde:
1
1 + 2
(Lind, Marchal, & Wathen, 2012) La moda es el valor que se presenta con mayor frecuencia
en un conjunto de datos.
1. La moda se determina en el caso de datos de nivel nominal.
2. Un conjunto de datos puede tener ms de una moda.
Da
(C)
Db + Da
donde:
Lmo es el lmite inferior de la clase modal
Da es la diferencia entre la frecuencia de la clase modal y la de la clase que la precede
Db es la diferencia entre la frecuencia de la clase modal y la de la clase que la sigue
C es el intervalo de clase de la clase modal
Moda = 70 +
18 - 7
(10) = 76.47
(18-12) + (18-7)
Definicin de equipo
La moda nos indica el valor que ms se repite dentro de los datos. Puede no haber moda y
cuando la hay, puede no ser nica.
donde:
s es el smbolo de la desviacin estndar de la muestra.
M es el punto medio de la clase.
f es la frecuencia de clase.
n es el nmero de observaciones en la muestra.
designa la media muestral.
(Webster, 1996), menciona que si los datos estn agrupados en una tabla de frecuencias, la
desviacin estndar se puede calcular as:
s =
fM - n 2
n1
Bargas & Camargo (2004) mencionan como desviacin estndar a la raz cuadrada
del promedio de las desviaciones cuadrticas de los datos con respecto a la media aritmtica
del conjunto, o simplemente como la raz cuadrada de la varianza. Tambin llamada
desviacin tpica, es por mucho la medida de dispersin ms utilizada como una medida
representativa de un conjunto de datos. Cuando los datos estn organizados en una tabla de
datos agrupados se utiliza la frmula:
(( )2 )
= =
donde:
= marca de clase de cada intervalo
Cuando en una distribucin de frecuencia se tienen datos agrupados y los intervalos de clase
son de un mismo tamao c, se tiene dj = cuj, o Xj = A + cuj y la frmula se trasforma en:
Ejemplo: El director de vuelo de P&P necesita informacin sobre la dispersin del nmero
de pasajeros. Las decisiones en relacin con los horarios y el tamao ms eficiente de los
aviones dependen de la fluctuacin de la carga de pasajeros. Si esta variacin del nmero de
pasajeros es grande pueden hacer falta aviones mayores para evitar congestiones los das en
que los pasajeros son muchos. La tabla de frecuencias de P&P era:
Clase
Frecuencia
(pasajeros) (f) (das)
50 a 58
59-67
68 a 76
77 a 85
86 a 94
95 a 103
2
5
14
18
7
4
50
fM
54
63
72
81
90
99
108
315
1008
1458
630
396
3915
M2
2916
3969
5184
6561
8100
9801
fM2
5832
19845
72576
118098
56700
39204
312255
fM - n2
n1
s=
Interpretacin: El director de vuelo puede decidir ahora si los aviones que se utilizan
en la actualidad pueden absorber las fluctuaciones del nmero de pasajeros mediadas pro una
desviacin tpica de 10.8. Si no es as, quiz haya que utilizar aviones ms grandes para
acomodar el exceso, que de otro modo, se producira los das de trfico ms intenso.
3.2.2 Varianza
De acuerdo a lo que indican Bargas & Camargo (2004), la varianza es la medida que
representa el promedio de los cuadrados de las desviaciones de los datos con respecto a la
media aritmtica del conjunto, se simboliza con 2 . Cuando los datos estn organizados en
una tabla de datos agrupados se utiliza la siguiente relacin:
donde:
= 2 =
(( )2 )
Percentiles
Los percentiles son medidas de ubicacin, que se denotan con P1, P2, , P99, las cuales
dividen un conjunto de datos en 100 grupos con aproximadamente 1% de los valores en cada
grupo. autor
Centiles o Percentiles ( Pi ), son los valores que dividen a la distribucin en 100 partes
iguales, cada una de las cuales engloba el 1 % de las observaciones. En total habr 99
percentiles. (Q2 = D5 = Me = P50) (Ruz, 2004)
Cuantiles
Los cuantiles son aquellos valores de la variable, que ordenados de menor a mayor, dividen
a la distribucin en partes, de tal manera que cada una de ellas contiene el mismo nmero
de frecuencias. (Ruz, 2004)
Webster, (1996).menciona que los cuantiles ms conocidos son:
a) Cuartiles ( Qi )
Son valores de la variable que dividen a la distribucin en 4 partes, cada una de las
cuales engloba el 25 % de las mismas. Se denotan de la siguiente forma: Q1 es el primer
cuartil que deja a su izquierda el 25 % de los datos; Q2 es el segundo cuartil que deja a su
izquierda el 50% de los datos, y Q3 es el tercer cuartil que deja a su izquierda el 75% de los
datos. (Q2 = Me).
Los cuartiles son medidas de ubicacin, que se denotan por Q1, Q2 y Q3, y dividen
un conjunto de datos ordenado en cuatro partes iguales, con aproximadamente el 25% de los
valores en cada grupo.
Q1 (primer cuartil): Separa el 25% inferior de los valores ordenados del 75% superior.
(Para ser ms precisos, al menos el 25% de los valores ordenados son menores que o iguales
a Q1, y al menos el 75% de los valores son mayores que o iguales a Q1).
Q2 (segundo cuartil): Igual a la mediana; separa el 50% inferior de los valores ordenados
del 50% superior.
Q3 (tercer cuartil): Separa el 75% inferior de los valores ordenados del 25% superior. (Para
ser ms precisos, al menos el 75% de los valores ordenados son menores que o iguales a Q3,
y al menos el 25% de los valores son mayores que o iguales a Q3).
Todo conjunto de datos tiene tres cuartiles que lo dividen en cuatro partes iguales El
primer cuartil es el valor por debajo del cual se sitan a lo sumo el 25% de las observaciones
y por encima del cual se encuentra el 75% restante. El segundo cuartil est justo en el centro,
es igual a la mediana. El tercer cuartil es el valor por debajo del cual se encuentran como
mximo el 75% de las observaciones y por encima del cual se halla el 25% restante. La
determinacin de cuartiles demuestra su utilidad con bastante frecuencia. Por ejemplo,
muchas escuelas universitarias slo admiten a los estudiantes situados en el 25% superior
(tercer cuartil) (Webster, 1996).
Deciles
Los deciles dividen un conjunto de datos en 10 subconjuntos iguales, y los percentiles dan
lugar a 100 partes. El primer decil es la observacin por debajo de la cual se encuentran como
mximo el 10% de las observaciones, mientras que el 90% restante se sitan o encima de l
(Webster, 1996).
Los deciles (Di) son los valores de la variable que dividen a la distribucin en las
partes iguales, cada una de las cuales engloba el 10 % de los datos. En total habr 9 deciles.
(Q2 = D5 = Me) (Ruz, 2004)
El primer percentil es el valor por debajo del cual se localizan no ms del 1% de las
observaciones, y el resto por encima. Cada conjunto de datos tiene 9 deciles y 99 percentiles
(Webster, 1996).
Donde
Los valores cercanos tienen una desviacin estndar menor, y los valores con una
variacin mucho mayor tienen una desviacin estndar ms grande.
La desviacin estndar tiene las mismas unidades de medicin (como minutos, gramos
o dlares) de los datos originales.
(Lind, Marchal, & Wathen, 2012), mencionan que la desviacin estndar se puede
interpretar empleando dos medidas.
mediana) / s
Si P < 0, los datos estn sesgados a la izquierda; si P > 0, estn sesgados a la derecha;
si P = 0, estn distribuidos normalmente.
INTERVALOS
(MIN)
FRECUENCIA
(f)
15
14
6 10
32
11 15
28
16 20
16
21 25
13
26 30
110
LIMITE
INFERIOR
LIMITE
SUPERIOR
MARCA (m)
FRECUENCIA
(f)
mf
15
0.5
5.5
14
42
6 10
5.5
10.5
32
256
11 15
10.5
15.5
13
28
364
16 20
15.5
20.5
18
16
288
21 25
20.5
25.5
23
13
299
26 30
25.5
30.5
28
196
110
1445
=
b) Calcular la mediana
() 1445
=
= 13.14
110
INTERVALOS
(MIN)
LIMITE
INFERIOR
LIMITE
SUPERIOR
FRECUENCIA
(f)
FRECUENCIA ACUMULADA
(fa)
15
0.5
5.5
14
14
6 10
5.5
10.5
32
46
11 15
10.5
15.5
28
74
16 20
15.5
20.5
16
90
21 25
20.5
25.5
13
103
26 30
25.5
30.5
110
110
= 10.5
= 110
= 28
= 46
= 5
110
46
55 46
9
5 = 10.5 +
5 = 10.5 + 5 = 10.5 + (. 321)5
= 10.5 + 2
28
28
28
c) Calcular la moda
INTERVALOS
(MIN)
LIMITE
INFERIOR
LIMITE
SUPERIOR
FRECUENCIA
(f)
15
0.5
5.5
14
6 10
5.5
10.5
32
11 15
10.5
15.5
28
16 20
15.5
20.5
16
21 25
20.5
25.5
13
26 30
25.5
30.5
110
= 5.5
= 5.5 +
1 = 18
2 = 4
= 5
18
18
5 = 5.5 + 5 = 5.5 + (. 82)5 = 5.5 + 4.1 = 9.6
18 + 4
22
MARCA (m)
FRECUENCIA (f)
mf
|m - x|
f |m - x|
15
14
42
10.14
141.96
6 10
32
256
5.14
164.48
11 15
13
28
364
0.14
3.92
16 20
18
16
288
4.86
77.76
21 25
23
13
299
9.86
128.18
26 30
28
196
14.86
104.02
110
1445
620.32
= . . =
620.32
= 5.64
110
e) Calcular la varianza
VARIANZA Y DESVIACIN ESTANDAR
INTERVALOS (MIN)
MARCA (m)
FRECUENCIA (f)
mf
(m - x)2
f(m - x)2
15
14
42
102.82
1439.48
6 10
32
256
26.42
845.44
11 15
13
28
364
0.02
0.56
16 20
18
16
288
23.62
377.92
21 25
23
13
299
97.22
1263.86
26 30
28
196
220.82
1545.74
110
1445
= 2 =
5473
= 4975
110
5473
REFERENCIAS
Levin, R. I., & Rubin, D. S. (2004). Estadstica para administracin y economa (7a ed.).
Mxico: Pearson Educacin.
Lind, D., Marchal, W., & Wathen, S. (2012). Estadstica aplicada a los negocios y la
economa (15 ed.). Mxico: McGraw Hill.
Spiegel, M., & Stephens, L. (2007). Estadstica 4ta Edicin. Mxico, D.F.: McGraw Hill.