Estadística Descriptiva

Estadstica Estadstica Descriptiva
M. en I. Isabel Patricia Aguilar Jurez 15

1 ESTADSTICA DESCRIPTIVA
1.1 OBJETO DE ESTUDIO Y TIPOS DE DATOS
La estadstica descriptiva es un conjunto de tcnicas que tienen por objeto organizar y
presentar de manera conveniente para su anlisis, la informacin contenida en una
muestra. Dentro de ella existen bsicamente tres tipos de tcnicas:
- Distribucin de Frecuencias
- Grficas
- Parmetros numricos
La estadstica descriptiva, en general es bastante sencilla, aunque no por ello deja de
ser interesante y sobre todo importante. Es as que si a travs de la estadstica
buscamos obtener conclusiones acerca de toda una poblacin a partir de la informacin
contenida en una muestra, parece claro que no es posible hacerlo si no somos capaces
primeramente de describir el comportamiento del conjunto de datos que tenemos a la
mano. Esto es, no podemos pretender describir o intuir lo que ocurre con lo
desconocido, si no somos capaces de describir y analizar primero lo que sucede con lo
que s conocemos. De ah la importancia de la estadstica descriptiva.
Como se mencion antes, la estadstica descriptiva es un conjunto de tcnicas, pero
cabe aclarar que dichas tcnicas no son excluyentes, sino complementarias, sin
embargo dependiendo del tipo de datos que se desee manejar, no siempre es posible
utilizarlas todas.
Identifiquemos entonces entre datos cualitativos y cuantitativos. Los datos cualitativos
se refieren, como su nombre lo dice, a informacin sobre cualidades o caractersticas
del experimento, que en ocasiones pueden estar representados por nmeros, mientras
que los datos cuantitativos son, necesariamente, datos numricos.
Existe la tendencia a pensar que todos los datos numricos son datos cuantitativos, sin
embargo esto no es as. En un proceso de medicin se pueden identificar cuatro
diferentes escalas de medidas:
a) Nominal: Es el nivel ms primitivo de medicin. En esta escala los nmeros se
utilizan como nombres y no como cantidades o magnitudes. Por lo tanto
los datos medidos en escala nominal son datos cualitativos an siendo
datos numricos.
b) Ordinal: En la escala ordinal los diferentes valores observados representan
diferentes niveles de posesin de la caracterstica observada, entre las
diferentes unidades, aunque no es posible comparar dichos niveles a
travs de los valores observados. Esto significa que los datos aunque no
son comparables se pueden ordenar. Un ejemplo de mediciones con esta
escala son las observaciones del status econmico de una persona (alto,
medio, bajo, etc.). Podran considerarse las mediciones realizadas en esta
escala como datos cualitativos.
c) Intervalar: Es una forma ms fina de medir, que la escala ordinal y desde luego
que la nominal. Los datos medidos en esta escala representan la
magnitud de las diferencias entre distintas unidades observadas,
aunque las mediciones an no son del todo comparables. Por otro lado,
el cero en esta escala de medicin es arbitrario y no implica la ausencia
total de la caracterstica medida. Por ejemplo considere mediciones
relacionadas con el coeficiente intelectual de diferentes personas, a
partir de dichas mediciones no se puede considerar que una persona A
que tiene el C.I. del doble de otra B, sea doblemente inteligente que B.
Otro ejemplo es la medicin de temperaturas en grados Fahrenheit.
Aunque la diferencia entre 20
o
F y 45
o
F es la misma que entre 90
o
F y
105
o
F, sin embargo en cuanto a la cantidad de calor, 90
o
F no es el
doble que 45
o
F y 0
o
F no significa ausencia de temperatura.
d) De razn: La escala de razn es una escala intervalar, nicamente que considera
un cero absoluto, esto es, los nmeros medios representan igual
nmero de unidades de distancia del cero absoluto, por lo tanto las
observaciones se pueden comparar a travs de razones o
porcentajes. Como ejemplos se puede mencionar las mediciones del
tiempo, la temperatura y la distancia entre otras.
Como se mencion anteriormente, el tipo de datos que se maneja en una investigacin
limita la utilizacin de algunos mtodos estadsticos para el anlisis de la informacin.
As, para describir datos cualitativos lo usual es utilizar mtodos grficos, ya que por las
caractersticas de las otras tcnicas, no es posible aplicarlas con ese tipo de
informacin, mientras que para analizar datos cuantitativos (intervalares o de razn)
pueden aplicarse los tres tipos de tcnicas mencionadas anteriormente y en este caso,
como se dijo antes, se apoyan unas con otras, para lograr una mejor y ms amplia
descripcin del conjunto de datos.
En muchas ocasiones no es posible elegir la escala en la que se desea efectuar las
mediciones, sino que esta est determinada por el tipo de experimento que se
observar. De cualquier manera, el objetivo de presentar las cuatro escalas de
medicin no es preocuparse por realizar una clasificacin precisa de los datos en
alguna de las cuatro escalas, ya que en muchos casos puede haber ambigedad y no
resulta un problema sencillo, sino nicamente identificar entre los distintos tipos de
datos que usualmente se manejan, con el fin de determinar el tipo de tcnicas
utilizables en el anlisis de la informacin, as como cuidar la interpretacin que se
haga de los datos y de los resultados que a partir de ellos se generen.
Describiremos a continuacin cada una de las tcnicas de la estadstica descriptiva, as
como su aplicabilidad de acuerdo al tipo de datos que constituyan la muestra.
2.2 DISTRIBUCIN DE FRECUENCIAS
La construccin de Tablas de Distribucin de Frecuencias es una tcnica muy usual en
la estadstica ya que hace ms eficiente el anlisis de conjuntos grandes de datos. La
tabla de distribucin de frecuencias se utiliza principalmente para el anlisis de datos
cuantitativos, no obstante, tambin es comn realizar agrupaciones de datos
cualitativos, aunque realmente tales agrupaciones no son tablas de distribucin de
frecuencias propiamente dichas, sino solamente una organizacin de la informacin en
la que el objetivo es cuantificar el nmero de veces que se observ cada unidad de
informacin.
Ejemplo 1.1
En los estudios demogrficos de un pas suele ser de inters la poblacin de cada una
de las diferentes razas: Blanca, China, Arabe, India, Negra, Mestiza. Se selecciona de
manera aleatoria un grupo de 2500 personas de la poblacin del pas y se investiga
cul es su origen. Los resultados se obtendran de manera personal, ya que seran las
respuestas a la pregunta cul es su raza de orgen?, sin embargo, un primer intento
para analizar la informacin es agruparla, y el resultado sera una tabla como la
siguiente:
Raza del
encuestado
Nmero de
personas
Blanca 500
China 800
Arabe 300
India 250
Negra 300
Mestiza 350
Definicin 1.1:
Una tabla de distribucin de frecuencias es una clasificacin de los datos en clases o
categoras de acuerdo a sus valores.
Este tipo de clasificacin es comn en la presentacin de datos econmicos, censales,
etc.
Un ejemplo tpico de una tabla de distribucin de frecuencias es la que se muestra a
continuacin.
Lmites de
clase
Marcas de
clase
x
i
Frecuencia
f
i
Frecuencia
acumulada
F
i
Frecuencia
relativa
f
i

*
Frecuencia
relativa
acumulada
F
i

*
-2 x < 7 2 2 2 0.05 0.05
7 x < 16 11 4 6 0.1 0.15
16 x < 25 20 7 13 0.175 0.325
25 x < 34 29 14 27 0.35 0.675
34 x < 43 38 8 35 0.2 0.875
43 x < 52 47 5 40 0.125 1.000
40
Tabla 1.1 Tabla clsica de distribucin de frecuencias.
Como se puede observar, una tabla completa de distribucin de frecuencias consta de
seis columnas cuyo contenido se explicar enseguida.
Si aceptamos que en la construccin de una tabla de distribucin de frecuencias se
realizar una clasificacin de los datos, resulta claro que es indispensable contar,
primeramente, con el criterio de clasificacin a utilizar, mismo que se define a travs de
los lmites de clase bien mediante las fronteras de clase.
Lmites de clase: Constituyen un intervalo semiabierto ( cerrado por la izquierda y
abierto por la derecha). Los datos en la muestra, que sean mayores o iguales al lmite
inferior de la clase y menor que el lmite superior de ella misma, pertenecern a la clase
en cuestin. Los lmites de clase tendrn la misma aproximacin que los datos, es
decir:
Aproximacin
de los datos
Aproximacin
de los lmites
enteros enteros
dcimas dcimas
centsimas centsimas
Con este criterio se puede deducir de la tabla 1.1 que los datos que en ella se
agruparon eran todos nmeros enteros.
Para que la agrupacin sea vlida, absolutamente todos los datos en la muestra se
deben poder clasificar con el criterio dado por los lmites, esto significa que ninguno
debe estar fuera de esta clasificacin. Por lo tanto, tambin podemos estar seguros de
que en la supuesta muestra agrupada en la tabla 1.1, ningn dato es menor que -2
como tampoco existe ningn dato mayor que 52.
Marca de clase (x
i
): Es el punto medio del intervalo de clase y se considera
representativo de los datos en dicha clase.
Frecuencia (f
i
): Es el nmero de datos de la muestra que corresponden a la clase en
cuestin. Para determinar la frecuencia de una clase, basta con realizar un conteo del
nmero de observaciones en la muestra, identificando aquellos datos que caen dentro
del intervalo indicado por los lmites de clase.
Frecuencia acumulada (F
i
): Es el nmero de datos en la muestra cuyo valor es menor
que el lmite superior de la clase en cuestin. Para calcular F
i
basta contabilizar las
frecuencias observadas en la clase de inters y las anteriores. Esto es,
f
=
F j
i
1 = j
i
Frecuencia relativa (f
i
*
): Es la proporcin de los datos en la muestra que pertenecen a
la clase en cuestin. Si denotamos por n al nmero de datos en la muestra y a i como
el nmero de la clase, la frecuencia relativa se expresa como sigue:
f
f
=
n
f
=
f
j
m
1 = j
i i *
i
en donde m es el nmero de clases construidas en la tabla de distribucin de

frecuencias.
Podramos identificar en este momento una primera relacin entre la probabilidad y la
estadstica, ya que si recordamos, la interpretacin frecuentista de la probabilidad
define la probabilidad de un evento como la frecuencia relativa con la que dicho evento
ocurre en un nmero grande de repeticiones del experimento bajo estudio, por lo tanto,
si nuestra muestra fuera grande, podramos pensar que la frecuencia relativa de clase
se aproximara a la probabilidad de que la v.a. poblacional tome valores en dicha clase.
Evidentemente, se tendr una mejor aproximacin cuanto ms grande sea la clase.
Frecuencia relativa acumulada (F
i
*
): Es la proporcin de los datos en la muestra que
son menores que el lmite superior de la clase en cuestin.
f
F
=
n
F
=
F
j
m
1 = j
i i *
i
en donde nuevamente m es el nmero de clases construidas.

Por extensin, se puede concluir que la frecuencia acumulada relativa se asemeja a la
funcin de distribucin, y que la semejanza ser mayor siempre que la muestra sea
ms grande.
Lontigud de la clase: Se denota por c y es la diferencia entre los lmites superior e
inferior de una misma clase.
En este momento estamos en condiciones de interpretar la informacin contenida en
una tabla de distribucin de frecuencias, sin embargo queda an sin resolver el
problema importante de la construccin de una de ellas, a partir de un conjunto de
datos. Es claro que la agrupacin de datos en tablas es ventajosa puesto que permite
analizar la informacin contenida en la muestra, de una manera ms sencilla, dado que
disminuye el volumen de informacin con la que tendr que trabajar, sin embargo tiene
la desventaja de que al agrupar, se pierde precisin en los datos que se manejarn,
con una consecuente prdida en la precisin de las conclusiones que se obtengan a
partir de dicha informacin. Para evitar al mximo la prdida de informacin que provee
la muestra, es necesario cuidar la construccin
1
de la tabla de distribucin de

1
Cabe aclarar que la que aqu se presentar es una forma particular de construccin de una tabla de
distribucin de frecuencias, no as la nica, ya que en este sentido no hay un consenso. Existen
algunas forma alternas de construccin, sin embargo, las diferencias que existen entre ellas son de
forma y no de fondo, por lo cual es relativamente sencillo interpretar la informacin contenida en otra
tabla de distribucin de frecuencias construida de alguna otra forma, y los resultados que de dicho
anlisis se obtengan no tendrn diferencias radicales con los generados mediante la construccin que
aqu haremos, atribuibles a la forma de realizar la agrupacin.
frecuencias y por ello es conveniente tomar en consideracin las siguientes
recomendaciones empricas:
1.- La tabla de distribucin de frecuencias constar de entre 5 y 20 clases, inclusive.
2.- Todas las clases sern de la misma longitud (c).
Mostraremos la forma de construccin de una tabla de distribucin de frecuencias, a
travs de un ejemplo.
Ejemplo 1.2
Considere los siguientes nmeros de inscripcin de algunos estudiantes de la Facultad
de Ingeniera. Agrpelos en una tabla de distribucin de frecuencias.
1045 802 2265 1120 639 1882 210 120
784 847 1123 1249 2526 1370 1767 4623
491 1029 1305 923 1313 2772 1465 193
3073 2002 933 985 1565 947 1303 460
650 55 531 2181 2004 5308 1800 1706
2045 415 1400 946 1703 2039
Resolucin
Recordemos que para que la tabla que se construya se pueda considerar adecuada
para analizar los datos, se requiere que contenga a todos los datos en la muestra. As,
es necesario conocer el rango en el que se encuentran los datos, para lo cual se tiene
la siguiente definicin:
Rango de la muestra: Es la diferencia entre los valores (datos) mayor y menor de la
muestra.
En este caso se tiene que
Rango = 5308 - 55 = 5253
Para determinar ahora la longitud de clase, se puede empezar por establecer el
nmero de clases que conviene construir, para lo cual se puede considerar como valor
adecuado el resultado de calcular n
Esto es,
m = 7 46
Como el lmite inferior de la primera clase debe ser un valor un poco menor al mnimo,
utilicemos 54. Por lo tanto, la longitud de clase ser 750 57 . 750
7
54 - 5308

Por al razn utilizaremos c = 750.
Como ya dijimos, el lmite inferior de la primera clase ser 54. La tabla resultante ser
la que se muestra:
Lmites x
i
f
i
F
i
f
i

*
F
i

*
54 - 804 429 12 12 0.2609 0.2609
804 - 1554 1179 17 29 0.3696 0.6304
1554 - 2304 1929 12 41 0.2609 0.8913
2304 - 3054 2679 2 43 0.0435 0.9348
3054 - 3804 3429 1 44 0.0217 0.9565
3804 - 4554
4179 0 44 0.0000 0.9565
4554 - 5304
4929 1 45 0.0217 0.9783
5304 - 6054 5679
1 46 0.0217 1.0000
46
Descripcin grfica de los datos
Generalmente, cuando se desea hacer una presentacin clara de un conjunto de
datos, se elige una forma grfica. As, se acostumbra presentar grficamente los
resultados de una compaa, se hacen grficas comparativas de las utilidades de una
empresa, se hacen grficas que muestren la composicin de una poblacin (% de
hombres adultos, % de mujeres adultas, %de nios), etc.
En realidad para todos es ms claro comprender cul es el comportamiento de un
conjunto de datos si ste se presenta de manera grfica, que si se muestra nicamente
a travs de valores numricos. Por ello, existen una gran variedad de grficas, sin
embargo utilizaremos solamente algunas de ellas.
Consideremos nuevamente el tipo de datos a manejar. Usualmente para la
representacin de datos cualitativos se utilizan, entre otros, dos tipos de grficas:
- Grficas de barras
- Grficas de sectores circulares ( grficas de pie).
Por su parte, para representar el comportamiento de datos cuantitativos existe tambin
una amplia variedad de posibilidades de grficas, pero nicamente presentaremos tres
de ellas:
- Histograma de frecuencias
- Polgono de frecuencias
- Ojiva o polgono de frecuencias acumuladas
1.- Histograma de Frecuencias
Es una grfica formada por barras rectangulares cuyas bases se centran en las marcas
de clase de una distribucin de frecuencias y sus reas representan las frecuencias
absolutas o relativas correspondientes. Ntese que de acuerdo con esta definicin no
se requiere ms que un eje, en el cual se identificarn las marcas de clase conforme a
las clases que se hayan construido.
Cabe insistir en que en este caso tambin es solo una de las construcciones posibles o
conocidas, sin embargo tiene la ventaja de que es fcil encontrar la similitud entre el
histograma de frecuencias relativas, y el histograma de probabilidad que se construye
en probabilidad para las funciones de probabilidad. Por otro lado, se mantiene la
concepcin de la probabilidad de un evento como rea, que resulta til para la ms fcil
comprensin del concepto de funcin de densidad en el caso de variables aleatorias
continuas.
A continuacin se muestra el histograma de frecuencias absolutas para los datos del
ejemplo:
Histograma de Frecuencias
12
17
12
2 1 0 1 1
0
2
4
6
8
10
12
14
16
18
429 1179 1929 2679 3429 4179 4929 5679
marcas de clase
Tambin es comn construir el histograma de frecuencias como una grfica en el plano
cartesiano, considerando a las frecuencias como las alturas de las barras, tal como se
muestra a continuacin.
Histograma de Frecuencias
0
2
4
6
8
10
12
14
16
18
429 1179 1929 2679 3429 4179 4929 5679
marcas de clase
f
r
e
c
u
e
n
c
i
a
s
2.- Polgono de Frecuencias
Es una grfica poligonal que representa para cada marca de clase la frecuencia de
dicha clase y se construye uniendo, mediante lneas rectas, los puntos medios de las
bases superiores de las barras del histograma de frecuencias. Es claro que tampoco se
requiere trazar ms que un eje, para hacer la grfica del polgono de frecuencias.
Como caso particular se presenta a continuacin la grfica del polgono de frecuencias
de los datos del ejemplo anterior.
Polgono de Frecuencias
0
2
4
6
8
10
12
14
16
18
429 1179 1929 2679 3429 4179 4929 5679
Marcas de Clase
F
r
e
c
u
e
n
c
i
a
Existe una forma alternativa de trazar la grfica del polgono de frecuencias, sin
necesidad de hacerlo sobre el histograma. Observe la siguiente grfica.
Polgono de Frecuencias
0
2
4
6
8
10
12
14
16
18
429 1179 1929 2679 3429 4179 4929 5679
Marcas de Clase
F
r
e
c
u
e
n
c
i
a
s
3.- Ojiva
Es una grfica poligonal que representa para cada lmite de clase la frecuencia
acumulada o la frecuencia relativa acumulada hasta dicha frontera. Cuando la que se
representa es la frecuencia relativa acumulada se le llama ojiva porcentual. A diferencia
de las grficas anteriores, para trazar esta grfica si es indispensable contar con los
dos ejes coordenados.
Es claro que la diferencia entre la ojiva y la ojiva porcentual no es la forma de ellas,
sino solamente que una de ellas es el resultado de trasladar a la otra hacia arriba o
hacia abajo, dependiendo de cual se est tomando como base.
La ojiva porcentual es, adems, una aproximacin a la grfica de la funcin de
distribucin de la variable aleatoria que represente a la poblacin.
Ejemplo:
Considere la siguiente tabla de distribucin de frecuencias. Trace la ojiva
correspondiente.
Lmites x
i
f
i
F
i
f
i

*
F
i

*
27 - 30 28.5 2 2 0.667 0.066
30 - 33 31.5 3 5 0.1 0.167
33 - 36 34.5 9 14 0.3 0.467
36 - 39 37.5 5 19 0.167 0.633
39 - 42 40.5 2 21 0.667 0.7
42 - 45 43.5 4 25 0.133 0.833
45 - 48 46.5 3 28 0.1 0.933
48 - 51 49.5 1 29 0.033 0.967
51 - 54 52.5 1 30 0.033 1
30
Polgono de Frecuencias Acumuladas
(Ojiva)
0
5
10
15
20
25
30
35
27 30 33 36 39 42 45 48 51 54
Lmites de Clase
F
r
e
c
u
e
n
c
i
a

A
c
u
m
u
l
a
d
a
Descripcin de los datos a travs de parmetros numricos
Desde luego es posible ya, mediante la tabla de distribucin de frecuencias y las
grficas hacer cierta descripcin del comportamiento de los datos en la muestra, pero
conviene estar conciente de que sabemos que las grficas pueden mentir, en el sentido
de que simplemente con un cambio de escala, variaciones que probablemente sean
pequeas se pueden ver muy grandes y viceversa, y la obtencin de valores que
caractericen a toda la muestra pueden solamente aproximarse, ya que como dijimos
antes, una representacin grfica puede no ser lo precisa que uno deseara, por lo que
adems de una grfica requerimos de valores que sean representativos del
comportamiento de los datos y que dependan nicamente de dichos datos. A estos
valores se les llama "parmetros numricos" y se utilizan para ayudar a describir el
comportamiento de la muestra con un poco ms de precisin.
Los parmetros numricos, por el tipo de informacin que dan, se clasifican en:
- Medidas de tendencia central
- Medidas de dispersin
- Parmetros de forma
Presentaremos solamente los parmetros numricos que ms comnmente se utilizan.
1.- MEDIDAS DE TENDENCIA CENTRAL: Son valores que se encuentran dentro del
rango de la muestra y que se pueden considerar como representativos de la misma. Es
importante aclarar que no necesariamente coinciden con alguno de los datos
observados. Entre las ms usuales estn la media aritmtica, la mediana y la moda,
que estudiaremos a continuacin.
a) Media aritmtica
Es probablemente la medida de tendencia central de uso ms generalizado, se denota
por x (es muy importante que la x sea minscula, ya que la mayscula se utilizar ms
adelante para denotar algo diferente} y se define de la siguiente forma:
a) Si x
1
, x
2
, x
3
, ... , x
n
son los datos contenidos en una muestra, y se encuentran
sin agrupar, entonces
n
x
= x
i
n
1 = i
donde n es el tamao de la muestra.

Ntese que es la definicin que conocemos para el promedio usual de los datos en la
muestra.
b) Si los datos se encuentran agrupados en una tabla de distribucin de
frecuencias, y utilizamos el mismo concepto que para los datos sin agrupar, se
define la media aritmtica como:
f x
=
n
f x
= x
*
i i
m
1 = i
i i
m
1 = i
, puesto que
f
=
n
f
*
i
i
en donde
m es el nmero de clases
x
i
la marca de clase de la clase i, y
f
i
la frecuencia de la clase i
b) Mediana
Es el valor que divide al conjunto de datos de la muestra en dos conjuntos de igual
tamao, es decir, es aquel valor para el cual existen el mismo nmero de datos
menores o iguales a l que mayores o iguales a l. En otras palabras, la mediana es
aquel valor para el cual el 50% de los datos son menores o iguales a l.
Para calcular la mediana de la muestra cuando los datos no se encuentran agrupados
en una tabla de distribucin de frecuencias, se deben seguir los siguientes pasos:
1.- Se ordenan los datos en forma creciente.
2.- Una vez ordenados se tienen dos casos:
a) Si el nmero de datos es impar, la mediana es el valor central; aquel que se
encuentre en el lugar
2
1 n +
en la ordenacin. Esto es:
2
x
= x
~
1 n+
b) Si el nmero de datos es par, la mediana ser el promedio de los dos datos
centrales en la ordenacin, es decir, de la datos que se encuentren en los
lugares
2
n
y 1
2
n
+ .
2
x
+
x
= x
~
1 +
2
n
2
n
Ejemplo:
En un proceso de manufactura, se observa el nmero de veces al mes que se detiene
el proceso durante un perodo de un ao, debido a fallas mecnicas de la maquinaria.
Los datos obtenidos son los siguientes: 7, 4, 1, 3, 9, 2, 7, 8, 0, 7, 3, 2. Obtenga la
mediana del nmero de fallas.
Resolucin:
1) Ordenando los datos de menor a mayor se tiene:
0, 1, 2, 2, 3, 3, 4, 7, 7, 7, 8, 9
2) Dado que el nmero de datos es par, la mediana ser el promedio de los datos
que ocupan los lugares n/2 y (n/2) + 1 en la ordenacin, es decir, la mediana
ser el promedio de los datos que ocupen los lugares 6 y 7 en la ordenacin.
3.5 =
2
4 + 3
= x
~
Si los datos se encuentran agrupados, para obtener la mediana se debe realizar una
interpolacin en la ojiva, como se indica a continuacin:
1.- Identificar la clase en la que se alcanza el 50% de los datos. Esta clase recibe el
nombre de clase mediana.
2.- Graficar la ojiva correspondiente a la clase mediana.
F
i + 1
F
i
(0.5)n
Frecuencia Acumulada
Lmites de clase
L
i
+ 1
L
i
Mediana
2
n
=
F
;
F
-
F
F
-
F
=
L
-
L
L
- x
~
50%
i 1 i+
i 50%
i 1 i+
i
F
-
F
F
-
2
n
=
L
-
L
L
- x
~
i 1 i+
i
i 1 i+
i
L
+
F
-
F
)
L
-
L
)(
F
-
2
n
(
= x
~
i
i 1 i+
i 1 i+ i
en donde:
L
i
es el lmite inferior de la clase mediana
L
i+1
es el lmite superior de la clase mediana
F
i
es la frecuencia acumulada hasta L
i
F
i+1
es la frecuencia acumulada hasta L
i+1
n es el tamao de la muestra
Ejemplo:
Los datos que se despliegan en la siguiente tabla de distribucin de frecuencias
provienen de un conjunto de observaciones de la duracin (en minutos) de las
llamadas telefnicas locales que se realizan en el D. F. Calcule la mediana de dichos
datos.
Lmites de
clase
Marca de
clase Frecuencia
Frecuencia
Acumulada
0 - 3 1.5 15 15
3 - 6 4.5 29 44
6 - 9 7.5 10 54
9 - 12 10.5 5 59
12 15 13.5 4 63
15 - 18 16.5 1 64
Resolucin:
La muestra es de tamao n = 64, por lo tanto, n/2 = 32
Por lo anterior, la clase mediana es la segunda, esto es, la mediana est entre 3 y 6.
De donde, entonces,
( )
L
+
F
-
F
L
-
L F
-
2
n
= x
~
i
i 1 i+
i 1 i+ i
,
_
= 4.7586 3 +
15 - 44
3) - 15)(6 - 32 (
c) Moda
Se denota como m
o
y es aquella observacin que se repite con mayor frecuencia
dentro de la muestra. Puede existir ms de una moda en una misma muestra. De los
datos agrupados se puede considerar como moda, la marca de clase del intervalo con
mayor frecuencia.
Es importante hacer notar que a diferencia de la media aritmtica y la mediana, la
moda no necesariamente es un valor nico. Esto significa que en un mismo conjunto de
datos, pueden existir varias modas, aunque tambin puede ser nica.
2.- MEDIDAS DE DISPERSIN
Existen varias medidas de dispersin, y algunas de ellas (la mayora) se miden con
respecto a la media por ser esta ltima una medida que se encuentra alrededor del
centro del rango de la muestra, y considerarse una medida representativa de los datos.
Estas medidas nos permiten, adems de describir el comportamiento de la muestra,
44
15
32
Frecuencia Acumulada
Lmites de clase
6 3
x
~
validar la representatividad de la media como caracterstica de todo el conjunto de
datos.
Rango
Tal vez la medida de tendencia central ms simple sea el rango que se defini para
construir la tabla de distribucin de frecuencias. Es una medida de dispersin
interesante, ya que proporciona informacin inmediata acerca de la variabilidad que
tienen los datos entre s.
Como se dijo antes, el rango se define como la diferencia entre los datos mayor y
menor en la muestra, esto es:
Rango = Dato mayor en la muestra - dato menor en la muestra.
Aunque el rango es una medida importante de dispersin, existen otras medidas, que
proporcionan informacin adicional acerca de dicha variabilidad, algunas de ellas las
definiremos a continuacin. Veamos:
Sean x
i
, i = 1, 2, ..., n los datos de la muestra. Para medir la dispersin promedio de los
datos con relacin a la media de la muestra, pensaramos inmediatamente en lo
siguiente:
n
) x -
x
(
i
n
1 = i
,
sin embargo, si desarrollamos dicha suma, encontramos que se anula,
independientemente de cuales sean los datos considerados, ya que :
x
x
= ) x -
x
(
n
1 = i
i
n
1 = i
i
n
1 = i
-

pero por definicin x n x
n
x
= x = _ i
n
1 = i
i
n
1 = i

y por otro lado, x n = x
n
1 = i
de donde: 0 = x n - x n = ) x -
x
(
i
n
1 = i
esto es: 0 = ) x -
x
(
i
n
1 = i
por lo cual no es til como medida de dispersin.

Para evitar la cancelacin de los signos en la suma, se tiene dos opciones:
1) Utilizar la funcin valor absoluto, lo cual da lugar a la desviacin media.
Desviacin media:
Sean x
1
, x
2
, x
3
, ..., x
n
, los datos contenidos en una muestra, se define la desviacin
media como el promedio de los valores absolutos de las dispersiones alrededor de la
media, es decir,
n
| x -
x
|
= . .
i
n
1 = i
m d
Si los datos se encuentran agrupados en una tabla de distribucin de frecuencias, la
expresin para el clculo de la desviacin media se transforma en
n
f
| x -
x
|
= . .
i i
m
1 = i
m d
en donde m es el nmero de clases, x
i
es la marca de la clase i, y f
i
es la frecuencia
de la misma clase.
2) Utilizar una funcin cuadrtica. Esta es probablemente la forma ms
generalizada de resolver el problema.
Varianza:
Si x
i
(i=1,2,3,..,n) son los datos de la muestra, se define la varianza de la muestra (s
2
)
como:
s
2
=
n
) x -
x
(

2
i
n
1 = i
en tanto que si los datos se tienen en forma agrupada, se calcular la varianza como
se indica a continuacin:
s
2
=
n
f ) x -
x
(
i
2
i
m
1 = i
en donde, nuevamente, m es el nmero de clases, x

i
es la marca de la clase i-sima,
y f
i
representa la frecuencia de la misma clase.
La varianza, aunque es ms utilizada que la desviacin media, presenta el problema de
que sus unidades no coinciden con las de los datos de la muestra, ya que al elevar al
cuadrado se obtienen unidades cuadradas, por lo que su interpretacin podra resultar
un tanto confusa, sin embargo, la forma que se ha encontrado de resolver dicho
problema de unidades, consiste simplemente en extraer la raz cuadrada de dicha
medida, con lo cual el resultado se encontrar en unidades lineales, por tal razn se
define la desviacin estndar de los datos.
Desviacin estndar:
Se define la desviacin estndar de una muestra, como la raz cuadrada de la
varianza de la misma muestra, y se denota por s. Esto es:
s
= s
2
Coeficiente de variacin: Evita el tener que referirse a los datos para determinar la
magnitud de la variacin.
x
s
= c.v.
Momentos
Los momentos en probabilidad, se calculan de la misma manera que en la mecnica,
solamente que, en la primera no tienen una interpretacin fsica y solo se utilizan como
una herramienta para la determinacin de ciertos parmetros.
Se puede definir con respecto a cualquier punto "a", pero las mas usuales son con
respecto al origen y con respecto a la media. Las definiciones correspondientes son:
El r-simo momento muestral con respecto al origen (m'
r
) se define como:
Si los datos se encuentran sin agrupar:
m'
r
=
n
x
r
i
n
1 = i
donde x
i
son los datos en la muestra y n es el tamao de la muestra.
Si los datos se encuentran en forma agrupada:
m'
r
=
f
f
x
i
m
1 = i
i
r
i
m
1 = i

donde x
i
son marcas de clase, f
i
son las frecuencias de clase y m es el nmero de
clases
El r-simo momento o momento de orden r, de la muestra con respecto a la media se
define como:
Si los datos se encuentran sin agrupar:
m
r
=
n
) x -
x
(
r
i
n
1 = i
donde x
i
son datos de la muestra y n es el tamao de la muestra.
Si los datos se encuentran agrupados:
m
r
=
f
f
) x -
x
(
i
m
1 = i
i
r
i
m
1 = i
donde x
i
es la marca de clase, f
i
la frecuencia y m el nmero de clases.
As la varianza es el segundo momento respecto a la media y la media es el primer
momento respecto al origen.
3.- PARMETROS DE FORMA
Coeficiente de sesgo o asimetra
El coeficiente de sesgo se denota por "a" y se define como: a =
s
m
3
3
, donde m
3
es el
tercer momento respecto a la media.
De esta forma, si: a < 0 Sesgo negativo
a > 0 Sesgo positivo
a = 0 Simtrica

Curva Simtrica
Curva Asimtrica (Sesgo positivo)
Coeficiente de curtosis
Es una medida del grado de apuntamiento de una distribucin. Se denota por k.
k =
s
m
4
4
k
'
>
<
a mesocrtic 3
ca leptocrti 3
ca platicrti 3

0
0.2
0.4
0.6
0.8
1
-4 -2 2 4
x
Distribucin Mesocrtica
0
0.2
0.4
0.6
0.8
1
-4 -2 2 4
x
Distribucin Leptocrtica
Ejemplo:
Una muestra de 20 trabajadores de una Ca. obtuvieron los siguientes salarios en un
mes determinado: $240000, $240000, $240000,$240000, $240000, $240000, $240000,
$240000, $255000, $255000, $265000, $265000, $280000, $280000, $290000,
$300000, $305000, $325000, $330000, $340000.
Calcular: la media, mediana, moda, varianza, desviacin estndar, coeficiente de
desviacin, rango, coeficiente de sesgo, coeficiente de curtosis. Qu puede decir
acerca de los salarios?
Resolucin:
a)Media:
20
340000 330000 325000 305000 300000 290000 2(280000) 2(265000) 2(255000) 8(240000) + + + + + + + + +
x = 270,500
b) Mediana: 260000 =
2
265000 + 255000
=
2
x
+
x
= x
~
+1
2
n
2
n
c) Moda = 240,000
Distribucin Platicrtica
0
0.2
0.4
0.6
0.8
-4 -3 -2 -1 1 2 3
x
d) Varianza: 000 1,097,250, =
20
) x -
x
(
=
s
2
i
20
1 = i 2

e) Desviacin Estndar: s = 33,124.76
f) Coeficiente de variacin: c.v.=
x
s
= 0.1225 = 12.25%. Esto es que los datos se alejan
de la media un 12.25 %.
g) Rango= 100,000
h)Coeficiente de sesgo:
s
m
= a
3
3

20
) x -
x
(
=
m
3
i
20
1 = i
3
a = 0.75569 Es decir, los datos tienen sesgo positivo

i) 2.24 =
) (33124.764
10
x 2.70311
=
s
m
= k
4
18
4
4
La distribucin de los datos es platicrtica
Con estos datos, hacer una tabla de distribucin de frecuencias:
Rango = 100,000
# aproximado de clases = 5 4.47 20
Lmite inferior de la primera clase =235,000
c=105,000 / 5 = 21,000
Intervalos de clase
Marcas de
clase Frecuencias
Frecuencia
Relativa
Frecuencia
Acumulada
Frecuencia
Acum. Relat.
235,000 256,000 245,500 10 0.5 10 0.5
256,000 277,000 266,500 2 0.1 12 0.6
277,000 298,000 287,500 3 0.15 15 0.75
298,000 319,000 308,500 2 0.1 17 0.85
319,000 340,000 329,500 2 0.1 19 0.95
340,000 361,000 350,500 1 0.05 20 1
20
Media: 273,850
20
5,477,000

n
f x

6
1 i
i i

x
Moda: Primera marca de clase. Mo=245,500
Mediana: 256,000 = x
~
Rango= 361,000 235,000 = 126,000
Varianza: 500 1,158,727, =
20
10 2.3175E
=
20
f
) 273,850 -
x
(
=
s
i
2
i
11
1 = i 2
+
Desviacin estndar: s = 34,040.0867

C.V. =
x
s
= 0.12430194 = 12.4302%
Coeficiente de sesgo:
s
m
= a
3
3
13 3.286E =
20
14 6.5721E
=
f
i
11
1 = i
f
i
)
3
x -
x
i
(
11
1 = i
=
m
3
+
+
3 0.83310573 =
) 67 (34,040.08
13 3.286E
= a
3
+
por lo tanto tiene un sesgo positivo
Coeficiente de curtosis:
s
m
= k
4
4
18 3.15764E =
20
19 6.31528E
=
f
i
11
1 = i
f
i
)
4
x -
x
i
(
11
1 = i
=
m
4
+
+
) ( =
s
4
4
7 34,040.086
k = 2.351796702 ; k < 3 , por lo tanto es platicrtica.

Estadística Descriptiva

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Estadística Descriptiva

Hochgeladen von

Copyright:

Verfügbare Formate

Estadstica Estadstica Descriptiva

M. en I. Isabel Patricia Aguilar Jurez 15

en donde m es el nmero de clases construidas en la tabla de distribucin de

en donde nuevamente m es el nmero de clases construidas.

donde n es el tamao de la muestra.

Estadstica Estadstica Descriptiva

por lo cual no es til como medida de dispersin.

en donde, nuevamente, m es el nmero de clases, x

a = 0.75569 Es decir, los datos tienen sesgo positivo

Desviacin estndar: s = 34,040.0867

Das könnte Ihnen auch gefallen