Beruflich Dokumente
Kultur Dokumente
OBJETIVOS ESPECFICOS
Al nalizar la unidad el alumno podr: a) Determinar las caractersticas que describen un conjunto de datos estadsticos. b) Aplicar las medidas de posicin, dispersin, asimetra y curtosis en problemas estadsticos de naturaleza econmica.
TEMAS
3.1 Medidas de tendencia central: media aritmtica, mediana, moda, comparacin de la media, la mediana y la moda as como la media geomtrica. 3.2 Medidas de dispersin: amplitud total, desviacin media, desviacin tpica o estndar y dispersin relativa. 3.3 Asimetra. 3.4 Curtosis.
Como se ha comentado en la Unidad 2, los cuadros y las grcas son de gran ayuda para obtener mayor informacin de grandes cantidades de datos, que de otra forma pueden parecer confusos e inteligibles y por esa va podemos percibir algunas de sus caractersticas que no necesariamente son visibles cuando estn desorganizados. Sin embargo, un mtodo an ms radical para condensar conjuntos de datos es el clculo de medidas aritmticas de resumen, diseadas para expresar las caractersticas ms notables de los conjuntos de datos en la forma ms compacta. Estas medidas aritmticas de variables cuantitativas pueden ser de tres tipos: medidas de tendencia central, medidas de dispersin y medidas de forma.
MEDIA ARITMTICA
Es el promedio de los valores de las observaciones. Si los datos no estn agrupados, su valor se obtiene sumando los valores de la serie y dividindolos entre el nmero de trminos. En el caso de los datos agrupados su valor se obtiene multiplicando el punto medio de cada clase por su frecuencia y dicho resultado se divide entre el nmero de observaciones.
Esta medida de posicin tiene la ventaja de ser la ms conocida y la que ms se utiliza, adems, es fcil de calcular. Sin embargo tiene la desventaja de que los valores extremos inuyen en su clculo, por lo que el resultado puede ser una medida distorsionada que no represente adecuadamente al conjunto de los datos.
Datos no agrupados Datos agrupados
Poblacin
xi
i= 1
fx
i= 1
i i
Muestra
x=
x
i =1
x=
fx
i =1
i i
Ejemplo: Tomemos nuevamente la serie de nmero de aciertos en un examen aplicado a 80 estudiantes cuyos resultados fueron los siguientes: 68 73 61 66 96 79 65 86 84 79 65 78 78 62 80 67 75 88 75 82 89 67 73 73 82 73 87 75 61 97 57 81 68 60 74 94 75 78 88 72 90 93 62 77 95 85 78 63 62 71 95 69 60 76 62 76 88 59 78 74 79 65 76 75 76 85 63 68 83 71 53 85 93 75 72 60 71 75
Elena Sandoval Espinosa
74 77
La suma de los 80 resultados de los exmenes es y si este valor lo dividimos entre el nmero de trminos obtenemos:
x
i= 1
80
En el caso de los datos agrupados, partimos de la tabla de frecuencias calculada con anterioridad en la cual se haba obtenido el punto medio o marca para cada una de las clases, si multiplicamos estas dos ltimas columnas, obtenemos:
Punto medio o Frecuencia marca de clase fi xi 3 15 15 25 10 8 4 80 56 63 70 77 84 91 98
Intervalos de clase 53-59 60-66 67-73 74-80 81-87 88-94 95-101 Total
De donde:
fx
i =1
i i
= 6048 !
Elena Sandoval Espinosa
fx
i= 1
i i
se observa que los valores de la media aritmtica de datos agrupados diere ligeramente de los datos no agrupados, pero es una buena aproximacin.
MEDIA PONDERADA
Cuando se desea otorgar pesos diferentes a una serie de datos de acuerdo a su importancia desigual, la media se obtiene sumando los productos de los valores observados y sus pesos respectivos, dividida entre la suma de estos ltimos.
x=
(wx )
i i i =1 n
wi
i =1
Ejemplo:
En una materia dada, se asignan diferentes pesos a los elementos que forman parte de la evaluacin: 20 por ciento a la resolucin de ejercicios, 40 por ciento a los exmenes parciales y 40 por ciento al examen final. Si las calificaciones obtenidas por un determinado estudiante fueran:
Calicacin 90 80 70
Peso 10 40 50
x=
7600 100
= 76 !
resultado muy diferente del que se hubiera obtenido con la media aritmtica de las calicaciones:
x=
90 + 80 + 70 3
240 3
= 8!
MEDIANA
Es el valor que divide en dos partes iguales un arreglo ordenado. Si el nmero de valores es impar, la mediana es el valor medio del arreglo, si el nmero de valores es par, la mediana ser el promedio de los dos valores centrales. En el caso de datos agrupados, se ubica el intervalo en el que est la mediana, esto es, el intervalo en el que se encuentra la observacin u observaciones (en el caso en que sea un nmero par) que son el
centro del arreglo de datos ordenado. Una vez ubicada la clase de la mediana, el valor se obtiene a travs de interpolacin, utilizando la siguiente frmula:
La mediana es un valor fcil de calcular y no se ve distorsionada por valores extremos, aunque hay que reconocer que no es tan conocida como la media aritmtica, adems de que para calcularla hay que ordenar los datos en forma ascendente. Una desventaja importante es que no se puede manipular algebraicamente, esto es, no es posible llegar a la mediana de un grupo de datos a partir de la mediana de los subgrupos.
Ejemplo: Nuevamente, utilizando los datos de los exmenes a 80 estudiantes, buscaramos la mediana, esto es, el valor que divide en dos partes el arreglo ordenado. Lo primero que habra que hacer es organizar las observaciones en orden ascendente y ubicar el valor central:
Elena Sandoval Espinosa 7
53 57 59 60 60 60 61 61 62 62
62 62 63 63 65 65 65 66 67 67
68 68 68 69 71 71 71 72 72 73
73 73 73 74 74 74 75 75 75 75
75 75 75 76 76 76 76 77 77 78
78 78 78 78 79 79 79 80 81 82
82 83 84 85 85 85 86 87 88 88
88 89 90 93 93 94 95 95 96 97
dado que el nmero de observaciones es par se tienen dos valores centrales de los que hay que obtener el promedio. En este caso ambos son iguales a 75 por lo que : Mediana = 75 En el caso de los datos agrupados, acudimos al cuadro de distribucin de frecuencias:
Intervalos de clase 53-59 60-66 67-73 74-80 81-87 88-94 95-101 Total
Frecuencia 3 15 15 25 10 4 80 8
Frecuencia acumulada 3 18 33 58
En este caso particular, en el que se tienen 80 observaciones, la mediana estar en el intervalo donde se ubique la observacin nmero 40, por lo que acumulando las frecuencias encontramos que sta es la que incluye los valores 74-80, por lo que, sustituyendo:
L1 = lmite inferior de clase = 74 n = nmero total de observaciones = 80
Cuartiles:
dividen
los
datos
observados
en
cuatro
Deciles: dividen los datos observados en diez porciones, en cada una de ellas se ubica el 10% de los datos. Percentiles: dividen los datos en 100 porciones, en cada una de ellas se ubica el 1% de los datos.
Cuartiles
25% 25% 25% 25%
Q1
Q2
Mediana
Q3
Deciles
10% 10% 10% 10% 10% 10% 10% 10% 10% 10%
D1
D2
D3
D4
D5
D6
D7
D8
D9
en cada uno de ellos se encuentra el 25% de los datos, por lo que existen tres cuartiles: el primer cuartil Q1 nos marca la
10
primera cuarta parte de los datos, el segundo cuartil Q2, divide a la distribucin en dos partes y el tercero, Q3, nos divide la tercera de la ltima cuarta parte de los datos. Por otro lado, tenemos nueve deciles D1, D2, D3, .., D9 , entre cada uno de ellos se encuentra el 10% de los datos y 99 percentiles, P1, P2, P3,., P99. que delimitan entre ellos al 1% de los datos. El segundo cuartil, el quinto decil y el cincuentavo percentil, corresponden a la mediana.
Mediana = Q2 = D5 = P50 !
MODA
Es el valor que ocurre con mayor frecuencia en una serie de datos, puede no existir y tampoco ser nico. Una distribucin con una sola moda se conoce como unimodal. En el caso de datos agrupados la moda se calcula por interpolacin, despus de ubicar la clase modal: C
C=
11
Ejemplo: Si observamos los datos de nuestro ejemplo anterior, encontramos que el valor que ocurre con mayor frecuencia es 75, por lo que la moda de datos no agrupados es: Moda = 75 Para los datos agrupados:
Intervalos de clase 53-59 60-66 67-73 74-80 81-87 88-94 95-101 Total
Frecuencia 3 15 15 25 10 8 4 80
12
* 6=76.4
Para ilustrar mejor el uso e interpretacin de las medidas de tendencia central hasta ahora analizadas, veamos a manera de ejemplo los hbitos de lectura de los mexicanos. Informacin disponible nos indica que los mexicanos de 12 aos y ms leen en promedio 2.9 libros al ao. Antes que lamentar la pobreza de los resultados, habra que preguntarse cunto oculta y cunto revela esta informacin. De entrada, convendra decir que el promedio dice muy poco del comportamiento lector de la poblacin. Si en un conjunto de 10 personas una de ellas lee 100 libros y el resto ninguno, el promedio del grupo sera 10, pero ese promedio no sera una medida para describir el comportamiento de los lectores que no leen ninguno. Con mucha ms razn podra decirse algo similar de un conjunto que abarca ms de 60 millones de personas. Por lo tanto, podramos acudir a otras dos medidas estadsticas, que tal vez sean ms reveladoras: la mediana y la moda. La mediana, como ya se ha visto, es el valor que separa por la mitad las observaciones ordenadas de menor a mayor, de tal forma que 50% de stas son menores que la mediana y otro 50% son mayores; en tanto que la moda es el valor de la variable que ms veces se repite, es decir, aquel cuya frecuencia absoluta es mayor. De acuerdo con la informacin mencionada, la mediana nacional es 1 y la moda es 0. Es decir, el 50% de la poblacin lee ms de un libro al ao, mientras que el otro 50% lee menos y el nmero ms repetido por los encuestado fue 0. Al analizar en conjunto estas tres medidas, podremos tener un panorama ms completo de la variable que estamos estudiando.
13
RANGO MEDIO
Es el valor promedio de las medidas mayor y menor de un conjunto de datos
Ejemplo: En nuestro ejemplo el lmite inferior de los datos, esto es, el de menor valor, es 53 y el mayor, el lmite superior, es 97 por lo que:
Rango = 53 + 97 = 101.5 ! 2
MEDIA GEOMTRICA
Para datos no agrupados, se dene como la raz n-sima del producto de n valores, donde n es el nmero de observaciones. En el caso de datos agrupados, cada marca de clase de los intervalos de frecuencias se eleva al valor de su frecuencia, se multiplican los trminos entre s y al resultado se le obtiene la raz n-sima.
Datos no agrupados
Datos agrupados
14
La media geomtrica es un valor calculado y a diferencia de la mediana y la moda en su resultado intervienen todos los valores de la serie. Los valores extremos le afectan menos que a la media aritmtica y para cualquier serie de datos su valor ser inferior al de la media aritmtica. Se utiliza particularmente en el clculo de nmeros ndice y en general cuando se quieren promediar tasas de crecimiento. Como desventajas puede mencionarse que no es una medida muy conocida y que su clculo se diculta si no se cuenta con una computadora. Adicionalmente habra que tomar en cuenta que no es posible obtenerla cuando en la serie aparecen nmeros negativos o cero.
Para los datos agrupados elevamos cada una de las marcas de clase a la frecuencia correspondiente:
15
Intervalos de clase 53-59 60-66 67-73 74-80 81-87 88-94 95-101 Total
Nota: en la ltima columna del cuadro anterior, las cantidades aparecen en notacin exponencial, ya que se trata de nmeros muy grandes. La expresin signica que habra que recorrer el punto decimal a la derecha tantas veces como dgitos represente el nmero que aparece despus de la letra E. Esto es, 1.2456E+3 = 1245.6
Multiplicamos entre s cada uno de los resultados, a continuacin a dicho producto le calculamos la raz 80:
16
RANGO
Es la diferencia entre las medidas mayor y menor de un conjunto de datos. Para datos agrupados y no agrupados se calcula:
Este valor es muy fcil de calcular y depende nicamente de dos de sus elementos: el mayor y el menor, sin embargo, no toma en cuenta los elementos que estn entre esos dos valores, por lo que la informacin que nos proporciona es muy limitada.
Ejemplo: Retomando nuestro conjunto de los exmenes aplicados a 80 estudiantes, donde se contabilizaron el nmero de aciertos, los datos en orden ascendente eran:
17
53 57 59 60 60 60 61 61 62 62
62 62 63 63 65 65 65 66 67 67
68 68 68 69 71 71 71 72 72 73
73 73 73 74 74 74 75 75 75 75
75 75 75 76 76 76 76 77 77 78
78 78 78 78 79 79 79 80 81 82
82 83 84 85 85 85 86 87 88 88
88 89 90 93 93 94 95 95 96 97
RANGO INTERFRACTIL
Es la diferencia entre dos fractiles, ya sean stos cuartiles o deciles. En el caso de los primeros el rango intercuartil sera:
Q= Q3 Q1 ! 2
DESVIACIN MEDIA
Es la media aritmtica de todas las diferencias absolutas entre cada observacin individual y la media aritmtica del conjunto de datos, aunque tambin puede calcularse utilizando la mediana. Para los datos agrupados se calcula:
Elena Sandoval Espinosa 18
Datos no agrupados
Datos agrupados
Poblacin
Dm =
f
i =1
| xi x |
Muestra
Ejemplo: En el caso de los datos no agrupados, tomamos el valor ya calculado de la media aritmtica de nuestro ejemplo, obtenemos las diferencias absolutas y dividimos entre el nmero de trminos:
Intervalos de clase 53-59 60-66 67-73 74-80 81-87 88-94 95-101 Total
Frecuencia fi 3 15 15 25 10 8 4 80
Dm =
663.6 = 8.295 7
DESVIACIN ESTNDAR
Es la raz cuadrada de la media aritmtica de las desviaciones, elevadas al cuadrado, de cada uno de los valores respecto a la media. En esta medida intervienen todos los valores de la serie y pone especial nfasis en los valores extremos, ya que su diferencia con relacin a la media se eleva al cuadrado. De la frmula podemos deducir que la desviacin estndar ser siempre un valor positivo y mientras los valores estn
20
distribuidos a una mayor distancia de la media, mayor ser su valor. En cambio si todos los valores fueran iguales, la desviacin estndar tendra un valor cero.
Datos no agrupados Datos agrupados
Poblacin
( x )
i i= 1
f ( x )
i i i= 1
Muestra
s =
( x x)
i i= 1
n 1
s =
f (x x )
i i i =1
n 1
En nuestro ejemplo, la desviacin estndar de datos no agrupados, elevamos al cuadrado las diferencias con respecto a la media. La serie anterior se divide entre el nmero de trminos y nalmente se obtiene la raz cuadrada.
( x 75.25)
i i= 1
80
80
21
Punto medio IntervaFrecuencia o marca de los clase fi de clase xi 53-59 60-66 67-73 74-80 81-87 88-94 95-101 Total 3 15 15 25 10 8 4 80 56 63 70 77 84 91 98
x i ! ( xi )2 ! fi ( xi )2 !
-19.6 -12.6 -5.6 1.4 8.4 15.4 22.4 384.16 158.76 31.36 1.96 70.56 237.16 501.76 1152.48 2381.4 470.4 49 705.6 1897.28 2007.04 8663.2
De donde:
8663.2 = 14.07 ! 7
VARIANZA
Es el cuadrado de la desviacin estndar.
Poblacin
2 = ( )
Muestra
s2 = ( s) !
2
22
DISTRIBUCIN NORMAL
La llamada curva normal, es la expresin grca de una distribucin normal, que es una distribucin de frecuencias que se caracteriza por:
La media = mediana = moda. Es simtrica alrededor de este valor central. Sus extremos se extienden en forma indenida en ambas direcciones y se aproximan pero nunca tocan al eje horizontal.
En una distribucin normal de frecuencias, puede estimarse el porcentaje de los valores que estn a 1, 2 y 3 desviaciones estndar desde la media:
% de datos en el intervalo 68.3% 95.4% 99.7%
Intervalo
[ , + ] [ 2 , + 2 ] !
[ 3 , + 3 ]
23
.05 .10
.20
.20
.10
.05
Valores de la poblacin, X
-1 -2 -3
+1 +2 +3
24
Ejemplo: Supongamos que se realiza un nuevo examen a 1,000 estudiantes y que el nmero de aciertos que obtuvieron se expresa en la siguiente tabla de frecuencias:
Intervalo 60-69 70-79 80-89 90-99 100-109 110-119 120-129 130-139 140-149 Total
Marca de clase 64.5 74.5 84.5 94.5 104.5 114.5 124.5 134.5 144.5
Al gracar la informacin anterior observamos que el histograma de frecuencias tiene una forma simtrica parecida al de una distribucin normal, si se calculan la media aritmtica, moda y mediana se llega a los siguientes resultados:
cuyos valores son bastante cercanos, lo que nos permite establecer que una buena aproximacin de esta distribucin de
25
frecuencias puede ser la curva normal y dado que la desviacin estndar de nuestros datos es:
= 16.237
Intervalo % de datos en el intervalo 68.3% 95.4% 99.7%
TEOREMA DE CHEVYSHEV
Como se vio anteriormente, a travs de la desviacin estndar es posible obtener informacin sobre la forma en que se distribuyen las observaciones alrededor de un valor central cuando se trata de una distribucin normal. Pero tambin esta desviacin estndar puede ayudarnos en ese mismo sentido cuando los datos no se distribuyen normalmente, para ello acudimos al teorema de Chevyshev, el que establece que cualquiera que sea la forma de la distribucin de frecuencia de una poblacin, podemos esperar que la proporcin de observaciones que caen dentro de k desviaciones estndar de la media, ser al menos:
teorema, se espera que la dispersin de los datos con relacin a la media en trminos de desviaciones estndar sea el siguiente:
26
Valor de k
Intervalo
1
2 3 4
[ , + ] [ 2 , + 2 ] !
[ 3 , + 3 ]
[ 4 ,
+ 4 ]!
27
COEFICIENTE DE VARIACIN
Hasta ahora las medidas de dispersin estudiadas han sido medidas absolutas y por lo tanto no necesariamente podran compararse cuando las distribuciones se expresaban en unidades diferentes. Adicionalmente, en el caso de la desviacin estndar habra que relacionarla con el tamao del promedio utilizado para su clculo. Surge as el llamado coeciente de variacin, conocido a veces como variacin relativa, que es la razn entre la desviacin estndar y la media aritmtica y nos indica el porcentaje de datos que estn ubicados alrededor de la media a una distancia de una desviacin estndar.
Poblacin
CV =
Muestra
CV =
s ! x
28
Este resultado signica que el 16% de las observaciones estn ubicadas a una distancia de la media aritmtica equivalente a una desviacin estndar.
3.3 ASIMETRA
La forma de una distribucin de frecuencias se puede describir por su simetra o falta de ella (asimetra) y por su agudeza (curtosis). El grado de asimetra, es el grado de distorsin de una distribucin de frecuencias desde la simetra horizontal, cuando se tiene una distribucin unimodal, se pueden presentar tres casos: Asimetra cero Asimetra positiva Asimetra negativa media
X
Media Mediana Moda
Asimetra 0
Moda Mediana Media
Asimetra +
X
Media Mediana Moda
Asimetra -
29
COEFICIENTE DE PEARSON
Es la medida de asimetra ms conocida, es la razn de la diferencia de la media y la moda entre la desviacin estndar.
Poblacin
Muestra
Sk = 0 ! Sk < 0 !
Sk > 0 !
CURTOSIS
Elena Sandoval Espinosa
30
Datos no agrupados
Datos agrupados
Poblacin
Muestra
k k k
31
A continuacin se presentan estas tres modalidades de curvas, considerando que en los tres casos existe simetra:
Leptocrtica
Mesocrtica Platocrtica
X
Media Mediana Moda
32