Sie sind auf Seite 1von 13

2.

1 Introduccin
Los fenmenos biolgicos no suelen ser constantes, por lo que ser necesario que junto
a una medida que indique el valor alrededor del cual se agrupan los datos, se asocie una
medida que haga referencia a la variabilidad que refleje dicha fluctuacin.
En este sentido pueden examinarse varias caractersticas, siendo las ms comunes:
La tendencia central de los datos;
La dispersin o variacin con respecto a este centro;
Los datos que ocupan ciertas posiciones.
La simetra de los datos.
La forma en la que los datos se agrupan.

Figura: Medidas representativas de un conjunto de datos estadsticos

A lo largo de este captulo, y siguiendo este orden, iremos estudiando los estadsticos
que nos van a orientar sobre cada uno de estos niveles de informacin: valores alrededor
de los cuales se agrupa la muestra, la mayor o menor fluctuacin alrededor de esos
valores, nos interesaremos en ciertos valores que marcan posiciones caractersticas de
una distribucin de frecuencias as como su simetra y su forma.

2.2 Estadsticos de tendencia central


Las tres medidas ms usuales de tendencia central son:
la media,
la mediana,
la moda.
En ciertas ocasiones estos tres estadsticos suelen coincidir, aunque generalmente no es
as. Cada uno de ellos presenta ventajas e inconvenientes.

2.3.1 La media
La media aritmtica de una variable estadstica es la suma de todos sus posibles
valores, dividida por el total de los mismos.

2.3.2. Proposicin
La suma de las diferencias de la variable con respecto a la media es nula, es decir,

Demostracin
Basta desarrollar el sumatorio para obtener

Este resultado nos indica que el error cometido al aproximar un valor cualquiera de la
variable, por ejemplo x1, mediante el valor central , es compensado por los dems
errores:

2.3.3. Observacin
A pesar de las buenas propiedades que ofrece la media, sta posee algunos
inconvenientes:

Uno de ellos es que es muy sensible a los valores extremos de la variable: ya que
todas las observaciones intervienen en el clculo de la media, la aparicin de una
observacin extrema, har que la media se desplace en esa direccin. En
consecuencia,

no es recomendable usar la media como medida central en las distribuciones


muy asimtricas;

Si consideramos una variable discreta, por ejemplo, el nmero de hijos en las


familias de Mlaga el valor de la media puede no pertenecer al conjunto de
valores de la variable; Por ejemplo
hijos.

2.3.4.Medias generalizadas
En funcin del tipo de problema varias generalizaciones de la media pueden ser
consideradas. He aqu algunas de ellas aplicadas a unas observaciones x1, ..., xn:
La media geomtrica
, es la media de los logaritmos de los valores de la variable:

La media armnica
, se define como el recproco de la media aritmtica de los recprocos, es
decir,

Por tanto,

La media cuadrtica
, es la raz cuadrada de la media aritmtica de los cuadrados:

2.3.5 La mediana
Consideramos una variable discreta X cuyas observaciones en una tabla estadstica han
sido ordenadas de menor a mayor. Llamaremos mediana, Medal primer valor de la
variable que deja por debajo de s al
de las observaciones. Por tanto, si n es el
nmero de observaciones, la mediana corresponder a la observacin [n/2]+1, donde
representamos por

la parte entera de un nmero.

Observacin
Entre las propiedades de la mediana, vamos a destacar las siguientes:

Como medida descriptiva, tiene la ventaja de no estar afectada por las


observaciones extremas, ya que no depende de los valores que toma la variable,
sino del orden de las mismas. Por ello es adecuado su uso en distribuciones
asimtricas.

Es de clculo rpido y de interpretacin sencilla.

A diferencia de la media, la mediana de una variable discreta es siempre un valor


de la variable que estudiamos (ej. La mediana de una variable nmero de hijos
toma siempre valores enteros).

Puede ser calculada aunque el intervalo inferior o el superior no tenga lmites.

2.3.5.1 Ejemplo
Sea X una variable discreta que ha presentado sobre una muestra las modalidades

Si cambiamos la ltima observacin por otra anormalmente grande, esto no afecta a la


mediana, pero si a la media:

En este caso la media no es un posible valor de la variable (discreta), y se ha visto muy


afectada por la observacin extrema. Este no ha sido el caso para la mediana.

2.3.6 La moda
Llamaremos moda a cualquier mximo relativo de la distribucin de frecuencias, es
decir, cualquier valor de la variable que posea una frecuencia mayor que su anterior y su
posterior.

2.3.6.1 Observacin
De la moda destacamos las siguientes propiedades:

Es muy fcil de calcular.

Puede no ser nica.

Aunque el primero o el ltimo de los intervalos no posean extremos inferior o


superior respectivamente, la moda puede ser calculada

2.3.7 Relacin entre media, mediana y moda


En el caso de distribuciones unimodales, la mediana est con frecuencia comprendida
entre la media y la moda (incluso ms cerca de la media).
En distribuciones que presentan cierta inclinacin, es ms aconsejable el uso de la
mediana. Sin embargo en estudios relacionados con propsitos estadsticos y de
inferencia suele ser ms apta la media.

2.4 Estadsticos de posicin


Para una variable discreta, se define el percentil de orden k, como la observacin, Pk,
que deja por debajo de si el
de la poblacin. Esta definicin nos recuerda a la
mediana, pues como consecuencia de la definicin es evidente que
Med= P50

Por su propia naturaleza, el percentil puede estar situado en cualquier lugar de la


distribucin, por lo que no puede considerarsele como una medida de tendencia central.
Los cuartiles, Ql, son un caso particular de los percentiles. Hay 3, y se definen como:

De forma anloga se definen los deciles como los valores de la variable que dividen a
las observaciones en 10 grupos de igual tamao. Ms precisamente, definimos D1,D2, ...,
D9 como:

Los percentiles (que incluyen a la mediana, cuartiles y deciles) tambin son


denominados estadsticos de posicin.

2.6 Medidas de variabilidad o dispersin


Los estadsticos de tendencia central o posicin nos indican donde se sita un grupo de
puntuaciones. Los de variabilidad o dispersin nos indican si esas puntuaciones o
valores estn prximas entre s o si por el contrario estn o muy dispersas.
Una medida razonable de la variabilidad podra ser la amplitud o rango, que se obtiene
restando el valor ms bajo de un conjunto de observaciones del valor ms alto. Es fcil
de calcular y sus unidades son las mismas que las de la variable, aunque posee varios
inconvenientes:

No utiliza todas las observaciones (slo dos de ellas);

Se puede ver muy afectada por alguna observacin extrema;

El rango aumenta con el nmero de observaciones, o bien se queda igual. En


cualquier caso nunca disminuye.

En el transcurso de esta seccin, veremos medidas de dispersin mejores que la anterior.


Estas se determinan en funcin de la distancia entre las observaciones y algun
estadstico de tendencia central.

2.6.1 Varianza y desviacin tpica o estandar


Como forma de medir la dispersin de los datos hemos descartado:

, pues sabemos que esa suma vale 0, ya que las desviaciones con
respecto a la media se compensan al haber trminos en esa suma que son de
signos distintos.

Si las desviaciones con respecto a la media las consideramos al cuadrado,


, de
nuevo obtenemos que todos los sumandos tienen el mismo signo (positivo). Esta es
adems la forma de medir la dispersin de los datos de forma que sus propiedades
matemticas son ms fciles de utilizar. Vamos a definir entonces dos estadsticos que
sern fundamentales en el resto del curso: La varianza y la desviacin tpica.
La varianza,

, se define como la media de las diferencias cuadrticas de n

puntuaciones con respecto a su media aritmtica, es decir

La varianza no tiene la misma magnitud que las observaciones (ej. si las observaciones
se miden en metros, la varianza lo hace en
). Si queremos que la medida de
dispersin sea de la misma dimensionalidad que las observaciones bastar con tomar su
raz cuadrada. Por ello se define la desviacin tpica o estandar, , como

2.6.1.1 Ejemplo
Calcular la varianza y desviacin tpica de las siguientes cantidades medidas en metros:
3,3,4,4,5

Solucin: Para calcular dichas medidas de dispersin es necesario calcular previamente


el valor con respecto al cual vamos a medir las diferencias. ste es la media:

La varianza es:

siendo la desviacin tpica su raz cuadrada:

2.7.4.5 Observacin
Adems de las propiedades que hemos demostrado sobre la varianza (y por tanto sobre
la desviacin tpica), ser conveniente tener siempre en mente otras que enunciamos a
continuacin:

Ambas son sensibles a la variacin de cada una de las puntuaciones, es decir, si


una puntuacin cambia, cambia con ella la varianza. La razn es que si miramos
su definicin, la varianza es funcin de cada una de las puntuaciones.

No es recomendable el uso de ellas, cuando tampoco lo sea el de la media como


medida de tendencia central.

2.6.2 Grados de libertad


Los grados de libertad de un estadstico calculado sobre n datos se refieren al nmero
de cantidades independientes que se necesitan en su clculo, menos el nmero de
restricciones que ligan a las observaciones y el estadstico. Es decir, normalmente n-1.
Ilustremoslo con un ejemplo. Consideramos una serie de valores de una variable,

que han sido tomados de forma independiente.


Su media es
y se ha calculado a partir de las n=5 observaciones independientes xi,
que estn ligadas a la media por la relacin:

Luego el nmero de grados de libertad de la media es n-1=4.


Si calculamos a continuacin la varianza, se han de sumar n cantidades

Sin embargo esas cantidades no son totalmente independientes, pues estn ligadas por
una restriccin:

El nmero de grados de libertad del estadstico es el nmero de observaciones de la


variable menos el nmero de restricciones que verifican, as que en este caso, los grados
de libertad de la varianza sobre los n=5 datos son tambin n-1 =4.

2.6.3 Coeficiente de variacin


Hemos visto que las medidas de centralizacin y dispersin nos dan informacin sobre
una muestra. Nos podemos preguntar si tiene sentido usar estas magnitudes para
comparar dos poblaciones. Por ejemplo, si nos piden comparar la dispersin de los
pesos de las poblaciones de elefantes de dos circos diferentes, nos dar informacin
til.
Pero qu ocurre si lo que comparamos es la altura de unos elefantes con respecto a su
peso? Tanto la media como la desviacin tpica, y , se expresan en las mismas
unidades que la variable. Por ejemplo, en la variable altura podemos usar como unidad
de longitud el metro y en la variable peso, el kilogramo. Comparar una desviacin (con
respecto a la media) medida en metros con otra en kilogramos no tiene ningn sentido.

El problema no deriva slo de que una de las medidas sea de longitud y la otra sea de
masa. El mismo problema se plantea si medimos cierta cantidad, por ejemplo la masa,
de dos poblaciones, pero con distintas unidades. Este es el caso en que comparamos el
peso en toneladas de una poblacin de 100 elefantes con el correspondiente en
miligramos de una poblacin de 50 hormigas.
El problema no se resuelve tomando las mismas escalas para ambas poblaciones. Por
ejemplo, se nos puede ocurrir medir a las hormigas con las mismas unidades que los
elefantes (toneladas). Si la ingeriera gentica no nos sorprende con alguna barbaridad,
lo lgico es que la dispersin de la variable peso de las hormigas sea practicamente nula
(Aunque haya algunas que sean 1.000 veces mayores que otras!)
En los dos primeros casos mencionados anteriormente, el problema viene de la
dimensionalidad de las variables, y en el tercero de la diferencia enorme entre las
medias de ambas poblaciones. El coeficiente de variacin es lo que nos permite evitar
estos problemas, pues elimina la dimensionalidad de las variables y tiene en cuenta la
proporcin existente entre medias y desviacin tpica. Se define del siguiente modo:

Basta dar una rpida mirada a la definicin del coeficiente de variacin, para ver que las
siguientes consideraciones deben ser tenidas en cuenta:

Slo se debe calcular para variables con todos los valores positivos. Todo ndice
de variabilidad es esencialmente no negativo. Las observaciones pueden ser
positivas o nulas, pero su variabilidad debe ser siempre positiva. De ah que slo
debemos trabajar con variables positivas, para la que tenemos con seguridad que
.

2.7. Asimetra y apuntamiento


Sabemos cmo calcular valores alrededor de los cuales se distribuyen las observaciones
de una variable sobre una muestra y sabemos cmo calcular la dispersin que ofrecen
los mismos con respecto al valor de central. Nos proponemos dar un paso ms all en el
anlisis de la variable. En primer lugar, nos vamos a plantear el saber si los datos se
distribuyen de forma simtrica con respecto a un valor central, o si bien la grfica que
representa la distribucin de frecuencias es de una forma diferente del lado derecho que
del lado izquierdo.
Si la simetra ha sido determinada, podemos preguntarnos si la curva es ms o menos
apuntada (larga y estrecha). Este apuntamiento habr que medirlo comparado a cierta
distribucin de frecuencias que consideramos normal (no por casualidad es ste el
nombre que recibe la distribucin de referencia).
Estas ideas son las que vamos a desarrollar en lo que resta del captulo.

2.7.1 Estadsticos de asimetra


Para saber si una distribucin de frecuencias es simtrica, hay que precisar con respecto
a qu. Un buen candidato es la mediana, ya que para variables continuas, divide al
histograma de frecuencias en dos partes de igual rea. Podemos basarnos en ella para,
de forma natural, decir que una distribucin de frecuencias es simtrica si el lado
derecho de la grfica (a partir de la mediana) es la imagen por un espejo del lado
izquierdo(figura 2.7).

Figura: Distribuciones de frecuencias simtricas y asimtricas

Cuando la variable es discreta, decimos que es simtrica, si lo es con respecto a la


media.

2.9.2.1 Observacin

Si la variable es continua simtrica y unimodal, coinciden la media, la mediana y


la moda.

Dentro de los tipos de asimetra posible, vamos a destacar los dos fundamentales (figura
2.8):
Asimetra positiva:
Si las frecuencias ms altas se encuentran en el lado izquierdo de la media,
mientras que en derecho hay frecuencias ms pequeas (cola).
Asimetra negativa:
Cuando la cola est en el lado izquierdo.

Figura: Asimetra positiva y asimetra negativa

Cuando realizamos un estudio descriptivo es altamente improbable que la


distribucin de frecuencias sea totalmente simtrica. En la prctica diremos que
la distribucin de frecuencias es simtrica si lo es de un modo aproximado. Por
otro lado, an observando cuidadosamente la grfica, podemos no ver claro de
qu lado estn las frecuencias ms altas. Para definir estos supuestos existen
entonces unos estadsticos que ayuden a interpretar la asimetra, y el
apuntamiento de las distibuciones

2.11 Problemas
Ejercicio 2..1. En el siguiente conjunto de nmeros, se proporcionan los pesos
(redondeados a la libra ms prxima) de los bebs nacidos durante un cierto intervalo de
tiempo en un hospital:
4, 8, 4, 6, 8, 6, 7, 7, 7, 8, 10, 9, 7, 6, 10, 8, 5, 9, 6, 3, 7, 6, 4, 7, 6, 9, 7, 4, 7, 6, 8, 8, 9, 11,
8, 7, 10, 8, 5, 7, 7, 6, 5, 10, 8, 9, 7, 5, 6, 5.
1. Construir una distribucin de frecuencias de estos pesos.
2. Encontrar las frecuencias relativas.

3. Encontrar las frecuencias acumuladas.


4. Encontrar las frecuencias relativas acumuladas.
5. Dibujar un histograma .
6. Por qu se ha utilizado un histograma para representar estos datos, en lugar de una
grfica de barras?
7. Calcular las medidas de tendencia central.
8. Calcular las medidas de dispersin.
9. Calcular las medidas de forma.
10 Es esta una distribucin sesgada? De ser as, en qu direccin?
11. Encontrar el percentil 90 y el 10.
Ejercicio 2..2. A continuacin se dan los resultados obtenidos con una muestra de 50
universitarios. la caracterstica es el tiempo de reaccin ante un estmulo auditivo:
0,110
0,113
0,124
0,117
0,108
0,118

0,110
0,098
0,118
0,111
0,120
0,106

0,126
0,122
0,132
0,112
0,099
0,128

0,112
0,105
0,108
0,101
0,102
0,094

0,117
0,103
0,115
0,112
0,129
0,1114

0,113
0,119
0,120
0,111
0,115

0,135
0,100
0,107
0,119
0,121

0,107
0,117
0,123
0,103
0,130

0,122
0,113
0,109
0,100
0,134

1. Cul es la amplitud total de la distribucin de los datos?


2. Obtenga la distribucin de frecuencias absolutas y relativas.
3. Obtenga la distribucin de frecuencias acumuladas, absolutas y relativas, con los
intervalos anteriores.
4 Calcular la media y la varianza
5. Dibuje el polgono de frecuencias relativas.
6. Dibuje el polgono de frecuencias relativas acumuladas.

Das könnte Ihnen auch gefallen