Sie sind auf Seite 1von 32

Medidas de tendencia central y dispersión

En epidemiología se utiliza una gran variedad de métodos para resumir los datos. En la
Unidad anterior aprendió acerca de las distribuciones de frecuencia, las relaciones, las
proporciones y las tasas. En esta Unidad aprenderá acerca de las medidas de
localización central y de dispersión. Una medida de tendencia central es un valor único
que representa mejor características tales como la edad o el peso de un grupo de personas.

Una medida de dispersión cuantifica cuanto varían las personas entre sí y en relación a la
medida de tendencia central con respecto a la característica estudiada. Diversas medidas
de localización central y de dispersión aparecen descritas en esta unidad. Cada medida
tiene su lugar a la hora de resumir los datos de salud pública.

Objetivos

Después de preparar y entender éste módulo y responder las preguntas de los ejercicios, un
estudiante será capaz de:

1. Calcular e interpretar las siguientes medidas de tendencia central:


 media aritmética
 mediana
 moda
 media geométrica

2.- Escoger y aplicar la medida de tendencia central apropiada.

3.- Calcular e interpretar las siguientes medidas de dispersión:


 rango
 rango intercuartílico
 varianza
 desviación estándar
 intervalos de confianza (para la media)

4.- Escoger y aplicar la medida de dispersión apropiada.

*Usted puede requerir de una calculadora de mano y cuadros con valores de logaritmos para
los ejercicios de esta unidad.

Discusión adicional sobre las distribuciones de frecuencias

Intervalo de clase
En la unidad dos se habla sobre la distribución de frecuencias, los cuadros muestran los
valores que una variable puede tomar y el número de observaciones con cada valor. Cuando
la variable toma un número limitado de valores (por ejemplo 8 o 10) se pueden enumerar
individualmente; cuando las variables toman más de 10 valores, normalmente se agrupan;
éstos grupos de valores son llamados intervalos de clase. Una distribución de frecuencia con
intervalos de clase usualmente tiene de 4 a 8 intervalos. El cuadro 3.1a muestra la frecuencia
y distribución de una variable, (vasos de agua promedio consumidos en una semana) con 8
intervalos de clase.

Note en el cuadro 3.1a que las categorías de agua consumida son mutuamente excluyentes,
esto es que el primer intervalo de clase incluye 0 y 1 vasos con agua, el segundo intervalo
incluye 2 y 3 vasos y así sucesivamente. Cuando se introducen los datos en una distribución
de frecuencia, es importante decidir cómo tratar los datos decimales. Por ejemplo, ¿dónde
se colocaría a una persona que dice tomar 1.8 vasos de agua?

Cuando se introducen datos decimales en una distribución de frecuencia se pueden seguir


éstas reglas:

1.- Si un decimal es mayor que 0.5 aproxímelo al número superior (6.6 a 7)

2.- Si un decimal es menor que 0.5 aproxime al número inferior (6.4 a 6)

3.- Si el decimal es 0.5 entonces aproxímelo al valor par más próximo (p. ej., 5,5 y 6,5
a 6).

De acuerdo con éstas reglas se puede colocar a una persona que toma 1.8 vasos de agua al
día en la categoría 2-3 de El cuadro 3.1a. Entonces la categoría de 2-3 vasos realmente cubre
todos los valores desde 1.5 hasta 3.499 vasos de agua. Estos límites son llamados los límites
verdaderos del intervalo.

Cuadro 3.1
Número promedio de vasos de agua consumidos por semana por los
residentes del Municipio X, 1990
Número promedio de Número de
vasos de agua por semana Residentes
0-1 20
2-3 51
4-7 124
8-14 119
15-21 43
22-28 36
29-35 13
36-42 4
Total 410

El cuadro 3.1b muestra los límites verdaderos de los intervalos usados. Se puede ver allí que
los límites verdaderos del intervalo 15-21 son 14.5- 21.499... Es necesario conocer los
límites verdaderos de clase para calcular algunas de las medidas de tendencia central de una
distribución de frecuencia.

La edad y otras variables que involucran tiempo no pueden seguir reglas específicas de
aproximación. No es posible redondear la edad. Una persona tiene una edad determinada
desde un cumpleaños hasta el siguiente. Por ejemplo usted tiene 16 años hasta su
cumpleaños 17, aún el día antes. El cuadro 3.2 muestra una distribución de frecuencia de
las muertes por suicidio por edad en intervalos de clase. ¿Dónde registraría el registro la
defunción por suicidio de alguien de 14 años y 7 meses? El suicidio debe ser colocado en el
intervalo de 5-14 años.

Cuadro 3.1 b
Número promedio de vasos de agua consumidos por semana por los
residentes del Municipio X, 1990
Número promedio de Límites verdaderos de los Número de
vasos de agua por semana intervalos de clase Residentes
0-1 0,0-1,4999.. 20
2-3 1,5-3,4999.. 51
4-7 3,5-7,4999.. 124
8-14 7,5-14,4999.. 119
15-21 14,5-21,4999.. 43
22-28 21,5-28,4999.. 36
29-35 28,5-35,4999.. 13
36-42 35,5-42,4999.. 4
Total 410

Cuadro 3.2
Distribución de defunciones por suicidio por grupo de edad,
Estados Unidos, 1987 .
Edad de la defunción (años) Número de Defunciones
0-4 0
5-14 251
15-24 4924
25-34 6655
35-44 5132
45-54 3707
55-64 3650
65-74 3428
75-84 2402
85+ 634
Total 30783

Fuente: 3

De esta forma, se muestra su distribución de frecuencia, sin embargo, también se puede


presentar ésta información mediante gráficas. Por ejemplo, la figura 3.1 muestra la
distribución del cuadro 3.2. en forma de gráfica.

Fura 3.1
Distribución de frecuencia de suicidios
por grupo etario, Estados Unidos, 1987

Número de Defunciones

Edad de la defunción
Fuente: 3

Propiedades de las distribuciones de frecuencias


Cuando se grafica una distribución de datos a menudo se obtiene una gráfica como la de la
figura 3.2 con una gran parte de las observaciones agrupadas alrededor de un valor central;
ésta agrupación se conoce como localización central o tendencia central de una distribución
de frecuencias. El valor hacia el cual se aproxima la distribución es una característica
importante; una vez conocida, se puede usar para caracterizar todos los datos en la
distribución.

Es posible calcular un valor central por varios métodos y cada uno puede producir un valor
diferente. El valor central que resulta de cualquiera de éstos métodos se conoce como
medidas de tendencia central. De las posibles medidas de tendencia central en epidemiología
se usan comúnmente 3: la media aritmética, la mediana y la moda. Las menos usadas son el
rango medio y la media geométrica.

La figura 3.3 muestra la gráfica de las tres distribuciones de frecuencia, idénticas en forma
pero diferentes en su medida de tendencia central.

Se discutirán las medidas de tendencia central con más detalle después de describir las otras
propiedades de las distribuciones de frecuencia como la variación y la dispersión, que
muestran cómo se aleja la distribución de su valor central. Algunas de las medidas de
dispersión usadas en epidemiología son el rango, la varianza y la desviación estándar. La
dispersión de una distribución de frecuencia es independiente de su localización central. Este
hecho se ilustra en la figura 3.4 que muestra la gráfica de tres distribuciones de frecuencia
teóricas que tienen la misma tendencia central con diferente dispersión.
Figura 3.2
Gráfica de distribución de frecuencias con una gran parte de las
observaciones conglomeradas alrededor del valor central

Número de Trabajadores

Tallas de los trabajadores en pulgadas

Una tercera propiedad de la distribución de frecuencia es la forma. Las gráficas de las


distribuciones teóricas en las figuras 3.2 y 3.3 son completamente simétricas. Las
distribuciones de frecuencia de algunas características de la población humana tienden a ser
asimétricas. Por otra parte, la gráfica de los datos de suicidio (figura 3.1) es asimétrica. Una
distribución asimétrica quiere decir que está desviada.

Una distribución que tiene una localización central hacia la izquierda y que la cola está a la
derecha se dice que está sesgada a la derecha o positivamente sesgada. En la figura 3.5 la
distribución A está sesgada a la derecha. Una distribución que tiene la localización central a
la izquierda es una curva sesgada a la izquierda o negativamente sesgada. En la figura 3.5 la
distribución C está negativamente sesgada. ¿Cómo describiría la forma de la distribución
de los suicidios de la figura 3.1?

Figura 3.3
Tres curvas de forma idéntica con tres localizaciones centrales
ia
Variable x

Figura 3.4
Tres curvas con la misma localización central
pero diferente dispersión
Frecuencia

Variable x
La distribución de frecuencia de las defunciones por suicidio de la figura 3.1 esta sesgada
positivamente, es decir a la derecha.

El agrupamiento simétrico de los valores alrededor de una tendencia de localización central


es típicamente lo que se llama una distribución normal. La curva con la figura de una
campana es el resultado de representar en una gráfica una distribución normal. Esta
distribución en forma de campana es la base de muchas pruebas de inferencia que se usan
para sacar conclusiones o generalizar los datos. Para usar estas pruebas los datos deberían
tener una distribución normal, es decir, deberían dibujar una curva normal si se
representaran gráficamente.

Figura 3.5
Tres curvas con sesgos diferentes

Frecuencia

Variable x
Figura 3.6
Curva normal
Frecuencia

Variable x

Notación estadística
Antes de proseguir, le sugerimos que revise la notación estadística usada en la unidad y que
se describe en el cuadro 3.3. A lo largo de la unidad, incorporaremos el uso de ésta notación
en una nota al calce de la página. El apéndice B contiene la hoja de referencia de fórmulas
que resumen todas aquellas revisadas en esta unidad.
Cuadro 3.3.
Notación estadística utilizada en esta unidad
Observación individual: Una letra usualmente X o Y se usa para representar una
variable particular, como por ejemplo: la paridad. Una
observación individual en una serie de datos se representa por
Xi.
Número de La letra n o N se usa para representar el número de
observaciones: observaciones de una serie de datos. La letra fi (para una
frecuencia individual) se utiliza para representar con qué
frecuencia aparece un valor en la serie de datos.
Multiplicación: Cuando los valores se escriben juntos, por ejemplo, XY
significa que se multiplica el valor de X por el de Y.
Paréntesis: Los paréntesis se usan:
 Para indicar multiplicación, por ejemplo (X)(Y)
quiere decir que se multiplica X por Y.
 Para demostrar que lo que está en el paréntesis
debe ser tratado como términos separados por
ejemplo (X+Y)2 significa que se debe sumar a X el
valor de Y luego elevar al cuadrado el valor de la
adición.
Sumatoría: Se usa la letra griega mayúscula  para indicar que una lista de
números debe ser sumada; por ejemplo, se desea indicar que
se debe sumar la paridad usada en el Ejercicio 2.1. Se deberían
listar los números individualmente:
0+2+0+0+1+3+1+4+1+8+2+2+0+1+3+5+1+7+2.
Esto es ineficiente aún con una lista corta de números. En
cambio se puede usar esta notación estadística:
i  19

x
i 1
i

Esta notación se lee: sumatoría de los X desde i=1 hasta i=19.


Aún puede ser más corta así: xi se lee como la sumatoria
de los xi
Medidas de tendencia central
Se calcula una medida de tendencia central cuando se necesita un valor único que resuma
una serie de datos; por ejemplo: si se presentara la información de las muertes por suicidio
en los Estados Unidos en 1987, se puede decir que la edad mediana de las personas que
cometieron suicidio fue de 41.9 años.

La mejor medida en cada caso particular, depende tanto de las características de la


distribución, así como de la forma y del uso que se quiera dar a la medida.

La media aritmetica
Es la medida de tendencia central con la cual probablemente esté usted mas familiarizado es
la media aritmética; se conoce también como media o promedio; se representa como x y se
conoce como "x barra"; la fórmula para calcularla es:

media  x 
x i

Se lee así: la media es igual a “la suma de las x’s dividido por n”.

Ejemplo:

En un brote de hepatitis A, 6 personas iniciaron síntomas 24 a 31 días después de la


exposición. Calcule el promedio del período de incubación en éste brote; los períodos de
incubación para las personas afectadas (Xi) fueron:

29,31,24,29,30 y 25

1.- Para calcular el numerador sume las observaciones individuales


x= 29+31+24+29+30+25= 168

2.- Para calcular el denominador cuente el número de las observaciones: n=6

3.- Para calcular la media divida el numerador sumatoría de las observaciones) entre
el denominador (numero de las observaciones).

29  31  24  29  30  25 168
media  x    28 días
6 6

Entonces, el promedio del período de incubación del brote es 28 dias.

Ejemplo
En una lista de 5 variables para 11 personas. Vamos a demostrar como se calcula la media
de cada variable (A-E) en el listado. (Fíjese que este listado de variables, A, B, C, D y E,
será utilizado a lo largo de esta unidad en otros ejemplos y ejercicios).

Persona # Variable A Variable B Variable C Variable D Variable E


1 0 0 0 0 0
2 0 4 1 1 6
3 1 4 2 1 7
4 1 4 3 2 7
5 1 5 4 2 7
6 5 5 5 2 8
7 9 5 6 3 8
8 9 6 7 3 8
9 9 6 8 3 9
10 10 6 9 4 9
11 10 10 10 10 10

1. Para calcular el numerador, sume todas las observaciones individuales:


A.  xi = 0+0+1+1+1+5+9+9+9+10+10 = 55
B. xi = 0+4+4+4+5+5+5+6+6+6+10 = 55
C. xi = 0+1+2+3+4+5+6+7+8+9+10 = 55
D. xi = 0+1+1+2+2+2+3+3+3+4+10 = 31
E. xi = 0+6+7+7+7+8+8+8+9+9+10 = 79

2.- Para calcular el denominador cuente el número de observaciones (n=11) para cada
variable.

3.- Para calcular la media, divida el numerador (suma de las observaciones) entre el
denominador (número de las observaciones).

Media de la variable A= 55/11= 5


Media de la variable B= 55/11= 5
Media de la variable C= 55/11= 5
Media de la variable D= 31/11= 2.82
Media de la variable E= 79/11= 7.18

Ejercicio 3.1: Calcule el promedio de la paridad con los siguientes datos:


0,3,0,7,2,1,0,1,5,2,4,2,8,1,3,0,1,2,1.

Se usa la media aritmética más que cualquier otra medida de localización central porque
tiene propiedades estadísticas deseables; una de éstas es la propiedad de centrar la media.
Se puede demostrar ésta propiedad con el ejemplo del brote de hepatitis A. En El cuadro al
tomar el valor de los períodos de incubación y restarle la media al sumar las diferencias debe
dar 0. Esto demuestra que la media es el centro de la distribución.
Valor menos la media Diferencia
24-28 -4
25-28 -3
29-28 +1.0
29-28 +1.0
30-28 +2.0
31-28 +3.0
168-168.0=0 -7+7=0

Gracias a ésta propiedad, a la media se le llama "el centro de gravedad" de una distribución
de frecuencias. Esto significa que la media actúa como el punto de apoyo en una balanza,
como se ve en la figura 3.7.

Figura 3.7
La media es el centro de gravedad de la distribución

Aunque la media es una excelente medida de resumen de una serie de datos, éstos deben
seguir una distribución aproximadamente normal. La media es muy sensible a valores
extremos que sesgan la distribución. Por ejemplo, si en vez del 31 de la lista anterior,
tuviéramos un 131 la media cambiaría de 28.0 a 44.7

24+25+29+29+30+131 = 44.7
6

La media de 44.7 es el centro de gravedad para esos datos, pero para propósitos prácticos es
poco representativa de éstos. Como resultado, la media es mayor que todos los valores a
excepción del valor extremo. Por ser muy sensible a valores extremos, la media es una
medida resumen muy pobre para datos que están gravemente sesgados en cualquier
dirección.

La mediana
Otra medida de tendencia central es la mediana; como se verá es especialmente útil cuando
los datos están sesgados.
Mediana significa a la mitad y la mediana es el valor a la mitad de una serie de datos que
han sido colocados en orden. Específicamente, la mediana es el valor que divide una serie
de datos en dos mitades con una mitad de las observaciones mayores que ésta y la otra mitad
menores a la mediana.

Por ejemplo al tener los siguientes datos de tensiones arteriales sistólicas:

110,120,122,130,180 mm de Hg.

En este ejemplo, hay dos observaciones mayores y dos menores que 122, luego entonces, la
mediana es 122 mm de Hg, el valor de la 3ª observación. Al obtener la media (132) ésta
seria mayor que 4 de los 5 valores.

Cómo identificar la mediana de datos individuales


1.- Ordene los datos de menor a mayor o viceversa

2.- Encuentre el rango medio con la siguiente fórmula

Rango mediano= (n+1)


2

a. Si el número de observaciones (n) es impar el rango medio cae en una observación.

n es par el rango medio cae entre dos observaciones.

3.- Identifique el valor de la mediana

a. Si el rango medio cae en una observación específica (n=impar) la mediana es igual


al valor de ésta observación.

b. Si el rango medio cae entre dos observaciones (n=par) la mediana es igual al


promedio (media aritmética) del valor de estas observaciones.

Ejemplo con número impar de observaciones:

n=5: 13,7,9,15,11

1.- Ordenar de mayor a menor: 7,9,11,13,15.


o viceversa: 15,13,11,9,7.

2.- Encontrar el rango mediano

Rango mediano = (n+1) = 5+1 = 3


2 2

Entonces, el rango medio cae en el valor de la 3a observación.

3.- Identificar el valor de la mediana que es igual al valor de la tercera observación=11


Ejemplo con numero par:

n=6: 15,7,13,9,10,11

1.- Ordenar los datos 7,9,10,11,13,15

2.- Encontrar el rango medio

Rango mediano = (n+1)= 6+1 = 3.5


2 2

Entonces, el rango medio cae entre el valor de la 3a y la 4a observación.

3.- Identificar el valor de la mediana que es igual al promedio de la 3a y 4a observación

Mediana = 11+10 = 10.5


2

En contraste con la media, la mediana no está influenciada por valores extremos.

Ejemplo: A 24,25,29,30,31 Media 28.0 mediana 29


B 24,25,29,30,131 Media 44.7 mediana 29

Se observa cómo una observación altera la media pero no cambia la mediana, entonces se
prefiere la mediana como medida de tendencia central cuando los datos están desviados en
cualquier dirección o cuando los datos incluyen valores extremadamente grandes o
pequeños.

Ejemplo

A 0 0 1 1 1 5 9 9 9 10 10

B 0 4 4 4 5 5 5 6 6 6 10

C 0 1 2 3 4 5 6 7 8 9 10

D 0 1 1 2 2 2 3 3 3 4 10

E 0 6 7 7 7 8 8 8 9 9 10

1.- Organice las observaciones en orden creciente (ya está hecho)

2.- Encuentre el rango medio de las observaciones

(11 observaciones + 1)/2 =12/2=6

3.- Identifique el valor de la mediana que es el de la 6a observación:

La mediana para las variables A, B y C es 5;


La mediana para la variable D es 2;
La mediana para la variable E es 8;

Ejercicio 3.2: Calcule la mediana de los siguientes datos:

0,3,0,7,2,1,0,1,5,2,4,2,8,1,3,0,1,2,1.

En contraste con la media, la mediana no está influida en el mismo grado por los
valores extremos. Las dos siguientes series de datos son idénticas excepto por la última
observación:

Juego A:24,25,29,29,30,31 media: 28 mediana: 29


Juego B:24,25,29,29,30,131 media: 44.7 mediana: 29

Aquí la diferencia en una observación altera la media considerablemente, pero no hay


cambio en la mediana. Entonces la mediana se prefiere con respecto a la media al ser
una medida de tendencia central para los datos que están desviados en una dirección u
otra, o datos con unos valores extremadamente grandes o pequeños.

La moda
La moda es el valor que ocurre más frecuentemente en una serie de datos; por ejemplo en
los siguientes datos, la moda es 1 por que ocurre 4 veces, más que cualquier otro valor.

0,0,1,1,1,1,2,2,2,3,4,6.

Finalmente, se encuentra la moda como una distribución de frecuencia en la cual se ve


cuántas veces ocurre un valor. Si se encuentra que cada valor ocurre solo una vez, entonces
ésta distribución carece de moda, o si se advierte que 2 o más valores son los más comunes,
entonces tiene más de una moda.

Ejemplo:

En este ejemplo demostraremos los pasos para que encuentre la moda utilizando los
siguientes datos: 29,31,24,29,30,25 días.

1.- Organice los datos en una distribución de frecuencia, mostrando los valores de la variable
(xi) y la frecuencia fi cada vez que el valor ocurra:

xi fi
24 1
25 1
29 2
30 1
31 1
2.- Identifique el valor que ocurre más frecuentemente: 29: la moda es 29.

Ejemplo
Demostraremos como encontrar la moda del siguiente conjunto de datos:
15,9,19,13,17,11.

1.- Organice los datos en una distribución de frecuencia:

xi fi
9 1
11 1
13 1
15 1
17 1
19 1

2.- Identifique el valor que ocurre más frecuentemente; como todos los valores tienen la
misma frecuencia no hay moda para esta distribución de datos.

Ejemplo

Demostraremos cómo encontrar la moda utilizando los datos siguientes:


17, 9, 15, 9,17,13.

1.- Organice los datos en una distribución de frecuencia:

xi fi
9 2
13 1
15 1
17 2

2.- Identifique el valor que ocurre más frecuentemente; los valores 9 y 17 tienen la
misma frecuencia ya que ocurren 2 veces. Esta distribución de datos es bimodal.

Ejercicio 3.3: Calcule la moda de los siguientes datos de paridad:

0,3,0,7,2,1,0,1,5,2,4,2,8,1,3,0,1,2,1.

El rango medio (punto medio de un intervalo)


El rango medio es el punto de la mitad o punto medio de una serie de observaciones. Para
muchos tipos de datos, se calcula sumando la observación más pequeña con la más grande
dividido por dos; para datos de edad, se suma uno al numerador. El rango medio se calcula
usualmente como el paso intermedio en la determinación de otras medidas.

Las fórmulas para calcular el rango medio de una serie de observaciones son:

Rango medio ( para la mayoría de los tipos de datos)= (X1 + Xn)


2

Rango medio (datos de edad)= (X1 + Xn + 1)


2

Ejemplo

En éste ejemplo se demuestra cómo se halla el rango medio de éstas 5 variables (no se trata
de datos de edad)

A 0 0 1 1 1 5 9 9 9 10 10
B 0 4 4 4 5 5 5 6 6 6 10
C 0 1 2 3 4 5 6 7 8 9 10
D 0 1 1 2 2 2 3 3 3 4 10
E 0 6 7 7 7 8 8 8 9 9 10

1.- Organice las observaciones en orden ascendente (ya está hecho).

2.- Identifique el valor más pequeño y el más grande: 0 y 10 para todas las
distribuciones.

3.- Calcule el rango medio: (0+10)/2= 10/2= 5 para todas las distribuciones.

La edad difiere de la mayoría de otras variables porque no puede ser redondeada.. Alguien
que tiene 17 años y 360 días de edad no puede pasar por alguien de 18 años de edad sino
cinco días después. Considere el siguiente ejemplo:

En una escuela de preescolares, los niños fueron asignados a los salones con base en la edad
que tenían a septiembre 1. En el salón 2 estaban los niños que tenían por lo menos 2 años
pero no alcanzaban a tener 3 años el 1 de septiembre. (todos los niños en el salón 2 tenían 2
años el primero de septiembre). Cual es el rango medio de las edades de los niños en el salón
2 el primero de septiembre?

Para propósitos descriptivos, se podría decir que la respuesta apropiada es que el rango
medio es 2. Sin embargo, como se dijo, el rango medio es calculado como un paso
intermedio para obtener otras medidas. Entonces, es necesario ser mas precisos; considere
que algunos de los niños pueden tener 2 años justos, otros pueden estar cerca de los 3 años,
ignorando la tendencia estacional de los nacimientos y asumiendo que los cumpleaños
pueden estar distribuidos uniformemente a lo largo del año; los niños más jóvenes pueden
cumplir el 1 de septiembre y tener exactamente 2.0 años, el niño mayor puede cumplir años
en septiembre y tener 2.97 años. Para propósitos estadísticos la media y el rango medio de
éste grupo teórico es de 2.5 años, así:

Rango medio (para datos de edad) = (2+2+1) = 2.5


2

La media geométrica
Como se ha visto la media es una excelente medida de resumen para los datos que están
cerca de una distribución normal; algunas veces, se recogen datos que no están normalmente
distribuidos pero que tienen un patrón exponencial (1,2,4,8,16 etc) o patrón logarítmico (1/2,
1/4, 1/8, 1/16 etc). Por ejemplo para determinar cuantos anticuerpos están presentes en el
suero, se diluyen secuencialmente las muestras al 50% hasta que no se pueden detectar más
anticuerpos. La primera muestra que tiene el suero sin diluir tendrá el mayor título de
anticuerpos, luego se diluye al 50%, y queda con la mitad de los anticuerpos que había en la
muestra original. Y así, sí se continúaasí sí se continua diluyendo al 50%, la cantidad de
anticuerpos irá disminuyendo a 1/4, 1/8, 1/16 y así sucesivamente. Algunas veces se puede
decir que estas diluciones están medidas en una escala logarítmica; una medida de resumen
para estos datos es la media geométrica.

La media geométrica es un promedio de la serie de datos medidos en escala logarítmica.


Considere que el valor de 100 y la base de 10 es el poder en que se basa éste incremento.
¿Cual será la potencia necesaria para elevar en base 10 para obtener un valor de 100? 10
veces 10 o 102 igual a 100, el logaritmo de 100 en base 10 es = 2. De igual modo, el
logaritmo de 16 en base 2 es igual a 4 o 24= 2*2*2*2=16

Un antilogaritmo eleva la base a la potencia (logaritmo). Por ejemplo el antilog de 2 en base


10 es 102 o 100.

El logaritmo de 4 en base 2 es 24 o 16. La mayoría de los títulos son reportados como


múltiplos de 2 (2,4,6,8 etc) entonces, es más fácil usar base 2.

La media geométrica se calcula con base en la raíz enésima del producto de n observaciones.
La media geométrica es usada cuando los logaritmos de las observaciones se distribuyen
normalmente más que las observaciones por si mismas. Esta situación es típica cuando se
hacen diluciones, como en la detección de anticuerpos en el suero y muestreos ambientales.

Formula para calcular la media geométrica de datos individuales

Media geométrica = Xgeo = x1 * x2 *... xn

En la práctica la media geométrica se calcula así:

1
Media geométrica = Xgeo = antilog (
n
 Log xi )
Ejemplo

En este ejemplo se demuestra cómo se calcula la media geométrica en la siguiente serie de


datos:

10, 10, 100, 100, 100, 100, 10.000, 100.000, 100.000, 1.000.000

Estos valores son todos múltiplos de 10, puede ser adecuado para usar logaritmos en base
10.

Recuerde que:

100 = 1 (cualquier número elevado a la potencia 0=1)


101 = 10
102 = 100
103 = 1,000
104 = 10,000
105 = 100,000
106 = 1,000,000
107 = 10,000,000

y así sucesivamente.
1.- tome el logaritmo ( en éste caso en base 10 ) para cada valor:

log10 (Xi)= 1,1,2,2,2,2,4,5,5,6.

2.- calcule el promedio de los valores de log sumando y dividiendo por el número
de observaciones (en este caso 10) media de log10 (Xi)
=(1+1+2+2+2+2+4+5+5+6)/10= 30/10=3

3.- tome el antilogaritmo de la media de los valores de logaritmo, que da la media


geométrica.

antilog10 (3) = 103 = 1,000

La media geométrica de la serie de datos es 1,000.

Ejercicio 3.4
Usando los títulos dados calcule la media geométrica de los títulos de anticuerpos
contra el virus sincitial respiratorio en 7 pacientes

No dilución título
1 1:256 256
2 1:512 512
3 1:4 4
4 1:2 2
5 1:16 16
6 1:32 32
7 1:64 64
Como estos títulos son múltiplos de 2, se usa la fórmula de log. con base 2

21 = 2
22 = 4
23 = 8
24 = 16
25 = 32
26 = 64
27 = 128
28 = 256
29 = 512

En resumen, las medidas de tendencia central son valores únicos que resumen los valores
observados de una variable continua. La medida más común de tendencia central es la media
aritmética, que la gran mayoría de personas llama el promedio. La media aritmética es más
usada cuando los datos se distribuyen normalmente representando el centro de gravedad de
una serie de datos; desafortunadamente, la media aritmética es demasiado sensible hacia los
valores extremos.

Por fortuna, la mediana no es sensible a los valores extremos; la mediana representa la mitad
de los datos, con la mitad de las observaciones debajo y la mitad encima de la mediana.
Cuando una serie de datos está desviada o tienen valores extremos en una dirección, la
mediana es la medida de tendencia central a elegir.

La moda es simplemente el más común de los valores que toma una variable. Mientras cada
serie de datos tiene una y solo una media aritmética y una mediana puede tener una o varias
modas o carecer de ella. Como medida de tendencia central la moda es útil si estamos
interesados en conocer cuál es el valor más frecuente.

La media geométrica es la medida preferida cuando los datos tienen un patrón exponencial
o logarítmico. La media geométrica se usa muy comúnmente con los datos de laboratorio,
particularmente con muestras de suero que requieren ser diluidas y muestras ambientales.
Medidas de dispersión
Cuando se observa una gráfica de una distribución de frecuencias, normalmente se pueden
ver dos hallazgos primarios:

1.- la gráfica tiene un pico, habitualmente cerca del centro.

2.- se dispersa hacia uno y otro lado del pico. Así como usamos una medida de tendencia
central para describir dónde está el pico, también se usa una medida de dispersión
para describir cuánto se dispersa ésta distribución. Se pueden usar varias medidas de
dispersión.

Rango, valor mínimo y valor máximo


El rango de una serie de datos es la diferencia entre el valor mayor y el menor. En el argot
epidemiológico el rango se describe como un solo número: la diferencia entre el menor y el
mayor valor.

Ejemplo:

En éste ejemplo se demuestra cómo se encuentran los valores mínimo y máximo y el rango
de los siguientes datos: 29,31,24,29,30,25.

1.- Organice los datos de menor a mayor: 24,25,29,29,29,30,31;

2.- Identifique los valores mínimo y máximo:


mínimo=24 y máximo=31

3.- Calcule el rango:


rango = máximo - mínimo =31-24=7;
entonces el rango es igual a 7.
Ejemplo

Persona # Variable A Variable B Variable C Variable D Variable E


1 0 0 0 0 0
2 0 4 1 1 6
3 1 4 2 1 7
4 1 4 3 2 7
5 1 5 4 2 7
6 5 5 5 2 8
7 9 5 6 3 8
8 9 6 7 3 8
9 9 6 8 3 9
10 10 6 9 4 9
11 10 10 10 10 10
Suma 55 55 55 31 79
Media 5 5 5 2.8 7.2
Mediana 5 5 5 2 8
Rango medio 5 5 5 5 5
Mínimo 0 0 0 0 0
Máximo 10 10 10 10 10

1.- Organice los datos (ya realizado).

2.- Identifique los valores mínimos y máximo y calcule la diferencia:

máximo valor de cada variable = 10


mínimo valor de cada variable = 0

Entonces, el rango de cada variable es 10-0=10.

El valor de las variables A, B, y C son obviamente diferentes, pero la media, mediana, los
valores máximo y mínimo y el rango no permiten ver diferencias. Para las variables D y E
el rango medio, los valores máximo y mínimo y el rango tampoco sirven para mostrar
diferencias en las variables.

Percentiles, cuartiles y rangos intercuartílicos


Consideremos el valor máximo de una distribuciónde otra manera: como el valor que tiene
el 100% de las observaciones por debajo de él y ahora denominémoslo el percentil 100.
Desde la misma perspectiva, la mediana, es el valor que tiene el 50% de las observaciones
por debajo de el o también llamado el percentil 50. El percentil "n-ésimo" es el valor que
tiene el "n%" de las observaciones por debajo.

Los percentiles más comunes son los percentiles 25, 50 y 75. El percentil 25 demarca el
primer cuartil, el percentil 50 el segundo cuartil, el percentil 75, el tercer cuartil y el
percentil 100, el cuarto cuartil.
El rango intercuartílico representa la porción central de una distribución, y se calcula como
la diferencia entre el tercer cuartil y el primero. El rango incluye aproximadamente la mitad
de las observaciones en la serie, dejando aproximadamente 25% de las observaciones por
debajo o por encima.

Como calcular el rango intercuartílico de los datos individuales.


Para calcular el rango intercuartílico, primero hay que encontrar el tercer y el primer cuartil.
Como cuando se calcula la mediana, primero hay que poner las observaciones en orden y
luego determinar la posición del cuartil. El valor del cuartil es el valor de la observación en
esta posición o, si el cuartil se encuentra entre dos observaciones, es el valor entre las
observaciones.

1. Organice las observaciones en orden ascendente.

2. Encuentre la posición del primer y el tercer cuartil usando las siguientes fórmulas:

posición del primer cuartil (Q1) = (n + 1) / 4

posición del tercer cuartil (Q3) = 3(n + 1) / 4 = 3 x Q1

3. Identifique el valor del primer cuartil y el tercer cuartil.

 si el cuartil se encuentra en una observación (es decir, su posición es sobre un


número entero), el valor del cuartil es el valor de esta observación. Por ejemplo,
si la posición del cuartil es 20, el valor es el de la observación número 20.
 si el cuartil se encuentra entre dos observaciones, el valor de éste es el valor de
la observación menor, más la fracción de las diferencias entre las dos
observaciones; Por ejemplo, si la posición de la observación es 20 1/4, se
encuentra entre la observación 20 y la observación 21, y su valor es el valor de
la observación 20, más 1/4 la diferencia entre el valor de las observaciones 20 y
21.

4. Calcule el rango intercuartílico entre Q3 y Q1.


Figura 3.8
La mitas de las observaciones en una distribución
de frecuencia yace en el rango intercuartilar

Mediana
Valor mas Percentil 25 Percentil 50 Percentil 75 Valor mas
Pequeño Grande

Intervalo Intercuartíilico=Q3-Q1
Ejemplo.

1. Organice las observaciones en orden ascendente.


Dados estos datos: 13, 7, 9, 15, 11, 5, 8, 4,
hay que organizarlos así: 4, 5, 7, 8, 9, 11, 13, 15.

2. Encuentre la posición del primer y el tercer cuartil. Dado que hay 8 observaciones, n=8.

posición del primer cuartil (Q1) = (n + 1) / 4


= (8 + 1) / 4 = 2.25

posición del tercer cuartil (Q3) = 3(n + 1) / 4 = 3 x Q1


3(8 + 1) / 4 = 6.75

Así, se encuentra Q1 (1/4) de las observaciones entre 2 y 3 y Q3 (3/4) entre las observaciones
entre 6 y 7.
3. Identifique el valor del primer y el tercer cuartil.

Valor de Q1: La posición de Q1 es 2 1/4; así, el valor de Q1 es el valor de la observación 2


más 1/4 de la diferencia entre los valores de las observaciones 2 y 3.

Valor de la observación 3 (ver paso 1) : 7


Valor de la observación 2: 5
Q1 = 5 + 1/4( 7-5 ) = 5 + 1/4(2) = 5 + 0,5 = 5.5

Valor de Q3: La posición de Q1 es 6 3/4; así, el valor de Q3 es el valor de la observación 6


más 3/4 de la diferencia entre los valores de las observaciones 6 y 7.

Valor de la observación 7 (ver paso 1) : 13


Valor de la observación 6: 11
Q3 = 11 + 3/4( 13-11 ) = 11 + 3/4 (2) = 11 + 1.5 = 12.5

4. Calcule el rango intercuartílico como Q3 menos Q1.

Q3 = 12,5 (ver paso 3)


Q1 = 5,5

Rango intercuartílico = 12,5 - 5,5 = 7

Ejemplo:

En seguida se demuestra cómo se encuentra el primer, segundo y tercer cuartil y el rango


intercuartílico, de los períodos de incubación de la hepatitis A :
29, 31, 24, 29, 30, 25

1. Organice las observaciones en orden ascendente.


24, 25, 29, 29, 30, 31

2. Encuentre la posición del primer y el tercer cuartil.

posición del primer cuartil (Q1) = (n + 1) / 4


= (6 + 1) / 4 = 1,75

posición del tercer cuartil (Q3) = 3(n + 1) / 4 = 3 x Q1


3(6 + 1) / 4 = 5,25

Así, se encuentraQ1 3/4 entre las observaciones 1 y 2 y Q3 1/4 entre las observaciones 5 y
6.

3. Identifique el valor del primer y el tercer cuartil.

Valor de Q1: La posición de Q1 es 1 3/4; así, el valor de Q1 es el valor de la observación 1


más 3/4 de la diferencia entre los valores de las observaciones 1 y 2.
Q1 = 24 + 3/4( 25-24 ) = 24 + 3/4 (1) = 24,75

Valor de Q3: La posición de Q3 es 5 1/4; así, el valor de Q1 es el valor de la observación 5


más 1/4 de la diferencia entre los valores de las observaciones 5 y 6.

Q3 = 30 + 1/4( 31-30 ) = 30 + 1/4 (1) = 30 + 0,25 = 30,25

Mediana = (n + 1) / 2 = 7/2 = 3,5.


Así la mediana es (29 + 29) / 2 = 29

4. Rango intercuartílico = 30,25 - 24,75 = 5,5 días

Fíjese que la distancia entre la mediana y Q1 es 29 - 24,75 = 4,25. En contraste, la distancia


entre la mediana y Q3 es solo 30,25 - 29 = 1,25. Esto indica que los datos se orientan hacía
los números más pequeños (orientados hacia la izquierda).

Este no es el único método para calcular los cuartiles. Otros métodos pueden producir
resultados un poco diferentes.

En general, se usan los cuartiles y el rango intercuartílico para describir la variabilidad


cuando se está usando la mediana como la medida de tendencia central. Cuando se está
usando la media aritmética, hay que usar la desviación típica.

El resumen de los datos de una distribución consiste en :


1) la observación mínima
2) el primer cuartil
3) la mediana
4) el tercer cuartil
5) la observación máxima.

En conjunto, estos valores forman una buena descripción del centro, la forma y la extensión
de una distribución. Se utilizan estos datos para dibujar un diagrama de cajas y bigotes.

Ejercicio 3,5

Determine el primer y el tercer cuartil y el rango intercuartílico de estos datos de


paridad:
0, 3, 0, 7, 2, 1, 5, 2, 4, 2, 8, 1, 3, 0, 1, 2, 1

Varianza y desviación típica (o estándar)


Si se resta la media aritmética de cada observación, la suma de las diferencias es cero. Este
concepto de restar la media de cada observación es la base para dos medidas de dispersión,
la varianza y la desviación típica o estándar. Para estas medidas, hay que elevar al cuadrado
las diferencias para eliminar los números negativos. Después, se suma el cuadrado de las
diferencias y se divide por n-1 para encontrar la "media" de las diferencias al cuadrado. Esta
"media" es la varianza. Para convertir la varianza a las unidades originales, hay que obtener
la raíz cuadrada. Se denomina desviación típica.o estándar. a la raíz cuadrada de la
varianza. Enseguida se realizarán los cálculos con el ejemplo anterior.
Valor menos la media Diferencia Diferencias al cuadrado
24-28 -4 16
25-28 -3 9
29-28 +1.0 1
29-28 +1.0 1
30-28 +2.0 4
31-28 +3.0 9
168-168.0=0 -7+7=0 40

suma de las diferencias cuadráticas 40


Varianza=  8
n 1 5
Desvío estándar= 8  2.83

La varianza y la desviación estándar son medidas de la desviación o dispersión de las


observaciones alrededor de la media de la distribución. La varianza es la media de las
diferencias cuadradas de las observaciones alrededor de la media. Se representa como "S2"
en las fórmulas. La desviación estándar es la raíz cuadrada de la varianza; se representa con
"s". Las siguientes fórmulas definen estas medidas:

Varianza  s2 
 (x  x)
i
2

desviación estándard =
 (x  x)
i
2

n 1 n 1

Fórmulas para calcular la varianza y la desviacion típica de


datos individuales
Se pueden usar las fórmulas anteriores para calcular la varianza y la desviación estándar,
pero son incómodos de usar con grandes cantidades de datos. Las siguientes fórmulas son
más útiles en este caso porque no es necesario calcular la media primero.

n xi  ( xi ) 2
2

Varianza  s  2
desviación estándard = s = s2
n(n  1)
Compare los dos términos, xi2 y ((xi)2 . El primero indica que hay que elevar al cuadrado
cada observación y sacar la suma de los valores cuadrados. El segundo indica que hay que
sumar las observaciones, y después elevar al cuadrado la suma.

Ejemplo

Se utilizarán las fórmulas definidas para calcular la varianza (S2) para la variable C: 1, 2, 3,
4, 5, 6, 7, 8, 9, 10.

Varianza  s 2

 (x  x)
i
2

desviación estándard =
 (x  x)
i
2

n 1 n 1

Columna 1 Columna 2 Columna 3 Columna 4


xi xi  x ( xi  x ) 2 xi 2
0 0-5.0=-5 25 0
1 1-5.0=-4 16 1
2 2-5.0=-3 9 4
3 3-5.0=-2 4 9
4 4-5.0=-1 1 16
5 5-5.0=0 0 25
6 6-5.0=1 1 6
7 7-5.0=2 4 49
8 8-5.0=3 9 64
9 9-5.0=4 16 81
10 10-5.0=5 25 100
55 0 110 385

1. Calcule la media (primera columna)

x
x i

55
 5.0
n 11

2. Reste la media de cada observación para encontrar las desviaciones de la media (columna
2)

3. Eleve al cuadrado las desviaciones de la media (columna 3) ( xi  x ) 2

4. Sume las desviaciones elevados al cuadrado (columna 3) (xi -x)2 = 110

5. Divida la suma de las desviaciones elevadas al cuadrado por n-1 para encontrar la
varianza:
 ( xi  x )2  110  110  110.
n 1 11  1 10

6. Saque la raíz cuadrada de la varianza para encontrar la desviación estándar

desviación estándard = s = s2  11  3.3

Ejemplo

Se utilizará la fórmula alternativa para calcular la varianza y la desviación estándar de los


datos del ejemplo anterior.

Fórmula
n xi  ( xi ) 2
2

Varianza  s  2
desviación estándard = s = s2
n(n  1)
xi xi 2
0 0
1 1
2 4
3 9
4 16
5 25
6 6
7 49
8 64
9 81
10 100
55 385

1. Para calcular el término xi2 en la fórmula, hay que elevar al cuadrado cada observación
y encontrar la suma de los cuadrados (ver la segunda columna, xi2, en el cuadro de arriba).
xi2 = 385

2. Para calcular el término (xi)2 en la fórmula, hay que encontrar la suma de las
observaciones y elevarlas al cuadrado (ver la primera columna de el cuadro de arriba).
(xi2)=552 = 3025

3. Calcule el numerador:
n xi  (  xi ) 2 = (11) (385) - 3025 = 4235 - 3025 = 1210
2

4. Para calcular el denominador, hay que restar 1 de n y multiplicar el resultado por n:


n(n - 1) = 11 (11-1) = 11 x 10 = 110

5. Para completar el cálculo de la varianza hay que dividir el denominador entre el


numerador:
S2 = 1210 / 110 = 11.0

6. Para completar el cálculo de la desviación estándar, hay que sacar la raíz cuadrada a la
varianza:
desviación estándard = s = s2  11  3.3

Para ilustrar las relaciones entre la desviación estándar, la media y la curva normal, hay que
considerar los datos con una distribución normal, como en la figura 3,9. Se encuentra el
68,3% del área por debajo de la curva normal dentro la media y +/- una desviación estándar,
es decir, entre una desviación por debajo de la media y una por encima. Además, se
encuentra el 95,5% del área entre la media y +/- dos desviaciones estándares, y el 99,7%
entre la media y +/- 3 desviaciones estándares. Se encuentra el 95% del área entre la media
y +/- 1.96 desviaciones estándares.

Figura 3.9
Areas bajo la curva normal que yacen entre 1, 2 y 3 desviaciones estándar
a cada lado de la media

68.3% de los datos

95.5% de los datos

99.7% de los datos

-3 DE -2DE -1 DE Media +1DE +2DE +3DE


Se puede usar la media y la desviación estándar para describir, en forma breve, los datos de
una distribución normal. Por ejemplo, los niveles séricos del colesterol de una muestra
representativa de miles de hombres en su cuarta década. Se podría listar el nivel de colesterol
de cada hombre, o mostrar la frecuencia de la distribución, o simplemente reportar el valor
medio y la desviación estándar. Se muestra la frecuencia de la distribución en El cuadro 3,4.
En resumen, la media es 213 y la desviación estándar es 42.
Cuadro 3.4
Niveles de colesterol sérico
Colesterol (mg/dL) Frecuencia
60-79 2
80-99 7
100-119 25
120-139 86
140-159 252
160-179 559
180-199 810
200-219 867
220-239 764
240-259 521
260-279 318
280-299 146
300-319 66
320-339 22
340-359 7
360-379 4
380-399 2
400-419 1
420-439 1
440-479 0
480-499 1
500-619 0
620-639 1
Total 4,462
Fuente:1

Ejercicio 3.6

Calcule la desviación estándar de los datos de paridad que se muestran a continuación

0,3,0,7,2,1,0,1,5,2,4,2,8,1,3,0,1,2,1

Ejercicio 3.7

Observemos las variables A, B y C en la página 179, ¿Qué variable pareciera tener la menor
dispersión respecto a la media?. En otras palabras, ¿a que variable podría usted predecirle
la desviación estándar mas pequeña?

Para encontrar la respuesta, calcule la desviación estándar de las variales A y B. Hemos de


antemano determinado que la desviación estándar de C es 3.3 (vea la página 186). Compare
las medias y desviaciones estándar de estas tres variables.

Variable Media Desviación estándar


A 5 ____________
B 5 ____________
C 5 3.3
En resumen, las medidas de dispersión sirven para cuantificar la dispersión y la variabilidad
de los valores observados de una variable continua. La medida de dispersión más simple es
el rango desde el valor más pequeño hasta el valor más grande. El rango es bastante sensible
a los valores extremos en cualquier dirección.

Para los datos con una distribución normal, se utiliza la desviación estándar y la media
aritmética. La desviación estándar refleja la cercanía de los valores observados a la media.
Para los datos con una distribución normal, el rango desde "menos una desviación estándar"
hasta "más una distribución estándar" representa el 68.3% de los datos en la mitad de la
distribución. Aproximadamente el 95% de los datos están dentro del rango de -1,96
desviaciones estándares a +/- 1,96 desviaciones estándares.

Para los datos no normales, se utiliza el rango intercuartílico y la mediana. El rango


intercuartílico representa el rango desde el percentil 25 (el primer cuartil) hasta el percentil
75 (el tercer cuartil), más o menos el 50% de los datos del centro de la distribución.

Ejercicio de repaso

Ejercicio 3.10
Los datos del cuadro 3.7 corresponden a una serie de muestras de niveles
sanguíneos de plomo en Jamaica.

a. Resuma estos datos con una distribución de frecuencias.


b. Calcule la media aritmética.
c. Determine la mediana y el rango intercuartílico. (Pista: En su distribución de
frecuencias vaya sumando la columna de las frecuencias hasta que alcance el rango
medio).
d. Calcule los límites de confianza del 95% para la media aritmética.
e. Opcional: Calcule la media geométrica usando los niveles logarímicos de plomo
que se muestran en el cuadro 3.7.
Cuadro 3.7
Niveles de plomo en sangre en niños menores de 6 años en una muestra al azar,
Jamaica, 1987
No. Nivel de Plomo* Log 10 del Nivel No. Nivel de Plomo* Log 10 del Nivel

1 46 1,66 30 36 1,56
2 69 1,84 31 45 1,65
3 29 1,46 32 31 1,49
4 9 0,95 33 39 1,59
5 52 1,72 34 5 0,70
6 37 1,57 35 53 1,72
7 9 0,95 36 30 1,48
8 10 1,00 37 26 1,41
9 5 0,70 38 58 1,76
10 16 1,20 39 85 1,93
11 35 1,54 40 28 1,45
12 31 1,49 41 14 1,15
13 12 1,08 42 28 1,45
14 11 1,04 43 14 1,15
15 15 1,18 44 10 1,00
16 9 0,95 45 14 1,15
17 14 1,15 46 13 1,11
18 12 1,08 47 16 1,20
19 22 1,34 48 13 1,11
20 23 1,36 49 10 1,00
21 76 1,88 50 11 1,04
22 42 1,62 51 5 0,70
23 40 1,60 52 9 0,95
24 98 1,99 53 12 1,08
25 18 1,26 54 5 0,70
26 23 1,36 55 52 1,72
27 19 1,28 56 94 1,97
28 14 1,15 57 12 1,08
29 63 1,80
*g/dL=micrograms por decilitro

Das könnte Ihnen auch gefallen