Sie sind auf Seite 1von 23

20/02/2018

Estadística para Biólogos


Código: 102149M

Wilmar Alexander Torres L.


MSc (c) en Estadística
wilmar.alexander.torres@correounivalle.edu.co

Tabla de Frecuencias Completa


Tabla de frecuencias para la Longitud de las Conchas del gasterópodo Monodonta labio (mm)

Frecuencia Frecuencia Frecuencia absoluta Frecuencia relativa


Clase Intervalos de Clase
absoluta (ni) relativa (fi) acumulada (Ni) acumulada (Fi)

1 [3 – 4] 7 0.0020 7 0.0020
2 (4 – 5] 30 0.0084 37 0.0104
3 (5 – 6] 94 0.0264 131 0.0368
4 (6 – 7] 140 0.0394 271 0.0762
5 (7 – 8] 188 0.0529 459 0.1291
6 (8 – 9] 273 0.0768 732 0.2058
7 (9 – 10] 393 0.1105 1125 0.3164
8 (10 – 11] 468 0.1316 1593 0.4480
9 (11 – 12] 515 0.1448 2108 0.5928
10 (12 – 13] 481 0.1353 2589 0.7281
11 (13 – 14] 436 0.1226 3025 0.8507
12 (14 – 15] 335 0.0942 3360 0.9449
13 (15 – 16] 127 0.0357 3487 0.9806
14 (16 – 17] 58 0.0163 3545 0.9969
15 (17 – 18] 10 0.0028 3555 0.9997
16 (18 – 19] 1 0.0003 3556 1.0
Total 3556 1.0

1
20/02/2018

Representaciones Graficas
En algunas ocasiones se pueden representar los datos mediante un
Histograma y un polígono de frecuencias.

500

400
Frecuencia absoluta

300

200

100

0
3,5 4,5 5,5 6,5 7,5 8,5 9,5 10,5 11,5 12,5 13,5 14,5 15,5 16,5 17,5 18,5
Longitud de la Concha (mm)

Representaciones Graficas
Cuando se trate de frecuencias absolutas o relativas acumuladas, se
deben representar por medio del grafico denominado Ojiva.
4000
Frecuencia absoluta acumulada

3000

2000

1000

0
3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
Longitud de la Concha

Con este grafico se pueden interpolar frecuencias entre dos puntos


determinados; ya que él se construye a partir de la Función Empírica
de Distribución Acumulativa F(x).

2
20/02/2018

Observaciones
• Cuando los datos se agrupan en intervalos de clase, se produce
pérdida de información. Por tanto se recomienda que se tome un
número de intervalos mayor que 5 y menor que 20.

• No deben existir intervalos de clase que no contengan datos. Cuando


esto ocurra deberán reagruparse los datos.

• Cuando sea posible debe procurarse que todos los intervalos sean de
igual longitud, lo cual en ocasiones simplifica algunos cálculos y
sobre todo facilita la interpretación.

• Cuando los intervalos de clase son de diferente tamaño se dificulta


conocer donde hay mayor concentración de los datos, esta situación
se soluciona calculando la densidad de frecuencia relativa de cada
intervalo.

Tabla de Frecuencias

Si se asume que los datos de cada intervalo están uniformemente


distribuidos, se puede definir la densidad 𝑓𝑖∗ en el i-ésimo intervalo
como:

fi
fi* 
Ci

Si se expresa la densidad como una función para cualquier número real


x, se obtiene la llamada función empírica de densidad.

3
20/02/2018

Tabla de Frecuencias con intervalos de


diferente amplitud
Tabla de frecuencias para la estructura poblacional de una especie particular de árbol.

Edad Frecuencia Frecuencia Frecuencias Acumuladas


(años) Absoluta relativa (%) Absoluta Relativa
[0 – 2] 50 10 50 10
(2 – 3] 25 5 75 15
(3 – 5] 200 40 275 55
(5 – 10] 200 40 475 95
(10 – 20] 25 5 500 100
Total 500 100

Función Empírica de Densidad

Función Empírica de Densidad para el ejemplo de la estructura poblacional


de una especie particular de árbol:

0 / año si x < 0
0.05 / año si 0  x  2

0.05 / año si 2 < x  3

f  x   0.20 / año
*
si 3 < x  5
0.08 / año si 5 < x  10

0.005 / año si 10 < x  20
0 / año
 si x > 20

Se puede indicar que para el intervalo 3 (3-5 años) en promedio hay 20% de
los datos en cada unidad. Es decir, que hay un 20% de los datos en cada
uno de los años en ese intervalo (se estandariza a una unidad de medida).

4
20/02/2018

Función Empírica de Densidad


La función empírica de densidad se puede representar gráficamente
mediante un histograma que consiste en una serie de rectángulos, cuya
base son los intervalos de clase y su altura la densidad correspondiente.
0,20
Densidad de frecuencias (%/año)

0,15

0,10

0,05

0,00
0 2 3 5 10 20
Edad

La palabra "empírica" es para resaltar que proviene de una muestra, pero


pretende indicar el comportamiento de la variable en la población (función
de densidad de probabilidad).

Otras representaciones graficas

Grafico circular: Grafico de barras:


(pocas categorías) (el número de categorías no interesa)

5
20/02/2018

Representación de datos

Grafico de barras combinando diferentes variables cualitativas:

Representación de datos

Grafico con barras de desviación estándar Grafico de Cajas y alambres (boxplot)

6
20/02/2018

Representación de datos

Mediciones indexadas en el tiempo (Datos Longitudinales – Series de tiempo)

Representación de datos

Cartograma de la Temperatura media mundial para Enero de 2016

7
20/02/2018

Representación de datos
Diagrama de Dispersión: Ilustra la posible asociación existente entre pares de
variables.

Indicadores Estadísticos

8
20/02/2018

Indicadores Estadísticos

Proceso de resumir los datos por medio de estadísticos que


indiquen sus rasgos más relevantes, como son su magnitud,
homogeneidad, simetría, etc.

INDICADORES DE TENDENCIA CENTRAL


INDICADORES DE DISPERSIÓN
INDICADORES DE POSICIÓN
INDICADORES DE FORMA

Indicadores de Tendencia Central

Es un valor que esta en el centro o punto medio de un


conjunto de datos. Tiene como objetivo resumir los datos en
un valor típico o representativo del conjunto de valores.
Las medidas de tendencia central más importantes son:

Media Aritmética

Mediana

Moda

9
20/02/2018

Media Aritmética
La media aritmética es la suma de todos los valores de una variable
dividida por el número total de observaciones de la muestra.
Se representa con la misma letra que denota la variable con una barra
horizontal encima. Su calculo viene dado por la siguiente expresión:

x i
x1  x2  ...  xn
x i 1

n n

Para una tabla de frecuencias (Variable discreta sin agrupación):


m

n x i i m
ni m
x i 1
 xi   f i xi
n i 1 n i 1

Media Aritmética
Ejemplo: A continuación se muestra el tamaño de camada de Zorros
encontrados en cierto lugar para n=10 observaciones:

4, 7, 4, 4, 6, 3, 5, 6, 7, 5

1. ¿Cuál es la media del conjunto de datos?

x i
4 7  4 4 635 6 7 5
x  i 1
  5.1
n 10

El tamaño promedio de las camadas observadas son de


aproximadamente 5 zorros.

10
20/02/2018

Media Aritmética

2. Si la muestra se presenta en un cuadro de frecuencias:

xi ni fi
3 1 0.1
4 3 0.3
5 2 0.2
6 2 0.2
7 2 0.2
10 1.0

n x i i
(1 3)  (3  4)  (2  5)  (2  6)  (2  7)
x i 1
  5.1
n 10
m
x   f i xi  (0.1 3)  (0.3  4)  (0.2  5)  (0.2  6)  (0.2  7)  5.1
i 1

Media aritmética
(Datos agrupados en intervalos de clase)

Debido a la perdida de individualidad de la información, el calculo de


la media se hace de forma aproximada, empleando la marca de clase
𝑥𝑖′ que representa el punto medio de cada intervalo de clase.

Supuesto: LInf  LSup


Los datos en cada intervalo están xi 
uniformemente distribuidos 2

 n x i i m
ni m
x i 1
 xi   f i xi
n i 1 n i 1

11
20/02/2018

Media aritmética
(Datos agrupados en intervalos de clase)

Clase
Longitud de la Marca de Frecuencia Frecuencia Ejemplo:
concha (mm) clase (xi’) absoluta (ni) relativa (fi)
1 [3 – 4] 3.5 7 0.0020
¿Cuál es la media del conjunto de
2 (4 – 5] 4.5 30 0.0084
3 (5 – 6] 5.5 94 0.0264
datos?
4 (6 – 7] 6.5 140 0.0394 m
5 (7 – 8] 7.5 188 0.0529
 n x i i m
ni m
 xi   f i xi
6 (8 – 9] 8.5 273 0.0768
7 (9 – 10] 9.5 393 0.1105 x i 1

8 (10 – 11] 10.5 468 0.1316


n i 1 n i 1

9 (11 – 12] 11.5 515 0.1448


10 (12 – 13] 12.5 481 0.1353
11 (13 – 14] 13.5 436 0.1226 Las conchas tienen una longitud
12 (14 – 15] 14.5 335 0.0942 media de 11.1815 mm.
13 (15 – 16] 15.5 127 0.0357
14 (16 – 17] 16.5 58 0.0163
15 (17 – 18] 17.5 10 0.0028
16 (18 – 19] 18.5 1 0.0003
Total 3556 1.0

Mediana

La mediana es el valor que se encuentra en la mitad de los


datos, por lo tanto, es la medida de tendencia central que
divide a la distribución de datos en dos partes iguales.

La mediana de una serie de datos x1, x2,…, xn ordenada en


forma creciente o decreciente, se define de la siguiente forma:

 x n   x n 1
 2 2
Si n es par
Me   2
x n  1 Si n es impar
  2 

12
20/02/2018

Mediana

Sigamos con el ejemplo de las camadas de zorros. Los datos


son:
4, 7, 4, 4, 6, 3, 5, 6, 7, 5

Ordenando de menor a mayor:

3, 4, 4, 4, 5, 5, 6, 6, 7, 7

Dado que el valor de la mitad es 5, podemos decir que el 50%


de las camadas de zorros son de tamaño igual o inferior a 5.

Mediana
(Datos agrupados en intervalos de clase)

Aproximación al valor de la mediana:


1. Identifique el intervalo en el cual se encuentra la mediana.
2. Sobre ese intervalo aplique la siguiente formulación.

F  x   Fi 1 
fi
Ci
 x  LInf 
 0.5  Fi 1 
Me  LInf     Ci
 fi 

13
20/02/2018

Mediana
(Datos agrupados en intervalos de clase)

Intervalos
Clase
de Clase
xi’ ni fi Ni Fi Ejemplo:
1 [3 – 4] 3.5 7 0.0020 7 0.0020 ¿Cuál es la mediana del conjunto
2 (4 – 5] 4.5 30 0.0084 37 0.0104
3 (5 – 6] 5.5 94 0.0264 131 0.0368
de datos?
4 (6 – 7] 6.5 140 0.0394 271 0.0762
5 (7 – 8] 7.5 188 0.0529 459 0.1291
 0.5  Fi 1 
6
7
(8 – 9]
(9 – 10]
8.5
9.5
273
393
0.0768
0.1105
732
1125
0.2058
0.3164 Me  LInf     Ci
8
9
(10 – 11]
(11 – 12]
10.5
11.5
468
515
0.1316
0.1448
1593
2108
0.4480
0.5928
 f i 
10 (12 – 13] 12.5 481 0.1353 2589 0.7281
11 (13 – 14] 13.5 436 0.1226 3025 0.8507 El 50% de las conchas tienen
12 (14 – 15] 14.5 335 0.0942 3360 0.9449 longitudes inferiores o iguales
13 (15 – 16] 15.5 127 0.0357 3487 0.9806
14 (16 – 17] 16.5 58 0.0163 3545 0.9969 a 11.36 mm.
15 (17 – 18] 17.5 10 0.0028 3555 0.9997
16 (18 – 19] 18.5 1 0.0003 3556 1.0
Total 3556 1.0

La mediana se encuentra en
este intervalo

Moda

Es la medición con mayor frecuencia en un conjunto de datos

La Mo es una medida de una concentración relativamente


grande de datos.

➢ No es necesariamente única (puede haber varias modas).

➢ Es la medida de tendencia central para variables cualitativas,


aunque también se puede calcular para variables
cuantitativas (no recomendable).

➢ Al igual que en la Mediana, en su cálculo no intervienen


todos los elementos.

14
20/02/2018

Medidas de Tendencia Central


¿Cuál elegir?

Propiedad de los indicadores (Sensibilidad)

Cualidad de un indicador de detectar cambios producidos en la


muestra
Mucha sensibilidad en un indicador puede ser contraproducente, puesto
que cambios irrelevantes (valores extremos) en la muestra pueden producir
grandes cambios en el indicador, lo cual puede prestarse para
interpretaciones equivocadas.

Ejemplo:
Gastos de los estudiantes en la universidad:
Gasto (xi)
¿Cuál indicador representa mejor
1700
la muestra, la Media o la
3000
Mediana?
5000
6500
70000

15
20/02/2018

Propiedad de los indicadores (Sensibilidad)

Cualidad de un indicador de detectar cambios producidos en la


muestra
Mucha sensibilidad en un indicador puede ser contraproducente, puesto
que cambios irrelevantes (valores extremos) en la muestra pueden producir
grandes cambios en el indicador, lo cual puede prestarse para
interpretaciones equivocadas.

Ejemplo:
Gastos de los estudiantes en la universidad:
Gasto (xi) ¿Cuál indicador representa mejor
1700 la muestra?
3000
5000 x  17240
6500
Me  5000
70000

Indicadores de Dispersión

¿Por qué se estudia la dispersión?

Pregunta: ¿Un Guía turístico le dice a usted que cierto río tiene una
profundidad promedio de 1.40mts, con está información cruzaría usted
el río?

Profundidad promedio
1.40mts

16
20/02/2018

Indicadores de Dispersión

¿Por qué se estudia la dispersión?

Indicadores de Dispersión

¿Por qué se estudia la dispersión?

➢ Los Indicadores de Tendencias central no trabajan solos, deben


apoyarse con alguna medida de dispersión.

➢ Un Índice de dispersión pequeño, indica baja variabilidad, por ende el


valor de tendencia central será mas confiable.

➢ Un índice de dispersión grande, indica gran variabilidad, esto implica


que el Indicador de tendencia central será poco confiable.

17
20/02/2018

Indicadores Estadísticos

• La Media y Desviación Estándar

Gran variabilidad
Igual Media o dispersión
Baja variabilidad

A B

La media representa mejor la situación A debido a que su desviación es menor.

Indicadores de Dispersión

Rango

Desviación Media

Varianza – Desviación Estándar

Coeficiente de Variación

18
20/02/2018

Rango

Rango: distancia entre el menor y el mayor de los datos.

R = Máximo(xi) - Mínimo(xi)

El rango es sencillo de calcular y de muy fácil


interpretación, pero tiene la gran desventaja que es
demasiado sensible a valores extremos.

Se puede usar en escalas ordinal, intervalo y razón.

Desviación Media
Desviación Media:
Corresponde a la distancia media de los datos con respecto a la mediana.
n

 x  Me i
Datos individuales
D.M  i 1

n
m

n i xi  Me m Tabla de Frecuencias
D.M  i 1
  f i xi  Me (Datos puntuales)
n i 1

n i xi  Me m Tabla de Frecuencias


D.M  i 1
  f i xi  Me (Datos agrupados)
n i 1

19
20/02/2018

Varianza
Varianza:
Promedio del cuadrado de las diferencias respecto a su Media. Dado que tiene
unidades cuadráticas es difícil de interpretar.
n

 (x  x )
i
2
Datos individuales
S2  i 1

n 1
1 m
S2   ni ( xi  x )2
n  1 i 1
Tabla de Frecuencias
(Datos puntuales)

1 m
S2  
n  1 i 1
ni ( xi  x ) 2 Tabla de Frecuencias
(Datos agrupados)

S  S2 Desviación Estándar

Varianza

El cálculo de la varianza es muy tedioso, para facilitar su cálculo


con calculadoras de bolsillo…

 X 
2

X 
2 i
i
n Datos individuales
S 
2

n 1

20
20/02/2018

Varianza

Características importantes:

1. Si todas las mediciones son iguales entre sí, entonces s2 es igual a


cero.
2. Si las mediciones son muy disímiles entre ellas, el valor de s2 tiende a
ser muy grande.
3. s2 nunca va a ser negativo.
4. La varianza presenta las mismas unidades de los datos pero elevadas
al cuadrado, por ejemplo datos en metros cuadrados.

Varianza
Ejemplo
Sean 4, 7, 4, 4, 6, 3, 5, 6, 7, 5 una muestra de tamaño n=10 camadas observadas,
1. ¿Cuál es la varianza del conjunto de datos?
n

 (x  x ) i
2
(4  5.1) 2  (7  5.1) 2    (5  5.1) 2
S 
2 i 1
  1.878
n 1 10  1
2. Si la muestra se presenta en un cuadro de frecuencias tenemos:
xi ni fi
1 m
3 1 0.1 S2  
n  1 i 1
ni ( xi  x ) 2  1.878
4 3 0.3
5 2 0.2
6 2 0.2 S  S 2  1.878  1.37
7 2 0.2
10 1.0

21
20/02/2018

Varianza
(Datos agrupados en intervalos de clase)

Clase
Longitud de la Marca de Frecuencia Frecuencia Ejemplo:
concha (mm) clase (xi’) absoluta (ni) relativa (fi)
1 [3 – 4] 3.5 7 0.0020
¿Cuál es la varianza del conjunto
2 (4 – 5] 4.5 30 0.0084
3 (5 – 6] 5.5 94 0.0264
de datos?
1 m
 ni ( xi  x ) 2
4 (6 – 7] 6.5 140 0.0394
S2 
n  1 i 1
5 (7 – 8] 7.5 188 0.0529
6 (8 – 9] 8.5 273 0.0768
7 (9 – 10] 9.5 393 0.1105
8 (10 – 11] 10.5 468 0.1316 S 2  7.0542
9 (11 – 12] 11.5 515 0.1448
10 (12 – 13] 12.5 481 0.1353 S  S 2  7.0542  2.656
11 (13 – 14] 13.5 436 0.1226
12 (14 – 15] 14.5 335 0.0942
La longitud de las conchas se
13 (15 – 16] 15.5 127 0.0357
14 (16 – 17] 16.5 58 0.0163
desvía del promedio
15 (17 – 18] 17.5 10 0.0028 aproximadamente en 2.656 mm.
16 (18 – 19] 18.5 1 0.0003
Total 3556 1.0

Coeficiente de Variación

Por la estructura de la varianza se sabe que cuando aumenta la


dispersión el valor de la varianza aumenta, al igual que la desviación
estándar.

pero, qué se respondería a las preguntas:

¿una desviación estándar de 200 metros me indica que hay poca o


mucha dispersión?

¿una desviación estándar de 100 kilogramos podría ser grande?

Depende de la magnitud de los datos.

22
20/02/2018

Coeficiente de Variación

Coeficiente de Variación:
Razón entre la desviación y la medida de tendencia central.

S DM
CV  CV 
x Me

También se la denomina variabilidad relativa.

➢ Permite determinar si la medida de variabilidad calculada es


“pequeña” o es “grande”. Es decir, si los datos son
homogéneos o heterogéneos.
➢ Interesante para comparar la variabilidad de una variable en
diferentes poblaciones

Varianza
(Datos agrupados en intervalos de clase)

Clase
Longitud de la Marca de Frecuencia Frecuencia Ejemplo:
concha (mm) clase (xi’) absoluta (ni) relativa (fi)
1 [3 – 4] 3.5 7 0.0020 ¿El conjunto de datos se puede
2 (4 – 5] 4.5 30 0.0084 considerar homogéneo o
3 (5 – 6] 5.5 94 0.0264 heterogéneo?
4 (6 – 7] 6.5 140 0.0394
S
5
6
(7 – 8]
(8 – 9]
7.5
8.5
188
273
0.0529
0.0768
CV  100
7 (9 – 10] 9.5 393 0.1105
x
8 (10 – 11] 10.5 468 0.1316 2.656
9 (11 – 12] 11.5 515 0.1448 CV  100  23.75%
10 (12 – 13] 12.5 481 0.1353 11.1815
11 (13 – 14] 13.5 436 0.1226
12 (14 – 15] 14.5 335 0.0942
La longitud de las conchas
13 (15 – 16] 15.5 127 0.0357
14 (16 – 17] 16.5 58 0.0163
presentan una “alta” variabilidad
15 (17 – 18] 17.5 10 0.0028 por lo cual se pueden considerar
16 (18 – 19] 18.5 1 0.0003 heterogéneas.
Total 3556 1.0

23

Das könnte Ihnen auch gefallen