Sie sind auf Seite 1von 27

TEMA 1

DESCRIPCIÓN DE DATOS:
ESTADÍSTICA DESCRIPTIVA

1.1 Introducción: conceptos básicos


1.2 Tablas estadísticas y representaciones
gráficas
1.3 Características de variables estadísticas
unidimensionales
1.3.1 Características de posición
1.3.2 Características de dispersión
1.3.3 Características de forma
1.4 Análisis exploratorio de datos:
gráfico de caja

1
 1.1. Introducción : conceptos básicos

 ESTADÍSTICA: “Estudio de los métodos de recogida y


descripción de datos, así como del análisis de esta
información”

 Etapas de un estudio estadístico

1 Recogida de datos
2 Ordenación, tabulación y gráficos*
3 Descripción de características*
4 Análisis formal

* Estadística descriptiva: parte de la


estadística que se ocupa de las etapas 2 y 3

 Individuo, Población, Muestra

 Población: “Conjunto de elementos a los que se les


estudia una característica”
 Individuo: “Cada uno de los elementos de la población”
 Muestra: “Subconjunto representativo de la población”

2
 Variables estadísticas. Modalidades

 Variable estadística (v.e.): ”Característica propia


del individuo objeto del estudio estadístico”

Ejemplos:
- Estatura
- Salario
- Color del pelo
- Nivel de colesterol
- Nº de hijos de una familia

 Modalidad: “Cada una de las posibilidades o


estados diferentes de una variable estadística”
 Exhaustivas e incompatibles

Ejemplo:
color del pelo:
- castaño
- rubio
- negro

3
 Tipos de variables estadísticas

 Cualitativas: Las características no son cuantificables

Ejemplos:
Grupo sanguineo
Profesión
Color del pelo

 Cuantitativas: Características cuantificables o numéricas

 Discretas: Numéricas numerables

Ejemplos:
Nº de hijos de una familia
Nº de nidos de procesionarias por árbol
Nº de virus en un cultivo

 Continuas: Numéricas no numerables

Ejemplos:
Estatura
Salario
Nivel de colesterol
4
 1.2. Tablas estadísticas y representaciones
gráficas

 Variables discretas

 Frecuencias
 Absolutas, n (nº individuos modalidad i)
i
 Absolutas acumuladas, N  n  n  ...  n
i 1 2 i

Relativas, fi  ni n (proporcion indiv. modalidad i)

Relativas acumuladas, F i  f1  f 2  ...  fi

Absolutas, ni
xi ni Ni fi Fi
Absolutas
x1 n1 N1 f1 F1 acumuladas, Ni
... ... ... ... ...
xi ni Ni fi Fi
... ... ... ... ... Relativas
f i = ni / n
xk nk Nk fk Fk
n 1 Relativas
acumuladas
Fi = Ni / n
5
 Variables continuas: Intervalos

Intervalo I i x i n i Ni fi Fi

e0 – e1 x1 n1 N1 f1 F1
... ... ... ... ... ...
e i-1 – ei xi ni Ni fi Fi
... ... ... ... ... ...
e k-1 – ek xk nk Nk fk Fk
n 1

 Marca de clase xi (punto medio de cada intervalo)


 Amplitud ai (distancia entre los extremos)
 Intervalos cerrados por un extremo y abiertos por otro

6
 Gráficos estadísticos

 V. E. Cualitativas: Gráfico rectangular

Color Plumaje Nº de Aves ( n i )


Negro 10
Gris 14
Blanco 20
Rojo 6
Violeta 4
54

20

10

Negro Gris Blanco Rojo Violeta

7
 V. E. Cualitativas: Gráfico de sectores

Grados de un sector = 360 0 x fi

Color Plumaje Nº de Aves fi Grados


ni
Negro 10 0,185 66,6
Gris 14 0,259 93,24
Blanco 20 0,37 133,2
Rojo 6 0,111 39,96
Violeta 4 0,074 26,64
54

violeta
negro
rojo

blanco gris

8
 V. E. Discretas: Gráfico de barras

Nº de crías Nº animales: n i fi Fi
2 20 0.20 0.20
3 30 0.30 0.50
4 25 0.25 0.75
5 15 0.15 0.90
6 10 0.10 1
n = 100

35

30

25

20

15

10

0
2 3 4 5 6

9
 V. E. Continuas: Histograma

Estatura ni hi = ni / ai
140 – 160 30 1.5
160 – 170 22 2.2
170 – 180 20 2
180 – 190 18 1.8
190 – 200 10 1

hi 100

2.2  El área de
2 cada rectángulo
1,8 es proporcional
a la frecuencia”
1,5

140 160 170 180 190 200

10
 1.3. Características de variables
estadísticas unidimensionales

 1.3.1 Características de Posición

 Media aritmética

k
k  ni x i
x   fi x i  i 1
i 1
n

Estatura Nº Personas M. Clase


ni xi ni xi
140 – 150 20 145 2900
150 – 160 100 155 15500
160 – 180 80 170 13600
180 – 200 10 190 1900
n = 210 33900

k
 ni x i
Media : x  i 1
33900
  161.42
n 210
11
 Moda

 Valor de la variable más frecuente


 Puede haber más de una moda → Plurimodal

 Variables discretas

 Datos en serie
2, 2, 3, 3, 3, 3, 5, 6, 7 Mo = 3

 Datos en tabla

♦ Ejemplo xi ni
1 34
2 36
3 45 Mo = 3
4 22
5 17

12
 Variables continuas

h i  h i 1
Mo  ei 1 
 h i  h i1    hi  h i1 
ai

♦ Ejemplo xi ni hi = ni / ai
140 – 160 30 1.5
160 – 170 22 2,2
170 – 180 20 2
180 – 190 18 1,8
190 – 200 10 1
100

Mo  160 
 2.2  1.5 
 10  167.777
 2.2  1.5   2.2  2 

 Observaciones:
1. Puede utilizarse la frecuencia relativa
2. Si las amplitudes son iguales, la moda se puede
obtener directamente con las frecuencias

13
 Mediana

 Valor de la variable que ocupa el lugar central en una


serie de datos ordenados.
 El 50% de los elementos de la población tienen un valor
de la variable menor o igual que la mediana. El 50% de los
elementos de la población tienen un valor de la variable
mayor o igualque la mediana.

 Variables discretas

 Datos en serie
 Nº impar de observaciones:
2, 2, 2, 3, 5, 6, 7, 7, 8 → Me = 5

 Nº par de observaciones: 3, 4, 6, 6, 6, 7, 8, 8, 9, 9
→ Me = 6 – 7 Indeterminada entre 6 y 7

xi n N fi Fi xi n N fi Fi
i i i i
2 3 3 0,333 0,333 3 1 1 0,1 0,1
3 1 4 0,111 0,444 4 1 2 0,1 0,2
5 1 5 0,111 0,555 6 3 5 0,3 0,5
6 1 6 0,111 0,666 7 1 6 0,1 0,6
7 2 8 0,222 0,888 8 2 8 0,2 0,8
8 1 9 0,111 0,999 9 2 10 0,2 1
9 1 10 1
14
 Variables discretas

 Datos en tabla

♦ Ejemplo

xi ni Ni fi Fi n /2 = 14
Fi = 0,5
0 4 4 0.142 0.142
1 6 10 0.214 0.357
2 10 20 0.357 0.714
3 5 25 0.178 0.892
Me = 2
4 3 28 0.107 1
28 1

 Observación: Si n / 2 coincide con un N i

la mediana está indeterminada entre x i y x i+1

15
 Variables continuas

50
n  N i 1
0,5  Fi 1
Me  ei 1  a i  ei 1  100 ai
fi ni

♦ Ejemplo

Estatura ni Ni fi Fi n/2 = 50
Fi = 0,5
140 – 150 15 15 0.15 0.15
150 – 160 30 45 0.30 0.45
160 – 170 25 70 0.25 0.70
170 – 180 20 90 0.20 0.90
180 – 200 10 100 0.10 1
100

0.5  0.45
Me  160   10  160  2  162
0.25

 Observación: Si n/2 coincide con un Ni

la mediana es el extremo superior del intervalo que le


corresponde

16
 Percentiles

 Definición: Pk , k: 1,2,...,99, “percentil k”, valor de la


variable que deja por debajo, el k% de los valores de la
variable

Q1 = P25  Cuartil 1º
Q2 = P50  Cuartil 2º = Me
Q3 = P75  Cuartil 3º

D1 = P10  Decil 1º
D2 = P20  Decil 2º
….
D9 = P90  Decil 9º

 Cálculo para v.e. discretas:


Igual que la mediana, cambiando:
50 k
n por n
100 100

 Cálculo para v.e. continuas:


k k
 Fi 1 n  N i 1
Pk  e i 1  100 a i  ei 1  100 ai
fi ni

17
♦ Ejemplos percentiles v.e. discreta

xi ni Ni
2 20 20 k 40
n 124  49,6
3 30 50 100 100
4 44 94
5 20 114 k 95
n 124  117,8
6 10 124 100 100
124

Percentil 40, P40 = 3 Percentil 95, P95 = 6

nk /100 = Percentil 25, P25 = 3 = Q1


124x25/100 = 31

nk /100 = Percentil 50, P50 = 4 = Me = Q2


124x50/100 = 62

nk /100 = Percentil 75, P75 = 4 = Q3


124x75/100 = 93

18
♦ Ejemplos percentiles v.e. continua

Tallas ni Ni fi Fi
140-150 15 15 0.15 0.15
P40
150-160 30 45 0.30 0.45
160-170 25 70 0.25 0.70
P75
170-180 20 90 0.20 0.90
180-200 10 100 0.10 1
100

k nk
 Fi 1  N i 1
Pk  ei 1  100 a i  ei 1  100 ai
fi ni

0.4  0.15 40  15
P40  150   10  150   10  158.33
0.30 30

0.75  0.70 75  70
P75  170   10  170   10  172.5  Q 3
0.20 20

19
 1.3.2. Características de Dispersión

 “Miden la Homogeneidad de las observaciones”

 Rango o recorrido

 Valor máximo menos valor mínimo de la variable

 Recorrido intercuartílico

 Q 3 – Q1

20
 Varianza

k k
 
2
 ni x i  x  ii
n x 2

2
 2
 i 1  i 1 x
n n

 Desviación típica

  2

 Coeficiente de variación


C. V . 
x

21
♦ Ejemplo

xi ni nixi nixi2
4 20 80 320
6 40 240 1440
8 44 352 2816
10 36 360 3600
12 22 264 3168
162 1296 11344

k
 ni x i 2 2
11344  1296 
 2  Var  X   i 1
2
x     6.02
n 162  162 

   2  6.02  2.4535

22
 Momentos centrales (Respecto a la media)

k
 ni  x i  x 
r

 r  i 1
n

k
 ni  x i  x 
r  1  1  i 1 0
n

k
 ni  x i  x 
2

r  2   2  i 1 2
n

23
 1.3.3 Características de forma

 Coeficiente de Sesgo (Asimetría)

3
1 
3

► Si 1  0  Distribución simétrica

► Si 1  0  Distribución sesgada a la derecha

► Si 1  0  Distribución sesgada a la izquierda

24
 Coeficiente de Curtosis (Aplastamiento)

4
2  3
4

Distribución igual de aplastada


► Si 2 0 
que la distribución Normal

Distribución menos aplastada


► Si  2  0 
que la distribución Normal

Distribución más aplastada que


► Si 2 0 
la distribución Normal

25
1.4 Gráfico de caja
v.a.i. v.a.s.

mín F1 f1 Q1 Me Q3 f2 F2 máx

f1=Q1-1.5(Q3-Q1) frontera interior inferior


f2=Q3+1.5(Q3-Q1) frontera interior superior
F1=Q1-3(Q3-Q1) frontera exterior inferior
F2=Q3+3(Q3-Q1) frontera exterior superior

V.A.I.= Dato más próximo, por exceso, a f1


(valor adyacente inferior)
V.A.S.=Dato más proximo, por defecto, a f2
(valor adyacente superior)

Valores atípicos o anómalos: Datos inferiores a f1 ó


superiores a f2 (distinguiéndose)

o ** * o

anómalos v.a.i. Q1 Me Q3 v.a.s anómalos

26
Ejemplo

Sea la variable estadística “nº de hijos”. Los


datos de 30 familias son los siguientes:

1,2,0,0,2,4,3,0,1,1,1,2,3,4,8,3,0,1,1,3,2,1,0,4,10,5,1,0,2,4

mín = 0
máx = 10 Datos ordenados:
00000011111111222223333444458 10
Q1 = 1
Q3 = 3
Me = 2
f1 = -2
f2 = 6
F1 = -5
F2 = 9
Vai = 0
Vas = 5
Valores anómalos = 8, 10

0 1 2 3 4 5 6 7 8 9 10

* o

27

Das könnte Ihnen auch gefallen