Sie sind auf Seite 1von 12

TEMA 1: DESCRIPCIÓN DE VARIABLES CUALITATIVAS

DISTRIBUCIÓN DE FRECUENCIAS
● Supongamos que tenemos N observaciones de una variable cualitativa.
● Supongamos que la variable puede tomar valores pertenecientes a k clases o categorías:
Color de ojos= verde, azul, marrón, negro k=4
● Representamos mediante n1, n2, …, nk el número de datos que aparecen en cada una de las k categorías.
● Frecuencia absoluta de la clase i-ésima (ni): número de observaciones en la clase i.
● Frecuencia relativa de la clase i-ésima (fi): es la proporción de datos en la clase i-ésima, es decir,
ni .
fi 
N
- La suma de las k frecuencias relativas es igual a la unidad: f1 + f2 +…+ fk=1
- Nos permiten comparar las frecuencias de las categorías en conjuntos de datos con distinto número
de observaciones
● Distribución de frecuencias: es la tabla que presenta las categorías de una variable y sus respectivas
frecuencias.
- Nos indica cómo se distribuye la frecuencia total entre las categorías
- Es el resumen más importante de la información contenida en una variable cualitativa
Ejemplo:
Se ha clasificado a 20 individuos según su nivel de estudios que puede tomar valores:

Nivel de Estudios= 1 sin estudios y se han obtenido los siguientes datos:


2 primarios


3 medios 1 43 33 2 24 2214 2 323 4 23
4 sup eriores

N=20; k=4
Frecuencias absolutas:

n1=3; n2=7; n3=6; n4=4, N  n1  n2  n3  n4  3  7  6  4  20


Frecuencias relativas:
3 7 6 4
f1   0,15; f 2   0,35; f 3   0,3; f 4   0,2
20 20 20 20
f1  f 2  f 3  f 4  0,15  0,35  0,3  0,2  1

Categorías ni fi
Distribución de frecuencias:
1 3 0,15
La categoría más frecuente es la de
2 7 0,35
estudios primarios y la menos
3 6 0,3
frecuente la de sin estudios
4 4 0,2
N=20 1
0.40

0.35
REPRESENTACIÓN GRÁFICA DE LA DISTRIBUCIÓN DE FRECUENCIAS
0.30
A) Diagrama de barras: Permite visualizar de forma sencilla la
0.25
distribución de una variable cualitativa. Se dibuja sobre cada
0.20
categoría una barra (o rectángulo) cuya altura coincida con la
0.15

frecuencia absoluta o relativa de dicha clase. 0.10


1 2 3 4

Ejemplo: Nivel de estudios (pag. 4) Frecuencias relativas fi 0.40

0.35

B) Diagrama de Pareto: Es como un diagrama de barras en el que se 0.30

ordenan las clases de mayor a menor frecuencia (absoluta o relativa). 0.25

0.20
Ejemplo: Nivel educativo
0.15

Frecuencias relativas fi 0.10


2 3 4 1

En la parte superior de la figura suele trazarse una línea que representa la suma de la frecuencia de cada clase
y las que la preceden:
f2=0,35 f2+ f3=0,35+0,3=0,65 f2+ f3+ f4=0,35+0,3+0,2=0,85 f2+ f3+ f4+f1=0,35+0,3+0,2+0,15=1

LA MODA
● La moda o clase modal es el dato o categoría de mayor frecuencia.
● Nos sirve como descripción de la variable en el sentido de ser la clase más representativa porque
es la más frecuente.
● La moda no tiene por qué ser única. Puede existir más de una clase o dato con la máxima
frecuencia.

Ejemplo: Nivel de estudios


La clase modal es la 2, la de estudios primarios.

Ejercicio 2.7 de Peña y Romo: La variable SOC describe la


categoría socioeconómica:
Los datos de 75 hogares (o unidades de gasto) son:
373535157553351132231 375333555775142 173433353 366 72713
3253722 752276153533343

(a) Obtener las frecuencias absolutas de cada una de las categorías.


n1=8 n2=9 n3=25 n4=3 n5=16
n6=3 n7=11
(b) Calcular las frecuencias relativas y mostrar la distribución de frecuencias
n1 8 n 25
f1    0,11 n
f2  2 
9
 0,12 f3  3   0,33
N 75 N 75 N 75
n 3 n 16 n 3 n7 11
f4  4   0,04 f  5
5
 0,21 f 6  6   0,04 f 7    0,15
N 75 N 75 N 75 N 75
7
Nótese que: f1  f 2  f 3  f 4  f 5  f 6  f 7   f i  1
i1
Distribución de frecuencias:

Categoría ni fi
(c) Hallar la moda
1 8 0,11
La moda o clase modal es la 3, obreros
2 9 0,12
(d) ¿Qué ventaja tiene usar
3 25 0,33 frecuencias relativas en vez de absolutas?
4 3 0,04 Nos permite comparar con otros conjuntos
5 16 0,21 de datos con diferente nº de observaciones.
6 3 0,04 (e) Hallar el diagrama de Pareto
7 11 0,15
N=75 1 1.0

f3=0,33; f3+f5=0,33+0,21=0,54 0.8

f3+f5+f7=0,33+0,21+0,15=0,69 0.6

f3+f5+f7+f2=0,33+0,21+0,15+0,12=0,81 0.4

f3+f5+f7+f2+f1=0,33+0,21+0,15+0,12+0,11=0,92
0.2
f3+f5+f7+f2+f1+f4=0,33+0,21+…+0,11+0,04=0,9
0.0
F3+F5+F7+F2+F1+F4+F6=0,33+0,21+…+0,04+0,04=1 3 5 7 2 1 4 6
TEMA 2: DESCRIPCIÓN DE VARIABLES CUANTITATIVAS: DISTRIBUCIÓN DE FRECUENCIAS Y REPRESENTACIÓN GRÁFICA

● La naturaleza numérica de las variables cuantitativas permite un tratamiento estadístico más elaborado que con las
variables cualitativas.
● Con las variables cuantitativas pueden realizarse operaciones matemáticas, lo que permite una descripción más
precisa y completa.
● En este tema estudiaremos la distribución de frecuencias y su representación gráfica (como hemos hecho para las
variables cualitativas en el Tema 1) y en los siguientes temas veremos otras formas de describir una variable
cuantitativa.

A) Variables Discretas
● La distribución de frecuencias para las variables discretas es semejante a lo que hemos visto para el caso de las
variables cualitativas, ya que las categorías en que se agrupan los datos vienen dadas de forma natural por los
valores que toma la variable.
Ejemplo 1:
Cien familias se han clasificado según el número de hijos, resultando los siguientes datos: N=100; k=9
Nº de Hijos 0 1 2 3 4 5 6 7 8
Nº de familias 11 13 20 25 14 10 4 2 1

Frecuencias absolutas:
n1=11; n2=13; n3=20; n4=25; n5=14; n6=10; n7=4; n8=2; n9=1

Frecuencias relativas:
25 14 10
f1 
11
 0,11; f 2 
13
 0,13; f 3 
20
 0,2 f4   0,25; f 5   0,14; f 6   0,1
100 100 100 100 100 100
4 2 1
f7   0,04; f 8   0,02; f 9   0,01 Categorías ni fi
100 100 100 0 11 0,11
Distribución de frecuencias: 1 13 0,13

La categoría más numerosa es la de familias con 3 hijos y la menos 2 20 0,2

frecuente es la de familias con 8 hijos 3 25 0,25

0.30
4 14 0,14
Diagrama de barras
0.25
5 10 0,1
Frecuencias relativas fi 0.20
6 4 0,04
0.15

0.10 7 2 0,02
0.05
8 1 0,01
0.00
0 2 3 4 5 6 7 8
1
N=100 1
Frecuencias absolutas ni

30

25

20

15

10

0
0 1 2 3 4 5 6 7 8
● En general, las clases vienen ordenadas de forma natural de menor a mayor por lo que tiene sentido
definir la distribución de frecuencias acumulada.
● Para construir la distribución de frecuencias acumulada hay que sumar a la frecuencia de cada clase
(absoluta o relativa) la de las clases anteriores.
● Los valores de la distribución de frecuencias acumulada no decrecen.
● La información sobre los datos que proporcionan la distribución de frecuencias y la distribución de
frecuencias acumulada es equivalente. Cada una puede obtenerse a partir de la otra.
Ejemplo: Nº de hijos

Frecuencias Frecuencias
Frecuencias Frecuencias
absolutas relativas ● El último valor de la distribución
Categorías absolutas relativas
acumuladas acumuladas de frecuencias absolutas acumuladas
ni fi
Ni Fi
coincide con N.
0 11 11 0,11 0,11
● El último valor de la distribución de
1 13 24 0,13 0,24 frecuencias relativas acumuladas es 1
2 20 44 0,2 0,44 (salvo error de redondeo).
3 25 69 0,25 0,69 ● La distribución de
4 14 83 0,14 0,83 frecuencias acumulada nos permite conocer
5 10 93 0,1 0,93 la proporción (o el número) de
6 4 97 0,04 0,97 observaciones por debajo de cierto valor,
7 2 99 0,02 0,99 entre dos valores o por encima de una
8 1 100 0,01 1 cantidad.
N=100 1

Ejemplo: Nº de hijos
- ¿Qué proporción de familias tiene menos de 2 hijos? 0,24
- ¿Cuántas familias tienen menos de 4 hijos? 69
- ¿Qué proporción de familias tiene más de 6 hijos?
0,03=1-0,97=0,01+0,02
- ¿Qué proporción de familias tiene más de 3 hijos pero menos de 7? 0,28=0,14+0,1+0,04=0,97-0,69
1.0

Representación gráfica de la distribución de frecuencias acumulada 0.8

Frecuencias relativas Fi 0.6

0.4

0.2

0.0
0 1 2 3 4 5 6 7 8
Ejercicio

Los siguientes datos corresponden al número de bibliotecarios en las bibliotecas públicas de


diferentes provincias:
4 7 5 2 4 5 6 4 7 3 7 4 3 4 4 3 4 3 2 4 4 1 10 2 5 3 2 2 5 3 3 8 12 3 2 2 5 4 1 5 8 6 6 1 3 15 16 6 7 12
(a) Hallar la distribución de frecuencias relativas y representarla mediante un diagrama de barras
(b) Obtener y representar la distribución de frecuencias relativas acumuladas
(c) ¿Qué proporción de provincias tiene más de 7 bibliotecarios?

F F relativas
F F acumuladas Frecuencias relativas: f
Biblio absolutas i
absolutas relativas Fi
tecarios acumuladas
ni fi
Ni
1.0

1 3 3 0,06 0,06
0.8

2 7 10 0,14 0,2
0.6

3 9 19 0,18 0,38
0.4

4 10 29 0,2 0,58
0.2

5 6 35 0,12 0,7
0.0
1 2 3 4 5 6 7 8 10 12 15 16
6 4 39 0,08 0,78
7 4 43 0,08 0,86
8 2 45 0,04 0,9
10 1 46 0,02 0,92
12 2 48 0,04 0,96
15 1 49 0,02 0,98
16 1 50 0,02 1

Frecuencias relativas acumuladas: Fi


- La proporción de provincias con más de 7 bibliotecarios es de 0,14
0,14=1-0,86=0,04+0,02+0,04+0,02+0,02
- La mayoría de las provincias (62%) tiene 4 bibliotecarios o más: 0,62=1-0,38=
=0,2+0,12+0,08+0,08+0,04+0,02+0,04+0,02+0,02
- 4 es la clase más frecuente con una frecuencia relativa de 0,2
- Más de la mitad de las provincias españolas (F4=0,58) tiene menos de 5 bibliotecarios
- La proporción de provincias españolas que tienen entre 5 y 7 bibliotecarios es de 0,28
0,28=0,12+0,08+0,08=0,86-0,58
B) Variables Continuas
● El análisis de la distribución de frecuencias de las variables cuantitativas continuas es más complejo que
el de las variables cualitativas o discretas.
● Las categorías o clases no vienen dadas de forma natural sino que deben elegirse.
● Tendremos que dividir el recorrido (o conjunto de posibles valores de la variable) en intervalos que no
se solapen.
● El punto central de cada intervalo se llama marca de clase (ci).
● El resto de los elementos y conceptos de la distribución de frecuencias de una variable continua es
equivalente a lo visto en las cualitativas y discretas.

Ejemplo:
La variable GTINE representa el gasto total. Los datos correspondientes a 75 hogares son:

81.861 105.628 110.690 134.246 226.177 273.870 142.376 309.964 101.431 276.273 662.803
493.728 308.787 254.420 172.928 142.678 510.223 158.829 278.854 168.620 176.204 179.108
113.074 876.161 64.425 112.352 255.465 321.307 434.375 707.444 90.460 89.498 466.862
87.112 309.829 247.425 427.812 195.740 257.638 176.656 285.935 450.571 56.292 306.488
156.772 531.099 475.760 316.500 279.586 48.586 96.670 256.548 514.330 161.595 228.368
638.366 442.162 65.060 160.580 197.390 152.077 228.808 76.920 255.196 241.986 417.103
752.436 352.708 259.472 225.388 174.341 308.705 455.125 122.696 479.791

- Tomando intervalos o clases iguales y de tamaño 100.000 pesos, vamos a calcular la


distribución de frecuencias.
- Por ejemplo, el primer intervalo será: 0<GTINE≤100.000 y la marca de clase c1=50.000.
- El número de intervalos o
F relativas
clases será k=9. Gasto Fabsolutas acumuladas
F absolutas F relativas
(en miles de acumuladas Fi
Gasto Total (GTINE ó G) ni fi
pesos) Ni
- La proporción de familias
0<G≤100 10 10 0,13 0,13
que gasta 200.000 pesos o 100<G≤200 22 32 0,29 0,42
menos es de 0,42. 200<G≤300 17 49 0,23 0,65
300<G≤400 8 57 0,11 0,76
- La proporción de familias 400<G≤500 10 67 0,13 0,89
que gasta más de 600.000 500<G≤600 3 70 0,04 0,93
600<G≤700 2 72 0,03 0,96
pesos es
700<G≤800 2 74 0,03 0,99
0,07=1-0,93=0,03+0,03+0,01. 800<G≤900 1 75 0,01 1
- La proporción de familias N=75 1

que gasta más de 100.000 pero no más de 300.000 es 0,52=0,29+0,23=0,65-0,13


Representación gráfica de la distribución de frecuencias

1) El Histograma
● El histograma es un gráfico que representa las frecuencias mediante áreas. Sobre cada clase (o
rango de valores) se dibuja un rectángulo cuyo área representa la frecuencia (absoluta o relativa)
de esa clase.
● Cuando las clases (o intervalos) en que dividimos los datos son de distinta longitud el eje
vertical no tiene sentido. Como la frecuencia es el área de cada rectángulo, si dibujamos
rectángulos con distinta base su mayor o menor altura no nos da información.
● Cuando las clases (o intervalos) son de la misma longitud, las frecuencias son proporcionales
a las alturas de los rectángulos. La altura nos informa sobre la densidad o concentración de datos
en ese intervalo:
- donde los rectángulos son más altos hay más datos de la variable
- donde los rectángulos son más bajos los datos de la variable son más escasos
Ejemplo: GTINE (distribución frecuencias pag.16)

Histograma de GTINE
Frecuencias relativas (%)

30
25
20
15
10
5
0
0 0,2 0,4 0,6 0,8 1
(X 1,E6)
GTINE

● Los rectángulos se dibujan contiguos (a diferencia del diagrama de barras o de Pareto) para transmitir
la idea de variable continua.
● La forma del histograma es la misma si representamos frecuencias absolutas o relativas, sólo cambia
la escala del eje vertical.

Histograma de GTINE
Frecuencias absolutas

24

20

16

12

0
0 0,2 0,4 0,6 0,8 1
(X 1,E6)
GTINE

Comparar con el histograma de frecuencias relativas de la página anterior.


● La forma del histograma sí que depende de:
- anchura de las clases o tamaño de los intervalos
- elección del punto donde empieza la primera clase
Ejemplo: GTINE

Histograma de GTINE
Frecuencias relativas (%)

18

15

12

0
0 0,2 0,4 0,6 0,8 1
(X 1,E6)
GTINE

● ¿Cómo elegimos los intervalos (o el número de clases)?

- Empezar con pocas clases y ver (en el histograma) si con más clases tenemos más información
(ver Figura 3.6 de Peña y Romo de la variable NOTAS)

- Si tenemos N observaciones elegir el número de clases igual al entero más próximo a N


(En el ejemplo de GTINE como N=75 entonces N  75  8,6  9 )
● ¿Por qué nos preocupa tanto la forma del histograma? Porque la forma del histograma refleja
propiedades importantes de la variable.
● El histograma (al igual que el diagrama de barras) nos muestran características de una variable
que pueden apreciarse visualmente:
- Se puede ver si la distribución es simétrica alrededor de un eje central o si es asimétrica
Ejemplo:
GTINE es asimétrica a la derecha (ver pag. 19)
NOTAS es simétrica alrededor del 5 (ver Figura 3.6 de Peña y Romo)
- Se puede ver si presenta un solo máximo o pico o moda y es, por tanto, unimodal o si presenta
varias modas
- Algunas de las formas más frecuentes de histogramas son (ver Figura 3.8 de Peña y Romo):
o Unimodal simétrico: se suele dar en variables en las que hay una gran cantidad de
observaciones con valores intermedios y algunos valores en ambos extremos (notas, peso,
altura…)
o Unimodal asimétrico a la derecha: se da en variables que tienen una gran cantidad de
observaciones pequeñas o intermedias y algunos datos grandes (gasto, ingreso…)
o Unimodal asimétrico a la izquierda: variables con muchas observaciones de valor alto o
intermedio (esperanza de vida en los distintos países)
o Bimodal simétrico: suele aparecer cuando los datos son de 2 grupos heterogéneos y
conviene estudiarlos por separado (un objeto que se hiciera en dos tamaños distintos en
cantidades iguales)

● El histograma se puede emplear también para representar frecuencias acumuladas (absolutas o


relativas)
Ejemplo: GTINE

Histograma de GTINE
100

80
F (%)

60

40

20

0
0 0,2 0,4 0,6 0,8 1
(X 1,E6)
GTINE
Variable discreta. Ejercicios.
A) La variable SOC describe la categoría socioeconómica:

Los datos de 75 hogares (o unidades de gasto) son:


373535157553351132231 3753
33555775142 173433353 366 72
7133253722 752276153533343
(a) Obtener las frecuencias absolutas de cada una de las categorías.
(b) Calcular las frecuencias relativas y mostrar la distribución de frecuencias (tabla)
(c) Hallar la moda
(d) ¿Qué ventaja tiene usar frecuencias relativas en vez de absolutas?

B) Los siguientes datos corresponden al número de bibliotecarios en las bibliotecas públicas de


diferentes provincias:
4 7 5 2 4 5 6 4 7 3 7 4 3 4 4 3 4 3 2 4 4 1 10 2 5 3 2 2 5 3 3 8 12 3 2 2 5 4 1 5 8 6 6 1 3 15 16 6 7 12
(a) Hallar la distribución de frecuencias relativas y representarla mediante un diagrama de barras
(b) Obtener la distribución de frecuencias relativas acumuladas
(c) ¿Qué proporción de provincias tiene más de 7 bibliotecarios?

Variable Continua. Ejemplo:


La variable GTINE representa el gasto total. Los datos correspondientes a 75 hogares son:

81.861 105.628 110.690 134.246 226.177 273.870 142.376 309.964 101.431 276.273 662.803 493.728
308.787 254.420 172.928 142.678 510.223 158.829 278.854 168.620 176.204 179.108 113.074 876.161
64.425 112.352 255.465 321.307 434.375 707.444 90.460 89.498 466.862 87.112 309.829 247.425
427.812 195.740 257.638 176.656 285.935 450.571 56.292 306.488 156.772 531.099 475.760 316.500
279.586 48.586 96.670 256.548 514.330 161.595 228.368 638.366 442.162 65.060 160.580 197.390
152.077 228.808 76.920 255.196 241.986 417.103 752.436 352.708 259.472 225.388 174.341 308.705
455.125 122.696 479.791
F
- Tomando intervalos o clases Gasto F F
F abs rel acum
(en miles abs acum. rel
ni Fi
iguales y de tamaño 100.000 pesos, de pesos) Ni fi
0<G≤100
vamos a calcular la distribución de 10 10 0,13 0,13
100<G≤200 22 32 0,29 0,42
frecuencias. 200<G≤300 17 49 0,23 0,65
- Por ejemplo, el primer intervalo 300<G≤400 8 57 0,11 0,76
400<G≤500 10 67 0,13 0,89
será: 0<GTINE≤100.000 y la marca 500<G≤600 3 70 0,04 0,93
de clase c1=50.000. 600<G≤700 2 72 0,03 0,96
700<G≤800 2 74 0,03 0,99
- El número de intervalos o clases 800<G≤900 1 75 0,01 1
será k=9. N=75 1
- La proporción de familias que gasta 200.000 pesos o menos es de 0,42.
- La proporción de familias que gasta más de 600.000 pesos es 0,07=1-0,93=0,03+0,03+0,01.
- La proporción de familias que gasta más de 100.000 pero no más de 300.000 es
0,52=0,29+0,23=0,65-0,13

Histograma de GTINE
Frecuencias relativas (%)

30
25
20
15
10
5
0
0 0,2 0,4 0,6 0,8 1
(X 1,E6)
GTINE

Histograma de GTINE
Frecuencias absolutas

24

20

16

12

0
0 0,2 0,4 0,6 0,8 1
(X 1,E6)
GTINE

Ejercicios
A) En una maternidad se han tomado los pesos
(en kg) de 50 recién nacidos. Construye una
tabla con los datos agrupados en 6 intervalos de
amplitud 0,4 kg. Representa gráficamente esta
distribución.

B) En un grupo de 30 niños se ha medido el peso, en kilogramos, de cada uno de ellos, obteniendo los
siguientes resultados:
- haz una tabla de frecuencias, agrupando
los datos en intervalos.
- representa gráficamente la distribución.

Das könnte Ihnen auch gefallen