Sie sind auf Seite 1von 25

ESTADÍSTICA

Un poco de historia
El origen de la estadística se encuentra en el término Estado, pues fueron los
gobernantes los que primero se preocuparon de elaborar y clasificar las interminables
listas de los recursos humanos y materiales que constituían el patrimonio estatal.
La información más antigua sobre la elaboración de una estadística la proporciona el
historiador griego Herodoto (484-420a.C.), al relatar que en el año 3050 a.C. el faraón
de Egipto ordenó un recuento de los bienes que poseía el país para llevar a cabo una
gran obra: la construcción de las pirámides.
Desde hace tiempo las estadísticas no son patrimonio exclusivo del Estado. También las
elaboran compañías de seguros, bancos, investigadores.....o simplemente personas
interesadas en obtener y organizar determinada información para analizarla e
interpretarla
Concepto de Estadística
La Estadística es la parte de las Matemáticas que estudia métodos para interpretar datos
obtenidos de investigaciones o experimentos aleatorios (aquellos en los que no se
puede predecir el resultado aunque se realicen siempre en las mismas condiciones), con
el fin de extraer de ellos unas conclusiones.
La Estadística puede ser:
a) Descriptiva.-Trata de obtener unas conclusiones a partir de ciertos datos mediante el
empleo de gráficos o la obtención de unos ciertos valores que los representen a todos.
b) Inferencial.-Trata de determinar los valores que adoptarán una serie de datos muy
numerosos, que forman una población mediante el estudio de unos cuantos de ellos
extraídos de la población de una manera significativa y que forman una muestra.
Estadística descriptiva
Es una parte de las matemáticas que nos enseña a:
• Recoger datos de manera ordenada
• Representar datos mediante gráficas o tablas comprensibles
• Calcular valores numéricos representativos, que permitan sintetizar, analizar y
comparar diferentes colecciones de datos
En este curso solo nos dedicaremos a la descriptiva (en 2ºcurso veremos la inferencial).
Conceptos generales
Población: es el conjunto de todos los elementos objeto de nuestro estudio

Muestra: es un subconjunto, extraído de la población, cuyo estudio sirve para inferir


características de toda la población

Individuo: es cada uno de los elementos de la población o de la muestra.

El tamaño de la población o de la muestra es el número de elementos que componen


una u otra, y se suele designar con N
Se llama variable estadística a cada uno de los caracteres que se desean observar en los
individuos de una población.
Las variables estadísticas pueden ser:
• cuantitativas: si sus valores son números
• cualitativas: si sus valores no son números

1
Se denomina recorrido o rango de una variable cuantitativa a la diferencia entre el
mayor y el menor de sus valores posibles.
Para las variables cualitativas no se define el recorrido

Las variables estadísticas cuantitativas pueden ser discretas o continuas

  continua
 Variable cuantitativa 
Variable estadística   discreta
 Variable cualitativa

• Variables discretas son las que toman valores que se pueden enumerar, fáciles
de precisar porque están separados, es decir, las que solo pueden tomar valores
aislados.
• Variables continuas son las que pueden tomar todos los valores de un intervalo
Los valores de la variable estadística se representan por x1, x2, x3,.........,xn
Se llama distribución estadística al conjunto de datos estadísticos.

Ejemplo1
Una profesora de educación física, rellena las fichas de sus alumnos y alumnas de 3º de
E.S.O. Y pide, entre otros datos, la edad, la talla y los deportes favoritos de cada uno
Población: los alumnos-as de 3º de E.S.O.
Variables estadísticas: la edad, la talla, los deportes favoritos
La variable “deporte favorito” es cualitativa
Las variables “edad y talla” son cuantitativas
La edad sería una variable cuantitativa discreta
La talla sería una variable cuantitativa continua.
Ejemplo2
En el departamento de control de calidad de una fábrica de bombillas, se desea hacer un
estudio sobre el número de horas de duración; sería imposible hacer el estudio sobre
todas las bombillas fabricadas, de ahí la necesidad de tomar una muestra. Cuanto mayor
sea la muestra, más representativa es de la población.

Frecuencias
Frecuencia absoluta de cada valor, es el nº de veces que éste se repite, y se representa
por fi (f1 es la frecuencia absoluta del primer valor, f2 es la frecuencia absoluta del
segundo valor, y así sucesivamente). La suma de las frecuencias absolutas debe
coincidir con el tamaño de la población o, en su caso, de la muestra
Frecuencia absoluta acumulada ni es la suma de la frecuencia absoluta de un valor
con las de los que le preceden.
Frecuencia relativa, Fi, es el cociente entre la frecuencia absoluta y el nº total de
individuos que componen la población o la muestra observada.
Frecuencia relativa acumulada, Ni es la suma de la frecuencia relativa de un valor con
las de los que le preceden.
Frecuencia porcentual, %, es el tanto por ciento con el que aparece cada valor de la
variable respecto del tamaño de la muestra. Se obtiene multiplicando por 100 cada
frecuencia relativa

Proceso seguido en Estadística

2
La información estadística nos llega mediante gráficas o tablas muy bien construidas,
con las que resulta muy sencillo entender la información que se nos da. Sin embargo,
esas tablas y gráficas son el resultado de un largo proceso. Veamos sus principales
pasos:
1) Elegir una muestra representativa de la población (si es que la población es muy
grande), de manera que los resultados que obtengamos para la muestra los podremos
suponer válidos para la población
2) Seleccionar las variables que se van a analizar. Debe quedar muy claro cuál es la
variable y cuáles sus posibles valores.
3) Recolección de datos
4) Organización de datos
5) Elaboración de tablas
6) Elaboración de gráficas
7) Cálculo de parámetros
A estos tres últimos pasos es a lo que a continuación nos vamos a dedicar.
La organización de los datos
Una vez obtenidos los datos, es conveniente ordenarlos según algún criterio con la
finalidad de obtener el máximo posible de información de los datos.

En la Estadística descriptiva trataremos de observar sistemáticamente los datos para lo


cual es conveniente ordenarlos en una tabla y resumirlos en un gráfico que facilite su
interpretación. En efecto, supongamos el experimento aleatorio consistente en anotar las
calificaciones de matemáticas de un colectivo de 50 alumnos. Los resultados han sido:

1-6-8-8-2-2-3-4-5-10-3-4-5-6-7-8-9-7-7-6-5-5-5-4-4-5-6-7-10-4-1-2-5-5-6-6-7-4-5-6-5-
4-6-7-6-5-4-3-4-5

Realizamos un recuento de los resultados obtenidos marcando una raya vertical por cada
uno de ellos y agrupándolos en grupos de 5 para facilitar el conteo:

1 II 2
2 III 3
3 III 3
4 IIIII IIII 9
5 IIIII IIIII II 12
6 IIIII IIII 9
7 IIIII I 6
8 III 3
9I1
10 II 2

CONFECCIÓN DE UNA TABLA DE FRECUENCIAS


Una vez recogidos los datos, hay que tabularlos; es decir, hay que confeccionar una
tabla en la que aparezcan bien organizados los valores de la variable que se está
estudiando y el número de individuos que toma cada valor o cada intervalo de valores.
Es lo que se llama una tabla de frecuencias.
En estas tablas deben aparecer
• los valores de la variable. Si se encuentran agrupadas en clases, deben aparecer
los extremos superior e inferior, así como la marca de clase (que son los puntos
medios de cada clase). Es aconsejable escoger los extremos inferior y superior

3
de cada intervalo de modo que se sitúen en números “redondos”; por ejemplo,
múltiplos de 5, de 10, etc. Las clases deben tener la misma amplitud. El nº de
clases que debemos formar es de libre elección, pero existe un criterio muy
general en el que se aconseja formar, aproximadamente, tantas clases como la
raíz cuadrada del número total de datos.

•las frecuencias absolutas


•las frecuencias relativas
y a veces es conveniente incluir
• las frecuencias absolutas y relativas acumuladas, y
• las porcentuales
Ejemplo de confección de una tabla con datos aislados:

Con las definiciones dadas anteriormente, podemos organizar los datos de nuestro
experimento en una tabla de frecuencias de la siguiente manera.

xi fi ni Fi Ni n%
1 2 0,04 2 0,04 4
2 3 0,06 5 0,1 6
3 3 0,06 8 0,16 6
4 9 0,18 17 0,34 18
5 12 0,24 29 0,58 24
6 9 0,18 38 0,76 18
7 6 0,12 44 0,88 12
8 3 0,06 47 0,94 6
9 1 0,02 48 0,96 2
10 2 0,04 50 1 4
Totales 50 1 100

Tabla con datos agrupados

Ejemplo:
Tenemos un grupo de 120 individuos adultos mayores de 18 años y menores de 75, y
queremos distribuirlos según su edad.

Distribución de frecuencias:

4
EDAD (en años) fi
(18, 20]................................10
(20, 25]................................14
(25, 35]................................23
(35, 45]................................20
(45, 60]................................29
(60, 75]................................24
Los datos, tal como han sido ordenados y resumidos, se suelen denominar datos
agrupados. Aunque con el proceso de agrupamiento se pierde algo de información que
contiene los datos originales (por ej. en la categoría de 18 a 20 años no sabemos cuantos
individuos de 18 y de 19 hay, sin embargo ofrece la ventaja de presentar todos los datos
de una forma sencilla en un pequeño cuadro, lo que facilita su estudio.
En este ejemplo observamos que la amplitud de cada clase es variable.
El mayor inconveniente que presenta este tipo de distribución es el llamado error de
agrupamiento.

Distribución Porcentual o de frecuencias relativas


EDAD (en años) fi ni n%
(18, 20]................................10..................0,0833..................8,33
(20, 25]................................14..................0,1166.................11,66
(25, 35]................................23..................0,1916.................19,16
(35, 45]................................20..................0,1666.................16,66
(45, 60]................................29..................0,2416.................24,16
(60, 75]................................24..................0,20.....................20,00

Observemos que la suma de los porcentajes no es exactamente 100 debido a los


decimales. Se suele tomar un único decimal redondeándolo.

Distribución Acumulada
EDAD (en años) fi n% frec acumulada Porc. acumulado
(18, 20]................................10..................8,3...............10.............................8,3
(20, 25]................................14.................11,7..............24............................20,0
(25, 35]................................23.................19,2..............47............................39,2
(35, 45]................................20.................16,7..............67............................55.9
(45, 60]................................29.................24,1..............96............................80,1
(60, 75]................................24.................20,0.............120..........................100,1

5
ELABORACIÓN DE GRÁFICOS ESTADÍSTICOS

Los resultados de cualquier experimento, se podrían ver con mucha mayor claridad si
los datos tabulados (de una tabla), estuviesen representados gráficamente. Los
principales tipos de representaciones gráficas que con ellos podemos hacer son (vamos
a representar únicamente las frecuencias absolutas, pero podríamos hacerlo también con
cualesquiera otro tipo de las frecuencias definidas):

a) Diagramas de barras.- Colocamos en el eje de abscisas los valores de la variable


xi y en el eje de ordenadas los valores de las frecuencias y dibujamos barras de
igual anchura cuya altura sea exactamente la frecuencia. Por ejemplo:

Carreras que piensan hacer los alumnos de un Centro de Enseñanza

Se usa el diagrama de barras para variables cualitativas (como en este ejemplo) o


cuantitativas discretas.

b) Histogramas

Se usan los histogramas para las variables cuantitativas continuas. El eje vertical suele
representar la frecuencia. Sin embargo, cuando el ancho de las barras no es el mismo, lo
que marca la frecuencia no es la altura de cada barra, sino el área de la misma.

6
c) Polígonos de frecuencias.- Se obtienen si unimos los puntos medios de las bases
superiores de las barras en el diagrama anterior:

d) Diagramas de sectores.- Se obtienen dividiendo la circunferencia en tantas partes


como valores tenga la variable de manera que el área de cada sector obtenido sea
proporcional a la respectiva frecuencia

d) Pictogramas.- Es como el diagrama de barras donde se sustituyen las mismas por un


dibujo de altura proporcional a las frecuencias y que hace más intuitiva la interpretación
de los resultados

7
e) Pirámides de población.-
Se utiliza este procedimiento para comparar las características más relevantes de la
población de un Estado, provincia,..., y sus variaciones en un determinado periodo de
tiempo.

f) Cartogramas.-
Son representaciones gráficas de unidades geográficas, diferenciadas por colores, rayas
o puntos:

g) Series cronológicas o diagramas lineales.-


Se usan para mostrar las variaciones de uno o varios caracteres estadísticos con el paso
del tiempo:

8
PARÁMETROS ESTADÍSTICOS

Puesto que las representaciones gráficas no siempre consiguen ofrecer una información
completa de una serie de datos, es necesario analizar procedimientos numéricos que
permitan resumir toda la información del fenómeno en estudio en unos números
llamados parámetros estadísticos. Los parámetros estadísticos se pueden clasificar en:

a) Medidas de centralización.- Que representan a toda la distribución. Buscan


características del centro de la distribución. Los más importantes son la media
aritmética, la mediana y la moda.

b) Medidas de posición.- Indican, una vez ordenados los datos, cuantos elementos
quedan a la izquierda o derecha de uno dado: cuartiles, deciles, centiles o percentiles.

c) Medidas de dispersión.- Que indican si los valores están agrupados o dispersos. Los
más importantes son rango o recorrido, desviación media, la varianza y la desviación
típica.

MEDIDAS DE CENTRALIZACIÓN

MEDIA:
N

x 1 + x 2 + x 3 + .......... + x N ∑i = 1 i
x
x= =
N N
Cuando los datos vienen dados por una tabla de frecuencias:

x f + x 2 f 2 + x 3 f 3 + .......... + x N f N ∑ x ifi
x= 11 = i= 1

N N

Cuando los datos están agrupados en intervalos, el valor central de cada intervalo
(marca de clase), es el que se asigna a todos los individuos que están en dicho intervalo.

Ejemplo 1:Se ha preguntado a un grupo de 70 alumnos sobre el número de zapatos que


calzan, obteniendo los resultados de la siguiente tabla:

9
N. de calzado N. de alumnos
35 4
36 15
37 17
38 20
40 10
42 4
En este caso, la media aritmética sería:
35.4 + 36.15 + 37.17 + 38.20 + 40.10 + 42.4 2637
x= = = 37.67
70 70

Ejemplo 2 El consumo de carburantes, en litros, de una flota de camiones a lo largo de


un día está tabulado en la siguiente tabla de frecuencias:

Consumo Camiones
(0,10] 8
(10,20] 12
(20,30] 10
(30,40] 14
(40,50] 21
(50,60] 16
(60,70] 9
Como la variable está agrupada en intervalos, tomamos la marca de clase. La media
sería:
5.8 + 15.20 + 25.10 + 35.14 + 45.21 + 55.16 + 65.9 3370
x= = = 37.44
90 90

MODA

Es el valor de la distribución que se repite con mayor frecuencia. Puede no existir o


puede no ser única. Las distribuciones que contienen una sola moda se llaman
unimodales y las que contienen dos, bimodales. En general, cuando contiene varias
modas se denomina multimodal.
• En una representación gráfica, la moda será el rectángulo más alto, en el caso del
histograma, y el pico más alto, en el caso del polígono.
Ejemplo:
En la distribución de cifras: 2, 3, 3, 3, 5, 5.................la moda es 3
En la distribución de cifras: 2, 2, 4, 5, 5, 6................ las modas son 2 y 5.
• En el caso de los datos agrupados en intervalos, la moda es aproximadamente el
punto medio de la clase que contiene la mayor frecuencia de casos (a la que se le
llamaría clase modal)
Ejemplo:
De 1 a 3..............6
De 4 a 6..............15
De 7 a 8..............10
De 9 a 11............6

10
En este ejemplo, la clase modal es 4-6 y la moda valdrá 5.
Pero si queremos calcular más exactamente la moda (y no de forma aproximada),se

busca el intervalo de mayor frecuencia (intervalo o clase modal) y se aplica la

fórmula:

f i − f i-1
Mo=Li-1+C.
(f i − f i-1 ) + (f i − f i + 1 )
Donde:
Li-1 es el límite inferior del intervalo modal
C es la amplitud del intervalo
fi es la frecuencia del intervalo modal
fi-1 es la frecuencia del intervalo anterior al modal
fi+1 es la frecuencia del intervalo posterior al modal
En el ejemplo puesto, sería el intervalo (4,6], y aplicando la fórmula:
15 − 6
Mo=4+3. =5.93
(15 − 6) + (15 − 10)
Otro ejemplo:
El consumo de carburantes, en litros, de una flota de camiones a lo largo de un día está
tabulado en la siguiente tabla de frecuencias:

Consumo Camiones
(0,10] 8
(10,20] 12
(20,30] 10
(30,40] 14
(40,50] 21
(50,60] 16
(60,70] 9
Solución:
El intervalo modal sería el (40,50]
21 − 14
Mo=40+ = 45.83
(21 − 14) + (21 − 16)

MEDIANA
Si los individuos de una población están colocados en orden creciente según la variable
que estudiamos, el que ocupa el valor central se llama individuo mediano, y su valor la
mediana.
La mediana Me, está situada de modo que antes de ella está el 50% de la población y,
detrás, el otro 50%.
Por ejemplo, en la distribución:
6,7,7,7,8,9,10,12,15
Me=8
Si el número de individuos fuera par, la mediana sería el valor medio de los dos
centrales.
Por ejemplo, en la distribución:

11
6,7,7,7,8,9,10,12,15,16
Me=8.5
Si los datos están agrupados en intervalos, suponemos que los datos de cada intervalo se
reparten uniformemente en él, hemos de buscar el intervalo central (en el que se
encuentre el o los valores centrales) y aplicar la fórmula:

N
− Fi − 1
Me= Li-1+ C. 2
fi
Donde Li-1 es el límite inferior del intervalo
N es el número total de casos o datos
Fi-1 es la frecuencia acumulada del intervalo anterior
fi es la frecuencia absoluta del intervalo
C es la amplitud del intervalo
Ejemplo:
El consumo de carburantes, en litros, de una flota de camiones a lo largo de un día está
tabulado en la siguiente tabla de frecuencias:

Consumo Camiones
(0,10] 8
(10,20] 12
(20,30] 10
(30,40] 14
(40,50] 21
(50,60] 16
(60,70] 9
Calcular la mediana.
Solución:
Hemos de buscar el intervalo en el que estén los elementos centrales. Como hay 90
elementos, el intervalo es (40,50]. Aplicamos la fórmula:
90
− 44
Me=40+10. 2 =40.48
21

MEDIDAS DE POSICIÓN

CENTILES O PERCENTILES
• Mediana:
Si los individuos de una población están colocados en orden creciente según la
variable que estudiamos, el que ocupa e valor central se llama individuo mediano, y
su valor la “mediana”.
La mediana, Me , está situada de modo que antes de ella está el 50% de la
población y, detrás, el otro 50%.
Por ejemplo, en la distribución:
6,7,7,7,8,9,10,12,15
Me=8
Si el número de individuos fuera par, la mediana sería el valor medio de los dos
centrales.
Por ejemplo, en la distribución:

12
6,7,7,7,8,9,10,12,15,16
Me=8.5
• Cuartiles:
Si en vez de partir la totalidad de los individuos en dos mitades, lo hacemos en
cuatro partes iguales (todas ellas con el mismo número de individuos), los dos
nuevos puntos de separación se llaman “cuartiles”.
Cuartil inferior Q1 es un valor de la variable que deja por debajo de él al 25% de
la población, y por encima la 75%.
Cuartil superior Q3 es un valor de la variable que deja por debajo de él al 75% de
la población, y por encima la 25%.
Q2 sería la mediana.
Por ejemplo, en la distribución:
1, 2, 2 , 3, 4, 5 , 5, 5, 6 , 8, 9, 10
25% 25% 25% 25%

Q1 Me Q3

Q1 = 2.5; Me = 5; Q3 = 7

• Centiles o Percentiles:
Si partimos la población en 100 partes y señalamos el lugar que deja debajo k de
ellas, el valor de la variable correspondiente a ese lugar se designa por p k y se
denomina centil k o percentil k.
La mediana es Me = p50
A la mediana, cuartiles y centiles, se les llama medidas de posición.
Veamos unos ejemplos de estas medidas de posición
Ejemplo 1: Calcular Me, Q1, Q3, P10 y P80 en la distribución:
1, 1, 2, 3, 4, 4, 5, 5, 5, 5, 6, 7, 7, 7, 8, 9, 10
Solución: Hay 17 individuos;
17/2 = 8.5...................la mediana es el valor del individuo 9º..........Me=5
17/4 = 4.25..............................5º lugar..............................................Q1=4
17. 3/4 = 12.75......................13º lugar..............................................Q3=7
17/100 . 10 = 1.7.....................2º lugar...............................................P10=1
17/100 . 80 = 13.6.................14º lugar...............................................P80=7

Ejemplo 2: En la siguiente distribución de número de hijos de 110 parejas , halla Me, Q1,
Q3, P20 y P99

Nº hijos (xi) 0 1 2 3 4 5 6
fi 4 18 41 32 11 3 1

Para calcular la mediana, cuartiles y Percentiles en distribuciones dadas por tablas de


frecuencias , necesitamos las frecuencias acumuladas y los %
xi fi Fi En %
0 4 4 3.6
1 18 22 20
2 41 63 57.3
3 32 95 86.4

13
4 11 106 96.4
5 3 109 99.1
6 1 110 100

Me = P50 =2 porque para xi=2 la Fi supera el 50%


Q1 = P25 =2 porque para xi=2 la Fi supera el 25%
Q3 = P75 =3 porque para xi=3 la Fi supera el 75%
P99 =5 porque para xi=5 la Fi supera el 99%
P20 =1.5 porque para xi=1 la Fi iguala el 20%. Por tanto el valor 1.5 es superior al 20%
de la población, e inferior al 80% restante.

Ejemplo 3:
En la fabricación de cierto tipo de bombillas, se han detectado algunas defectuosas. Se han
estudiado 200 cajas de 100 bombillas cada una, obteniéndose la siguiente tabla:

Defectuosas Nº de cajas
1 5
2 15
3 38
4 42
5 49
6 32
7 17
8 2
Calcula la mediana, el cuartil superior y el percentil 20.

Solución: Formemos la tabla de frecuencias acumuladas:


Xi fi Fi %
1 5 5 2.5
2 15 20 10
3 38 58 29
4 42 100 50
5 49 149 74.5
6 32 181 90.5
7 17 198 99
8 2 200 100

Mediana: Se han ordenado las cajas según el nº de bombillas defectuosas, de menor a


mayor. La mediana será la caja que ocupe el lugar central. Como el nº de cajas es par
(200), la mediana es el valor medio entre los dos centrales.
La caja nº 100 tiene 4 bombillas defectuosas y la nº 101 tiene 5 bombillas defectuosas.
Por tanto, Me = (4+5)/2 = 4.5
El cuartil superior: corresponde al 75% del total : 0.75.200=150. La caja que ocupa el
lugar nº 150 tiene 6 bombillas defectuosas. Por tanto, Q3 = 6. El 25% de las cajas tiene 6
o más bombillas defectuosas.
El percentil 20: corresponde al 20% del total: 0.20 . 200 = 40. La caja que ocupa el
lugar 40 tiene 3 bombillas defectuosas. Por tanto, P20 =3. El 20% de las cajas tiene 3 o
menos bombillas defectuosas.

14
• En caso de una variable agrupada, las fórmulas para hallar centiles, deciles y
cuartiles son:
n
h. − N i− 1
C h = L i− 1 + 100 .c i
ni
donde cada elemento tiene el mismo significado que en el cálculo de la mediana.

Para hallar los cuarteles en este caso, nada más que hay que tener en cuenta que:
Q1=C25 Q2=C50=Me Q3=C75

Para hallar los deciles, tendremos en cuenta que:


D1=C10 D2=C20 D3=C30 …………. D9=C90

Veamos algunos ejemplos:


Ejemplo:
El consumo de carburantes, en litros, de una flota de camiones a lo largo de un día está
tabulado en la siguiente tabla de frecuencias:

Consumo Camiones
(0,10] 8
(10,20] 12
(20,30] 10
(30,40] 14
(40,50] 21
(50,60] 16
(60,70] 9
Calcular el cuartil superior Q3 , el centil 45, C45 y el decil tercero, D3
• Busquemos el intervalo donde se encuentra el Q3, que será en el que se encuentre el
elemento que deja a su izquierda un 75% de la población (el 75% de 90 es 67,5).
Haciendo la tabla de las frecuencias absolutas acumuladas:

Consumo Frec. Abs. F. Ab. acum


(0,10] 8 8
(10,20] 12 20
(20,30] 10 30
(30,40] 14 44
(40,50] 21 65
(50,60] 16 81
(60,70] 9 90
Observamos que el intervalo que buscamos es el (50,60]. Aplicando la fórmula:
3.90
− 65
Q3=50+ 4 25
⋅ 10 = 50 + = 50 + 1,5625 = 51,5625
16 16

• Busquemos ahora el intervalo donde queda el elemento que deja a su izquierda al


45% de la población: (45% de 90 es 40,5). Observando la columna de las
frecuencias absolutas acumuladas, el intervalo (30,40] contiene el C45. Aplicando la
fórmula:

15
90
45. − 30
C45=30+ 100 ⋅ 10 = 30 + 7,5 = 37,5
14
• Calculemos el D3=P30
Busquemos el intervalo donde se encuentra el elemento que deja a su izquierda el 30%
de la población (30% de 90 es 27). Observando la tabla de frecuencias, el intervalo
(20,30] contiene al individuo que ocupa el lugar 27, y aplicando la fórmula de los
percentiles:
90
30. − 20
D3=P30=20+ 100 =27
10

MEDIDAS DE DISPERSIÓN

RANGO O RECORRIDO
Es la diferencia entre el valor mayor y el menor si la variable es no agrupada. Si la
variable es agrupada, se calcula la diferencia entre el límite superior del último intervalo
y el límite inferior del primer intervalo.
El valor del recorrido sólo tiene en cuenta los valores extremos; en su valor no influyen
los demás elementos de la distribución.
Cuanto menor es el rango o recorrido de una distribución, mayor es el grado de
representatividad de los valores centrales
Ejemplo: Mercedes y Paco miden 169 y 171 respectivamente. Ana y Luís es otra pareja
que miden 145 y 195 respectivamente.
Ambas distribuciones tienen la misma media: 170, pero evidentemente nadie los
confundirían por la calle.
El rango de la pareja Mercedes y Paco: 171-169=2
El rango de la pareja Ana y Luís:195-145=50
Diremos por tanto que la 2ª pareja está más dispersa que la 1ª

Ejemplo 1:
Se ha preguntado a un grupo de 70 alumnos sobre el número de zapatos que calzan,
obteniendo los resultados de la siguiente tabla:

N. de calzado N. de alumnos
35 4
36 15
37 17
38 20
40 10
42 4
El rango o recorrido será 42-35 = 7
Ejemplo 2:
El consumo de carburantes, en litros, de una flota de camiones a lo largo de un día está
tabulado en la siguiente tabla de frecuencias:

16
Consumo Camiones
(0,10] 8
(10,20] 12
(20,30] 10
(30,40] 14
(40,50] 21
(50,60] 16
(60,70] 9
Al ser agrupada, el rango o recorrido es 70-0 = 70

DESVIACIÓN MEDIA
Es la media de las desviaciones de los valores de la variable respecto a la media de la
distribución (siendo la desviación respecto de la media: |xi- x | ):
k

DM= x 1 − x .f 1 + x 2 − x .f 2 + ........... + x k − x .f k ∑i = 1 i
x − x .f i
=
N N
Es una medida muy poco utilizada por la complicación de su cálculo.
Si la DM es muy pequeña, indica que hay una gran concentración de valores en torno a
la media.
Si la variable está agrupada en intervalos, tomamos xi la marca de la clase.

VARIANZA
Es la media aritmética de los cuadrados de las desviaciones respecto de la media. Se
representa por σ2, y viene dada por la expresión:
n n

( x − x) 2 .f1 + ( x 2 − x) 2 .f 2 + ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ + ( x n − x) 2 .f n ∑ ( x i − x) 2 .f i ∑ ( x i − x) 2 .f i
σ 2
= 1 = i= 1
= i= 1

f 1 + f 2 + ............ + f n n
N
∑i= 1
fi

(vamos a obtener una segunda expresión para σ2 que vamos a utilizar con frecuencia)
( x 1 − x ) 2 f1 + ( x 2 − x ) 2 f 2 + ....... + ( x n − x ) 2 f n = x 1 2 .f1 + x 2 2 .f 2 + .... + x n 2 .f n + x 2 f1 + x 2 f 2 + ... + x 2 f n −
f 1 + f 2 + ..... + f n f1 + f 2 + ..... + f n f 1 + f 2 + ... + f n
∑ ∑ xf ∑ ∑
2 2 2
2 x 1 xf 1 + 2 x 2 xf 2 + .... + 2 x n xf n x i .f i i i x i .f i x i .f i
− = + x 2
− 2x = + x − 2x =
2 2
− x2
f 1 + f 2 + ... + f n ∑ fi ∑f i ∑ fi ∑ fi

17
DESVIACIÓN TÍPICA
Es la raíz cuadrada de la varianza. Se representa por S
n n

( x 1 − x) .f 1 + ( x 2 − x) .f 2 + ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ + ( x n − x) .f n
2 2 2 ∑ ( x i − x) .f i
2
∑ ( x i − x) 2 .f i
S= = i= 1
= i= 1

f 1 + f 2 + ............ + f n n
N

i= 1
fi

Es la unidad de dispersión más usada. Es siempre positiva. Se calcula directamente en


las calculadoras científicas.

Ejemplo 1:
Se ha preguntado a un grupo de 70 alumnos sobre el número de zapatos que calzan,
obteniendo los resultados de la siguiente tabla:

N. de calzado N. de alumnos
35 4
36 15
37 17
38 20
40 10
42 4
Haced un cuadro donde aparezca la desviación media, la desviación típica y la varianza.

xi fi |xi- x | |xi- x |.fi (xi- x )2 (xi- x )2.fi


35 4 |35-37.67|=2.67 10.68 7.1298 28.5192
36 15 |36-37.67|=1.67 25.05 2.7889 41.8335
37 17 |37-37.67|=0.67 11.39 0.4489 7.6313
38 20 |38-37.67|=0.33 6.6 0.1089 2.178
40 10 |40-37.67|=2.33 23.3 5.4289 54.289
42 4 |42-37.67|=4.33 17.32 18.7489 74.9956
70 94.34 34.6543 209.4466
Por tanto:
La desviación media DM = 94.34/70 = 1.348

18
La varianza S2 = 209.4466/70 = 2.992
La desviación típica S = 1.72973

Ejemplo 2:
El consumo de carburantes, en litros, de una flota de camiones a lo largo de un día está
tabulado en la siguiente tabla de frecuencias:

Consumo Camiones
(0,10] 8
(10,20] 12
(20,30] 10
(30,40] 14
(40,50] 21
(50,60] 16
(60,70] 9
Haced un cuadro donde aparezca la desviación media, la desviación típica y la varianza.
Calculamos x = 37.44

Consumo xi Camiones=fi |xi- x | |xi- x |.fi (xi- x )2 (xi- x )2.fi


(0,10] 5 8 32.44 259.52 1052.3536 8418.848
(10,20] 15 12 22.44 269.28 503.5536 6042.6432
(20,30] 25 10 12.44 124.4 154.7536 1547.536
(30,40] 35 14 2.44 34.16 5.9536 83.3504
(40,50] 45 21 7.56 158.78 57.1536 1200.2256
(50,60] 55 16 17.56 280.96 308.3536 4933.6576
(60,70] 65 9 27.56 248.04 759.5536 6835.9824
90 1375.12 29062.241

DM = 1375.12 / 90 = 15.279
S2 = 29062.241 / 90 = 322.9138
S = 17.9698
Ejemplo 3:
Se ha anotado el peso de 88 personas, obteniéndose los siguientes resultados:

Peso (Kg) [38,44) [44,50) [50,56) [56,62) [62,68) [68,74) [74,80)


Nº personas 7 8 15 25 18 9 6

Calcula el rango, la desviación media, la varianza y la desviación


típica.

Calculemos primeramente la media aritmética:


= 5204/88 = 59,14

19
Rango: rango=80 - 38 = 42 Kg
Desviación media: D = 639,08/88 = 7,26 Kg
Varianza: s2= 7846,23/88 = 89,16 Kg2
Desviación típica: s = 9,44 Kg

20
EJERCICIOS RESUELTOS

1) Un inspector de autobuses toma nota de los minutos de retraso con que llegan
los autobuses a una parada. Su trabajo queda reflejado en el siguiente diagrama
de barras:

Halla la varianza y el rango.


Resolución: Formemos la siguiente tabla:

Media, x = 445/42 = 10.6 minutos


Rango = 30 – 0 = 30 minutos
S2= 1910.12 / 42 = 45.47 min2

2) Elaborad una tabla de frecuencias con las estaturas de 40 adolescentes:


168 160 167 175 175 167 168 158 149 160
178 166 158 163 171 162 165 163 156 174
160 165 154 163 165 161 162 166 163 159
170 165 150 167 164 165 173 164 169 170
Resolución: El nº de valores distintos que hay es grande (mayor que 20), por eso lo
adecuado es clasificarlos en intervalos. Para ello procedemos así:
- localizamos los valores extremos: el menor 149 y el mayor 178. Hallamos su
diferencia: 178-149=29 (este es el valor del recorrido).
- Puesto que el nº de datos es pequeño (solo 40), decidimos que el nº de intevalos
sea pequeño (por ej, 6). Buscamos un nº mayor que el recorrido y que sea múltiplo
de 6, por ej. 30 (el recorrido era 29). De este modo, cada uno de los seis intevalos
tendrá una longitud igual a 5

21
- Formamos los intervalos comenzando por un nº algo menor que el 149 y de modo
que los seis intervalos abarquen a la totalidad de los datos.
- Repartimos los cuarenta datos en los seis intervalos. (Es conveniente tomar los
intervalos con extremos no enteros para que no haya duda de si un valor pertenece
a un intervalo o al siguiente.
Intervalos frecuencias
(148.5, 153.5] 2
(153.5, 158.5] 4
(158.5, 163.5] 11
(163.5, 168.5] 14
(168.5, 173.5] 5
(173.5, 178.5] 4

3) Calcula la media y la desviación típica del ejercicio anterior.


Resolución: construyamos la siguiente tabla
Intervalos xi fi fixi fixi2
(148.5, 153.5] 151 2 302 45602
(153.5, 158.5] 156 4 624 97344
(158.5, 163.5] 161 11 1771 285131
(163.5, 168.5] 166 14 2324 385784
(168.5, 173.5] 171 5 855 146205
(173.5, 178.5] 176 4 704 123904
40 6580 1083970

Media: x =
∑ f .x = 6580 = 164.5cm
i i

∑f 40i

∑ f .x − x = 1083970 − 164.5 2
i i
Varianza: σ = = 39
2 2 2

∑f 40 i

Desviación Típica: σ = 39 = 6.24cm


Vemos en este ejemplo la ventaja de la segunda expresión de σ2 para hallar su valor
numérico a partir de una tabla de frecuencias.

4) . Construir la tabla estadística de las edades de las personas que acuden a un logopeda
a lo largo de un mes, sabiendo que son:

3, 2, 11, 13, 4, 3, 2, 4, 5, 6, 7, 3,
4, 5, 3, 2, 5, 6, 27, 15, 4, 21, 12, 4,
3, 6, 29, 13, 6, 17, 6, 13, 6, 5, 12, 26

Como hay 36 datos, el número de clases que debemos formar puede ser
aproximadamente la raíz cuadrada de 36, es decir 6 clases. Si el intervalo los
extendemos de 0 hasta 30, al dividir por 6 se tiene que la amplitud de cada clase debe
ser 5.

Este sería un ejemplo de tabla estadística para una variable estadística continua (la edad
de una persona no tiene por qué ser un número entero).

22
Clases Marcas fi hi Fi Hi
de clase
[ 0, 5) 2’5 13 13 13 13
36 36
[ 5, 10) 7’5 11 11 24 24
36 36
[ 10, 15) 12’5 6 6 30 30
36 36
[ 15, 20) 17’5 2 2 32 32
36 36
[ 20, 25) 22’5 1 1 33 33
36 36
[ 25, 30) 27’5 3 3 36 1
36
36 1

5- Las calificaciones en la asignatura de historia de los/as 40 alumnos/as de una clase


viene dada por la siguiente tabla:

Calificaciones 1 2 3 4 5 6 7 8 9
Nº de alumnos/as 2 2 4 5 8 9 3 4 3

Calcula la mediana.
xi fi Fi
1 2 2
2 2 4
3 4 8
4 5 13 < 20
5 8 21 > 20
6 9 30
7 3 33
8 4 37
9 3 40
40

La mediana es M e = 5 , dado que es el primer valor de la variable cuya


frecuencia absoluta acumulada, 21, excede la mitad del número de datos, 20.

6- Consideremos la siguiente tabla de frecuencias:

xi 3 6 7 8 9
fi 15 20 15 40 10
Calcula la mediana.
xi fi Fi

23
3 15 15
6 20 35
7 15 50 ≤ 50
8 40 90 > 50
9 10 100
100

Como 50 coincide con la frecuencia acumulada del valor 7, la mediana vendrá


7+ 8
dada por la semisuma de 7 y el valor siguiente, 8. Por tanto M e = = 7'5 .
2

7- Se ha aplicado un test sobre satisfacción en el trabajo a 88 empleados/as de una


fábrica, obteniéndose los siguientes resultados:

Nº de trabajadores/as
Puntuaciones
[ 38, 44) 7
[ 44, 50) 8
[ 50, 56) 15
[ 56, 62) 25
[ 62, 68) 18
[ 68, 74) 9
[ 74, 80) 6
Calcula la mediana.

xi fi Fi
[ 38, 44) 7 7
[ 44, 50) 8 15
[ 50, 56) 15 30 < 44
[ 56, 62) 25 55 > 44
[ 62, 68) 18 73
[ 68, 74) 9 82
[ 74, 80) 6 88
88

La clase mediana es el intervalo [ 56, 62) .


88
- 30
M e = 56 + 6 ⋅ 2 = 59'36
25

Observaciones
1. La mediana es particularmente útil en los siguientes casos:

24
a) Cuando entre los datos existe alguno muy extremo que afecta a la
media.
b) Cuando los datos están agrupados en clases y alguna de ellas es
abierta.
2. Como consecuencia de definición de mediana, se tiene que el 50% de los
datos son menores o iguales que ella y el 50% restante son mayores o iguales.
3. La mediana depende del orden de los datos y no de su valor.

8- Las calificaciones en la asignatura de historia del arte de los 40 alumnos/as de una


clase viene dada por la siguiente tabla:

Calificaciones 1 2 3 4 5 6 7 8 9
Nº de alumnos/as 2 2 4 5 8 9 3 4 3

Rango: 9-1=8
Varianza y desviación típica:

xi fi xi f i xi 2 f i
1 2 2 2
2 2 4 8
3 4 12 36
4 5 20 80
5 8 40 200
6 9 54 324
7 3 21 147
8 4 32 256
9 3 27 243
40 212 1296

Media: x = 5'3
1296
− ( 5'3) = 4'31
2
Varianza: s =
2

40
Desviación típica: s = 4'31 = 2'08

25