Sie sind auf Seite 1von 62

21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

Análisis de Datos Unidimensionales


Fecha: 2005
From: Estadística descriptiva y nociones de probabilidad
Publisher: Ediciones Paraninfo, S.A.
Tipo de documento: Topic overview
Páginas: 45
Content Level: (Level 5)

Texto completo: 

Análisis de Datos Unidimensionales


OBJECTIVOS

OBJECTIVOS
Definir una serie de medidas (estadisticos descriptivos básicos) que sinteticen la información
contenida en una distribución de frecuencias unidimensional, tanto de valores agrupados como
sin agrupar, y aprendet a calcularlos e interpretarlos. Comparar la dispersión entre dos o más
variables o distribuciones de frecuencias. Estudiar cómo se ven afectados los estadísticos al
transformar los datos de una variable. Cuantificar e interpretar la concentración de una
distribución.

Página 26 

2.1. Medidas de posición


En general, las medidas de posición indican un valor de la variable en torno al cual se sitúan un
grupo de observaciones. Puede distinguirse entre:

a) Medidas de tendencia central: media aritmética, armónica, geométrica, mediana y moda.


b) Medidas de tendencia no central: cuantiles.
A continuación se abordan los principales detalles conceptuales y de aplicación de cada una de las
medidas referidas anteriormente.

2.1.1. Media aritmética(1)


Es la suma de todos los valores de la variable divididos por el número total de observaciones. Se
denota por

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 1/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

Evidentemente, esta medida sólo se puede calcular si la variable estadística objeto de estudio es de
naturaleza cuantitativa.

El valor que toma la media debe estar siempre incluido entre el valor mínimo y máximo del
dominio de la variable analizada.

Ejemplo 2.1

La plantilla de una empresa durante los últimos 4 meses ha estado formada por 16, 14, 15 y 15
empleados. Determinar la plantilla media de la empresa.

Solución
A partir de la información proporcionada, construimos la distribución de frecuencias. La variable
toma I = 3 valores distintos (xi para i = 1, 2, 3), con frecuencias 1, 2 y 1, respetivamente.

Página 27 

Si se añade una tercera columna que recoja, para cada elemento, el producto xini, su suma se
corresponderá con el numerador de la expresión de la media, de manera que se obtendrá al
dividir por el número total de observaciones (N), en este caso N = 4.

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 2/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

La media será:

, es decir, la plantilla media de la empresa en los últimos 4 meses ha sido de 15 empleados.

Obsérvese que la media de empleados (

) se encuentra comprendida entre el mínimo valor de la variable (x1 = 14) y el máximo (x3 = 16).

Si la distribución de frecuencias con la que se trabaja es de datos agrupados, para poder calcular la
media se toman, a modo de aproximación a los valores de la variable, las marcas de clase
correspondientes a cada uno de los intervalos, lo que supondrá una pérdida de precisión, que será
tanto mayor cuanto mayor sea la amplitud de los mismos.

Ejemplo 2.2

De un total de 10 asignaturas optativas se ha tomado el número de alumnos matriculados en cada


una de ellas, obteniéndose la siguiente distribución de frecuencias.

¿Cuál es el número medio de alumnos matriculados?

Solución
Para calcular la media de alumnos matriculados (

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 3/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

), lo primero es determinar la marca de clase (xi, i = 1, 2) de cada intervalo. Seguidamente se añade


una columna que recoja el producto xini y se suma.

Página 28 

Al dividir este resultado entre el número total de observaciones (N = 10) se obtiene la media,

La media aritmética puede utilizarse si los datos con los que se trabaja son de naturaleza aditiva,
es decir, que al sumar todos los valores, estos representen el total de la población. Variables
aditivas son, por ejemplo, el número de empleados, la renta, el salario, etc. Por el contrario,
variables no aditivas son: tipos de interés, velocidad, rentabilidad, etc.

Entre las principales ventajas que presenta la media se pueden destacar las siguientes:

Se puede calcular siempre que las variables sean de tipo cuantitativo.


Su cálculo resulta fácil y en él intervienen todos los valores de la distribución.
La media aritmética es el centro de gravedad de la distribución, es decir, es el punto que por
término medio dista menos de todas las observaciones de la distribución.
Es una medida única y definida de forma objetiva en cada distribución de frecuencias.

En cuanto a los inconvenientes, tal vez el más importante sea que la media aritmética de la
distribución puede llegar a ser muy poco representativa del conjunto de los valores observados si
existe mucha dispersión en los datos. Se trata de una medida muy sensible a los valores
extremos(2) .

Ejemplo 2.3

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 4/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

Para un total de 4 empresas se dispone de información relativa al tamaño, medido a través del
activo (millones de €):

¿Cuál es el tamaño medio del conjunto de las empresas?

Página 29 

Solución
El tamaño medio (

) se obtiene al sumar todos los valores de la variable y dividir por el número de observaciones
(empresas), así:

Como se pone de manifiesto en el ejemplo anterior, los valores del activo son muy diferentes entre
sí, con lo que la media (275 millones de €) será poco representativa. Cuando ocurre esto, es
preferible utilizar otras medidas de posición central, por ejemplo la mediana (véase Epígrafe 2.1.2.).

Con todo, la media aritmética es la medida de posición central más utilizada, de la que cabe
destacar las siguientes propiedades:

1. La suma de las desviaciones de todos los valores de la variable respecto a su media es cero.

2. Si

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 5/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

(i = 1, 2, …, k) corresponden a las medias de k grupos distintos de tamaño Ni (i = 1, 2, …, k),


respectivamente, se cumple que la media aritmética del conjunto es:

3. Depende de los cambios de origen y de unidad (véase Apartado 2.5).

Ejemplo 2.4

En una empresa de fabricación de muebles, el departamento de control de calidad ha


inspeccionado cada hora, durante las 3 últimas, un total de 6, 8 y 6 muebles respectivamente,
encontrando en cada una de ellas un número medio de defectos de 3, 5 y 2. Determinar el número
medio de defectos del total de muebles inspeccionados.

Solución
Aplicando la segunda propiedad de la media:

Página 30 

2.1.2. Media armónica y geométrica


La media armónica, que se denota por Mh, se define como:

siendo:

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 6/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

En el caso particular de que las frecuencias fuesen unitarias, esto es, ni = 1 ∀ i, entonces:

Además, a la hora de calcular la media armónica suele utilizarse que la inversa de la media
armónica es la media aritmética de los valores inversos de la variable, esto es:

Por su parte, la media geométrica, que es empleada cuando las variables son de naturaleza
multiplicativa en el sentido, por ejemplo, que los intereses generan nuevos intereses o cuando el
incremento salarial se efectúa sobre el anterior y no sobre uno fijo, se denota por Mg y se define
como:

En el caso particular de que las frecuencias fuesen unitarias (ni = 1 ∀ i), entonces se tienen:

Además, a la hora de calcular la media geométrica suele utilizarse que el logaritmo de la media
geométrica que es igual a la media aritmética de los logaritmos de los valores de la variable, esto
es:

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 7/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

Página 31 

De la misma forma que se indicó para la media aritmética, el valor que tome la media armónica y
la media geométrica(3) debe estar siempre incluido entre el valor mínimo y máximo del dominio de
la variable analizada.

2.1.3. Mediana
Ordenada la distribución de frecuencias de menor a mayor, la mediana, que se denota por Me, es
un valor del recorrido de la variable que deja el mismo número de observaciones a su izquierda y a
su derecha.

Para el cálculo de la mediana es necesario distinguir entre distribuciones de frecuencias de valores


sin agrupar y agrupados, pero la idea que siempre hay que tener presente es que la mediana es
aquel valor de la variable al que corresponde una frecuencia acumulada igual a N/2.

2.1.3.1. Distribuciones de frecuencias de valores sin agrupar

Al trabajar con valores sin agrupar hay que considerar varias posibles situaciones (Figura 2.1). Cada
una de éstas será tratada a continuación.

Figura 2.1.

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 8/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

Situación 1. Distribución de frecuencias unitarias


Si el número de observaciones es impar, el valor de la mediana coincidirá con el valor xi (Me = xi)
que deje a derecha e izquierda el mismo número de observaciones.

Si el número de observaciones es par, entonces el valor de la mediana se obtendrá como la media


del valor(4) ):

Página 32 

Ejemplo 2.5

Una variable estadística X toma los siguientes 7 valores distintos:

Determinar la mediana.

Solución
Puede verse fácilmente que el valor de la variable xi = 6 deja el mismo número de observaciones,
un total de 3, a cada lado.

Por tanto, el valor de la mediana es:

Ejemplo 2.6

Obtener la mediana de una variable estadística que toma los siguientes 6 valores distintos:

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 9/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

Solución
En este caso, lo primero que debe hacerse es ordenar la distribución de frecuencias de menor a
mayor.

El valor de la variable que deja el mismo número de observaciones a ambos lados, la mediana, se
sitúa entre 5 y 6. Así:

Situación 2. Distribución de frecuencias no unitarias


Cuando la distribución de frecuencias es no unitaria, se suele utilizar el siguiente criterio para
determinar el valor de la mediana: sea Ni la primera frecuencia absoluta acumulada igual o
superior a N/2, entonces:

Página 33 

Ejemplo 2.7

Obtener la mediana de la siguiente distribución de frecuencias.

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 10/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

Solución
La mitad de las observaciones corresponde a

. El valor de la variable que contiene una frecuencia acumulada de 4 es x2 = 3, con N2 = 5.

Por tanto, como

entonces Me = x2 → Me = 3.

Ejemplo 2.8

Obtener la mediana de la siguiente distribución de frecuencias.

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 11/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

Solución
El valr de la variable que acumula un número de observactiones igual

ex x2 = 4.

Por tanto, como

se tendrá que

. La mediana de la distribución es 5.

Página 34 

2.1.3.2. Distribuciones de frecuencias agrupadas


https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 12/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

Este caso tiene menos interés, pues actualmente no se suele trabajar con datos agrupados, dado
que la informática permite manejar mucha información sin necesidad de perder parte de ella en
agrupaciones.

El problema se resuelve obteniendo en primer lugar el llamado intervalo mediano, el primero cuya
frecuencia absoluta acumuluda Ni alcanza o sobrepasa N/2.

Es decir,

Para precisar el valor de la variable que corresponde a la mediana(5) se supone que la frecuencia
correspondiente al intervalo se distribuye uniformemente y por reparto proporcional se obtiene el
valor buscado.

Ejemplo 2.9

El número de proyectos de mejora propuestos por los 20 círculos de calidad existentes en una
empresa han sido agrupados de la siguiente forma:

Determinar el intervalo mediano.

Solución
Para saber en qué intervalo estará incluida la mediana lo primero es insertar una columna que
represente la frecuencia absoluta acumulada (Ni), tal y como se refleja en la siguiente tabla.

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 13/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

Página 35 

Como la mediana es el valor de la variable que acumula

observaciones, ésta estará contenida en el intervalo [16, 20[, que es el intervalo mediano, puesto
que

2.1.4. Moda
La moda de una distribución, a la que se denotará por Mo, representa el valor de la variable con
mayor frecuencia. No tiene por qué ser única. Es decir, si hay dos o más valores de la variable que
tienen la misma frecuencia, siendo esta la mayor, se estará ante una distribución multimodal
(bimodal, dos modas; trimodal, tres modas; etc.).

Del mismo modo que se procedió con la mediana, para determinar la moda debe distinguirse
entre distribuciones de valores sin agrupar y agrupados.

2.1.4.1. Distribuciones de frecuencias de valores sin agrupar

En este caso, y según la definición de la moda, hay que fijarse en cuál es el valor de la variable que
más se repite, el de mayor frecuencia.

Ejemplo 2.10

Se ha preguntado a 15 estudiantes por el número de horas semanales dedicadas al estudio,


recogiéndose sus respuestas en la siguiente distribución de frecuencias.

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 14/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

Obtener la moda del número de horas de estudio.

Solución
La moda es 5 (Mo = 5), puesto que es el valor de la variable con mayor frecuencia. Un total de 8
estudiantes dedican 5 horas a estudiar.

Página 36 

Ejemplo 2.11

Se ha preguntado a 5 estudiantes por el número de horas semanales dedicadas al estudio, siendo


sus respuestas:

Obtener la moda del número de horas de estudio.

Solución
En esta distribución todos los valores de la variable se considerarían modas pues ni = 1 ∀ i.

2.1.4.2. Distribuciones de frecuencias de valores agrupados

Cuando se trabaja con valores agrupados en intervalos, lo más sencillo para determinar el valor
modal consiste en dibujar el histograma.

La moda estará contenida en el intervalo de mayor altura, al que se denomina intervalo modal.

Ejemplo 2.12

Obtener el intervalo modal de la distribución de frecuencias del Ejemplo 2.9.

Solución
Para determinar el intervalo modal se añade una columna que recoja la altura (hi) asociada a cada
intervalo. En este ejemplo todos los intervalos tienen la misma amplitud (ci = 4), por lo que el
https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 15/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

intervalo de mayor frecuencia será el que tenga mayor altura y, por tanto, el intervalo modal.

Así pues, la moda estará contenida en el intervalo [16, 20[.

Existen casos en los que, sin necesidad de realizar ningún cálculo, es posible aproximar el valor que
toma la moda en el intervalo modal. Así, en la Figura 2.2, Gráfica (a), puede observarse cómo, si los
intervalos anterior y posterior al intervalo modal tienen la misma altura, la moda coincidirá con la
marca de clase. En cambio, si el intervalo posterior al modal es de mayor altura que el anterior,

Página 37 

Figura 2.2.
Gráfica (b), la moda se desplaza hacia la derecha de la marca de clase, coincidiendo su valor con el
límite superior del intervalo modal cuando la altura del anterior al mismo sea cero, como puede
https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 16/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

verse en la Gráfica (c). De forma análoga, la moda coincidirá con el extremo inferior del intervalo
modal cuando la altura del intervalo posterior a éste sea cero, Gráfica (d).

Siguiendo con el criterio anterior de aproximar el valor de la moda en proporción inversa a las
alturas de los rectángulos del histograma anterior y posterior al modal, se recurre a la siguiente
expresión:

donde ci es la amplitud del intervalo modal, Li-1 su extremo inferior; hi-1 es la altura asociada al
intervalo anterior al modal y hi+1 a la del posterior.

Ejemplo 2.13

En la siguiente distribución de frecuencias se refleja la retribución mensual de los 260 empleados


del área de fabricación de una gran empresa industrial.

¿Cuál es la retribución más frecuente en esta área funcional?

Página 38 

Solución
Como fácilmente puede observarse en la distribución de frecuencias del enunciado, los intervalos
son de distinta amplitud. En consecuencia, y a diferencia del Ejemplo 2.12, el intervalo al que
corresponde mayor frecuencia no necesariamente tiene que ser el que tenga mayor altura
asociada.

Añadiendo a la tabla dos nuevas columnas que recojan la amplitud (ci) y altura (hi) de cada
intervalo:

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 17/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

Como puede verse en la tabla anterior, en este caso existen dos modas (la distribución es bimodal),
la primera estará incluida en el intervalo [800, 1.000] y la segunda en [1.000, 1.400].

Sin necesidad de realizar ningún cálculo, podría decirse que la primera moda será 1.000, puesto
que la altura del intervalo anterior al modal es cero. En cambio, respecto a la segunda, como el
intervalo anterior a [1.000, 1.400] es de mayor altura que el posterior, sólo puede decirse que su
valor se encontrará ligeramente por debajo de la marca de clase (x2 = 1.200). Una mejor
aproximación al valor de la moda puede obtenerse con la expresión dada en (2.1).

Por tanto, las retribuciones más frecuentes en el área de fabricación de esta empresa son 1.000 € y
1.177,78 €.

2.1.5. Cuantiles
Ordenados de menor a mayor los valores de la variable y dado un entero positivo k, las familias de
cuantiles serán valores del recorrido de la variable que dividirán la distribución en k partes,
conteniendo cada una de ellas la misma proporción de observaciones

Página 39 

Las familias de cuantiles más utilizadas son aquellas que dividen la distribución de frecuencias en
cuatro, diez y cien partes y se conocen con el nombre de cuartiles, deciles y percentiles,

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 18/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

respectivamente:

a) Cuartiles (k = 4): son tres valores (Cs, s = 1, 2, 3) del recorrido que dividen la distribución en 4
partes, conteniendo cada una de ellas el 25%

de las observaciones.

b) Deciles (k = 10): son nueve valores del recorrido (Ds, s = 1, 2, …, 9) que dividen la distribución en
10 partes, de tal forma que cada una de ellas contendrá el 10%

de las observaciones.

c) Percentiles (k = 100): son noventa y nueve valores del recorrido (Ps, s = 1, 2, …, 99) que dividen la
distribución en 100 partes, conteniendo cada una de ellas el 1% de las observaciones.

En general (para cualquier valor de k): una familia de cuantiles de orden

s = 1, 2, …, (k − 1), se identificará como los (k − 1) valores del recorrido de la variable

, que dividirán en k partes la distribución de la variable conteniendo, cada una de ellas, una
proporción de valores de

De esta forma, si

es el cuantil de orden

, un porcentaje de

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 19/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

de los valores de la variable (como mínimo) serán menores o iguales que

y un porcentaje de

. 100 de los valores (como mínimo) serán mayores o iguales que

Así, por ejemplo, el primer cuartil C1 será el cuantil Q1/4, de tal forma que, al menos, el 25% de los
valores serán menores o iguales que C1 y, al menos, el 75% restante serán mayores o iguales que
C1.

Análogamente, podemos identificar los deciles y percentiles como cuantiles en general:

, etc.

El procedimiento de cálculo es análogo al estudiado en el caso de la mediana, es decir, suponiendo


datos sin agrupar:

Página 40 

donde Qs/k es el cuantil (cuartil, decil o percentil) que se quiere calcular y que acumulará una
proporción de

observaciones.
https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 20/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

Si la distribución de frecuencias es de valores agrupados se determinará el intervalo cuantílico, es


decir, aquel que contiene el cuantil que se quiere obtener.

Ejemplo 2.14

Dada la siguiente tabla de frecuencias:

Obtener el segundo cuartil, el cuarto decil y nonagésimo percentil.

Solución

El segundo cuartil (C2) es el valor de la variable que deja a su izquierda, esto es acumula, un
número mínimo de observaciones del 50%.

por tanto, como

entonces C2 = Q2/4 = x3 = 18.

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 21/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

Obsérvese que el valor del segundo cuartil coincide con el de la mediana. De hecho, C2 = D5 = P50 =
Me = Q1/2.

El cuarto decil (D4) es el valor que acumula como mínimo un 40% de las observaciones:

Página 41 

en consecuencia, como

, el cuarto decil será:

Por último, el nonagésimo percentil, P90, es el valor que acumula como mínimo un 90% de las
observaciones:

con lo que el percentil noventa será:

, dado que

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 22/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

2.2. Medidas de dispersión


El término dispersión o variabilidad hace referencia a cómo de distantes, de separados, se
encuentran los datos. En este sentido, si los distintos valores de la distribución se encuentran
próximos entre sí, estos presentarán poca dispersión o variabilidad; si por el contrario están
alejados, mostrarán mucha dispersión.

Pueden calcularse diversas medidas de dispersión, aunque las más habituales son el rango (o
recorrido), la varianza y la desviación típica. Las anteriores son medidas de dispersión absoluta. Sin
embargo, si lo que se quiere es comparar varias distribuciones de frecuencias en términos de
variabilidad, para ver cuál es la que presenta mayor o menor dispersión, debe obtenerse una
medida relativa como, por ejemplo, el coeficiente de variación de Pearson.

2.2.1. Rango
El rango o recorrido de una distribución es la diferencia entre el valor máximo y mínimo, es decir,
Re = xmax − xmin. La principal desventaja de este tipo de medida de dispersión es que únicamente
tiene en cuenta dos valores de la variable.

2.2.2. Varianza y desviación típica


La varianza, que se denota por S2X, se define como la media aritmética de los cuadrados de las
diferencias de los valores de la variable a la media aritmética:

Página 42 

Con la varianza se pretende medir la dispersión que presentan los valores de la variable respecto
de su media. Cuanto mayor sea la varianza, cuanto mayor sea la dispersión, menos representativa
resultará ser la media.

Una expresión equivalente a la anterior para calcular la varianza, muy utilizada por cuanto
simplifica considerablemente la operatoria, es:

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 23/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

(6)

De la definición de varianza se desprende que ésta nunca puede ser negativa (S2X≥0) y que se
encuentra expresada en unidades de medida al cuadrado.

Además, la varianza no depende de los cambios de origen, pero sí de los de unidad (véase
Apartado 2.5.).

Por su parte, la desviación típica o estándar, que se denota por Sx, es la raíz cuadrada positiva de la
varianza, es decir:

La desviación típica es una medida de dispersión que suele proporcionarse junto con la media de
la distribución, puesto que ambas magnitudes vienen expresadas en la misma unidad de medida,
lo que facilita enormemente la interpretación de los resultados.

Otro estadístico que se utiliza mucho, especialmente en inferencia estadística, es la cuasivarianza,


que se denota por S*2X, y se define como:

siendo la cuasidesviación típica,

Ejemplo 2.15

El número de ofertas de empleo publicadas en los últimos cinco números en una revista
especializada ha sido:

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 24/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

Calcular el rango, varianza, desviación típica, cuasivarianza y cuasidesviación típica.

Solución
El rango o recorrido del número de ofertas de empleo (variable X) es:

Página 43 

Para calcular la varianza, se puede recurrir a la Expresión (2.2) o (2.3). Evidentemente el resultado
es el mismo, simplemente una forma resulta más cómoda que la otra, como se verá.

Los cálculos necesarios para obtener la varianza pueden obtenerse añadiendo una serie de
columnas a la tabla de frecuencias de las ofertas de empleo publicadas, tal y como se muestra a
continuación:

(7)

Una vez elaborada la tabla anterior resulta casi inmediato el cálculo de la media y de la varianza.

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 25/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

o bien,

La desviación típica es:

anuncios.

La cuasivarianza se puede obtener a partir de la varianza:

La cuasidesviación típica es:

anuncios.

Página 44 

2.2.3. Coeficiente de variación de Pearson


Es el cociente entre la desviación típica y la media aritmética de la variable estadística X. Suele
representarse por g0(X).
https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 26/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

Cuanto más próximo a cero se encuentre el coeficiente de variación menor será la dispersión
(relativa) y mejor la representatividad de la media aritmética.

El coeficiente de variación es una medida de dispersión relativa. Por esta razón, se utiliza para
comparar la dispersión entre dos o más distribuciones, independientemente del valor de sus
medias y de la unidad de medida de las variables.

Ejemplo 2.16

Dos revistas especializadas en empleo, A y B, han publicado una media de ofertas de trabajo, que
requieren alta cualificación, de

con varianzas, respectivamente, de S2A = 4 y S2B = 9. ¿Qué revista presenta mayor dispersión
absoluta? ¿Y relativa?

Solución

La revista B presenta mayor dispersión absoluta que la revista A, puesto que S2B = 9 > S2A = 4.
Ahora bien, para comparar correctamente la dispersión en ambas publicaciones (con medias
distintas), debe calcularse el coeficiente de variación, medida de dispersión relativa, que mide el
número de veces que la desviación típica contiene a la media. Por tanto:

es decir, como g0(B) < g0(A) puede concluirse que la dispersión relativa de la revista B es menor
que la de la revista A.

2.3. Momentos
A partir de la distribución de frecuencias es posible calcular una serie de valores específicos que la
caracterizan. Estos valores son los denominados momentos.

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 27/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

Los estadísticos obtenidos hasta ahora como media y varianza pueden considerarse casos
particulares de los momentos. A continuación se estudian los principales detalles de los distintos
tipos de momentos que pueden obtenerse, momentos ordinarios y centrales, así como la relación
que puede establecerse entre ellos.

Página 45 

2.3.1. Momentos ordinarios o respecto al origen


Dada una variable estadística unidimensional (X) y su distribución de frecuencias, se define el
momento ordinario (o respecto al origen) de orden p, que se denota por ap(X), como:

Los distintos momentos ordinarios son obtenidos al asignar valores a p. Seguidamente se


presentan algunos casos particulares:

2.3.2. Momentos centrales o respecto a la media


Dada una variable estadística unidimensional (X) y su distribución de frecuencias, se define el
momento central (o respecto a la media) de orden p, que se denota por mp(X), como:

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 28/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

Algunos casos particulares son:

Página 46 

Momento central de orden 2:

. Es decir, el momento central de orden 2 coincide con la varianza [véase Expresión (2.2)].

2.3.3. Relación entre los momentos ordinarios y centrales


Es posible expresar cualquier momento central en función de los momentos ordinarios. Para ello
se recurre a la siguiente relación:

Por ejemplo, la expresión del momento central de orden 2 en función de los momentos ordinarios
se obtiene para p = 2(8) .

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 29/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

Operando:

Sustituyendo el momento ordinario de orden 2 por la expresión que lo hace operativo, y


recordando que el momento ordinario de orden 1 coincide con la media:

expresión para la varianza que coincide con la dada en (2.3).

Página 47 

Ejemplo 2.17

Expresar el momento central de orden 3 de la variable X en función de los momentos ordinarios.

Solución
Recurriendo a la Expresión (2.4)

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 30/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

Operando:

Es decir:

2.4. Medidas de forma


En este apartado se va a comparar una determinada distribución de frecuencias con un modelo
ideal, la distribución Normal (que tiene forma de campana). La comparación se centrará,
básicamente, en dos aspectos fundamentales. Por una parte, en determinar si la distribución con
la que se está trabajando es simétrica, como la normal, o bien es asimétrica, esto es, se encuentra
desplazada hacia un lado. Por otro parte, resulta también interesante conocer cómo es la
distribución en cuanto a su apuntamiento respecto al mencionado modelo ideal. Estas cuestiones
pueden ser resueltas al representar gráficamente la distribución de frecuencias y observar su
forma o, caso de no poder hacer esto, calculando las oportunas medidas, a saber: asimetría y
apuntamiento (curtosis).

Página 48 

2.4.1. Medidas de asimetría


En la Figura 2.3 se ha representado la distribución normal [Gráfica (a)]. Puede observarse como
ésta es una distribución simétrica respecto a la media, «al doblar la distribución por el eje de

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 31/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

simetría ambas partes coinciden» [Figura 2.3, Gráfica (b)]; en caso contrario se dice que la
distribución es asimétrica.

Figura 2.3.
Para medir la asimetría de una distribución pueden utilizarse diferentes coeficientes, aunque es
frecuente obtener el denominado coeficiente de asimetría (de Fisher), que se denota por g1, y se
define como el cociente entre el momento central de orden 3 y la desviación típica elevada al cubo.
Por tanto, el coeficiente de asimetría de la variable X vendrá dado por:

de tal forma que si la distribución es asimétrica g1(X) tomará un valor distinto de cero, positivo o
negativo, tanto mayor (en términos absolutos) cuanto más asimétrica sea la distribución. Si g1(X) =
0 la distribución puede ser simétrica o no, será necesario apoyarse en su representación gráfica
(Figura 2.4); ahora bien, si la distribución es simétrica el coeficiente de asimetría de Fisher siempre
será cero.

Puede observarse que, cuando los valores de la variable más frecuentes son los mayores y la
distribución presenta una cola a la izquierda, ésta es asimétrica negativa. En cambio, cuando los
valores más comunes de la distribución son los menores, cola hacia la derecha, ésta es asimétrica
positiva.

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 32/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

En distribuciones unimodales y campaniformes, como las representadas en la Figura 2.4, se


cumple que

cuando la distribución es asimétrica negativa y

cuando es asimétrica positiva.

Página 49 

Figura 2.4.
https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 33/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

Ejemplo 2.18

A partir de las calificaciones en estadística de 50 estudiantes universitarios de primer curso se han


obtenidos los siguientes estadísticos:

¿Es simétrica la distribución de las calificaciones obtenidas en esta asignatura?

Solución
El coeficiente de asimetría se define como el cociente entre el momento central de tercer orden y
el cubo de la desviación típica.

En primer lugar se calculará

y SX y a continuación m3(X) a partir de la expresión dada en la solución del Ejemplo 2.17.

Página 50 

Resolviendo, m3(X) = − 3,504. Por tanto,

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 34/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

Es decir, la distribución de las calificaciones obtenidas en la asignatura de estadística es asimétrica


negativa, como puede verse en la Figura 2.6, en el Ejemplo 2.19, donde se representa
gráficamente.

2.4.2. Medidas de apuntamiento (curtosis)


Las medidas de apuntamiento analizan si una distribución de frecuencias es más apuntada o
menos al comparar ésta con una distribución tipo, la distribución Normal (véase Figura 2.5) con su
misma media y varianza.

El hecho de que una distribución sea muy apuntada, o poco, dependerá de la cantidad de valores
de la variable que se encuentren en torno a la zona central y se agrupen alrededor de la media
aritmética. Una medida que permite conocer este grado de apuntamiento es el coeficiente de
curtosis, que se denota por g2, y que se define, en este caso para una variable X, como:

En la expresión anterior se resta el valor 3, puesto que en la distribución Normal, que se toma
como referencia a la hora de realizar la comparación,

Si g2(X) > 0, la distribución es leptocúrtica, más apuntada que la Normal.

g2(X) = 0, la distribución es mesocúrtica, igual de apuntada que la Normal.

g2(X) < 0, la distribución es platicúrtica, más achatada que la Normal.

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 35/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

Figura 2.5.

Ejemplo 2.19

En la Figura 2.6 se representa la distribución de frecuencias correspondiente al Ejemplo 2.18.

Página 51 

Figura 2.6.
¿Qué puede decir acerca de su apuntamiento o aplastamiento? ¿Qué coeficiente de curtosis cabe
esperar?
https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 36/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

Solución
Sobre el diagrama de barras de las calificaciones obtenidas en estadística por los 50 estudiantes
universitarios consultados, se ha dibujado la distribución normal ajustada a esta distribución de
media (

) y desviación típica (Sx = 1,857). Al comparar ambas se puede intuir que la distribución de las
calificaciones es ligeramente más apuntada que la normal, por ello cabe esperar un coeficiente de
curtosis positivo (leptocúrtica).

2.5. Transformaciones lineales y tipificación de variables


Supóngase que, en principio, se está trabajando con la distribución de frecuencias de una variable
estadística X, de la que se ha obtenido una serie de estadísticos (media, varianza, etc,) y que por
cualquier circunstancia es necesario pasar a trabajar con otra variable estadística Y, que se obtiene
a partir de la anterior como resultado de:

— Sumar (o restar) una constante a a todos los valores de la variable estadística X, es decir, de
efectuar sobre ésta un cambio de origen: Y = X + a o Y = X - a.

Página 52 

— Multiplicar (o dividir) por una constante b todos los valores de la variable X, es decir, de realizar
sobre X un cambio de unidad (o escala): Y = b · X o

— Practicar sobre la variable X tanto un cambio de unidad como de origen, por ejemplo: Y = b · X +
a.
Pues bien, para obtener aquellas mismas medidas conocidas para la nueva variable Y no es
necesario crear su distribución de frecuencias y realizar de nuevo todos los cálculos que se
efectuaron en su momento para la variable X. Es suficiente con conocer cómo afectan los cambios
de origen y unidad a los distintos estadísticos y recurrir a la transformación lineal empleada para
obtener Y a partir de X (véase Tabla 2.1).

En la Tabla 2.1, y para algunas transformaciones lineales tipo, a partir de los estadísticos

, S2x, g0(X), g1(X), g2(X) y mp(X) de la variable estadística X, que se suponen conocidos, se muestran
estas mismas medidas para la variable Y.

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 37/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

Tabla 2.1.

Ejemplo 2.20

Determinar la media, varianza y coeficiente de variación de Pearson de la variable estadística Y,


que es obtenida como

, sabiendo que

y S2x = 4.

Página 53 

Solución

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 38/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

La variable Y es obtenida al aplicar, sobre la variable X, un cambio de escala (b = 1/4) y un cambio


de origen (a = 2).

La media depende tanto de los cambios de origen como de unidad, ambos deben ser tenidos en
cuenta a la hora de calcular la media de la variable Y, así:

La varianza (en general todos los momentos centrales) únicamente depende de los cambios de
unidad, siendo invariante ante cambios de origen, por tanto:

El coeficiente de variación de Pearson es invariante ante cambios de unidad, pero no a los de


origen; de forma que caso de existir este último queda afectado por ambos.

Por otra parte, tipificar una variable consiste en obtener, a través de una transformación lineal
«especial», otra variable con media y desviación típica (o varianza) prefijada. Esto es, tipificar una
variable X, con media

y desviación típica SX, consiste en transformar ésta en otra Z con media

y desviación típica SZ. La variable Z se dice que es la variable tipificada de X.

En general, si el objetivo es conseguir una variable tipificada Z con media

y SZ = k, la transformación lineal a realizar será:


https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 39/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

El caso de tipificación más utilizado se conoce como tipificación estándar, y consiste en


transformar la variable X en otra variable Z, con media 0 y desviación típica 1. En este caso, la
transformación lineal consiste en restar al valor de la variable la media y dividir entre la desviación
típica, de esta forma, la variable resultante Z, será:

Si el coeficiente de variación de Pearson es empleado para comparar la dispersión entre dos o más
distribuciones, la tipificación resulta útil cuando se quiere comparar individuos o cantidades que en
principio no son comparables, bien porque provienen de poblaciones diferentes, bien porque
aluden a conceptos distintos.

Página 54 

En este sentido, los valores tipificados que son obtenidos indican la distancia a la que se
encuentran cada uno de ellos respecto a la media, distancia que es medida en términos de
desviaciones típicas. Por tanto, fácilmente puede compararse la posición relativa de cada valor.

Ejemplo 2.21

En la sección de pintura de un taller de reparaciones trabajan tres personas. Sus salarios son de
900, 950 y 1.000 €. Obtener los salarios tipificados a media cero y desviación típica 1.

Solución
La media y desviación típica de los salarios será:

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 40/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

Una vez obtenidas

y SX pueden determinarse los valores tipificados:

Figura 2.7.
Puede comprobarse que

y SZ = 1. Los valores z1 y z3, que se corresponden con los salarios de 900 y 1.000 €,
respectivamente, se encuentran a 1,225 desviaciones típicas de la media, es decir, se encuentran a
la misma distancia de ésta.

Página 55 

2.6. Medidas de concentración: curva de Lorenz e índice de Gini


Las medidas de concentración, que no se deben confundir como opuestas a las medidas de
dispersión, indican el mayor o menor grado de igualdad (o equidistribución) en el reparto total de
https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 41/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

los valores de la variable objeto de estudio.

La concentración puede determinarse gráficamente a través de la curva de Lorenz. Una medida


analítica para la concentración es el conocido como índice de Gini.

2.6.1. Curva de Lorenz


Mediante la curva de Lorenz (véase Figura 2.8) se relaciona el porcentaje acumulado de frecuencias
(pi)—hogares, familias, individuos, trabajadores, industrias, etc.—, que se representa en el eje de
abscisas, con el porcentaje acumulado del volumen total de la variable (qi)—ingresos, ventas, renta,
producto interior bruto, etc.— que le corresponde, que se representa en el eje de ordenadas.
Dicha curva, que comienza en el punto (0, 0) y finaliza en el (100, 100), es creciente por representar
porcentajes acumulados y se encuentra situada por debajo de la bisectriz al ser pi ≥ qi ∀ i.

2.6.2. Índice de Gini


El índice de Gini, que se denota por IG, es aproximadamente el cociente entre el área comprendida
entre la bisectriz del primer cuadrante y la curva de Lorenz y el triángulo

(véase Figura 2.8).

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 42/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

Figura 2.8.

Página 56 

A nivel práctico suele utilizarse, como aproximación, la siguiente expresión:

La ventaja del índice de Gini es que proporciona una medida cuantitativa de la concentración. Éste
puede tomar valores comprendidos entre 0 y 1, es decir, 0 ≤ IG ≤ 1, de tal forma que si IG = 0 existe
equidistribución (o no concentración), produciéndose una concentración máxima cuando IG = 1.
Por tanto, cuanto más próximo a cero se encuentre el índice de Gini, menor será el grado de
concentración.

Relacionando curva de Lorenz e índice de Gini (véase Figura 2.9), cuanto menor sea este último,
menor será el área comprendida entre la bisectriz y la curva de Lorenz. En el caso que la
concentración sea mínima (IG = 0), la curva de Lorenz coincide con la bisectriz, lo que indica que a
un porcentaje acumulado de individuos le corresponde ese mismo porcentaje acumulado del
volumen total de la variable (pi = qi ∀ i).

Figura 2.9.
En caso de máxima concentración (IG = 1), la curva de Lorenz coincide con el triángulo

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 43/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

. En este caso extremo, un solo individuo, el último, concentra el volumen total de variable, no
encontrándose nada en manos de los restantes (N − 1) individuos.

2.6.3. Haciendo operativo el índice de Gini y la curva de Lorenz


Para poder representar la curva de Lorenz y obtener el índice de Gini, es necesario calcular los
porcentajes acumulados de individuos y del volumen total de la

Página 57 

variable. Para ello, lo más práctico consiste en añadir columnas a la tabla de frecuencias original,
tal y como se muestra en la Tabla 2.2.

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 44/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

Tabla 2.2.

Ejemplo 2.22

Las horas de formación recibidas a lo largo del último año por los 40 directivos de distinto nivel, de
la filial española de una compañía multinacional, se recogen en la siguiente tabla.

Representar la curva de Lorenz y calcular el índice de Gini.

Solución
Confeccionando una tabla similar a la Tabla 2.2.

Página 58 

Representando el punto (0, 0) y los distintos pares (pi, qi), esto es, (p1 = 50, q1 = 34,78); (p2 = 75, q2
= 60,87); (p3 = 87,5, q3 = 78,26); la curva de Lorenz se obtiene al unir los puntos mediante
segmentos.

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 45/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

Figura 2.10.
En cuanto al índice de Gini:

es decir, el número de horas de formación destinadas a los diferentes niveles directivos en esta
filial están relativamente bien repartidas.

Página 59 

Cuestiones de autoevaluación
2.1 En un total de 10 empresas de un determinado sector de actividad se ha observado el número
de empleados, obteniéndose los valores siguientes: 15, 21, 22, 26, 32, 35, 40, 50, 54, 1.000, donde

y Me = 33,5.

¿Qué medida de posición es preferible utilizar como resumen del conjunto de datos de la variable?
https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 46/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

a) La media aritmética, porque es la medida de posición central por excelencia y siempre que se
conozca se debe utilizar ésta.

b) La mediana, porque como existe un valor muy alejado del resto, la media es poco representativa
del conjunto de valores de la distribución.

c) Es indiferente.
d) Ninguna de las anteriores es correcta.
2.2 Se estudian los salarios que perciben los empleados de una empresa. El menor de los salarios
es de 600 €/mes y el mayor de 2.400 €/mes. ¿Cuál de los siguientes resultados puede ser cierto?

a)

= 1.200 €, SX = 0 €

b)

= 1.000 €, SX = 200 €

c)

= 500 €, SX = 200 €

d)

= 1.200 €, SX = 150 €

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 47/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

2.3 Se invierten 12.000 € a plazo fijo durante dos años. El primer año el capital se incrementa en un
3% y el segundo en un 12% acumulativo. El interés o incremento medio anual es:

a) 7,5 %.
b) 7,406 %
c) 4,8 %
2.4 Si el coeficiente de asimetría de una variable X es 4, y se realiza una transformación lineal de la
forma Y = 50 + 60X, ¿cuál es el coeficiente de asimetría de la nueva variable?

a) El coeficiente de asimetría vale 24.


b) El coeficiente de asimetría vale 4.
c) El coeficiente de asimetría vale 74.
d) No se puede obtener el coeficiente de asimetría de Y a partir de la información de la que se
dispone.

Página 60 

2.5 Supóngase una variable estadística X tal que

y Sx2 = 35. Si se realizase un cambio de variable aplicando la transformación Y = 10 + 5X, entonces:

a)

= 165 y Sx2 = 875

b)

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 48/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

= 165 y Sx2 = 35

c)

= 155 y Sx2 = 875

d)

= 155 y Sx2 = 35

2.6 Una empresa de componentes electrónicos dispone de tres plantas de producción (A, B y C)
con 100, 150 y 200 operarios de fabricación respectivamente. Si el número medio mensual de
unidades producidas por cada empleado en la planta A es de 2.000, en la planta B de 2.500 y en la
planta C de 1.750, ¿cual es el número medio mensual de unidades producidas por cada operario
para el global de la empresa?

2.7 Dados los siguientes momentos referentes a una variable estadística:

Se puede decir que la distribución de frecuencias es:


https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 49/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

a) Simétrica y leptocúrtica.
b) Asimétrica por la izquierda y platicúrtica.
c) Asimétrica por la izquierda y platicúrtica.
d) Asimétrica por la izquierda y platicúrtica.
2.8 Para que una distribución simétrica con desviación típica igual a 3 sea mesocúrtica, ¿cuál debe
ser el valor del momento central de orden 4?

a) Igual a 243.
b) Mayor a 243.
c) Menor a 243.
d) No se puede calcular el valor de m4.

Página 61 

2.9 Dada una variable estadística X con media

y desviación típica SX = 3, ¿qué transformación debería realizarse para que la variable tipificada
tuviese media 5 y desviación típica 2?

a)

b)

c)

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 50/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

d) Únicamente pueden obtenerse variables tipificadas con media cero y desviación típica 1.
2.10 Si el índice de Gini vale 1, se puede afirmar que:
a) No existe concentración, los valores de las variables están equidistribuidos.
b) La curva de Lorenz coincide con la diagonal principal.
c) La curva de Lorenz coincide con los lados del cuadrado, formando un triángulo.
d) Tanto la opción a) como la c) son ciertas.

Ejercicios propuestos
2.1 Se ha preguntado a 9 empresas por el número de personas que emplean, siendo sus
respuestas:

Calcular la media aritmética, mediana y moda.

2.2 A 15 personas que guardaban cola para entrar al museo de «El Prado» se les ha preguntado
por el número de veces que han visitado previamente la pinacoteca, siendo las respuestas
obtenidas:

Calcular la media aritmética, mediana y moda.

2.3 Cierta empresa ha incrementado el salario a sus empleados en los últimos cinco años en un 1,
2, 3, 4 y 5% acumulativo. Si un trabajador empezó con un salario 1.000 €, calcular:

a) El incremento medio anual aplicado en estos cinco años.


b) El salario a cobrar cinco años después.

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 51/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

Página 62 

2.4 Dada la siguiente tabla estadística:

Calcular la media, el intervalo donde está contenida la mediana y el intervalo modal.

2.5 En la siguiente distribución de frecuencias se recoge el consumo de gas (en m3), entre los
meses de diciembre-enero, de una comunidad de 100 viviendas.

Obtener la media aritmética, el intervalo donde está contenida la mediana y el intervalo modal de
la distribución de consumo de gas.

2.6 Las siguientes cuatro muestras de datos tienen la misma media:


a) 4 4 4 4 4 4 4
b) 1 1 1 1 1 3 20
c) 1 2 3 4 5 6 7
d) 1 12 4 4 8 8
Ordenar el posible valor de sus varianzas (dispersión) de menor a mayor, pero sin realizar ningún
cálculo. Después comprobar el resultado calculando dichas varianzas.

2.7 Inspeccionadas un total de 40 planchas, el número de defectos (obstrucción del pulverizador,


funcionamiento incorrecto del termostato, etc.) encontrados por el departamento de calidad ha
sido:

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 52/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

Obtener el número medio de defectos y la varianza de estos.

Página 63 

2.8 El propietario de una tienda de electrodomésticos, tras un descenso en las ventas del último
trimestre, observa el número de clientes que entran en su establecimiento a lo largo de quince
días:

Calcular la media y la desviación típica.

2.9 Una Universidad tiene dos bibliotecas. La información disponible de la variable «Gasto
dedicado a la compra de libros» entre los años 1998 y 2002, en cada una de las bibliotecas, ha sido
el siguiente:

¿En cuál de las dos bibliotecas ha habido menor dispersión en el gasto destinado a la compra de
libros?

2.10 Los directores de producción y recursos humanos han estudiado el absentismo laboral en dos
células de producción. En la célula A el número medio de horas perdidas resultó ser de 120 horas,
con una desviación típica de 36 horas. En la célula B el absentismo medio se cuantificó en 80 horas
de trabajo, con una desviación típica de 30 horas.

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 53/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

¿En qué célula de producción hay mayor dispersión relativa en el número de horas perdidas?

2.11 Una compañía, perteneciente a un grupo de grandes empresas (Grupo A), presenta un
beneficio anual de 3,5622 millones de euros. Asimismo, el beneficio anual de un comercio,
perteneciente a una agrupación de pequeñas empresas (Grupo B), es de 32.280 euros. Si las
medias y desviaciones típicas de los beneficios anuales de las empresas pertenecientes a cada uno
de esos grupos han sido:

Cuál de las dos empresas presenta un beneficio anual relativo mayor, ¿la compañía o el comercio?

Página 64 

2.12 Se tiene información acerca del número de goles por partido marcados en dos ligas europeas:
Liga de fútbol A: Media 3,5 goles y varianza 1,34.

Liga de fútbol B: Media de 2,5 goles y varianza 1,88.

a) ¿En qué liga europea hubo una mayor dispersión relativa?


b) Si en un partido jugado en la liga A el resultado fue 2-0 y en otro partido de la liga B el resultado
fue 1-1. ¿En qué partido el número de goles fue relativamente mayor?

2.13 Dos empresas del sector químico, A y B, han recogido información sobre el número de
accidentes laborales al mes con baja laboral que se ha producido durante un determinado periodo
de tiempo, obteniendo los siguientes resultados:

Si durante un mes determinado, en la empresa A ha habido 7 accidentes con baja y en la empresa


B se han producido 10 accidentes con baja, ¿en qué empresa el número de accidentes con baja ha
sido relativamente mayor?

2.14 Expresar el momento central de orden 4 en función de los momentos ordinarios.


2.15 A partir de la siguiente distribución de frecuencias:

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 54/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

Obtener los coeficientes de asimetría y curtosis, y decir cómo es la forma de la distribución.

2.16 Para una distribución se sabe que

, SX2 = 9 obtener la media, varianza y coeficiente de variación de la variable Y si:

a) Y = X + 4
b) Y = 2X
c) Y = 2X + 4
d)

Página 65 

2.17 De un estudio realizado en dos poblaciones acerca del tiempo diario (en minutos) que los
niños de 4 a 10 años dedican a ver la televisión, se han obtenido los siguientes resultados: en la
población A dedican una media diaria de 90 minutos con una varianza de 144, mientras que en la
población B la media diaria es de 75 minutos con una varianza de 100.
https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 55/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

a) ¿En qué población es mayor la dispersión relativa?


b) Un niño de la población A dedica 82 minutos diarios a ver televisión y otro de la población B
dedica 75 minutos. En términos relativos, ¿qué niño dedica más tiempo a ver televisión?

2.18 La evolución de la variable X: «Siniestralidad de automóviles (millones de euros)» en los


últimos 6 años ha sido, aproximadamente, la que se recoge a continuación:

Calcular la media, desviación típica y coeficiente de variación de Pearson de la variable X partir del
cálculo de dichos estadísticos para la variable

2.19 En una empresa hay una sección dedicada a la fabricación de un tipo especial de piezas. La
variable X: «Número de piezas fabricadas al día por un trabajador», presenta los siguientes
momentos:

Asimismo, el «Salario diario de los trabajadores» (variable Y) se compone de 21 euros fijos más una
prima de 30 céntimos por pieza producida. Determinar:

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 56/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

a) Los coeficientes de asimetría y apuntamiento de la variable X, comentando la forma aproximada


que tendrá la distribución de esta variable.

b) La media y la desviación típica de la variable Y. ¿Qué forma tendrá la distribución de esta


variable? Justifica las respuestas.

Página 66 

2.20 Observar las curvas de Lorenz representadas a continuación:

¿Cuál de las dos situaciones representa una distribución más equitativa?

Problemas reueltos
2.1 Una empresa de plásticos se dedica a la realización de piezas para vehículos de una
determinada marca. La distribución del número de piezas que realizan los 250 trabajadores en una
hora es la siguiente:

a) Calcular el número medio de piezas terminadas en una hora, la mediana y la moda.


b) Determinar el primer y el tercer cuartil.
c) Obtener la varianza de las piezas, la desviación típica y el coeficiente de variación de Pearson.
https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 57/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

2.2 Un grupo de expertos lleva a cabo una cata de aceites. A continuación se facilita la distribución
de frecuencias correspondiente a las calificaciones obtenidas por los aceites de oliva procedentes
de 150 almazaras:

Página 67 

a) Calcular la calificación media obtenida en la cata por el conjunto de los aceites evaluados.
b) Obtener los intervalos donde están contenidas la mediana y la moda.
c) Calcular la desviación típica de la distribución y el coeficiente de variación de Pearson.
d) Explicar la forma de la distribución de frecuencias sabiendo que los coeficientes de asimetría y
curtosis son respectivamente g1 = − 0,2 y g2 = − 0,88.

2.3 Sea X la variable estadística que expresa el salario mensual de los trabajadores de una
empresa de la construcción (datos en euros), y de la que es conocida su media

y su varianza SX2 = 90.000.

Si se definen las siguientes variables:

Y: «Deducción en las nóminas de los trabajadores para la Seguridad Social y Mutualidad». Esta
consiste en deducir un 9,5% del salario más 15 euros fijos.

Z: «Deducción en las nóminas de los trabajadores por retenciones del I.R.P.F». Esta consiste en
deducir un 18% del salario.

Calcular la media y la varianza de las variables estadísticas Y y Z. ¿Cuál presenta una mayor
dispersión relativa?

2.4 El volumen de ventas mensuales de 30 empresas se distribuye como sigue:


https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 58/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

Obtener el índice de Gini y la curva de Lorenz.

Página 68 

Problemas propuestos
2.5 Durante el pasado fin de semana, dos agencias de viajes han presentado el siguiente
movimiento en la venta de billetes de avión.

a) Obtener la media, mediana y moda del importe obtenido por la venta de billetes en cada una de
las agencias.

b) ¿En qué agencia ha sido mayor la dispersión en el importe de los billetes vendidos?
2.6 Una empresa multinacional americana tiene una fábrica en Valencia. Se realiza un estudio
sobre los salarios mensuales (en cientos de euros) de los empleados de dicha empresa, ofreciendo
los siguientes resultados:

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 59/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

a) Calcular los salarios medios de la empresa.


b) ¿Qué porcentaje de trabajadores tiene un sueldo superior a 12 (cientos de €) mensuales?
c) Si se conocen los siguientes datos correspondientes a los salarios mensuales (cientos de $) de
otra empresa que está situada en Estados Unidos:

¿Cuál de las dos empresas es la que presenta una mayor dispersión relativa?

Página 69 

2.7 Los salarios de los empleados sin cualificación profesional (en euros) en cierta empresa se
distribuyen como sigue:

Obtener la curva de concentración y el índice de Gini.

(1) Este es, con diferencia, el estadístico (cualquier función de los valores de la variable) más
importante. En adelante, cuando se haga referencia al término media, sin especificar, deberá
entenderse media aritmética.

(2) En este sentido se dice que la media no es un estadístico (medida) robusto.

(3) Se podría comprobar que la media armónica, geométrica y armónica guardan la siguiente
relación: Mh ≤ Mg ≤ x.

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 60/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

(4) Este es el criterio que se utilizará. Otros criterios consideran que son válidos ambos valores,
esto es, Me = xi y Me = xi+1, o incluso cualquier valor comprendido entre los anteriores.

(5) Identificado el intervalo mediano,

, donde ci es la amplitud del intervalo mediano y Li-1 su extremo inferior.

(6) En el Apartado 2.3 se verá cómo esta expresión se corresponde con la obtenida al expresar el
momento central de orden 2, que es la varianza, en función de los momentos ordinarios.

(7) Obsérvese cómo la suma de las desviaciones de cada valor de la variable respecto a su media es
cero

, tal y como se indicó en la primera propiedad de la media aritmética.

(8) Para calcular el número combinatorio

se procede de la siguiente forma:

Texto completo: COPYRIGHT 2005 Cengage Learning Paraninfo, S.A.


Cita de fuente   (MLA 8.a edición)
Estaban García, Jesús, et al. "Análisis de Datos Unidimensionales." Estadística descriptiva y nociones
de probabilidad, Paraninfo, 2005, pp. 25-69. Gale Ebooks,
https://link.gale.com/apps/doc/CX4052300007/GVRL?u=unad&sid=GVRL&xid=c94d9295.
Accessed 21 Oct. 2019.
https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 61/62
21/10/2019 Gale eBooks - Documento - Análisis de Datos Unidimensionales

Número de documento de Gale: GALE|CX4052300007

https://go.gale.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=03f8699ec7ccf10e8745c0ceb7b85bf1 62/62

Das könnte Ihnen auch gefallen