Sie sind auf Seite 1von 14

UNMSM

II.RESUMEN DE DATOS CUANTITATIVOS UNIVARIANTES

2. Resumen de datos cuantitativos Univariante


2.1 Medidas de Tendencia Central: Definición, propiedades y aplicación de: Media
aritmética, Media aritmética ponderada, Mediana y Moda.
2.2 Medidas de tendencia no central: percentiles.
2.3 Medidas de dispersión: definición, propiedades y aplicación de: rango,
varianza, desviación estándar, rango intercuartilico y coeficiente de variación.
II.RESUMEN DE DATOS CUANTITATIVOS ASIGNATURA:
UNIVARIANTES FUNDAMENTOS
DE
ESTADÍSTICA
I. INTRODUCCIÓN
Universidad Nacional
Respirar benceno puede causar somnolencia, mareo y
Mayor de San Marcos
pérdida del conocimiento; la exposición de larga
duración produce alteraciones en la médula de los
huesos y puede causar anemia y leucemia. En cierta
investigación se ha tomado muestras de un litro de agua UNMSM
de un río cuyo contenido en g / L , se muestra en la
siguiente tabla de frecuencias e histograma:
Facultad: Ciencias

[Benceno> n pi% Pi% Biológicas

8–9 6 12 12 Escuela: Genética y


9 – 10 9 18 30 Biotecnología
10 – 11 17 34 64
Profesores:
11 – 12 12 24 88

12 – 13 6 12 100 Teoría: Mg. Violeta

Total 50 100 Nolberto Sifuentes y

Mg. Fernando
*Acumulado
Nota: El valor permisible es hasta 10 g / L Camones Gonzales

SESIÓN 3, 4 y 5:

2. Resumen de datos
cuantitativos univariantes.
2.1. Medidas de tendencia
central: Definición,
propiedades y aplicaciones
de: media aritmética, media
aritmética ponderada,
mediana y moda.
2.2 Medidas de tendencia
no central: percentiles.
2.3 Medidas de dispersión:
definición, propiedades y
aplicación de: rango,
varianza, desviación
estándar, rango
intercuartilico y coeficiente
de variación.
1
Realizada la presentación de los datos originales mediante tablas,
cuadros y gráficos de frecuencias, y su correspondiente interpretación, es
necesario hallar un conjunto de medidas resumen o índices que
caractericen de una forma más precisa la distribución que se está
estudiando y, así poder describir en una forma más amplia el
comportamiento de los datos.
Las medidas resumen se calculan a partir de los datos obtenidos de una
muestra o de toda la población. Dependiendo del caso, adoptan
diferentes nombres. De este modo,

Las medidas resumen descriptivas a) Las medidas resumen descriptivas


calculadas a partir de los datos de una calculadas a partir de los datos de
muestra se denominan estadígrafos o la población se denominan
parámetros. Entre los parámetros
estadísticos. Entre los estadígrafos más más comunes tenemos la media
comunes tenemos la media muestral, la poblacional, la varianza poblacional
varianza muestral y la proporción muestral. y la proporción poblacional.

El análisis de frecuencias de una variable cuantitativa no nos permite


absolver las siguientes preguntas:
¿Alrededor de qué valor de la variable se agrupan los datos?, si se
agrupan alrededor de un valor, ¿cómo lo hacen?, ¿poco concentrados?,
¿poco dispersos? Para resolver estas interrogantes se emplean las
medidas de resumen, que pueden ser: Medidas de Tendencia Central
(Posición Central), Medidas de Posición (Tendencia no Central), Medidas
de Dispersión y Medidas de Forma

Las medidas resumen más usadas son:


 Medidas de tendencia central y de posición.
 Medidas de dispersión (o de variación) absoluta y relativa.
 Medidas de forma: asimetría (o de sesgamiento) y de
apuntamiento (o de curtosis).

Las medidas de asimetría y apuntamiento dan información acerca de la


forma de la distribución de frecuencias y se obtienen a partir de los
índices de posición y dispersión.

Resumiendo, una descripción adecuada de los datos requiere de la


definición de unas medidas numéricas descriptivas de la centralización,
de la dispersión de los datos y de la forma como estos se distribuyen.

II. MEDIDAS DE TENDENCIA CENTRAL (POSICIÓN CENTRAL)

Al observar un cuadro o gráfico, correspondientes a una variable, y


analizar el conjunto de datos lo primero que debemos averiguar es ¿cuál
es el valor alrededor del cual se concentran los datos? Esto es, ¿cuál es
el valor “promedio” de los datos? Respondemos estas interrogantes
utilizando las medidas resumen tendencia central y de posición.
2
Entre las medidas de centralización se tienen: la media aritmética, la
media aritmética ponderada, la mediana y la moda,. Es importante tener
en cuenta que dependiendo de la variable en estudio, de la escala de
medición y de la forma como están organizados los datos, se hará un uso
adecuado de cada una de estas medidas.

2.1 LA MEDIA ARITMETICA O PROMEDIO ARITMÉTICO

Conocida también simplemente como “media” o “promedio”, se la utiliza


como medida de centralización cuando los datos son numéricos, esto es,
que corresponden a escalas de medición de intervalo o de razón.

La media aritmética de un conjunto de n datos x1 , x 2 ,..., xn es el valor


dado por X y se expresa como:

x1 + x2 + ... + xn 1 n
X    xi (1)
n n i 1

Ejemplo 1: Se registra el número de hijos de un grupo de 15


empleados de una fábrica de calzado y se presenta a
continuación:

2, 0, 3, 2, 1, 2, 2, 4, 2, 2, 0, 1, 3, 2, 1

2  0  3  2  ......  3  2  1
La media aritmética es X =  1.8
15

En promedio, los 15 empleados tienen 1.8 hijos.

OBTENCIÓN DE LA MEDIA ARITMÉTICA PARA DATOS PROVENIENTES


DE VARIABLES DISCRETAS O CONTINUAS PRESENTADOS EN TABLAS
DE FRECUENCIAS

a) Si en la tabla de distribución de frecuencias absolutas f i tenemos


datos provenientes de una variable cuantitativa discreta X,
entonces para calcular la media aritmética usamos la siguiente
expresión:

X  x1 f1  x2 f 2  ...  xk f k   xi f i
k
(2)
n i 1 n
3
Siendo k el número de valores diferentes de la variable X, xi cada
valor diferente de la variable y fi su respectiva frecuencia.
Ejemplo 2: Los datos de la variable X: número de libros de
Estadística revisados, por un grupo de 49 alumnos de la EAPE, se
distribuyen del modo siguiente:

Xi 0 1 2 3 4 5

5 14 14 8 6 1
fi

La media aritmética del número de libros de Estadística revisados


es:

1
X = [(0x5) + (1x14) + (2x14) +..........+ (6x1)] = 2.06
49

En promedio el número de libros de Estadística revisados por los


49 alumnos es, 2.06 libros.

b) Si los datos de la variable cuantitativa discreta están agrupados en


intervalos de clase, reemplazar en la fórmula (2) los valores xi por
las marcas de clase mi. El mismo procedimiento se aplica para el
caso de tener una variable cuantitativa continua.

Ejemplo 3: Para el siguiente conjunto de 17 niños en la sala de


espera de un consultorio médico se registró sus pesos (Kg),
agrupados en 5 intervalos de clase. ¿Calcular el peso promedio?

Intervalos Punto medio (m i ) Frecuencia (f i )

5  x<9 7 2

9  x<13 11 4

13  x<17 15 7

17  x<21 19 3

21  x<25 23 1

k=5 i=1,…,5 n = 17
4
(72) (114) (15.7) (193) (231)
x  14.294
17

El peso promedio de los 17 niños es 14.294 Kgs.

c) También se puede calcular la media aritmética considerando las


f
hi  i
frecuencias relativas. Sabiendo que n , reemplazando en la
fórmula (2) se tiene:
k
X = x h .
i 1
i i

PROPIEDADES DE LA MEDIA ARITMÉTICA

Las Propiedades principales son:

1. Para un conjunto de observaciones de una variable la media aritmética


es única.
Ejemplo 4: Si se tienen los datos de 5 calificaciones: 11, 12, 13,
65
X   13
14, 15 5 .
2. La suma de las distancias entre cada valor de la variable y su media es
n
cero; esto es, (X
i 1
i  X)  0

Ejemplo 5: Sean los datos 11, 12, 13, 14, 15 cuya media

aritmética es 13. Entonces  i


( x  x )
(11-13) + (12-13) + (13-13)
+ (14-13) + (15-13) = 0
3. La suma de los cuadrados de las distancias entre los valores de la
variable y su media aritmética es mínima; esto es,
n n

(X
i 1
i  X ) 2   ( X i  A) 2 , para cualquier valor A, siendo A
i 1
X oA X

Esta propiedad indica que la media es, en cierto sentido, el valor más
próximo al conjunto de datos.
Ejemplo 6: Para los datos 11, 12, 13, 14, 15; X  13 . Sea A =
12 X .

Siendo  (X
( X i  13) 2  10 i  12) 2  15
y , se cumple la
propiedad.

Sea A= 14 X, (X i  14) 2  15

4. Si a cada uno de los datos se le suma o se le resta una constante k ,


entonces la media de los datos transformados es igual a la media de los
datos originales aumentada o disminuida en la constante k ; esto es,
5
M ( X i  k) = M ( X i )  k .

Ejemplo 7:
Datos originales, xi  11, 12, 13, 14, 15  M ( xi ) = X = 13
Sea k 5  xi  5  16, 17, 18, 19, 20  M ( xi  5) = 13 + 5  18
Sea k 3  xi  3  8, 9, 10, 11, 12  M ( xi  3) = 13 - 3  10
5. Si a los datos se le multiplica o divide por una constante k , entonces la
media de los datos transformados es igual a la media de los datos
originales multiplicada o dividida por la constante k ; esto es,
 x  M( xi )
M ( k xi ) = k M ( xi ) o M  i  =
k k

Ejemplo 8:
Para los datos xi : 1, 2, 3, 4, 5 es x 3.
Sea k 4 para los datos 4 xi : 4, 8, 12, 16, 20 la M(4xi )  4(3)  12

Ejemplo 9:
El promedio de las notas de un alumno es 16.
 Si se le aumenta 2 puntos a cada nota, la nota media será
igual a 18 (16 +2).
 Si cada nota se incrementa en un 10% (xi + 0.10 x i = 1.10
xi, para i= 1,…, n), entonces la nota promedio es igual a
(1.10)*(16) = 17.6
Ejemplo 10:
El promedio de los precios de los artículos que conforman la
“canasta familiar” es 500 u.m. Si cada artículo de la canasta
aumenta el 15% de su precio, entonces el nuevo promedio de los
precios de la canasta es igual a M( xi + 0.15 xi) = (1.15) (500) =
575 u.m.
6. La media es muy sensible a los valores extremos (“outliers”)

Ejemplo 11:
Si la variable X toma los valores 1, 2, 3, 4, 5 entonces la x 3 .
Si X toma los valores 1, 2, 3, 4, 5, 6, 7, 45, 55, entonces la x 14.22 .
En casos como este, donde uno o unos pocos datos se alejan de la
masa de datos, la media aritmética no es adecuada, ya que no
representa bien al conjunto.
7. Si el subconjunto de datos x1 , x2 ,...,xn tiene media x y el subconjunto
y1 , y 2 ,..., y m tiene media y , entonces el conjunto total x1 , x2 ,...,xn ,
y1 , y 2 ,..., y m
tiene media
6
nx  my
Xp= . (4)
nm

Este promedio se conoce como media ponderada o media total, y los


pesos o ponderaciones son los tamaños de los subconjuntos, esta
propiedad puede extenderse para varios subconjuntos.
Ejemplo 12:
El salario medio de 40 obreros de la fábrica A es 200 u.m. y el de 20
obreros de la fábrica B es 250 u.m. Luego, el salario medio de los 60
obreros es

(40  200)  (20  250)


X p = XT   216.667u.m
40  20

2.2 La Moda (Mo, mo)

La moda es la medida de centralización más simple. Se la puede usar


para resumir datos medidos con cualquier escala de medición.

Para un conjunto de datos correspondientes a una variable, la moda es el


dato que más se repite, es el valor más frecuente. Para el conjunto de
datos del ejemplo 1 la moda es 2. La mayoría de alumnos ha revisado 2
libros de Estadística (unimodal).

No siempre existe la moda. Por ejemplo, el siguiente conjunto de datos:


55 70 75 85 90 no definen una moda.

En distribuciones donde existen dos o más datos que se repiten con


mayor frecuencia, se dice que la distribución es bimodal o multimodal.

Ejemplo 13: En la siguiente tabla se presenta la distribución de la


variable “número de hijos” correspondiente a 49 jefes de familia.
Xi: 0 1 2 3 4 5 6
fi: 5 14 14 8 6 1 1

Se observa que la distribución es bimodal. Hay dos modas: Moda1 = 1 y


Moda2 = 2.

NOTA:

Si los datos corresponden a una variable continua y están agrupados en


intervalos de clase, no es posible determinar exactamente el valor de la
moda. Pero sí se puede:

 Identificar el intervalo modal, aquél que tiene la mayor frecuencia,


representado por su marca de clase o punto medio.
 Obtener la moda mediante computo:
7
Mo = L i + A ( )
Donde:
= f i – f i -1 = f i – f i +1 Li = límite inferior de la clase modal
A= amplitud de los I.C.

OBSERVACIÓN:

Se usa la moda cuando se desea obtener el valor más “típico” del


conjunto de datos o sea el que se presenta con mayor frecuencia. Así por
ejemplo, hablando del sueldo más típico en cierta industria, nos referimos
a menudo al sueldo modal. También, cuando el tipo de cambio de la
moneda extranjera es estable, hacemos referencia al valor modal como
precio típico.

2.3 LA MEDIANA (Me, me)

Puede ser usada como medida de centralización de datos asociados con


escalas de medición de intervalo y de razón.

La mediana de un conjunto de N datos es el valor que ocupa la posición


central; es decir, es el dato que divide al conjunto de observaciones en
dos partes iguales, 50% menores o iguales que la mediana y 50%
mayores que la mediana.

OBTENCIÓN DE LA MEDIANA PARA DATOS SIN AGRUPAR EN TABLAS DE


FRECUENCIAS:
1. Se ordenan los datos de menor a mayor (estadísticas de orden).
2. Se ubica el dato que ocupa la posición central:
 Si el número N de datos es impar, la mediana es el dato que
ocupa la posición (N+1)/2.
 Si el número N de datos es par, la mediana será el punto medio de
los 2 datos centrales que ocupan las posiciones N/2 y N/2 + 1.

Ejemplo 14:
Los 15 datos del ejemplo 1 ordenados son: 0 0 1 1 1 2 2 2 2 2 2 2
3 3 4 . Como N es impar, la mediana es el dato que ocupa la posición
(N+1)/2 = (15+1)/2 = 8, siendo Mediana = 2

Ejemplo 15:
La mediana del número de dientes careados de un grupo de 10 niños: 2
2 3 4 6 7 8 8 9 9
(Como n es par, N/2 = 5, que corresponde al dato 6 y N/2 + 1 = 6, que
corresponde al dato 7).
Luego la Me = (6+7)/2 = 6.5
8
Significa que, el 50% de los niños presenta menos de 6.5 dientes
careados y el otro 50% de los niños tiene más de 6.5 dientes careados.

OBTENCIÓN DE LA MEDIANA PARA DATOS AGRUPADOS

Si los datos están agrupados en una tabla de distribución de frecuencias,


se tienen dos casos:

1. Si se tiene los valores de la variable con sus respectivas


frecuencias (variable cuantitativa discreta), siempre será posible
determinar el valor exacto de la mediana. Solamente se tiene que
ubicar el dato central que está en la posición N/2 (ó 50%),
utilizando las frecuencias acumuladas. Así por ejemplo, para los
datos del ejemplo 13, siendo N impar, el dato que ocupa la
posición (49+1)/2 = 25 es 2; luego, la mediana del número de
hijos es 2.

Trabajando con las frecuencias Fi

Xi : 0 1 2 3 4 5 6
fi : 5 14 14 8 6 1 1
Fi 5 19 33 41 47 49 49

Trabajando con las frecuencias Hi o Pi

Xi : 0 1 2 3 4 5 6
hi: 0.10 0.29 0.29 0.16 0.12 0.02 0.02
Hi 0.10 0.39 0.68 0.84 0.96 0.98 1.00
Pi 10 39 68 84 96 98 100

2. Si los datos están agrupados en intervalos de clase (variable


cuantitativa continua), se obtendrá un valor aproximado de la
mediana recurriendo a fórmulas de interpolación. Para ello,
ubicamos el intervalo que contiene a la mediana: aquél cuya
frecuencia relativa acumulada sea aproximadamente igual a 0.50.
Suponiendo que la mediana Me está en el i- ésimo intervalo.
Usando la semejanza de triángulos se tiene

M e  Li 0.5  Hi  1 0.5  H i 1
 o M e  Li  ( Ai ) (5)
Ls  Li Hi  H i 1 H i  H i 1

donde:
9
Li es el límite inferior del i-ésimo intervalo donde se supone se
encuentra la mediana,
Ai es la amplitud del i-ésimo intervalo donde se supone se
encuentra la mediana,
Hi es la frecuencia relativa acumulada hasta el i-ésimo intervalo y
Hi-1 es la frecuencia relativa acumulada anterior al i-ésimo
intervalo .
Usando las frecuencias acumuladas F i se tiene:

Me = L i + Ai ( ) (6)

Ejemplo 16: Los datos siguientes representan los pesos de un grupo de 50


universitarios.

Peso(kg.) mi fi hi Fi Hi

[46, 53) 49.5 3 0.06 3 0.06

[53, 60) 56.5 7 0.14 10 0.20

[60, 67) 63.5 7 0.14 17 0.34

******** [67, 74) 70.5 18 0.36 35 0.70

[74, 81) 77.5 8 0.16 43 0.86

[81, 88) 84.5 4 0.08 47 0.94

[88, 95) 91.5 3 0.06 50 1.00

Observando la columna Hi notamos que el valor del peso que


ocupa la posición central está en el cuarto intervalo [67,74). Luego,

0.50  0.34
M e  67  (74  67)  0.11 kg
0.70  0.34

Este valor se puede interpretar del modo siguiente:


aproximadamente, el 50% de los universitarios pesan menos de
70.11 kg. y el resto pesa más de 70.11 kg.

( )( )

Observaciones:
1. La mediana es una estadística de centralización resistente. No es
influenciada por datos atípicos (“outliers”).
10
2. Se la usa para resumir conjuntos de datos organizados en tablas
de frecuencias con límites de clase abiertos. También es usada en
distribuciones marcadamente asimétricas

2.4 COMPARACIONES ENTRE LA MEDIA ARITMÉTICA, LA MEDIANA Y LA MODA:

La media aritmética, por su definición y propiedades, es la mejor medida


de centralización, siempre que sea posible calcularla.

En comparación con la mediana y la moda, la media aritmética es la más


estable. Esto significa que, entre varias muestras tomadas de una misma
población, la media aritmética es la que menos fluctúa.

Cuando las distribuciones de los datos son simétricas o casi simétricas,


para describir el conjunto de datos, es preferible usar la media aritmética
en lugar de la mediana o la moda.

Por su definición, la media aritmética es usada para otros cálculos


matemáticos, a diferencia de la mediana y la moda.

Se debe preferir la mediana en casos donde las distribuciones sean


marcadamente asimétricas, o tengan límites de clase abiertos.

Se elegirá la moda cuando se note claramente la presencia del dato más


“típico”.

Generalmente, en distribuciones simétricas unimodales, la media, la


mediana y la moda coinciden.

 Para polígonos de frecuencia que están sesgados a la derecha se cumple: M o  M e  X .


 Para polígonos de frecuencia con cola a la izquierda se cumple: X  M e  M o .

X  Me  Mo Mo  Me  X X  Me  Mo
11
PRÁCTICA SESION 04-05-06

1. Una muestra de mujeres, que fueron diagnosticadas con carcinoma mamario


atendidas la semana pasada en un centro especializado, tiene el tamaño del
carcinoma (cm) como sigue:

Carcinoma mamario in situ: 2.0 2.8 1.9 2.0 1.2


Enfermedad locorregional: 3.0 2.1 3.0 2.7 2.6
Enfermedad metastásica: 2.7 2.4 1.9 2.9 2.6 2.8 3.6 3.3 1.9 2.7
Describir la variable en estudio, empleando la media, mediana y moda.
Interpretar.

2. En cierta investigación se ha tomado muestras de un litro de agua de un río, en 60


puntos de muestreo, cuyo contenido de benceno es ( g / L ):

7.0 8.9 10.0 11.6 13.0 14.5


7.0 9.3 10.0 11.6 13.1 14.7
7.4 9.4 10.1 11.9 13.1 14.7
7.5 9.5 10.2 12.0 13.2 14.9
7.6 9.5 10.4 12.3 13.3 14.9
7.9 9.7 10.4 12.7 13.6 15.3
8.0 9.7 10.5 12.7 13.6 16.8
8.2 9.9 10.7 12.7 13.6 17.7
8.5 9.9 10.9 12.9 13.8 18.0
8.7 10.0 11.3 12.9 14.0 18.5

a) Construya la tabla de distribución de frecuencias.


b) Calcule la media, mediana y moda del contenido de benceno. Interprete los resultados.
c) Calcule las estadísticas de dispersión absoluta y relativa del contenido de benceno.
d) Calcule las estadísticas de forma e interprete.
e) Con las estadísticas de centralización, dispersión y forma obtenidas, haga un informe
describiendo completamente la distribución de los montos pagados por los empleados de
la empresa mencionada.
f) ¿Qué contenido de benceno es el percentil 75?

3. Calcule e interprete la media aritmética, mediana y moda de los siguientes


conjuntos de datos:

a) Número de dientes cariados : 5,2,8,2,3,2,4,0,6


b) Edades de estudiantes universitarios: 30,20,17,12,30,30,14,29
c) Pesos en gramos de un reactivo químico en polvo: 1.1,4.5,3.2,1.8,5.0,2.2
12
4. Los siguientes datos representan las cuotas en dólares de cheques rechazados de
una muestra de 40 clientes de una cierta identidad bancaria.

12.2 12.9 11.8 11.9 11.6 11.1 12.3 12.2 11.8 11.8
10.7 11.5 11.3 11.2 11.6 11.9 13.3 11.2 10.5 11.1
12.1 11.9 10.4 10.7 10.8 11.0 11.9 10.2 10.9 11.6
10.8 11.6 10.4 10.7 12.0 12.4 11.7 11.8 11.3 11.1

a. Presente los datos en una tabla de distribución de frecuencias correspondiente e intérprete.


b. Calcule la media, mediana y moda de las cuotas en dólares. Interprete los resultados.
c. Calcule las estadísticas de dispersión absoluta y relativa de las cuotas en dólares.
d. Calcule las estadísticas de forma e interprete.
e. Con las estadísticas de centralización, dispersión y forma obtenidas, haga un informe
describiendo completamente la distribución de las cuotas en dólares de la entidad bancaria.
f. ¿Qué cuotas en dólares es el percentil 75?

5. Un fabricante de objetos acrílicos tenía registrado los pesos de 120 objetos en


gramos, pero por un accidente se borraron algunos pesos y solo cuenta con la tabla
que se adjunta.
.

Punto Frecuencia Frecuencia Frecuencia Frecuencia


Intervalo Medio Absoluta porcentual Absoluta %
% Acumulada Acumulada
[ > 15.0
[6 , > 45.0
[ > 70.0
[ > 13,5
[ > 10.0
Total

a) Complete la tabla de distribución de frecuencias y describa la forma.


b) Calcule la media, mediana y moda de las cuotas en dólares. Interprete los resultados.

Mg. Fernando Camones Gonzales

Mg. Violeta Nolberto Sifuentes

15/04/2019
13

Das könnte Ihnen auch gefallen