Sie sind auf Seite 1von 165

Estadstica y Probabilidades

2015-1

ESTADSTICA DESCRIPTIVA

Estadstica Descriptiva e Inferencial. Manuel Crdova. (2003). 5ta ed.

Captulos: 1; 2 y 3

danielmavila@yahoo.es

RR 02640-R-2011

Rol de pruebas 2015-I


Fecha
Evento
Entrega del tema Grupal: 1 de abril
30-abr Prctica 1
Entrega fsica y remisin a campus
trabajo Grupal: 7 mayo
EAPII
Examen parcial
25-jun Prctica 2
EAPII
Examen final

Evaluacin del curso


Laboratorio (L): 60 % asistencia al Laboratorio e informes
de tareas ms 40% por el trabajo grupal (Excel y SPSS).
Ver ejemplo de informe de tareas.
Dos prcticas. No se elimina ninguna.
PP = (P1 + P2 + Bonificaciones) / 2
En las prcticas y exmenes se evaluar todo lo tratado en
el curso y solo se permitir el uso de frmulas y de tablas
de distribucin, adems toda respuesta debe estar
interpretada en funcin a los datos del problema. Faltas
ortogrficas

descontarn

puntos

pediorico, biene hacer, etctera).

aiga,

osea,

Promedio final = (L + PP + EX1 + EX2) / 4


En Campus_Virtual FII figuran prcticas y exmenes con
solucionarios de ciclos pasados.

Imagen popular de la estadstica:


"Existen medias mentiras, mentiras y estadsticas".
Dos significados:
(1) Coleccin de datos numricos (una estadstica).
Deuda nacional de EE. UU. US$14,56 billones (B),
equivalente a: darle a cada peruano US$500 000 o
pagar 4 850 meses (400 aos) las importaciones
peruanas totales.
Segn el Instituto de Investigacin Hurun en su
Informe de Riqueza Hurun 2011, China tiene 960 000
millonarios con un patrimonio personal de milln y
medio de $ o ms, sobre un total de 1 400 millones de
habitantes. Hay 60 000 billonarios. Compran artculos
de lujo.

(2) Ciencia: obtener regularidades de fenmenos de


masas (la estadstica).

Consumo de pan por persona al ao: 96 k en Chile, 28 k en el Per


Fuente: Publimetro, Ao 1Edicin 40, 17-10-2011, p2.)
Consumo per cpita anual de helados: 6,5 l en Chile. 1,4 l en el Per.
Consumo per cpita anual de caf orgnico en Per 550 g, en EE.UU.
ms de 6 k (Fuente: El Comercio, Suplemento Mi Empresa, 14-10-2012)
Las primas de seguro en el Per representan 1,5% del PBI. En Colombia
y Chile 2,5% y 4% de sus respectivos PBI.
Teletn 2013: En Per se recaud US$1,4 millones, en Chile US$65
millones (con mucho menos necesidades), Guatemala US$3,4 millones
(pas mucho ms pequeo que Per)
Sector farmacutico: Formato counter (40-80 m2); formato autoservicios
(81-120 m2)

Saturacin de centros comerciales?


Colombia: El consumidor cada vez quiere ms servicios en una misma
ubicacin. En este sentido, hay an espacio para crecer en Colombia, donde
por lo dems menos del 20% de las ventas de retail se hace en centros
comerciales versus un 50% de lo que sucede en pases ms desarrollados.
Al analizar la penetracin de centros comerciales en el pas, medida en
trminos de metros cuadrados por habitante, el nmero de metros
comerciales es inferior a pases como Chile y Argentina.
Per: Baja penetracin, 30% en Lima y tan solo 15% en provincias. En
Santiago de Chile y Sao Paulo (80%).
Un centro comercial es una construccin que consta de uno o varios
edificios, por lo general de gran tamao, que albergan locales y oficinas
comerciales aglutinados en un espacio determinado concentrando mayor
cantidad de clientes potenciales dentro del recinto. Formatos:

Fashion Mall, Community Center, Power Center, Town Center, Online,


LifeStyle Center, Strip Mall, Mall.

Curiosidades del cabello


- Nmero aproximado de cabellos en una cabeza: 130 000.
- Una persona pelirroja tendr unos 90 000 cabellos.
- Una persona con pelo negro o muy oscuro tendr cerca de 130 000
cabellos.
- Una persona con el pelo rubio puede llegar a tener hasta 150 000
cabellos.

- Peso mximo que puede soportar un cabello: unos 100 gr.


- Un cabello con problemas y quebradizo aguantara unos 30 gr de peso
antes de quebrarse.
- Dimetro medio del cabello: 70 micras.
- Dimetro de un cabello hmedo: 80 micras.
- Largo mximo (media) 60 cm.
- Cabello ms largo del que se tiene constancia: 125 cm.

- Juntando todos los cabellos uno detrs de otro cubriramos una


distancia de unos 20 km.
- Si juntramos todos los cabellos y suspendiramos de el un peso,
juntos podran soportar un peso de ms 7 tn.
- Un adulto puede llegar a tener en su cabeza ms de 4 millones de
folculos pilosos.

- El nmero de folculos pilosos alcanza su nmero mximo a los 20


aos, luego empieza a descender.
- Un adulto de 30 aos tiene ms de 450 folculos pilosos por cm2.
- El cabello crece 20 cm por ao, ms rpido en verano y en la noche
que en invierno o durante el da.
- Un cabello crece cerca de 1,5 cm cada mes.
- Un cabello crece medio mm diario.
- La vida media de un cabello es de 5 aos.
- Un adulto normal pierde unos 100 cabellos diarios.

- Se llama cabello lo que tenemos en la cabeza.

- Al del resto del cuerpo se le llama vello corporal.


- Las primeras referencias a un cabello teido se encuentran
dibujadas en grutas y cavernas, se usaba distintos barros para
camuflarse.
- El color del cabello depende de la melanina. La cantidad de
melanina en nuestro cuerpo viene determinada genticamente.
- Existen estudios que indican que las personas con mayor
coeficiente intelectual presentan porcentajes superiores al normal
de zinc y de cobre en el cabello.
-El cabello esta permanentemente creciendo.
- El cabello crece ms deprisa durante la noche.
- En el antiguo Egipto los sacerdotes se arrancaban cada cabello y
cada pelo, incluido cejas y pestaas.
-Fuente: http://www.color-es.net/color-y-salud/curiosidades-delcolor-del-cabello.html. Fecha de visita 13-3-2015

Si se compara el cabello europeo, asitico o africano, se observa que no


tienen las mismas propiedades biolgicas ni fsicas:
- Dimetro: los cabellos ms anchos son los chinos.
- Seccin transversal: circular para el asitico, elptica para el africano y oval
para el europeo.
- Forma: liso en Asia, muy ensortijado en el continente africano, con ondas
en la fibra.
- Resistencia a la rotura: los ms fuertes se encuentran en Asia y los ms
frgiles en frica.
- Suavidad y brillo son caractersticas ms comunes en el cabello europeo y
asitico.
- En biologa, es distinta la densidad de cabellos por centmetro cuadrado en
el cuero cabelludo; 226 para el cabello europeo, 175 para el asitico y 161
para el africano. La velocidad de crecimiento tambin vara: el cabello
africano crece ms despacio que el europeo, que a su vez crece ms despacio
que el asitico.
- Las propiedades fsicas y el comportamiento biolgico estn ntimamente
ligados, y todo ello est siendo estudiado por los cientficos de LOral para
desarrollar nuevos productos.

Definicin de Estadstica
La Estadstica es la ciencia de la
sistematizacin, recogida, ordenacin y presentacin
de los datos referentes a un fenmeno que presenta
variabilidad o incertidumbre para su estudio metdico,
con objeto de
deducir las leyes (Razonamiento deductivo: teora de
probabilidad) que rigen esos fenmenos.

y poder hacer previsiones sobre los mismos, tomar


decisiones u obtener conclusiones (Razonamiento
inductivo).

Estadstica Descriptiva
RECOLECCIN
DE LOS
DATOS

ANLISIS
DE LOS
DATOS

ANLISIS
DESCRIPTIVO

PRESENTACIN
DE LOS
DATOS

TABLAS,
GRFICOS

Experimento
Es un estudio en el que se manipulan
intencionalmente
una
o
ms
variables
independientes (supuestas causas - antecedentes),
para analizar las consecuencias que la
manipulacin tiene sobre una o ms variables
dependientes (supuestos efectos consecuentes),
dentro de una situacin de control para el
investigador.
Determina si la presencia / ausencia de una
variable afecta a otra. Determina la magnitud de la
influencia. Debe tener control sobre el efecto de
variables extraas.

NOTACIN CIENTFICA
Utilizando la notacin cientfica el nmero se
escribe como un producto de dos partes: un
nmero comprendido entre 1 y 10 y una potencia
de 10.
El nmero se representa con una cifra entera
seguido de todas las cifras significativas y
multiplicado por la potencia de 10. La potencia de
diez recibe el nombre de exponente.

NOTACION CIENTIFICA
El exponente positivo de la potencia de diez indica el
nmero de lugares que la coma decimal se debe mover
hacia la derecha si expresamos el nmero sin la potencia
de diez. Un exponente negativo indica que se mover
hacia la izquierda.
Ejemplo:
42581000000 equivale a _____________________ con 3 decimales
0,042581 equivale a _____________________

con 2 decimales

Notacin cientfica en excel

8.88887E+11
8.89E-01

Cifras significativas

Es cualquier dgito que denota la magnitud de la


cantidad, segn el lugar que ocupa en un nmero.
a) Cualquier dgito diferente de cero es significativo.
1234,56 6 cifras significativas
b) Ceros entre dgitos distintos de cero son
significativos.
1002,5 5 cifras significativas
c) Ceros a la izquierda del primer dgito distinto de
cero no son significativos.
000456 3 cifras significativas
0,0056 2 cifras significativas

Cifras significativas (...)

d) Si el nmero es mayor que uno (1), todos


los ceros a la derecha del punto decimal son
significativos.
457,12
400,00

5 cifras significativas
5 cifras significativas

e) Si el nmero es menor que uno, entonces


nicamente los ceros que estn al final del
nmero y entre los dgitos distintos de cero
son significativos.
0,01020 4 cifras significativas

Cifras significativas (...)


En los nmeros enteros, los ceros situados despus de un digito distinto de
cero, pueden ser o no cifras significativas.
Por ejemplo, 600 kg puede tener una cifra significativa (el nmero 6), tal vez
dos (60), o puede tener los tres (600).
Para saber en este caso cual es el nmero correcto de cifras significativas
necesitamos:
Ms datos o ms informacin acerca del procedimiento con que se obtuvo la
medida, por ejemplo la divisin de escala del instrumento de medicin.
O bien, podemos utilizar la notacin cientfica y expresarla as, por ejemplo:

6x 102 (teniendo solo una cifra significativa)


6,0 x102 (teniendo dos cifras significativas)
6,00x102 (teniendo tres cifras significativas)
Conclusin:
La cantidad de cifras significativas que se obtiene como resultado de una
medicin, es la cantidad de dgitos que se conocen con cierto grado de
confianza.
Si mejoramos la sensibilidad del equipo de medicin, aumentar la cantidad de
cifras significativas.

Cifras significativas (...)

Consideraciones para el redondeo

a) Si el primer dgito a truncar es mayor


que cinco, incrementar el dgito
precedente en 1.
Redondear 1,61562 a cinco cifras
significativas
Rpta: 1,6156

Cifras significativas (...)


Consideraciones para el redondeo
b) Si el primer dgito a truncar es cinco y hay
dgitos diferentes de cero despus del cinco,
incrementa el dgito precedente en 1.
Redondear 1,61562 a 3 cifras
significativas Rpta: 1,62
Redondear 1,62500003 a 3 cifras
significativas Rpta: 1,63
c) Si el primer dgito a truncar es cinco y hay
nicamente ceros despus del cinco, redondee
al nmero par.
Redondear 1,655000 a 3 cifras
significativas Rpta: 1,66
Redondear 1,625000 a 3 cifras
significativas Rpta: 1,62

Cifras significativas (...)

Significa que si 3,400103 lo


3 escribimos "normal"(sin notacin
3 400 = 3,40010
cientfica), la coma debe avanzar 3
lugares a la derecha, 3400.
0,00340 tiene dos cifras
significativas. El exponente negativo
0,00340 = 3,410-3
indica que se debe mover la coma
tres lugares a la izquierda.
120 000 000 puede tener 2;3 9
120 000 000 =
cifras significativas y si lo escribi1,2108
mos como 1,2108 tiene 2 c. s.

Cifras significativas (...)


Expresar las siguientes cantidades en notacin cientfica
con tres cifras significativas:

0,000059847 mg
203,6589 pulg
289 360 000 km
0,005474 mm

______________________
______________________
______________________
______________________

Poblacin y muestra

Poblacin (population) es el conjunto sobre el que estamos


interesados en obtener conclusiones (hacer inferencia).

Normalmente es demasiado grande para poder


abarcarlo. Tipos: Finita e Infinita.
Es la recoleccin de todos los individuos, objetos u
observaciones que poseen al menos una caracterstica
comn. Ejemplos:

Alumnos de la Facultad.
Clientes con tarjeta Bonus.
Pacientes que se atienden en un consultorio.
Departamentos construidos con el Programa Mi Vivienda

Muestra (sample) es un subconjunto de la poblacin


al que tenemos acceso y sobre el que realmente
hacemos las observaciones (mediciones)
Debera ser representativo
Est formado por miembros seleccionados de la
poblacin (individuos, unidades experimentales).
Tipos: Probabilstica y No Probabilstica

VARIABLES

Las variables son aquellas dimensiones o aspectos


del fenmeno en cuestin susceptibles de ser
indagadas a travs de los mtodos de investigacin
pertinentes.
Todas las variables tienen una escala de registro, es
decir, una caracterstica medible (Talla, peso,
coeficiente de inteligencia, etc.) o una cualidad que
es no medible (nacionalidad, sexo, etc). Las
variables se clasifican segn su naturaleza, el orden
de observacin, el nmero de variables, la escala de
medicin, amplitud de las unidades de medicin y su
relacin entre ellas.

Segn su naturaleza
Variable no mtrica, cualitativa, nominal o categrica
Se define cuando expresa una cualidad, caracterstica o atributo, tienen
carcter cualitativo, es decir, sus datos se expresan mediante una
palabra, como por ejemplo: Los colores, profesiones, causa de
accidentes, etc. Tambin se llaman estadsticas o de atributos.

Variable mtrica, cardinal o cuantitativa

Cuando el valor de la variable se expresa en una cantidad, y el dato o


valor puede ser producto de la operacin de contar o medir, por
ejemplo: Ingresos, nmero de hijos, produccin, desempleo, etc., a la
vez se subdividen en discretas y continuas.
1. Variable discreta
Cuando el valor de la variable resulta de la actividad de contar, su valor
esta representado por los nmeros naturales. Por ejemplo: trabajadores por
una empresa, hijos de una o varias familias, habitantes, etc.
2. Variable continua
Cuando la variable se puede medir o comparar con una unidad de medida.
Las caractersticas de estas variables tienen un valor dentro de un rango o
recorrido y son expresadas dentro de cualquier nmero real, como
ejemplo: Peso, estatura, tiempo de servicios, sueldos, etc.

Escalas de medicin

Conjunto de los posibles valores que una cierta


variable puede tomar.
Se tienen dos grandes tipos de escalas:
a) Escala de medidas de la informacin (nivel de
medidas) y
b) Escala de medidas de actitudes

Segn su forma de medicin


Escalas de medicin son una sucesin de medidas que permiten organizar datos en
orden jerrquico. Las escalas de medicin, pueden ser clasificadas de acuerdo a una
degradacin de las caractersticas de las variables. Estas escalas son: nominales,
ordinales, intervalares o racionales. Segn pasa de una escala a otra el atributo o la
cualidad aumenta. Las escalas de medicin ofrecen informacin sobre la clasificacin
de variables discretas o continuas, tambin ms conocidas como escalas grandes o
pequeas
1. Variables nominales (son cualitativas)
Se da esta variable por categoras, sin ningn orden entre ellas, se distribuye la
unidad de anlisis en dos o ms categoras, como por ejemplo, sexo, estado civil, lugar
de nacimiento, etc.
2. Variables ordinales (son cualitativas)
En estas variables si se requiere de orden en sus categoras, se refieren a
jerarquas, donde las categoras ofrecen una posicin de orden, pero no permiten

cuantificar la distancia entre una categora y otra, por ejemplo: ciclo acadmico.

EJEMPLO DE ESCALA NOMINAL

Si nos referimos a la bolsa de valores, tenemos que las acciones de las


empresas se pueden negociar en las bolsas NYSE, AMEX y OTC. Aqu
observamos que la escala de medicin para la variable bolsa es nominal
porque NYSE, AMEX y OTC, son las etiquetas que se utilizan para
identificar dnde se negocian las acciones de la compaa. Con el fin de
facilitar la coleccin de datos prepararlos para que sean capturados en
una base de datos de computadora, podramos usar una clave numrica
donde el nmero 1 denote la bolsa de NYSE, el 2 la AMEX y el 3 OTC
(ventanilla). En este caso, los valores numricos 1, 2 y 3 son las
etiquetas que sirven para identificar el lugar donde se negocian las
acciones. La escala de medicin es nominal aun cuando los datos son
mostrados como valores numricos.

EJEMPLO DE ESCALA ORDINAL

Save Our Souls S.A. enva a sus clientes un


cuestionario diseado para obtener datos acerca de la
calidad del servicio de reparacin automotriz. Cada
cliente asigna una evaluacin para el servicio de
reparacin: excelente, bueno o malo. Debido a que los
datos obtenidos son las etiquetas: excelente, bueno o
malo, los datos tienen las propiedades de datos
nominales. Adems, los datos se clasifican, u ordenan,
respecto a la calidad del servicio. Los datos registrados
como excelente indican el mejor servicio, seguidos por
los buenos y despus los malos. Por tanto, la escala de
medicin de la variable Calidad del servicio de SOS es
ordinal.

EJEMPLO DE ESCALA ORDINAL (...)

Observa que los datos ordinales tambin se


pueden registrar por medio de un cdigo
numrico. Por ejemplo, podramos usar el 1
para excelente, 2 para bueno y 3 para malo con
el fin de mantener las propiedades de los datos
ordinales. As, los datos para una escala ordinal
podran ser numricos o no numricos.

Segn su forma de medicin

3. Variables de intervalo (intervalar)


Son las que tienen a la vez orden y grados
de distancias iguales entre las diferentes
categoras, esto es convencional, pueden
asumir valores negativos, como por ejemplo
la temperatura, coeficiente de inteligencia,
etc.
4. Variables de razn (racionales)
Estas variables tienen orden, distancia y
origen nico y natural, el valor se expresa
en un nmero real, el cero significa
ausencia de la variable, como la edad, el
peso, nmero de hijos, etc.

EJEMPLO DE ESCALA DE INTERVALO

Las puntuaciones de la Prueba de Aptitud Escolar (SAT, por


sus siglas en ingls) son un ejemplo de datos con escala de
intervalo. Por ejemplo, tres estudiantes con puntuaciones SAT
de 1120, 1050 y 970 pueden ser clasificados u ordenados
desde el mejor desempeo al ms deficiente. Adems, las
diferencias entre las puntuaciones son importantes. Por
ejemplo, el estudiante 1 obtuvo 1120 1050 = 70 puntos ms
que el estudiante 2, en tanto que el estudiante 2 logr obtener
1050 970 = 80 puntos ms que el estudiante 3.

EJEMPLO DE ESCALA DE RAZN

Considera el costo de un automvil. Un valor cero


indicara que el automvil no cuesta y es gratis.
Adems, si comparamos el costo de US$3 000 para
un automvil con el costo de US$1 500 para un
segundo automvil, la propiedad de razn deja ver
que el primer automvil es 3000/1500 = 2 veces, o
el doble, el costo del segundo automvil.

Escala de medidas de actitudes


Actitud: predisposicin aprendida que dirige la reaccin ante un
objeto idea u organizacin de manera neutral, positiva o
negativa.
Se tienen los siguientes tipos:
Escalas no comparativas. Las personas entrevistadas puntan
el objeto o enunciado sin tener en cuenta otros, ni tampoco,
se establecen preferencias entre alternativas. Clases:
Escala de Likert llamada tambin escala de calificaciones
sumadas
Escala de diferencial semntico
Escala de Stapel
Etctera.

Escalamiento tipo Likert


Consiste en un conjunto de tems
presentados en forma de afirmaciones o
juicios, ante los cuales se pide la reaccin de
los sujetos. Es decir, se presenta cada
afirmacin y se pide al sujeto que externe su
reaccin eligiendo uno de los cinco puntos de
la escala. A cada punto de la escala se le
asigna un valor, de esa manera se podr
obtener una puntuacin total por sujeto,
sumando las puntuaciones obtenidas en la
relacin con todas las afirmaciones

Ejemplo:
Objeto de actitud medido: El voto
Afirmacin: Votar es una obligacin de
todo ciudadano responsable

Muy de acuerdo

De acuerdo

"Afirmacin"
Ni de acuerdo, ni en
En desacuerdo
desacuerdo

Muy en
desacuerdo

"Afirmacin"
Totalmente de
acuerdo

De acuerdo

Neutral

En desacuerdo

Totalmente en
desacuerdo

"Afirmacin"
Definitivamente Probablemente
si
si

Indeciso

Probablemente Definitivamente
no
no

"Afirmacin"
Completamente
verdadero

Verdadero

Ni falso, ni verdadero

Falso

Completamente
falso

Diferencial Semntico
Consiste en una serie de adjetivos extremos
que califican al objeto de actitud con un
conjunto de adjetivos bipolares; entre cada
par de adjetivos, se presentan varias opciones
y el sujeto selecciona aquella que en mayor
medida refleje su actitud.

Diferencial Semntico
Ejemplo:
Objeto de actitud: Candidato A
Justo__:__:__:__:__:__:__Injusto
Debe observarse que los adjetivos son
extremos y que entre ello hay siete
opciones de respuesta. Cada sujeto califica al
candidato A en trminos de esta escala de
adjetivos bipolares.

Escala de Stapel
Tcnica de autoinforme para la medicin de actitudes en que
se pide a los sujetos que indiquen el grado de exactitud con
que cada una de diversas afirmaciones describe al objeto
de inters. Ejemplo:
Seleccione un nmero positivo para palabras que en su
opinin, describa con precisin al objeto (por ejemplo
servicio administrativo de la Facultad). Cuanto ms
exacta piense que es la descripcin, tanto mayor ser el
nmero positivo que debe elegir. De igual modo,
seleccione un nmero negativo para las expresiones que
en su opinin no la describa exactamente.
-5
-4 +1
+5
El trato es corts.
El horario es conveniente.

Escala de medidas de actitudes

Escalas comparativas, se le pide al sujeto que


juzgue cada atributo en comparacin directa
con los dems que se evalan. Se tienen los
siguientes mtodos:
Escala de comparacin par
Escala de orden
Escala de suma constante
Etctera

Es buena idea codificar las


variables como nmeros para
poder procesarlas con facilidad en
un ordenador.
Es conveniente asignar
etiquetas a los valores de las
variables para recordar qu
significan los cdigos numricos.
Sexo (Cualit: Cdigos arbitrarios)
1 = Hombre
2 = Mujer

Raza (Cualit: Cdigos arbitrarios)


1 = Blanca
2 = Negra,...

Felicidad Ordinal: Respetar un


orden al codificar.
1 = Muy feliz
2 = Bastante feliz
3 = No demasiado feliz

Se pueden asignar cdigos a


respuestas especiales como
0 = No sabe
99 = No contesta...

Estas situaciones debern ser


tenidas en cuentas en el anlisis.
Datos perdidos (missing data)

Excel; SPSS; SAS, Minitab, Eviews, etc

Tabla de distribucin de frecuencia


Es la representacin estructurada, en forma de tabla, de
toda la informacin que se ha recogido sobre la variable
que se estudia.
Frecuencias absolutas: Contabilizan el nmero de individuos
de cada modalidad (clase o categora).
Frecuencias relativas (porcentajes unitarios): dem a
frecuencia absoluta, pero dividido por el total de datos (N).
Frecuencias acumuladas absolutas y relativas: Acumulan las
frecuencias absolutas y relativas. Son especialmente tiles
para calcular cuantiles.

Tabla de distribucin de frecuencias absolutas y relativas

La regin de
Arequipa convoc a
un referendo sobre la
aprobacin de la Ley
del Talin.
Completa la tabla de
distribucin de
frecuencias absolutas
y relativas asumiendo
los valores resultantes
que desees.

OPCIN

VOTOS Frecuencia
(000) relativa %
fi = ni/N
ni

SI

TOTAL (N)

1 200

REGLAS PARA ELABORAR DISTRIBUCIONES DE


FRECUENCIAEN INTERVALOS DE CLASES
IGUALES
1) Decidir el nmero de clases (m) a considerar:
m = N; m = 1+ 3,3 log N (Ley de Sturges); m = de 5 a 15
2) Determinar el recorrido o rango de los datos y la amplitud
() del recorrido.
3) Determinar la amplitud (c) o longitud de los intervalos de clase.

c
m
4) Determinar los lmites de cada clase i: Yi-1 (Lmite inferior de
la clase i) y Yi (Lmite superior de la clase i)
Yi = Yi-1 + c

REGLAS PARA ELABORAR DISTRIBUCIONES DE FRECUENCIA (...)

5)

Determinar las marcas de clase ()

6)

Hallar la frecuencias absolutas de clase (ni o fi)

7)

Hallar las frecuencias relativas (hi). Funcin de probabilidad

fi
hi
N
8)

Hallar las frecuencias relativas acumuladas crecientes o


menor que, (Hi). Funcin de distribucin de probabilidad.

i
Hi h j
j 1
9)

Hallar las frecuencias relativas acumuladas decrecientes o


mayor o igual que, ( H i* )

m
*
H h
i ji j

Ejemplo
El contenido de nicotina para producir cncer pulmonar, en miligramos, para una cajetilla de
40 cigarrillos marca TMata se registraron de la siguiente manera:
1.09

1.92

2.31

1.79

2.28

1.74

1.47

1.97

0.85

1.24

1.58

2.03

1.7

2.17

2.55

2.11

1.86

1.9

1.68

1.51

1.64

0.72

1.69

1.85

1.82

1.79

2.46

1.88

2.08

1.67

1.34

1.93

1.4

1.64

2.09

1.75

1.63

2.37

1.75

1.69

Construir la tabla de distribucin de frecuencias.


Propuesta de solucin:
1 paso: calculamos la longitud (L) o recorrido total (algunos autores recomiendan aadir la
unidad)
L = 2,55 0,72 = 1,83
2 paso: calculamos el nmero de intervalos (m)
m = 1 + 3,3 * log 40 = 6,28
Truncando m = 6 (otros autores recomiendan redondear a 7)
3 paso: calculamos la amplitud o anchura del intervalo (A).
A = 1,83/6 = 0,305

Ejemplo de la nicotina (...)

4 paso: elaboramos la tabla de distribucin de frecuencias. Completa la 5ta clase


Clase

fi

hi

hi%

Hi

Hi%

Hi*

Hi*%

[0.72-1.025>

0.05

5.0%

0.05

5.0%

100.0%

[1.025-1.33>

0.05

5.0%

0.1

10.0%

0.95

95.0%

[1.33-1.635>

0.15

15.0%

0.25

25.0%

0.9

90.0%

[1.635-1.94>

19

0.475

47.5%

0.725

72.5%

0.75

75.0%

[1.94-2.245>

[2.245-2.55]

Donde: [ ( o < ) incluye a

1
y > ( o [ ) no incluye a

i: Representa la marca de clase

0.125

Ejercicio. Un estudio de la empresa Oh Margot S. A.,


encontr las distancias que recorreran sus trabajadores
desde su respectivo hogar a su lugar de trabajo.

Nro de km recorridos casa-trabajo


A
5

B
6-10

C
11-15

D
16-20

E
21-30

F
31

a) Cul es la probabilidad que un trabajador seleccionado al


azar tenga que viajar 11 km o ms para ir al trabajo?
b) Cul es la probabilidad de que un trabajador elegido al
azar tenga que viajar entre 6 y15 km para ir al trabajo?

Tienen que ser todos los intervalos de clase


necesariamente del mismo ancho?
No, no siempre debe ser del mismo ancho, algunas
situaciones obligan a usar intervalos de distinto ancho. Por
ejemplo cuando se trata de variables como Salarios, a
menudo es conveniente usar ancho distinto, pues para
salarios bajos, pequeas diferencias son importantes, pero las
mismas no lo son para salarios altos. As por ejemplo para un
salario de S/.300; 30 unidades monetarias representa el 10%,
sin embargo para salarios de S/.6 000, esta diferencia deja de
ser importante. En este caso sera recomendable, usar
intervalos cortos al principio de la escala e ir aumentando su
tamao.

Clases de desigual tamao. Los intervalos de clase que son desiguales no son
frecuentes en el anlisis estadstico, la utilizacin de los mismos se debe evitar;
sin embargo, en algunas investigaciones es indispensable su utilizacin; tal es el
caso de las investigaciones que tienen como propsito particular analizar valores
que varan en un amplio recorrido de la variable. Cuando se utiliza este tipo de
clase de los intervalos de clase deberan ser incrementados de una forma
ordenada, de ser posible. Este tipo de clases se utiliza algunas veces para
reportar datos relacionados con valuaciones de activos o ingresos personales.
La siguiente TDF contiene los ingresos mensuales en US$ de los
futbolistas mejor pagados en el mundial.
Clase
Menos de 150,000
150,000 239,000
340,000 429,000
430,000 519,000
520,000 609,000
610,000 699,000
700,000 789,000
790,000 y ms
Total

Frecuencia
67
36
10
8
7
8
7
7
150

Marca de clase
?
194500
384500
474500
564500
654500
744500
?

Ejercicio

Una distribucin de frecuencia simtrica


presenta las siguientes caractersticas:

y n1 = 1

Yi = Marca de clase i

Elabora la tabla de distribucin de frecuencias


absolutas y relativas.
Respuesta: 9; 12 y 15

Grficos para variables


cualitativas
Diagramas de barras
Alturas proporcionales a
las frecuencias (abs. o rel.)
Se pueden aplicar tambin
a variables discretas

Diagramas de sectores
(tartas, polares)
El rea de cada sector es
proporcional a su frecuencia (abs. o rel.)

Grficos para variables cuantitativas


Histograma segn las frecuencias absolutas

10

60

70

80

90

100

110

120

130

S/.

Grficos para variables cualitativas


Pictogramas
Fciles de
entender.
Cada modalidad
debe ser
proporcional a la
frecuencia.
De los dos
pictogramas,
cul diras que es
incorrecto?

Grficos diferenciales para


variables numricas

419
400

375

Son diferentes en funcin de que las


variables sean discretas o continuas.
Valen con frec. absolutas o relativas.

Recuento

300

255
215
200

127
100

54
24

Diagramas barras para v.


discretas

23

17

7 Ocho o ms

Nme ro de hijos

Se deja un hueco entre barras para


indicar los valores que no son posibles

250

Histogramas para v. continuas


El rea que hay bajo el histograma
entre dos puntos cualesquiera indica la
cantidad (porcentaje o frecuencia) de
individuos en el intervalo.

Recuento

200

150

100

50

20

40

60

Edad del e ncue stado

80

Diagramas integrales
Cada uno de los anteriores diagramas tiene su correspondiente
diagrama integral. Se realizan a partir de las frecuencias acumuladas.
Indican, para cada valor de la variable, la cantidad (frecuencia) de
individuos que poseen un valor inferior o igual al mismo.

Diagrama de hojas y tallos (grfico de tallo


y hojas, histograma digital, Stem an Leaf).

Un diagrama donde
cada valor de datos es
dividido en una "hoja"
(normalmente el ltimo
dgito) y un "tallo" (los
otros dgitos). Por
ejemplo "32" sera
dividido en "3" (tallo) y
"2" (hoja).
Los valores del "tallo" se
escriben hacia abajo y
los valores "hoja" van a
la derecha (o izquierda)
del los valores tallo.
El "tallo" es usado para
agrupar los puntajes y
cada "hoja" indica los
puntajes individuales
dentro de cada grupo.

Grficos de tallos (o tronco) y hojas (de Tukey)


Un procedimiento semi-grfico de presentar la informacin para
variables cuantitativas, til cuando el nmero total es pequeo (menor
que 50), es el diagrama de tallo y hojas de Tukey. Los principios para
construirlo son:
a) Redondear los datos a dos o tres cifras significativas, expresndolas
en unidades de medidas convenientes.
b) Disponerlos en una tabla con dos columnas separadas por una lnea
como sigue:
1) Para datos con dos dgitos, escribir a la izquierda de la lnea los dgitos
de las decenas que forma el tallo y a la derecha las unidades, que
sern las hojas. Por ejemplo, 87 se escribe 87.
2) Para datos con tres dgitos el tallo estar formado por los dgitos de las
centenas y decenas, que se escribirn a la izquierda, separados de las
unidades. Por ejemplo, 127 ser 127.
Cada tallo define una clase, y se escribe solo una vez. El nmero de
hojas representa la frecuencia de dicha clase.

Ejemplo tallo - hojas


Elaborar un diagrama tallo - hojas para los siguientes valores
recogidos en cm, los cuales representan los dimetros de las
fresas utilizadas en una hidro fresadora:
11,357; 12,542; 11,384; 12,431; 14,212; 15,213; 13,300;
11,300; 17,206; 12,710; 13,455; 16,143; 12,162; 12,721;
13,420 y 14,698.
Propuesta de solucin:
a) Los datos redondeados, expresados en mm, son:
114; 125; 114; 124; 142; 152; 133; 113; 172; 127;
135; 161; 122; 127; 134; 147.

Ejemplo tallo hojas (...)

b) Diagrama de tallo y hoja para los datos expresados en mm:


11
443
12
54727
13
354
14
27
15
2
16
1
17
2
decenas unidades

Ejercicio. La empresa exportadora La Gran Fruta S.A., por


razones fitosanitarias, est experimentando un nuevo
insecticida para combatir a la mosca de la fruta. El
siguiente cuadro representa la vida en segundos de 50
Ceratitis capitata Wied . Construye el diagrama de
tallos y hojas.
17
12
16
13
7

20
14
18
7
10

10
6
8
18
5

9
9
13
7
14

23
13
3
10
15

13
6
32
4
10

12 19
7 10
9
7
27 19
9
6

18
13
10
16
7

24
7
11
8
15

Ejercicio. Reproduce los valores originales (cm) de la siguiente


tabla que representa el tamao de las truchas de una muestra de la
piscigranja KBuena Trucha.
Unidad = 0,01
41
42
43
44
45
46

22
668
1032
23
1
0

Ejemplo 412 representa 4,12

Parmetro y estadstico

Parmetro (Valores estadsticos de la poblacin): Es una cantidad numrica calculada


sobre una poblacin.
La altura media de los individuos de un pas.
La idea es resumir toda la informacin que hay en
la poblacin en unos pocos nmeros (parmetros).
Se simboliza por letras griegas. Solo hay un
parmetro en cada poblacin por cada cantidad a
resumir.
: Media poblacional (mu)
2 : Varianza poblacional (sigma cuadrado)
: Desviacin estndar poblacional (sigma)
: Proporcin poblacional (pi)

Parmetro y estadstico (...)


Estadstico (estimador, estadgrafo): dem al
anterior (cambiar poblacin por muestra).
La altura media de los que estamos en esta aula.
Somos una muestra (representativa?) de la
comunidad universitaria de la Facu?).

Si un estadstico se usa para aproximarse a un


parmetro, tambin se le suele llamar estimador
Existen tantos estimadores como muestras se
extraigan de una poblacin.
Se simbolizan por letras latinas:
x : Media muestral
s2 : Varianza muestral
s : Desviacin estndar muestral
Pi : Proporcin muestral

Ejercicios

Identifica la poblacin y la muestra en la siguiente


situacin: En la Facultad se quiere saber la ocupacin de
los egresados de la ltima dcada. Para esto se convoca a
una reunin de egresados y de los asistentes, se encuesta a
diez egresados de cada promocin. Determina la poblacin
y la muestra.
Justifica por qu la siguiente situacin es una cualitativa
ordinal: Una fbrica de galletas saca una nueva marca al
mercado en presentaciones de diferentes sabores. Para
comercializarlas se ofrecen degustaciones de ellas a un
grupo de personas, quienes luego de degustarlas deben
clasificar en muy buenas, buenas, regulares y malas.
http://es.scribd.com/doc/60993130/variables-poblacionmuestra-ejercicios

Estadsticos de forma intuitiva

Medidas de posicin
Se define el cuantil (fractil) de orden k como un valor de la
variable por debajo del cual se encuentra una frecuencia
acumulada determinada.
Casos particulares de los cuantiles son los: percentiles
(centiles), cuartiles, deciles, quintiles, etctera.
Mtodos para calcular percentiles: Haverage, Waverage, Round
y Empirical y Aempirical

Un cuantil o porcentil de X%, Pa% es aquel valor tal que un


X% de los datos es menor a l y un (1 - X)% de ellos es
mayor a l.
Y1,Y2,..............Yq,Yq+1,..Yr,.......Yk-1,Yk ,.... Yl ,.... Ym .............
,
Yn-1,Yn
Primer cuartil: P25%
25%

25%

35% Segundo cuartil: P


50%
(mediana)
50%
67%

75%

Tercer cuartil: P75%

25%
P95%
5%

Percentil: Son valores que dividen una muestra ordenada en


forma ascendente (o descendente) en 100 partes iguales. El
percentil es el valor que ocupa la posicin { I(N) / 100 }
La mediana es el percentil 50.
El percentil de orden 15 deja por debajo al 15% de las
observaciones. Por encima queda el 85%.
Cuartil: En un conjunto de N observaciones ordenadas de
menor a mayor, el primer cuartil es la observacin que ocupa
la posicin { (N + 1) / 4} y el tercer cuartil es la observacin
que ocupa la posicin { 3(N + 1) / 4}. El segundo cuartil (la
mediana) es la observacin que ocupa la { (N + 1) / 2}
posicin.
Cuando (N + 1) no es mltiplo de 4, los cuartiles se calculan
por interpolacin. Supongamos que N = 12 entonces (N + 1) /4
= 3,25 por lo tanto se toma como primer cuartil el nmero que
est a un cuarto del camino entre la tercera y la cuarta
observacin.

La diferencia entre el tercer y el primer cuartil nos da una


medida de la dispersin que se conoce con el nombre de rango
intercuartilico.
Primer cuartil = Percentil 25 = Cuantil 0,25.
Segundo cuartil = Percentil 50 = Cuantil 0,5 = Mediana.
Tercer cuartil = Percentil 75 = Cuantil 0,75.
El SPSS calcula las bisagras de Tukey, que define los
cuartiles de la distribucin segn una transformacin realizada
por Tukey. La primera bisagra (similar al percentil 25) es el
valor que ocupa la posicin intermedia entre la mediana y el
valor ms pequeo de la distribucin; la segunda bisagra es la
mediana; la tercera bisagra es el valor que ocupa la posicin
intermedia entre la mediana y el valor ms grande de la
distribucin.

Ejercicios:
1) En un lote de bolsas de cemento Portland Tipo I Ecolgico
(aproximadamente 42,5 kg) almacenados en la Distribuidora Nemesia
Tchevishef EIRL. Qu percentil es superado solo por el 25% de las
bolsas de mayor peso?
Percentil ________.
2) El colesterol se distribuye simtricamente en la poblacin. Se
considera patolgico los valores extremos. El 90% de los individuos
son normales.
a) Entre qu percentiles se encuentran los individuos normales?
Entre el percentil ______ y el percentil _______.
b) Entre qu cuartiles y percentiles se encuentra la mitad de los
individuos ms normales de una poblacin?
Entre el cuartil _______ y el cuartil _______.
Entre el percentil _____ y el percentil __________

Ejercicios: (...)

3) Se ha calculado el percentil 85 sobre las estadsticas de siniestralidad laboral


en el Sector Construccin durante el ltimo ao (N accidentes / ao). Y se ha
obtenido el valor 2,5. Indica el significado de este dato.
4) El gobierno solo quiere financiar al primer y segundo quintil, pero lo que
nosotros sostenemos es que la clases media est tambin dentro de los sectores
ms vulnerables. Nuestra propuesta es avanzar para los 7 primeros deciles e ir
avanzando hacia la gratuidad total
(Camila Vallejo, lideresa de la protesta de los estudiantes chilenos. Diario El
Comercio del 14-8-2011. Internacional, p. 10.)

Percentiles para datos agrupados

Clculo para datos agrupados:

P
K

L
i

K * n F 1

100
i

f
P

Percentiles para datos agrupados (...)


donde:
P : percentil
K
K : el percentil buscado

n : nmero de datos
Li : frontera de clase (Semisuma de lmite inferior
clase i y lmite superior clase i+1

Fi : frecuencia acumulativa hasta la clase


anterior a la clase donde se ubica el percentil K
f

P : frecuencia absoluta de la clase donde se ubica


K
el percentil K

: amplitud de clase

Ejemplo:
La tabla muestra la experiencia en aos de los
peones de la constructora A Lo Techo Pecho.
Experiencia
(aos)

Peones

0-3
4-7
8 - 11
12 - 15
16 - 19
20 - 23
24 - 27
Total

18
42
68
120
40
34
12
334

Ejemplo (...). Sobre cuntos aos se ubica el 25% de


las peones de mayor experiencia?
K = 75
75 %

Menor
Experiencia

Lugar del P75

25 %

P75

Mayor
Experiencia

Kn 75( 334)

250,5avo (de los aos ordenados )


100
100

Para saber en cul clase se halla este dato, se


calcula la frecuencia acumulada.

Experiencia
(aos)
0-3
4-7
8 - 11
12 - 15
16 - 19
20 - 23
24 - 27

N peones
fi
18
42
68
120
40
34
12
334

Frec. Acumulada
Fi
18
60
128
248
288
322
334

F=248
En esta clase
se localizan del
249avo 288avo

75 * (334) 248 1
100
*4
P
15.5

75
40

P 15,65 aos de experiencia


75

Interpretacin: Para que un pen est comprendido


dentro del 25% de mayor experiencia laboral debe
tener al menos 15 aos, 7 meses y 24 das de
experiencia.

Diagrama de Caja
Es un grfico de caja es muy til para
representar diferencias entre grupos as como
mostrar los valores atpicos (discordantes, raros,
outliers, aislados). Permite analizar y resumir un
conjunto de datos univariante dado.
Para elaborar el diagrama solo se necesitan
cinco valores estadsticos: el valor mnimo, Q1
(primer cuartil); la mediana (Q2, segundo
cuartil); Q3 (tercer cuartil) y el valor mximo.
La principal desventaja es que no presenta
ninguna informacin de las frecuencias de los
datos.

Diagrama de Caja

Aparecen
valores
extremos

Poca
dispersin

Mucha
dispersin

Valor atpico (Outliers)


Un valor atpico es una observacin que es numricamente
distante del resto de los datos. Las estadsticas derivadas de
los conjuntos de datos que incluyen valores atpicos sern
frecuentemente engaosas. Por ejemplo, en el clculo de la
temperatura media de 10 objetos en una habitacin, si la
mayora tienen entre 20 y 25 C, pero hay un horno a 350 C,
la mediana de los datos puede ser 23, pero la temperatura
media ser 55. En este caso, la mediana refleja mejor la
temperatura de la muestra al azar de un objeto que la media.
Los valores atpicos pueden ser indicativos de datos que
pertenecen a una poblacin diferente del resto de la muestra
establecida.
Tomando como referencia la diferencia entre el primer cuartil
(Q1) y el tercer cuartil Q3, o valor intercuartil, en un
diagrama de caja se considera un valor atpico el que se
encuentra 1,5 veces esa distancia de uno de esos cuartiles
(atpico leve) o a 3 veces esa distancia (atpico extremo).
Bisagras de Tukey.

Valor atpico leve

Siendo Q1 y Q3 el primer y tercer cuartil, y


IQR el rango intercuartil (Q3 Q1), un
valor atpico leve ser aquel que:
X < Q1 1,5 IQR

o
X > Q3 + 1,5 IQR

Q1 y Q3 determinan, pues, los llamados


limites interiores, a partir de los cuales la
observacin se considera un atpico leve.

Valor atpico extremo

Los atpicos extremos son observaciones ms


all de los lmites externos:
X < Q1 3 IQR

o
X > Q3 + 3 IQR

Deteccin univariante de casos atpicos


Uno de los procedimientos ms extendidos es considerar
atpicos los casos cuyo valor estandarizado (Zi) supere un
umbral determinado. Ser dato atpico si:

z ks

K = 2,5 para muestras pequeas (menos de 80 casos)


K = 3 o 4 para muestras mayores
Otros mtodos para detectar valores atpicos son: Diagrama
de control, Diferencia entre los estadsticos robustos de la
variable y sus estadsticos no robustos, test de Dixon, test
de Grubs, etc.

(Box-and-Whisker plot)
Presin atmosfrica en 61 puntos de la Costa Nostra
105
125
138
148
153

110
126
138
148
153

158

160

168

168

112
127
138
148
154
160
170

112
128
138
149
154
160
172

118
130
141
150
154
163
172

119
132
142
150
154
164
176

120
133
144
150
155
164
179

120
134
145
151
156
165

120
135
146
151
156
166

Un resumen de esta serie en 5 valores


Min = 105 ; Max =179; Q1 = 132,5 ; Q3 = 158,5 ; Q2 = Md = 149
IQR = Q3 - Q1
Recorrido intercuartlico
Min

Max

Q1

Md

132,5

149

(Mediana de los datos superiores)

105

Q3 (Mediana de los datos superiores)

158,5

179

Diagrama de Caja
Ejemplo. La empresa periodstica La Hora de la Beldad SA tiene
las siguientes ventas de sus revistas, elabora el diagrama de caja.

Ventas en unidades fsicas


Producto

Mes 1

Mes 2

Mes 3

100

400

800

200

300

750

300

200

600

400

100

550

Solucin
1000

800

600

400

200

0
N=

Producto A

Producto B

Producto C

Producto D

Ejercicio

Qu porcentaje de los datos est


representado por la caja?
Qu porcentaje representa cada uno de los
bigotes?
Puede ser un bigote ms largo que otro?.
Cul es el significado?
Se encuentra la mediana siempre en el
centro de la caja?

Medidas de centralizacin
Aaden unos cuantos casos particulares a las medidas de
posicin. Son medidas que buscan posiciones (valores) con
respecto a los que los datos muestran tendencia a agruparse.
Si se calcula la media armnica (H), la media geomtrica
(G) y la media aritmtica (X), para los mismos datos se tiene
que: H < G < X
Se dice que un estadstico es resistente (robusto) cuando ste no se
ve afectado por la presencia de valores muy alejados del resto de
la distribucin, por ejemplo los frctiles, mediana, M-estimadores
(estimadores basados en el mtodo de mxima verosimilitud. Se
tienen los siguientes de Hubert, de Tukey, de Andrews, de
Hampel, los cuales difieren entre s por los pesos que asignan a
los casos. El SPSS los calcula en el procedimiento EXPLORAR).
No es un estadstico resistente la media aritmtica, como
alternativa existe la media truncada (media recortada, media
podada, trimmed mean) en la que se elimina un % de la cola
inferior y superior de la distribucin o la media winsorizada
sustituye ese % de valores por valores del centro de la
distribucin.

Medidas de centralizacin (...)

Media (mean). . (H, eta). Es la media


aritmtica (promedio) de los valores de una
variable. Suma de los valores dividido por el
tamao poblacional o muestral. Litros por
persona, Tercio superior, etc.
Media de {2; 2; 3; 7} es ( 2 + 2 + 3 + 7) / 4 =
3,5
Conveniente cuando los datos se concentran
simtricamente con respecto a ese valor. Muy
sensible a valores extremos.
Centro de gravedad de los datos.

Propiedades de la media aritmtica


-La suma de diferencias (de todos los valores)
respecto a la media es siempre 0.
-Si sumamos una constante a cada uno de los
valores, la nueva media aritmtica resultante ser la
original ms la constante.
-Si multiplicamos cada uno de los valores por una
constante, la nueva media aritmtica ser la original
por la constante.
-Minimiza la suma de diferencias en trminos
cuadrticos.

Clculo de la media a partir de datos agrupados

El clculo de la media aritmtica, cuando los datos


disponibles se encuentran en tablas de distribucin de
frecuencias, se realiza utilizando la frmula siguiente:

x
donde:

i 1

fi Xi

i 1

fi

: media muestral
x : frecuencia absoluta de la clase i
f i : marca de la clase i
Xi

Ejercicio. A continuacin se tienen las dos distribuciones por sexo y


edad de los desocupados en el distrito de Chongos Bajos (marzo
2014). La PEA est comprendida entre 16 a 65 aos.

Grupos de edad

Hombres

Mujeres

Frecuencia

Frecuencia

< 20 aos

17 654

20 902

20 24 aos

10 943

34 448

25 29 aos

9 322

26 834

30 44 aos

11 106

52 854

> 44 aos

14 216

41 274

Fuente: INEI
1) Qu poblacin (la de hombres o la de mujeres) presenta una edad
media mayor?
2) Cul est ms envejecida en trminos medios?

Medidas de centralizacin

Propiedades de la mediana
-No utiliza todos los elementos
-Se puede calcular con datos ordinales
-Se ve menos afectada por datos atpicos que la media aritmtica.
-Minimiza la suma de diferencias en valor absoluto (recordar que
la media aritmtica minimizaba la suma de diferencias en trminos cuadrticos)

Ejercicio. Los nueve empleados de la empresa constructora


Esteban Dido viven al lado de la Av. Universitaria (Comas) en
diferentes kilmetros, tal como se muestra en el siguiente grfico:
3

Km 1

5 6

Nm. Emp.

1
26

Dado que cada uno de los nueve trabajadores viaja en su propio


automvil, y si quieres minimizar el coste en gasolina, en qu
lugar pondras la empresa para minimizar tal coste?

Media versus Mediana


Ambas sirven para estimar el valor o tamao medio de una variable,

que debe entenderse como el valor esperable o normal.


Si la distribucin es normal, media y mediana coinciden.
Si hay discrepancia entre ambas, es preferible la mediana.

La razn es que la mediana es robusta, es decir, poco sensible a datos


atpicos. La media, en cambio, es muy sensible.

En particular, en ausencia de normalidad son relevantes los contrastes no


sobre la media, sino sobre la mediana

Cul elegir?

Moda
Media
Mediana

Ejercicio.
Se
han
analizado
los
promedios
promocionales de la asignatura Estadstica y
Probabilidad, y se ha obtenido lo siguiente: la nota
modal de la Seccin A es 15, la nota media 12,8 y la
mediana 13,5;en la Seccin B la nota modal es 11, la
nota media 14 y la mediana 13,5. Se pide:
a) Bosquejar una curva que represente la informacin
dada para cada seccin.
b) Sera posible que en la Seccin A, ms de la mitad
de los estudiantes obtenga ms que la nota media?
c) Sera posible que en la Seccin B, ms de la mitad
de los estudiantes obtenga menos que la nota
media?

Resistencia y robustez
Estadsticos resistentes: Son aquellos que no se ven
influidos (o solo ligeramente) por pequeos cambios en los
datos.

Evidentemente, la media es un estadstico muy poco


resistente a cambios en los datos, dado que se ve influida
por todos y cada uno de ellos.
La mediana, en cambio, es un estadstico altamente
resistente.

Estadsticos (Estimadores) robustos: Son


aquellos
estadsticos
(estimadores)
que
funcionan bien para varios tipos distintos de
distribuciones tericas, aunque pueden no ser el
mejor estimador para ningn tipo concreto de
distribucin. Es decir, son el mejor
compromiso.

La media no es un estimador robusto.


La mediana es un estimador ms robusto que la
media, si bien hay otros estimadores ms
robustos que veremos en el punto siguiente del
temario.

Medidas robustas de tendencia central


1. Medias Recortadas
Consiste en calcular la media aritmtica sobre un subconjunto central
del conjunto de datos, no considerndose una determinada proporcin p
por cada extremo. (p se expresa normalmente como porcentaje).

Por ejemplo, una media recortada al 40% en una secuencia de 10 datos


implica no tener en cuenta ni los cuatro valores menores ni los cuatro
valores mayores.

Observa que la media recortada al 0% es la media aritmtica.

A la media recortada al 25% se la denomina centrimedia.

Medidas robustas de tendencia central

1. Medias Recortadas (cont)


Calcula la media recortada al 5% de los siguientes datos:
3, 4, 4, 5, 5, 6, 7, 8, 9, 11

El valor debe ser 6.11

Calcula la media recortada al 10% de los datos anteriores (da 6)

Calcula la centrimedia (da 5.8)

Medidas robustas de tendencia central


2. Media Winsorizada
Es anlogo a las medias recortadas excepto en que las puntuaciones
eliminadas, ya no lo son sino que se sustituyen por los valores menor y
mayor que quedan para el cmputo de la media winsorizada.
As, en la media recortada a nivel 2 implicara eliminar las dos
puntuaciones mayores y las 2 menores:

3, 4, 4, 5, 5, 6, 7, 8, 9, 11
Y quedan los datos: 4, 5, 5, 6, 7, 8 y se calcula la media de los mismos

En la media winsorizada, los datos 3 y 4 (los dos menores) y el 9 y 11


(los dos mayores) se sustituyen por 4 y 8 respectivamente. Es decir,
4, 4, 4, 5, 5, 6, 7, 8, 8, 8 y se calcula la media de los mismos, que ser la
media winsorizada a nivel 2 (debe de dar 5.9)

Medidas robustas de tendencia central


3. Otros tipos de media en la que se recortan datos
En muchas ocasiones lo que se hace es emplear un valor mnimo y uno
mximo ms all del cual se eliminan los datos que sobrepasen tales
valores.

Por ejemplo, en experimentos de tiempo de reaccin para discriminar


palabras/pseudopalabras se pueden eliminar datos menores de 200
palabras y mayores de 1 500 palabras. (Menos de 200 ps. es demasiado
rpido; ms de 1 500 ps. es demasiado lento.)
De esta manera, si todos los datos estn en el rango 200-1500 ps. no se
elimina ningn dato

Medidas robustas de tendencia central


4. Trimedia
Es un ndice de tendencia central que consiste en calcular una media
aritmtica ponderada de tres medidas, la Mediana (con peso doble) y el
primer y tercer cuartil.

Pensemos que en un conjunto de datos, el primer cuartil es 51, la


mediana es 55 y el tercer cuartil es 63. La trimedia es:

Medidas robustas de tendencia central


5. Otras medidas robustas

El estimador-M de Huber, el estimador biponderado de Tukey, el


estimador M-redescendente de Hampel y el estimador en onda de
Andrew. Estos estimadores se diferencian entre s por el tipo de
ponderacin aplicada sobre los datos.
Por ejemplo, en el Estimador-M de Huber (Estimador M de
posicin): Las puntuaciones tpicas que sean menores que una
constante, reciben un peso de uno. Los casos que tienen los
mayores valores absolutos tienen pesos tanto ms pequeos
cuanto mayor es su distancia respecto a cero. La constante es
1,339.
El clculo se obtiene con el SPSS, por ejemplo.

Clculo de la moda para datos agrupados


1) Determina la clase que contiene la Moda

Fr
sesClases
Xi
fXi F f frF Frfr
Li 375
345330-345
337 3337 33 0,093 0,09
0,09 0,09
Realiza
la interpolacin
360345-360
352 3352 632)0,09
6 0,18
0,09
0,18 para hallar el valor de la Mo
375360-375
367 4367 10
10 0,29
0,11 0,29
4 0,11
1
Mo Li
h
390375-390
382 12382 22
0,34
0,63
12
22
0,34
0,63
1
1 2
7 0,20
405390-405
397 7397 29
29 0,83
0,20 0,83
2 4 0,11
420405-420
412 4412 33
33=0,94
0,11
0,94

12

4
=8
2 = 12 7 = 5
1
435420-435
427 2427 352 0,06
35 1,00
0,06 1,00
ALTOTAL 35
35 1,00 1,00

8
Mo 375
15 384.23
85
Extensin del intervalo h = 390 - 375

Ejemplo para datos agrupados


Peso

M. Clase

Fr.

Fr. ac.

40 50

45

50 60

55

10

15

60 70

65

21

36

70 - 80

75

11

47

80 - 90

85

52

90 - 100

95

55

100 130

115

58

xn

x
i

i i

45 5 55 10 115 3
69,3
58

0,5 58 N i 1
( Li Li 1 )
ni

0,5 58 15
60
(70 60) 66,6
21
Mediana C0,5 Li 1

58

P75 C0,75 Li 1

0,75 58 N i 1
43,5 36
( Li Li 1 ) 70
(80 70) 76,8
ni
11

Moda = marca de clase de (60,70] = 65

Media geomtrica

( xg )

Se utiliza para calcular tasas medias de variacin, como la tasa


media de crecimiento poblacional, la tasa media de inflacin
mensual, la tasa media de mortalidad, entre otros.
Es til para encontrar el promedio de porcentajes, razones,
ndices o tasas de crecimiento.
La media geomtrica es ms aconsejable que la aritmtica para
promedio de razones. (Las razones son recprocas)
La xg siempre ser menor que o igual a (nunca mayor que) la
media aritmtica. Cuando quiere darse importancia a valores
pequeos de la variable, es aconsejable la media geomtrica.
Ejemplo. Para llevar un registro del valor del dlar USA, se
crea un ndice de referencia (base 100) denominado "DollarIndex" cuyo valor est en funcin de un promedio geomtrico
de las monedas de los seis (6) principales socios comerciales de
EE.UU.

Media geomtrica ( xg )
a) Obtencin Se obtiene extrayendo la raz ensima
del producto de los n valores de una serie.

xg n X1 * X 2 * X 3 * ...X n

Ejemplo:
La siguiente tabla muestra la tasa de aumento en los precios
de los bienes y servicios (inflacin) transados en el Distrito
de Acar durante los meses indicados. Calcula e interpreta la
tasa media mensual de la inflacin.
Meses
Aumento de
precios

Enero

Febrero

Marzo

Abril

Mayo

2.6%

5.4%

3.8%

0.5%

1.4%

La tasa 2,6% del mes de enero tambin se puede


expresar como 0,026 , y puesto que se refiere a un
aumento a partir de una base de 100%, el factor de
variacin Dic. a Ene. ser 1,026. Para los otros datos se
opera de igual manera.

Ejemplo (...)
b) Clculos

xg

n (1

x 1 ) * (1 x 2.) * ...(1 xn )

x g 5 (1.026) (1.054) (1.038) (1.005)(1.014)


x g 1,0272540 (Factor de crecimiento medio)
Tasa media
= (x g 1) 100
de variacin
= (1,0272540 - 1) x 100 = 2,72%

Ejemplo (...)

c) Interpretacin

Si se selecciona al azar un mes comprendido


entre enero y mayo, se espera que los precios
en promedio se hayan incrementado en 2,72%
con respecto al mes anterior.

Media geomtrica (...)

Otro uso de la media geomtrica es determinar


el porcentaje promedio del incremento en ventas,
produccin u otros negocios o series
econmicas de un periodo a otro. La frmula es:

MG n (vn ) / (v1 ) 1
Donde:
Vn = Valor en el periodo n (final)
V1 = Valor en el periodo 1 (inicial)
n = Nmero de periodos

Ejemplo: El nmero total de mujeres


matriculadas en el sistema universitario
aument de 755 000 el 31-12-04 a 835 000 el
31-12-13. Cul es la tasa de crecimiento
promedio anual? Rpta. 1,125%.

Media armnica (

xh)

Se usa cuando los datos estn en progresin armnica (Cuando sus


recprocos estn en progresin aritmtica)
Se emplea la media armnica para obtener un valor representativo de
un conjunto de datos expresados en forma de tasas o proporciones, por
ejemplo velocidad y aceleracin media, el tiempo medio para realizar
el ensamblaje de motos Honda (12 minutos aproximadamente).
Permite obtener promedios de valores que estn en relacin inversa
como la velocidad y el tiempo.
En general se utilizan para obtener promedios de un conjunto de
valores expresados en forma de tasas de unidades de un tipo por
unidades de otro tipo.

a) Se obtiene calculando el inverso de la media aritmtica de los


inversos de una serie.

xh

X
i 1

Ejemplo:
Los siguientes datos registran el tiempo que utilizan
cuatro mdicos al realizar una operacin al ploro.
Calcula e interpreta el tiempo medio.
Mdico
Tiempo
(minutos)

45

38

52

40

Conocer el tiempo medio permite contar con una


herramienta til en la planeacin de los recursos,
como por ejemplo la productividad del trabajador.
Adems de poder comparar el desempeo con los
estndares de calidad internacionales.

xh
xh

4
1
1
1
1

45 38 52 40

43.117953 minutos

xh 43 minutos 7 segundos/operacin
b) Interpretacin:
Si se selecciona al azar a uno de los cuatro
mdicos, se espera que realice este tipo de ciruga
en 43 minutos aproximadamente.

Ejemplo. Encuentra la duracin media de una hoja de


afeitar contando con los resultados de una encuesta
entre cinco personas sobre la duracin media de una
hoja de afeitar y que arroj los siguientes resultados:
Persona Duracin Media (das)

10

14

30

Cont. Si se hubiera calculado por la media


aritmtica, el resultado hubiera sido de: (10 + 5 + 14
+ 30 + 6) /5 = 13 das, lo cual es errneo pues:
A Consumo anual

36,5

(365/10)

"

73,0

(365/ 5)

"

26,07

(365/14)

"

12,17

(365/30)

"

60,83

(365/ 6)

Total

208,57

El consumo es: 208,57/5 = 41,71 hojas/persona,


cuya duracin media es de 365/41,71 = 8,75 das,
resultado que se obtuvo al aplicar la media armnica

Asimetra, sesgo, Sknewness


Una distribucin es simtrica si la
mitad izquierda de su distribucin es
la imagen especular de su mitad
derecha.
En las distribuciones simtricas
media y mediana coinciden. Si solo
hay una moda tambin coincide.
La asimetra es positiva (o a la
derecha) o negativa (o a la
izquierda) en funcin de a qu lado
se encuentra la cola de la
distribucin.
La media tiende a desplazarse hacia
las valores extremos (colas).
Las discrepancias entre las medidas
de centralizacin son indicacin de
asimetra.

Simetra

Media

Media

- Normalidad implica simetra; sin embargo, simetra no implica


necesariamente normalidad.
- Se mide con el coeficiente de asimetra (debe estar entre -2 y 2).
- Si hay simetra, media y mediana coinciden.

1. ndice (Coeficiente) de asimetra segn Karl Pearson


Est basado en la relacin entre la media y la moda en
distribuciones simtricas y asimtricas:

X Mo
As
sx

Media:

Moda:
Mediana:
Desviacin estndar:

Nota: Constituyen el primer y segundo coeficiente de asimetra de Pearson


respectivamente

Apuntamiento, curtosis, kurtosis, concentracin central


Las curvas simtricas se caracterizan por su curtosis. La curtosis, grado
de agudeza, apicamiento, indica el grado de apuntamiento
(aplastamiento) de una distribucin simtrica con respecto a la
distribucin normal o gaussiana (distribucin campaniforme y simtrica).
Es adimensional.

Platicrtica: curtosis < 0 (menos apuntada que la normal)


Mesocrtica: curtosis = 0 (igual que la normal)
Leptocrtica: curtosis > 0 (mas apuntada que la normal)
Los siguientes grficos poseen la misma y 2 , pero diferente grado de
apuntamiento.
400

300

160

140

300
200

120

200
100

100

60

40

0
27

45 48 51 54 57 60 63 66 69 72 75 78 81 84

Platicrtica

100

Frecuencia

Frecuencia

80

37
32

45
41

Mesocrtica

53
49

61
57

69
65

77
73

85
81

0
3

93
89

99

27
16

37
32

47
42

Leptocrtica

57
52

67
62

77
72

87
82

97
92

108

102 138

Curtosis

ndice de curtosis de Fisher, coeficiente de exceso de curtosis


Para una distribucin normal (mesocrtica) se sabe que:
n

4
(
X

X
)
n
i
i 1

4
x

Y esta ser la referencia para el ndice de curtosis:


n

C r

4
(
X

X
)
n
i
i 1

4
x

Medidas de dispersin (variabilidad, spread)

Miden el grado de dispersin (variabilidad) de los datos,


independientemente de su causa. Ejemplo:

Un conjunto de tomos de una sustancia con una


media de velocidades 0, no cabe concluir que los
miembros del sistema estn quietos.
Ello implicara que la substancia se encontrara
cerca del cero absoluto. Con una media de 0
podemos tener desde un slido cristalizado hasta un
gas muy caliente.
La variable que determinar en qu estado de
agitacin trmica se encuentran los tomos del
sistema ser la dispersin de velocidades.

Medidas de dispersin (variabilidad)

Amplitud o Rango (range):


Diferencia entre las
observaciones extremas.
2; 1; 4; 3; 8; 4. El rango es 8 1 = 7
Es muy sensible a los valores
extremos.

Rango intercuartlico (interquartile range):


Es la distancia entre el primer y tercer cuartil.
Rango intercuartlico = P75 - P25
Parecida al rango, pero eliminando las observaciones ms
extremas inferiores y superiores.
No es tan sensible a valores extremos.

VARIANZA Y DESVIACIN ESTNDAR PARA UNA POBLACIN

Varianza 2, desvo medio cuadrtico, variance: Mide el


promedio de las desviaciones (al cuadrado) de las observaciones con respecto a la media.

1
( x )
n
2

x
i

2
i

Es sensible a valores extremos (alejados de la media).


Sus unidades son el cuadrado de las de la variable.
Desviacin tpica, desvo estndar, error estndar, dispersin
absoluta (standard deviation).
Es la raz cuadrada de la varianza. Tiene las misma dimensionalidad
(unidades) que la variable.

VARIANZA PARA UNA MUESTRA

1
S ( x x)
n
2

Esta expresin de clculo de la varianza muestral no se utiliza


mucho pues sus valores tienden a ser menores que el de la
autntica varianza de la variable (debido a que la propia
media muestral tiene una varianza que vale un ensimo de la
de las observaciones) Para compensar esta deficiencia y
obtener valores que no subestimen la varianza poblacional
(cuando estamos interesados en ella y no en la varianza
muestral) utilizaremos una expresin, esencialmente igual que
la anterior salvo que el denominador est disminuido en una
unidad.
Para n >= 30 restar 1 de n implica muy poca diferencia.

VARIANZA PARA UNA MUESTRA


Varianza S2 (Variance, cuasi varianza, varianza insesgada,
estimador de la varianza de la poblacin):

1
2
S
( xi x )

n1 i
2

Desviacin tpica modificada, desvo estndar, error


estndar, dispersin absoluta (standard deviation):

S S

VARIANZA PARA UNA MUESTRA (...)


Por qu se divide entre n-1 en lugar de n en la varianza muestral?
Esto se debe a que se utilizan muestras de una poblacin. Por lo tanto,
aqu se aplica estadstica inferencial, la cual trata con muestras
extradas de poblaciones que son demasiado grandes para mediar de
forma directa y por lo tanto, se utilizan valores de muestras para hacer
inferencias acerca de los valores correspondientes de la poblacin.
Comnmente se utiliza la varianza muestral como un estimado de una
varianza poblacional desconocida. Si se utiliza n en el denominador de
la varianza muestral tender a subestimar la varianza poblacional. Por
lo tanto, al utilizar n-1 en la varianza muestral se obtiene una mejor
estimacin de la varianza poblacional.

Tasa de desnutricin: porcentaje de nios menores de cinco aos con una


desviacin estndar de talla mayor a dos por debajo de la norma internacional
ajustada correspondiente a su edad.

Varianza para datos agrupados

donde:

x : media muestral
f i : frecuencia absoluta de la clase i
MCi : marca de clase i

Medidas de variabilidad con respecto a la media


Se tienen los siguientes promedios finales correspondientes
a los alumnos de las secciones: a, b, c, d y e de la
asignatura XXX. Hallar la media(X) y la desviacin
estndar(S).
I)
Promedios Finales
Media
D.S.P.
Sist.

14 16 16 16 16 18 (a)
10 12 19 20 15 20 (b)
15 14 15 15 15 15 (c)

16,0
16,0
14,8

1,1547
3,95811
0,37268

Sist.
70 80 80 80 80 90 (d)
centesimal 40 80 80 80 80 90 (e)

80,0
75,0

5,7735
16,0728

II) Si las notas fueran una muestra


Media
Vigesimal 14 16 16 16 16 18 (a) 16,0
Centesimal 70 80 80 80 80 90 (d) 80,0

D.S.M.
1,26491
6,32456

vigesimal

Propiedades de la varianza
a) La varianza es un nmero no negativo.
b) Si todos los datos son iguales a una
constante c, su varianza es igual a 0. En este
caso la media es igual a c. No hay dispersin.
c) Si a cada uno de los datos x1, ... ,xn se les
suma una constante b, entonces la varianza de
los datos transformados: x1 + b, ... ,xn + b es
igual a la varianza de los datos originales.

Propiedades de la varianza (...)

d)
Si a cada uno de los datos x1, ... ,xn se
les multiplica por una constante k, entonces
la varianza de los datos transformados: kx1,
... , kxn es igual a la varianza de los datos
originales multiplicada por el cuadrado de
la constante. Esto es, si la varianza de los
datos originales es s2 entonces la varianza
de los datos transformados es k2s2.

Propiedades de la varianza (...)

e) Si el conjunto de m datos: x1, ...,xm tiene media x


y varianza s 2x , mientras que el conjunto de n datos
y1, ... ,yn tiene media y y varianza s 2y , entonces el
conjunto de datos x1, ... xm, y1, ... ,yn tiene
varianza:
s2

en donde

ms 2x ns 2y
mn

m
n
( x M )2
( y M )2 ,
mn
mn

es la media del conjunto x1, ...,xm, y1,


... ,yn.

Si las medias

son iguales, entonces:

2 ns 2
ms
x
y
s2
mn

Coeficiente de variacin, dispersin relativa, Coeficiente de


variabilidad de Pearson, coefficient of variation, CVx

S
CV
x

CV

Es la razn entre la desviacin tpica y la media.


Mide la desviacin tpica en forma de qu tamao tiene con respecto a la
media.
Tambin se la denomina variabilidad relativa.
Son poco robustos
Es frecuente mostrarla en porcentajes:
Si la media es 80 y la desviacin tpica 20 entonces
CV=20/80=0,25=25% (variabilidad relativa)
Otros: Coeficiente de variacin cuartlico

Coeficiente de variacin
Es una cantidad adimensional. Interesante para comparar la
variabilidad de diferentes variables.
Si el peso tiene CV=30% y la altura tiene CV=10%, los
individuos presentan ms dispersin en peso que en altura.
No debe usarse cuando la variable presenta valores negativos o
donde el valor 0 sea una cantidad fijada arbitrariamente
Por ejemplo 0C 0F
El coeficiente de variacin elimina la dimensionalidad de las
variables y tiene en cuenta la proporcin existente entre una
medida de tendencia y la desviacin tpica o estndar.
El principal inconveniente, es que al ser un coeficiente
inversamente proporcional a la media aritmtica, cuando est tome
valores cercanos a cero, el coeficiente tender a infinito

Uso de las medidas de dispersin


Si dos o ms series de datos (observados en
el mismo tipo de medicin) tienen medias
aritmticas iguales (o casi iguales) es ms
dispersa la serie que tiene mayor medida de
variabilidad: Rango, RI, s2, s, o CV.
Si dos o ms series de datos, no tienen
medias iguales (o casi iguales), o no tienen
las mismas unidades de medicin, entonces
es ms dispersa la serie que tenga el mayor
coeficiente de variacin

Ejemplo:

Las medidas tomadas con un micrmetro al dimetro de


una produccin de cojinetes, tienen una media de 3,98
mm y una desviacin estndar de 0,014 mm, mientras
que las medidas tomadas a otra muestra de resortes sin
extender, tienen una media de 1,59 pulgadas y una
desviacin estndar de 0,009 pulgadas. Qu grupo de
objetos tiene una mayor variabilidad?
C.V.1 = (0,014 / 3,98) x 100% = 0,35%

C.V.2 = (0,009 / 1,59) x 100% = 0,57%

Covarianza
Es una estadstica que mide el grado de dispersin
o variabilidad conjunta de dos variables X e Y
(variables bivariantes) con respecto a sus
respectivas medias.
Es til para describir el comportamiento de una
variable en relacin con otra.
Aporta una idea muy burda de la relacin entre X y
Y. Solo interesa su signo algebraico, no su
magnitud, a diferencia de la varianza que solo es
positiva.Las unidades son al cuadrado (Soles2)
Si Cov(X,Y) > 0 indica que valores altos de X se
relacionan con valores igualmente altos de Y, y
viceversa.
Si Cov(X,Y) = 0 implica que si X asume un valor
ms alto que su media no indica algo sobre el valor
de Y en relacin con su media.
INCONVENIENTE: Depende de las dimensiones de las
variables

Covarianza
medida de
variabilidad conjunta.
No tiene lmite
superior o inferior,
depende de las
unidades en que se
mida

Coeficiente de
Correlacin
(Pearson)

Cov( x, y )

y y x x
i 1

Cov( y, x)
Var ( y)Var ( x)

Covarianza estandarizada. Vara entre -1 y +1

Ejercicio.
La accin comn de la empresa Thiago (T) tiene una rentabilidad
esperada del 10% y una desviacin estndar del 5% anual. La
accin comn de la empresa Casas (C) tiene una rentabilidad
esperada del 20% y una desviacin estndar del 60% anual.
a) Cul es la rentabilidad esperada de una cartera que se
compone de 40% del ttulo T y 60% del ttulo C?
b) Cul es la covarianza de las rentabilidades de T y C si el
coeficiente de correlacin () entre T y C es de 0,5?

Tipificacin o Transformacin Z (Valor estandarizado, unidad


tipificada, variable centrada reducida, variable
estandarizada o normalizada)

Las puntuaciones tpicas son el resultado de dividir las puntuaciones


diferenciales (restar la media) entre la desviacin tpica. Este
proceso se llama tipificacin.
Dada una variable de media y desviacin tpica , se denomina
valor tipificado z, de una observacin X, a la distancia (con signo)
con respecto a la media, medido en desviaciones tpicas, es decir:

Cuando se necesite comparar valores observados que pertenecen


a diferentes distribuciones de datos, las que difieren en su media
aritmtica o en su varianza, o difieren en el tipo de unidad de
medida, se usa el valor estndar Z.
El "puntaje Z", tambin llamado "puntaje estndar", es la medida
estadstica de qu tan lejos est una observacin particular de la
desviacin estndar".

Ejemplo. Laura Boso saca una puntuacin de 85 en un examen cuyas


puntuaciones tienen una media de 79 con una desviacin tpica de 8. Elba
Boso saca 74 en un examen cuyas puntuaciones tienen una media de 70 y
desviacin estndar de 5. Cul de las dos obtuvo una puntuacin mejor?
La respuesta, desde el punto de vista de la "unidad tipificada", se obtiene as:
Las puntuaciones tipificadas de Laura y Elba son respectivamente:

As el Elba lo hizo mejor que Laura, aunque su puntuacin de 74 es inferior a


85.

La Universidad Voc A. Buso (UVAB) quiere dar una beca a uno de dos
estudiantes de sistemas educativos diferentes y se asignar al que tenga
mejor expediente acadmico:
El estudiante A tiene una calificacin de 8 en un sistema donde la
calificacin se comporta como N(6,1).
El estudiante B tiene una calificacin de 80 en un sistema donde la
calificacin se comporta como N(70,10).
No podemos comparar directamente 8
puntos de A frente a los 80 de B, pero
como ambas poblaciones se comportan
de modo normal, podemos tipificar y
observar las puntuaciones sobre una
distribucin de referencia N(0,1).
Como zA > zB, podemos decir que el
porcentaje de compaeros del mismo
sistema de estudios que ha superado
en calificacin al estudiante A es mayor
que el que ha superado B. En principio
A es mejor candidato para la beca.

zA

xA A

86
2
1

A
x B 80 70
zB B

1
B
10

Ejercicio. El cuadro de pagos de dos empresas constructoras


en la semana pasada se muestra a continuacin:

Parmetros
Salario medio
Desviacin tpica

C. Manos a la C. La Vida
Urbe
en Concreto
S/.963
S/.26

S/.972
S/.28

a) En cul de las dos constructoras los salarios presentan


mayor variabilidad?
b) Si a Mamerta, egresada de la Facu le ofrecen un salario
semanal de S/.468, en cul de las constructoras tendr
una mejor posicin relativa?
c) Si a Mamerta le ofrecen un salario semanal de S/.1 468, en cul de
las constructoras tendr una mejor posicin relativa?

Medidas de variabilidad con respecto a la media


Caso: Se tienen los siguientes promedios finales correspondientes a los alumnos de las secciones: a, b,
c, d y e de la asignatura XXX. Hallar la: media(X), desviacin estndar(S), coeficiente de
variabilidad(CV) y variable normal estandarizada (Z). Explicar su uso.

I) Compara S y CV
Sistema
vigesimal
Sist.
Centesimal

Promedios
14 16 16
10 12 19
15 14 15

S i
e
c n
c
Media
Finales
16 16 18 (a)
16.0
20 15 20 (b)
16.0
15 15 15 (c)
14.8

70 80 80 80 80 90 (d)
40 80 80 80 80 90 (e)

80.0
75.0

D.S.P.
1.15470054
3.95811403
0.372678

CV
0.07217
0.24738
0.02512

5.77350269
16.0728

0.07217
0.2143

II) Quin destaca ms: el alumno con 18 o con 90?


Vigesimal
Centesimal

14 16 16 16 16 18 (a)
40 80 80 80 80 90 (e)

16.0
75.0

(18)
(90)

Z
1.73205
0.93326

Vigesimal
Centesimal

14 16 16 16 16 18 (a)
70 80 80 80 80 90 (d)

16.0
80.0

(18)
(90)

1.73205
1.73205

III) Si las notas fueran una muestra


Media
Vigesimal
14 16 16 16 16 18 (a)
16.0
Centesimal 70 80 80 80 80 90 (d)
80.0

D.S.M.
1.26491106
6.32455532

CV
0.07906
0.07906

Z
1.58114
1.58114

Tiempos de embolsado de
Maca de la Pirinaca (en
minutos)

Media Arit.
S
CV

de 1/4 kg
0,92
0,98
1,04
0,90
0,99
0,966
0,050
5,22%

de 1 kg
4,52
4,35
4,60
4,70
4,50
4,534
0,116
2,56%

Teorema de Chebyshev(Tchebyshev, desigualdad de


Ch., regla de Ch)
Para cualquier conjunto de datos con media x y desviacin
estndar muestral s, la proporcin de datos comprendidos
en el intervalo x - ks, x + ks, es mayor o igual a [1
(1/k2)]. Donde k > 1.
Por ejemplo en el intervalo x - 2s, x + 2s por lo menos
hay el 75% de los datos, en el intervalo x - 3s; x + 3s por
lo menos hay el 89% de los datos.

Otras formas de la desigualdad de Chebyshev

Sea X una v.a. con media y varianza 2 < , >0, entonces:

0,

0,

k 1,

2
P X 2

2
P X 1 2

1
P X k 2
k

Ejemplo
La media de los pesos de las bolsas de maca de la pirinaca
es igual a 15,1333 kg y la desviacin estndar es 2,8952
kg.
En el intervalo 9,3429 - 20,9237, que tiene la media
como centro y dos desviaciones estndar muestrales como
radio, existe, segn Chevyshev, por lo menos el 75% de
los datos.

Ejemplo.
Los N datos correspondientes a la produccin diaria de gasolina de la planta El
Perreo tienen una media aritmtica de 150
000 galones con una desviacin estndar de
1 000 galones.
Hallar la proporcin de das cuya produccin de gasolina est comprendida entre
148 000 y 152 000.

Propuesta de Solucin
El intervalo 148 000, 152 000
corresponde a x - ks, x + ks con x =
150000; s = 1000 y k = 2.
Aplicando la propiedad de Chebyshev con
k = 2, se tiene que la proporcin de das
cuya produccin est en el intervalo
indicado es por lo menos igual a:
2

1 (1/k ) = 0,75.

Ejemplo.

Los N datos correspondientes a la produccin diaria


de gasolina de la planta El Perreo tienen una
media de 150 000 galones con una desviacin
estndar de 1 000 galones.
Si se sabe que la menor produccin es 147 000,
calcula un intervalo que contenga por lo menos 90%
de los datos.

Propuesta de Solucin

Un intervalo que satisface lo pedido es


uno de la forma x - ks, x + ks donde k es
tal que 1 12 0,90 . Luego, k = 10 =3,1622 y
k

x - ks, x + ks.
Como la menor produccin es 147 000,
un intervalo que cumple la condicin es:
147 000,00; 153 162,20

Ejemplo.

Los N datos correspondientes a la produccin diaria


de gasolina de la planta El Perreo tienen una
media de 150 000 galones con una desviacin
estndar de 1 000 galones.
Con qu frecuencia se puede decir que la
produccin ser mayor que 157 000 galones
diarios? Asume que la distribucin es
acampanada, por lo que se utilizarn unidades
estndar o valores de la z.

XX
Z
s

Propuesta de Solucin

La distancia entre 157 000 y la media de la produccin


expresada en desviaciones estndar de la misma es:
157 000 150 000
7
1 000

Esto indica que 157 000 est a 7 desviaciones


estndar de la media.
Aplicando la propiedad de Chebyshev, se tiene que
la proporcin de das cuya produccin est en el
intervalo 150 000 7*(1 000); 150 000 + 7*(1 000)
= 147 000; 157 000 es por lo menos.
1

1
1
1
1 0,0204 0,9796
k2
72

Como la menor produccin es 147 000 se puede


afirmar que la produccin ser mayor que 157 000 en
el (1 0,9796) = 2,04% de los das a lo ms.

Regla emprica para datos


En una distribucin de probabilidad acampanada (forma de montculo) y
ms o menos simtrica se cumple que:

Ejercicio. El CPC Jos Papaffava realiz un muestreo en el Depsito de


Materiales de Construccin sobre el nmero de das que permanecen en almacn
200 bolsas de cemento Portland Tipo III (Alta resistencia inicial, como cuando se
necesita que la estructura de concreto reciba carga lo antes posible o cuando es
necesario desencofrar a los pocos das del vaciado). Los datos son:
Permanencia
(en das)

1-3

4-6

7-9

10 - 12

13 - 15

16 - 18

19 - 21

22 - 24

N de bolsas

24

83

52

22

11

a) Determina la media, moda y la desviacin tpica.


b) Segn el teorema de Chebyshev Cuntas bolsas fluctuarn entre 1 y 15
das en el almacn?Cuntas se hallan realmente en ese intervalo?
c) Considerando que la distribucin tiene aproximadamente la forma de
campana Cuntas bolsas cabe esperar que hayan permanecido en el
almacn entre 1 y 15 das?

MEDIDAS DE CONCENTRACIN
Las medidas de concentracin tratan de poner de relieve el mayor o menor
grado de igualdad en el reparto del total de los valores de la variable, son por
tanto indicadores del grado de distribucin de la variable.
Para este fin, estn concebidos los estudios sobre concentracin.
Denominamos concentracin a la mayor o menor equidad en el reparto de la
suma total de los valores de la variable considerada (renta, salarios, etc.).
Las infinitas posibilidades que pueden adoptar los valores, se encuentran
entre los dos extremos:
1.- Concentracin mxima, cuando uno solo percibe el total y los dems
nada, en este caso, nos encontraremos ante un reparto no equitativo:
x1 = x2 = x3 = = xn-1 = 0 y xn.
2.- Concentracin mnima, cuando el conjunto total de valores de la variable
esta repartido por igual, en este caso diremos que estamos ante un reparto
equitativo
x1 = x2 = x3 = = xn-1 = xn.
Algunas medidas de concentracin:
Indice de Gini, Coeficiente, por tanto ser un valor numrico.
Curva de Lorenz, grfico, por tanto ser una representacin en ejes
coordenados.

ndice de Gini

Pone de relieve el mayor o menor grado de


igualdad en el reparto del total de los recursos:

El ndice de Gini (IG) vara entre 0 y 1, correspondiendo los


casos extremos a concentracin mnima o equidistribucin
(IG = 0) y concentracin mxima (IG =1).

Curva de Lorenz: Es la representacin grfica de los


porcentajes acumulados de individuos (pi) y de recursos (qi).
Se colocan los pi en el eje de abscisas, los qi en el de
ordenadas, y se unen todos los puntos (pi,qi), considerando
(0,0) como el primer punto y (100,100) como el ltimo.
As, cuanto ms prxima est la curva a la bisectriz del primer
cuadrante, ms parecidos sern ambos porcentajes
acumulados, por lo que menor ser la concentracin.

Das könnte Ihnen auch gefallen