Beruflich Dokumente
Kultur Dokumente
LA
ESTADISTICA
DESCRIPTIVA
MAPA CONCEPTUAL DE
LA UNIDAD
POBLACION
MUESTRA
DATOS
MEDIDA
TABLAS DESCRIPTIVAS
GRAFICOS
En realidad, es una
palabra que tiene tres
acepciones diferentes:
Primera
Acepcin (*)
No es ms que
una coleccin de
datos ordenados
y clasificados
segn un criterio
Segunda
Acepcin
La Estadstica Inferencial
comprende aquellos mtodos y tcnicas
usadas para hacer generalizaciones,
predicciones y estimaciones que se
utilizan para transformar la informacin
en conocimiento.-
Veamos un ejemplo de como acta en parte la
estadstica descriptiva:
110
100
CAJAS (MILES)
90
80
70
60
0 2 4 6 8 10
DIA
Solucin
En la figura, el jefe de produccin puede identificar los
das de baja produccin, as como los das de mayor
produccin.-
No parecera que hubiera mucha diferencia en el numero
de cajas producidas en los seis primeros das.-
Sin embargo, en los das 7 y 8 el nivel de
produccin parecera que era mas alto.- En
cambio, en los das 9 y 10 parecera que era mas
bajo.-
Basndose en estas observaciones, el equipo
intento identificar las causas por las que la
productividad era mas alta y mas baja.-
Por ejemplo, tal vez en los das 9 y 10 estuvieron
ausentes trabajadores clave o hubieran cambiado
las materias primas.- Tambin se podran
identificar las causas por las que aumento la
productividad en los das 7 y 8.-
Respecto a la Estadstica Inferencial, diremos:
Elemento o Unidad
Se Estadstica : Son las
simboliza personas, animales o cosas
con N que forman la poblacin.-
Tamao
Poblacin finita : cuando el nmero de
elementos que la forman es numerable, se puede
contar, por ejemplo el nmero de alumnos de la
universidad, cantidad de empleados de una
fbrica, etc.-
NOMINAL DE INTERVALOS
ORDINAL
Datos
longitudinales
Datos .
transversales. Son los datos de
Se renen al mismo series de tiempo, se
tiempo y bajo las coleccionan a lo
mismas condiciones.- largo de varios
perodos de
tiempo.-
LOS DATOS SE PUEDEN OBTENER
POR DOS TIPOS DE FUENTES
PRIMARIAS SECUNDARIAS
SECUNDARIAS
PRIMARIAS
DATOS PRIMARIOS.-
Son aquellos que se encuentran en la forma original en
que fueron registrados (datos brutos), sin haber sufrido
ningn tipo de tratamiento o elaboracin posterior.
Ejemplos: una encuesta, un censo.-
DATOS SECUNDARIOS.-
Son aquellos que fueron producidos (diseados y
recopilados) por terceros con un fin ajeno al de la
investigacin y que ya han sido sometidos a alguna
forma de elaboracin posterior.- En consecuencia,
estos datos siempre se originan en terceras fuentes.-
Ejemplo; los datos que publican las oficinas de
estadsticas de organismos oficiales, de empresas, etc.-
FUENTES PRIMARIAS .-
Los datos los podemos obtener
mediante dos tipos de estudios
estadsticos:
1.-Experimentales
2.- Observacionales
ESTUDIO EXPERIMENTALES.-
En un estudio experimental, primero se
identifican las variables de inters.- Luego se
identifican o controlan una o ms variables, de
modo que se pueda obtener datos de cmo
influyen en la variable de inters.- Por ejemplo,
una empresa farmacutica.-
ESTUDIO OBSERVACIONALES O NO
EXPERIMENTAL.-
En este tipo de estudios no se trata de
controlarlas variables de inters, ni de influir
sobre ellas.- Quiz los tipo ms comn de
estudios observacionales sean:
a) Realizacin de un CENSO.
b) Conduccin de una encuesta.-
DESPUES DE LO EXPRESADO
PODEMOS RESUMIR DICIENDO:
Muy frecuentemente es necesario seleccionar una muestra y en base
a sta, extraer conclusiones respecto de la poblacin.-
Con
C on
reeem
re plaazo
mpl zo
Sin
Sin
reemplazo
reemplazo
El muestreo con reemplazo , implica que una vez
seleccionada una persona o elemento, se regresa al
marco donde tiene la misma probabilidad de ser elegida
de nuevo.- Imagine que tiene una urna con 500 tarjetas de
presentacin.- Suponga que en el primer sorteo sale la
ficha de Juan Llanos.- La informacin pertinente se
registra y se regresa la tarjeta a la urna.- Despus se
mezclan bien las tarjetas y se saca una segunda tarjeta,.
En esta segunda extraccin Juan Llanos, tiene la misma
probabilidad de salir 1/N, de ser elegida de nuevo.- Se
repite el procedimiento hasta alcanzar el tamao muestra
n deseado.- Sin embargo, suele considerarse ms
adecuado tener una muestra de personas o elementos
diferentes en lugar de permitir la repeticin de
mediciones de la misma persona o elemento.-
En el muestreo sin reemplazo , no se regresa la
persona o elemento al marco una vez seleccionado y por
lo tanto, no puede elegirse otra vez.- Como antes, en el
muestreo sin reemplazo la probabilidad de que algn
miembro especfico de la poblacin, por ejemplo Juan
Llanos, sea elegido en el primer intento es 1/N.- La
probabilidad de que, cualquier individuo no
seleccionado, salga elegido en el segundo intento ser 1 /
N-1.- Este proceso continua hasta alcanzar el tamao de
muestra n deseado.-
CUADRO
ESTADISTICO
PORCENTAJES
DEL TOTAL, DE FILAS
GRAFICOS Y DE COLUMNAS
PARTES DE UN CUADRO ESTADISTICO
TITULO
NOTA DE
CALCE
Encabezado
y
sub.-
encabezado
CUERPO
Columna
Matriz o
concepto
FUENTE
Nota al pie
1.-TITULO.- Se coloca siempre sobre el cuadro, ya que
leemos de arriba hacia abajo.- Si el titulo es muy largo,
se coloca en forma de pirmide truncada.-
Un titulo debe responder a cuatro preguntas bsicas:
QUE?, que es lo que queremos mostrar.-
DONDE?, se refiere al lugar donde fueron obtenidos.-
COMO?, se refiere a como queremos mostrar los datos.-
CUANDO?, hace referencia cuando fueron obtenidos los
datos.-
2.-ENCABEZADO Y
SUBENCABEZADOS .- Son las
denominaciones de las columnas y responde al
Como del titulo.- Una columna puede tener
3.-COLUMNA MATRIZ O CONCEPTO .-
Son las denominaciones de la filas.- Responde
tambin al Como del titulo.-
Abogaca
Arquitectura
Medicina
Sistema
Psicopedagoga
Contador
0 5 10 15 20 25 30
Matricula de la UNLAR segn carreras.
Marzo 2008
20% 23%
13% 9%
16% 19%
Fuente: UNC
Si queremos explicar el cuadro, podremos mostrar lo
siguiente:
En %
100%
90%
80%
70%
60% Contabilidad
50% Marketing
40%
Finanzas
30%
20%
10%
0%
2006 2007 2008
Fuente: UNC
Total de alumnos matriculados en la UNC, en tres
especialidades de Administracin de Empresa.-
Aos 2006, 2007 y 2008
Total de alumnos matriculados en la UNC, en tres
especialidades de Administracin de Empresa.-
Aos 2006, 2007 y 2008
TABLA DE CONTINGENCIA.-
Supongamos que ahora a la muestra de estudiantes se observo el
sexo y se registro la informacin:
Arquitectura 5 10 15
Abogaca 17 7 24 Frecuencias
TOTAL 69 51 120 absolutas
marginales
Matricula de la UNLAR por carreras y sexo. Marzo 2008.-
Abogaca
Arquitectura
Medicina Mujeres
Sistemas Varones
Psicopedagoga
Contador
0 5 10 15 20
Analizamos una tabla de contingencia, segn lo que queramos
explicar.-
CARRERAS SEXO
Varn Mujer
Contador 13,3 10,0
Psicopedagoga 2,5 6,7
Sistemas 10,8 8,3
Medicina 12,5 3,3
Arquitectura 4,2 8,3
Abogaca 14,2 5,8
MATRICULA DE LA UNLAR SEGN TOTAL GENERAL
POR CARRERA Y SEXO
AO 2008
(EN %)
EJERCICIO PARA DISCUTIR EN CLASE
Demanda de un producto por zonas
VERTICALES SIMPLES
HORIZONTALES DOBLES
COMPUESTAS
SUBDIVIDIDAS
Veamos algunos grficos para interpretar en
clase.-
Tercer
Ao 18,5%
Cuarto 18,5%
Ao 12,7%
Quinto
Ao 22,9%
22,9%
Recibidos 28% 12,7%
TOTAL 99,9%
NO USAR este tipo de Grafico
Chart of Curso
30
25
20
Percent
15
10
0
Cuarto ao Primer ao Quinto ao Recibidos Segundi ao Tercer ao
Curso
Percent within all data.
SI USAR este tipo de Grafico
MONTO VENTAS
Enero 10500
Febrero 8300
Marzo 17500
Abril 15200
Mayo 13000
Junio 8000
Julio 10300
Agosto 12000
Septiembre 11000
Octubre 16000
Noviembre 15000
Diciembre 19000
Scatterplot of Montos de Ventas vs Meses
20000
18000
Montos de Ventas
16000
14000
12000
10000
8000
16000
Y-Data
14000
12000
10000
8000
Concepto Porcentajes
Compaas areas 41.0
Alojamiento 25.0
Comidas 12.0
Alquileres de automviles 18.0
Otros 4.0
Concepto frecuencia
Muy satisfechos 29
Moderadamente satisfecho 55
Ninguna opinin 5
Moderadamente insatisfecho 20
Muy insatisfecho 0
Edades Tiempo
Menos de 40 Entre 40 y menos Un minuto como
segundos de 60 segundos mnimo
Menos de 21 10 13 25
21 a menos de 35 16 20 12
35 a menos de 50 18 22 8
50 Aos o ms 10 27 19
4.- Suponga usted que segn una estimacin del gasto
pblico, el 46 por ciento se destina a pensiones, el 18 por
ciento a defensa, el 15 por ciento a regiones y municipios,
el 14 por ciento a intereses de la deuda, el 6 por ciento a
otros gastos de la administracin central y el 1 por ciento
al seguro de depsito.- Represente grficamente esta
informacin mediante un grfico de sectores.-
Percent
60
Count
50
40
40
30
20
20
10
0 0
TIPO DE DEFECTO
Count 36 27 9 5 4 2 2 3
Percent 40,9 30,7 10,2 5,7 4,5 2,3 2,3 3,4
Cum % 40,9 71,6 81,8 87,5 92,0 94,3 96,6 100,0
Vemos que la categora otros siempre debe ir al final,
sin importar su valor.- De esta manera, si hubiese
tenido un valor ms alto, igual debera haberse ubicado
en la ltima fila.-
Ahora resulta evidente cuales son los tipos de defectos
ms frecuentes.- Podemos observar que los tres
primeros tipos de defectos se presentan en el 82% de
las heladeras, aproximadamente.-
500
400
Data
300
200
100
1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005
Year
Solucin
En la figura de arriba, podemos ver que el numero de
matriculados de primer ao ha aumentado desde 2000 y
que el mximo que alcanzo el numero de estudiantes
procedentes de otras universidades en 2001 fue seguido
de un continuo descenso.- El personal de administracin
debe averiguar cuales son los factores que explican
ambas tendencias.-
La tabla siguiente muestra las ventas trimestrales
realizadas por una empresa durante un periodo de 6 aos,
desde el 2001 al 2006.- Describa grficamente los datos:
AOS TRIMESTRE
1 2 3 4
2001 271 199 240 255
2002 341 246 245 275
2003 351 283 353 292
2004 401 282 306 291
2005 370 242 281 274
2006 356 245 304 279
La figura anterior es un grafico de serie
temporales de los 24 intervalos de tiempo.-
Observamos que las ventas del primer trimestre
van seguidas sistemticamente de una
disminucin de las ventas en el segundo.- Tal vez
la estacin del ao sea una explicacin.- En el
estudio de Series de Tiempo se ven modelos para
ajustar los datos de las series temporales con el
fin de tener en cuenta la estacionalidad, las
tendencias, la conducta cclica o algn otro
componente irregular.-
Si solo nos interesa comparar las ventas del primer trimestre con las
del segundo, puede hacerse un grafico de series temporales como el
de la figura siguiente:
EJERCICIOS PARA HACER EN CLASE
Ao Porcentaje
2001 26.72
2002 27.48
2003 24.89
2004 25.83
2005 30.22
2006 31.14
GRAFICOS PARA
DESCRIBIR
RELACIONES ENTRE
DOS VARIABLES
NUMERICAS
En todos los temas anteriores nos hemos
ocupado de mostrar grficamente una nica
variable.- Estas imgenes nos han ayudado a
entender y analizar mejor la informacin que
contena un gran volumen de datos.- En este
apartado ampliamos las medidas graficas para
describir las relaciones entre dos variables
numricas.- Aqu elaboramos lo que llamamos
los diagramas de dispersin, algunos autores
los llaman diagrama de puntos dispersos o
nube de puntos.-
Los analistas empresariales y economistas a
menudo se refieren a relaciones entre variables
numricas.-
Por ejemplo, Cunto varia la cantidad vendida
cuando varia el precio?, obtienen mejores
clasificaciones medias en la universidad los
alumnos que tienen mejores notas en los
exmenes de ingreso?, aumenta la publicidad
las ventas?, Cmo influye en las ventas los
ingresos total de las familias de la regin?.....etc.-
En estos ejemplos, observamos que una variable
puede depender de alguna medida de la otra
variable, es decir que tenemos pares de valores
que llamamos X e Y.- Por ejemplo, los montos de
ventas puede depender de cuanto se haya
gastado en publicidad.- En este caso llamamos a
la variable Y dependiente y a la X independiente.-
El diagrama de dispersin, es una imagen que muestra a
menudo la relacin entre las dos variables.-
Podemos trazar un diagrama de dispersin, localizando
un punto por cada par de dos variables que
representan una observacin del conjunto de datos.-
Nos muestra:
a) El rango de cada variable.-
b) La pauta de valores existentes dentro del rango.-
c) Una sugerencia sobre la posible relacin entre las dos
variables.-
d) Una indicacin de los casos atpicos (puntos muy
extremos).-
Veamos un ejemplo:
Notas de los exmenes de admisin en las
universidades en los EEUU y las calificaciones
media de los estudios universitarios.-
Son las notas obtenidas en la prueba de
matemticas del SAT para acceder a la
universidad un buen indicador de xito en la
universidad?.- En los EEUU, todos los
estudiantes realizan uno o mas test de aptitud
para ingresar en una universidad.- El personal de
admisiones de las universidades utilizan los
resultados para admitir o no a los estudiantes.-
En la tabla siguiente se muestra las notas
obtenidas en la prueba de admisin por una
muestra aleatoria de 11 estudiantes de una
pequea universidad del oeste, y la calificacin
media obtenida al terminar los estudios
universitarios.- Trace un diagrama de dispersin
y comente que informacin le suministra.- Los
datos fueron:
450 480 500 520 560 580 590 600 620 650 700
3,75
Calificacion media
3,50
3,25
3,00
2,75
2,50
450 500 550 600 650 700
Notas en matematicas
Hemos utilizado un programa Minitab, para hacer el
diagrama, hoy todos los paquetes tienen este grafico,
incluso Excel.-
Observamos que las calificaciones medias van desde
alrededor de 2,5 hasta 4 y las notas de matemticas van
desde 450 hasta 700.- Una interesante pauta es la
tendencia ascendente positiva; las calificaciones medias
tienden a aumentar directamente con los aumentos de las
notas obtenida en la prueba de matemticas.- Observe
tambin que la relacin no suministra una prediccin
exacta.- Algunos estudiantes que obtienen una baja nota
en la prueba de matemticas tiene una calificacin media
mas alta que los estudiantes que obtienen una nota
mejor en la prueba de matemticas.- Vemos que la pauta
bsica indica que las notas mas altas obtenidas en los
exmenes de admisin predicen mayores calificaciones
medias pero los resultados no son perfectos.-
EJERCICIO PARA HACER EN CLASE.-
Gastos 10 15 7 12 14 18 14 9 15 13 16 17
Ventas 100 200 80 120 150 270 160 120 220 170 240 200
4 5 2 6 4 6 4 4 7 6
3 7 5 3 6 5 5 6 6 7
6 4 5 4 5 6 3 8 4 8
7 6 8 2 4 5 4 5 5 5
4 5 4 7 8 7 4 8 3 6
6 3 4 3 5 5 2 5 4 7
5 6 5 4 6 3 6 7 6 6
3 6 6 6 6 6 7 5 6 5
Podemos ordenarlos en forma creciente y algo podemos decir:
2 2 2 3 3 3 3 3 3 3
3 4 4 4 4 4 4 4 4 4
4 4 4 4 4 4 5 5 5 5
5 5 5 5 5 5 5 5 5 5
5 5 5 5 6 6 6 6 6 6
6 6 6 6 6 6 6 6 6 6
6 6 6 6 6 6 7 7 7 7
7 7 7 7 7 8 8 8 8 8
Grfica de puntos de C1
2 3 4 5 6 7 8
C1
b 1) Datos
agrupados sin
intervalos.-
Variable
discreta.-
Vamos a verlo mediante un ejemplo.- Supongamos que
el Gerente de un Supermercado esta interesado en
saber que cantidad de gente entra a el durante la siesta
(13 a 16 horas).- Tomamos una muestra de 80 das y
contamos la gente que entr en ese horario al
Supermercado.- Resultaron los siguientes valores:
4 5 2 6 4 6 4 4 7 6
3 7 5 3 6 5 5 6 6 7
6 4 5 4 5 6 3 8 4 8
7 6 8 2 4 5 4 5 5 5
4 5 4 7 8 7 4 8 3 6
6 3 4 3 5 5 2 5 4 7
5 6 5 4 6 3 6 7 6 6
3 6 6 6 6 6 7 5 6 5
Xi = cantidad de personas que entraron en ese horario.-
Xi variable discreta.-
Agrupamos en una tabla que llamamos DISTRIBUCIN DE
FRECUENCIA.-
Xi Conteo fi hi Fi Hi Fi%
2 III 3 0,0375 3 0.0375 3,75
3 IIIIIIII 8 0,1000 11 0.1375 13.75
4 IIIIIIIIIIIIIII 15 0,1875 26 0.3250 32,50
5 IIIIIIIIIIIIIIIIII 18 0,2250 44 0.5500 55,00
6 IIIIIIIIIIIIIIIIIIIIII 22 0,2750 66 0.8250 82,50
7 IIIIIIIII 9 0,1125 75 0.9375 93,75
8 IIIII 5 0,0625 80 1.0000 100,0
TOTAL --------- 80 1,0000 ------ --------- -------------
Das
25
20
15
10
5
0 1 2 3 4 5 6 7 8 Cantidad personas
b 2) Datos
agrupados con
intervalos.-
Variable
continua.-
Para agrupar los datos en una distribucin de
frecuencia con intervalos, debemos pensar varias
cosas, como cuantos intervalos vamos a hacer, que
amplitud usamos, etc.- Se recomienda no usar menos
de 5 ni ms de 15 intervalos.- Cuando agrupamos los
datos en intervalos, perdemos la individualidad del
dato.-
k
2 n
Donde k nos indica la cantidad de intervalos a realizar.-
b) Amplitud a utilizar:
Rx = rango o recorrido de la variable.
Rx =Xi mximo --- Xi mnimo
Ci = amplitud Ci = Rx / I
61 88 70 76 66 79 64 75 78 76
80 61 75 79 76 60 74 68 76 78
70 65 52 78 72 76 58 86 94 78
I = 5
Rx = 94 - 52 = 42
Ci = 42 / 5 = 8,4 9
La distribucin de frecuencia ser:
Li - Ls Conteo fi hi Fi Hi Fi %
15
Frequency
10
0
-4 -2 0 2 4 6 8 10
X1
Histogram of X3
18
16
14
12
Frequency
10
0
0 10 20 30 40
X3
Histogram of HSPct
30
25
20
Frequency
15
10
0
30 40 50 60 70 80 90 100
HSPct
POLIGONO
POLIGONO DE
DE
FRECUENCIA
FRECUENCIA
16
fre c u e n c ia a b s o lu ta
12
0
43 52 61 70 79 88 97 106
Montos de ventas
POLIGONO DE FRECUENCIA CON EL HISTOGRAMA
16
fre c u e n c ia a b s o lu ta
12
0
43 52 61 70 79 88 97 106
Montos de ventas
POLIGONO DE FRECUENCIA SIN EL HISTOGRAMA
16
fre cu e n cia a b so lu ta
12
0
43 52 61 70 79 88 97 106
Montos de ventas
OJIVA O GRFICO DE FRECUENCIA ACUMULADA
32
fre c. a b s. a cu m u la d a
24
16
0
43 52 61 70 79 88 97 106
Montos de ventas
VEAMOS UN
EJEMPLO DE DOS
DISTRIBUCIONES:
Suponga que decide llevar a cabo un estudio
comparativo del costo de una comida en un restaurante
de una gran ciudad con el de una comida similar en un
restaurante fuera de la ciudad.-
CIUDAD
50 38 43 56 51 36 25 33 41 44
34 39 49 37 40 50 50 35 22 45
44 38 14 44 51 27 44 39 50 35
31 34 48 48 30 42 26 35 32 63
36 38 52 23 39 45 37 31 39 53
FUERA DE LA CIUDAD
37 37 29 38 37 38 39 29 36 38
44 27 24 34 44 23 30 32 25 29
43 31 26 34 23 41 32 30 28 33
26 51 26 48 39 55 24 38 31 30
51 30 27 38 26 28 33 38 32 25
C:\Archivos de programa\InfoStat\datos\Mauri. Precio comida 2007.IDB2:
16/06/07 - 6:42:25
Tablas de frecuencias
13,39
8,93
4,46
0,00
2 11 20 29 38 47 56 65 74
Ciudad
0,36
0,27
frecuencia relativa
0,18
0,09
0,00
7 16 25 34 43 52 61 70
Ciudad
1,00
0,88
fre c. re l. a cu m u la d a
0,75
0,63
0,50
0,38
0,25
0,13
0,00
2 12 23 33 43 53 64 74
Ciudad
C:\Archivos de programa\InfoStat\datos\Mauri. Precio comida 2007.IDB2: 16/06/07 -
6:42:25
Tablas de frecuencias
12,60
frecuencia absoluta
8,40
4,20
0,00
14 20 26 32 38 44 50 56 62
fuera de la ciudad
16,80
12,60
frecuencia absoluta
8,40
4,20
0,00
14 20 26 32 38 44 50 56 62
fuera de la ciudad
1,00
0,88
0,75
frec. rel. acumulada
0,63
0,50
0,38
0,25
0,13
0,00
14 22 30 38 46 54 62
fuera de la ciudad
OTRA FORMA DE
TRABAJAR
ESTAS
DOS
DISTRIBUCIONES
10 15 1 2,0 0 0,0
15 20 1 2,0 0 0,0
20 25 3 6,0 4 8,0
25 30 6 12,0 17 34,0
30 35 13 26,0 30 60,0
35 40 27 54,0 42 84,0
40 45 35 70,0 46 92,0
45 50 40 80,0 47 94,0
50 55 48 96,0 49 98,0
55 60 49 98,0 50 100,0
60 65 50 100,0 50 100,0
TOTAL
La distribucin de porcentaje acumulado constituye
una manera de presentar la informacin del porcentaje
de los valores que estn por debajo de cierto valor.-
Por ejemplo, tal vez se desea conocer que porcentaje
de las comidas de los restaurantes de la ciudad
cuestan menos de 20$, menos que 30$ , y as
sucesivamente, etc.-
La distribucin acumulativa muestra claramente que
los costos de la comida son inferiores en los
restaurantes de afuera de la ciudad que los de la
ciudad propiamente dicha; en el 34% de los
restaurantes de afuera cuesta menos de 30$, en
comparacin con solo el 12% de los restaurantes de la
ciudad; en el 60% de los restaurantes de las afuera
cuesta menos de 35$ en comparacin solo el 26% de
los restaurantes de la ciudad, etc, etc.-
ANALISIS
EXPLORATORIO
DE DATOS.-
Las tcnicas del anlisis exploratorio de datos consisten
en operaciones aritmticas sencillas y grficas fciles de
trazar, que pueden emplearse para resumir con rapidez los
datos.-
Una tcnica de explorar los datos que son objeto de
nuestro estudio y que hoy trae casi todos los paquetes
estadsticos de computacin es el llamado DIAGRAMA
DE TALLO Y HOJA .- La importancia de este diagrama
es que no perdemos el dato original, cosa que nos sucede
con las distribucin de frecuencia con intervalos.-
El diagrama es una herramienta valiosa y verstil para
organizar un conjunto de datos y entender la distribucin y
agrupacin de los valores dentro del intervalo de
observaciones en el conjunto.- Generalmente el primer
dgito forma el tallo y el resto las hojas.- Veamos un
ejemplo sencillo.-
Suponga que las calificaciones en un parcial de ESTADSTICA de
40 alumnos fueron las siguientes:
42 46 87 34 81
2 1 9
64 87 69 75 73
3 4 7
91 70 86 67 49 4 2 6 7 9
55 74 81 75 37 5 5 7 9
21 69 29 59 69 6 9 4 0 9 5 7 9 8 6 8
60 81 77 47 68 7 5 7 3 4 0 4 5
74 65 87 97 57 8 7 1 7 1 2 6 7 1
68 66 90 82 94
9 7 1 0 4
MEDIDAS
DESCRIPTIVAS
QUE RESUMEN
A LOS DATOS
Hasta este punto, hemos analizado la
presentacin de datos categricos y
numricos en forma tabular y grfica.-
Aunque la presentacin de datos es una
componente esencial de la estadstica
descriptiva, la tarea no termina ah.- Dentro
del manejo de la informacin numrica, un
buen anlisis de los datos no se limita a la
presentacin de datos y la observacin de
lo que estos tratan de transmitir, tambin
abarca los clculos y el resumen de las
caractersticas importante y el anlisis de
lo que contienen.-
LAS MEDIDAS DESCRIPTIVAS ESTADISTICAS QUE
CARACTERIZAN A UNA MUESTRA O A UNA POBLACION
SON:
MEDIDAS
DE MEDIDAS DE
TENDENCI ORDEN
A
CENTRAL
MEDIDAS DE
MEDIDAS DE FORMA
DISPERSION O
DE
VARIABILIDAD
MEDIDAS DE TENDENCIA CENTRAL.-
MEDIA ARITMETICA X
MEDIANA Me
MEDIA PONDERADA
XP
MODO MO
MEDIA GEOMETRICA
XG
MEDIA ARMONICA XA
MEDIDAS DE ORDEN
PERCENTILE
PERCENTILE
CUARTILES
CUARTILES SS
Q
QRR PPRR %
%
RANGO
RANGO DELDEL
PERCENTIL
PERCENTIL
R
RPP (xi)
(xi)
MEDIDAS DE DISPERSION O DE VARIABILIDAD
RANGO
RANGO OO
RECORRIDO
RECORRIDO VARIANCIA
VARIANCIA
R
RXX SSXX
RANGO
RANGO
INTERCUARTILIC
INTERCUARTILIC
OO
COEFICIENTE
COEFICIENTE
DESVIO
DESVIO DE
DE
ESTANDAR
ESTANDAR VARIACION
VARIACION
SSXX CV
CVXX
MEDIDAS DE FORMA
ASIMETRIA
ASIMETRIA
A
ASS
CURTOSIS
CURTOSIS
CCRR
MEDIA ARITMETICA , tambin llamada Media:
Es el promedio y es la medida de tendencia central
que se utiliza con mayor frecuencia.- Se calcula con la
suma de todas las observaciones en un conjunto de
datos, dividida entre el nmero de elementos
involucrados.- Si estamos trabajando con una muestra
aleatoria de la poblacin en estudio estamos calculando
un ESTADISTICO, que ser:
xi
x =
n
87- 99- 160- 180- 135- 145- 105- 138- 153- 129- 119- 99- 165- 172
Observamos que, la media aritmtica ser:
xi 1886
x = ---------- = ----------- = 134,71 135 $.-
n 14
N IMPAR DE DATOS
a) PARA DATOS
SIN AGRUPAR
N PAR DE DATOS
M = (n + 1) / 2 = 16 / 2 = 8 posicin
Me = 10 minutos
a 2) N PAR DE DATOS.-
En el ejemplo anterior supongamos tener datos durante 14 das.-
8 9 9 10 10 11 12 13 13 15 17 18 18 20
M = (n + 1) / 2 = 15 / 2 = 7,5 posicin
12 + 13
Me = = 12,5 minutos
2
b 1) MEDIANA PARA DATOS AGRUPADOS SIN
INTERVALOS.-
Supongamos tener la cantidad de accidentes automovilsticos por
mes en cierta localidad.- Se registraron datos correspondientes a 60
meses.-
Buscamos la menor Fi % que
xi fi F i Fi%
me contiene al 50 %.-
0 10 10 16,7
Observamos ahora que valor
1 12 22 36,7
de variable le corresponde:
2 16 38 63,3
3 8 46 76,7
Me = 2 accidentes
4 7 53 88,3
5 5 58 96,7
6 2 60 100,0
Total 60 ----- -----
b2) MEDIANA PARA DATOS AGRUPADOS EN
INTERVALOS.-
Supongamos tener las notas de un parcial del Estadstica de una
muestra de 50 alumnos.- Los datos agrupados en una tabla de
frecuencia con intervalo fueron:
n
Li Ls fi Fi Fi % Fi -1
2 * ci
Me Li
36 44 2 2 4,0 f i
44 52 12 14 28,0
52 60 15 29 58,0 25 - 14
Me = 52 + ---------------- * 8 =
60 68 18 47 94,0
15
68 76 3 50 100,0 Me = 57,87 58 puntos.-
Total 50 ----- ------
MODO
Se lo simboliza con Mo.- Es el valor de la variable que ms veces
se repite.-
Es la nica medida descriptiva que podemos calcular en una
variable cuya medicin esta en escala nominal.-
850 875 856 882 875 880 896 810 875 942 - 975
Observamos el valor de variable que ms veces se da:
M o = 875 $
MODO PARA DATOS AGRUPADOS SIN INTERVALOS.-
Supongamos que en el relevamiento de 50 empleados de una
empresa, se les pregunto la cantidad de nios en edad escolar
que tienen.- Resulto la siguiente tabla:
xi fi
4 18
6 6
TOTAL 50
MODO PARA DATOS AGRUPADOS CON INTERVALOS.-
Supongamos que tenemos una muestra de 72 notas de un parcial
de Estadstica que se les tomo a un curso integrado por 200
alumnos.- Estas fueron las siguientes:
Li Ls fi d
*c
Mo Li
1
d1 d
36 46 4 i
2
46 56 9
d1 = fi - fi-1 = 23 - 18 = 5
56 66 18
d2 = fi - fi+1 = 23 - 11 = 12
66 76 23
5
76 86 11
Mo = 66 + ---------------- * 10 =
86 96 7
5 + 12
TOTAL 72 = 68,94 69 puntos.-
USO DE LAS
DISTINTAS MEDIDAS
DE TENDENCIA CENTRAL
Cuando se tiene datos de escalas intervalares o proporcionales, en
general se utiliza la media porque, es una medida que atiende en
forma exhaustiva toda la informacin disponible: los valores, las
distancias y proporcionalidad entre ellos y la frecuencia de cada
uno.
xi Wi
Xp =
Wi
xi Wi 285,50
Xp = ---------------- = -------------- = $ 5,49
Wi 52
1/4
Xg = ( 1,05 . 1,02 . 1,10 . 1,06) = 1,0571
Veamos un ejercicio:
Hallar la tasa de crecimiento suponiendo que las
ventas han crecido un 25 por ciento en 5 aos.-
Solucin
La tentacin intuitiva, pero ingenua, es dividir simplemente el
crecimiento total, 25 por ciento, por el numero de periodos, 5 y
concluir que la tasa media de crecimiento es del 5 %.- Este resultado
es incorrecto porque no tiene en cuenta el efecto compuesto del
crecimiento.-
Suponiendo que la tasa anual de crecimiento es realmente del 5 por
ciento, en ese caso, el crecimiento total de 5 aos ser:
(1,05 . 1,05 . 1,05 . 1,05 . 1,05 ) = 1,2763 o sea un 27,63 %.-
Sin embargo, la tasa anual de crecimiento r, que dara un 25 % en
cinco ao, debe satisfacer esta ecuacin:
5
( 1 + r) = 1,25
Primero hallamos la media geomtrica:
1/5
Xg = 1 + r = (1,25) = 1,046
La tasa de crecimiento es r = 1,046, o sea 4,6 por ciento.-
Veamos otro ejemplo:
Xg = 3 . 2 . 4 . 6 = 144
n
Valor al final del periodo
Xg = - 1
Valor al inicio del periodo
10
22
Xg = - 1
2
= 1,2710 - 1 = 0,2710
El valor final es 0,2710.- De modo que la tasa de aumento
anual es de 27,1 %.- Es decir que el puesto tuvo una
tasa de crecimiento de la poblacin de 27,1% al ao.-
Cuartiles
Se lo simboliza con Qr., donde con r indicamos el orden del
cuartil que queremos calcular. Los cuartiles dividen mi distribucin
de datos u observaciones en cuatro partes iguales o sea que
tenemos tres cuartiles el cuartil de orden 1, de orden 2 y el de
orden 3, y en cada uno se encuentra el 25 % del total de casos
observados.
Si me da un valor decimal en 5, el
cuartil buscado ser el promedio
(n + 1) r
entre el dato posicin del entero y
Qr = = el siguiente.-
4 Si me da un valor ni entero, ni
decimal en 5, el cuartil buscado
ser el dato que ocupe la
posicin siguiente al valor
entero.-
Veamos un ejemplo.-
Supongamos tener las edades de una muestra de empleados de
cierta empresa textil.- Estos resultaron ser:
22-58-24-50-29-52-57-31-30-41-44-40-46-29-31-37-32-44-49-29
Ordenamos en forma creciente los datos:
22-24-29-29-29-30-31-31-32-37-40-41-44-44-46-49-50-52-57-58
xi fi Fi Fi%
El cuartil 3 nos implica el
0 4 4 6,7 75%, por lo tanto buscamos
el menor porcentaje que lo
I 9 13 21,7 cubre, y observamos el
valor de variable que le
2 12 25 41,7
corresponde, entonces:
3 18 43 71,7
Q3 = 4 hijos.-
4 10 53 88,3
El 75% de los empleados
5 7 60 100,0 tienen 4 hijos o menos.-
n * r Fi - 1
Li Ls fi Fi Fi%
Q r Li 4 *
ci
fi
12 16 3 3 5,8
16 20 7 10 19,2
13 - 10
20 24 12 22 42,3
Q1 = 20 + ----------------- 4 =
24 28 15 37 71,2
12
28 32 10 47 90,4
32 36 5 52 100,0
= 21 minutos
TOTAL 52 ------ ----- El 25% de los empleados
demoran 21 o menos
minutos en realizar la tarea.-
PERCENTILES .- Se simbolizan P r
xi fi Fi Fi%
El PERCENTIL 82%, nos
0 4 4 6,7 implica el 82%, por lo tanto
buscamos el menor
I 9 13 21,7 porcentaje que lo cubre, y
2 12 25 41,7 observamos el valor de
variable que le corresponde,
3 18 43 71,7 entonces:
4 10 53 88,3 P82% = 4 hijos.-
5 7 60 100,0 El 82% de los empleados
tienen 4 hijos o menos.-
Total 60 ------ ------
PERCENTILES PARA DATOS AGRUPADOS CON
INTERVALOS
Supongamos tener los tiempos en minutos que demoran los
empleados de una empresa en realizar una tarea.- Los valores
fueron:
n
* r Fi - 1
P 70% Li 100
Li Ls fi Fi Fi% *
ci
12 16 3 3 5,8 fi
16 20 7 10 19,2
20 24 12 22 42,3 36,4 - 22
28 32 10 47 90,4 10 + 6
0,00
0,09
0,18
0,27
0,36
fr e c u e n c ia r e l a ti v a
0,00
0,09
0,18
0,27
0,36
Media
RANGO O RECORRIDO DE LA VARIABLE.-
Se simboliza Rx .- Se la calcula haciendo la diferencia entre el
mximo valor de la variable y el mnimo que toma.-
Como medida de dispersin se la toma poco en cuenta ya que nada
me dice de los valores intermedio de la variable.-
Un uso importante del Rango lo encontramos cuando vemos la
Estadstica Descriptiva en el Control de Calidad de Procesos.-
RANGO INTERCUARTLICO .-
( xi - x)
Sx =
n - 1
Si el denominador fuera n en lugar de (n 1), se obtendra el
promedio de los cuadrados de las diferencias con respecto a la
media.- Si embargo, se utiliza (n 1) debido a ciertas propiedades
matemticas deseadas que tiene el estadstico S, lo cual lo hacen
muy apropiadas para hacer inferencias estadsticas.- A medida
que se aumenta el tamao de la muestra, la diferencia entre n y (n
1) disminuye cada vez ms.-
La variancia como esta definida como un valor cuadrado nunca
puede ser negativa.-
No tiene explicacin por estar definida como un valor cuadrado y
nos da un resultado con unidad de medida al cuadrado.- Por ejemplo,
si estamos trabajando datos en $, la variancia nos va dar un
resultado en $, si trabajamos empleados nos dar empleados al
cuadrado, etc.-
Ser igual a cero cuando no exista diferencia entre los datos, es
decir, todas las observaciones en la muestra deberan ser
exactamente iguales.-
En este improbable caso, el rango y rango intercuartlico tambin
sera igual a cero.-
Los datos numricos por naturaleza, son variables no constantes.-
Cualquier fenmeno aleatorio de inters puede adquirir una amplia
variedad de valores.- Entonces, la importancia de estudiar, no solo
las medidas de tendencia central que resumen nuestros datos, sino
tambin las medidas de variacin que reflejan la dispersin de los
datos numricos, se debe a esa variacin intrnseca de los datos.-
Como su calculo es bastante complicado,
surge la llamada Formula de Calculo de la
Variancia, que abrevia mucho el calculo de
la misma.-
x - n x
S x = para datos sin agrupar
n - 1
x fi - n x
Sx = para datos agrupados
n - 1
Esta frmula ser para datos agrupados sin y con
intervalos.- La diferencia se da en el valor de las
observaciones xi, ya que en datos agrupados sin
intervalo sern los datos originales, y en datos
agrupados con intervalos sern los puntos
medios de los intervalos.-
Como dijimos, la variancia me da un resultado en
unidades de medida de la variable al cuadrado,
entonces aparece otra medida que llamamos
Desvo Estndar.-
DESVIACION ESTANDAR
sx = variancia
Notas fi xi Xi * fi x i Xi * fi
0 2 5 1 5 1 5
2 4 9 3 27 9 81
4 6 14 5 70 25 350
6 8 20 7 140 49 980
8 10 2 9 18 81 162
( xi - )
x =
N
S
CVx = -------- * 100
x
Cuando comparamos dos distribuciones
de datos en diferentes unidades de
medida, y queremos saber cual es ms
homognea en sus datos referentes a su
media, no tenemos ms opcin que
comparar los CV, a menor CV ms
homogneos son los datos.- Por ejemplo,
si tenemos una distribucin donde
estudiamos sueldos de la empresa y en la
otra la antigedad en la empresa de esos
mismos empleados, y nos preguntamos en
que son ms homogneos esos
empleados, en sueldos o en antigedad.-
Cuando comparamos dos distribuciones de
datos en igual unidad de medida podemos
preguntarnos en cual distribucin son ms
homogneos los datos respecto a su media.- En
este caso podemos comparar los desvos
estndar solo si las medias son iguales, y el
menor desvo estndar ms homogneos son
los datos.-
Comercio A Comercio B
10.5 8.9 9.6 7.9 10.6 8.4
10.1 9.3 9.1 8.2 10.1 9.2
10.0 9.7 11.2 9.1 8.5 10.7
11.0 10.4 10.5 9.3 7.5 9.8
9.8 10.0 9.9 8.8 9.3 9.5
Eje de simetra
Variable
X = Me = Mo
A medida que la distribucin se hace ms asimtrica
hacia uno u otro lado (derecha e izquierda), las medidas
de tendencia central tienden a alejarse una de otra,
siendo la media por estar afectada por los valores
extremos la que ms se desplaza hacia la cola de la
distribucin.-
X Me Mo Mo Me X
X - Mo 3( X - Me)
CAP = o CAP =
s s
Comentarios
La magnitud absoluta del coeficiente indica la
cantidad de desvo estndar a los que se encuentra
la media del modo.-
Se lo puede expresar en porcentaje, multiplicando
por cien el resultado de la expresin anterior.-
Si el coeficiente es igual a cero, estamos en una
situacin de simetra perfecta.-
En situaciones de asimetra el coeficiente puede
tomar una asimetra a derecha o a izquierda.-
Recordemos que una es positiva y la otra negativa.-
En trminos tericos, este Coeficiente puede tomar
valores que varan entre - 3 y +3.-
ANALISIS
EXPLORATORIO DE
DATOS
RESUMEN DE CINCO
NUMEROS
Cuando hemos desarrollado el Anlisis Exploratorio de Datos, se
dijo que ordenbamos los datos mediante un diagrama de tallo y
hoja.- Es importante identificar y describir las caractersticas
principales de los datos en forma resumida.- Un enfoque a este
resumen
Anlisis Exploratorio de datos es desarrollar un
de cinco nmeros y construir un
diagrama de caja y bigotes.-
3300
3200
3100
Sueldo
3000
2900
2800
2700
1obs 2obs 3obs
41 70 22
78 53 68
84 34 48
60 36 25
46 47 29
64 16 56 Suponga que tiene las tres
43 53 64
37 43 30
observaciones correspondientes a tres
50 29 57 meses diferentes de su empresa.-
57 83 32
24 42 39 Decide comparar la situacin de su
78 48 39
51 57 50 empresa en los tres meses mediante
41 29 35 diagramas de caja y bigote.- Resulta el
56 64 36
46 41 16
diagrama siguiente:
99 86 98
71 54 39
41 2 53
41 39 36
22 40 46
62 70 46
64 52 57
44 38 60
41 63 62
Boxplot of 1obs; 2obs; 3obs
100
80
60
Data
40
20
0
1obs 2obs 3obs
VEAMOS OTRO EJEMPLO.-
90
80
Data
70
60
50
40
1 2 3
La figura anterior contiene los diagramas de caja
de las puntuaciones de cada uno de estos tres
grupos.- En este ejemplo concreto, puede
apreciarse que no hay observaciones
excesivamente atpicas en ninguno de los tres
grupos.- Por eso, los bigotes de las cajas
corresponden a la menor y mayor puntuacin de
cada grupo.- En el diagrama se observa que los
estudiantes de Contador consiguieron la mejor
mediana, pero sus puntuaciones tienen una
variabilidad considerablemente mayor que la de
los otros grupos.- Otro hecho que llama la
atencin es la gran cantidad de puntuaciones
bajas obtenidas por los estudiantes de
Economa.-
EJERCICIO DE
MEDIDAS DESCRIPTIVA
Y
DIAGRAMA DE CAJA
CON INFOSTAT
Supongamos tener el Rendimiento anual, de una muestra de 50
fondos mutuos que se tomaron de 6858 fondos mutuos que se
publicaron en una Revista Econmico Financiera en febrero del
2006.- Para cada fondo el rendimiento anual se da como porcentaje,
los valores fueron:
0,5 1,1 2,0 3,6 1,9 2,6 1,3 3,2 2,4 1,5
1,8 1,6 3,8 2,4 2,3 3,1 3,0 2,4 2,8 0,7
4,0 2,3 3,0 0,8 1,2 2,5 2,7 2,5 2,7 3,7
1,0 3,5 2,3 3,4 1,9 1,7 1,2 1,9 4,5 1,8
2,0 2,2 1,8 1,4 2,3 5,0 1,5 3,1 2,1 1,7
C:\ Archivos de programa\ InfoStat\datos\Rendimientos fondos
(pier).IDB: 22/03/2006 - 6:41:08
Estadstica descriptiva
Resumen Columna1
n 50,00
Media 2,31
D.E. 0,98
Var(n-1) 0,95
CV 42,22
Mn 0,50
Mx 5,00
Mediana 2,30
Q1 1,70
Q3 3,00
Asimetra 0,53
Kurtosis 0,21
P(90) 3,60
5,2
4,0
Rendimiento anual en %
2,8
1,5
0,3
4
Rendimiento anual en %
0
EJEMPLOS PARA RESOLVER EN CLASE
4,8 5,2 7,6 5,7 6,2 6,6 7,5 8,0 9,0 7,7
3,7 7,3 6,7 7,7 8,2 9,2 8,3 7,3 8,2 6,5
5,4 9,3 10,0 7,3 8,2 9,7 8,4 4,7 7,4 8,3
23 35 14 37 45 28
12 40 27 13 25 26
37 20 29 49 13 40
27 16 40 20 66 13
VARIANCIA 0.0105
CUARTIL 1 3.7400
QUARTIL 3 3.8700
MEDIANA 3.7900
MODO 3.7700
RIC 0.1300
RANGO 0.5400
SESGO 0.4500
(xi x) (yi - y)
Cov (X;Y) = Sxy = n-1
r = 2
Veamos un ejemplo de
diagrama
de dispersin y su Coeficiente
de correlacin.
EJERCICIO PARA DISCUTIR EN CLASE
SOLUCION
Scatterplot of n de mesas vs n de trabajadores
60
50
n de mesas
40
30
20
10 15 20 25 30
n de trabajadores
La planilla de calculo para calcula la Covarianza y el
Coeficiente de correlacin ser:
962,4
= 9
= 106,93
Luego tenemos
Cov (x;que
y) el Coeficiente
106,93 de correlacin es:
r = Sx Sy = 108,14758 = 0,989
20
18
16
14
y
12
10
}
8
6
5,0 7,5 10,0 12,5 15,0 17,5
x
i = b 0 + b1 X
Consideremos el ejemplo de la placa anterior, donde
tenemos pares de puntos de un proceso que tiene una
relacin lineal.-
La ecuacin lineal representada por la recta es la ecuacin
lineal que mejor se ajusta.- Vemos que los puntos de datos
individuales se encuentran por encima y por debajo de la
recta y que esta tiene puntos con desviaciones positiva
como negativas.- Se han usado tambin otros mtodos
para determinar la recta pero se llego a la conclusin que
el mtodo de mnimos cuadrado es la mejor que ajusta los
puntos a la recta, haciendo mnima las distancias de los
puntos a la recta.-
Ms adelante veremos que los coeficientes desarrollados
utilizando este mtodo tienen propiedades estadsticas
muy importantes.-
Una importante cautela que se debe tener es que el caso
de mtodo de mnimo cuadrado, es que los puntos
atpicos extremos pueden tener tal influencia en la recta de
regresin que toda la recta se dirija hacia esos puntos.-
Por lo tanto, siempre debemos examinar los diagrama de
dispersin para asegurarnos de que la relacin de
regresin no se basa solamente en unos cuantos puntos
extremos.-
En la Unidad de regresin y correlacin, desarrollaremos
con mayor precisin este tema.-
La regresin por mnimos cuadrados elige los valores de
b0 y b1 con los que se minimiza la suma de los cuadrados
de los residuos.-
Entonces:
= b0 + b1 X
b1 es la pendiente de la recta o sea la variacin de Y por
cada variacin unitaria de X y se calcula mediante la
siguiente formula:
Cov. (x;y)
b1 =
S x
Veamos un ejemplo
Supongamos que tenemos el numero de trabajadores X y
el numero de mesas producidas por hora Y, para una
muestra de 10 trabajadores.- Si la direccin decide
emplear 25 trabajadores, estime el nmero de mesas que
es probable que se produzcan.- (los datos estn en el
fichero como Rising Hills).-
60
50
y
40
30
20
10 15 20 25 30
x