Sie sind auf Seite 1von 33

CLASE

Centro y Posicin

Teniendo una muestra seleccionada y sus


datos, surgen preguntas como:

Siguen estos datos algn tipo de estructura?


Existe algn sesgo en los datos?
Hay errores de codificacin?
Son muy heterogneos estos datos?
Existen datos atpicos al patrn general?

Estadsticos
Los estadsticos son resmenes de los datos
muestrales. Describen su distribucin segn
como se comporta el centro, su dispersin y su
forma.
Se pueden agrupar en:
1. de tendencia central
2. de posicin
3. de dispersin, variabilidad
4. de forma.

Estadsticos de tendencia central


Se ubican al centro de la distribucin de los
datos. Tienen como objetivo explicar mediante
un valor numrico, cul es la tendencia
mayoritaria de los datos que se analizan.
Son tres: - media aritmtica (centro de
gravedad de los datos)
- moda (valor de la variable con
mayor frecuencia)
- mediana (valor central en el 50%)
.

Media aritmtica:
- En datos sin tabular:

i 1

x i = i-simo dato
n = tamao de la muestra.
k

- En datos tabulados:

i 1

yi fi
n

y i = marca de clase i-sima


k = nmero de categoras.

Posicin de la media en un histograma:

Mediana:
- En datos sin tabular: se ordenan de menor a
mayor y se ubica el valor central.
Si hay dos valores centrales, entonces se
promedian.
- En datos tabulados:

n
Fi 1

M e Li c 2
fi

la mediana se encuentra dentro de la categora


que contiene a la posicin n/2.

Moda:
- En datos sin tabular: es el valor de la variable
con mayor frecuencia.
- En datos tabulados:

( f i f i 1 )

M o Li c
( f i f i 1 ) ( f i f i 1 )

Si una distribucin muestra dos valores


modales, indicara la posibilidad que dos
poblaciones se encuentren mezcladas y sea
necesario separarlas.

Relacin entre media, moda y mediana:


Si media=moda=mediana
distribucin simtrica perfecta
Si media > mediana
distribucin asimtrica a la derecha
Si media < mediana
distribucin asimtrica a la izquierda

La media es un estadstico sensible a valores


extremos. Basta que algn dato dentro de la
muestra sea muy alto o muy bajo, el promedio
se ver alterado.
La mediana, en cambio, es un estadstico
robusto. Aunque los extremos de los datos se
vean alterados, la mediana permanece
invariable.

Estadsticos descriptivos con Excel:

Datos Anlisis de datos

salida

Estadsticos descriptivos con Minitab:

entrega

Tambin se obtiene el histograma:

Otra opcin:

Estadsticos de posicin
Son valores de la variable que dividen a la
muestra en partes de igual porcentaje.
Los percentiles separan la muestra en grupos
de 1% cada uno (son 99)
Cuartiles: agrupan 25% c/u (son 3)
Quintiles: agrupan 20% c/u (son 4)
Deciles: agrupan 10% c/u (son 9)

- En datos sin tabular:


Ordenar de menor a mayor los n datos y dividir
en grupos de igual tamao.
- En datos tabulados:
Pj

n j
F i 1

L i c 100
fi

j es el porcentaje hasta donde se desea


agrupar.

Un grfico asociado a cuartiles es el Boxplot:


Es una herramienta de anlisis exploratorio de
datos, creado por Tukey (1977). Es un grfico
simple, ya que se realiza bsicamente con cinco
nmeros:

Box-plot

mmino
cuartil 1
cuartil 2
cuartil 3
mximo

El grfico proporciona informacin acerca de la


localizacin, la dispersin, el sesgo y las colas
del conjunto de datos que se aprecia de una
sola mirada.
Permite adems, detectar posibles datos
anmalos o atpicos.

Un dato es anmalo si:


Surge de un error de procedimiento
Errores de digitacin
Ocurre por un hecho extraordinario, tiene
explicacin.
Observacin extraordinaria sin explicacin.

Una regla para determinar si un dato es posible


anmalo es:
Si un dato es < Q1 - 1,5(Q3-Q1)
Si un dato es > Q3 + 1,5(Q3-Q1)
Cualquier dato fuera de estos lmites podra
considerarse anmalo.
Nota: si el factor 1,5 se cambia por 3, entonces
los lmites detectan los datos anmalos
extremos.

Nota:
Otra forma de detectar datos sospechosos de ser
anomalas es, si se cumple el criterio:

donde:
Med(x) = mediana
MEDA(x) = mediana de las desviaciones absolutas
de los datos, con respeto a la mediana

BOX-PLOT

Al interpretar un box-plot tenga en cuenta las


siguientes consideraciones:
-Mientras ms larga la caja y los bigotes, ms
dispersa es la distribucin de datos.
-La distancia entre las cinco medidas descritas
en el boxplot puede variar, sin embargo, la
cantidad de elementos entre una y otra es la
misma (25%).

- La lnea que representa la mediana indica


simetra. Si est relativamente en el centro de
la caja la distribucin es simtrica.
- Si por el contrario se acerca al 1 o 3 cuartil,
la distribucin pudiera ser sesgada a la
derecha (asimtrica positiva) o sesgada a la
izquierda (asimtrica negativa),
respectivamente.

Ejemplo con Minitab:


Contaminacin promedio mensual

Distribucin de la contaminacin promedio


por mes, en un ao:

Distribucin de la contaminacin diaria, en un


ao:

Un grfico de Box-plot se puede asociar a un


grfico de distribucin, como es el Histograma:

Das könnte Ihnen auch gefallen