Sie sind auf Seite 1von 36

02 Anlisis de datos

Objetivos del estudio exploratorio de datos

Desplegar los datos en diferentes formas


Resumir parte de la informacin contenida en los datos
Familiarizarse con los datos y la geologa
poblaciones estadsticas vs. poblaciones geolgicas
Seleccionar poblaciones geolgicas
Definir zona de estudio
Decisin de estacionaridad / Identificar deriva en los datos
Verificar la calidad y representatividad de los datos (datos duplicados,
atpicos o aberrantes; inconsistencias; derivas; tipos de datos disponibles;
soporte volumtrico; muestreo preferencial; relaciones multivariables;
variables submuestreadas; etc.)

UNSCH
Despliegue de datos

Anlisis utilizando plantas y secciones

UNSCH
Despliegue de datos
Visualizacin en 3-D interpretacin

UNSCH
Despliegue de datos

Mapas codificados con color

UNSCH
Histogramas

Histograma
Histograma: despliegue de frecuencia de 200

ocurrencia de datos en clases 180

160

140

Frecuencia
120

100

80

60

40

20

0
0 0,2 0,4 0,6 0,8 1 1,2 1,4 1,6 1,8 2 2,2 2,4 2,6 2,8 3 3,2 3,4 3,6 3,8 4 4,2 4,4 4,6 4,8 5

Clase

Histograma acumulado

Histograma acumulado: despliegue de la


100%

frecuencia acumulada bajo un valor de Frecuencia acumulada 80%

corte (que define una clase) 60%

40%

20%

UNSCH
0%
0 0,2 0,4 0,6 0,8 1 1,2 1,4 1,6 1,8 2 2,2 2,4 2,6 2,8 3 3,2 3,4 3,6 3,8 4 4,2 4,4 4,6 4,8 5

Clase
Histogramas
Histograma:
Registra el nmero de muestras en cada clase.
Ancho de clase suele ser constante la altura de cada barra del histograma es
proporcional a la frecuencia de la clase
Entrega estadsticas de las muestras (no de la poblacin)
Escala logartmica puede ser til
Media y varianza son muy sensibles a valores extremos
Mediana y rango intercuartil son medidas ms robustas
Cmo construirlo?
Dependiendo del nmero de muestras, escoger un nmero de clases
Desplegar el rango importante de los datos (colas no se ven bien)
Desplegar estadsticas con un nmero razonable de decimales
Tcnicas de suavizamiento (programacin cuadrtica) mantienen las estadsticas de la
muestra
Frecuencia

UNSCH
Histogramas

Histograma acumulado (grfico de frecuencia acumulativa ):


- Puede utilizarse para comparar la distribucin de datos con modelos
paramtricos (normal / lognormal)
- Se utiliza para transformar la distribucin de datos a cualquier otra distribucin
deseada
- Puede utilizarse para ver el efecto de compositar a un determinado largo

Cmo construirlo?
- El histograma acumulado no requiere definir un ancho de clase; pueden crearse a
la resolucin de los datos
Distribucin granulomtrica
Frecuencia Acumulada

1.0000

1
Proporcin acumulada

0.8000

0.6000

0.4000

0.2000

0 0.0000

UNSCH 1 2 3 4 5 6

Clase de tamao
7 8 9 10
Histogramas

Un cuantil es el valor de la variable que corresponde a una frecuencia


acumulada dada
- primer cuartil = cuantil 0.25
- segundo cuartil = mediana = cuantil 0.5
- tercer cuartil = cuantil 0.75
se puede leer cualquier cuantil del grfico de frecuencia acumulativa
Se puede tambin leer los intervalos de probabilidad desde el grfico de
frecuencia acumulativa

G(z)1.0

0.9

0.8
0.7

0.6

0.5

0.4
0.3

0.2

0.1

0.0
0 2 4 6 8 10 12 14 16
z

UNSCH
Estadsticas bsicas

Medidas de posicin:
Media 1 n
m z (u )
n 1

Mediana z (u( n1) / 2 ) si n es par



M ( z (u n / 2 ) z (u( n / 2)1 ))
si n es impar
2
Moda, mnimo y mximo
Cuartil inferior y superior
Deciles, percentiles y cuantiles: el cuantil p de la distribucin
es el valor zp tal que p% de los datos est bajo zp

F ( z p ) Prob{Z z p } p [0,1]

UNSCH
Estadsticas Bsicas

Medidas de dispersin:
1 n
Varianza s ( z (u ) m) 2
2

n 1

Desviacin estndar s s2

Rango

Rango intercuartil IQR Q 3 Q 1

Coeficiente de variacin s
CVexp .
m

UNSCH
Estadsticas Bsicas

Yacimiento tipo prfido


cuprfero CV = 0.7
Yacimiento de cobre de
mediana var. CV = 1.5
Yacimiento de oro de alta
variabilidad CV = 4.5

UNSCH
Estadsticas Bsicas

Medidas de forma:
Coeficiente de asimetra (skewness)

1 n
n
( z (u ) m) 3
Coeficient e de asimetra 1
s3

Positivo Cercano a 0 Negativo

Frec. Frec.
Frec.

UNSCH
Mm z(x)
M
z(x) mM
z(x)
m
Estadsticas Bsicas

Coeficiente de aplanamiento (Kurtosis)

1 n
n
( z (u ) m) 4
Coeficient e de aplanamien to 1
s4

Da una idea del aplanamiento de la distribucin (relacin entre


altura y ancho de la campana). Su valor es 3 para
distribuciones normales (Gaussianas)

UNSCH
Distribucin Normal

Propiedades:
Completamente definida por su media y varianza
Tiene una descripcin matemtica concisa
Favorable para enfoques tericos de estimacin
Funcin de densidad de probabilidad:
g(z)
0.40

0.35
2
1 z 0.30

1
2

g( z) e
0.25

0.20

2 0.15

0.10

0.05

0.00
0 2 4 6 8 10 12 14 16
z

UNSCH
Distribucin Normal

Estandarizacin: z
y

Distribucin normal estndar N(0,1)

Funcin de distribucin acumulada:


2
y
1
g( y ) e 2

2
corresponde al rea bajo la curva
y

G( y ) g( y ) dy

UNSCH
Distribucin Normal

Funcin de densidad de probabilidad Distribucin de probabilidad


acumulada

g(z) G(z)
1.0
0.40
0.9
0.35
0.8
0.30 0.7

0.25 0.6

0.20 0.5
0.4
0.15
0.3
0.10
0.2
0.05 0.1
0.00 0.0
0 2 4 6 8 10 12 14 16 0 2 4 6 8 10 12 14 16
z z

UNSCH
Distribucin Normal

Intervalos de confianza
68% 95%

g(z) g(z)
0.40 0.40

0.35 0.35

0.30 0.30

0.25 0.25

0.20 0.20 95 %
0.15 68% 0.15

0.10 0.10

0.05
16% 16%
0.05 2.5% 2.5%
0.00 0.00
0 2 4 6 8 10 12 14 16 0 2 4 6 8 10 12 14 16
z z

UNSCH
Distribucin Normal

g(y)
0.40

0.35

0.30

0.25

0.20

0.15 90 %
0.10

0.05

0
-4 -3 -2 -1 0 1 2 3 4 y

UNSCH
Distribucin Lognormal

Una poblacin es lognormal si los logaritmos de los datos estn distribuidos


como una normal
Propiedades:
En Ciencias de la Tierra es comn encontrar variables cuya distribucin es
cercana a una lognormal
Relacin con la distribucin normal la hace fcil de utilizar
Tambin es favorable para enfoques tericos de estimacin

Funcin de densidad de probabilidad:


g(z)
0.35
2
1 ln( z )

1 1 2 ln(z ) 0.30
g( z) e
2 ln( z ) z 0.25

0.20

0.15

0.10

0.05

UNSCH 0.00
0 2 4 6 8 10
z
Distribucin Lognormal

g(z) G(z)
0.35 1.0

0.9
0.30
0.8
0.25 0.7

0.6
0.20
0.5
0.15
0.4

0.10 0.3

0.2
0.05
0.1

0.00 0.0
0 2 4 6 8 10 0 2 4 6 8 10 z
z
UNSCH
Grafico de Probabilidad

Puede usarse para verificar modelos de distribucin:


Lnea recta en escala aritmtica distribucin normal
Lnea recta en escala logartmica distribucin lognormal
Pequeas divergencias pueden ser importantes (especialmente en los
extremos)
Permite detectar valores extremos y anmalos

UNSCH
Grafico de Probabilidad

Son tiles para chequear la presencia de dos


poblaciones

UNSCH
Grafico de Probabilidad

Son tiles para chequear la presencia de dos


poblaciones
Debe confirmarse con informacin geolgica

UNSCH
Otras herramientas de anlisis univariable

Diagrama de caja (box-plot)


Resume una distribucin, en especial
su forma y dispersin, en un
diagrama de una sola dimensin

UNSCH
Otras herramientas de anlisis univariable

Curvas tonelaje-ley
(Fraccin de) tonelaje:
proporcin de datos (entre 0 y
1) cuyos valores superan una
ley de corte
Ley media: promedio de
valores de datos que superan
una ley de corte
Cantidad de metal:
producto del tonelaje por la
ley media

UNSCH
Valores extremos o outliers

Observaciones que parecen no


pertenecer a la misma poblacin
constituida por el resto de los datos.
Afectan considerablemente las
estadsticas bsicas:
Problemas al hacer regresin
Efecto en coeficiente de correlacin
Qu hacer con ellos?:
Declararlos errneos y eliminarlos
Clasificarlos en poblaciones separadas
Usar estadsticas robustas
Transformarlos para reducir su influencia
Bajarlos a un mximo razonable

Se puede eliminar los datos extremos


(outliers) slo si se ha comprobado que
estn errados. En caso de ser datos
verdaderos, proveen informacin que
puede ser crtica para la respuesta del
UNSCH
modelo
Q-q Plot

Grfico Q-Q: para comparar


dos distribuciones F1 y F2
cuantil a cuantil.

No se utiliza para comparar


la relacin par a par que
hay entre las variables.

Escoger una serie de


valores de probabilidad
pk, k = 1, 2, , K

Graficar q1(pk) versus


q2(pk), k = 1, 2, , K

UNSCH
Q-q Plot

Si todos los puntos caen en una lnea de 45o, las dos


distribuciones son exactamente iguales

Si la lnea est desplazada de los 45o, las dos distribuciones


tienen la misma forma pero diferentes medias

Si la inclinacin de la lnea no es 45o, las dos distribuciones


tienen diferentes varianzas

Si hay un carcter no lineal en el grfico Q-Q, las


distribuciones tienen diferentes formas en el histograma

UNSCH
Grfico de Dispersin

Anlisis bivariable
Pares deben corresponder a la misma ubicacin en el espacio
(co-localizados)

UNSCH
Grfico de Dispersin

Ejemplos de uso:
ley estimada-ley verdadera
leyes de cobre-arsnico, cobre total-cobre soluble, etc.
ley-profundidad

UNSCH
Nube de correlacin diferida

Se relacionan dos valores de la misma variable, en


muestras separadas por algn vector distancia

UNSCH
Correlacin

El coeficiente de correlacin es una medida de la dependencia


lineal entre las dos variables
1 n
( z 1 m Z1 )( z 2 m Z 2 )
n 1

Z1 Z 2

Una correlacin de XY = 1 implica que X e Y estn perfectamente


correlacionadas.

Independencia entre dos variables implica que el coeficiente de


correlacin es cero: XY = 0. Sin embargo, la inversa no es siempre
cierta. Correlacin cero no implica necesariamente independencia
entre las dos variables.

El coeficiente de correlacin lineal vara entre -1 y +1.

UNSCH
Correlacin

Muy sensible a valores aberrantes


El coeficiente de correlacin cambia incluso de signo

Correlacin con valor aberrante Correlacin sin valor aberrante

Y Y

= 0,73
= -0,68

X X

UNSCH
Correlacin Caso 1
Y
Caso 2
Y

= 1 = 0,68

Diferentes ejemplos X X

de coeficiente de
correlacin Caso 3 Caso 4
Y Y

=0 =0

X X

Caso 5 Caso 6
Y Y

= -0,87

= -1

X X

UNSCH
Correlacin

El coeficiente de correlacin de rango/posicin es un


complemento til:

si rango > entonces unos pocos outliers daan la que en otro


caso sera una buena correlacin

si rango < entonces unos pocos outliers mejoran la que en


otro caso sera una pobre correlacin

si rango = 1 entonces una transformacin no lineal de una


variable puede hacer = 1

UNSCH

Das könnte Ihnen auch gefallen