Beruflich Dokumente
Kultur Dokumente
ESPACIALES
por
Comit de Supervisin
Dr. Ral Pedro Mentz (Director)
Dr. Aldo Jos Viollaz
Mg. Santiago Mario Di Lullo
ndice
ndice ................................................................................................................................ i
Agradecimientos ............................................................................................................ iv
Resumen .......................................................................................................................... v
CAPITULO 1: INTRODUCCIN ............................................................................... 1
1.1 Estadstica para datos espaciales. ........................................................................... 1
1.1.1 Algunos ejemplos de datos espaciales............................................................... 1
1.2 Modelo espacial general. .......................................................................................... 2
1.2.1 Ejemplos de datos en Geoestadstica. ............................................................... 3
1.2.2 Ejemplos de datos lattice. .................................................................................. 3
1.3 Geoestadstica: definicin y alcance........................................................................ 4
CAPITULO 2: ESTADSTICA DESCRIPTIVA PARA DATOS
GEOESTADSTICOS.................................................................................................... 6
2.1 Primeras herramientas exploratorias..................................................................... 6
2.1.1 Presentacin de los datos. Mapas de datos. ..................................................... 6
2.1.2 Box Plot y/o Diagrama de tallos y hojas........................................................... 7
2.1.3 Scatter plot tridimensional. ............................................................................... 8
2.1.4 Post plot............................................................................................................... 8
2.2 Otras herramientas exploratorias........................................................................... 9
2.2.1 Diagrama de puntos de Variable versus Variable ndice. ............................ 10
2.2.2 Medias y medianas por filas y columnas....................................................... 10
2.2.3 El Estadstico u. .............................................................................................. 12
2.2.4 h- Scatter Plot .................................................................................................. 13
2.2.5 Nube de variogramas. ..................................................................................... 16
2.2.6 Nubes de las diferencias de las races cuadradas. ........................................ 18
2.2.7 El Pocket plot................................................................................................... 19
CAPITULO 3: CAMPOS ALEATORIOS................................................................. 23
3.1 Campos Aleatorios.................................................................................................. 23
3.2 Funcin de distribucin y momentos de un campo aleatorio. ............................ 23
3.3 Campos aleatorios estacionarios. .......................................................................... 24
3.4 Isotropa................................................................................................................... 26
3.5 Meseta y Alcance. ................................................................................................... 27
3.6 Campos Aleatorios Intrnsecamente Estacionarios............................................. 27
3.7 Variograma vs. Covariograma.............................................................................. 29
3.7.1 Propiedades del Variograma........................................................................... 29
3.7.2 Covariograma y Correlograma....................................................................... 30
CAPTULO 4: ANLISIS ESTRUCTURAL............................................................ 32
4.1 Estimacin del variograma. ................................................................................... 32
4.1.1 Mtodo de los momentos. ................................................................................ 32
4.1.2 Variograma para datos irregularmente espaciados...................................... 34
4.1.3 Estimacin robusta del variograma. .............................................................. 38
4.2 Modelos de variograma.......................................................................................... 39
4.2.1 Modelos de semivariogramas isotrpicos....................................................... 39
Construccin de otros modelos de variogramas en Rd. ...................................... 44
4.2.2 Anisotropa........................................................................................................ 44
ii
iii
Agradecimientos
Deseo expresar mi agradecimiento al Dr. Ral Pedro Mentz, director de esta
tesis, mi gua durante estos largos aos de vida donde estuvo inserta la realizacin de
este trabajo. l junto al equipo de docentes, investigadores y personal de apoyo del
INIE influyeron notablemente en mi formacin acadmica y humana.
Deseo agradecer a todos mis compaeros del Magister y en especial a mi amiga
Mara Cristina Ahumada quien constantemente apoy y alent la empresa que emprend
con mucho esfuerzo.
Mi gratitud para con mis profesores del profesorado, en especial a la Lic. Elda
Canterle y al Estadstico Di Veltz, quienes despertaron en mi el inters por la Estadstica
en mis pocas de estudiante de grado en la Universidad Nacional de Salta.
A mis compaeros de trabajo mi reconocimiento por sus aportes y apoyo. Al
igual que a ambas universidades, la de Salta y Tucumn, por el apoyo econmico que
hicieron posible la realizacin de este programa de Magister.
A los grandes forjadores de las ideas matemticas y estadsticas por permitirme
compartir y disfrutar su ciencia.
milln de gracias
a mi familia
Finalmente, les doy un
por el sacrificio, espera, aguante, y el compartir un pap con la que da tras da creca
ms y ms: la tesis.
Quiero dedicar de todo corazn esta tesis a toda mi familia, mis padres, mis
hermanos. En especial a Marisa mi compaera de toda la vida, a mis retoos: Beatriz
Anala, Nicols Alberto, Hctor Ral y Juan Pablo.
iv
Resumen
En este trabajo se presentan once captulos dedicados al tema "Mtodos
Estadsticos en Problemas Espaciales". De entre dichos mtodos se centraliza en el
enfoque para tratar datos espaciales que se denomina Geoestadstica.
En los primeros ocho captulos se pone nfasis en los resmenes de lecturas de
la bibliografa, parte del desarrollo del trabajo de tesis plasmado en el plan de trabajo.
En el primer captulo se presenta un marco general para el anlisis y modelado
de datos espaciales. Mediante distintos ejemplos provenientes de distintas ciencias se
muestra la necesidad de ese nuevo enfoque. Luego se define e indica los alcances del
enfoque que se trata en este trabajo: el enfoque Geoestadstico.
El segundo captulo esta dedicado a la presentacin de las herramientas
descriptivas y exploratorias del enfoque Geoestadstico. A travs de un ejemplo se
muestra como ellas son utilizadas para tal fin. A los grficos y resumen clsicos se
deben agregar otros instrumentos que enfaticen la distribucin de los valores de los
datos y las posiciones de los mismos. Los datos espaciales deben ser pensados como
una realizacin de una coleccin espacial de variables aleatorias dependientes, cuya
dependencia est fuertemente ligada a las ubicaciones espaciales. Es necesario
investigar en forma exploratoria los supuestos que se hagan sobre la distribucin de los
valores de los datos y las estructuras de dependencia. Para ello se presentan nuevas
herramientas.
En el tercer captulo se presentan los conceptos tericos que sustentan la
Geoestadstica. Se definen los conceptos de campos aleatorios, los momentos de primer
y segundo orden de un campo aleatorio, destacando la herramienta fundamental de la
Geoestadstica: el variograma. Como as tambin las definiciones necesarias de campo
aleatorio estacionario, intrnsecamente estacionario, y el carcter istropico de los
mismos. Se presentan las propiedades que debe tener el variograma como as tambin la
funcin de covarianza estacionaria a los efectos de comparacin.
En el cuarto captulo se trata la estimacin del variograma. Se trabaja en
presencia del supuesto de isotropa, y se expone la correccin en caso de anisotropa
geomtrica.
Para realizar una prediccin en una determinada posicin es preciso conocer el
valor del variograma emprico, que no siempre esta definido en dicha posicin, y se
necesita ajustar algn modelo de variograma terico. Por eso en este captulo se
presentan modelos de variogramas tericos y criterios de ajuste de los mismos a los
variogramas empricos. Por ltimo se trata la validacin cruzada que es una forma de
medir el ajuste y diagnosticar algunos problemas con el mismo.
En el quinto captulo se presenta los fundamentos tericos bsicos de la
prediccin espacial que se usar en el desarrollo de este trabajo, poniendo nfasis en el
mtodo de kriging. Se fundamenta que el kriging es sinnimo de prediccin ptima en
algn sentido, y en base a los supuestos necesarios se deducen las ecuaciones del
kriging simple y kriging ordinario. En una segunda parte se presentan caractersticas
prcticas de esta metodologa de prediccin, poniendo nfasis en como contribuyen los
vi
CAPITULO 1: INTRODUCCIN
A travs de este trabajo se pretende presentar un enfoque para el anlisis y
modelado de datos espaciales. Previo a ello en este captulo se presenta un marco
general para luego en su ltimo apartado definir e indicar los alcances del enfoque
propuesto.
estadsticos para tales datos necesitan expresar el hecho que observaciones cercanas
tienden a ser semejantes.
En contraste a los problemas geoestadsticos, los datos desde problemas de
lattices pueden ser exhautivos del fenmeno. Por supuesto, es posible realizar muestreo;
por ejemplo utilizando slo una ventana pequea de todos los datos.
Los problemas geoestadsticos se distinguen claramente de los problemas de
datos lattice por la capacidad del ndice espacial s de variar continuamente sobre un
subconjunto de Rd. Esto no afirma que los mtodos de una clase de problemas no
puedan ser apropiados para ser aplicados a la otra clase de problemas.
realizaciones plausibles de la variable estudiada. Otros tipos de aplicaciones son las que
resultan del hecho de que al proporcionar medidas sobre la incertidumbre de la
prediccin, la Geoestadstica constituye el marco ideal para seleccionar la ubicacin de
puntos de muestreo de forma que se minimice la incertidumbre de la prediccin.
Se puede advertir que los objetivos del Anlisis de Series Temporales son muy
similares a los de la Geoestadstica. De hecho, las diferencias no son tanto de tipo
conceptual como de campo de aplicacin. Sin embargo, como el desarrollo de ambos ha
sido independiente, sus nomenclaturas son bastantes diferentes, de forma que el
intercambio de tcnicas no es inmediato pese a no revestir dificultades fundamentales.
Por otro lado, los tipos de problemas que se plantean son lo suficientemente distintos
como para que dicho intercambio no sea todo lo provechoso que cabra esperar. As, la
metodologa Geoestadstica est pensada para datos distribuidos de forma arbitraria en
el espacio, por lo que sus tcnicas son ms generales pero menos potentes que las del
Anlisis de Series Temporales.
Como se deduce de la definicin, la Geoestadstica est muy orientada a la
aplicacin por lo que se requiere no slo el conocimiento de las tcnicas y metodologa
de la misma, sino tambin entender conceptualmente el fenmeno en estudio. As a lo
largo de los prximos cinco captulos se presentar el mtodo Geoestadstico y en los
ltimos se aplicarn a distintos campos del conocimiento cientfico.
Figura 2.1: Posiciones de los datos correspondientes al estudio de la contaminacin del suelo.
Norte
Este
Figura 2.2: Medidas de cadmio en sus respectivas posiciones
Este
350
400
450
15
10
5
0
150
200
Norte
250
300
A partir de este grfico se observa una tendencia general, los valores ms altos
ocurren en la banda central de la direccin oeste - este. Mientras los valores menores se
presentan en bandas paralelas en el sur y en el norte. Adems se detecta un posible valor
alejado espacial: el valor 11.5 correspondiente a las coordenadas (290, 310), porque en
las posiciones vecinas tienen valores pequeos. Este valor debera ser investigado.
Otros grficos similares pueden ser considerados al realizar la codificacin
utilizando mas percentiles, esto es cuando la cantidad de datos es muy grande para que
tenga sentido la codificacin. A estos ltimos grficos algunos autores los denominan
Percentage Plots.
E (Z (s + h) Z (s) ) = 0
Var (Z (s + h) Z (s) ) = 2 (h)
(2.2.1)
(2.2.2)
a)
Figura 2.6: Diagrama de puntos de: a) cadmio vs. Coordenada este.
b)
b) cadmio vs. Coordenada norte.
10
fila
columna
Figura 2.7: Grilla de ubicacin de datos que definen filas y columnas.
Como este conjunto de datos no est regularmente espaciado, es decir los datos
no estn ubicados en una grilla regular, se realiza un agrupamiento de baja resolucin de
las observaciones como en una tabla de doble entrada, como lo indica la Figura 2.8. Las
filas (azul) y las columnas (negro) indican las posiciones donde se fijan los valores
cercanos.
Figura 2.8: Grilla de baja resolucin para realizar el clculo de las medias muestrales.
a)
b)
Figura 2.10: En ambas figuras con azul se representan los valores de la media y con rojo los valores de
la mediana de los valores de contenido de cadmio. a) Segn columnas.
b) Segn filas.
signo( i )
~ 1
i
donde i = Yi i = 1, 2, K , n
Y Y
2 f ( )
n i =1
~ 2
Var (Y Y ) =
n
As, la diferencia media mediana estandarizada es:
resultado es vlido:
12
1
2
(1)
u n
~
Y Y
0.7555
Segn Cressie se debe prestar atencin a los valores de u que estn cercanos a 3 o sean
ms grandes que 3.
En el contexto del anlisis exploratorio de datos se usa como un estimador de a:
rango intercuartil de las Y
=
2 0.6745
La tabla 2.1 presenta las diferencias media mediana estandarizadas, para los
valores que estamos tratando. De la tabla 2.1 se observa que el valor u seala que en la
columna 1 podra existir un outliers, as el valor sospechoso es z(254.4, 216.0)= 14.9
p.p.m.(ver Figura 2.5) que es muy grande comparados con los dems valores de la
columna que no superan el valor del primer cuartil 5.3 p.p.m..
Cuando existe covarianza positiva entre las Y, (1) es una subestimacin de la
~
verdadera varianza de la diferencia Y Y y por lo tanto u indica la existencia de ms
filas y columnas atpicas que las que debera.
Fila
Coordenada
Norte media
u
Fila
1
118.6
2
138
3
150
4
163
5
172
6
181.3
7
193
8
204.3
9
215.5
10
227
1.03
11
0
12
0
13
0.71
14
0
15
0.76
16
-0.18
17
0.59
0.27
Coordenada
Norte media
u
246
253.0
268.5
271.5
285
295
313
0.75
0.63
------
0.04
0.42
- 0.07
Columna
1
2
3
4
5
6
7
8
9
10
11
Coordenada 254.4 275.4 284.8 333.6 345.6 354.2 364.8 412.8 434.8 443.6 492.0
Este media
u
3.35
0.04
-0.35 -0.87
0
-1.64 1.08
-0.7
2.02
-1.08 -1.21
Tabla 2.1: Diferencias entre las medias y las medianas estandarizadas segn filas y segn columnas.
13
Si los datos estn irregularmente espaciados, todos los pares que tengan una
distancia de separacin cercana a la del vector separacin h sern retenidos para
construir un h-scatter plot. En la prctica, se establece una tolerancia sobre el vector
separacin h. Esta tolerancia se puede establecer de diversas maneras, las dos ms
usadas son las siguientes:
Con centro en el punto final del vector separacin h se considera un rectngulo de
lados como se indica en la Figura 2.12 a). As por ejemplo el vector h1 es retenido
para la construccin del h-scatter plot en la direccin h.
a)
b)
14
Las figuras 2.13 y 2.14 muestran distintos h-scatter plots para la variable
cadmio, para la direccin Oeste-Este, para distintos magnitudes promedios del vector de
separacin. Los h-scatter plot presentados a modo de ejemplo no muestran la existencia
de posibles extremos.
a)
b)
Figura 2.13: H-scatter plots para la direccin Oeste-Este con una tolerancia de 150. a)h=33.6 b)h=62.4.
c)
d)
Figura 2.14: H-scatter plots para la direccin Oeste-este con una tolerancia de 150.c)h=91.03 d)h=125.1
15
donde la suma se realiza sobre todos los pares que contribuyen al clculo del
variograma emprico en la direccin del vector h. Por ser un promedio de diferencias
elevadas al cuadrado, est afectado por observaciones atpicas. Una manera de
investigar la influencia de posibles valores alejados sobre el variograma es a travs de la
herramienta exploratoria denominada nube de variogramas. Este instrumento consiste
en graficar para una direccin dada, por ejemplo Oeste- Este, y para cada distancia de
separacin h = h los valores de las diferencias al cuadrado de los valores de la variable
que contribuyen al clculo del variograma o del semivariograma emprico. En forma
ms simple la nube de variogramas en la direccin e es simplemente un grfico x - y de
puntos de los valores
(Z (s j ) Z (s i ) )2 :s i + h e = s j , (i, j ) N (he)
versus los valores de h.
La Figura 2.15 muestra la nube de variogramas para la variable que estamos
analizando en la direccin Oeste- Este, para 0 < h 150 pies .
Se debe adoptar un criterio para determinar que tan grande debe ser el valor que
precise atencin. Es por ello que se recurre al box plot de la nube de variogramas para
cada h si es que los datos estn distribuidos en una grilla regular o para h promedios
correspondientes a grupos de h cuando los datos estn irregularmente espaciados.
La Figura 2.16 muestra los box- plot de la nube de variogramas en la direccin
Oeste-Este, donde los h estn agrupados en intervalos de amplitud 10.
La Figura 2.17 muestra el mapa en donde se identifican los pares cuyos valores
de diferencias de cuadrados son muy grandes, donde adems se muestra que para los
clculos en la direccin en cuestin se tuvo en cuenta una tolerancia angular de 150.
16
Figura 2.16: Box Plot de la nube de variogramas correspondientes a la figura 2.15. Las unidades en el
eje vertical son (p. p. m. de cadmio)2.Por ejemplo: el valor h =2 corresponde al intervalo 20 h < 30 .
Figura 2.17: Mapa en donde se indican los pares de posiciones cuyos cuadrados de las diferencias de
contenido de cadmio son valores grandes con respectos a los dems valores para cada h.
La tabla 2.2 muestra los valores de la mitad del cuadrado de la diferencia de los
contenidos de cadmio que son valores alejados.
Una gran cantidad de pares de datos se debera considerar para un anlisis
exhaustivo. Pero, es importante destacar que la nube de variogramas puede llevar a
confundir la asimetra de la distribucin de los valores de (h) para cada h con los
valores alejados debido a que las diferencias estn elevadas al cuadrado. Esta ltima
afirmacin est sustentada en el siguiente resultado extrado de Cressie(1991): Si Z es
un proceso Gaussiano, (Z(s + h) Z(s))2 se distribuye como 2(h)21 donde 21 es una
variable aleatoria chi cuadrado con 1 grado de libertad; por lo tanto, 2(h) es el primer
momento de una variable aleatoria altamente asimtrica.
17
Identificacin
3
4
5
5
6
6
6
8
8
8
8
10
10
10
10
12
13
32
1
57
28
5
16
14
48
48
48
16
37
33
53
50
14
52
9
34
59
45
53
56
24
57
46
27
57
29
12
57
48
43
47
Distancia
Z(+)
39.44
46.68
52.80
51.382
61.846
63.739
64.830
81.937
84.148
85.00
89.746
101.052
101.117
105.60
107.6678
124.804
132.00
1.20
11.50
16.70
12.10
11.20
8.30
11.5
6.80
680
6.8
8.30
8.7
1.7
6.5
14.90
11.50
11.60
[Z ( +) Z ( )]2
Z(-)
5.2
1.2
6.90
1.60
6.50
11.0
5.3
16.7
15.0
14.5
16.70
0.9
9.5
16.7
6.8
4.40
3.40
8
53.045
48.020
55.125
11.045
3.649
19.22
49.005
33.66
29.645
35.28
30.42
30.42
52.020
32.80
25.105
33.60
Tabla 2.2: Valores de los identificadores para cada vector, h, los valores de la variable en el origen del
vector y en el extremo final del vector, y por ltimo el valor de la mitad del cuadrado de la diferencia de
los contenidos de cadmio para cada vector.
1
1
0.457 + 0.494
2 (h ) =
Z ( s i ) Z (s j ) 2
N (h )
N (h) N (h)
Identificacin
51
5
16
14
60
53
56
24
Distancia
64.800
61.846
63.739
64.830
Z(+)
Z(-)
9.9
11.2
8.3
11.5
9.9
6.5
11.0
5.3
(1 2 )[Z ( +) Z ()]1 2
0
1.084
0.821
1.245
Tabla 2.3: Valores de los identificadores para cada vector, h, los valores de la variable en el origen del
vector y en el extremo final del vector, y por ltimo el valor de la mitad de la raz cuadrada de la
diferencia de los contenidos de cadmio para cada vector.
18
h= k j
Yh =
1
N ( h e)
Z (s i + he) Z (s i ) 2
N ( h e)
19
Se define
Pjk = Y jk Yh
El conjunto de estos valores constituye la contribucin residual de la fila j al
estimador del variograma en los diferentes retardos. Idealmente, estos puntos se
distribuirn alrededor del cero, pero si existe algn valor inusual en la fila j, entonces
dar una contribucin inusual a todos los retardos y tpicamente mostrar una
distribucin de los puntos arriba del cero. Al variar la fila j y ubicando los scatterplots
juntos unos de otros se forma el grfico denominado pocket plot.
La tabla 2.4 (pg. 22) presenta los resultados para los datos de la grilla de la
Figura 2.19. Los resultados de la ltima columna son representados en la Figura 2.20.
Claramente las filas 5 y 8 son atpicas, los valores {P5k } y {P8 k } estn por encima del
cero.
20
En la Figura 2.21 se presenta los box-plots de los pocket plot, que muestra
claramente que las filas anteriormente nombradas son los focos de no estacionariedad.
21
Tabla 2.4:Valores de las medias de las races cuadradas de las diferencias, de las medias ponderadas y
de los residuos para las distintas filas j separadas de la fila k en un retardo h.
22
(3.1.1)
, . . . ,Sm (z1
, . . ., zm ) P[ Z(s1 ) z1 , . . . , Z(sm ) zm ]
(3.2.1)
23
(3.2.2)
(3.2.3)
C (s i , s j ) = E [ Z (s i ) (s i )][ Z (s j ) (s j ) ]
(3.2.4)
(3.2.5)
24
E(Z(s)) =
para todo s
(3.3.1)
b) Para toda pareja de variables aleatorias Z(s + h), Z(s) su covarianza existe y slo
depende del vector separacin h, es decir,
C ( s + h , s) = E { Z ( s + h ) Z ( s) } 2 = C ( h )
(3.3.2)
2 ( s + h, s) = 2 (h) = E [ Z (s + h) Z (s)]2
(3.3.3)
(3.3.4)
25
3.4 Isotropa.
Una gran simplificacin se obtiene al suponer que las estructuras de primer
orden y de segundo orden son funciones slo de la distancia; ello es debido a que en la
prctica en la mayora de los casos el nmero de datos no es suficiente para caracterizar
el comportamiento del campo en las distintas direcciones.
La estacionariedad puede ser pensada como una propiedad de invariancia bajo el
grupo de transformaciones de las traslaciones de las coordenadas. Para un campo
aleatorio en R d podemos considerar tambin la invariancia bajo rotaciones y reflexiones.
Stein(1999) define a un campo aleatorio Z en R d como estrictamente isotrpico
si y slo si sus distribuciones conjuntas finitas son invariantes bajo todos los
movimientos rgidos.
Esto es, para cualquier matriz ortogonal H d d y cualquier s R d
Pr{Z (H s1 + s) t1 , K , Z (H s n + s) t n }= Pr{Z (s1 ) t1 , K , Z (s n ) t n } para todo n
finito, para todas las posiciones s1 , K , s n R d .
La condicin de isotropa equivale a suponer que no existe razn para distinguir
una direccin de otra para el estudio del campo aleatorio bajo consideracin.
Un campo aleatorio Z(s) en R d es dbilmente isotrpico isotrpico de orden 2 o
de segundo orden si:
tal que E(Z(s)) = para todo s
(3.4.1)
a) existe una constante
b) Para toda pareja de variables aleatorias Z(s + h), Z(s) su covarianza existe y es una
funcin C no negativa tal que depende de la magnitud del vector separacin h, es decir,
que
C (s + h,s)= E{Z (s+h)Z (s)} 2 =C ( h )
para todo s , s + h R d
(3.4.2)
La funcin C ( h ) recibe el nombre de funcin de autocovarianza istropica para Z.
c) Cuando el covariograma es isotrpico entonces el variograma es isotrpico y vale
que:
2( h ) = 2{C(0) C( h )}
(3.4.3)
Notacin: A fin de simplificar la notacin simbolizar h con h.
La Figura 3.1 muestra los grficos donde se observa la equivalencia total entre el
semivariograma y el covariograma isotrpicos.
26
ALCANCE
M
E
S
E
T
A
EFECTO
PEPITA
27
(3.6.2)
(3.6.3)
(3.6.4)
k + h 1
Var ( Z k +h Z k ) = Var i = h
i =1
El valor esperado y la varianza de los incrementos no dependen de k, adems el
variograma de este proceso es estacionario porque viene dado por h, o sea
2 (h) = Var ( Z k +h Z k ) = h
(3.6.5)
(3.6.6)
28
(3.6.7)
Var [Z (s + h) Z (s)] = 2 ( h )
(3.6.8)
(3.7.1)
2 (0) = 0
(3.7.2)
(3.7.3)
29
i =1 j =1
=0.
i =1
(3.7.5)
El variograma debe crecer ms lentamente que h . Esto es que:
2 (h)
lim h
=0
2
h
2
(3.7.6)
Observacin:
Algunos autores definen errneamente el variograma como E(Z(s1 ) Z(s2))2. Esta
definicin coincide con la definicin 2(h)= Var (Z(s1 ) Z(s2)) con h = s1 s2 si el
proceso Z () es intrnsecamente estacionario, pero si el proceso Z() es representado
por:
Z(s ) = (s) + (s )
donde (s) es un proceso estocstico intrnsecamente estacionario con variograma 2()
y la media (s) no es constante, entonces
E(Z(s1 ) Z(s2))2 = 2(s1 s2) + ((s1 ) (s2))2
que no es en general una funcin de s1 s2. Ni necesariamente satisfar la ltima
propiedad citada anteriormente que todos los variogramas deben satisfacer.
3.7.2 Covariograma y Correlograma.
El covariograma o funcin de covarianza estacionaria es relativa al proceso
estocstico Z () estacionario de segundo orden.
El covariograma tiene las siguientes propiedades:
C (h) = C (h)
(3.7.7)
C(0) = Var[Z(s)] 0
C(h) C(0)
s D Rd
(Desigualdad de Cauchy-Schwarz)
(3.7.8)
(3.7.9)
(3.7.10)
30
31
[ (Z(si)
Z(sj))2 ]
/ N(h)
h Rd
(4.1.1)
(4.1.2)
= N (h)
porque N(h) es coordinable con N(h), y 2 $ (h) = 2 $ (h), preservando una propiedad
del variograma terico.
Este estimador es insesgado, o sea E(2 $ (h)) = 2 (h). La prueba es la siguiente,
E [[ (Z(si ) Z(sj))2 ]
debido a que Z
3
+
2
4
+
3
3
+
4
5
+
5
4
+
6
6
+
7
5
+
8
6
+
9
6 Z observado
+
10
Para h = 1
N(1)= 9
N(2)= 8
1
2
9
8
1.33 1.2
3
7
2.1
4
6
3.3
5
5
3.8
6
4
5.7
7
3
8
8
2
9
9
1
16
Si h = (1,0) N((1,0)) = {(s2, s1); (s3,s2); (s5 ,s4); (s6,s5); (s8,s7); (s9,s8)}
33
N((1,0))= 6
0
0
0
1
0
1
0
1
1
1
1
2
1
1
2
0
2
2
2
0
2
2
1
5
1
2
5
1
2
5
2
1
5
2
2
8
2
2
8
N ( h)
h j xi yi < h j +1
De esta forma se aumenta el nmero de parejas en desmedro de discretizar el
variograma (o semivariograma), ya que se obtiene un solo valor del variograma
muestral para cada intervalo 2 * (h *j ) . La distancia h *j puede tomarse como la media de
las distancias de todas las parejas de puntos (posiciones) que se emplearon para
calcular 2 * (h *j ) .
34
C
D
35
Las regiones de tolerancia debern ser tan pequeas como sea posible para
retener la resolucin espacial, sin embargo bastante grandes, de modo que el estimador
2 + () sea estable.
Journel y Huijbregts(1978) (citado por Cressie 1991) recomiendan que el
nmero de pares distintos U {N(h); h T(h(k))} en T(h(k)) sea al menos 30; as las
regiones de tolerancia se deberan elegir de modo que la mayora de ellas satisfagan esta
condicin.
A menudo las regiones {T(h(k)): k =1,2, ...,r} se eligen disjuntas y exhaustivas,
en forma anloga a la eleccin de los intervalos para construir el histograma de un
conjunto de datos univariados.
Ejemplo 4.3: Los siguientes grficos presentan los valores del semivariograma a partir
de las observaciones de la variable contenido de Cadmio correspondiente al conjunto
de datos presentado en el captulo 2. Los tres primeros grficos fueron obtenidos con el
programa VARIOWIN.
En la figura 4.2 se presenta el semivariograma clsico omnidireccional que es
una herramienta muy utilizada en geoestadstica para obtener estimaciones de las
caractersticas del variograma: el alcance, la meseta y el efecto pepita. Para obtener el
semivariograma clsico omnidireccional se considera la direccin de 00 con una
tolerancia angular de 900 a ambos lados de la direccin especificada, de esta manera
permite que se incluyan todas las parejas de puntos independientemente de la direccin.
Esto, maximiza el nmero de parejas en cada clase de distancia, pero produce un
suavizado del semivariograma.
36
Figura 4.3: Semivariograma omnidireccional para la variable Cadmio. Los valores numricos indican
el nmero de parejas que intervienen en el clculo.
37
/ N(h)
h Rd
38
2(h)21 donde 21 es una variable aleatoria chi cuadrado con 1 grado de libertad. Por
lo tanto 2(h) es el primer momento de una variable aleatoria altamente asimtrica.
Usando las transformaciones de Box y Cox, Cressie y Hawkins encontraron que la raz
cuarta de 21 tiene una asimetra de 0.08 y una kurtosis de 2.48 (comparada con 0 y 3 de
la distribucin Gaussiana). De esta forma varios estimadores de posicin pueden ser
aplicados a:
{Z(si) Z(sj) 1/2: (si , sj ) N(h) }
Finalmente, estos estimadores son elevados a la cuarta potencia, para llevarlos a
una escala correcta, y se ajustan por sesgo. Por ejemplo si los estimadores de posicin
son la media o la mediana, resultan los estimadores:
2 (h)
(4.1.3)
(4.1.4)
donde Med {}
denota la mediana de la sucesin {}
y B(h) corrige el sesgo [el valor
asinttico de B(h) = 0.45].
Hay otra ventaja en usar Z(si) Z(sj) 1/2 en vez de (Z(si ) Z(sj))2. Ntese que
los sumandos en el estimador clsico y en (4.1.3) no son independientes, y tanto ms
dependientes ellos son, menos eficiente es su promedio para la estimacin del
variograma. En Cressie (1991) se muestra que los sumandos {Z(si ) Z(sj) 1/2} en
(4.1.3) son menos correlacionados que los sumandos {(Z(si ) Z(sj)) 2} en (4.1.1).
Un estudio comparativo realizado por Omre muestra que el semivariograma
muestral as como el estimador de Cressie y Hawkins son bastante sensibles a la
hiptesis de que la variable Z () tenga una distribucin normal.
39
h=0
(h;
)=
c + b h
0 l
(4.2.1)
h0
a)
b)
40
0
si
h= 0
3
3 h 1 h
(h;
)= c0 + ce
si 0 < h a e
2 a e 2 a e
c0 + ce
si
h ae
(4.2.2)
.
finita h = a e el alcance. La pendiente en el origen es igual a 15
c0 + ce
ae
0
si h=0
(h;
)=
h
si h0
c0 +c p 1 exp
Como
alcance
h
lim c0 + c p 1 exp = c0 + c p
h
a e
prctico a p
suele tomarse la
distancia
(4.2.3)
la
c0 + c p
ap
41
h
(h;
)= c0 1 exp( 2 )
a
(4.2.4)
0
si
(h;)=
c + c h 2 / (1 + h 2 / a ) si
r
0 r
42
h= 0
(4.2.5)
h 0
Este modelo tambin alcanza su meseta asintticamente lim (h; )=c0 + c r a r , por lo
h
(h;)=
c + b h
0 t
si h = 0
(4.2.6)
si h 0
43
2 (h) =
b 2 (h)
i
i =1
4.2.2 Anisotropa.
Cuando la dependencia entre Z(s) y Z(s + h) es una funcin de la magnitud y la
direccin de h, el variograma no es ms una funcin solamente de la distancia entre dos
ubicaciones espaciales, entonces el proceso Z se denomina anisotrpico. Las
anisotropas son causadas por algn proceso fsico subyacente que se desarrolla
diferencialmente en el espacio. Por ejemplo la presencia del campo gravitatorio provoca
que el proceso en la direccin vertical sea diferente de aquel en las direcciones
horizontales. En geologa, se tiene otro ejemplo si una mineralizacin en las rocas
ocurre en lentes rectangulares, entonces el variograma ser diferente en varias
direcciones horizontales.
Para estudiar la presencia de anisotropa es necesario calcular el semivariograma
en varias direcciones, lo cual suele requerir una cantidad de datos muy superior a lo
normalmente disponible. Si esto es posible, puede dibujarse cada semivariograma
separadamente (Ver figura 4.13), si los semivariogramas son marcadamente distintos,
hay que pensar en la presencia de anisotropa.
44
y 0 1 sen
sen x
cos y
(4.2.7)
45
46
{ 2#(h(j) e) 2(h(j) e; ) }2
(4.3.5)
j =1
47
(4.3.6)
donde 2(
) ( 2(h(1); ) , 2(h(2); ) , ... , 2(h(K); ) ) es el modelo terico
evaluado en los retardos h(1), h(2), ..., h(K). Llamemos al estimador v#.
Adems del estimador por mnimos cuadrados ordinarios o# y el estimador por
mnimos cuadrados generalizados v#, se define el estimador mnimos cuadrados
ponderados #, donde
diag { var ( 2#(h(1))), var ( 2#(h(2))), ... , var ( 2#(h(1))) }
(4.3.7)
es una matriz diagonal con las varianzas especificadas a lo largo de la diagonal. Es
decir # es el estimador que se obtiene al minimizar
(2# 2(
)) 1 (2# 2(
))
Al aplicar mnimos cuadrados generalizados no se hace ningn supuesto acerca
de cual es la distribucin de los datos. Carroll y Rupert mostraron que poseen mejores
propiedades de robustez que el estimador mximo verosimil cuando la distribucin de Z
est mal especificada.
La determinacin de V en (4.3.6) no es siempre fcil. Cressie(1991) propone
como encontrar V en el caso del estimador clsico.
48
49
n Z (s ) Z$ (s ) 2
j
j
j
1
n j =1
j (s j )
(4.6.1)
Z (s j ) Z$ j (s j )
(4.6.2)
(4.6.3)
50
CAPITULO 5: KRIGING.
En este captulo se presentar los fundamentos tericos mnimos de la prediccin
espacial que se usar en el desarrollo de este trabajo, poniendo nfasis en el mtodo de
kriging. Se fundamenta que el kriging es sinnimo de prediccin ptima en algn
sentido, y en base a los supuestos necesarios se deducen las ecuaciones del kriging
simple y kriging ordinario. En otro apartado se presentan caractersticas prcticas de
esta metodologa de prediccin. Por ltimo se introducen los resultados tericos
referentes al kriging lognormal.
1
Z (s) ds
B B
B D , donde B es un bloque cuya ubicacin y geometra son conocidas y cuyo
volumen d-dimensional es B.
Con prediccin espacial se quiere decir predecir g(Z()) a partir de los datos
Z(s1), Z(s2), ..., Z(sn) observados en ubicaciones espaciales conocidas s1,s2, ..., sn. sta
terminologa abarca las nociones temporales de suavizado (o interpolacin), filtrado, y
prediccin, las cuales cuentan con el orden del tiempo para su distincin. Si se dispone
de datos temporales del pasado y del presente, el suavizado se refiere a la prediccin
de g (Z () ) en el pasado, el filtrado se refiere a la prediccin de g (Z () ) en el tiempo
presente; y prediccin se refiere a la prediccin de g (Z () ) en puntos del tiempo del
futuro.
Kriging es un mtodo de prediccin espacial que minimiza el error cuadrtico
medio esperado, l que depende de las propiedades de segundo orden del proceso Z () .
La palabra kriging es sinnima de prediccin ptima. En otras palabras, se aplica
para hacer inferencias de manera ptima sobre valores no observados del proceso
51
L( Z ( s 0 ) ; p ( Z , s 0 ) ) = ( Z ( s 0 ) p ( Z , s 0 ) )
52
p(Z,s0) =
li Z(si) + k,
i=1
i =1
Se puede expresar:
2
n
n
n
E Z (s 0 ) li Z (s i ) k = var Z (s 0 ) li Z (s i ) + (s 0 ) li Z (s i ) k
i =1
i =1
i =1
donde (s) =E(Z(s)) s D.
(5.2.1)
(5.2.2)
E ( Z ( s 0 ) / Z ) = p 0 ( Z , s 0 ) = ( s 0 ) + c 1 [ Z ]
54
{(
Modelo
Z(s) = + (s)
s D, R, y es desconocido.
El proceso (s) es tal que E ( (s) ) = 0 para todo s.
El proceso Z () tiene variograma 2 (h) = Var (Z (s + h) Z (h) )
55
(5.3.1)
(5.3.2)
(5.3.3)
Predictor
n
p (Z; B) =
i Z (s i )
con
=1
(5.3.4)
i =1
i =1
Esta ltima condicin sobre los coeficientes del predictor lineal garantiza la
insesgadez uniforme, es decir:
n
n
n
E ( p(Z; B) ) = E i Z (s i ) = i E ( + ( s i ) ) = i =
i =1
i =1
i =1
i Z ( si ) que satisfacen
i =1
= 1.
i =1
Se debe minimizar:
n
E Z (s 0 )
i Z (s i ) 2m i 1
(5.3.6)
i =1
i =1
con la restriccin
= 1.
i =1
(5.3.7)
i j (s i s j )+ 2 i (s 0 s i ) 2m i 1
j =1
i =1
i =1
i =1
j =1
j ( s i s j ) + (s 0 s i ) m = 0
i = 1, 2, ... , n.
=1
i =1
0 = 0 1
donde
0 ( 1 , 2 , L , n ,m)
0 ( ( s 0 s 1 ) ,L , (s 0 s n ) ,1 )
56
(s i s j ) i = 1,..., n
0
1
i = n +1
0
i =n +1
j = 1,..., n
j = 1,..., n
j =n+1
*
nx1
( 1 1 1 )
1
= + 1
1
1
(5.3.9)
y
1 1 1
m=
1 1 1
(5.3.10)
k2 = *i *j s i s j + 2
i =1 j =1
= 2
*
i
(s 0 s i )
(5.3.11)
i =1
(5.3.12)
k2 =
*
nx 1
nx1 + m
1 1 1 nx1 1 1 1 1 nx1
= nx1 + 1
1 1 1
1 1 1
(1 1 nx1 1 ) 2
= nx1 nx1
1 1 1
1
(5.3.13)
. k (s 0 ) , Z$ (s 0 ) + 196
. k (s 0 )
I Z$ ( s 0 ) 196
57
Observaciones:
Se necesita el conocimiento del variograma 2 () .
La prediccin en s0 requiere la inversin de una matriz n x n.
El predictor p es ptimo entre todos los predictores lineales homogneos.
p(z,si) = z(si) para i =1,2, ... ,n es decir p es un interpolador exacto.
Ntese que la media constante no necesita ser estimada. Pero en realidad se
puede suponer que la media es una combinacin lineal desconocida de funciones
conocidas.
0 < <1
(5.3.14)
Predictor supuesto:
n
p(Z; n + 1) =
i Z (si )
con
= 1.
i =1
i =1
*' = 1 + 1 1
0
1
1 2 ... 1 n 1
0
1
... 1 n 2
1
2
= 0 ...
...
...
...
...
n2
1 n3
...
0
1
1
1 n 1 1 n 2
... 1
0
58
(5.3.16)
1
2
= 0 ...
n2
n 1
2 ... n 1 1
... n 2 1
...
...
...
n 3
n2
...
...
1
1
1 ... 1
1 ... 1
... 1 1
... 1 1
= 0 (+11)
2
(5.3.17)
1 1 1 11 1
= 2
11 1 1
0
1
(5.3.18)
1
1 + 2
1
...
...
1 =
1 2
0
0
0
0
...
...
...
...
...
1+
...
0
0
...
(5.3.19)
1
1
1 =
2 1 2
0
1
1+ 2
M
M
0
0
0
0
...
...
... 1+ 2
...
1
... 1
1
1
1 (1 ) 2 ... (1 ) 2 1
1
M +
M
M
M
M
M
2
(1 )(n 1) 1 (1 ) 2 ... (1 ) 2 1
1
1
... 1
1
1
0
0
(5.3.20)
i =
(1 ) 2
(5.3.21)
n (n 2 )
y la componente n -sima:
n = +
1
n ( n 2)
(5.3.22)
n 1
p$ ( Z , n + 1 ) = Z (n) + ( 1 )
Z (1) + ( 1 ) i = 2 Z (i ) + Z (n)
(5.3.23)
[ n ( n 2) ]
Observacin:
Ntese que si = 0, se obtiene como predictor ptimo a Z .
Reemplazando 1 en (5.3.10) se obtiene la siguiente expresin para m;
1 2
2
m= 0
n(n2)
n
1
(nn 2 + 2 + 1)+
n(n2)
k2 (n+1)= 0 (1 )
2
= 0
(1 2 )(1+ )
2
(1 )+
n(n2)
E ( Z (n + 1) Z ) = Var ( Z (n + 1) Z ) =
2
1
2
n 1
= 20 1 + 1 + 2
1 n 1
2
2
1
n
n(1 )
n
A los fines de la comparacin se presenta las siguientes tablas para distintos valores de
n y de .
n
Tabla 5.1: Valores de la varianza del kriging para distintos valores del tamao de la muestra (n) y del
coeficiente de correlacin .
n
Tabla 5.2: Valores del error cuadrtico medio de prediccin cuando se utiliza
Z (n +1) en vez del predictor de kriging.
Z para predecir
60
difieren significativamente. Si se considera una correlacin media (0.5) los valores son
comparables pero los de la varianza del kriging son siempre menores que los
correspondientes valores del error cuadrtico medio. En cambio en presencia de
correlacin alta, independientemente del tamao muestral, ambas medidas son muy
distintas. Siendo la varianza del kriging muy menor que el correspondiente error
cuadrtico medio cuando se utiliza como predictor a la media muestral. Esto habla a
favor del uso del estimador de kriging cuando se presenta correlacin.
Figura 5.1:De izquierda a derecha: modelo potencial, modelo esfrico sin efecto pepita, y modelo
esfrico con efecto pepita 1.
61
A)
B)
C)
Figura 5.2: Distintas disposiciones de los puntos para realizar la prediccin en el punto coloreado de
azul.
1)
2)
3)
Figura 5.3: Pesos de los puntos para el caso A usando para el semivariograma: 1) el modelo potencial.
2) el modelo esfrico sin efecto pepita. 3) el modelo esfrico con efecto pepita.
Los pesos obtenidos para el caso B) son como los muestra la figura 5.4, para
todos los semivariogramas, los pesos correspondientes a los puntos simtricos respecto
al punto de prediccin tienen valores iguales disminuyendo sus valores a medida que
disminuye el grado de dependencia. En cuanto a los correspondientes a los puntos
asimtricos se puede observar que presentan valores menores los puntos que estn ms
alejados.
1)
2)
3)
Figura 5.4: Pesos de los puntos para el caso B usando el semivariograma: 1) potencial. 2) esfrico sin
efecto pepita. 3) esfrico con efecto pepita.
62
2)
3)
Figura 5.5: Pesos de los puntos para el caso C usando el semivariograma: 1) potencial. 2) esfrico sin
efecto pepita. 3) esfrico con efecto pepita.
Efecto pantalla.
En la figura 5.6 se presentan otras disposiciones de los puntos. En todas ellas el
punto donde se quiere predecir se encuentra rodeado de los puntos donde se dispone
informacin. En el caso D) cuatro de estos se encuentran distribuidos simtricamente
respecto del punto de prediccin y cada uno a una distancia de una unidad de dicho
punto mientras que un quinto se encuentra al Este a una distancia de 2 unidades. En el
caso E) 4 puntos presentan una distribucin similar a la disposicin B) con un quinto
punto que se encuentra al norte a una distancia 2 del punto de prediccin. En el caso F)
la distribucin de los puntos es similar a la del caso C) pero se agrega un punto en la
direccin Noroeste.
D)
E)
F)
Figura 5.6: Distintas disposiciones de los puntos para realizar la prediccin en el punto coloreado de
azul.
Las Figuras 5.7, 5.8 y 5.9 tambin indican la existencia de pesos negativos.
Como se puede observar, siempre que un punto de observacin tiene un peso negativo
existe otro situado entre aquel y el punto de prediccin. Este efecto se denomina efecto
pantalla y consiste en que los puntos situados ms prximos al de prediccin reciben
los mayores pesos y reducen, llegando hasta en algunos casos a hacerlos negativos, los
63
de los puntos que estn detrs. As, se dice que los puntos ms prximos apantallan a
los que quedan detrs.
1)
2)
3)
Figura 5.7: Pesos de los puntos para el caso D usando el semivariograma: 1) potencial. 2) esfrico sin
efecto pepita. 3) esfrico con efecto pepita.
1)
2)
3)
Figura 5.8: Pesos de los puntos para el caso E usando el semivariograma: 1) potencial. 2) esfrico sin
efecto pepita. 3) esfrico con efecto pepita.
1)
2)
3)
Figura 5.9: Pesos de los puntos para el caso F usando el semivariograma: 1) potencial. 2) esfrico sin
efecto pepita. 3) esfrico con efecto pepita.
64
1)
2)
3)
Figura 5.10: Pesos de los puntos usando el semivariograma: 1) potencial. 2) esfrico sin efecto pepita.
3) esfrico con efecto pepita.
H)
Figura 5.11: Distintas disposiciones de los puntos para realizar la prediccin en el punto coloreado de
azul.
1)
2)
3)
Figura 5.12: Pesos de los puntos para el caso G usando el semivariograma: 1) potencial. 2) esfrico sin
efecto pepita. 3) esfrico con efecto pepita.
1)
2)
3)
Figura 5.13: Pesos de los puntos para el caso H usando el semivariograma: 1) potencial. 2) esfrico sin
efecto pepita. 3) esfrico con efecto pepita.
La distribucin de los pesos es mucho ms uniforme en los casos presentados en
la Figura 5.12 que en los de la Figura 5.13. Esto es consecuencia de la diferencia en la
distribucin de los puntos de observacin con respecto al de prediccin. Las
conclusiones del prrafo anterior en relacin con la uniformidad de los pesos en funcin
de la estructura siguen siendo vlidas. As, los pesos del caso H 3) (mnima estructura)
son mucho ms uniformes que los de H 2) y los de ste mucho ms que los del H 1)
(mxima estructura), en el que un punto tiene un peso de 1.09. Adems las varianzas de
prediccin son mucho ms pequeas en el caso en el que los datos rodean el punto de
prediccin que en el caso en que ste queda en una esquina.
Es evidente, que los valores de los pesos son demasiados sensibles a la posicin
de los puntos de observacin, como para que sean predecibles. Lo importante de la
discusin anterior es tener presente que conviene que los datos estn distribuidos lo ms
uniformemente posible. Ello lleva al campo del diseo de redes de observacin, que
consiste en la seleccin de la posicin de los puntos donde se mide a fin de obtener una
buena prediccin. Un criterio es elegirlo de forma que se minimice la varianza de
prediccin, la cual depende de la distribucin de los puntos.
66
b)
Figura 5.14:
67
i =1
i =1
p$ Y (Z ; s 0 ) i log Z (s i ) = i Y (s i )
(5.5.2)
p Z ( Z ; s 0 ) exp p$ Y (Z ; s 0 ) + Y2 (s 0 ) var p$ Y (Z ; s 0 )
2
2
(5.5.3)
1 2
$
= exp pY (Z ; s 0 ) + Y ,k (s 0 ) mY
2
2
donde Y ,k (s 0 ) y mY son, desde (5.3.9) y (5.3.10), la varianza del kriging y el
multiplicador de Lagrange en la escala de Y .
El error cuadrtica medio de prediccin es:
2
E (Z (s 0 ) p( Z (Z;s 0 ) ) = exp 2 Y + Y2 (s 0 ) exp Y2 (s 0 ) +exp(var( p Y (Z;s 0 )) )
{ (
)} { (
2 exp(cov(Y (s 0 ), p Y (Z;s 0 ) ))
Todos estos resultados estn presentados en Cressie(1991).
(5.5.4)
i =1
sujeto a p(Z ; s 0 ) = e
in = 1
log Z (s ) + k
i
i
69
cada f i (s) se ha expresado como una funcin de s, cualesquiera de ellas podran ser una
constante por ejemplo 1, o un valor de una variable explicatoria asociada con el dato en
s, s D.
6.1.1 Modelo supuesto.
En esta seccin se adopta el modelo:
p +1
Z ( s ) = f j 1 ( s ) j 1 + ( s )
sD
(6.1.1)
j =1
donde:
p +1
determinista.
( 0 ,L , p ) R p +1 es un vector de parmetros desconocidos.
70
Z (s1 ) f 0 (s 1 )
Z ( s 2 ) = f 0 ( s 2 )
M M
Z ( s n ) f 0 ( s n )
f 1 (s1 ) L
f 1 (s 2 ) L
f p 1 (s 1 )
f p 1 (s 2 )
M
L
f 1 (s n ) L
M
f p 1 (s n )
f p (s1 )
f p ( s 2 )
M
f p ( s n )
0 (s1 )
1 + ( s 2 )
M M
p ( s n )
o en forma ms compacta:
Z = X +
(6.1.2)
x f 0 (s 0 ) , f 1 (s 0 ),L , f p (s 0 )
donde
(6.1.3)
p( Z ; s 0 ) = i Z ( s i ) = Z
(6.1.4)
i =1
(6.1.7)
reduce a
= 1.
i =1
71
2e = E [ Z (s 0 ) p( Z ; s 0 )]
sobre 1,K , n sujeto a X = x .
(6.1.8)
E [ Z (s 0 ) Z ] 2 m .( X x )
Con respecto a los vectores y m; donde m ( m0 ,K , m p ) .
Es decir, se debe minimizar
2
(6.1.9)
p +1
n
E Z (s 0 ) i Z (s i ) 2 m j 1 i f j 1 (s i ) f j 1 (s 0 )
i =1
j =1
i =1
(6.1.10)
con respecto a 1 ,K , n , m0 ,K , m p .
Suponiendo que:
2 (h) = Var ( Z (s + h) Z (s)) = Var ( (s + h) (s) ) = E ( (s + h) (s) ) 2
(6.1.11)
i j (s i s j ) + 2
i =1 j =1
i =1
p +1
j =1
i =1
i ( s 0 s i ) 2 m j 1 i f j 1 ( s i ) f j 1 ( s 0 )
(6.1.12)
u = u1 u
donde
u ( 1 ,K , n , m0 ,K , m p )
u ( , m )
72
(6.1.13)
(6.1.14)
(6.1.15)
i = 1,K , n
(s i s j )
u f j 1 n (s i )
i = 1,L , n
0
i = n + 1,L , n + p + 1
j = 1,L , n
j = n + 1,L , n + p + 1
(6.1.16)
j = n + 1,L , n + p + 1
u =
X
donde:
es la matriz n x n , = ( s i s j )
X
0
i , j = 1, 2 ,K , n .
X es la matriz n x ( p+1) X = f j 1 n (s i )
i = 1,2,K , n j = n + 1,K , n + p + 1
= ( + X ( X 1 X ) 1 ( x X 1 )) 1
(6.1.17)
m = x X 1 ( X 1 X ) 1
(6.1.18)
2k (s 0 ) = 1 ( x X 1 ) ( X 1 X ) 1 ( x X 1 )
(6.1.20)
73
Observaciones:
Tendencia polinmica.
Si s R2 a menudo E ( Z(s)) = (s) se expresa como una combinacin lineal de
polinomios en las coordenadas espaciales s = ( x , y ) . Una superficie de tendencia
de grado r es:
(s) = a kl x k y l
(6.2.7)
123
0 k +l r
(r + 1)(r + 2)
1 .
2
Las ecuaciones de kriging universal pueden considerarse una generalizacin de las de
kriging ordinario. Si se supone que Z es una variable intrnseca, con esperanza ,
entonces puede formularse como no intrnseca con p=1, l = y f l (s) = 1.
Para predecir ptimamente un valor no conocido Z(s0), solo se necesita conocer:
var Z (s i ) Z (s j ) ; 0 i j n
f 0 ( s) = 1
f 1 ( s) = x
{ (
f p ( s) = y r
donde p =
{f
( s) , L , f p ( s) .
)[ (
)]
p +1
= 2 (s i s j ) + k 1 ( f k 1 (si ) f k 1 (s j ) )
k =1
() Z () k 1 f k 1 () porque E ( (s i ) (s j ) ) = 2 (s i s j ) .
2
k =1
74
X 1 Z
(6.2.2)
X 1 en (6.2.2) es de
( sesgo) 2 tiende a cero ms rpido que la varianza y se considera que el sesgo puede ser
ignorado. Sin embargo, en muchos problemas de Geoestadstica n no es usualmente
grande y por lo tanto no es adecuado el resguardo asinttico.
Es generalmente verdadero que el sesgo de un estimador de variograma basado
en los residuos es pequeo en retardos cercanos al origen pero ms sustancial en
retardos distantes. Cuando un modelo de variograma es ajustado por mnimos cuadrados
75
W W
. Segn los resultados de
n p 1
Cressie (1990), bajo el supuesto que el covariograma es positivo, el sesgo de $ 2 es
2
O(1 n) y negativo, y como la varianza del kriging k es directamente proporcional a
Un estimador de 2 comnmente usado es $ 2 =
( s) = a + c ( x ) + r ( y )
s D R 2
(6.3.2)
Adems, si { s i : i =1,2,K , n} estn ubicados sobre una grilla de p filas y q columnas:
{( x l , y k ) : k = 1,K , p; l = 1,K , q}
(s i ) = a + rk + cl donde s i = ( x l , y k )
(6.3.3)
El efecto fila rk puede ser estimado mediante la replicacin en la otra dimensin;
es decir, rk puede ser estimado desde:
76
Datos grillados.
Los datos espaciales grillados en R2 pueden ser considerados como una tabla de
doble entrada (o de ms vas en Rd). Es importante tener en cuenta que los espaciados en
ambas direcciones, horizontal y vertical, no tienen porque ser iguales. Miller y Kahn
(1962) propusieron un anlisis de la varianza formal de dos vas para testar la no
estacionariedad a travs de las filas y a travs de las columnas mediante el uso del
estadstico F. Desafortunadamente, los tests basados en valores crticos obtenidos de
una tabla F son incorrectos porque los datos son correlacionados.
Datos no grillados.
Para tratar con datos no grillados se realiza el trazado de un mapa de baja
resolucin de las ubicaciones espaciales. La resolucin de las coordenadas espaciales es
elegida a menudo en una manera ad hoc de modo que cada combinacin ( x l , y k ) tenga
aproximadamente una observacin Z ( x l , y k ) en ( x l , y k ) .
En la prctica, esto se hace por la superposicin de una grilla sobre el mapa de
alta resolucin y asignando a las ubicaciones {s i : i = 1,K , n} de los datos a los nodos
a$ =
Z (s )
i
i =1
Z (s )
i
r$k =
N ( yk )
c$l =
M ( xl )
a$
k = 1,K , p
a$
l = 1,K , q
Z (s )
i
N ( y k ) {i : s i = ( , y k ) ; i = 1,K , n }
(6.3.4)
M ( x l ) {i : s i = ( x l , ) ; i = 1,K , n }
77
residuos
3
11
8
4
2
6
12
4
7
3
6
7
2
6
5
5
3
3
1
0
3
11
8
4
2
0
6
12
4
7
3
0
78
6
7
2
6
5
0
5
3
3
1
0
0
0
0
0
0
0
0
3
11
8
4
2
0
6
12
4
7
3
0
6
7
2
6
5
0
5
3
3
1
0
0
0
0
0
0
0
0
6
9
4
6
3
0
-3
2
4
-2
-1
0
0
3
0
1
0
0
0
-2
-2
0
2
0
-1
-6
-1
-5
-3
0
6
9
4
6
3
0
Como en la prxima etapa se necesitan las medianas por las columnas, se las agrega en
la ltima fila.
2
0
7
7
4
0
4
-3
2
4
-2
-1
0
-1
0
3
0
1
0
0
0
0
-2
-2
0
2
0
0
-1
-6
-1
-5
-3
0
-1
6
9
4
6
3
0
6
Como en la prxima etapa se necesitan las medianas de los datos por las filas, se las
agrega en la ltima columna.
79
-2
-4
3
3
0
4
-2
3
5
-1
0
-1
0
3
0
1
0
0
0
-2
-2
0
2
0
0
-5
0
-4
-2
-1
0
3
-2
0
-3
6
0
-2
0
0
0
0
Etapa 3: se procede al igual que en la etapa 1, es decir se remueve las medianas por
filas de la etapa anterior desde los datos y se acumulan en la penltima columna.
-2
-2
3
3
0
4
-2
5
5
-1
0
-1
0
5
0
1
0
0
0
0
-2
0
2
0
0
-3
0
-4
-2
-1
0
1
-2
0
-3
6
Como en la prxima etapa se necesitan las medianas por las columnas, se las agrega en
la ltima fila.
-2 -2 0 0 0 0
-2 5 5 0 -3 1
3 5 0 -2 0 -2
3 -1 1 0 -4 0
0 0 0 2 -2 -3
4 -1 0 0 -1 6
0 0 0 0 -2 0
Etapa 4: se procede al igual que en la etapa 2, obtenindose la siguiente tabla:
-2
-2
3
3
0
4
-2
5
5
-1
0
-1
0
5
0
1
0
0
0
0
-2
0
2
0
2
-1
2
-2
0
-3
0
1
-2
0
-3
6
0
0
-4
0
2
0
0
2
-1
0
-2
0
-3
0
0
1
0
0
-3
6
0
-2
5
3
-1
0
-1
0
0
5
-2
1
0
0
0
80
0
0
2
0
0
0
{
+ med {Y
}
: l = 1,K , q}
( i 1)
kl
k = 1,K , p + 1 l = 1,K , q
k = 1,K , p + 1
(6.3.7)
{
+ med {Y
}
: k = 1,K , p}
( i 1)
kl
k = 1,K , p l = 1,K , q + 1
l = 1,K , q + 1
(6.3.8)
( 0)
Ykl =
0 en otro caso
Es decir se inicia con las pxq celdas correspondientes a los datos a los que se les
agregan p+q+1 celdas con ceros. Se usa (6.3.6) para remover las medianas por filas
desde los datos y acumular las cantidades removidas en las p celdas filas extras (que
forman la columna q + 1). De la misma manera en las columnas de la tabla, removiendo
las medianas por columnas desde no solo los datos sino tambin de la columna de las
remociones acumuladas de las filas. Esta ltima cantidad removida es la entrada de la
celda extra (p+1, q+1). Este proceso se debe repetir hasta lograr convergencia.
Suponindose convergencia, los efectos estimados son
a~ Yp(+1), q +1
r~ Y ( )
k = 1,K , p
c~l Yp(+1), l
l = 1,K , q
k , q +1
(6.3.9)
(6.3.10)
81
si = ( xl , y k )
(6.3.11)
y y k
y k +1 y k
~(s)a~ +r~k +
~ ~ ~ x xl
(rk +1 rk )+cl +
xl +1 xl
~ ~
(cl +1 cl )
k = 1,K, p 1;
l = 1,K, q 1
Tambin es posible extrapolar ms all de la grilla de observaciones. Supngase
que x < x1 pero y1 y k y y k +1 y p entonces, para s = ( x , y ) se define
y yk ~
x x1 ~ ~
( rk +1 r~k ) + c~1 +
( c2 c1 )
y k +1 y k
x 2 x1
~ (s) a~ + r~ +
k = 1,K , p 1
Una frmula similar se obtiene cuando y est fuera de rango o cuando ambas x y
y lo estn. Por lo tanto, a travs de la interpolacin y la extrapolacin se define la
~ (s)): s R 2 para todo el plano.
superficie mediana polish (s ,
Observaciones.
Si en cada nodo de la grilla el nmero de observaciones es distinto, la nica
modificacin necesaria es notacional. El algoritmo no se altera en su esencia,
sucesivamente remueve las medianas de las filas y las medianas de las columnas
desde las entradas de la tabla. Si una fila (columna) entera de nodos de la grilla no
tiene observaciones, entonces la fila (columna) es ignorada.
El algoritmo se inicia con la remocin por las filas, pero sin problema alguno el
proceso podra iniciarse por las columnas.
En la prctica, se necesita un criterio para detener el algoritmo; por ejemplo, cuando
otra iteracin deja inalterable cada entrada de la tabla dentro de una tolerancia
preestablecida, la mediana polish termina y el algoritmo se dice que converge.
6.3.3 Kriging basado en los residuos de la mediana polish.
Los residuos { R (s i ): i =1,K , n } obtenidos mediante mediana polish se piensan
como un nuevo conjunto de datos espaciales, a los cuales se les aplica kriging ordinario.
Modelo supuesto
R(s) (s) s D.
El proceso (s) es tal que E((s)) = 0 para todo s.
El proceso R(.) tiene variograma 2(h) = Var (R( s + h) R(s ))
82
Predictor supuesto
R$ (s 0 ) =
R( s i ) con
i =1
=1
i =1
Esta ltima condicin sobre los coeficientes del predictor lineal garantiza insesgadez
uniforme.
El vector de coeficientes *nx1 ( *1 ,K , *n ) esta dado por (5.3.9).
El kriging basado en los residuos se comporta como una proxi para el kriging
basado en los errores desconocidos { (s i ): i = 1 ,K , n } .
~ (s ) puede ser extendida para s R 2 y el
Como la estimacin mediana polish
0
2m (s 0 ) i (s 0 s i ) + m
(6.3.14)
i =1
83
Figura 7.1: Posiciones de los datos correspondientes al estudio del acufero de Tucson.
84
1.85
1.22
1.45
2.87
0.93
0.79
0.95
2.15
0.8
1.84
0.55
0.3
7.53
5
2.5511.46
1.98
1.32
2.5
1.8
2
1.5
0.51
0.45
0.340.48
0.640.76
0.34
3.19
1.91
2.54
2.2
1.72
1.5
1.65
1.68
1.08 0.54
3.21
1.81 1.77 2.21
1.96
3.34
3.19
1.23
3.69 2.6
3.74 2.99
2.99 1.31
1.9
0.85
0.94
2.253.3
0.851.21
3.99
1.1
2.2
2.59
0.88
1.36
0.55
1.83
1.39
2.4 2.2
0.650.51
0.870.58
1.7
1.39
0.79
0.8 1.55
1.43
1.72
1.5 2.54
1.15 1.12
2.02
2.291.34
2.04
1.08
1.9
0.94
2.2 0.79 2.45
1.85
1.3
0.88
1.07
1.12
1.25
3.08
1.11
0.6
1.47
2.28
2.42
1.19
0.63
0.55
3.09
1.59
2.15
0.74
10
Figura 7.2: Medidas de calcio en sus respectivas posiciones correspondientes al estudio del acufero de
Tucson.
85
10
15
CALCIO
Figura7.4: Box-Plot para el contenido de Calcio.
norte
6
5
4
3
2
1
este
2
10
Si bien todos los valores estn dispersos en la regin, los menores se presentan
casi todos por debajo de la coordenada 3 del Norte. Los valores de cada categora
determinada por los cuartiles tienden a alinearse de alguna manera. La mayora de los
valores ms grandes se encuentran entre las coordenadas 4 y 7 del Este.
86
15
10
10
CALCIO
CALCIO
15
0
0
6
ESTE
10
0
0
12
a)
3
4
NORTE
b)
a)
b)
Figura 7.7: En ambas figuras con azul se representan los valores de la media y con rojo los valores de la
mediana de los valores de contenido de calcio. a) Segn columnas.
b) Segn filas.
Cuando slo se presenta el color rojo por banda es porque en aquellos puntos se
superponen media y mediana. Adems, se observa que no existe ninguna tendencia en
los valores medios y medianos a travs de las columnas ni de las filas.
87
En las tablas 7.1 y 7.2 se presentan las diferencias estandarizadas, para los
valores que estamos tratando, es decir los valores del estadstico u presentados en la
seccin 2.2.3.
Tabla 7.1: Valores del estadstico u segn columnas. Tabla 7.2: Valores del estadstico u segn filas.
88
6.14
este
6.05
6.1
6.11
6.21
6.23
norte
0.8
1.67
2.34
2.11
2.83
calcio
1.21
1.15
1.1
0.65
3.69
El efecto del otro valor alejado detectado anteriormente sobre el valor del
estadstico u qued neutralizado por la composicin de la franja correspondiente a un
valor medio de este igual a 4.325.
En la tabla 7.2 se presentan los valores de u correspondientes a las filas. El valor
de u=2.79486 es producto de la franja cuya coordenada norte media es 1.05, sta recibe
el aporte de 5 valores. El nuevo valor alejado espacial es Calcio(3.95, 1.05)= 3.08 que
es ms grande que el tercer cuartil: 2.2, mientras los otros valores son menores que la
mediana: 1.5 (las medidas de posicin son las correspondientes al conjunto total de
datos).
En la franja cuya coordenada norte media es 4.5175 el valor Calcio(4.85, 4.59)=
1.98 es ms grande que la mediana y los tres valores restantes son inferiores al primer
cuartil: 0.93.
El valor alejado Calcio(4.86, 4.77)= 11.46 es detectado por la franja cuya
coordenada norte media es 4.69. En cambio Calcio(4.29, 5.4)= 7.53 es neutralizado por
los otros dos valores que determinan la franja con coordenada norte media: 5.49667.
90
Figura 7.10: Semivariograma experimental omnidireccional, con las siguientes condiciones para las
distancias: Mnimo =0, Mximo= 11.156, y el incremento se fija en 1.2.
Figura 7.11: Semivariograma experimental omnidireccional generado con Variowin, con las
siguientes condiciones para las distancias:10 intervalos de amplitud 1.12 ms el intervalo
coorespondiente al retardo 0 de amplitud de 0.56.
Figura 7.12: Ssemivariograma experimental omnidireccional, con las siguientes condiciones para las
distancias: Mnimo =0, Mximo= 7, y el incremento se fija en 0.561.
Figura 7.13: Semivariogramas experimentales, los de la derecha fueron generados por el Geoeas y los de
la izquierda por el Variowin.
todos los semivariogramas vlidos es un gran conjunto, usualmente se elige una familia
paramtrica de semivariogramas. Para la variable Calcio de acuerdo a las publicaciones
y a la forma de los semivariogramas empricos se elige la familia de semivariogramas
esfricos.
Modelando con el Geoeas y el Variowin.
Con el programa Geoeas se realiza un ajuste a sentimiento. El cual no garantiza
un modelo de variograma nico ya que se basa en apreciaciones subjetivas y en la
experiencia del usuario. Luego a travs de la validacin cruzada se trata de determinar
la calidad y el grado de fiabilidad del modelo ajustado. No se debe intentar ajustar los
mnimos detalles ya que en general stos no son una caracterstica del verdadero
semivariograma sino ms bien fluctuaciones muestrales.
El valor del efecto pepita puede ser obtenido extrapolando los primeros puntos
del semivariograma muestral hasta cortar el eje de ordenadas.
Modelo 1.
Por ensayo de prueba y error se ajusta el modelo esfrico:
0
si
h= 0
3
3 h 1 h
(h;
)= c0 + ce
si 0 < h a e
Donde el vector de parmetros:
2
a
2 ae
c
+
c
si
h
a
0
e
e
Figura 7.14: Ajuste del semivariograma esfrico (lnea slida) al semivariograma omnidireccional
experimental.
93
2
0
RESIDUO1
CALCIOE1
5
4
3
2
-2
-4
-6
-8
-10
-12
0
0
10
12
14
CALCIOE1
CALCIO
Figura 7. 16: a) Scatter plot de los valores de la variable calcio vs. los valores predichos.
b) Scatter plot de los valores de los residuos de prediccin vs. los valores predichos.
94
En la Figura 7.16 b) se observa una leve tendencia lineal entre los residuos de
prediccin y los valores predichos, dicha estructura es consecuencia de la existencia de
valores alejados.
En la validacin cruzada la herramienta de diagnstico usual del ajuste es el
estudio de la distribucin de los residuos de prediccin estandarizados. La Figura 7.17
muestra la distribucin de los residuos (RESIDUO1) y los residuos de prediccin
estandarizados (RESEST1).
Box Plot (ajuste12345.STA 23v*114c)
RESEST1
RESIDUO1
-12
-10
-8
-6
-4
-2
Non-Outlier Max
Non-Outlier Min
Median; 75%
25%
Outliers
Extremes
Outliers
Extremes
Figura 7.17: Box plot de los residuos de prediccin y de los residuos de prediccin estandarizados para
el ajuste1.
95
A los efectos de comparar los modelos se trabaja con el programa XVALID del
GEOEAS para realizar la validacin cruzada.
La Figura 7.19 muestra el mapa de los residuos de la prediccin cuando se
realiza el ajuste del modelo 2. Al igual que al trabajar con el modelo 1 se observa en la
misma que se producen grandes residuos cuando se predicen los valores extremos 7.53
y 11.46. Otros residuos grandes pero de menor magnitud se presentan cuando la
prediccin (kriging) es realizada en zonas donde la informacin es escasa.
La Figura 7.20 muestra los box plots de los residuos (RESIDUO3) y de los
residuos estandarizados (RESEST3) de prediccin cuando se ajusta el modelo 2.
La media de los residuos de prediccin estandarizados es 0.011 con un desvo
estndar de 1.16 y la mediana es de 0.18.
Box Plot (ajuste12345.STA 23v*114c)
RESEST3
RESIDUO3
-12
-10
-8
-6
-4
-2
Non-Outlier Max
Non-Outlier Min
Median; 75%
25%
Outliers
Extremes
Outliers
Extremes
Figura 7.20: Box plot de los residuos de prediccin y de los residuos de prediccin estandarizados para
el ajuste 2.
96
Modelo 3.
En general el ajuste del modelo al semivariograma muestral puede mejorarse
considerando modelos compuesto del tipo: (h) = i (h) donde cada uno de los
i
Figura 7.21: Ajuste del modelo3 (lnea slida) al semivariograma omnidireccional experimental.
La Figura 7.23 muestra los box plots de los residuos (RESIDUO4) y de los
residuos estandarizados (RESEST4) de prediccin cuando se ajusta el modelo 3. La
media de los residuos de prediccin estandarizados es 0.048 con un desvo estndar de
1.33 y la mediana es de 0.24.
97
RESEST4
Non-Outlier Max
Non-Outlier Min
Median; 75%
25%
Outliers
Extremes
Outliers
Extremes
RESIDUO4
-12
-10
-8
-6
-4
-2
Figura 7.23: Box plot de los residuos de prediccin y de los residuos de prediccin estandarizados para
el ajuste 3.
c) RESEST4
b) RESEST3
a) RESEST1
-12
-10
-8
-6
-4
-2
Non-Outlier Max
Non-Outlier Min
Median; 75%
25%
Outliers
Extremes
Outliers
Extremes
Outliers
Extremes
Figura 7.24: Comparacin de las distribuciones de los residuos de prediccin estandarizados para los
tres modelos a) modelo 1, b) modelo 2, c) modelo 3.
98
comparado con los otros que alcanzan la meseta en forma ms suave. El modelo 1 es el
ajuste que considero el ms adecuado, porque a falta de informacin precisa acerca del
fenmeno en estudio, la solucin debe ser la ms sencilla posible.
7.2.3 Isotropa.
A esta altura del anlisis estructural, es importante chequear la hiptesis de
isotropa. Se ver a travs de los semivariogramas direccionales si se presenta alguna
tendencia de los valores de la variable a lo largo de alguna direccin particular.
Todos los pares de puntos que intervienen en el clculo del semivariograma
emprico omnidireccional se dividen en cuatro grupos que aportan al clculo de los
cuatro semivariogramas direccionales en las direcciones de 00, 450, 900, y 1350 con una
tolerancia de 22.50. La grfica de estos cuatro semivariogramas direccionales en las
direcciones de 00, 450, 900, y 1350 con una tolerancia de 22.50 se presentan en las
Figuras 7.25 - 7.28 respectivamente
Figura 7.25: Semivariograma direccional 00 con una tolerancia de 22.50. Modelo ajustado: modelo1.
Figura 7.26: Semivariograma direccional 450 con una tolerancia de 22.50. Modelo ajustado: modelo1.
99
Figura 7.27: Semivariograma direccional 900 con una tolerancia de 22.50. Modelo ajustado: modelo1.
Figura 7.28: Semivariograma direccional 1350 con una tolerancia de 22.50. Modelo ajustado: modelo1.
100
2. Por lo tanto solo bastara considerar un rango de alcances, que por ensayo y error se
establece entre 1 y 3.
Esta informacin es de utilidad porque cuando se realice la prediccin, es decir
el kriging, se considera que el alcance del modelo de semivariograma direccional
proviene de un patrn elptico.
7. 3 Kriging.
Con el programa Kriging del Geoeas se procede a realizar la prediccin. ste,
produce una grilla regular de puntos predichos, usando las ecuaciones del kriging
ordinario de la seccin 5.3 del captulo 5. La resolucin de dichas ecuaciones permiten
encontrar los pesos correspondientes a los valores de la variable que intervienen en el
promedio ponderado. A los efectos de disminuir el tiempo de computacin las
predicciones puntuales se realizan a partir de los valores muestrales que se encuentran
en una elipse con centro en el punto a predecir, adems se puede especificar la cantidad
mnima y mxima de puntos que intervienen en la prediccin.
El kriging se realiza sobre puntos de una grilla cuyo origen es el punto (0.3, 0.8),
es decir 0.3 de la direccin Este y 0.8 del Norte. La separacin en la direccin Este es de
1 unidad y en la direccin Norte es de 0.5.
Para realizar el kriging es fundamental el conocimiento del semivariograma
vlido, a travs de la etapa de anlisis estructural se decidi que el modelo de
semivariograma vlido es el modelo1 propuesto en la seccin 7.2
A partir de los valores predichos de la variable Calcio en la grilla, distintos
programas posibilitan dibujar las curvas de nivel, es decir las curvas que tienen igual
contenido de calcio. Dichas curvas de nivel se presentan en las Figuras 7.29 y 7.30, la
primera es una salida del programa Conrec (componente del Geoeas) y la segunda es
producida por el Statistica. Ambos grficos, tienen en general la misma distribucin de
las curvas de nivel, claro que el segundo goza de la belleza del color y se notan ms
claramente las referencias.
N
o
r
t
e
Figura 7.29: Curvas de nivel para los valores de kriging de la variable Calcio, producido con el
programa Geoeas.
101
Figura 7.30: Curvas de nivel para los valores de kriging de la variable Calcio, producida con el
programa Statistica.
Figura 7.31: Curvas de nivel para los valores de los residuos estandarizados del kriging de la variable
Calcio, producida con el programa Geoeas
Figura 7.32: Curvas de nivel para los valores de los residuos estandarizados del kriging de la variable
Calcio, producida con el programa Statistica.
102
26
LOGCALCI
-1.0
-.5
0.0
.5
1.0
1.5
.05 .1
.25
.5
.75
.9 .95
.99
Observed Value
-1
-2
-4
-3
-2
-1
Theoretical Quantile
103
Figura 7.36: Ajuste del semivariograma esfrico (lnea slida) al semivariograma omnidireccional
experimental de la variable logaritmo del Calcio.
104
transformar: 7.53 y 11.46. Otros residuos grandes pero de menor magnitud se presentan
cuando la prediccin es realizada en zonas donde la informacin es escasa.
Figura 7.37: Mapa de los residuos de prediccin cuando se ajusta el modelo esfrico antes mencionado cuando se trabaja con la
variable Logaritmo de contenido de Calcio.
RESIDEST
RESIDUO
-5
-4
-3
-2
-1
Non-Outlier Max
Non-Outlier Min
Median; 75%
25%
Outliers
Outliers
Figura 7.38: Distribuciones de los residuos de prediccin y de los residuos de prediccin estandarizados
para el modelo ajustado al semivariograma de la variable transformada.
105
RESEST
RES
-4
-2
10
12
Non-Outlier Max
Non-Outlier Min
Median; 75%
25%
Extremes
Outliers
Extremes
Figura 7.39: Distribuciones de los residuos de prediccin y de los residuos de prediccin estandarizados para el modelo ajustado al
semivariograma de la variable transformada.
RESEST
RESEST1
-10
-6
-2
10
14
Non-Outlier Max
Non-Outlier Min
Median; 75%
25%
Outliers
Extremes
Outliers
Extremes
Figura 7.40: Comparacin de las distribuciones de los residuos de prediccin estandarizados para el
modelo 1, y para cuando se model el semivariograma del logaritmo del contenido de calcio.
106
NORTE
-0.277
-0.212
-0.146
-0.081
-0.016
0.05
0.115
0.181
0.246
0.311
0.377
0.442
0.508
0.573
0.638
4
3
2
1
0
-2
10
12
14
ESTE
Figura 7.41: curvas de nivel para el kriging de la variable logaritmo del contenido de calcio, obtenido a
partir de la grilla indicada.
Las curvas de nivel de las desviaciones estndares del kriging muestran que los
valores krigeados en la parte central de la grilla, la que coincide con la presencia de
mayor informacin, se corresponden con los valores ms pequeos de las desviaciones
estndares. La figura 7.42 presenta dichos resultados.
Spline
7
6
5
NORTE
0.578
0.587
0.597
0.606
0.616
0.625
0.635
0.644
0.654
0.663
0.673
0.682
0.692
0.701
0.711
4
3
2
1
0
-2
10
12
14
ESTE
Figura 7.42: curvas de nivel de las desviaciones estndares del kriging de la variable logaritmo del
contenido de calcio, obtenido a partir de la grilla indicada.
107
NORTE
0.878
0.981
1.085
1.188
1.292
1.395
1.498
1.602
1.705
1.809
1.912
2.016
2.119
2.223
2.326
4
3
2
1
0
-2
10
12
14
ESTE
Figura 7.43: curvas de nivel para los valores transformados de los valores predichos con la variable
transformada.
NORTE
0.552
0.622
0.692
0.762
0.832
0.902
0.971
1.041
1.111
1.181
1.251
1.321
1.39
1.46
1.53
4
3
2
1
0
-2
10
12
14
ESTE
Figura 7.44: curvas de nivel de los desvos estndares al aplicar la transformacin inversa adecuada.
vlida de prediccin sera un polgono irregular. Esta grilla tiene sus lmites basados
en el rango de las coordenadas Este y Norte de los puntos de observacin de la variable
de inters. Para obtener otras predicciones se puede variar los valores que definen la
grilla.
En el siguiente mapa se presentan la grilla de puntos donde se realiza las
predicciones y la ubicacin de los puntos donde se observ la variable de inters.
Tambin se marca las regiones donde las predicciones no tendran ningn valor, porque
los valores extrapolados no tienen mucha confianza. De acuerdo a los resultados
presentados en el apartado 5.5.1 del captulo 5, se observa que en la zona donde se
dispone ms informacin los desvos estndares de la prediccin son menores, dando
ms confianza a los valores predichos.
Scatterplot (tuc2.STA 6v*132c)
7
NORTE
0
0
10
12
ESTE
Figura 7.45: mapa donde se muestran la grilla de prediccin y las ubicaciones de los puntos donde se
observ la variable de inters.
109
8.1 Introduccin.
El principal objetivo de este captulo, es aplicar la metodologa Geoestadstica
en el modelado de las variables hidrogeolgicas de inters, que estn relacionadas con la
calidad qumica de las aguas subterrneas.
Para el desarrollo de la investigacin, se cont con la informacin proporcionada por la
ctedra de Hidrogeologa en el marco del proyecto de investigacin Hidrogeologa del
Sistema Acufero La Caldera. De acuerdo a los especialistas, las variables qumicas
consideradas de importancia para la caracterizacin del sistema acufero de La Caldera,
a los efectos de determinar posibles focos de contaminacin antrpica, son la
concentracin de cloruros y la concentracin de nitratos de las aguas subterrneas.
En la regin de inters, es decir lo que se denomina sistema acufero de La
Caldera, y para la poca (1991-1995) considerada como unidad temporal de anlisis, se
consideran las planillas de anlisis fsico- qumico de 47 pozos de los que estaban en
funcionamiento, para alimentar el sistema de agua potable del sector norte y el centro de
la ciudad de Salta.
Una de las primeras tareas durante la investigacin fue la elaboracin de la base
de datos. En ella principalmente se registr la informacin de la ubicacin de los pozos
donde se realizaron las observaciones de las variables de inters. stas, tambin se
clasificaron de acuerdo a los meses en que fueron observadas.
Al registrar la informacin de primera mano, proveniente de las fichas de los
anlisis qumicos de las muestras de agua, tomadas de los diferentes pozos junto a los
legajos de perforaciones realizadas por la Direccin General de Obras Sanitarias, se
encontr dificultades para determinar la ubicacin exacta de los pozos. Pero, con la
colaboracin de miembros del equipo de investigacin, fueron subsanadas.
Aquellos casos en que un pozo present en un mismo da o dentro del mismo
mes ms de una observacin, se tom como representativa el mayor valor de
concentracin para cada in.
Las pocas para las que se dispone de informacin son los meses de julio, agosto
y setiembre de 1991; agosto, setiembre y octubre de 1993. Algunas pocas fichas aportan
datos muy aislados en los meses de octubre y noviembre de 1992 (un total de 8 pozos).
Otros muy pocos datos se presentan en los primeros meses de 1991, 1992 y 1993, y solo
dos observaciones se encuentran disponibles en el ao 1995. As, a los fines de intentar
realizar el anlisis geoestadstico se consider a toda la informacin como proveniente
de un solo momento geolgico.
Por otro lado, el pozo ASP1232 presenta datos como para realizar un estudio
transversal, esto es, se podra estudiar el comportamiento de las variables de inters a
travs del tiempo, el cual no es el motivo de este trabajo. Este pozo era seguido con los
anlisis fsico-qumico mes a mes, por corresponder a una planta de alimentos
balanceados.
110
N
O
R
T
E
ESTE
A los efectos de poder trabajar con los programas especficos, las coordenadas
Gauss Kruger que determinan la posicin de los pozos fueron modificadas restando a
las coordenadas este 3500 y a las del norte 7200.
De los 46 pozos cuyas fichas aportaron datos de concentracin de cloruros, 3
fichas (correspondientes a los pozos: AS0129, AS393 y AS0548) no aportan datos de la
concentracin de nitratos.
111
En el grfico de la figura 8.2 se nota claramente el valor alejado aportado por el pozo
ASP1232. Tambin se observa una leve tendencia lineal, en la direccin Sur- Norte. Las
posibles tendencias lineales se investigarn a travs de los scatter-plot de la
concentracin de cloruros versus cada una de las variables coordenadas.
Figura 8.3: Diagrama de puntos de la variable concentracin de Cloruros vs. la variable Este.
Figura 8.4: Diagrama de puntos de la variable concentracin de Cloruros vs. la variable Norte.
112
Figura 8.5: Diagrama de puntos de la variable concentracin de Nitratos vs. la variable concentracin
de Cloruros.
113
114
0
si
h= 0
3
3 h
h
1
(h;) = 65 + 120 *
si 0 < h 1.6
2 1 .6
2 1 .6
185
si
h 1.6
Figura 8.8: Ajuste del semivariograma esfrico (lnea slida) al semivariograma omnidireccional
experimental.
Figura 8.9: Mapa de los residuos de prediccin cuando se ajusta el modelo esfrico propuesto.
8.3.3 Isotropa.
A esta altura del anlisis estructural, es importante chequear la hiptesis de
isotropa. A travs de los semivariogramas direccionales se investiga si se presenta
alguna tendencia de los valores de la variable a lo largo de alguna direccin
particular.
Todos los pares de puntos que intervienen en el clculo del semivariograma
emprico omnidireccional se dividen en dos grupos que aportan al clculo de dos
semivariogramas direccionales en las direcciones de 00 y 900, con una tolerancia de 450.
Las grficas de estos semivariogramas direccionales se presentan en las figuras 8.10 y
8.11 respectivamente.
116
117
N
O
R
T
E
ESTE
Figura 8.12: Curvas de nivel para los valores de kriging de la variable concentracin de cloruros,
producido con el programa Geoeas.
Figura 8.13: Curvas de nivel para los valores de kriging de la variable concentracin de cloruros,
producido con el programa Geoeas, en una grilla de ms resolucin.
118
La Figura 8.13 muestra las curvas de nivel pero para otra grilla con mayor
resolucin (2.5 km. en ambas direcciones) donde se realiza el kriging. Los errores de
prediccin se presentan en el mapa de la figura 8.14.
Figura 8.14: Curvas de nivel para los valores de los errores estndares del kriging de la variable
concentracin de cloruros, producido con el programa Geoeas.
8.4 Nitratos.
8.4.1 Anlisis descriptivo.
El siguiente post- plot muestra el comportamiento de la variable concentracin
de nitratos a travs de los 43 pozos que aportaron informacin.
Se observa un comportamiento similar a la de la concentracin de los cloruros,
los valores ms bajos de concentracin de nitratos se presentan en la parte norte del
acufero. En cambio los valores ms altos se encuentran diseminados en la parte sur. El
valor correspondiente al pozo ASP1232 no tiene muchas observaciones cercanas, as
que cuando se realice la validacin cruzada es muy probable que se observe un residuo
muy grande.
119
120
Figura 8.17: Diagrama de puntos de la variable concentracin de Nitratos vs. la variable Este.
Figura 8.18: Diagrama de puntos de la variable concentracin de Nitratos vs. la variable Norte.
121
0
si
h= 0
3
3 h
1 h
si 0 < h 2.5
(h;) = 5 0+ 125 *
2
2
.
5
2
2
.
5
175
si
h 2 .5
122
Figura 8.20: Ajuste del semivariograma esfrico (lnea slida) al semivariograma omnidireccional
experimental.
Figura 8.21: Mapa de los residuos de prediccin cuando se ajusta el modelo esfrico propuesto.
123
Figura 8. 22: Curvas de nivel para los valores predichos de la variable concentracin de nitratos.
124
Figura 8. 23: Curvas de nivel para los valores de los residuos estandarizados del kriging de la variable
concentracin de nitratos, producida con el programa Geoeas.
125
126
7266
7265
7264
7263
7262
7261
7260
7259
7258
3557
3558
3559
3560
127
3561
8.6 Conclusiones.
A pesar de contar con una cantidad de observaciones inferior a lo recomendado
para realizar un estudio geoestadstico, los mapas de curvas de nivel logrados a travs
de este procedimiento presentan caractersticas fundamentales que los especialistas
intuan acerca de la realidad. Aunque, la realidad nunca llega a ser conocida.
Las curvas de igual contenido de cloruros presentadas en el mapa
correspondiente, al igual que las de igual concentracin de nitratos, muestran que el
pozo ASP1232 es un posible foco de contaminacin. As los pozos cercanos estn
influenciados por sus valores altos de concentracin de cloruros y de nitratos. Si se
perforasen otros pozos en la vecindad, en un radio de 1km, se obtendran valores
similares de los indicadores. Otros focos posibles de contaminacin, para las aguas
subterrneas del acufero de La Caldera, pero de menor grado se encuentran en la zona
norte. A juicio de los especialistas esto es un llamado de atencin para la actual empresa
encargada de proveer el agua a los habitantes del sector norte y el centro de la ciudad de
Salta a los efectos de la perforacin de nuevos pozos, pero es muy poco determinante en
la calidad de las aguas que llegan al consumidor porque la pureza del agua provista por
el acufero se ve afecta en gran medida por el sistema de distribucin obsoleto.
Las curvas de nivel de los desvos estndares de las predicciones muestran
valores altos en las zonas cercanas al valor alejado correspondiente al pozo cuestionado,
como as tambin, en zonas donde la informacin es escasa. Dichos valores tambin
dependen del semivariograma elegido, pero por ensayo y error, modelos distintos a los
adoptados produjeron valores ms elevados.
128
129
cerca de las esquinas siguiendo las dos direcciones Norte-Sur y Este-Oeste favorecidos
por la distribucin de las calles en el casco principal de la ciudad de Salta.
En el siguiente mapa se presentan las 22 posiciones de los puntos donde se logr
obtener informacin de la concentracin de dixido de nitrgeno en febrero de 1997
(uno de los periodos de recoleccin de 15 das de duracin). A los efectos de determinar
las coordenadas de los puntos de observacin en el mapa se consider un sistema de
coordenadas ortogonales con centro en un punto referencia de la ciudad: el vrtice
nortdeste de la plaza principal 9 de Julio. El eje de las abscisas en la direccin OesteEste y el eje de las ordenadas en la direccin Sur- Norte.
1600
1100
NORTE
600
100
-400
-900
-1400
-1600
-1100
-600
-100
400
900
1400
OESTE
Las distancias estn medidas en metros. As, en metros, estn expresadas las
variables que definen ambos ejes del grfico de la figura 9.1. Los puntos de observacin
se distribuyen en un rectngulo de aproximadamente 2.5 kilmetros en la direccin
Oeste- Este por 2.7 kilmetros en la direccin Sur- Norte. Algunos puntos fueron
cambiados de sus posiciones originales a los efectos de que formen parte de una grilla
irregular de 6 filas por 7 columnas.
En la figura 9.2, los puntos correspondientes al microcentro estn indicados con
tringulos, con cuadrados los del macrocentro y los restantes corresponden a lugares
perifricos.
De acuerdo a la cantidad promedio de vehculos que circulan por las calles de la
ciudad, se observa que existe ms concentracin de puntos de observacin en la zona
denominada centro de la ciudad. Aproximadamente el 67% cumple con dicho requisito.
Claro que la densidad de puntos es ms alta cuanto ms nos acercamos al centro
comercial de la ciudad (microcentro).
Tambin en la Figura 9.2, con la letra T queda indicada la posicin de un punto
de observacin en la zona de la Terminal de mnibus, con M la del Mercado municipal
y con A posiciones de puntos de observacin en principales avenidas de acceso al centro
comercial de la ciudad.
130
M
T
A
A
Figura 9.2: Mapa donde se indican las posiciones de puntos estratgicos de observacin.
g de NO2 por cada m3. En la figura 9.3 se presenta las concentraciones del NO2
observadas en febrero de 1997 en sus respectivas posiciones.
1600
1.2
.8
2.4
3.4
1100
600
8.5
11.5
7.4
2.3
2.7
11.0
100
.4
4.3
5.5
4.0
NORTE
-400
.8
-900
.2
3.3
8.7
2.6
2.3
1.9
.3
-1400
-1600
-1100
-600
-100
400
900
1400
OESTE
131
Los scatter plot de la variable de inters versus cada una de las variables que
definen la posicin de los puntos, mostrados en la Figura 9.5, sealan que no se presenta
tendencia en los valores de la variable concentracin de nitrgeno ni en la direccin
Oeste-Este ni en la direccin Sur-Norte.
b)
14
14
12
12
10
10
8
NOX297
NOX297
a)
6
4
4
2
0
-2
-2000
-1500
-1000
-500
500
1000
-2
-2000
1500
OESTE
-1500
-1000
-500
500
1000
1500
NORTE
Figura 9.5: Diagramas de puntos de a) concentracin de nitrgeno vs. Coordenada oeste- este.
b) concentracin de nitrgeno vs. Coordenada sur-norte.
Figura 9.6: En ambas figuras con azul se representan los valores de la media y con rojo los valores de la
mediana de los valores de concentracin de nitrgeno. a) Segn columnas.
b) Segn filas.
2000
Efectos
medianos
Filas
Residuos
Efecto
Mediano
Total
Tabla 9.3: Valores de los efectos medianos segn filas, columnas; efecto mediano total y residuos luego
de aplicar Mediana polish a las concentraciones de dixido de nitrgeno.
133
La superficie mediana polish formada por la unin de planos definidos sobre los
rectngulos que determinan la grilla con ecuaciones 6.4.11 se muestra en la figura 9.8.
En dicha representacin se observa como se modelo la tendencia que se presenta
particularmente en la direccin Sur- Norte.
Figura 9.7: Superficie de planos interpolados usando mediana polish para los datos de concentracin de
dixido de nitrgeno.
distancias. La cantidad de los mismos en los dos primeros intervalos planos es menor
que 30 pares.
Figura 9.8:Semivariograma experimental omnidireccional para los residuos usando como parmetros
para las distancias: mnima=245 m; mxima=1800 m y un incremento 300 m.
1
2
3
4
5
6
Pairs
10
22
39
34
30
33
Avg Distance
418.671
682.636
986.583
1264.834
1585.817
1884.789
Estimate
6.508
7.196
8.884
7.965
8.202
7.213
0
si
h= 0
3
3 h
)
1 h
)
si 0 < h 800
(h; ) = 2.4+ 5.6 *
2
800
2
800
8
si
h 800
135
Figura 9.9: Ajuste del semivariograma esfrico (lnea slida) al semivariograma omnidireccional
experimental.
Figura 9.10: Mapa de los residuos de prediccin cuando se ajusta el modelo esfrico propuesto.
136
En los tres casos el valor estimado del alcance es 1017.4, es decir que en
1017.4m el semivariograma crece desde un efecto pepita de 3.91 hasta alcanzar una
meseta de 8.1. Por lo tanto el semivariograma que mejor ajusta, segn el criterio de
mnimos cuadrados ponderados, es un esfrico con las caractersticas dadas. En al figura
9.11 se presenta dicho ajuste.
C:3
C:5
C:4
C:6
C:2
C:1
SEMIVAR
6
5
4
3
2
1
0
0
500
1000
1500
Figura 9.11: Ajuste mnimos cuadrados ponderados de un semivariograma esfrico (lnea slida) al
semivariograma omnidireccional experimental.
137
Figura 9.12: Mapa de los residuos de prediccin cuando se ajusta el modelo esfrico con un alcance de
1017.4m, un efecto pepita de 3.91 y una meseta de 8.1.
9.4.3 Kriging.
Basado en el ltimo semivariograma ajustado y en el conjunto de los datos de
los residuos, las ecuaciones de kriging ordinario (5.3.8) permiten la prediccin de los
residuos en los puntos de inters.
Para dibujar las curvas de nivel de los valores predichos se hace que la posicin
s vaya recorriendo los nodos de una malla regular con origen en el punto de
coordenadas (-1400, -1330), con una separacin de 100m entre lneas de la malla que
cubre el rectngulo definido por las observaciones. A partir de los valores predichos de
los residuos (R) en la malla, se pueden dibujar las curvas de nivel.
Figura 9.13: Mapa que presenta las curvas de nivel de prediccin de la variable residuos cuando se
realiza un kriging con el modelo esfrico con un alcance de 1017.4m, un efecto pepita de 3.91 y una
meseta de 8.1.
138
En forma similar que se obtienen las curvas de nivel de las predicciones para la
variable se obtienen simultneamente las curvas de nivel de las estimaciones de las
desviaciones estndar de prediccin. As, de esta manera se permite visualizar la
incertidumbre de la prediccin.
Figura 9.14: Mapa que presenta las curvas de nivel de las desviaciones estndar de prediccin de la
variable residuos.
desviaciones estndar
de la prediccin
2.76
2.58
2.58
2.72
Tabla 9.5: Valores predichos de la concentracin de dixido de nitrgeno y sus desviaciones estndares
en los puntos de inters para los investigadores.
139
En la figura 9.15 se presenta un mapa con las curvas de nivel de las predicciones
mediana polish de las concentraciones de dixido de nitrgeno. El mapa de los errores
estndares de la prediccin correspondiente se present en la figura 9.14.
Figura 9.15: Mapa que presenta las curvas de nivel de las predicciones mediana polish de la variable
concentracin de dixido de nitrgeno.
A modo de conclusin.
Como en todo estudio geoestadstico, el anlisis estructural tuvo un peso
importante en su desarrollo. Para el problema planteado se decidi ante la presencia de
tendencia modelarla mediante el procedimiento de mediana polish, y de esa manera
trabajar para la prediccin con el kriging correspondiente. Otros modelistas
probablemente elegiran otro forma para la tendencia, y se produciran diferentes
resultados. Pero de acuerdo a los resultados tericos con respecto al sesgo y ante la
presencia de muy poca informacin, se inclin por este procedimiento.
La eleccin del ajuste del semivariograma mediante mnimos cuadrados
ponderados tambin se fundamenta en los resultados tericos que fundamentaron el
prrafo anterior.
La cantidad de puntos de observacin tanto como sus ubicaciones son en general
adecuadas debido a los altos costos de la implementacin de los sistemas de deteccin y
140
141
142
Los estudios realizados para completar esta tesis, han permitido detectar varios
temas directamente relacionados con el enfoque propuesto que seran muy interesante
analizar en el futuro, entre ellos los siguientes:
a) Generacin de curvas de nivel.
b) Simulacin Geoestdistica.
c) Muestreo espacial.
d) Mtodos Geoestadsticos multivariantes
Generacin de curvas de nivel.
Como los resultados geoestadsticos generalmente se presentan en mapas
bidimensionales a travs de las curvas de "iso contenido" es interesante investigar como
se produce la interpolacin para dibujar dichas curvas que puede ser tipo Splain como lo
realiza el Geoeas, o distintas alternativas que presentan otros programas como el
Statistica. La interpolacin fractal sera otra alternativa interesante. Vale aclarar que
para esta tesis los mapas con curvas de niveles fueron generados segn la propuesta del
programa Geoeas.
Simulacin Geoestadstica.
El fin ltimo de la Geoestadstica es la caracterizacin del fenmeno, lo que
conduce a varios tipos de aplicaciones. La primera de ella es la prediccin (estimacin),
la que fue tratada en esta tess. La prediccin suele producir mapas que son mucho ms
suaves que la realidad. Por ello, en los casos en que la variabilidad espacial sea de
inters es necesario recurrir a tcnicas de simulacin, segundo grupo de aplicaciones, a
fin de obtener realizaciones plausibles de la variable estudiada.
Muestreo espacial
Otro tipo de aplicacin de este enfoque que puede ser estudiado, es el que resulta
de que la Geoestadstica permite obtener no slo la prediccin sino tambin una medida
de la incertidumbre asociada a ella. As la Geoestadstica constituye el marco ideal para
seleccionar la ubicacin de puntos de muestreo de forma que se minimice la
incertidumbre de la prediccin.
Mtodos Geoestadsticos multivariantes.
En esta tesis se puso nfasis en el tratamiento de datos considerados como una
realizacin de un proceso aleatorio univariado, pero se puede estudiar el caso de datos
que sean una realizacin de un proceso aleatorio multivariado. En estos procesos
adems de la correlacin espacial cabe esperar la correlacin entre las variables.
143
Englund, E. & Sparks, A..1991. Geo- EAS 1.2.1 Users Guide, US-EPA Report
#600/8-91/008, EPA-EMSL, Las Vegas, NV.
Erickson B.H., Nosanchuk T.A.. 1992. Understanding Data. Open University
Press. Buckingham.
144
http://www.geoavariances.fr
http://www.curie.ei.jrc.it/ai-gostats.htm
http://www-sst.unil.ch/geostatistics.html
http://www.u.arizona.edu/~donaldm/
http://www.springer-ny.com/supplements/variowin.html
http://www.statsoft.com
http://www.goldensoftware.com/products/surfer/surfer.shtml
145
APNDICE C5
1. Obtencin de las ecuaciones del Kriging simple.
Para la prdida dada por el error cuadrtico, el mejor predictor es E (Z (s 0 ) / Z ) , el cual
no siempre es lineal en Z. En vez de preguntar por el mejor predictor, uno podra
preguntarse por el mejor predictor lineal, esto es; obtener l1,l2 , ... , ln , k en
n
p(Z,s0) =
li Z(si) + k,
i =1
i =1
Se puede expresar:
2
n
n
n
E Z (s 0 ) li Z (s i ) k = var Z (s 0 ) li Z (s i ) + (s 0 ) li Z (s i ) k
i =1
i =1
i =1
donde (s) =E(Z(s)) s D.
E Z ( s 0 ) li Z ( s i ) k
i =1
es la suma de los valores mnimos de ambas expresiones.
i =1
:
var ( Z (s 0 )) +
j =1
i =1
= var ( Z (s 0 )) + l l 2 l c
Var Z (s 0 )
i =1
Z (s i )
= 2 l 2c = 0 por lo tanto l = c.
146
i Z ( si ) que satisfacen
i =1
= 1.
i =1
Se debe minimizar:
n
E Z (s 0 )
i Z (s i ) 2m i 1
(2)
i =1
i =1
con la restriccin
= 1.
i =1
n
La condicin
i =1
n
[Z(s0) i
i =1
Z ( s i ) ]2 =
1
2
i
i =1 j =1
Z ( s i ) Z (s j )
147
i =1
( Z (s 0 ) Z (s i )) 2
E[Z(s0) i Z ( s i ) ]2=
i =1
1
2
i j E ( Z ( s i ) Z (s j )) + i E ( Z (s 0 ) Z (s i )) 2
n
i =1 j =1
i =1
se obtiene:
n
E[Z(s0) i Z ( s i ) ]2 =
i =1
i j ( s i s j ) + 2 i (s 0 s i )
n
i =1 j =1
i =1
i j si s j + 2
i =1 j =1
i =1
i =1
i (s 0 s i ) 2m [ i 1 ]
(3)
j =1
j ( s i s j ) + (s 0 s i ) m = 0
i = 1, 2, ... , n.
=1
i =1
0 = 0 1
donde
0 ( 1 , 2 , L , n ,m)
0 ( ( s 0 s 1 ) ,L , (s 0 s n ) ,1 )
(s i s j ) i = 1,..., n
0
1
i = n +1
0
i =n +1
j = 1,..., n
j = 1,..., n
j =n+1
( 1 1 1 )
1
*
nx1 = + 1
1
1 1
148
(5)
m=
1 1 1
1 1 1
(6)
1 11 1
=
1 + 1 1 1
1
(7)
donde:
1
( 11) 1
11 0
=
=
1
0
0
(8)
entonces,
1 1 1 = 1( 11) 1 1 1
(9)
(10)
( 11 ) 1 1
(11)
La inversa de 11 es:
( 11) 1 = 1 +
1 11 1
1
= 1 + 1 11 1
1
1 1 1
donde = 1 1 1 1
Reemplazando (12) en (9) y en (11)
(12)
(13)
149
1 + 1 1 1 =
(14)
1
1 1 1
( + 11 1 ) (11 )( 1 + 1 11 1 )
1 11 1 =
1
1( 1 + 1 11 1 )
( 1 +
1 11 1 )1
(15)
Donde la matriz n x n ( 1 +
1 11 1 )(11)( 1 +
1 11 1 ) se puede expresar
como:
( 1 +
1 11 1 )(11)( 1 +
1 11 1 +
1 11 1 ) =
1 1(1 1 1)1 1 +
1
2
1
1
1
1
1 + ( 1 1) + 2 (1 1) 11 =
1 1 1 1
1 1
1
1
1 +
11 = 2 11
Por lo tanto:
1 1
1
11 1
( 1 + 1 11 1 )1
2
1 11 1 =
1
1
1
1
1( + 11 )
1 11 1
11
(1 )
=
1
1 1 1 1 1 1
1
1
1 1
1
(16)
1 1 1
+ 11 1
=
1
0
1
1 11 1
0 (1 )
1 1
1
150
1 1
1
=
1
1
1
1
1
1
1 11
=
1
1 1
1 1
1
En consecuencia:
1
1
1
1
1
* nx1 ( 1 1 1 11 ) 1 1 1 1 nx1
0 =
=
1
1
1
1
m
1
1
1
1 1
1 1
De donde:
* nx1 = 1 nx1 + 1
1 1 1 nx1
1 1 1
y m=
151
1 1 1 nx1
como se quera demostrar.
1 1 1
APNDICE C6
1. Obtencin de las ecuaciones del Kriging Universal en trminos de variogramas.
En el kriging universal, el predictor lineal insesgado ptimo, se simboliza como
p$ ( Z ; s 0 ) y es aquel que minimiza el error cuadrtico medio de prediccin:
2e = E [ Z (s 0 ) p( Z ; s 0 )]
sobre 1,K , n sujeto a X = x .
(1)
E [ Z (s 0 ) Z ] 2 m .( X x )
Con respecto a los vectores y m; donde m ( m0 ,K , m p ) .
Es decir, se debe minimizar
2
(2)
p +1
n
E Z (s 0 ) i Z (s i ) 2 m j 1 i f j 1 (s i ) f j 1 (s 0 )
i =1
j =1
i =1
(3)
con respecto a 1 ,K , n , m0 ,K , m p .
Suponiendo que f 0 (s) 1 lo cul garantiza que
=1
(4)
i =1
2
Z
(
s
)
i Z ( s i ) = [x + ( s 0 ) Z ]
0
i =1
= [x + (s 0 ) X ]
n
= (s 0 ) i (s i )
i =1
( (s ) ( s ))
= i
i =1 j =1
+ i ( (s 0 ) (s i ) )
2
2
(5)
i =1
Suponiendo que:
2 (h) = Var ( Z (s + h) Z (s)) = Var ( (s + h) (s) ) = E ( (s + h) (s) ) 2
152
(6)
i j (s i s j ) + 2
i =1 j =1
p +1
i =1
j =1
i =1
i (s 0 s i ) 2 m j 1 i f j 1 (si ) f j 1 (s 0 ) (7)
u = u1 u
donde
o
(8)
u ( 1 ,K , n , m0 ,K , m p )
u ( , m )
(9)
(10)
i = 1,K , n
(s i s j )
u f j 1 n (s i )
i = 1,L , n
0
i = n + 1,L , n + p + 1
j = 1,L , n
j = n + 1,L , n + p + 1
(11)
j = n + 1,L , n + p + 1
u =
X
donde:
es la matriz n x n , = ( s i s j )
X
0
i , j = 1, 2 ,K , n .
X es la matriz n x ( p+1) X = f j 1 n (s i )
i = 1,2,K , n j = n + 1,K , n + p + 1
I n + p +1
u
Sea la matriz
formada por los bloques, la matriz identidad de orden
I n + p +1 0 n + p +1
n+p+1: I n + p +1 , su opuesta: I n + p +1 y la matriz nula de orden n+p+1: 0 n + p +1 . Que se
expresa como,
153
In
0 ( p +1) xn
X
0
0 nx ( p +1)
I p +1
0 nx ( p +1)
0 p +1
In
0 ( p +1) xn
0 nx ( p +1)
I p +1
0n
0 ( p +1) xn
0
nx ( p +1)
0n
0 ( p +1) xn
X
X 1 X
In
X 1
1 X
I p +1
1
0 ( p +1) xn
0 nx ( p +1)
I p +1
0 nx ( p +1)
0 p +1
0
nx ( p +1)
0n
0 ( p +1) xn
X
X 1 X
In
X 1
0 nx ( p +1)
0 p +1
1 X ( X 1 X ) 1 X 1 + 1
( X 1 X ) 1 X 1
1 X ( X 1 X ) 1
( X 1 X ) 1
0 nx ( p +1)
I p +1
(12)
1 X ( X 1 X ) 1 X 1 + 1
=
( X 1 X ) 1 X 1
1
u
1 X ( X 1 X ) 1
( X 1 X ) 1
= ( + X ( X 1 X ) 1 ( x X 1 )) 1
y
m = x X 1
(13)
(14)
( X 1 X ) 1
2k (s 0 ) = * 1 * + 2 * = * + ( * * 1* )
donde la expresin entre parntesis luego de trabajo algebraico se transforma en m x .
Por lo tanto;
2k (s 0 ) = * + m x = *u u
(15)
Adems, otra expresin de la varianza del kriging es:
2k (s 0 ) = 1 ( x X 1 ) ( X 1 X ) 1 ( x X 1 )
154
(16)
n
n
E Z ( s 0 ) i Z ( s i ) = E ( s 0 ) i ( s i )
i =1
i =1
= Var (s 0 ) i (s i )
i =1
(17)
= Cov( (s 0 ), (s 0 )) + 2 c
donde = Cov (s i ); (s j )
(18)
(19)
X c
=
O m x
(20)
={c+ X ( X 1 X ) 1 (x X 1c)} 1
m =(x X 1 c) ( X 1 X ) 1
(21)
2k (s 0 ) = C (0) 2 i C (s 0 s i ) + i j C (s i s j )
i =1
i =1 j =1
p +1
i =1
j =1
= C (0) i C (s 0 s i ) + m j 1 f j 1 (s 0 )
= C (0) c 1c + (x X 1 c) ( X 1 X ) 1 (x X 1 c)
155
(22)