Sie sind auf Seite 1von 162

MTODOS ESTADSTICOS EN PROBLEMAS

ESPACIALES
por

HECTOR NICOLAS FUNES


Profesor en Matemtica y Fsica

Tesis presentada en parcial cumplimiento para la obtencin del grado de

MAGISTER EN ESTADISTICA APLICADA

Comit de Supervisin
Dr. Ral Pedro Mentz (Director)
Dr. Aldo Jos Viollaz
Mg. Santiago Mario Di Lullo

INSTITUTO DE INVESTIGACIONES ESTADISTICAS


FACULTAD DE CIENCIAS ECONOMICAS
UNIVERSIDAD NACIONAL DE TUCUMAN

San Miguel de Tucumn, Mayo 2004

ndice
ndice ................................................................................................................................ i
Agradecimientos ............................................................................................................ iv
Resumen .......................................................................................................................... v
CAPITULO 1: INTRODUCCIN ............................................................................... 1
1.1 Estadstica para datos espaciales. ........................................................................... 1
1.1.1 Algunos ejemplos de datos espaciales............................................................... 1
1.2 Modelo espacial general. .......................................................................................... 2
1.2.1 Ejemplos de datos en Geoestadstica. ............................................................... 3
1.2.2 Ejemplos de datos lattice. .................................................................................. 3
1.3 Geoestadstica: definicin y alcance........................................................................ 4
CAPITULO 2: ESTADSTICA DESCRIPTIVA PARA DATOS
GEOESTADSTICOS.................................................................................................... 6
2.1 Primeras herramientas exploratorias..................................................................... 6
2.1.1 Presentacin de los datos. Mapas de datos. ..................................................... 6
2.1.2 Box Plot y/o Diagrama de tallos y hojas........................................................... 7
2.1.3 Scatter plot tridimensional. ............................................................................... 8
2.1.4 Post plot............................................................................................................... 8
2.2 Otras herramientas exploratorias........................................................................... 9
2.2.1 Diagrama de puntos de Variable versus Variable ndice. ............................ 10
2.2.2 Medias y medianas por filas y columnas....................................................... 10
2.2.3 El Estadstico u. .............................................................................................. 12
2.2.4 h- Scatter Plot .................................................................................................. 13
2.2.5 Nube de variogramas. ..................................................................................... 16
2.2.6 Nubes de las diferencias de las races cuadradas. ........................................ 18
2.2.7 El Pocket plot................................................................................................... 19
CAPITULO 3: CAMPOS ALEATORIOS................................................................. 23
3.1 Campos Aleatorios.................................................................................................. 23
3.2 Funcin de distribucin y momentos de un campo aleatorio. ............................ 23
3.3 Campos aleatorios estacionarios. .......................................................................... 24
3.4 Isotropa................................................................................................................... 26
3.5 Meseta y Alcance. ................................................................................................... 27
3.6 Campos Aleatorios Intrnsecamente Estacionarios............................................. 27
3.7 Variograma vs. Covariograma.............................................................................. 29
3.7.1 Propiedades del Variograma........................................................................... 29
3.7.2 Covariograma y Correlograma....................................................................... 30
CAPTULO 4: ANLISIS ESTRUCTURAL............................................................ 32
4.1 Estimacin del variograma. ................................................................................... 32
4.1.1 Mtodo de los momentos. ................................................................................ 32
4.1.2 Variograma para datos irregularmente espaciados...................................... 34
4.1.3 Estimacin robusta del variograma. .............................................................. 38
4.2 Modelos de variograma.......................................................................................... 39
4.2.1 Modelos de semivariogramas isotrpicos....................................................... 39
Construccin de otros modelos de variogramas en Rd. ...................................... 44
4.2.2 Anisotropa........................................................................................................ 44

4.3 Ajuste a modelos de variogramas. ........................................................................ 46


4.3.1 Mxima Verosimilitud (ML). .......................................................................... 47
4.3.2 Mnimos cuadrados. ......................................................................................... 47
Ajuste mediante mnimos cuadrados generalizados........................................... 48
4.3.3 Ajuste a sentimiento. ........................................................................................ 49
4.4 Validacin cruzada del variograma ajustado. ..................................................... 49
CAPITULO 5: KRIGING. .......................................................................................... 51
5.1 Prediccion Espacial y Kriging. .............................................................................. 51
5.2 El mejor predictor lineal - Kriging simple. .......................................................... 53
5.3 Kriging ordinario.................................................................................................... 55
Obtencin de las ecuaciones de kriging ordinario. ............................................. 56
5.4 Aspectos prcticos. ................................................................................................. 61
5.4.1 Efectos de distribucin de los datos. ............................................................... 61
Efecto pantalla........................................................................................................ 63
Efecto de agrupamiento......................................................................................... 65
Distribucin angular de los datos. ........................................................................ 65
5.4.2 Dibujo de curvas de nivel. ................................................................................................66
5.5 Kriging lognormal. ................................................................................................ 68
CAPTULO 6: KRIGING UNIVERSAL. .................................................................. 70
6.1 Kriging Universal. .................................................................................................. 70
6.1.1 Modelo supuesto. .............................................................................................. 70
6.1.2 Predictor Supuesto. .......................................................................................... 71
6.1.3 Prediccin espacial ptima del proceso Z. ..................................................... 72
6.1.4 Ecuaciones de kriging universal. .................................................................... 72
6.2 Estimacin del variograma para el kriging Universal. ....................................... 74
6.3 Kriging mediana polish.......................................................................................... 76
Datos grillados........................................................................................................ 77
Datos no grillados................................................................................................... 77
6.3.1 Mediana polish. ................................................................................................ 78
6.3.2 Superficie mediana polish................................................................................ 82
6.3.3 Kriging basado en los residuos de la mediana polish.................................... 82
CAPITULO 7: APLICACIN A LA HIDROGEOLOGA, "ACUIFERO DE
TUCSON ..................................................................................................................... 84
7.1 Anlisis descriptivo de los datos. ........................................................................... 84
7.1.1 Otras herramientas exploratorias. ................................................................. 87
7.2 Anlisis Estructural................................................................................................ 89
7.2.1 Estimacin del variograma.............................................................................. 89
7.2.2 Ajuste a modelos de semivariogramas. .......................................................... 92
Modelando con el Geoeas y el Variowin. ............................................................. 93
7.2.3 Isotropa. ........................................................................................................... 99
7. 3 Kriging.................................................................................................................. 101
7.4 Logaritmo del contenido de calcio. ..................................................................... 103
7.4.1 Presentacin y anlisis descriptivo de los datos. ......................................... 103
7.4.2 Semivariograma para la variable logaritmo del contenido de Calcio. ...... 104
7.4.3 Kriging de la variable logaritmo del contenido de calcio. .......................... 106
7.5 Comparacin de resultados. ................................................................................ 108

ii

CAPITULO 8: APLICACIN A LA HIDROGEOLOGIA: DATOS DEL


ACUFERO DE LA CALDERA ............................................................................. 110
8.1 Introduccin. ......................................................................................................... 110
8.2 Ubicacin de los pozos.......................................................................................... 111
8.3 Concentracin de cloruros................................................................................... 111
8.3.1 Anlisis descriptivo. ....................................................................................... 111
8.3.2 Anlisis estructural. ....................................................................................... 114
8.3.2.1 Estimacin del variograma. ................................................................... 114
8.3.2.2 Ajuste a un modelo de semivariograma............................................... 115
8.3.3 Isotropa. ........................................................................................................ 116
8.3.4 Kriging............................................................................................................ 117
8.4 Nitratos. ................................................................................................................. 119
8.4.1 Anlisis descriptivo. ....................................................................................... 119
8.4.2 Anlisis estructural. ....................................................................................... 122
8.4.2.1 Estimacin del variograma. .................................................................... 122
8.4.2.2 Ajuste a un modelo de semivariograma................................................ 122
8.5 Mapas generados por el programa Surfer. ........................................................ 125
8.6 Conclusiones.......................................................................................................... 128
CAPITULO 9: UNA APLICACIN A LAS CIENCIAS DEL MEDIO
AMBIENTE ................................................................................................................ 129
9.1 Introduccin. ......................................................................................................... 129
9.2 Presentacin de los datos. .................................................................................... 129
9.3 Modelado de la tendencia. ................................................................................... 133
9.4 Kriging de los residuos. ........................................................................................ 134
9.4.1 Estimacin del variograma............................................................................ 134
9.4.2 Ajuste a un modelo de semivariograma. ...................................................... 135
9.4.3 Kriging............................................................................................................. 138
9.4 Kriging Mediana Polish. ...................................................................................... 139
CAPTULO 10: CONCLUSIONES.......................................................................... 142
CAPITULO 11: BIBLIOGRAFIA............................................................................ 144
APNDICE C5 ........................................................................................................... 146
1. Obtencin de las ecuaciones del Kriging simple................................................. 146
2. Obtencin de las ecuaciones del kriging ordinario............................................. 147
APNDICE C6 ........................................................................................................... 152
1. Obtencin de las ecuaciones del Kriging Universal en trminos de variogramas.
................................................................................................................................... 152
2. Obtencin de las ecuaciones del Kriging Universal en trminos de
covariogramas. ......................................................................................................... 155

iii

Agradecimientos
Deseo expresar mi agradecimiento al Dr. Ral Pedro Mentz, director de esta
tesis, mi gua durante estos largos aos de vida donde estuvo inserta la realizacin de
este trabajo. l junto al equipo de docentes, investigadores y personal de apoyo del
INIE influyeron notablemente en mi formacin acadmica y humana.
Deseo agradecer a todos mis compaeros del Magister y en especial a mi amiga
Mara Cristina Ahumada quien constantemente apoy y alent la empresa que emprend
con mucho esfuerzo.
Mi gratitud para con mis profesores del profesorado, en especial a la Lic. Elda
Canterle y al Estadstico Di Veltz, quienes despertaron en mi el inters por la Estadstica
en mis pocas de estudiante de grado en la Universidad Nacional de Salta.
A mis compaeros de trabajo mi reconocimiento por sus aportes y apoyo. Al
igual que a ambas universidades, la de Salta y Tucumn, por el apoyo econmico que
hicieron posible la realizacin de este programa de Magister.
A los grandes forjadores de las ideas matemticas y estadsticas por permitirme
compartir y disfrutar su ciencia.
milln de gracias

milln de gracias milln de gracias

a mi familia
Finalmente, les doy un

por el sacrificio, espera, aguante, y el compartir un pap con la que da tras da creca
ms y ms: la tesis.
Quiero dedicar de todo corazn esta tesis a toda mi familia, mis padres, mis
hermanos. En especial a Marisa mi compaera de toda la vida, a mis retoos: Beatriz
Anala, Nicols Alberto, Hctor Ral y Juan Pablo.

iv

Resumen
En este trabajo se presentan once captulos dedicados al tema "Mtodos
Estadsticos en Problemas Espaciales". De entre dichos mtodos se centraliza en el
enfoque para tratar datos espaciales que se denomina Geoestadstica.
En los primeros ocho captulos se pone nfasis en los resmenes de lecturas de
la bibliografa, parte del desarrollo del trabajo de tesis plasmado en el plan de trabajo.
En el primer captulo se presenta un marco general para el anlisis y modelado
de datos espaciales. Mediante distintos ejemplos provenientes de distintas ciencias se
muestra la necesidad de ese nuevo enfoque. Luego se define e indica los alcances del
enfoque que se trata en este trabajo: el enfoque Geoestadstico.
El segundo captulo esta dedicado a la presentacin de las herramientas
descriptivas y exploratorias del enfoque Geoestadstico. A travs de un ejemplo se
muestra como ellas son utilizadas para tal fin. A los grficos y resumen clsicos se
deben agregar otros instrumentos que enfaticen la distribucin de los valores de los
datos y las posiciones de los mismos. Los datos espaciales deben ser pensados como
una realizacin de una coleccin espacial de variables aleatorias dependientes, cuya
dependencia est fuertemente ligada a las ubicaciones espaciales. Es necesario
investigar en forma exploratoria los supuestos que se hagan sobre la distribucin de los
valores de los datos y las estructuras de dependencia. Para ello se presentan nuevas
herramientas.
En el tercer captulo se presentan los conceptos tericos que sustentan la
Geoestadstica. Se definen los conceptos de campos aleatorios, los momentos de primer
y segundo orden de un campo aleatorio, destacando la herramienta fundamental de la
Geoestadstica: el variograma. Como as tambin las definiciones necesarias de campo
aleatorio estacionario, intrnsecamente estacionario, y el carcter istropico de los
mismos. Se presentan las propiedades que debe tener el variograma como as tambin la
funcin de covarianza estacionaria a los efectos de comparacin.
En el cuarto captulo se trata la estimacin del variograma. Se trabaja en
presencia del supuesto de isotropa, y se expone la correccin en caso de anisotropa
geomtrica.
Para realizar una prediccin en una determinada posicin es preciso conocer el
valor del variograma emprico, que no siempre esta definido en dicha posicin, y se
necesita ajustar algn modelo de variograma terico. Por eso en este captulo se
presentan modelos de variogramas tericos y criterios de ajuste de los mismos a los
variogramas empricos. Por ltimo se trata la validacin cruzada que es una forma de
medir el ajuste y diagnosticar algunos problemas con el mismo.
En el quinto captulo se presenta los fundamentos tericos bsicos de la
prediccin espacial que se usar en el desarrollo de este trabajo, poniendo nfasis en el
mtodo de kriging. Se fundamenta que el kriging es sinnimo de prediccin ptima en
algn sentido, y en base a los supuestos necesarios se deducen las ecuaciones del
kriging simple y kriging ordinario. En una segunda parte se presentan caractersticas
prcticas de esta metodologa de prediccin, poniendo nfasis en como contribuyen los

datos en la prediccin de acuerdo a sus posiciones. Por ltimo se introducen los


resultados tericos referentes al kriging lognormal.
En el captulo cinco se presentaron los mtodos de prediccin bajo el supuesto
de estacionarierad intrnseca. En el sexto captulo se presentar el mtodo de prediccin
general cuando la variable de inters presente algn tipo de tendencia. As se presentan
los supuestos bsicos de lo que se denomina "kriging universal, tanto como las
ecuaciones y las soluciones de las mismas. Este mtodo fue el primero que plante el
problema de la prediccin de funciones no intrnsecas de una forma global. Tambin
como un caso particular de este tipo de prediccin se presentar el mtodo denominado
kriging mediana polish.
En los captulos siete a nueve se presentan aplicaciones, porque la
Geoestadstica est muy orientada a la aplicacin. As adems de sus conceptos y
tcnicas, se requiere entender conceptualmente el fenmeno en estudio y trabajar
interdisciplinariamente con los cientficos "dueos de los datos".
En el captulo siete y en el siguiente se presentan problemas similares pero con
diferentes fuentes que involucran datos cuyo tratamiento requiere de las herramientas
que han sido presentadas a lo largo de los captulos anteriores. Se trabaja con datos
correspondientes a variables geoqumicas de aguas subterrneas. Estos lotes de datos
espaciales provienen del campo de investigacin de la Hidrogeologa. As, en primer
lugar se trabaja con un conjunto de datos obtenidos a travs de Internet de la pgina
http:/www.u.arizona.edu/. De acuerdo a la informacin suministrada en dicho sitio se
pretendi caracterizar el acufero de Tucson.
En el octavo captulo se trabaja con datos del sistema acufero de La Caldera.
Para el desarrollo de la investigacin, se cont con la informacin proporcionada por la
ctedra de Hidrogeologa en el marco del proyecto de investigacin Hidrogeologa del
Sistema Acufero La Caldera. Se trat la concentracin de cloruros y la concentracin
de nitratos de las aguas subterrneas, por que de acuerdo a los especialistas son las
variables qumicas de importancia para la caracterizacin del sistema acufero de La
Caldera, a los efectos de determinar posibles focos de contaminacin antrpica. Es de
destacar que para llevar a cabo este trabajo se realizaron las distintas etapas de un
estudio estadstico, as la primer tarea fue la elaboracin de la base de datos. En ella
principalmente se registr la informacin de la ubicacin de los pozos donde se
realizaron las observaciones de las variables de inters.
En el noveno captulo se aplic las herramientas proporcionadas por el enfoque
estadstico presentado en los 6 primeros captulos a un problema proveniente de las
denominadas ciencias del medio del ambiente. Para ello se utiliz informacin
suministrada por el equipo de investigacin del proyecto 577: Determinacin de
Dixido de Nitrgeno en la Atmsfera de Salta (capital) de la Facultad de Ciencias de
Exactas. Este grupo de investigacin indag acerca de la calidad del aire que se respira
en la ciudad de Salta y por lo tanto se interesan en las concentraciones de los
contaminantes mayoritarios en la troposfera en especial la concentracin de dixido de
nitrgeno.
Finalmente, en el captulo dcimo figuran las conclusiones y en el captulo
undcimo la bibliografa consultada.

vi

CAPITULO 1: INTRODUCCIN
A travs de este trabajo se pretende presentar un enfoque para el anlisis y
modelado de datos espaciales. Previo a ello en este captulo se presenta un marco
general para luego en su ltimo apartado definir e indicar los alcances del enfoque
propuesto.

1.1 Estadstica para datos espaciales.


Muchos de los modelos estadsticos simples consideran muestras aleatorias.
Estas presuponen variables aleatorias independientes e idnticamente distribuidas.
La independencia es un supuesto conveniente que hace que la teora estadstica
sea ms tratable. Sin embargo los modelos que involucran dependencia estadstica son
ms reales. As por ejemplo, los modelos de series de tiempo son basados en
observaciones de una muestra de variables aleatorias idnticamente distribuidas que son
dependientes y ocurren generalmente en tiempos igualmente espaciados.
Los datos espaciales son otro ejemplo de la necesidad de crear modelos que
involucren dependencia entre las variables. Existen muchas disciplinas que trabajan con
datos recolectados desde diferentes ubicaciones en el espacio, estos son los datos
espaciales. La nocin de que ellos (al igual que los temporales) pueden estar muy juntos
posibilita la correlacin de los mismos, o sea no pueden ser modelados como
estadsticamente independientes. A diferencia de los datos temporales, en los datos
espaciales la dependencia est presente en todas las direcciones, y en general se vuelve
ms dbil cuando las localizaciones de los datos estn ms alejadas.
1.1.1 Algunos ejemplos de datos espaciales.
En geologa por ejemplo, constituyen datos espaciales las medidas de contenido
mineral en cada punto del espacio. En ciencias de la atmsfera: el registro mensual de
lluvias en distintas localidades. Observemos en este caso que tienen tanto componentes
espaciales como temporales. As, para cada una de las localidades, los datos forman una
serie de tiempo, y en un determinado tiempo, los datos de las distintas localidades son
espaciales.
En los ltimos tiempos cientficos recolectaron conjuntos de datos espacio temporales meteorolgicos para estudiar los efectos de la polucin atmosfrica, en
particular el fenmeno denominado lluvia cida.
En ecologa, el tamao, la forma de los organismos, y la densidad de la
distribucin local, deben tener en cuenta la ubicacin de los datos.
As, estas y otras reas del conocimiento como procesamiento de imgenes,
geologa, epidemiologa, agronoma, silvicultura, astronoma, etc., necesitan desarrollar
modelos que tengan en cuenta la existencia de dependencia entre las medidas en
diferentes ubicaciones, es decir se precisan modelos para trabajar con los datos
espaciales. Estos modelos deben ser ms flexibles que sus contrapartes temporales,
porque el pasado, presente, y el futuro no tienen analoga en el espacio.
Las primeras manifestaciones de la estadstica sobre datos espaciales aparecen
en la forma de mapas de datos. Por ejemplo Halley (1686) superpuso sobre un mapa, las
direcciones de cambio de los vientos alisos y monzones entre y en las cercanas de los
trpicos, y procur asignarles causas fsicas. Mucho tiempo despus aparecen los
modelos espaciales. As en 1907, Student estudi la distribucin de partculas a travs
de los lquidos.

Fisher conoca claramente la dependencia en experimentos agrcolas. Entre los


aos 1920 y 1930, en la estacin experimental Rothamsted en Inglaterra, estableci los
principios de aleatorizacin, bloqueo y replicacin a los efectos de suprimirla. Adems
de controlar el sesgo no deseado, la aleatorizacin tambin neutraliza el efecto de
correlacin espacial, aunque no la remueve (Yates, 1938). Sin embargo, se debe tener
en cuenta que la aleatorizacin no neutraliza la correlacin espacial en escalas
espaciales ms grandes o ms pequeas que las dimensiones de las parcelas.
Algunas veces se puede esperar que las observaciones cercanas tiendan a ser
dismiles. La competencia entre plantas por la luz y los nutrientes del suelo podra
inducir la existencia de plantas ms sanas rodeadas por plantas menos robustas. Mead
(1967) analiz los datos sobre coliflores e investig el efecto de competicin. Los
mtodos de los vecinos ms prximos para el anlisis de los experimentos agrcolas
intentan tener en cuenta la dependencia espacial, indirectamente, por el uso de los
residuos desde las parcelas vecinas como covariantes o por diferenciacin.
En la actualidad, la ciencia Estadstica puede encontrarse en cualquier disciplina
cientfica cuantitativa, de esta manera se producen interesantes variaciones en los temas
que fueron tradicionales.
En reas tales como geologa, ecologa y ciencias del medio ambiente, no es a
menudo posible o no es apropiado aleatorizar, bloquear y replicar los datos. Existe una
necesidad de nuevos modelos y aproximaciones estadsticas que se dirijan a nuevos
problemas surgidos desde la tecnologa. Muchos de los problemas resultantes, tales
como valuacin de recursos, monitoreo ambiental (por ej. el calentamiento global), e
imgenes en medicina, son espaciales en su propia naturaleza.

1.2 Modelo espacial general.


Supongamos que se mide el grado de mineralizacin en una mina de cobre. Se
puede pensar que las mediciones del contenido de cobre son realizaciones de una
variable aleatoria Z(s) (Z R1), en cada punto s del espacio considerado: un segmento
de recta, un subconjunto del plano un subconjunto del espacio tridimensional.
Muchas veces, son varias las propiedades o caractersticas observadas para cada
s. Por ejemplo si se considera el grado de mineralizacin en una mina de cobre, el cobre
puede ser de principal inters pero otros metales como el molibdeno, la plata, el oro y el
zinc pueden tambin ser de inters crtico. As para cada s, las mediciones se pueden
pensar como realizaciones de un vector aleatorio Z(s).
Adems s vara en un conjunto D Rd (en este caso d=1, 2 3) a fin de generar
el campo aleatorio multivariado:
Z(s) : s D R d
(1.2.1)
Esto permite que los datos espaciales puedan ser pensados como los resultados de un
campo aleatorio multivariado {Z(s): s D Rd} donde Z Rm, m 1, y la ubicacin s
puede ser un punto de un espacio Euclideano d- dimensional con d 1. Una realizacin
de (1.2.1) se denota por {z(s): s D}.
Cressie(1991) consider que la mayora de los problemas de la estadstica
espacial estn identificados en una de cuatro categoras segn D sea fijo aleatorio y D
sea continuo discreto.
En este trabajo de tesis nos interesa trabajar con problemas de estadstica
espacial que se pueden pensar como una realizacin parcial del campo aleatorio (1.2.1)
con D fijo y continuo. Presentaremos estos problemas y los correspondientes a D fijo

discreto, a los efectos de comparar. Adems consideraremos el caso ms simple, el caso


univariado.
Si los datos se pueden suponer provenientes de una realizacin parcial de un
campo aleatorio donde D se considere fijo y continuo se dice que los datos son
geoestadsticos. En cambio si se pueden suponer provenientes de una realizacin
parcial de un campo aleatorio donde D se considere fijo y discreto se dice que son datos
lattice. Un lattice de ubicaciones evoca una idea de puntos espaciados regularmente en
Rd, pero este ser denominado lattice regular, dando la posibilidad de que sea irregular.
1.2.1 Ejemplos de datos en Geoestadstica.
Adems del grado de mineralizacin en un bloque de mineral, que motiv a
Matheron pionero de la Geoestadstica, para crear el mtodo de prediccin kriging que
estudiaremos, se pueden citar otros ejemplos de datos geoestadsticos.
El pH del suelo en agua, la conductividad elctrica en el suelo, la tensin sueloagua, la infiltracin agua suelo y la erosin del suelo debido al agua, son algunas de
las variables que son de inters para los cientficos de la tierra, quienes realizan mapas
de las propiedades del suelo de un campo a partir de un nmero pequeo de
observaciones en ubicaciones conocidas, suponiendo que varan continuamente a lo
largo del campo.
La distribucin espacial de la leucemia, y los niveles de ruidos acsticos, polvos
y qumicos en un ambiente de trabajo, son algunos de los problemas abordados por los
cientficos de la Salud.
La cartografa, fue uno de los primeros dominios de aplicacin de los mtodos
propuestos por Matheron para modelar numricamente las caractersticas de los
terrenos.
El precio de mercado de los cerdos, o de las frutas, son variables que generan
datos del tipo geoestadsticos.
En hidrogeologa, las variables que estn relacionadas con el flujo (nivel
piezomtrico y trasmisividades) y la calidad qumica e isotpica de las aguas
subterrneas, son fuentes de datos de inters.
1.2.2 Ejemplos de datos lattice.
Los sensores remotos de satlites ofrecen un medio eficiente de recoleccin de
datos. Por ejemplo estos permiten que se rena informacin rpidamente sobre los
patrones del estado atmosfrico, la distribucin mineral y las extensiones de terreno
sembrado sin tener una labor intensiva de reconocimiento tradicional. Los satlites
orbitan la tierra y reciben los datos en forma de ondas electromagnticas reflectantes
con una cantidad de frecuencias, incluyendo aquellas de la parte visible del espectro.
Para diversos muestreos y mtodos de integracin, la tierra est dividida en pequeos
rectngulos llamados pixeles.
Supngase una zona agrcola de inters (alrededor de 34000 km2) que tiene
ciertas proporciones dedicadas al trigo, maz, soja, y as sucesivamente, que necesitan
ser estimadas. Estos cultivos tienen sus propias propiedades de reflectancia que, junto
con ruidos, son remotamente sensorizados. As, los datos son recibidos como un lattice
regular en R2 (dejando de lado la curvatura de la tierra) y son identificados con los
centros de sus pixeles respectivos.
Existe una gran superposicin entre tcnicas de sensores remotos y tcnicas de
imgenes en medicina, aunque las escalas espaciales son diferentes, la forma de los
datos y las cuestiones de existencia preguntadas son a menudo semejantes. Los modelos

estadsticos para tales datos necesitan expresar el hecho que observaciones cercanas
tienden a ser semejantes.
En contraste a los problemas geoestadsticos, los datos desde problemas de
lattices pueden ser exhautivos del fenmeno. Por supuesto, es posible realizar muestreo;
por ejemplo utilizando slo una ventana pequea de todos los datos.
Los problemas geoestadsticos se distinguen claramente de los problemas de
datos lattice por la capacidad del ndice espacial s de variar continuamente sobre un
subconjunto de Rd. Esto no afirma que los mtodos de una clase de problemas no
puedan ser apropiados para ser aplicados a la otra clase de problemas.

1.3 Geoestadstica: definicin y alcance.


Previamente se ver qu se entiende etimolgicamente por Geoestadstica y
algunas acepciones que fueron dadas por distintos estadsticos.
El prefijo geo indica la relacin estrecha entre el tema en estudio y todo lo
perteneciente a la tierra, es decir en este caso la estadstica relativa a la tierra, y
verdaderamente este fue su significado original. Hart en 1954 le di un contexto
geogrfico para denotar las tcnicas estadsticas que enfatizan la localizacin dentro de
las distribuciones zonales. Matheron us el trmino en un contexto geolgico para
denotar la teora y los mtodos para inferir las reservas de mineral en bruto desde datos
espacialmente distribuidos en un bloque (volumen de tierra y roca que puede ser minado
si es suficientemente rico). En Francia bajo el impulso de Matheron principalmente,
emergi antes de 1980 la disciplina Geoestadstica como una mezcla de ingeniera en
minas, geologa, matemtica y estadstica, que a diferencia de otros enfoques ms
clsicos, tiene en cuenta la tendencia espacial y la correlacin espacial que en
terminologa minera corresponden a variabilidad espacial en gran escala y en pequea
escala respectivamente. Las mismas ideas tambin fueron desarrolladas en forma
independiente por Gandin en la Unin Sovitica, pero aplicadas a la Meteorologa.
Sea {Z(s): s D} una funcin aleatoria (proceso aleatorio), donde D es un
subconjunto fijo de Rd llamado conjunto de ndices, y s vara continuamente en D.
Matheron, padre de la Geoestadstica en su forma actual, la defini como la aplicacin
del formalismo de las funciones aleatorias al reconocimiento y estimacin de
fenmenos naturales.
Cressie(1991) considera a la Geoestadstica como una rama de la estadstica que
abarca teoras y aplicaciones para procesos aleatorios con ndices espaciales
continuos. As en ambos casos, el trmino Geoestadstica pierde su significado
etimolgico.
La definicin dada por Cressie es ms general que la de Matheron porque deja
abierta la posibilidad de que el fenmeno en estudio sea proveniente de la naturaleza o
no, y as responder a nuevos problemas que surjan de la tecnologa.
Para este trabajo, el trmino Geoestadstica tendr la ltima acepcin.
El fin ltimo de la Geoestadstica es la caracterizacin del fenmeno, lo que
conduce a varios tipos de aplicaciones. El primero es la prediccin (estimacin), esto es,
conocida la variable en una serie de puntos, predecir su valor en otros. La innovacin de
la Geoestadstica es que permite obtener no slo la prediccin sino tambin una medida
de la incertidumbre asociada a ella.
La prediccin suele producir mapas que son mucho ms suaves que la
realidad. Por ello, en los casos en que la variabilidad espacial sea de inters es necesario
recurrir a tcnicas de simulacin, segundo grupo de aplicaciones, a fin de obtener

realizaciones plausibles de la variable estudiada. Otros tipos de aplicaciones son las que
resultan del hecho de que al proporcionar medidas sobre la incertidumbre de la
prediccin, la Geoestadstica constituye el marco ideal para seleccionar la ubicacin de
puntos de muestreo de forma que se minimice la incertidumbre de la prediccin.
Se puede advertir que los objetivos del Anlisis de Series Temporales son muy
similares a los de la Geoestadstica. De hecho, las diferencias no son tanto de tipo
conceptual como de campo de aplicacin. Sin embargo, como el desarrollo de ambos ha
sido independiente, sus nomenclaturas son bastantes diferentes, de forma que el
intercambio de tcnicas no es inmediato pese a no revestir dificultades fundamentales.
Por otro lado, los tipos de problemas que se plantean son lo suficientemente distintos
como para que dicho intercambio no sea todo lo provechoso que cabra esperar. As, la
metodologa Geoestadstica est pensada para datos distribuidos de forma arbitraria en
el espacio, por lo que sus tcnicas son ms generales pero menos potentes que las del
Anlisis de Series Temporales.
Como se deduce de la definicin, la Geoestadstica est muy orientada a la
aplicacin por lo que se requiere no slo el conocimiento de las tcnicas y metodologa
de la misma, sino tambin entender conceptualmente el fenmeno en estudio. As a lo
largo de los prximos cinco captulos se presentar el mtodo Geoestadstico y en los
ltimos se aplicarn a distintos campos del conocimiento cientfico.

CAPITULO 2: ESTADSTICA DESCRIPTIVA PARA DATOS


GEOESTADSTICOS.
Antes de dar una presentacin ms formal de los modelos geoestadsticos, se
presentar un ejemplo y se analizarn sus datos en una forma exploratoria a los efectos
de mostrar las distintas herramientas utilizadas para tal fin.
Los datos espaciales son a menudo observados y resumidos slo en las formas
clsicas, como si fueran resultados de una muestra aleatoria o quizs de una serie
temporal, en vez de ser pensados como una realizacin de una coleccin espacial de
variables aleatorias dependientes, cuya dependencia est fuertemente ligada a las
ubicaciones espaciales. Veremos cmo podemos hacer una exploracin descriptiva de
los datos.

2.1 Primeras herramientas exploratorias.


2.1.1 Presentacin de los datos. Mapas de datos.
Los siguientes datos se obtuvieron de Internet y representan el anlisis de 60
observaciones de suelos en una regin contaminado con arsnico, cadmio y plomo. La
Figura 2.1 muestra las ubicaciones donde fueron tomados. La distribucin de las
coordenadas define aproximadamente un rectngulo de 240 pies en la direccin oeste este por 210 pies en la direccin sur norte. Las ubicaciones de las observaciones estn
irregularmente espaciadas, aunque existen algunos claros y algunas agrupaciones. El
mapa de las ubicaciones de las mediciones sirve adems para identificar posibles errores
en las coordenadas.

Figura 2.1: Posiciones de los datos correspondientes al estudio de la contaminacin del suelo.

Para ejemplificar en las siguientes secciones, analizaremos las mediciones de la


variable contenido de cadmio. Las medidas de la misma en p.p.m. se presentan con
sus respectivas posiciones en la Figura 2.2.

Norte

Este
Figura 2.2: Medidas de cadmio en sus respectivas posiciones

2.1.2 Box Plot y/o Diagrama de tallos y hojas.


Por su propia naturaleza, el anlisis exploratorio de datos no considera las
observaciones de la misma manera, ya que asla para una lectura cuidadosa las
observaciones atpicas. La existencia de algn modelo subyacente, ser investigado por
el anlisis exploratorio.
En el contexto espacial, un modelo estocstico fundamental es aquel en el que
todos los datos provienen de una distribucin normal conjunta, cuya estructura de
correlacin depende de las ubicaciones espaciales. Claro est, que esta hiptesis es muy
difcil de investigar, pero se puede indagar si el conjunto de datos independientemente
de sus posiciones se puede suponer proveniente de una distribucin normal.
Al tratar a los datos como un conjunto de nmeros ignorando su condicin
espacial, para investigar la existencia de valores alejados podramos realizar un
diagrama de tallos y hojas y/o un box-plot. Adems dichos grficos nos brindan alguna
idea de la forma de la distribucin.

Figura 2.3:Box-Plot para el contenido de Cadmio.

De la Figura 2.3 se observa que la distribucin es prcticamente simtrica, y sin


la existencia de valores alejados. Claro est que un histograma sera la herramienta
exploratoria clsica ms usual. Ambas herramientas, se presentan simultneamente al
realizar una exploracin de los datos con el programa GEOEAS.

2.1.3 Scatter plot tridimensional.


Los mismos datos se pueden representar en un scatter plot tridimensional, como
el de la Figura 2.4. Un scatter plot tridimensional es una representacin grfica donde en
los ejes x e y se ubican las coordenadas de los puntos de ubicacin (Norte - Este) y en el
tercer eje se ubican los valores de la variable de inters (Cadmio). La utilidad del mismo
como una herramienta exploratoria es bastante limitada, porque los rasgos interesantes
en los datos se pueden ocultar fcilmente, por ejemplo la tendencia que puede existir en
una direccin particular. En el scatter plot se espera poder detectar valores alejados y
observar posibles tendencias en direcciones determinadas.
250
300

Este

350
400
450

15
10
5
0
150
200
Norte

250
300

Figura 2.4: Scatter plot para las medidas de la variable cadmio.

Para la variable contenido de cadmio el scatter plot correspondiente muestra


valores distribuidos en forma casi uniforme.
El scatter plot es una herramienta til cuando se lo programa en forma iterativa y
se pueden rotar los ejes para visualizar posibles tendencias, valores muy alejados, etc.
Esto, se puede realizar por ejemplo con el soft Mathematica. Para el conjunto de datos
que se est tratando, los distintos grficos generados por el programa, no muestran ms
que el de la Figura 2.4.
2.1.4 Post plot.
El anlisis exploratorio de datos espaciales requiere algunas nuevas propuestas,
sugeridas por las tcnicas de anlisis univariadas y multivariadas. Uno de los ms
usadas es el grfico Post- plot, que es similar al grfico de la Figura 2.2, pero que en vez
de ubicar los valores de la variable en su posicin coloca smbolos y/o colores de
acuerdo a una codificacin que se aplica a los valores de la variable. Para codificar la
variable se procede a dividir su recorrido de acuerdo a los cuartiles.
En la figura 2.5 se representa el post plot para la cantidad de cadmio en cada
observacin. Con el tringulo y el color celeste se representan los valores
correspondientes a los valores menores o iguales al primer cuartil, o sea a 5.3. Con la
estrella y el color verde se representan los valores comprendidos entre 5.3 y el valor
mediano 7.95. Con el diamante y el color azul se representan los valores comprendidos
entre 7.95 y el tercer cuartil 10.8 y con cuadrados rojos a los valores mayores que el
tercer cuartil.

Figura 2.5: Post Plot para la variable cadmio.

A partir de este grfico se observa una tendencia general, los valores ms altos
ocurren en la banda central de la direccin oeste - este. Mientras los valores menores se
presentan en bandas paralelas en el sur y en el norte. Adems se detecta un posible valor
alejado espacial: el valor 11.5 correspondiente a las coordenadas (290, 310), porque en
las posiciones vecinas tienen valores pequeos. Este valor debera ser investigado.
Otros grficos similares pueden ser considerados al realizar la codificacin
utilizando mas percentiles, esto es cuando la cantidad de datos es muy grande para que
tenga sentido la codificacin. A estos ltimos grficos algunos autores los denominan
Percentage Plots.

2.2 Otras herramientas exploratorias.


Para tratar con datos geoestadsticos es necesario agregar supuestos al modelo
estadstico subyacente. Existen distintas herramientas exploratorias para validar esos
supuestos. Los mtodos exploratorios necesitan ser resistentes a observaciones atpicas
para un modelo subyacente. En un contexto no espacial, los valores alejados significan
una desviacin del modelo Gaussiano. En un contexto espacial, adems de estas
desviaciones pueden esperarse desviaciones de los supuestos de estacionariedad de la
media y/o de la medida de dependencia, informalmente hablando esta estacionariedad
se refiere a que las propiedades variacionales no cambian a travs de la regin de
inters.
Supongamos que el contenido de Cadmio en un punto s es la realizacin de un
proceso aleatorio {Z (s) : s D} y est observado en los puntos {s i : i = 1, 2, K , n} de la
regin de inters. Entonces, un proceso intrnsecamente estacionario se define como
aquel que cumple con los siguientes supuestos sobre las diferencias:

E (Z (s + h) Z (s) ) = 0
Var (Z (s + h) Z (s) ) = 2 (h)

(2.2.1)
(2.2.2)

La cantidad 2 (h ) es conocida como el variograma y (h) se denomina


semivariograma. Estos conceptos sern ampliados en el prximo captulo.
9

Las herramientas exploratorias para investigar si la informacin disponible a


travs de los datos no contradice al supuesto sobre la esperanza, o sea sobre (2.2.1), son
entre otras:
Diagrama de puntos: Variable versus Variable ndice.
Medias y medianas por filas y columnas.
Esta ltima, sirve adems para la deteccin de los posibles valores alejados, a travs de
un estadstico denominado u.
En cuanto a las herramientas para investigar acerca de la influencia de los
posibles valores extremos espaciales sobre el variograma, se utiliza:
El h-scatter-plot.
Nubes de variogramas en una direccin dada.
Nubes de las races cuadradas de las diferencias en una direccin dada.
Estos dos ltimos instrumentos se basan en los valores de las estimaciones del
variograma.
Pocket plot
Es una tcnica para identificar un rea localizada que sea atpica con respecto al modelo
estacionario impuesto a la medida de dependencia, y tambin se basa en los valores de
las estimaciones del variograma.
Todas estas herramientas se detallarn en los siguientes apartados.
2.2.1 Diagrama de puntos de Variable versus Variable ndice.
Una herramienta exploratoria muy empleada es el clsico diagrama de puntos de
la variable de inters versus cada una de las variables que definen la posicin de los
puntos. A los efectos de determinar la posible existencia de dependencia entre ellas. Por
ejemplo en la Figura 2.6, en nuestro caso se trata de observar si a medida que aumenta
la distancia oeste- este la cantidad de cadmio aumenta o disminuye o no se presenta
ninguna tendencia.

a)
Figura 2.6: Diagrama de puntos de: a) cadmio vs. Coordenada este.

b)
b) cadmio vs. Coordenada norte.

En ambos diagramas se observa que no existe tendencia lineal entre las


coordenadas y la variable cadmio. En la 2.6 b) se observa una leve tendencia cuadrtica
de la variable cadmio versus la variable que mide las coordenadas en la direccin norte.
2.2.2 Medias y medianas por filas y columnas.
Si los datos estn regularmente ubicados en una grilla (Figura 2.7), puedo
identificar filas y columnas (direcciones O-E y S-N) y calcular medias y medianas
muestrales a lo largo de ellas.

10

fila

columna
Figura 2.7: Grilla de ubicacin de datos que definen filas y columnas.

Como este conjunto de datos no est regularmente espaciado, es decir los datos
no estn ubicados en una grilla regular, se realiza un agrupamiento de baja resolucin de
las observaciones como en una tabla de doble entrada, como lo indica la Figura 2.8. Las
filas (azul) y las columnas (negro) indican las posiciones donde se fijan los valores
cercanos.

Figura 2.8: Grilla de baja resolucin para realizar el clculo de las medias muestrales.

Otra posibilidad es la de considerar a franjas en la direccin Este Oeste (Sur


Norte) como filas (columnas), para el agrupamiento (Figura 2.9).

Figura 2.9: Definicin de columnas por franjas en la direccin Sur- norte.

La Figura 2.10 es un intento de resumir la posible no estacionariedad en la media


a lo largo de filas y columnas, es decir en las direcciones oeste- este y norte- sur, usando
la media muestral y la mediana muestral a lo largo de las filas y las columnas
respectivamente. Entonces, el aspecto espacial de los datos participa por primera vez.
11

a)

b)

Figura 2.10: En ambas figuras con azul se representan los valores de la media y con rojo los valores de
la mediana de los valores de contenido de cadmio. a) Segn columnas.
b) Segn filas.

En la Figura 2.10 a) se observa que no existe ninguna tendencia en los valores


medios y medianos a travs de las columnas. En cambio en la 2.10 b) se observa una
tendencia cuadrtica de los valores medios y medianos a travs de las filas. Esta
tendencia es ms notable con las medias y medianas que con los datos (ver Figura 2.6
b)).
2.2.3 El Estadstico u.
Otro propsito del clculo de los valores medios y medianos por filas y
columnas es el siguiente: desde el punto de vista del Anlisis Exploratorio de Datos, la
mediana es un resumen estadstico resistente, la comparacin de la mediana con la
media (resumen estadstico no resistente) tiene la funcin adicional de destacar las filas
y las columnas que posiblemente presenten outliers espaciales. Si la diferencia
media mediana es bastante grande, entonces la fila o columna debe ser investigada
por los posibles outliers. Pero qu significa bastante grande? Veamos los siguientes
resultados tericos, extrados de Cressie(1991), para determinar la magnitud admisible
de dichas diferencias.
Supongamos que Y1 , Y2 , K , Yn es una muestra aleatoria (es decir i.i.d.) de una
poblacin con funcin de densidad simtrica f, con valor esperado y varianza 2 .
La mediana puede ser aproximada por:
n
signo(Yi )
~
1
Y +
(con f ( ) 0 )
2 f ( )
n i =1
y en forma trivial la media puede ser expresada como:
n
1
(Yi )
Y = +
n i =1
Por lo tanto la diferencia:
n

signo( i )
~ 1
i
donde i = Yi i = 1, 2, K , n
Y Y
2 f ( )
n i =1

Se supone que i = Yi i = 1, 2, K , n se distribuyen normalmente. El siguiente

~ 2
Var (Y Y ) =
n
As, la diferencia media mediana estandarizada es:
resultado es vlido:

12

1
2

(1)

u n

~
Y Y
0.7555

Segn Cressie se debe prestar atencin a los valores de u que estn cercanos a 3 o sean
ms grandes que 3.
En el contexto del anlisis exploratorio de datos se usa como un estimador de a:
rango intercuartil de las Y
=
2 0.6745
La tabla 2.1 presenta las diferencias media mediana estandarizadas, para los
valores que estamos tratando. De la tabla 2.1 se observa que el valor u seala que en la
columna 1 podra existir un outliers, as el valor sospechoso es z(254.4, 216.0)= 14.9
p.p.m.(ver Figura 2.5) que es muy grande comparados con los dems valores de la
columna que no superan el valor del primer cuartil 5.3 p.p.m..
Cuando existe covarianza positiva entre las Y, (1) es una subestimacin de la
~
verdadera varianza de la diferencia Y Y y por lo tanto u indica la existencia de ms
filas y columnas atpicas que las que debera.
Fila
Coordenada
Norte media
u
Fila

1
118.6

2
138

3
150

4
163

5
172

6
181.3

7
193

8
204.3

9
215.5

10
227

1.03
11

0
12

0
13

0.71
14

0
15

0.76
16

-0.18
17

0.59

0.27

Coordenada
Norte media
u

246

253.0

268.5

271.5

285

295

313

0.75

0.63

------

0.04

0.42

- 0.07

Columna
1
2
3
4
5
6
7
8
9
10
11
Coordenada 254.4 275.4 284.8 333.6 345.6 354.2 364.8 412.8 434.8 443.6 492.0
Este media
u
3.35
0.04
-0.35 -0.87
0
-1.64 1.08
-0.7
2.02
-1.08 -1.21
Tabla 2.1: Diferencias entre las medias y las medianas estandarizadas segn filas y segn columnas.

2.2.4 h- Scatter Plot


El h-scatter plot es un diagrama de puntos que representa los valores de la
variable en la posicin s versus el valor de la misma variable en la posicin s + h, donde
h es un vector separacin.
Si los datos estn regularmente espaciados, los h-scatter plots son construidos de
acuerdo al procedimiento ilustrado en la Figura 2.11.

Figura 2. 11: Construccin de h-scatter plot con datos irregularmente espaciados.

13

Si los datos estn irregularmente espaciados, todos los pares que tengan una
distancia de separacin cercana a la del vector separacin h sern retenidos para
construir un h-scatter plot. En la prctica, se establece una tolerancia sobre el vector
separacin h. Esta tolerancia se puede establecer de diversas maneras, las dos ms
usadas son las siguientes:
Con centro en el punto final del vector separacin h se considera un rectngulo de
lados como se indica en la Figura 2.12 a). As por ejemplo el vector h1 es retenido
para la construccin del h-scatter plot en la direccin h.

Se establece tolerancias sobre la distancia o sea sobre la magnitud del vector


separacin y tambin para su direccin, como se lo indica en la Figura 2.12 b). El
rectngulo ahora es curvilneo.

a)

b)

Figura 2.12: a) La tolerancia es aplicada en el punto final del vector h.


b) La tolerancia es aplicada tanto en la direccin como en la magnitud del vector h.

El variograma es una medida de dependencia en la direccin h y Matheron


propone como estimador al promedio de las diferencias cuadradas de los valores de la
variable de inters, que se encuentran ubicadas en puntos que estn separados una
distancia h = h y en la direccin de h en el caso ms simple, esto y la situacin en que
los puntos estn irregularmente espaciados ser tratado ampliamente en el captulo 4.
Fijada una direccin y h, el h-scatter plot nos muestra los pares de valores que
estn involucrados en el clculo del semivariograma en la direccin fijada. Los puntos
de un h-scatter plot que estn cerca de la recta y = x no influyen en gran medida en el
valor del semivariograma. En cambio los puntos que se encuentran muy alejados de la
recta son correspondientes a pares de valores cuyos aportes a la estimacin del
semivariograma sern grandes. As el h-scatter plot tiene como principal funcin
identificar pares que tienen una fuerte influencia en la estimacin de la medida de la
dependencia del proceso.
Cuando el h-scatter plot muestre una forma de mariposa volando, no puede
resumirse adecuadamente con un nico nmero, es posible que una transformacin de
los datos, tales como la transformacin logartmica, la transformacin de score normal,
o la transformacin de rangos, puedan corregir dicha situacin. Cuando la nube de
puntos del h-scatter plot es elptica o casi elptica; el conjunto de pares puede ser
adecuadamente resumido con un solo estadstico, por ejemplo el coeficiente de
correlacin, la covarianza o el momento de inercia alrededor de la lnea diagonal. Este
ltimo es precisamente el estimador propuesto por Matheron.
Adems, los h-scatter plots son frecuentemente tiles para chequear diversos
supuestos que se realizan en geoestadstica:
Los h-scatter plots de una variable univariada Gaussiana proveen una manera visual
rpida de verificacin para la hiptesis de multi-Gaussianidad. Si la funcin

14

aleatoria que representa el fenmeno es multi-Gaussiana, todos los h-scatter plots


son nubes elpticas alrededor de la lnea diagonal con una alta densidad de puntos
en el centro de la nube.
Una sucesin de h-scatter plots, calculado para incrementos de la magnitud del
vector de separacin h, provee una herramienta para investigar la estacionariedad.
Si tal sucesin de h-scatter plots muestra que el centro de la nube de pares se desva
de la lnea diagonal, entonces la funcin aleatoria que representa el fenmeno
estudiado no puede ser considerada estacionaria.

Las figuras 2.13 y 2.14 muestran distintos h-scatter plots para la variable
cadmio, para la direccin Oeste-Este, para distintos magnitudes promedios del vector de
separacin. Los h-scatter plot presentados a modo de ejemplo no muestran la existencia
de posibles extremos.
a)

b)

Figura 2.13: H-scatter plots para la direccin Oeste-Este con una tolerancia de 150. a)h=33.6 b)h=62.4.
c)

d)

Figura 2.14: H-scatter plots para la direccin Oeste-este con una tolerancia de 150.c)h=91.03 d)h=125.1

Se puede ir obteniendo un conjunto de observaciones cada vez ms grande,


aunque una explicacin de su falta de comportamiento puede ser la falta de
estacionariedad en la media del proceso Gaussiano subyacente. Si ellos necesitan

15

especial atencin ser determinado a partir de su influencia en la estimacin del


variograma y en el mtodo de prediccin espacial: el kriging.
2.2.5 Nube de variogramas.
El estimador para el variograma propuesto por Matheron es:
1
(Z (s i ) Z (s j ) )2
2 (h) =
N (h) N (h )

donde la suma se realiza sobre todos los pares que contribuyen al clculo del
variograma emprico en la direccin del vector h. Por ser un promedio de diferencias
elevadas al cuadrado, est afectado por observaciones atpicas. Una manera de
investigar la influencia de posibles valores alejados sobre el variograma es a travs de la
herramienta exploratoria denominada nube de variogramas. Este instrumento consiste
en graficar para una direccin dada, por ejemplo Oeste- Este, y para cada distancia de
separacin h = h los valores de las diferencias al cuadrado de los valores de la variable
que contribuyen al clculo del variograma o del semivariograma emprico. En forma
ms simple la nube de variogramas en la direccin e es simplemente un grfico x - y de
puntos de los valores
(Z (s j ) Z (s i ) )2 :s i + h e = s j , (i, j ) N (he)
versus los valores de h.
La Figura 2.15 muestra la nube de variogramas para la variable que estamos
analizando en la direccin Oeste- Este, para 0 < h 150 pies .

Figura 2.15: Nube de semivariogramas en la direccin Oeste- Este.

Se debe adoptar un criterio para determinar que tan grande debe ser el valor que
precise atencin. Es por ello que se recurre al box plot de la nube de variogramas para
cada h si es que los datos estn distribuidos en una grilla regular o para h promedios
correspondientes a grupos de h cuando los datos estn irregularmente espaciados.
La Figura 2.16 muestra los box- plot de la nube de variogramas en la direccin
Oeste-Este, donde los h estn agrupados en intervalos de amplitud 10.
La Figura 2.17 muestra el mapa en donde se identifican los pares cuyos valores
de diferencias de cuadrados son muy grandes, donde adems se muestra que para los
clculos en la direccin en cuestin se tuvo en cuenta una tolerancia angular de 150.

16

Figura 2.16: Box Plot de la nube de variogramas correspondientes a la figura 2.15. Las unidades en el
eje vertical son (p. p. m. de cadmio)2.Por ejemplo: el valor h =2 corresponde al intervalo 20 h < 30 .

Figura 2.17: Mapa en donde se indican los pares de posiciones cuyos cuadrados de las diferencias de
contenido de cadmio son valores grandes con respectos a los dems valores para cada h.

La tabla 2.2 muestra los valores de la mitad del cuadrado de la diferencia de los
contenidos de cadmio que son valores alejados.
Una gran cantidad de pares de datos se debera considerar para un anlisis
exhaustivo. Pero, es importante destacar que la nube de variogramas puede llevar a
confundir la asimetra de la distribucin de los valores de (h) para cada h con los
valores alejados debido a que las diferencias estn elevadas al cuadrado. Esta ltima
afirmacin est sustentada en el siguiente resultado extrado de Cressie(1991): Si Z es
un proceso Gaussiano, (Z(s + h) Z(s))2 se distribuye como 2(h)21 donde 21 es una
variable aleatoria chi cuadrado con 1 grado de libertad; por lo tanto, 2(h) es el primer
momento de una variable aleatoria altamente asimtrica.

17

Identificacin

3
4
5
5
6
6
6
8
8
8
8
10
10
10
10
12
13

32
1
57
28
5
16
14
48
48
48
16
37
33
53
50
14
52

9
34
59
45
53
56
24
57
46
27
57
29
12
57
48
43
47

Distancia

Z(+)

39.44
46.68
52.80
51.382
61.846
63.739
64.830
81.937
84.148
85.00
89.746
101.052
101.117
105.60
107.6678
124.804
132.00

1.20
11.50
16.70
12.10
11.20
8.30
11.5
6.80
680
6.8
8.30
8.7
1.7
6.5
14.90
11.50
11.60

[Z ( +) Z ( )]2

Z(-)
5.2
1.2
6.90
1.60
6.50
11.0
5.3
16.7
15.0
14.5
16.70
0.9
9.5
16.7
6.8
4.40
3.40

8
53.045
48.020
55.125
11.045
3.649
19.22
49.005
33.66
29.645
35.28
30.42
30.42
52.020
32.80
25.105
33.60

Tabla 2.2: Valores de los identificadores para cada vector, h, los valores de la variable en el origen del
vector y en el extremo final del vector, y por ltimo el valor de la mitad del cuadrado de la diferencia de
los contenidos de cadmio para cada vector.

2.2.6 Nubes de las diferencias de las races cuadradas.


Para evitar el problema planteado en la ltima parte del apartado anterior Cressie
y Hawkins propusieron un estimador del variograma basndose en las races cuadradas
de los mdulos de las diferencias.
El estimador es el siguiente:
4

1
1

0.457 + 0.494
2 (h ) =
Z ( s i ) Z (s j ) 2

N (h )
N (h) N (h)

Asociado a este estimador, propusieron adems una herramienta exploratoria


similar a la nube de las races cuadradas de las diferencias. As, la nube de las races
cuadradas de las diferencias en la direccin e es simplemente un grfico x - y de puntos
1

de los valores (Z (s i + h e) Z (s i ) )2 : s i + h e = s j , (i, j ) N ( he) versus los valores de h.

En la Figura 2.18 se representan los boxs plots correspondientes a la nube de las


races cuadradas de los mdulos de las diferencias. A diferencia de la nube de
variogramas representada en la Figura 2.14 slo presenta valores alejados para la fila 6.
Esos valores se presentan en la tabla 2.3.
h
6
6
6
6

Identificacin
51
5
16
14

60
53
56
24

Distancia
64.800
61.846
63.739
64.830

Z(+)

Z(-)

9.9
11.2
8.3
11.5

9.9
6.5
11.0
5.3

(1 2 )[Z ( +) Z ()]1 2
0
1.084
0.821
1.245

Tabla 2.3: Valores de los identificadores para cada vector, h, los valores de la variable en el origen del
vector y en el extremo final del vector, y por ltimo el valor de la mitad de la raz cuadrada de la
diferencia de los contenidos de cadmio para cada vector.

18

Figura 2.18: Box Plot de la


nube de races cuadradas de
las diferencias. Las unidades
en el eje vertical son (p. p. m.
de cadmio)1/2.Por ejemplo: el
valor h =2 corresponde al
intervalo 20 h < 30 .

2.2.7 El Pocket plot.


Las tcnicas de anlisis de datos presentadas hasta ahora han sido tiles para
detectar tendencias, valores alejados y sus influencias sobre la estimacin del
variograma. Ahora se presentar una tcnica para identificar un rea localizada que sea
atpica con respecto al modelo estacionario impuesto a la medida de dependencia. sta
explota la naturaleza espacial de los datos a travs de las coordenadas de las filas y de
las columnas.
Aunque se mostr un enfoque robusto para la estimacin del variograma,
persiste la preocupacin de que alguna fraccin importante de diferencias
{Z (s i + h e) Z (s i )} sea inapropiada en la estimacin de 2 (he) . Las ubicaciones de la
grilla que exhiban medidas diferentes desde el resto necesitan ser identificadas. Estos
focos de no - estacionariedad, una vez descubiertos, pueden ser removidos de la
estimacin del variograma, por supuesto eventualmente deben ser modelados e
incorporados en la valuacin de los recursos finales.
El pocket plot, llamado as porque sirve para detectar focos de noestacionariedad, es una simple idea que se ilustrar a travs de un conjunto de datos que
se ubican en una grilla como la de la Figura 2.19.
Concentrmonos en una fila j de la grilla. Para cualquier otra fila, digamos k,
existe un cierto nmero N jk de diferencias, cuyas ubicaciones estn a la distancia

h= k j

en la direccin Sur - Norte. Si con Y jk denotamos la media de estas


1

diferencias 2 promediadas sobre los N jk trminos, y definimos

Yh =

1
N ( h e)

Z (s i + he) Z (s i ) 2

N ( h e)

donde e es el vector unitario en la direccin Sur - Norte. En definitiva Yh es una media


ponderada de las Y jk tales que h = k j .

19

Figura 2.19: Posiciones y datos para ejemplificar el pocket plot.

Se define
Pjk = Y jk Yh
El conjunto de estos valores constituye la contribucin residual de la fila j al
estimador del variograma en los diferentes retardos. Idealmente, estos puntos se
distribuirn alrededor del cero, pero si existe algn valor inusual en la fila j, entonces
dar una contribucin inusual a todos los retardos y tpicamente mostrar una
distribucin de los puntos arriba del cero. Al variar la fila j y ubicando los scatterplots
juntos unos de otros se forma el grfico denominado pocket plot.
La tabla 2.4 (pg. 22) presenta los resultados para los datos de la grilla de la
Figura 2.19. Los resultados de la ltima columna son representados en la Figura 2.20.
Claramente las filas 5 y 8 son atpicas, los valores {P5k } y {P8 k } estn por encima del
cero.

Figura 2.20 : Pocket plots en la direccin Sur-Norte

20

En la Figura 2.21 se presenta los box-plots de los pocket plot, que muestra
claramente que las filas anteriormente nombradas son los focos de no estacionariedad.

Figura 2.21: box-plots de los pocket plot en la direccin Sur-Norte

Como vemos, las herramientas exploratorias empleadas en Geoestadstica son


las clsicas para un conjunto de datos cualesquiera, pero se agregan otras que tienen en
cuenta la distribucin espacial de los datos. Adems se incorporan herramientas
exploratorias propias de la geoestadstica, que sirven para la deteccin de tendencias,
influencia de valores alejados que afectan la estructura de dependencia o la falta de
comportamiento estacionario. stas ltimas explotan la naturaleza espacial de los datos
a travs de las coordenadas de las filas y de las columnas. Es de destacar que al intentar
describir o explorar las estructuras de dependencia espacial se necesita ms informacin
que la que se necesita cuando se propone o supone que el modelo subyacente se
corresponde con una muestra aleatoria.
Los paquetes o software geoestadsticos proveen herramientas exploratorias,
como el GEOEAS y Variowin. Las provistas por el GEOEAS, no siempre pueden
aprovecharse en su real medida, ya que no tienen una interfaz muy amigable para
conectarse con otros programas. Adems no presentan todas las tcnicas y se hace
necesario muchas veces recurrir a la programacin para poder usarlas. En este trabajo se
ha programado en el MATHEMATICA, generando algunos grficos como el Scatter
plot, el Post plot, el Box-plot de la Nube de Variogramas, el Pocket plot.
El VARIOWIN es un soft dedicado solo a una parte de un estudio geoestadstico
y slo presenta herramientas descriptivas relacionadas con el Variograma, y tambin fue
usado aqu, con el fue generada la nube de variogramas y los h-scatter plots.
Los software profesionales no especficos para solucionar problemas de ndole
geoestadstico como el SPPS, STATISTICA, ect. aportan sus instrumentos dedicados a
la descripcin y la exploracin de datos.

21

Tabla 2.4:Valores de las medias de las races cuadradas de las diferencias, de las medias ponderadas y
de los residuos para las distintas filas j separadas de la fila k en un retardo h.

22

CAPITULO 3: CAMPOS ALEATORIOS.


En este captulo se presentan conceptos tericos que sustentan la Geoestadstica.
Se definen los conceptos de campos aleatorios, los momentos de primer y segundo
orden de un campo aleatorio, destacando la herramienta fundamental de la
Geoestadstica: el variograma. Como as tambin las definiciones necesarias de campo
aleatorio estacionario, intrnsecamente estacionario, y el carcter istropico de los
mismos. A los efectos de comparacin con el variograma se presenta la funcin de
covarianza estacionaria como as tambin sus propiedades.

3.1 Campos Aleatorios.


En teora de probabilidad un conjunto de k variables aleatorias Z1 , Z 2 ,..., Z k

define un vector aleatorio Z = ( Z1 , Z 2 ,..., Z k ) con k componentes. De esta manera,

Z(s) = (Z 1 (s), Z 2 (s), L , Z k (s) ) es un vector aleatorio definido en s, con s perteneciente a

un subconjunto D del espacio R d de dimensin d. A cada punto s0 del espacio le


corresponde un vector de variables aleatorias Z(s0). Se tiene as una familia de vectores
de variables aleatorias que se denomina funcin de variable aleatoria. El caso ms
simple es cuando k=1, es decir Z escalar, ser tratado en este trabajo.
La funcin aleatoria tambin es conocida como campo aleatorio o proceso
aleatorio.
En smbolos un campo aleatorio:
{ Z(s): s D}

(3.1.1)

donde D es un subconjunto de Rd, el espacio eucldeo d-dimensional, y s vara


continuamente en la regin D.
Una gran variedad de problemas, tales como los presentados en el captulo1,
pueden ser resueltos usando los mtodos geoestadsticos. Lo comn a los mismos es que
los datos espaciales pueden ser pensados como una realizacin de la funcin aleatoria
(3.1.1), cuando D se supone no aleatorio y continuo. Matheron denomin variable
regionalizada a la realizacin de un campo aleatorio.

3.2 Funcin de distribucin y momentos de un campo aleatorio.


Considrese un campo aleatorio Z(s) definido en D Rd. Para m puntos
cualesquiera: s1 , s 2 , K , s m ; el vector aleatorio ( Z (s 1 ) , Z (s 2 ), ..., Z (s m )) se caracteriza por
su funcin de distribucin m-dimensional:
FS

, . . . ,Sm (z1

, . . ., zm ) P[ Z(s1 ) z1 , . . . , Z(sm ) zm ]

(3.2.1)

El conjunto de todas estas distribuciones para todo valor de m y para cualquier


seleccin de puntos en D constituye la ley espacial de probabilidad del campo
aleatorio Z(s). En Geoestadstica son suficientes los dos primeros momentos de la
distribucin de Z(s). De hecho, en la mayora de las aplicaciones prcticas la
informacin disponible no permite inferir momentos de mayor orden.

23

El momento de primer orden es la esperanza matemtica definida como


E(Z(s)) = (s)

(3.2.2)

Si existe para todo sD se denomina la tendencia del proceso aleatorio Z. Algunos


autores lo denominan deriva, y otros tendencia y deriva.
Los tres momentos de segundo orden considerados en Geoestadstica son:
n La varianza o momento de segundo orden de Z(s) respecto de (s):

2 (s) = Var [ Z (s)] = E {[ Z (s) (s)]2 }

(3.2.3)

La Var[Z(s)] es una funcin de s.

n La covarianza de dos variables aleatorias Z (s i ) y Z (s j ) , C (s i , s j ) definida como:

C (s i , s j ) = E [ Z (s i ) (s i )][ Z (s j ) (s j ) ]

(3.2.4)

La covarianza es una funcin solamente de s i ys j .

n El variograma 2 (s i , s j ) que se define como:


2 (s i , s j ) = Var [ Z (s i ) Z (s j )]

(3.2.5)

El semivariograma es por tanto (s i , s j ) . Sin embargo, hay autores que usan


indistintamente ambos trminos para referirse a la funcin (s i , s j ) .
En general, no es posible la inferencia estadstica a partir de una sola realizacin,
de la misma manera que no es posible determinar la funcin de distribucin de una
variable aleatoria (por ejemplo el resultado de tirar un dado) a partir de una sola
observacin (se ha obtenido 3 en el experimento del dado). Para hacer posible la
inferencia estadstica en este enfoque, se hace imprescindible introducir hiptesis
adicionales acerca de Z(s) para poder reducir el nmero de parmetros desconocidos a
fin de investigar la funcin de distribucin. Estas hiptesis tienen que ver con la
homogeneidad espacial de la funcin aleatoria. Por ejemplo, suponer que la funcin
aleatoria se repite en el espacio y que esta repeticin proporciona la informacin
equivalente a muchas realizaciones de la misma funcin aleatoria, permitiendo de esta
forma la posibilidad de la inferencia estadstica.

3.3 Campos aleatorios estacionarios.


Se dice que un campo aleatorio es estrictamente estacionario si su funcin de
distribucin (3.2.1) es invariante respecto a traslaciones de vector h, o lo que es lo
mismo, la funcin de distribucin del vector aleatorio ( Z (s 1 ) , Z (s 2 ), ..., Z (s m )) es

idntica a la del vector ( Z (s 1 + h) , Z (s 2 + h), ..., Z (s m + h) ) para cualquier h y todo m y


todas las ubicaciones posibles s1 , s 2 ,..., s m .
Sin embargo, puesto que la geoestadstica se basa en los dos primeros momentos
del campo aleatorio, es suficiente suponer que estos dos momentos existen y limitar la

24

hiptesis de estacionariedad a los dos primeros momentos. Se dice que un campo


aleatorio Z(s) es estacionario de orden 2 o de segundo orden si:
a)

E(Z(s)) =

para todo s

(3.3.1)

b) Para toda pareja de variables aleatorias Z(s + h), Z(s) su covarianza existe y slo
depende del vector separacin h, es decir,
C ( s + h , s) = E { Z ( s + h ) Z ( s) } 2 = C ( h )

(3.3.2)

O sea los momentos de segundo orden no dependen de las ubicaciones s, s + h


sino del vector de separacin entre las ubicaciones: h, comnmente denominado vector
retardo. La funcin C(h) se denomina covariograma o funcin de covarianza
estacionaria.
La estacionariedad de la covarianza implica que la varianza Var [ Z(s)] existe, es

finita y no depende de s, es decir Var [ Z (s)] = C (0).

Adems, bajo esta hiptesis el variograma tambin es estacionario, o sea que el


variograma no depende de s ni de s + h, sino nicamente de h, en smbolos:

2 ( s + h, s) = 2 (h) = E [ Z (s + h) Z (s)]2

(3.3.3)

Podra considerarse que el variograma es repetitivo, redundante e innecesario ya


que mide la variabilidad espacial del fenmeno de forma similar a la ms conocida
funcin de covarianza. Esto es debido a que a partir de la relacin:

Var (Z (s1 ) Z (s 2 ) ) = Var (Z (s1 ) ) + Var (Z (s 2 ) ) 2 Cov(Z (s1 ) , Z (s 2 ) )


y el supuesto que Z() es estacionario de segundo orden, por lo tanto valen (3.3.1) y
(3.3.2). Entonces Var (Z (s1 ) Z (s 2 ) ) se expresa como:
Var(Z(s1) Z(s2)) = 2{ C(0) C (s 1 s 2)}
haciendo h = s 1 s 2 ; se observa que el variograma:
2(h) = 2{C(0) C(h)}

(3.3.4)

Es decir, bajo la hiptesis de estacionariedad el semivariograma resulta ser igual a la


varianza menos la covarianza.

25

3.4 Isotropa.
Una gran simplificacin se obtiene al suponer que las estructuras de primer
orden y de segundo orden son funciones slo de la distancia; ello es debido a que en la
prctica en la mayora de los casos el nmero de datos no es suficiente para caracterizar
el comportamiento del campo en las distintas direcciones.
La estacionariedad puede ser pensada como una propiedad de invariancia bajo el
grupo de transformaciones de las traslaciones de las coordenadas. Para un campo
aleatorio en R d podemos considerar tambin la invariancia bajo rotaciones y reflexiones.
Stein(1999) define a un campo aleatorio Z en R d como estrictamente isotrpico
si y slo si sus distribuciones conjuntas finitas son invariantes bajo todos los
movimientos rgidos.
Esto es, para cualquier matriz ortogonal H d d y cualquier s R d
Pr{Z (H s1 + s) t1 , K , Z (H s n + s) t n }= Pr{Z (s1 ) t1 , K , Z (s n ) t n } para todo n
finito, para todas las posiciones s1 , K , s n R d .
La condicin de isotropa equivale a suponer que no existe razn para distinguir
una direccin de otra para el estudio del campo aleatorio bajo consideracin.
Un campo aleatorio Z(s) en R d es dbilmente isotrpico isotrpico de orden 2 o
de segundo orden si:
tal que E(Z(s)) = para todo s
(3.4.1)
a) existe una constante
b) Para toda pareja de variables aleatorias Z(s + h), Z(s) su covarianza existe y es una
funcin C no negativa tal que depende de la magnitud del vector separacin h, es decir,
que
C (s + h,s)= E{Z (s+h)Z (s)} 2 =C ( h )
para todo s , s + h R d
(3.4.2)
La funcin C ( h ) recibe el nombre de funcin de autocovarianza istropica para Z.
c) Cuando el covariograma es isotrpico entonces el variograma es isotrpico y vale
que:
2( h ) = 2{C(0) C( h )}
(3.4.3)
Notacin: A fin de simplificar la notacin simbolizar h con h.
La Figura 3.1 muestra los grficos donde se observa la equivalencia total entre el
semivariograma y el covariograma isotrpicos.

Figura 3.1: Relacin entre el semivariograma y la funcin de covarianza.

26

Un resultado que se deriva fcilmente de las definiciones dadas es el siguiente:


un campo aleatorio (estrictamente/dbilmente) isotrpico es siempre un campo aleatorio
(estrictamente/dbilmente) estacionario.
Si un campo aleatorio que no sea isotrpico, a travs de una transformacin
lineal de las coordenadas se convierte en isotrpico entonces decimos que el campo
aleatorio es geomtricamente anisotrpico. Mas detalles, acerca de los tipos de
anisotropas sern presentados en el captulo 4 cuando se d la manera de detectarlas en
forma emprica.

3.5 Meseta y Alcance.


Si C (h) 0 cuando h en la relacin (3.3.4) entonces 2 (h) 2C (0) . La
cantidad C (0) = () es llamada la meseta (the sill). Esto significa que C(0) es el
valor del semivariograma para cuando el proceso Z(s) es tal que en dos ubicaciones
cualesquiera las variables no estn correlacionadas.
S h0 es el menor valor de h para el cual 2( h ( 1 + ) ) = 2C(0) para cualquier
> 0 se denomina el alcance del variograma: en la direccin h0 / h 0 . En otras palabras
la distancia en la cual el variograma alcanza su meseta es llamada el alcance, y marca
la zona de influencia en torno a un punto mas all de la cual la autocorrelacin es nula.
De (3.3.4) (0) = 0 , aunque con frecuencia el semivariograma es discontinuo en
el origen, con un salto finito que se llama pepita o efecto pepita (efecto nugget).
El alcance, la meseta y el efecto pepita definen las caractersticas del
variograma. En la Figura 3.2 se representa los mismos para un variograma isotrpico.
La razn del efecto pepita a la meseta es a menudo llamada como el efecto
pepita relativo y se expresa usualmente en porcentaje.

ALCANCE

M
E
S
E
T
A

EFECTO
PEPITA

Figura 3.2 Parmetros de un semivariograma.

3.6 Campos Aleatorios Intrnsecamente Estacionarios.


Como se acaba de ver, para un campo aleatorio estacionario de segundo orden
existen la varianza y la covarianza. Sin embargo existen campos aleatorios y fenmenos
fsicos reales que muestran una capacidad casi ilimitada de variacin. Para estos campos
no estn definidas ni la varianza ni la funcin de covarianza estacionaria. Por ejemplo
en Hidrogeologa variables con este comportamiento son el nivel piezomtrico en un

27

acufero con pronunciados gradientes hidrulicos (Fennessy,1982; Neuman y Jacobson,


1984), y la concentracin de ciertas especies qumicas disueltas en el agua (Myers et al.,
1982).
Un ejemplo sencillo de funcin aleatoria no estacionaria es el definido por un
proceso de Wiener-Levy en la recta. Este proceso slo toma valores en puntos discretos
1,2,3, ...k, k+1, ... etc, de forma que los valores en dos puntos vecinos Zk y Zk+1 estn
relacionados mediante:
Z k +1 = Z k + k
(3.6.1)
donde los k son variables aleatorias independientes e independientes de los Zk con un
valor esperado nulo y varianza unidad. De esta manera,
Z k + h = Z k + k + k +1 + K + k + h 1
La varianza de Zk+h viene dada por
Var ( Z k + h ) = Var ( Z k ) + h
Es decir la varianza del proceso no es estacionaria porque depende de k.

(3.6.2)

(3.6.3)

Si se consideran los incrementos de la variable se tiene que:


k +h 1
E ( Z k +h Z k ) = E i = 0
i =1

(3.6.4)
k + h 1
Var ( Z k +h Z k ) = Var i = h
i =1
El valor esperado y la varianza de los incrementos no dependen de k, adems el
variograma de este proceso es estacionario porque viene dado por h, o sea
2 (h) = Var ( Z k +h Z k ) = h

Acabamos de ver que existen campos aleatorios cuya varianza no es estacionaria


y sin embargo sus incrementos tienen una varianza que depende de h, pero no de k, es
decir el variograma es estacionario. Esta es la motivacin para definir el concepto de
campos aleatorios intrnsecamente estacionarios o simplemente funciones aleatorias
intrnsecas.
Z() es un campo intrnsecamente estacionario si para todo s y s+h perteneciente
a D:
E[Z(s + h) Z(s)] = 0

(3.6.5)

Var [Z(s + h) Z(s)] = 2(h)

(3.6.6)

En la literatura habitual (3.6.5) y (3.6.6) definen un proceso de incrementos


estacionarios.
La condicin (3.6.5) es equivalente a decir que la media (esperanza matemtica)
es constante.
Es evidente que una funcin aleatoria estacionaria de segundo orden es siempre
intrnsecamente estacionario, pero como hemos visto, el recproco no siempre es cierto.
La clase de todos los procesos estacionarios de segundo orden est estrictamente
contenido en la clase de todos los procesos intrnsecamente estacionarios. Un ejemplo

28

ms general de un proceso para el cual 2 () est definido pero C () no lo est, es el


movimiento Browniano d- dimensional isotrpico.
Si {W(s): s Rd } es tal proceso, entonces
Var(W(s+h) W(s)) = h pero sin embargo:
cov (W(u), W(v)) = (u+vu v), u , v Rd no es slo una funcin de
u v.
Un campo aleatorio se dice intrnsecamente isotrpico s para todo s y s+h perteneciente
a D:
E[Z(s + h) Z(s)] = 0

(3.6.7)

Var [Z (s + h) Z (s)] = 2 ( h )

(3.6.8)

3.7 Variograma vs. Covariograma.


Segn se suponga que el proceso aleatorio {Z(s): s D} D Rd es estacionario
de segundo orden o intrnsecamente estacionario, la estructura de dependencia del
proceso estocstico quedar especificada por el covariograma o por el variograma en el
primer caso y por el variograma en el segundo caso.
En los siguientes apartados se mostrarn propiedades generales que deben
cumplir ambas medidas de la estructura de la dependencia.

3.7.1 Propiedades del Variograma.


El variograma para procesos intrnsecamente estacionarios cumplen con las
siguientes propiedades:
2 (h) = 2 (h)

(3.7.1)

2 (0) = 0

(3.7.2)

El comportamiento del variograma en una vecindad del origen es muy


informativo acerca de las propiedades de continuidad del proceso aleatorio Z () .
Los tipos ms comunes fueron categorizados por Matheron(1971) segn
Cressie(1991) como:

Si 2 () es continua en el origen, entonces Z () es L2 continua.

Si 2 () no se aproxima a 0 cuando h se aproxima al origen, entonces Z () no es L2


continua y es altamente irregular.
(3.7.4)

(3.7.3)

Esta discontinuidad de 2 () en el origen es lo que Matheron denomin efecto


nugget. Ms precisamente si 2(h) 2c0 > 0, c0 es el efecto nugget (pepita). Esto es
porque pens que la variacin en microescala (pequeas pepitas) eran las causantes de
la discontinuidad en el origen.

29

Ntese que la continuidad L2 de Z() no significa que las realizaciones son


seguramente continuas.
El variograma debe satisfacer una propiedad llamada condicional definida
negativa. Esto es:

ai aj 2( si sj ) 0 para cualquier nmero finito de ubicaciones espaciales

i =1 j =1

{ si : i = 1,2, ..., m } y nmeros reales { ai : i = 1, ... ,m } que satisfacen que

=0.

i =1

(3.7.5)
El variograma debe crecer ms lentamente que h . Esto es que:
2 (h)
lim h
=0
2
h
2

(3.7.6)

Observacin:
Algunos autores definen errneamente el variograma como E(Z(s1 ) Z(s2))2. Esta
definicin coincide con la definicin 2(h)= Var (Z(s1 ) Z(s2)) con h = s1 s2 si el
proceso Z () es intrnsecamente estacionario, pero si el proceso Z() es representado
por:
Z(s ) = (s) + (s )
donde (s) es un proceso estocstico intrnsecamente estacionario con variograma 2()
y la media (s) no es constante, entonces
E(Z(s1 ) Z(s2))2 = 2(s1 s2) + ((s1 ) (s2))2
que no es en general una funcin de s1 s2. Ni necesariamente satisfar la ltima
propiedad citada anteriormente que todos los variogramas deben satisfacer.
3.7.2 Covariograma y Correlograma.
El covariograma o funcin de covarianza estacionaria es relativa al proceso
estocstico Z () estacionario de segundo orden.
El covariograma tiene las siguientes propiedades:
C (h) = C (h)

(3.7.7)

C(0) = Var[Z(s)] 0
C(h) C(0)

s D Rd

(Desigualdad de Cauchy-Schwarz)

C(h) debe ser definida positiva.

(3.7.8)

(3.7.9)
(3.7.10)

Es tambin verdadero que cualquier funcin definida positiva corresponde al


covariograma de un proceso estocstico estacionario de segundo orden. Este resultado
es una consecuencia de la teora espectral.
En el apartado 3.3 se prob la relacin existente entre el variograma y el
covariograma cuando el proceso es estacionario:

30

2(h) = 2{C(0) C(h)}


Adems del variograma y el covariograma se podran definir el correlograma,
C (h)
Si C(0) > 0 se define como correlograma a (h) =
C ( 0)
(h)
Adems de (3.3.4) se obtiene que: (h) = 1
C ( 0)
Es fcil verificar que (h) = (-h) y ( 0) = 1.
En series de tiempo, estimaciones del correlograma tradicionalmente son usadas
por los analistas para diagnosticar la no estacionariedad, la determinacin del tipo de
dependencia estacionaria, el ajuste del modelo, etc.. En geoestadstica no constituye un
instrumento ms importante que el covariograma o el variograma segn corresponda.
Anteriormente se vi que el variograma est definido en algunos casos donde
el covariograma no lo est, en aquellos casos cuando, en base a los datos se estime sta
ltima funcin, se estimara un parmetro inexistente. Cressie(1991) aporta
justificativos tericos de la preferencia de la estimacin del variograma a la del
covariograma.
Teniendo en cuenta que las funciones aleatorias intrnsecas son ms generales
que las estacionarias sumado a los resultados citados en el prrafo anterior hablan a
favor del uso en Geoestadstica del variograma (semivariograma) en lugar del
covariograma, aunque la razn principal es la costumbre entre los que habitualmente
recurren a las herramientas geoestadsticas para enfocar sus problemas. Por lo tanto en
esta tesis se trabajar con el variograma (semivariograma).

31

CAPTULO 4: ANLISIS ESTRUCTURAL.


Se entiende por anlisis estructural al proceso de seleccin del modelo
geoestadstico, en el marco de los conceptos definidos en el captulo anterior. As, el
anlisis estructural implica especificar el tipo de hiptesis que se van a hacer sobre la
variabilidad del fenmeno en estudio. Es decir, implica decidir si la variable se puede
considerar estacionaria, o no; si se requiere la especificacin de la tendencia y, en caso
de requerirla, la forma que tendr dicha tendencia; si es suficiente suponer que la
variable es intrnseca, etc.. Adems de lo anterior se incluye dentro del anlisis
estructural la estimacin del variograma. De hecho, con frecuencia el trmino anlisis
estructural se reserva para esta tarea. Sin embargo, la estimacin del variograma est
tan ligada a la hiptesis sobre el tipo de variable (estacionaria, intrnseca, no
intrnseca), que la separacin entre ambos procesos resulta un tanto artificial.
En este captulo, se tratar la estimacin del variograma, es decir la
determinacin del variograma emprico. En particular se trabaja en presencia del
supuesto de isotropa, y se presenta la correccin en caso de anisotropa geomtrica.
El variograma emprico es una funcin que no est definida para cualquier
distancia y no da ninguna garanta de cumplir con las propiedades. Es por ello que se
presentan los modelos de variogramas tericos y los criterios de ajuste de los mismos a
los variogramas empricos. Por ltimo se trata la validacin cruzada, una forma de
medir el ajuste y diagnosticar algunos problemas con el mismo.

4.1 Estimacin del variograma.


4.1.1 Mtodo de los momentos.
Se supondr que los datos {Z(si): i = 1, ... , n} pueden modelarse con un proceso
estacionario intrnseco.
Bajo el supuesto de media constante (3.4.7) un estimador natural basado en el
mtodo de los momentos, dado por Matheron es:
2 $ (h)

[ (Z(si)

Z(sj))2 ]

/ N(h)

h Rd

(4.1.1)

donde la suma es sobre N(h) = { (si , sj ): si sj = h , i,j = 1, ..., n}

(4.1.2)

N(h) es el nmero de pares distintos contados en N(h).


Ntese que N(h) = {(si , sj): si sj =
h , i, j = 1, ..., n} y entonces N (h)

= N (h)

porque N(h) es coordinable con N(h), y 2 $ (h) = 2 $ (h), preservando una propiedad
del variograma terico.
Este estimador es insesgado, o sea E(2 $ (h)) = 2 (h). La prueba es la siguiente,
E [[ (Z(si ) Z(sj))2 ]

/ N(h)] = [ E(Z(si ) Z(sj))2 ] / N(h)


= [ Var(Z(si ) Z(sj))] / N(h),

debido a que Z

es intrnsecamente estacionario. Por lo tanto:


E [[ (Z(si ) Z(sj))2 ]/ N(h)] =[2 (h)]/ N(h)= 2(h)N(h)/N(h)=2 (h)
32

El estimador por el mtodo de los momentos en lo sucesivo se denominar


estimador clsico.
Ejemplo 4.1: Sea los datos sobre un segmento de recta en R1:
2
+
1

3
+
2

4
+
3

3
+
4

5
+
5

4
+
6

6
+
7

5
+
8

6
+
9

6 Z observado
+
10

Para h = 1

N(1)= 9

N(1) = {(2,1); (3,2); (4,3); (5,4); (6,5); (7,6); (8,7); (9,8);(10,9)}

2 $ (1) = {12 + 12 + 12 + 12 + 12 + 12 + 22 + 12 + 12}/ 9 = 12 / 9 1.33


Para h = 2

N(2)= 8

N(2)= {(1,3); (2,4); (3,5); (4,6); (5,7); (6,8); (7,9); (8,10)}

2 $ (2) = {22 + 02 + 02 + 22 + 02 + 12 + 12 + 02}/ 8 = 10 / 8 1.2


De esta manera se completa la siguiente tabla:
h
N(h)
(h)

1
2
9
8
1.33 1.2

3
7
2.1

4
6
3.3

5
5
3.8

6
4
5.7

7
3
8

8
2
9

9
1
16

De esta tabla se puede observar lo siguiente: el nmero de parejas disminuye al


aumentar la distancia h, si bien esto no tiene porque ser siempre as, es comn que el
nmero de parejas se reduzca a partir de una cierta distancia. Esto hace que para grandes
distancias la estimacin del variograma sea poco fiable y limita el mximo valor de h
para el que se puede estimar el variograma.
Ejemplo 4.2: Sea la grilla en R2:

Si h = (1,0) N((1,0)) = {(s2, s1); (s3,s2); (s5 ,s4); (s6,s5); (s8,s7); (s9,s8)}

33

N((1,0))= 6

La representacin esquemtica de los vectores que aportan al clculo del


variograma para h = (1,0) es la siguiente:

Con zi representamos el valor de Z(si ) observado en si para i =1,2, ... ,9.


As:
2 $ ((1,0)) ={(z2 z1)2 + (z3 z2)2 + (z5 z4)2 + (z6 z5)2 + (z8 z7)2 + (z9 z8)2 }/ 6

Los vectores retardos en las direcciones donde se puede calcular el variograma


clsico 2 $ (h) son:

0

0
0

1

0
1

0

1
1

1

1
2

1

1
2

0

2
2

2

0
2

2

1
5

1

2
5

1

2
5

2

1
5

2

2
8

2

2
8

N ( h)

4.1.2 Variograma para datos irregularmente espaciados.


En la prctica, y especialmente cuando se trabaja en dos o tres dimensiones, se
presenta el inconveniente de que los datos estn distribuidos de forma irregular. En este
caso habr valores de h para los que N(h)ser un nmero muy pequeo con lo cual la
varianza de 2 $ (h) ser muy grande. Esto es una consecuencia de que la varianza del
estadstico X (el promedio muestral de una muestra aleatoria de la variable aleatoria
X) es inversamente proporcional al tamao de la muestra y 2 $ (h) es un promedio. En
este sentido es deseable poder aumentar el nmero de parejas N(h)empleadas en la
estimacin de 2 $ (h).
Para el caso unidimensional en el que h no es ms que un escalar se consideran
una serie de intervalos de distancia (hj, hj+1) de longitud Lj = hj+1 hj, generalmente con
igual longitud L. Para cada intervalo j se consideran todas las posibles parejas de puntos
tales que su distancia xi yi est comprendida entre los lmites hj y hj+1, es decir,

h j xi yi < h j +1
De esta forma se aumenta el nmero de parejas en desmedro de discretizar el
variograma (o semivariograma), ya que se obtiene un solo valor del variograma
muestral para cada intervalo 2 * (h *j ) . La distancia h *j puede tomarse como la media de
las distancias de todas las parejas de puntos (posiciones) que se emplearon para
calcular 2 * (h *j ) .

34

En dos o tres dimensiones es necesario definir tambin un ngulo de tolerancia


alrededor de la direccin definida por el vector h ya que la consideracin de intervalos
de distancia es en general insuficiente para garantizar un nmeroN(h)grande debido
a que los puntos si generalmente no estn alineados. La Figura 4.1 nos muestra
esquemticamente como se procede en el plano, para calcular el variograma
experimental.
El vector separacin h viene definido por su ngulo trigonomtrico y su
mdulo h= h . A lo largo de la direccin definida por h se determinan una serie de
intervalos de longitud L y se considera una zona de tolerancia definida entre las dos
direcciones con los ngulos y + . De esta forma cada intervalo define
ahora un cuadriltero curvilneo, por ejemplo ABCD, para el que el variograma
muestral se calcula tomando todas aquellas parejas de puntos cuyo vector de separacin
x i y i cae dentro de dicho cuadriltero.

C
D

Figura 4.1 Representacin esquemtica de los intervalos y de la tolerancia para


el clculo del variograma muestral en dos dimensiones.

Puesto que 2 (h) es una funcin de la distancia h y de la direccin , conviene


3
en general calcular 2 (h) en varias direcciones (por ejemplo: = 0, , , , en dos
4 2 4
dimensiones) para comprobar si el variograma depende de , es decir para contrastar s
el variograma es o no isotrpico.

En forma similar se procede en el espacio tridimensional para la estimacin del


variograma.
En general cuando los datos estn irregularmente espaciados en Rd, el estimador
clsico del variograma es usualmente suavizado usando en su lugar:
2 + (h( k)) = promedio {(Z(si) Z(sj))2

: (i,j) N(h) ; h T(h(k)) }

donde la regin T(h(k)) es una regin de tolerancia especfica en Rd alrededor de h(k),


k = 1, 2, ... , r y el promedio {}
denota un posible promedio ponderado sobre los
elementos en {}
.

35

Las regiones de tolerancia debern ser tan pequeas como sea posible para
retener la resolucin espacial, sin embargo bastante grandes, de modo que el estimador
2 + () sea estable.
Journel y Huijbregts(1978) (citado por Cressie 1991) recomiendan que el
nmero de pares distintos U {N(h); h T(h(k))} en T(h(k)) sea al menos 30; as las
regiones de tolerancia se deberan elegir de modo que la mayora de ellas satisfagan esta
condicin.
A menudo las regiones {T(h(k)): k =1,2, ...,r} se eligen disjuntas y exhaustivas,
en forma anloga a la eleccin de los intervalos para construir el histograma de un
conjunto de datos univariados.
Ejemplo 4.3: Los siguientes grficos presentan los valores del semivariograma a partir
de las observaciones de la variable contenido de Cadmio correspondiente al conjunto
de datos presentado en el captulo 2. Los tres primeros grficos fueron obtenidos con el
programa VARIOWIN.
En la figura 4.2 se presenta el semivariograma clsico omnidireccional que es
una herramienta muy utilizada en geoestadstica para obtener estimaciones de las
caractersticas del variograma: el alcance, la meseta y el efecto pepita. Para obtener el
semivariograma clsico omnidireccional se considera la direccin de 00 con una
tolerancia angular de 900 a ambos lados de la direccin especificada, de esta manera
permite que se incluyan todas las parejas de puntos independientemente de la direccin.
Esto, maximiza el nmero de parejas en cada clase de distancia, pero produce un
suavizado del semivariograma.

Figura 4.2:Semivariograma omnidireccional para la variable Cadmio. En este caso se eligi 20


intervalos de clases de distancia con una longitud de 15.00 pies

A pesar de haber elegido 20 intervalos de clase de distancia, en la grfica se


observan 19 valores del semivariograma emprico en vez de los 21 que debera generar
el programa VARIOWIN, porque VARIOWIN agrega otra clase (denominada retardo
0) que retiene las parejas con una separacin menor que la mitad de la longitud de un
intervalo. En esta situacin la clase de retardo 0, al igual que la ltima clase, no est
representada porque slo 2 parejas aportaran para el clculo del semivariograma
emprico, entonces el programa no lo representa.
En la figura 4.3 se presenta el mismo semivariograma emprico que en la figura
anterior pero adems se indican la cantidad de parejas de puntos que permiten el clculo

36

del valor correspondiente a la distancia promedio representante de cada clase de


distancia.

Figura 4.3: Semivariograma omnidireccional para la variable Cadmio. Los valores numricos indican
el nmero de parejas que intervienen en el clculo.

El soporte de los grficos anteriores es de 0 hasta la distancia mxima entre las


parejas de ubicaciones, es decir hasta 302.362 pies. En general los semivariogramas no
son vlidos ms all de la mitad de dicha distancia. La Figura 4.4 presenta el
semivariograma emprico correspondiente a 10 intervalos de clases de distancia con una
longitud de 15.00 pies cada uno.

Figura 4.4:Semivariograma omnidireccional para la variable Cadmio.

En la figura 4.5 se presenta un grfico del semivariograma emprico producido


por el programa VARIO del GEOEAS. A pesar de tomar los recaudos necesarios en
cuanto a la eleccin de los parmetros para este grfico es bastante similar al de la
Figura 4.4 pero no son iguales debido a la manera distinta de tomar los intervalos de
tolerancia de las distancias de separacin. En este programa los intervalos son de igual
tamao: 15 pies (es una seleccin realizada), en cambio en el VARIOWIN el
correspondiente al retardo cero es de 7.5 pies y el resto de 15 pies.

37

Figura 4.5:Semivariograma omnidireccional para la variable Cadmio producido por el GEOEAS.

En el grfico de la Figura 4.6 se eligi 5 clases de intervalos de distancia con una


longitud de 31.00 pies, se observa una mayor suavizacin del semivariograma.

Figura 4.6:Semivariograma omnidireccional para la variable Cadmio.

4.1.3 Estimacin robusta del variograma.


Recordemos desde (4.1.1) que el estimador clsico del variograma es:
2 $ (h) [(Z(si ) Z(sj))2 ]

/ N(h)

h Rd

donde N(h) = { (si , sj ): si sj = h , i = 1, ..., n} y N(h) es el nmero de pares


distintos de N(h). Este estimador, est afectado por observaciones atpicas debido al
trmino cuadrtico presente en el sumando del estimador clsico.
Cressie y Hawkins propusieron un mtodo ms robusto para la estimacin del
variograma. Si Z es un proceso Gaussiano, (Z(s + h) Z(s))2 se distribuye como

38

2(h)21 donde 21 es una variable aleatoria chi cuadrado con 1 grado de libertad. Por
lo tanto 2(h) es el primer momento de una variable aleatoria altamente asimtrica.
Usando las transformaciones de Box y Cox, Cressie y Hawkins encontraron que la raz
cuarta de 21 tiene una asimetra de 0.08 y una kurtosis de 2.48 (comparada con 0 y 3 de
la distribucin Gaussiana). De esta forma varios estimadores de posicin pueden ser
aplicados a:
{Z(si) Z(sj) 1/2: (si , sj ) N(h) }
Finalmente, estos estimadores son elevados a la cuarta potencia, para llevarlos a
una escala correcta, y se ajustan por sesgo. Por ejemplo si los estimadores de posicin
son la media o la mediana, resultan los estimadores:
2 (h)

{[Z(si) Z(sj) 1/2 ] / N(h) }4 /(0.457 + 0.494/ N(h))

2 ~ (h) [Med{Z(si) Z(sj) 1/2: (si , sj ) N(h) }]4/ B(h)

(4.1.3)
(4.1.4)

donde Med {}
denota la mediana de la sucesin {}
y B(h) corrige el sesgo [el valor
asinttico de B(h) = 0.45].
Hay otra ventaja en usar Z(si) Z(sj) 1/2 en vez de (Z(si ) Z(sj))2. Ntese que
los sumandos en el estimador clsico y en (4.1.3) no son independientes, y tanto ms
dependientes ellos son, menos eficiente es su promedio para la estimacin del
variograma. En Cressie (1991) se muestra que los sumandos {Z(si ) Z(sj) 1/2} en
(4.1.3) son menos correlacionados que los sumandos {(Z(si ) Z(sj)) 2} en (4.1.1).
Un estudio comparativo realizado por Omre muestra que el semivariograma
muestral as como el estimador de Cressie y Hawkins son bastante sensibles a la
hiptesis de que la variable Z () tenga una distribucin normal.

4.2 Modelos de variograma.


Los mtodos descriptos en la seccin 4.1 son tiles para estimar el valor del
variograma en un retardo h dado. En la mayora de las aplicaciones prcticas se requiere
sin embargo conocer todos los valores de la funcin variograma o semivariograma.
Como dichas funciones difieren en un factor 2, y los programas trabajan con el
semivariograma nos referiremos a este ltimo. Ahora bien, los semivariogramas y las
funciones de covarianzas deben satisfacer las propiedades ya citadas. En especial, no
cualquier funcin puede servir de semivariograma ya que ha de ser condicionalmente
definida negativa y tener valor nulo en el origen. A las funciones que cumplen estas
condiciones se les suele denominar modelos vlidos del semivariograma.
El semivariograma emprico es una funcin que no est definida para todo h y
no da ninguna garanta de cumplir con las propiedades. En la prctica, lo que se hace es
calcularlo y ajustarlo a algn modelo de semivariograma.

4.2.1 Modelos de semivariogramas isotrpicos.


Dado que h es un vector y es una funcin escalar, en general puede depender
h
de la distancia h = h como de la orientacin u =
. Es decir (h) es anistropa. Como
h
se vi en la seccin 3.4 una gran simplificacin se obtiene al suponer que las estructuras

39

de dependencia son funciones slo de la distancia; ello es debido a que en la prctica en


la mayora de los casos, el nmero de datos no es suficiente para estimar la anisotropa y
se suele realizar la hiptesis de que (o C) es independiente de la orientacin de h, es
decir es isotrpico.
Los tres modelos isotrpicos bsicos dados en trminos del semivariograma son:
el lineal, el esfrico, y el exponencial.
Adems, los modelos de semivariogramas pueden ser convenientemente
clasificados en dos tipos; aquellos que alcanzan una meseta y aquellos que no. Los
modelos del primer tipo son a menudo denominados modelos de transicin. Como se
defini en la seccin 3.5 la distancia a la que un variograma alcanza la meseta es el
alcance. Existen modelos de transicin que no alcanzan una meseta efectivamente, pero
si se aproximan asintticamente a un valor constante, que se puede considerar como
meseta. En estos modelos se habla de un alcance "prctico" cuando el 95% de ese
lmite sea alcanzado.
En todos los modelos el parmetro c0 representa el efecto pepita. Si c0 = 0
significa que el semivariograma es continuo en el origen.
Modelo lineal ( vlido en Rd, d 1):

h=0

(h;
)=
c + b h
0 l

(4.2.1)

h0

donde el vector = (c0 , bl ) con c0 0 y bl 0 .


Si el parmetro bl = 0, estamos en presencia de un modelo indicativo de un fenmeno
sin ninguna autocorrelacin espacial, y se denomina modelo de efecto pepita puro.
El modelo lineal es lineal y diferenciable en sus parmetros, los dems modelos
no son lineales en sus parmetros aunque s diferenciables.

a)

b)

Figura 4.7: a) Efecto pepita pura

b)Modelo de semivariograma lineal

Modelo esfrico(vlido en Rd, d =1, 2, 3):

40


0
si
h= 0

3
3 h 1 h

(h;
)= c0 + ce
si 0 < h a e
2 a e 2 a e

c0 + ce
si
h ae

donde el vector = ( c0 ; ce ; a e ) l con c0 0 , ce 0 y ae > 0.

(4.2.2)

Este modelo se caracteriza porque alcanza la meseta c0 + ce para una distancia

.
finita h = a e el alcance. La pendiente en el origen es igual a 15

c0 + ce
ae

Este modelo es indicativo de fenmenos continuos aunque no derivables, es


decir, fenmenos cuya representacin pueden presentar quiebros.

Figura 4.8: Modelo de semivariograma esfrico.

Modelo exponencial (vlido en Rd, d 1):

0
si h=0

(h;
)=

h
si h0
c0 +c p 1 exp

donde el vector = (c0 , c p , a p ) con c0 0 , cp 0 y ap > 0.


El modelo exponencial alcanza la meseta en forma asntotica:

Como

alcance

h
lim c0 + c p 1 exp = c0 + c p
h
a e

prctico a p
suele tomarse la

distancia

(4.2.3)

la

cual ( h ) = 0.95 (c0 + c p ) , que es aproximadamente a p 3a p . La pendiente en el origen


es

c0 + c p
ap

que es menor que la de un semivariograma esfrico con el mismo parmetro de

alcance, pero que es mayor a igualdad de alcance prctico ( a ). Es decir, a igualdad de


alcance prctico ( a ) el semivariograma exponencial eleva y se aproxima a la meseta
ms rpidamente que el esfrico.

41

Figura 4.9: Modelo de semivariograma exponencial.

Otros modelos de semivariogramas usados son:


modelo Gaussiano (vlido en Rd, d 1):
2

h
(h;
)= c0 1 exp( 2 )
a

donde el vector = (c0 , a) con c0 0 y a > 0 .

(4.2.4)

Tambin alcanza su meseta asintticamente, lim (h; ) = c0 , por lo tanto


h

hablando estrictamente, no tiene alcance, pero su alcance prctico es a 3 a , valor


para el cual el semivariograma es igual a 0.95 c0.
Su comportamiento en el origen de tipo parablico con pendiente nula es
indicativo de una gran regularidad.

Figura 4.10: Modelo de semivariograma Gaussiano.

modelo racional cuadrtico (vlido en Rd, d 1):

0
si

(h;)=
c + c h 2 / (1 + h 2 / a ) si
r
0 r

42

h= 0
(4.2.5)

h 0

Figura 4.11: Modelo de semivariograma racional cuadrtico.

Este modelo tambin alcanza su meseta asintticamente lim (h; )=c0 + c r a r , por lo
h

tanto hablando estrictamente, no tiene alcance, pero su alcance prctico es


17
a r =
a r , valor para el cual el semivariograma es igual a 0.95 (c0 + c r a r ) .
3
modelo potencial (vlido en Rd, d 1):

(h;)=
c + b h
0 t

si h = 0
(4.2.6)

si h 0

donde el vector = (c 0 , bt , ) con c0 0 , bt 0 y 0 < 2.


Ntese que si = 0 corresponde a un efecto pepita puro, y este parmetro no
puede ser igual o mayor que 2, pues no se satisfara la propiedad (3.5.6). Estos
semivariogramas no tienen meseta, porque tienden a infinito cuando lo hace h = h .
Este modelo es de inters especial ya que posee un amplio rango de
comportamientos en el origen dependiendo del valor de .

Figura 4.12: Modelo de semivariograma potencial para distintos valores de .

Los estudios de Yaglon y Cristakos validan esta familia de modelos de


semivariogramas, los cuales corresponden a un movimiento Browniano isotrpico
fraccional.

43

Construccin de otros modelos de variogramas en Rd.


A partir de los modelos presentados, se pueden obtener otros modelos sobre la base
de las propiedades siguientes:
Todo modelo de variograma isotrpico en Rd es tambin vlido en Rn mientras d sea
mayor a n.
Si 2 1 () y 2 2 () son variogramas vlidos en Rd , para b> 0 entonces:
n 2 () 2 1 () + 2 2 () es un variograma vlido en Rd
n b[2 1()] tambin es un variograma vlido en Rd .
Por lo tanto la familia de variogramas vlidos constituye un cono convexo.
En forma ms simple las dos ltimas propiedades se pueden expresar de la siguiente
forma: Los modelos de variogramas se pueden combinar linealmente (con coeficientes
positivos) para obtener otras funciones que son variogramas vlidos. El modelo
resultante, denominado modelo anidado, se puede expresar como

2 (h) =

b 2 (h)
i

i =1

con bi > 0 y 2 i un modelo de variograma vlido para todo i.


Los modelos presentados en esta seccin son modelos isotrpicos, que dependen
solamente de la magnitud del vector separacin h, en la seccin siguiente veremos como
se procede cuando no se puede suponer que el campo es isotrpico.

4.2.2 Anisotropa.
Cuando la dependencia entre Z(s) y Z(s + h) es una funcin de la magnitud y la
direccin de h, el variograma no es ms una funcin solamente de la distancia entre dos
ubicaciones espaciales, entonces el proceso Z se denomina anisotrpico. Las
anisotropas son causadas por algn proceso fsico subyacente que se desarrolla
diferencialmente en el espacio. Por ejemplo la presencia del campo gravitatorio provoca
que el proceso en la direccin vertical sea diferente de aquel en las direcciones
horizontales. En geologa, se tiene otro ejemplo si una mineralizacin en las rocas
ocurre en lentes rectangulares, entonces el variograma ser diferente en varias
direcciones horizontales.
Para estudiar la presencia de anisotropa es necesario calcular el semivariograma
en varias direcciones, lo cual suele requerir una cantidad de datos muy superior a lo
normalmente disponible. Si esto es posible, puede dibujarse cada semivariograma
separadamente (Ver figura 4.13), si los semivariogramas son marcadamente distintos,
hay que pensar en la presencia de anisotropa.

Figura 4.13: Semivariogramas en distintas direcciones.

44

Sin embargo, antes de estudiar la anisotropa es necesario tener en cuenta la


posibilidad de que el comportamiento direccional puede ser consecuencia de que el
proceso Z no es estacionario o ni siquiera intrnseco.
La anisotropa puede ser de dos tipos genricos: elptica y zonal. La anisotropa
elptica se manifiesta en que el alcance vara con la direccin (figura 4.14). La
anisotropa zonal se presenta cuando existe una fuente de variabilidad adicional en una
de las direcciones, lo que se manifiesta en que la meseta depende de la direccin.

Figura 4.14: Semivariogramas que indican la existencia de anisotropa elptica.

El caso de anisotropa elptica tambin denominada anisotropa geomtrica, se


puede tratar mediante una transformacin lineal de coordenadas. Para este caso se
denomina razn de anisotropa al cociente entre el alcance mnimo y el mximo y las
direcciones correspondientes se denominan principales. En el caso de un proceso
definido en el plano, la transformacin lineal entre las coordenadas originales (x, y) y las
nuevas ( x , y ) , en las que el semivariograma es istropo, viene dado por
x 0 cos
=

y 0 1 sen

sen x

cos y

(4.2.7)

donde es la razn de anisotropa y es el ngulo formado por los ejes de la elipse de


anisotropa (direcciones principales) con los de las coordenadas originales (figura 4.15).
Realizando el cambio de referencias indicado en (4.2.7) se pueden emplear todas las
ecuaciones con el semivariograma istropo.

Figura 4.15: Transformacin de coordenadas para corregir la anisotropa elptica.

45

En general, algunas veces la anisotropa puede ser corregida por una


transformacin lineal del vector de retardo h. Esto es, el variograma anisotrpico de Z
es geomtricamente anisotrpico. Es decir:
2(h) = 2 (Ah )
h Rd
(4.2.8)
donde A es una matriz d x d y 2 es una funcin de una variable real.
En la prctica, aunque los semivariogramas direccionales se calculen con
frecuencia, no es tan comn tener en cuenta la anisotropa en la prediccin porque
requiere ms datos de los habitualmente disponibles. Por ello, si los semivariogramas
muestrales direccionales muestran anisotropas, lo adecuado es examinarlas a nivel
conceptual, lo que puede sugerir las causas que las expliquen.

4.3 Ajuste a modelos de variogramas.


Los distintos estimadores de variogramas, como los presentados en este captulo,
2 $ (), 2 () y 2 ~ (), no pueden ser usados para la prediccin espacial. Ellos no son
necesariamente condicionalmente definidos negativos; la ausencia de esta propiedad
puede resultar en desconcertantes errores de prediccin en media cuadrtica negativos.
La idea fundamental es buscar un variograma vlido que, como una medida de la
dependencia espacial, represente ms ajustadamente a la dependencia espacial presente
en los datos: Z = (Z(s1), ..., Z(sn) ). El espacio de todos los variogramas vlidos es un
gran conjunto, usualmente se elige una familia paramtrica de variogramas.
Por ejemplo, supongamos que se elige la familia de variogramas isotrpicos
lineales:
{2 : (h) = c0 + bl h ; c0 0, bl 0 }
(4.3.1)
Entonces se busca un elemento del conjunto (4.3.1) que sea el que mejor ajuste a
los datos, en algn sentido.
En general, s:
(4.3.2)
P = {2 : 2() = 2( ; ) ; }
es el subconjunto de variogramas vlidos requerido, entonces se busca un elemento de
dicho subconjunto que mejor ajuste al variograma muestral.
Diversos criterios de bondad del ajuste para obtener el mejor elemento de P se
han propuesto.
El criterio de Mxima Verosimilitud requiere supuestos acerca de la distribucin
de Z, en cambio los criterios basados en Mnimos Cuadrados no requieren de dichos
supuestos para la estimacin de .
Otro mtodo de ajuste es el denominado ajuste a sentimiento, el cal no
garantiza un modelo de variograma nico ya que se basa en apreciaciones subjetivas y
en la experiencia del usuario. Adems no permite conocer la calidad y el grado de
fiabilidad del modelo ajustado. No obstante se presentarn criterios estadsticos que
ayuden a comparar el grado de bondad de un modelo de variograma frente a otro.

46

4.3.1 Mxima Verosimilitud (ML).


Supongamos que los datos Z son multivariados Gaussianos; y teniendo en
cuenta el modelo lineal:
Z=X +
donde X es una matriz nxq no estocstica, de rango q < n, es un vector de parmetros
fijos (qx1), es un vector aleatorio (nx1)
El vector es multivariado Gaussiano con E(
) = 0 y matriz de varianzas n x n
(
), donde (
) = (Cov[
(si), (sj)]) = (Cov[Z(si), Z(sj)] ) depende de como
consecuencia de que 2 depende de . Por lo tanto Z es Gaussiano con esperanza E(Z)
= X y matriz de varianzas y covarianzas (
).
La verosimilitud de Z es:
1
( 2 ) n / 2 (
) 1/2 exp { ( Z X ) [(
)]1 (Z X ) }
2
y el negativo del logaritmo de la verosimilitud es:
L(
,
) = (n/2) log(2) + (1/2) log (
) + (1/2) ( Z X ) [(
)]1 (Z X )
Rq ,
.
Los estimadores M.L. * y * satisfacen:
L(
*,
* ) = inf { L(
,
) : Rq ,
}
La obtencin de las estimaciones se realiza mediante procedimientos numricos
computacionales.(Consultar Cressie 1991, pg. 472).
La estimacin por mxima verosimilitud presenta el problema de que los
estimadores son altamente sesgados.
Otra opcin, es filtrar los datos de tal manera que la distribucin conjunta ya no
depende de , esto es lo que se conoce con el procedimiento de mxima verosimilitud
restringida.

4.3.2 Mnimos cuadrados.


El mtodo de ajuste de variogramas de Mxima Verosimilitud ignora la
apariencia visual del grfico del variograma muestral, digamos, {(h, 2 $ (he) ) : h =
h(1),h(2), ... ,h(K)}, y el ajuste a una curva de variograma terico que est cercano a l.
Independientemente del mtodo de ajuste, la comparacin del grfico del
variograma experimental y los valores del variograma terico a ajustar es una
herramienta de diagnstico invaluable y altamente recomendada.
Para medir la cercana entre el variograma muestral y el variograma terico ha
sido propuesto, la suma de cuadrados de las diferencias entre un estimador de
variograma genrico 2#(he) y un modelo 2(he; ).
El mtodo de mnimos cuadrados ordinarios especifica que se estime por
minimizacin de:
K

{ 2#(h(j) e) 2(h(j) e; ) }2

(4.3.5)

j =1

en alguna direccin e. A pesar de tener una muy buena interpretacin geomtrica o# el


estimador de mediante (4.4.5) no tiene en cuenta la variacin y covariacin
distribucional del estimador genrico 2#.

47

Ajuste mediante mnimos cuadrados generalizados.


El mtodo de mnimos cuadrados ordinarios es puramente un procedimiento
numrico que tiene una interpretacin geomtrica actrativa. Para retener la geometra e
introducir adems el concepto de covariacin en el procedimiento, consideramos el
criterio de mnimos cuadrados generalizados.
Supongamos que un estimador de variograma 2# se obtiene en K retardos h(1),
h(2), ..., h(K) , donde K es fijo y la cantidad de datos que contribuyen a la estimacin en
cada retardo es grande,(al menos 30 pares de acuerdo a lo sugerido por Journel y
Huijbregts). Adems, sea 2(h;
) un modelo de variograma cuya forma exacta es
conocida excepto por el vector de parmetros desconocidos .
Sea 2# un vector aleatorio Kx1, 2# = (2# (h(1)), 2# (h(2)) , ..., 2# (h(K)));
cuya matriz de varianzas y covarianzas es Var(2# ) = V, que puede depender de .
Entonces se elige el valor de que minimiza:
))V1 (2# 2(
))
(2# 2(

(4.3.6)

donde 2(
) ( 2(h(1); ) , 2(h(2); ) , ... , 2(h(K); ) ) es el modelo terico
evaluado en los retardos h(1), h(2), ..., h(K). Llamemos al estimador v#.
Adems del estimador por mnimos cuadrados ordinarios o# y el estimador por
mnimos cuadrados generalizados v#, se define el estimador mnimos cuadrados
ponderados #, donde
diag { var ( 2#(h(1))), var ( 2#(h(2))), ... , var ( 2#(h(1))) }
(4.3.7)
es una matriz diagonal con las varianzas especificadas a lo largo de la diagonal. Es
decir # es el estimador que se obtiene al minimizar
(2# 2(
)) 1 (2# 2(
))
Al aplicar mnimos cuadrados generalizados no se hace ningn supuesto acerca
de cual es la distribucin de los datos. Carroll y Rupert mostraron que poseen mejores
propiedades de robustez que el estimador mximo verosimil cuando la distribucin de Z
est mal especificada.
La determinacin de V en (4.3.6) no es siempre fcil. Cressie(1991) propone
como encontrar V en el caso del estimador clsico.

48

4.3.3 Ajuste a sentimiento.


El mtodo de los mnimos cuadrados produce un ajuste basado uncamente en el
nmero Ni de parejas sin tener en cuenta ciertos aspectos cualitativos del
semivariograma. Es decir, posiblemente deje de lado el aspecto crucial de la
representacin adecuada del semivariograma cerca del origen.
El mtodo de ajuste a sentimiento consiste en seleccionar los parmetros del
semivariograma teniendo en cuenta una serie de consideraciones de tipo cualitativo tales
como (Clark, 1979):
1. Basta con que el modelo ajustado refleje los principales aspectos del semivariograma
muestral (la anisotropa, varianza, etc.). No se deben intentar ajustar los mnimos
detalles ya que en general stos no son una caracterstica del verdadero
semivariograma sino ms bien fluctuaciones muestrales.
2. El comportamiento de * (h) a grandes distancias junto al conocimiento de la
varianza muestral s2 determinaran la presencia o no de una meseta S.
3. El valor del efecto pepita puede ser obtenido extrapolando los primeros puntos del
semivariograma muestral hasta cortar el eje de ordenadas.
4. En general el ajuste del modelo al semivariograma muestral puede mejorarse
considerando modelos compuesto del tipo: (h) = i (h) donde cada uno de los
i

sumandos son modelos bsicos (exponencial, esfrico, etc.).


Este tipo de semivariogramas puede presentarse cuando la variabilidad aleatoria de Z
responde al efecto combinado de varios mecanismos que actan a diferentes escalas.
5. El sentido comn y el conocimiento fsico del fenmeno o de la variable que se
estudia, son esenciales a lo largo de todo el proceso de estimacin del
semivariograma.
Las apreciaciones subjetivas y la experiencia del usuario no garantizan un
modelo de variograma nico. Adems no permite conocer la calidad y el grado de
fiabilidad del modelo ajustado. No obstante en el prximo apartado se ver que es
posible establecer criterios estadsticos que ayuden a comparar el grado de bondad de un
modelo de variograma frente a otro.

4.4 Validacin cruzada del variograma ajustado.


Supngase que el modelo de variograma 2 (h ; $ ), h R d se ajust en base de
los datos { Z (s i ): i =1, 2,... n } . Una forma para diagnosticar algunos problemas con el
ajuste obtenido es mediante la validacin cruzada.
La idea bsica es borrar algn dato y usar los restantes datos para predecir las
observaciones borradas. Por lo tanto el error de prediccin puede ser obtenido como el
valor predicho menos el valor actual. La repeticin de este procedimiento sobre muchos
subconjuntos permite el conocimiento de la variabilidad del error de prediccin.
En un contexto de estimacin, el borrado de observaciones para mejorar la
inferencia de un parmetro estimable fue llamado Jackknifing por Tukey. En el
Jackknifing la elaboracin de valores falsos lo hace diferente del enfoque de validacin
cruzada tomada aqu para prediccin espacial.
En el captulo 5 se presenta la tcnica de prediccin espacial conocida como
kriging. A los fines de esta seccin, se supone que se conoce la prediccin Z$ (s 0 ) del

49

valor Z(s0) en la ubicacin s0 D, junto con una medida de su error de prediccin en


media cuadrtica: 2k (s 0 ) .
Si el modelo de variograma describe adecuadamente la dependencia espacial
implcita en el conjunto de datos, entonces el valor predicho Z$ (s 0 ) debera ser cercano al
verdadero valor Z(s0). Idealmente, observaciones adicionales de Z() podrn ser tomadas
para chequearlas, o inicialmente algunos de los datos pueden ser reservados para validar
el predictor espacial. Pero probablemente, todos los datos se usan para ajustar el
variograma y construir el predictor espacial, y no existe la posibilidad de tomar ms
observaciones. En este caso el enfoque de validacin cruzada puede ser usado. Se
obtiene a partir de todos los datos el modelo de variograma ajustado 2 (h; $ ) ; luego se
deja de lado un dato Z(sj) y se lo predice con Z$ (s ) basado en 2 (h; $ ) y los datos
j

restantes. El error de prediccin en media cuadrtica asociado es 2 j (s j ) el cual


depende inter alia del modelo de variograma ajustado.
La cercana de los valores predichos a los verdaderos valores puede ser
caracterizada en diversas formas; por ejemplo:
1 n Z (s j ) Z$ j (s j )
(s )
n j =1
j
j

n Z (s ) Z$ (s ) 2
j
j
j
1


n j =1
j (s j )

(4.6.1)

Z (s j ) Z$ j (s j )

diagrama de tallos y hojas de:


: j = 1,K , n
j (s j )

(4.6.2)

(4.6.3)

En todos estos resmenes, se utilizan los residuos de prediccin estandarizadas


para obtener una herramienta de diagnstico del ajuste del modelo de
variograma 2 (h; $ ) .
La media en (4.6.1) debera ser aproximadamente 0, la raz cuadrada de la media
de los cuadrados en (4.6.2) debera ser aproximadamente 1, y el histograma en (4.6.3)
puede ser examinado por la posible presencia de outliers.
Samper y Neuman(1989) suponen que los errores de prediccin son Gaussianos
con correlaciones despreciables; esto permite la construccin de una verosimilitud,
basada en los errores de prediccin, para ser minimizado con respecto a . Sin
embargo, an si las correlaciones entre los errores de prediccin son reconocidas en la
distribucin conjunta, es insensato pensarlo como una verosimilitud porque los
parmetros son usados para definir los datos(es decir los errores de prediccin).

50

CAPITULO 5: KRIGING.
En este captulo se presentar los fundamentos tericos mnimos de la prediccin
espacial que se usar en el desarrollo de este trabajo, poniendo nfasis en el mtodo de
kriging. Se fundamenta que el kriging es sinnimo de prediccin ptima en algn
sentido, y en base a los supuestos necesarios se deducen las ecuaciones del kriging
simple y kriging ordinario. En otro apartado se presentan caractersticas prcticas de
esta metodologa de prediccin. Por ltimo se introducen los resultados tericos
referentes al kriging lognormal.

5.1 Prediccion Espacial y Kriging.


Sea {Z(s): sD Rd} una funcin aleatoria o proceso aleatorio, como se defini
en la seccin 3.1, desde la cual n datos Z(s1), Z(s2),..., Z(sn) son recolectados. Los datos
se utilizan para realizar inferencias sobre el proceso, y as predecir alguna funcional
conocida g({Z(s): sD Rd}) [o, ms simplemente, g (Z () ) ] de la funcin
aleatoria Z () . Los siguientes son dos ejemplos de funcionales:
* La prediccin puntual supone que g(Z()) = Z(s0), donde s0 es una ubicacin espacial
conocida.
* La prediccin promedio en un bloque supone que g (Z (.) ) = Z ( B) =

1
Z (s) ds
B B
B D , donde B es un bloque cuya ubicacin y geometra son conocidas y cuyo
volumen d-dimensional es B.

Con prediccin espacial se quiere decir predecir g(Z()) a partir de los datos
Z(s1), Z(s2), ..., Z(sn) observados en ubicaciones espaciales conocidas s1,s2, ..., sn. sta
terminologa abarca las nociones temporales de suavizado (o interpolacin), filtrado, y
prediccin, las cuales cuentan con el orden del tiempo para su distincin. Si se dispone
de datos temporales del pasado y del presente, el suavizado se refiere a la prediccin
de g (Z () ) en el pasado, el filtrado se refiere a la prediccin de g (Z () ) en el tiempo
presente; y prediccin se refiere a la prediccin de g (Z () ) en puntos del tiempo del
futuro.
Kriging es un mtodo de prediccin espacial que minimiza el error cuadrtico
medio esperado, l que depende de las propiedades de segundo orden del proceso Z () .
La palabra kriging es sinnima de prediccin ptima. En otras palabras, se aplica
para hacer inferencias de manera ptima sobre valores no observados del proceso

aleatorio Z () desde los datos Z = (Z (s1 ),K, Z (s n ) ) ; observados en el conjunto de


ubicaciones espaciales conocidas {s1,...,sn }.
D.G.Krige, un ingeniero en minas de Sudfrica, en el ao 1950, desarroll
mtodos empricos para la determinacin exacta de la distribucin del grado de
mineralizacin desde distribuciones basadas en el muestreo de grados de
mineralizacin. Sin embargo, la formulacin de la prediccin espacial lineal ptima no
proviene del trabajo de Krige. sta, se debe a Matheron, quien en honor a Krige puso el

51

nombre kriging al mtodo de prediccin que desarrollo en sus trabajos de


geoestadstica.
Al mismo tiempo que la geoestadstica fue desarrollada en Ingeniera en Minas
bajo G. Matheron en Francia, las mismas ideas eran desarrolladas en Meteorologa por
L.S.Gandin en la Unin Sovitica. La original, y simultnea, contribucin de estos
autores fue poner la prediccin lineal ptima en trminos de variogramas, es decir en
un contexto espacial. El nombre que Gandin us para su enfoque fue Anlisis Objetivo,
y la terminologa interpolacin ptima en vez de kriging.
Notacin
Denotamos con p (Z; g ) al predictor genrico de g (Z () ) . Cuando g (Z () ) = Z ( B) se
escribe como p (Z; B ) y en el caso particular de B = {s 0 } como p (Z; s 0 )
Cuando existen muchas superficies posibles desde las cuales elegir, una tctica
estndar es tratar con stas estadsticamente. A la luz de las observaciones Z de Z(), se
puede considerar la distribucin de Z() condicionada al vector de datos Z. Esto es, las
inferencias sobre el proceso [por ejemplo la prediccin de Z(s0)] podran involucrar esta
distribucin condicional.
Denotamos con L(Z(s0), p(Z, s0)) a la prdida incurrida cuando Z(s0) se predice
con p (Z, s 0 ) . Un predictor ptimo p es aquel que minimiza el valor esperado de la
funcin perdida:
E { L( Z (s 0 ) ; p( Z , s 0 ))}
donde E () denota la esperanza con respecto a la distribucin conjunta de Z(s0) y Z.
Es un resultado bien conocido que el mejor predictor minimiza E{L(Z(s0),
p(Z,s0) ) / Z}, donde E{ . /Z} denota la esperanza (posterior) con respecto a la
distribucin condicional de Z(s0) / Z.
As, un predictor ptimo de las partes no observadas de Z () se obtendrn
condicionalmente sobre las partes observadas Z, reforzando la discusin anterior. Una
medida condicional de prdida de prediccin es E{L(Z(s0), p)/ Z}, a diferencia de la
medida no condicional E{L(Z(s0), p)}.
Regiones de prediccin
Para una funcin de prdida L dada y predictor p(Z,s0), se definen las regiones
de prediccin para Z(s0).
La regin { Z (s 0 ): L( Z (s 0 ) ; p( Z , s 0 )) < k } es una regin de prediccin del 100
(1 )% si se puede elegir una constante k (la cual podra depender de s0) de modo
que
P{ L( Z (s 0 ); p( Z , s 0 )) < k } = 1
01
En muchos problemas de prediccin, se usa como funcin de prdida el error
cuadrtico:

L( Z ( s 0 ) ; p ( Z , s 0 ) ) = ( Z ( s 0 ) p ( Z , s 0 ) )

El predictor ptimo resultante, que minimiza E{(Z(s0) p(Z,s0) )2/ Z} es la


esperanza condicional de Z(s0) dado Z:

p (Z, s0) = E(Z(s0) / Z)

52

La regin de prediccin del 100 (1 )% es el intervalo simtrico:


( p(Z,s0) k1/2, p(Z,s0) + k1/2 )
La discusin precedente demuestra que se necesita la distribucin condicional de
Z(s0)/ Z. sta es calculada desde la distribucin conjunta (n+1)-dimensional de (Z (s0),
Z); sin embargo en la prctica, no es posible la estimacin de tal distribucin desde los
n datos disponibles, a menos que se hagan algunos supuestos simplificadores del
modelo.
El supuesto ms simple a hacer es que Z () sea un proceso aleatorio Gaussiano,
porque entonces la distribucin conjunta de (Z(s0), Z) es Gaussiana y E(Z(s0)/ Z) es
lineal en Z, dependiendo solo de:
(s i ) = E (Z (s i ) ); i = 0, K, n , y
C(si,sj) =Cov( Z(si), Z(sj) ) 0 i j n.
An as, hay potencialmente (n + 1) + (1/2) (n + 1) (n + 2) parmetros a estimar
desde slo n datos. Ms supuestos simplificadores, tales como:
E(Z(s))
y
C(si,sj) = C*( si sj )
donde C * (.) es una funcin definida positiva sobre Rd, permiten realizar procedimientos
de inferencia.

5.2 El mejor predictor lineal - Kriging simple.


Para la prdida dada por el error cuadrtico, el mejor predictor es E (Z (s 0 ) / Z ) , el
cual no siempre es lineal en Z. En vez de preguntar por el mejor predictor, uno podra
preguntarse por el mejor predictor lineal, esto es; obtener l1,l2 , ... , ln , k en
n

p(Z,s0) =

li Z(si) + k,
i=1

tal que minimice E(Z(s0) p(Z, s0))2.


2

Es decir, se debe minimizar E Z (s 0 ) li Z (s i ) k con respecto a l1, l2, ... ,ln, k.

i =1
Se puede expresar:
2

n
n
n

E Z (s 0 ) li Z (s i ) k = var Z (s 0 ) li Z (s i ) + (s 0 ) li Z (s i ) k

i =1
i =1
i =1
donde (s) =E(Z(s)) s D.

Si se elige k 0 = (s 0 ) li Z (s i ) el segundo sumando alcanza su valor mnimo: 0.


i =1

Adems eligiendo l = c 1 se minimiza el primer sumando, donde l = (l1 , l 2 , K , l n ) ,

c (C (s 0 , s1 ),K, C (s 0 , s n ) ) y es una matriz n x n cuyo elemento (i, j ) es C (s i , s j ) .

1 existe con seguridad si el proceso Z es tal que Cov Z (s i ), Z (s j ) = C (s i s j )


porque al ser esta funcin definida positiva, el determinante de la matriz del sistema es
no nulo entonces l = c 1 . Ntese que esta matriz no depende de s por lo que es fcil
calcular los coeficientes l i para distintos puntos s simplemente cambiando el vector de
trminos independientes c.
53

Por lo tanto el predictor lineal ptimo Z* (s0) es:


Z * (s 0 ) = p * (Z; s 0 ) = c 1 (Z ) + (s 0 )

donde ( (s1 ),L, (s n ) ) .

(5.2.1)

El error cuadrtico medio de prediccin minimizado, a menudo denominado


varianza de la prediccin es:
sk2(s0) E(Z(s0) p* (Z,s0) )2
cuya expresin es
sk2(s0) = Var (Z(s0)) c 1 c = C(s0, s0) c 1c

(5.2.2)

Por lo tanto la varianza de prediccin es menor que la varianza de la variable a


predecir.
Las justificaciones matemticas de la obtencin de las expresiones (5.2.1) y
(5.2.2) paso por paso se encuentran en el apndice C5.
Observaciones:
Matheron llam a tal prediccin espacial kriging simple porque cuenta con el
conocimiento de la funcin media (.) . Si (.) es desconocida (5.2.1) ya no es un
predictor.

El predictor (5.2.1) tiene un inters fundamentalmente terico, porque en general no


se conocen los n+1 valores esperados (s 0 ) ; ( s1 ) ;K; (s n ) ni la matriz de
autocovarianzas.
La prediccin en s0 requiere de la inversin de una matriz n x n.
Debido a que los datos aparecen linealmente en (5.2.1), el predictor p no es resistente
a los outliers.
El predictor p es ptimo entre todos los predictores lineales insesgados. Cuando Z
proviene de un proceso Gaussiano es el mejor entre todos los predictores (lineales o
no). Est ltima afirmacin se justifica en el siguiente apartado.
Datos Gaussianos y datos no Gaussianos.
Sea u una variable aleatoria y v un vector aleatorio distribuidos normalmente,
con valores esperados E(u) y E(v), respectivamente. Sea Var(u) la varianza de u, CVV la
matriz de covarianzas de v y CuV el vector de covarianzas cruzadas entre u y v, el valor
esperado y la varianza de u condicionada a v, vienen dadas por:
1
E ( u / v ) = E (u) + CuV CVV
[ v E ( v )]
1
Var ( u / v ) = Var (u) CuV CVV
Cu V
Si u = Z (s 0 ) y v = Z

E ( Z ( s 0 ) / Z ) = p 0 ( Z , s 0 ) = ( s 0 ) + c 1 [ Z ]

54

que coincide con el predictor obtenido en (5.2.1). Es decir si Z () es un proceso

Gaussiano entonces el predictor ptimo p coincide con el predictor lineal ptimo p*


(bajo la funcin de prdida del error cuadrtico). Adems la varianza de la prediccin
coincide con la Var ( Z (s 0 ) / Z ) . Sin embargo, no debe olvidarse que la prediccin lineal
ptima permite predictores tratables que pueden comportarse bastante mal cuando Z ()
est lejos de la normalidad.
El supuesto Gaussiano tiene otra caracterstica, la homocedasticidad condicional,
esto es, la Var (Z (s 0 ) / Z ) no depende de Z. Intuitivamente, el error cuadrtico medio de
prediccin condicional E{(Z(s0) p(Z,s0))2/ Z}es una medida ms apropiada de la
variacin del predictor que el error cuadrtico medio de prediccin no condicional
E{(Z(s0) p(Z,s0) )2 }.
Sin embargo, para Z () Gaussiano, p * (Z; s 0 ) = p o (Z; s 0 ) = E ( Z (s 0 ) / Z) , y la
medida condicional es indistinguible de la incondicional.
No todos los datos se comportan como realizaciones de un proceso Gaussiano.
Algunas veces es necesario transformarlos para que eso ocurra. El predictor ptimo
E(Z(s0) / Z) bajo el supuesto de modelo no Gaussiano es tpicamente no lineal.
Puesto que el error cuadrtico medio de prediccin condicional se puede expresar como:
E{(Z(s0) p(Z,s0) )2/ Z} = Var(Z(s0)/ Z) + {E(Z(s0)/ Z) p(Z,s0) }2

As, si los dos primeros momentos de la distribucin condicional son conocidos


o pueden ser estimados, entonces el error cuadrtico medio condicional puede ser

obtenido [tambin el predictor ptimo p (Z, s0) = E(Z(s0) / Z)].

Para un proceso Gaussiano Z () : p* (Z; s0) = p (Z, s0)


y E{(Z(s0) p*(Z,s0) )2/ Z}= Var(Z(s0)/ Z) = sk2(s0); donde sk2(s0) es el error
cuadrtico medio de prediccin (incondicional). Por otra parte,

{(

E Z (s 0 ) p (Z, s 0 ) / Z = Var (Z (s 0 ) / Z ) + p o (Z, s 0 ) p (Z, s 0 )


2

En situaciones no Gaussianas, donde se use un predictor de kriging simple, la


expresin precedente es el error cuadrtico medio de prediccin condicional y su
esperanza produce sk2(s0).
Los procesos que son casi Gaussianos deberan dar origen a predicciones casi
lineales.

5.3 Kriging ordinario.


Con kriging ordinario se referir a prediccin espacial bajo los supuestos que a
continuacin se detallan.

Modelo
Z(s) = + (s)
s D, R, y es desconocido.
El proceso (s) es tal que E ( (s) ) = 0 para todo s.
El proceso Z () tiene variograma 2 (h) = Var (Z (s + h) Z (h) )

55

(5.3.1)
(5.3.2)
(5.3.3)

Predictor
n

p (Z; B) =

i Z (s i )

con

=1

(5.3.4)

i =1

i =1

Esta ltima condicin sobre los coeficientes del predictor lineal garantiza la
insesgadez uniforme, es decir:
n
n
n

E ( p(Z; B) ) = E i Z (s i ) = i E ( + ( s i ) ) = i =
i =1
i =1
i =1

Obtencin de las ecuaciones de kriging ordinario.


El predictor ptimo p (Z; B ) se obtiene minimizando el error cuadrtico medio de
prediccin:
k2(s0) E(Z(s0) p (Z,s0) )2
(5.3.5)
n

sobre la clase de los predictores lineales

i Z ( si ) que satisfacen
i =1

= 1.

i =1

Se debe minimizar:
n

E Z (s 0 )
i Z (s i ) 2m i 1
(5.3.6)

i =1
i =1

con respecto a 1 , 2 , ..., n y m, donde m es el multiplicador de Lagrange asociado

con la restriccin

= 1.

i =1

En el apndice C5 se muestra que minimizar (5.3.6) equivale minimizar (5.3.7)


n
n

(5.3.7)
i j (s i s j )+ 2 i (s 0 s i ) 2m i 1
j =1
i =1
i =1

i =1

Despus de derivar (5.3.7) con respecto a 1 , 2 , ..., n y m, e igualar los


resultados a cero, se obtiene que los pesos ptimos satisfacen las ecuaciones:

j =1

j ( s i s j ) + (s 0 s i ) m = 0

i = 1, 2, ... , n.

=1

i =1

Esto es, el ptimo 1 , 2 , ...,

0 = 0 1

puede ser obtenido desde:


(5.3.8)

donde

0 ( 1 , 2 , L , n ,m)
0 ( ( s 0 s 1 ) ,L , (s 0 s n ) ,1 )

56

(s i s j ) i = 1,..., n

0
1
i = n +1

0
i =n +1

0 es una matriz simtrica (n+1) x (n+1).

j = 1,..., n
j = 1,..., n
j =n+1

Desde (5.3.8) el vector de coeficientes *nx1 ( *1 ,K , *n ) esta dado por

*
nx1

( 1 1 1 )
1
= + 1

1
1

(5.3.9)

y
1 1 1
m=
1 1 1

(5.3.10)

donde ( ( s 0 s 1 ) ,L , (s 0 s n ) ) , 1 (1,L ,1) y es una matriz n x n cuyo


elemento genrico es (si sj ) .
Las demostraciones de la validez de (5.3.9) y (5.3.10) se la presentan en el
apndice C5.
El predictor ptimo (kriging ordinario) es p$ (Z ; s 0 ) = *Z = Z$ (s 0 ) .
El error cuadrtico medio de prediccin mnimo es llamado a veces la varianza
del kriging (o de la prediccin), a saber:
n

k2 = *i *j s i s j + 2
i =1 j =1

= 2

*
i

(s 0 s i )

(5.3.11)

i =1

nx1 *nx1 *nx1


= *nx1 nx1 + *nx1 *nx1 *nx1
= *nx1 nx1 + m = 0 0
*
nx 1

(5.3.12)

Adems k se puede expresar como:


2

k2 =

*
nx 1

nx1 + m

1 1 1 nx1 1 1 1 1 nx1
= nx1 + 1

1 1 1
1 1 1

(1 1 nx1 1 ) 2
= nx1 nx1
1 1 1
1

(5.3.13)

Con estos resultados se puede construir los intervalos de prediccin, bajo el


supuesto que el proceso sea Gaussiano, el intervalo de prediccin de Z(s0) al 95% es:

. k (s 0 ) , Z$ (s 0 ) + 196
. k (s 0 )
I Z$ ( s 0 ) 196

57

Observaciones:
Se necesita el conocimiento del variograma 2 () .
La prediccin en s0 requiere la inversin de una matriz n x n.
El predictor p es ptimo entre todos los predictores lineales homogneos.
p(z,si) = z(si) para i =1,2, ... ,n es decir p es un interpolador exacto.
Ntese que la media constante no necesita ser estimada. Pero en realidad se
puede suponer que la media es una combinacin lineal desconocida de funciones
conocidas.

Ejemplo 5.3.1: Dado un proceso estocstico en un segmento de recta. Se quiere predecir

Z (n + 1) desde el vector de datos Z = (Z (1), Z (2), L , Z (n) ) .


Modelo supuesto:
Z(i) = + (i)
i = 1, 2, K , n, K es desconocida.
(i) es tal que E ( (i ) ) = 0 i = 1, 2, K , n, K y es la matriz de varianzas y
covarianzas cuyo elemento genrico es Cov( Z (i ) , Z ( j ) ) = 0 i j

El proceso Z () tiene como variograma a 2 (i j ) = 0 1 i j

0 < <1
(5.3.14)

Predictor supuesto:
n

p(Z; n + 1) =

i Z (si )

con

= 1.

i =1

i =1

Cuyo ptimo es el que minimiza a k2(n + 1) E(Z(n + 1) p (Z, n + 1))2.


El predictor ptimo es p$ ( Z ; n + 1 ) = * Z donde * esta dado por:
1 1 1
(5.3.15)
1 1 1
Para obtener los pesos ptimos se debe encontrar la inversa de la matriz (n n) .
Esta es de la forma:

*' = 1 + 1 1

0
1
1 2 ... 1 n 1

0
1
... 1 n 2
1
2
= 0 ...
...
...
...
...

n2
1 n3
...
0
1
1
1 n 1 1 n 2
... 1
0

que se puede expresar como:

58

(5.3.16)

1


2
= 0 ...
n2

n 1

2 ... n 1 1

... n 2 1

...

...

...

n 3
n2

...
...

1
1

... + ... ...



1 1
1 1 1

1 ... 1

1 ... 1

... ... ... o sea

... 1 1

... 1 1

= 0 (+11)
2

(5.3.17)

cuya inversa es:

1 1 1 11 1
= 2

11 1 1
0
1

(5.3.18)

Se puede comprobar que:

1
1 + 2
1
...
...
1 =
1 2
0
0
0
0

...
...

...

...

...

1+

...

0
0

...

(5.3.19)

Reemplazando (5.3.19) en (5.3.18), se obtiene que:

1
1

1 =

2 1 2
0

1
1+ 2

M
M
0
0

0
0

...

...

... 1+ 2
...

1
... 1
1
1
1 (1 ) 2 ... (1 ) 2 1

1
M +
M
M
M
M
M

2
(1 )(n 1) 1 (1 ) 2 ... (1 ) 2 1

1
1
... 1
1
1

0
0

Reemplazando en (5.3.15) se obtiene el vector de pesos ptimos:


Cuya primer componente es
1
1 =
n(n2)

(5.3.20)

La componente i-sima con i = 2, 3, K , n 1 es

i =

(1 ) 2

(5.3.21)

n (n 2 )

y la componente n -sima:

n = +

1
n ( n 2)

Entonces el predictor ptimo es p$ ( Z ; n + 1 ) = * Z , es decir:


59

(5.3.22)

n 1

p$ ( Z , n + 1 ) = Z (n) + ( 1 )

Z (1) + ( 1 ) i = 2 Z (i ) + Z (n)

(5.3.23)

[ n ( n 2) ]

Observacin:
Ntese que si = 0, se obtiene como predictor ptimo a Z .
Reemplazando 1 en (5.3.10) se obtiene la siguiente expresin para m;
1 2
2
m= 0
n(n2)
n

Por lo tanto la varianza del kriging 2k = i (s 0 s i ) + m se puede expresar como:


i =1

1
(nn 2 + 2 + 1)+
n(n2)

k2 (n+1)= 0 (1 )
2

= 0

(1 2 )(1+ )
2
(1 )+

n(n2)

Qu sucede si se emplea Z en vez del predictor (5.3.23)?


A los fines de la comparacin se determina el error cuadrtico medio de prediccin
cuando se utiliza Z para predecir Z (n +1)

E ( Z (n + 1) Z ) = Var ( Z (n + 1) Z ) =
2

1
2
n 1
= 20 1 + 1 + 2
1 n 1
2
2
1
n
n(1 )
n

A los fines de la comparacin se presenta las siguientes tablas para distintos valores de
n y de .
n

Tabla 5.1: Valores de la varianza del kriging para distintos valores del tamao de la muestra (n) y del
coeficiente de correlacin .
n

Tabla 5.2: Valores del error cuadrtico medio de prediccin cuando se utiliza
Z (n +1) en vez del predictor de kriging.

Z para predecir

De la comparacin de ambas tablas se observa que si = 0.1 , es decir si se


presenta correlacin baja, independientemente del tamao muestral ambas medidas no

60

difieren significativamente. Si se considera una correlacin media (0.5) los valores son
comparables pero los de la varianza del kriging son siempre menores que los
correspondientes valores del error cuadrtico medio. En cambio en presencia de
correlacin alta, independientemente del tamao muestral, ambas medidas son muy
distintas. Siendo la varianza del kriging muy menor que el correspondiente error
cuadrtico medio cuando se utiliza como predictor a la media muestral. Esto habla a
favor del uso del estimador de kriging cuando se presenta correlacin.

5.4 Aspectos prcticos.


5.4.1 Efectos de distribucin de los datos.
Una de las ventajas del kriging sobre la mayora de los interpoladores es la
forma en que tiene en cuenta la distribucin de los datos.
Se esperara que cualquier predictor asignase pesos mximos a los puntos
situados ms cerca y que stos fuesen disminuyendo a medida que aumenta la distancia
entre puntos donde se quiere predecir y la ubicacin de los datos. Igualmente, parecera
razonable exigir que si dos datos estn ubicados muy prximos, sus pesos seran
menores que si estn alejados. Estas propiedades se cumplen en forma natural cuando el
kriging es el mtodo de prediccin elegido.
A los fines de ejemplificar este efecto en las predicciones, se emplearan tres
semivariogramas: uno potencial, uno esfrico sin efecto pepita y el tercero esfrico con
efecto pepita, es decir tres modelos que representan diferentes estructuras de
dependencia. As el primer modelo corresponde a una fuerte estructura de dependencia,
el segundo a una moderada y la tercera a una dbil. En la Figura 5.1 se presentan
grficamente dichos modelos.

Figura 5.1:De izquierda a derecha: modelo potencial, modelo esfrico sin efecto pepita, y modelo
esfrico con efecto pepita 1.

En la figura 5.2 se presentan distintas disposiciones de los puntos para las


predicciones con las tres diferentes estructuras de dependencia citadas anteriormente.
En todas ellas el punto donde se quiere predecir se encuentra rodeado de los puntos
donde se dispone informacin. En el caso A) estos se encuentran distribuidos
simtricamente respecto del punto de prediccin y cada uno a una distancia de una
unidad de dicho punto. En el caso B) los puntos ya no se distribuyen simtricamente,
sino el punto que se encuentra al norte se encuentra a una distancia 1.5 del punto de
prediccin. En el caso C) la distribucin de los puntos para realizar la prediccin es
simtrica, pero a diferencia de A) la cantidad de los mismos se ha duplicado.

61

A)

B)

C)

Figura 5.2: Distintas disposiciones de los puntos para realizar la prediccin en el punto coloreado de
azul.

Los pesos obtenidos mediante la solucin de las ecuaciones de kriging


empleando cada uno de los 3 semivariogramas para el caso A) son iguales a 0.25 para
todos los puntos debido a la simetra y a la distancia que cada uno de ellos se encuentra
del punto de prediccin. En la figura 5.3 se presentan esquemticamente los pesos para
este caso.

1)

2)

3)

Figura 5.3: Pesos de los puntos para el caso A usando para el semivariograma: 1) el modelo potencial.
2) el modelo esfrico sin efecto pepita. 3) el modelo esfrico con efecto pepita.

Los pesos obtenidos para el caso B) son como los muestra la figura 5.4, para
todos los semivariogramas, los pesos correspondientes a los puntos simtricos respecto
al punto de prediccin tienen valores iguales disminuyendo sus valores a medida que
disminuye el grado de dependencia. En cuanto a los correspondientes a los puntos
asimtricos se puede observar que presentan valores menores los puntos que estn ms
alejados.

1)

2)

3)

Figura 5.4: Pesos de los puntos para el caso B usando el semivariograma: 1) potencial. 2) esfrico sin
efecto pepita. 3) esfrico con efecto pepita.

62

Para el caso C) lo que llama la atencin es la existencia de pesos negativos,


cuando se est en presencia de las dos primeras estructuras de dependencia. Esto se
debe a que los puntos situados ms prximos al de prediccin reciben los mayores pesos
y reducen, llegando hasta en algunos casos a hacerlos negativos, los de los puntos que
estn ms lejos. Pero que sucede con la tercer estructura, la que presenta el efecto
pepita? Los pesos asignados a todos los puntos de prediccin no son negativos. Esto
responde a que la presencia de efecto pepita tiende a uniformizar los pesos, Cressie
(1991).
1)

2)

3)

Figura 5.5: Pesos de los puntos para el caso C usando el semivariograma: 1) potencial. 2) esfrico sin
efecto pepita. 3) esfrico con efecto pepita.

Efecto pantalla.
En la figura 5.6 se presentan otras disposiciones de los puntos. En todas ellas el
punto donde se quiere predecir se encuentra rodeado de los puntos donde se dispone
informacin. En el caso D) cuatro de estos se encuentran distribuidos simtricamente
respecto del punto de prediccin y cada uno a una distancia de una unidad de dicho
punto mientras que un quinto se encuentra al Este a una distancia de 2 unidades. En el
caso E) 4 puntos presentan una distribucin similar a la disposicin B) con un quinto
punto que se encuentra al norte a una distancia 2 del punto de prediccin. En el caso F)
la distribucin de los puntos es similar a la del caso C) pero se agrega un punto en la
direccin Noroeste.
D)

E)

F)

Figura 5.6: Distintas disposiciones de los puntos para realizar la prediccin en el punto coloreado de
azul.

Las Figuras 5.7, 5.8 y 5.9 tambin indican la existencia de pesos negativos.
Como se puede observar, siempre que un punto de observacin tiene un peso negativo
existe otro situado entre aquel y el punto de prediccin. Este efecto se denomina efecto
pantalla y consiste en que los puntos situados ms prximos al de prediccin reciben
los mayores pesos y reducen, llegando hasta en algunos casos a hacerlos negativos, los
63

de los puntos que estn detrs. As, se dice que los puntos ms prximos apantallan a
los que quedan detrs.

1)

2)

3)

Figura 5.7: Pesos de los puntos para el caso D usando el semivariograma: 1) potencial. 2) esfrico sin
efecto pepita. 3) esfrico con efecto pepita.

1)

2)

3)

Figura 5.8: Pesos de los puntos para el caso E usando el semivariograma: 1) potencial. 2) esfrico sin
efecto pepita. 3) esfrico con efecto pepita.
1)

2)

3)

Figura 5.9: Pesos de los puntos para el caso F usando el semivariograma: 1) potencial. 2) esfrico sin
efecto pepita. 3) esfrico con efecto pepita.

La existencia de pesos negativos tiene su razn de ser, pero puede conducir a


resultados extraos, como dar como prediccin un valor negativo en casos de que la
variable ha de ser necesariamente positiva. Para evitarlo, Svidarovszky (1985) propone
un mtodo de kriging en el que se impone que los pesos sean no negativos. Otro
argumento es el de Journel (1986) que indica que si el problema se reforma
adecuadamente, no es preciso realizar la restriccin antes mencionada en forma
explcita. Por ejemplo se puede suponer que la variable en cuestin no es intrnseca, o
hacer una transformacin logartmica de los datos etc., pero esto requiere hiptesis
adicionales.
En todos los grficos de los casos 3, se muestra que la presencia de efecto pepita
tiende a uniformizar los pesos y reduce considerablemente el apantallamiento.
Si la variable no presenta ninguna estructura (efecto pepita puro), todos los pesos
son iguales a 1/n, siendo n el nmero de datos. En resumen, los pesos sern ms
uniformes (independientes de la distribucin de los puntos de observacin) cuanto
menor sea la estructura de la variable. Es decir, dependern mucho de la distribucin si

64

el semivariograma tiene pendiente nula en el origen (todos los ejemplos 1 de las


figuras), algo menos si tiene comportamiento lineal en el origen (ejemplos 2 de todas las
figuras) y mucho menos si existe pepita (ejemplos 3 de todas las figuras). En este
contexto, Journel y Huigbregts (1978) hablan del efecto de suavizacin causado por la
pepita.
Efecto de agrupamiento.
Otro efecto importante de la distribucin de los datos es el llamado efecto de
agrupamiento, segn el cual puntos muy prximos tienden a comportarse como si se
agrupasen en uno solo.
En la Figura 5.10 existe una pareja de puntos muy prximos. As, los pesos de
los dos puntos muy prximos ubicados al Oeste suman 0.254 para el modelo 1) y los
pesos de cada uno de los restantes puntos rondan en 0.25. Para el modelo 2) la suma es
0.264 que difiere del peso de su simtrico en 0.017.En cuanto al 3) la suma es 0.322,
mientras que los pesos de cada uno de los restantes puntos rondan en 0.23.

1)

2)

3)

Figura 5.10: Pesos de los puntos usando el semivariograma: 1) potencial. 2) esfrico sin efecto pepita.
3) esfrico con efecto pepita.

Al igual que en el prrafo anterior, el efecto de agrupamiento es tanto mayor


cuanto ms estructurada est la variable.
Distribucin angular de los datos.
Los pesos son tambin sensibles a la distribucin angular de los datos. En la
figura 5.11 se presentan distintas disposiciones de los puntos para mostrar la
dependencia de los pesos del kriging con la distribucin de los datos y los modelos de
semivariogramas.
G)

H)

Figura 5.11: Distintas disposiciones de los puntos para realizar la prediccin en el punto coloreado de
azul.

En ambas disposiciones las distancias entre los puntos de observacin y el de


prediccin son iguales. Pero en el primer caso (caso G) el punto de prediccin se
encuentra rodeado por los de observacin. En cambio en el segundo (caso H) el punto
de prediccin se encuentra en una esquina.
65

1)

2)

3)

Figura 5.12: Pesos de los puntos para el caso G usando el semivariograma: 1) potencial. 2) esfrico sin
efecto pepita. 3) esfrico con efecto pepita.

1)

2)

3)

Figura 5.13: Pesos de los puntos para el caso H usando el semivariograma: 1) potencial. 2) esfrico sin
efecto pepita. 3) esfrico con efecto pepita.
La distribucin de los pesos es mucho ms uniforme en los casos presentados en
la Figura 5.12 que en los de la Figura 5.13. Esto es consecuencia de la diferencia en la
distribucin de los puntos de observacin con respecto al de prediccin. Las
conclusiones del prrafo anterior en relacin con la uniformidad de los pesos en funcin
de la estructura siguen siendo vlidas. As, los pesos del caso H 3) (mnima estructura)
son mucho ms uniformes que los de H 2) y los de ste mucho ms que los del H 1)
(mxima estructura), en el que un punto tiene un peso de 1.09. Adems las varianzas de
prediccin son mucho ms pequeas en el caso en el que los datos rodean el punto de
prediccin que en el caso en que ste queda en una esquina.
Es evidente, que los valores de los pesos son demasiados sensibles a la posicin
de los puntos de observacin, como para que sean predecibles. Lo importante de la
discusin anterior es tener presente que conviene que los datos estn distribuidos lo ms
uniformemente posible. Ello lleva al campo del diseo de redes de observacin, que
consiste en la seleccin de la posicin de los puntos donde se mide a fin de obtener una
buena prediccin. Un criterio es elegirlo de forma que se minimice la varianza de
prediccin, la cual depende de la distribucin de los puntos.

5.4.2 Dibujo de curvas de nivel.


Luego de resolver las ecuaciones de kriging, es fcil obtener los valores
predichos en cualquier punto s, simplemente cambiando el trmino independiente. As,
para dibujar curvas de nivel, lo ms apropiado es hacer que s vaya recorriendo los nodos
de una malla regular. A partir de los valores predichos de Z en la malla, se pueden
dibujar las curvas de nivel mediante algn programa de computacin, por ejemplo el
programa SURFER, que generalmente requiere conocer los valores de Z sobre alguna
malla regular o el an ms conocido programa para la investigacin de datos
geoestadsticos el GEOEAS.
En forma similar que se obtienen las curvas de nivel de las predicciones para la
variable se obtienen simultneamente las curvas de nivel de las estimaciones de los
desvos estndares de la prediccin. As, de esta manera se permite visualizar la
incertidumbre de la prediccin.

66

Los resultados geoestadsticos se presentan frecuentemente en forma


cartogrfica.
En la figura 5.14 a) se muestra el mapa con los resultados del kriging para el
problema de la concentracin de Calcio presentado en el captulo 2. Para la generacin
del mismo se considero una malla o grilla regular con origen en el punto (260, 120) y un
incremento de 20 pies en ambas direcciones de tal manera de abarcar el rectngulo
definido por las posiciones de los datos. Mientras que en la figura 5.14 b) se presenta el
mapa con los desvos estndares de la prediccin.
a)

b)

Figura 5.14:

a) Mapa del kriging del contenido de Cadmio.


b) Mapa de los desvos estndares de prediccin del contenido de Cadmio.

67

5.5 Kriging lognormal.


El kriging es ptimo cuando el proceso Z tiene una distribucin normal o
gaussiana, claro que su optimabilidad puede degradarse considerablemente al tratar con
otras distribuciones. Para superar esta limitacin es conveniente realizar una
transformacin sobre Z de forma que los transformados tengan una distribucin
Gaussiana. De esta manera por ejemplo, se define el proceso aleatorio lognormal.
Un proceso aleatorio {Z (s): s D} de valores positivos se dice lognormal s y
solo s la transformacin
Y (s) log Z (s)
s D
es
un
proceso
Gaussiano.
(5.5.1)
La meta del kriging log-normal, al igual que la del kriging ordinario, es predecir
Z(s 0 ) desde el vector de observaciones Z ( Z (s1 ),K , Z (s n ) ) o en forma ms general
predecir Z(B).
La idea es transformar el problema desde la escala Z a la escala Y. En un
principio se supondr que el proceso aleatorio Y es intrnsecamente estacionario.
El predictor de Y(s 0 ) es
n

i =1

i =1

p$ Y (Z ; s 0 ) i log Z (s i ) = i Y (s i )

(5.5.2)

donde 1,K, n se obtienen resolviendo (5.3.8) en la escala Y; es decir, el variograma


usado en (5.3.8) es 2 Y (h) var(Y (s+ h)Y (s) ), h R d .
El predictor exp( p$ Y (Z ; s 0 )) es sesgado para Z(s 0 ) . Bajo los supuestos
siguientes: el proceso Y () es Gaussiano e intrnsecamente estacionario con media Y y

variograma 2 Y () y con varianza finita Y2 (s) var (Y (s)), s D ; entonces un predictor


insesgado para Z(s 0 ) es
1
1
(

p Z ( Z ; s 0 ) exp p$ Y (Z ; s 0 ) + Y2 (s 0 ) var p$ Y (Z ; s 0 )
2
2

(5.5.3)
1 2
$

= exp pY (Z ; s 0 ) + Y ,k (s 0 ) mY
2

2
donde Y ,k (s 0 ) y mY son, desde (5.3.9) y (5.3.10), la varianza del kriging y el
multiplicador de Lagrange en la escala de Y .
El error cuadrtica medio de prediccin es:
2
E (Z (s 0 ) p( Z (Z;s 0 ) ) = exp 2 Y + Y2 (s 0 ) exp Y2 (s 0 ) +exp(var( p Y (Z;s 0 )) )

{ (

)} { (

2 exp(cov(Y (s 0 ), p Y (Z;s 0 ) ))
Todos estos resultados estn presentados en Cressie(1991).

(5.5.4)

La principal caracterstica de (5.5.4) es que se necesita conocer el variograma


2 Y y los momentos Y y Y2 () o tienen que ser estimados; provocando problemas de
inferencia difciles de resolver. A los fines de simplificarlos se puede imponer la
condicin ms fuerte sobre el proceso Y, a saber, estacionario de segundo orden.
Entonces Y2 (s 0 ) = CY (0) que puede ser estimado desde la relacin del variograma con

el covariograma: 2 Y (h) = 2( CY (0) CY (h)) .


Adems Y puede ser estimado por mnimos cuadrados ponderados basados en
los datos transformados Y ( Y (s 1 ),K , Y (s n ) ) .
68

El predictor kriging - lognormal (5.5.3) es ptimo en la clase de predictores que


satisfacen la siguiente condicin:
Minimizar E (Y (s 0 ) log p(Z ; s 0 )
n

i =1

sujeto a p(Z ; s 0 ) = e

in = 1

log Z (s ) + k

i
i

= 1 y E( Z(s 0 )) = E( p(Z ; s 0 )) . Es importante notar que (5.5.3) no coincide con el

mejor predictor insesgado E ( Z(s 0 ) / Z ) .

69

CAPTULO 6: KRIGING UNIVERSAL.


En el captulo anterior se presentaron mtodos de kriging bajo el supuesto que la
variable a estimar es intrnseca. En muchos casos, la variable no satisface estas
condiciones, y el fenmeno se caracteriza por presentar una tendencia. As por ejemplo,
en hidrologa subterrnea, los niveles piezomtricos muestran una tendencia global en la
direccin del flujo (Samper Calvete Carrera Ramirez, 1996).
Una vez que se ha detectado que Z no es intrnseca, caben entre otras, las siguientes
posibilidades:
1) Suponer que la variable es localmente estacionaria. Esto es, aplicar el mtodo de
kriging ordinario pero limitndolo a los puntos de observacin que se encuentran a
una distancia menor a una prefijada (Kriging en un entorno). Esto es posible llevarlo
a cabo con un programa como el GEOEAS.
2) Suponer que estas variables se descomponen como la suma de la tendencia, (s),
tratada como funcin determinista, y una componente estocstica (s) que se puede
tratar como funcin aleatoria intrnseca con valor esperado nulo.
3) Otra alternativa, propuesta por Matheron, se basa en la idea de filtrar linealmente los
datos, para ello defini las funciones aleatorias intrnsecas de orden k.
En este captulo se presenta la segunda alternativa, que se denomina "kriging
universal. Este mtodo fue el primero que plante el problema de la prediccin de
funciones no intrnsecas de una forma global. Tambin como un caso particular de este
tipo de prediccin se tratar el mtodo denominado kriging mediana polish.

6.1 Kriging Universal.


En esta seccin se supondr que E(Z(s)) ya no es ms constante sino una
combinacin lineal desconocida de funciones conocidas f 0 (s) ,L , f p (s) . Aunque

cada f i (s) se ha expresado como una funcin de s, cualesquiera de ellas podran ser una
constante por ejemplo 1, o un valor de una variable explicatoria asociada con el dato en
s, s D.
6.1.1 Modelo supuesto.
En esta seccin se adopta el modelo:
p +1

Z ( s ) = f j 1 ( s ) j 1 + ( s )

sD

(6.1.1)

j =1

donde:
p +1

(s) = f j 1 (s) j 1 es denominada tendencia o deriva que tiene carcter


j =1

determinista.
( 0 ,L , p ) R p +1 es un vector de parmetros desconocidos.

70

() es un proceso aleatorio intrnsecamente estacionario con E(()) = 0 y


variograma 2 ().
El vector de datos Z se puede expresar como:

Z (s1 ) f 0 (s 1 )

Z ( s 2 ) = f 0 ( s 2 )
M M


Z ( s n ) f 0 ( s n )

f 1 (s1 ) L
f 1 (s 2 ) L

f p 1 (s 1 )
f p 1 (s 2 )

M
L
f 1 (s n ) L

M
f p 1 (s n )

f p (s1 )

f p ( s 2 )
M

f p ( s n )

0 (s1 )

1 + ( s 2 )
M M

p ( s n )

o en forma ms compacta:
Z = X +

(6.1.2)

Donde X es una matriz n x (p+1) cuya componente (i, j ) es f j 1 (s i ) ; es el vector


anteriormente citado y es un vector n x 1 tal que el i- simo elemento es (si).
Si se quiere predecir Z en una determinada ubicacin s0, Z(s0) debe satisfacer el
modelo, o sea:
Z(s 0 ) = x + (s 0 )

x f 0 (s 0 ) , f 1 (s 0 ),L , f p (s 0 )

donde

(6.1.3)

6.1.2 Predictor Supuesto.


A partir del vector de datos Z se desea predecir linealmente Z(s0) usando un predictor
uniformemente insesgado. Esto es, el predictor es de la forma:
n

p( Z ; s 0 ) = i Z ( s i ) = Z

(6.1.4)

i =1

donde es un vector de pesos n x 1.


La condicin necesaria y suficiente para que sea un predictor uniformemente insesgado
es:
X = x
(6.1.5)
ya que
E [ p( Z ; s 0 ) ] = E ( Z ) = E ( X + ) = X
(6.1.6)
es igual a:
E ( Z(s 0 )) = x

(6.1.7)

para todo R p + 1 si y solo si X = x .


Ntese que si p=0 y f0(s) 1 se obtiene el kriging ordinario y en este caso X = x se
n

reduce a

= 1.

i =1

71

6.1.3 Prediccin espacial ptima del proceso Z.


En el kriging universal, el predictor lineal insesgado ptimo, se expresar como
p$ ( Z ; s 0 ) y es aquel que minimiza el error cuadrtico medio de prediccin:

2e = E [ Z (s 0 ) p( Z ; s 0 )]
sobre 1,K , n sujeto a X = x .

(6.1.8)

El adjetivo universal fue utilizado por Matheron (1969) para referirse a la


insesgadez del predictor cuando la tendencia es una combinacin desconocida de
funciones conocidas.
El problema de optimizacin puede ser expresado equivalentemente usando los
multiplicadores de Lagrange como;
Se debe minimizar:

E [ Z (s 0 ) Z ] 2 m .( X x )
Con respecto a los vectores y m; donde m ( m0 ,K , m p ) .
Es decir, se debe minimizar
2

(6.1.9)

p +1
n

E Z (s 0 ) i Z (s i ) 2 m j 1 i f j 1 (s i ) f j 1 (s 0 )
i =1
j =1
i =1

(6.1.10)

con respecto a 1 ,K , n , m0 ,K , m p .
Suponiendo que:
2 (h) = Var ( Z (s + h) Z (s)) = Var ( (s + h) (s) ) = E ( (s + h) (s) ) 2

(6.1.11)

(6.1.10) se transforma en:


n

i j (s i s j ) + 2
i =1 j =1

i =1

p +1

j =1

i =1

i ( s 0 s i ) 2 m j 1 i f j 1 ( s i ) f j 1 ( s 0 )

(6.1.12)

Es importante resaltar que minimizar (6.1.12) equivale minimizar (6.1.10) si


alguna funcin del conjunto f j 1 (s): j = 1,K , p + 1 es idnticamente 1. Caso contrario

las ecuaciones apropiadas para el kriging universal se escriben en trminos de las


funciones de covarianzas.
6.1.4 Ecuaciones de kriging universal.
Derivando con respecto a 1,K , n , m0 K , m p e igualando a cero, los pesos
ptimos son obtenidos desde

u = u1 u
donde

u ( 1 ,K , n , m0 ,K , m p )

u ( , m )

72

(6.1.13)
(6.1.14)

u ( (s 0 s1 ),L , (s 0 s n ) ,1, f 1 (s 0 ),L , f p (s 0 ))


u ( , x )

(6.1.15)

y u es una matriz simtrica (n + p + 1) x (n + p + 1) definida como sigue:

i = 1,K , n
(s i s j )

u f j 1 n (s i )
i = 1,L , n

0
i = n + 1,L , n + p + 1

j = 1,L , n
j = n + 1,L , n + p + 1

(6.1.16)

j = n + 1,L , n + p + 1

que se puede expresar en trminos de submatrices por:

u =
X
donde:
es la matriz n x n , = ( s i s j )

X
0

i , j = 1, 2 ,K , n .

X es la matriz n x ( p+1) X = f j 1 n (s i )

i = 1,2,K , n j = n + 1,K , n + p + 1

0 es la matriz nula (p+1) x (p+1).


Para encontrar la matriz inversa de u se aplica el algoritmo de Gauss generalizado.
Las soluciones del sistema (6.1.13) son:
El vector de pesos ptimos,

= ( + X ( X 1 X ) 1 ( x X 1 )) 1

(6.1.17)

y el vector de los multiplicadores de Lagrange:

m = x X 1 ( X 1 X ) 1

(6.1.18)

Las justificaciones de las expresiones (6.1.17) y (6.1.18) se encuentran en el apndice


C6.
La varianza del kriging se puede expresar como:
2k (s 0 ) = * 1 * + 2 * = * + ( * * 1* )
donde la expresin entre parntesis luego de trabajo algebraico se transforma en m x .
Por lo tanto;
2k (s 0 ) = * + m x = *u u
(6.1.19)
Otra expresin de la varianza del kriging es:

2k (s 0 ) = 1 ( x X 1 ) ( X 1 X ) 1 ( x X 1 )

(6.1.20)

Los pesos de ponderacin ptimos y la varianza del kriging obtenidos a travs de


las ecuaciones (6.1.17) y (6.1.20), , de las obtenidas con la funcin de covarianzas,
permiten construir el intervalo de prediccin nominal del 95% para Z (s 0 ) es:
A ( Z$ (s ) 196
. (s ) , Z$ (s ) + 196
. (s ) )
0

Bajo el supuesto que Z() es Gaussiano, la Prob{ Z(s0) A }= 95%.

73

Observaciones:
Tendencia polinmica.
Si s R2 a menudo E ( Z(s)) = (s) se expresa como una combinacin lineal de
polinomios en las coordenadas espaciales s = ( x , y ) . Una superficie de tendencia
de grado r es:
(s) = a kl x k y l
(6.2.7)
123
0 k +l r

Por ejemplo, una superficie de tendencia cuadrtica es:


(s) = a 00 + a10 x + a 01 y + a 20 x 2 + a11 x y + a 02 y 2
La expresin
s = ( x , y ) y

(6.2.7) es un caso particular de la tendencia en (6.1.1), con

(r + 1)(r + 2)
1 .
2
Las ecuaciones de kriging universal pueden considerarse una generalizacin de las de
kriging ordinario. Si se supone que Z es una variable intrnseca, con esperanza ,
entonces puede formularse como no intrnseca con p=1, l = y f l (s) = 1.
Para predecir ptimamente un valor no conocido Z(s0), solo se necesita conocer:
var Z (s i ) Z (s j ) ; 0 i j n

f 0 ( s) = 1

f 1 ( s) = x

{ (

f p ( s) = y r

donde p =

No es necesario conocer los coeficientes l de la combinacin lineal desconocida de


funciones conocidas

{f

( s) , L , f p ( s) .

La descomposicin (6.1.1) no puede ser obtenida fcilmente. Dentro de cada


disciplina, los cientficos tienen a menudo una buena idea acerca de que parte de Z es
debida a factores controlables y a determinadas variables exgenas. Pero an as no
existe unanimidad, porque la descomposicin Z(s) = (s) + (s) en definitiva
depende de preferencias y gustos personales.

6.2 Estimacin del variograma para el kriging Universal.


En las ecuaciones del kriging universal se supone que el variograma es
conocido. En la prctica, debe ser estimado, y la estimacin del mismo no es sencilla.
El uso de los estimadores citados en el captulo 3 sera inapropiado porque:
2
2
E Z (si ) Z (s j ) =Var Z (si ) Z (s j ) + E Z (si ) Z (s j )

)[ (

)]

p +1

= 2 (s i s j ) + k 1 ( f k 1 (si ) f k 1 (s j ) )
k =1

es decir, los estimadores propuestos en el captulo 3 seran sesgados.


Si fuera conocido, un estimador para el variograma podra estar basado en
p +1

() Z () k 1 f k 1 () porque E ( (s i ) (s j ) ) = 2 (s i s j ) .
2

k =1

El vector de parmetros es desconocido, pero se puede estimar fcilmente.

74

Como Z satisface el modelo lineal general, donde E (Z ) = X y Var(Z ) = , el


estimador obtenido por mnimos cuadrados generalizados de es:
1
$ = X 1 X X 1Z
GLS

que necesita el conocimiento de la matriz de varianzas y covarianzas Var (Z ) = , o


equivalentemente basta conocer el variograma. Pero, 2 () es desconocido, llevando la
discusin a foja cero. Esta circularidad sumada a la ltima observacin del apartado
anterior provocan algunas disconformidades con el kriging universal.
En forma general, considrese los residuos g.l.s. en el contexto general del
modelo (6.1.1).
Desde (6.1.2)
Z = X +
el estimador g.l.s. de es
1
$ = X 1 X X 1Z
(6.2.1)
GLS

y los residuos correspondientes son


W = Z X $ gls = X 1 X

X 1 Z

(6.2.2)

Los estimadores del variograma basados en W son sesgados, adems de la


dependencia estadstica (expresada en la matriz de varianzas ), W satisface (p + 1)

restricciones lineales, la matriz de proyeccin X 1 X

X 1 en (6.2.2) es de

rango n p 1. Intuitivamente, tales restricciones algebraicas inducen a los residuos W


que exhiban ms correlaciones negativas que aquellas de los errores . Argumentos
similares se aplican a los residuos o.l.s.
Un gran nmero de autores propuso soluciones para los problemas de sesgo que
se presentan cuando se usan los residuos para estimar el variograma Una de estas
propuesta es la de Neuman y Jacobson.
El enfoque de Neuman y Jacobson es un proceso iterativo cuyas etapas son:
Etapa 1: obtener una estimacin de por mnimos cuadrados ordinarios, es decir ajustar
(s) por mnimos cuadrados ordinarios.
Etapa 2: realizar una estimacin del variograma desde los residuos y ajustar un modelo
de variograma.
Etapa 3: obtener una estimacin de por mnimos cuadrados generalizados basndose
en el modelo de variograma ajustado en la etapa anterior.
El proceso interactivo consiste en repetir las dos ltimas etapas hasta lograr
convergencia. Pero resultados empricos como los presentados en Cressie (1990)
muestra que este mtodo no soluciona el problema del sesgo.
Por otro lado, se sabe que para un estimador basado en n observaciones ocurre
que ( sesgo) 2 = (O( 1 n )) y var ianza = O( 1 n ) . Es decir, cuando n tiende a infinito el
2

( sesgo) 2 tiende a cero ms rpido que la varianza y se considera que el sesgo puede ser
ignorado. Sin embargo, en muchos problemas de Geoestadstica n no es usualmente
grande y por lo tanto no es adecuado el resguardo asinttico.
Es generalmente verdadero que el sesgo de un estimador de variograma basado
en los residuos es pequeo en retardos cercanos al origen pero ms sustancial en
retardos distantes. Cuando un modelo de variograma es ajustado por mnimos cuadrados

75

generalizados o por mnimos cuadrados ponderados automticamente pone ms peso al


estimador en los retardos pequeos, y por lo tanto el efecto del sesgo sera pequeo.
Adems, si el kriging es llevado a cabo en un entorno local, el variograma ajustado es
solamente evaluado en retardos pequeos, precisamente donde el variograma ha sido
bien ajustado. Esto es, en definitiva, el sesgo en el variograma no influira en gran
medida en los valores de las predicciones.
La estimacin de la varianza del kriging es la ms propicia para ser afectada por
el sesgo en el estimador del variograma. Por simplicidad, supngase que el variograma
tenga una meseta, esto es lim 2 (h) = 2 2 .
h

W W
. Segn los resultados de
n p 1
Cressie (1990), bajo el supuesto que el covariograma es positivo, el sesgo de $ 2 es
2
O(1 n) y negativo, y como la varianza del kriging k es directamente proporcional a
Un estimador de 2 comnmente usado es $ 2 =

2 , se obtiene usualmente una estimacin sesgada de k 2 .


Los resultados de Cressie y Grondona (1992) reafirman que el sesgo de la estimacin
del variograma es importante para n pequeo y h (retardo) grande. Adems concluyen
que la presencia de sesgo es causada por los contrastes lineales en los residuos R (o W).
En conclusin, aunque el predictor de kriging universal puede ser poco influenciando
por el sesgo, existe evidencia tanto experimental como terica que la varianza del
kriging estimada puede ser ms pequea que lo que debera ser.

6.3 Kriging mediana polish.


Los datos espaciales se pueden pensar como un muestreo parcial de una
realizacin de un proceso aleatorio {Z(s): s D}. Adems el proceso Z se lo modela de
acuerdo a la descomposicin (6.1.1)
Z(s) = (s) + (s)
(6.3.1)
donde () E ( Z ()) es la estructura de medias y () es la estructura del error. En la
realidad () no es conocida y una de las formas de modelarla ya fue presentada en los
apartados anteriores. En los espacios de dimensin dos o ms, es natural suponer que
() se descompone aditivamente en componentes direccionales. Por ejemplo en R2,

( s) = a + c ( x ) + r ( y )

s D R 2
(6.3.2)
Adems, si { s i : i =1,2,K , n} estn ubicados sobre una grilla de p filas y q columnas:

{( x l , y k ) : k = 1,K , p; l = 1,K , q}

Entonces, por simplicidad (6.3.2) se puede expresar como:

(s i ) = a + rk + cl donde s i = ( x l , y k )

(6.3.3)
El efecto fila rk puede ser estimado mediante la replicacin en la otra dimensin;
es decir, rk puede ser estimado desde:

{Z (s i ): la segunda coordenada de s i sea

y k ; i = 1,K , n} donde k = 1,K , p .


En forma similar se puede estimar el efecto columna cl , l = 1,K , q .

76

Datos grillados.
Los datos espaciales grillados en R2 pueden ser considerados como una tabla de
doble entrada (o de ms vas en Rd). Es importante tener en cuenta que los espaciados en
ambas direcciones, horizontal y vertical, no tienen porque ser iguales. Miller y Kahn
(1962) propusieron un anlisis de la varianza formal de dos vas para testar la no
estacionariedad a travs de las filas y a travs de las columnas mediante el uso del
estadstico F. Desafortunadamente, los tests basados en valores crticos obtenidos de
una tabla F son incorrectos porque los datos son correlacionados.
Datos no grillados.
Para tratar con datos no grillados se realiza el trazado de un mapa de baja
resolucin de las ubicaciones espaciales. La resolucin de las coordenadas espaciales es
elegida a menudo en una manera ad hoc de modo que cada combinacin ( x l , y k ) tenga
aproximadamente una observacin Z ( x l , y k ) en ( x l , y k ) .
En la prctica, esto se hace por la superposicin de una grilla sobre el mapa de
alta resolucin y asignando a las ubicaciones {s i : i = 1,K , n} de los datos a los nodos

ms cercanos de la grilla {( x l , y k ) : k = 1,K , p ; l = 1,K q} . De acuerdo a esta


resolucin, Z (s i ) es escrito como Z ( x l , y k ) . Entonces, se aplica el mtodo de la

mediana polish al conjunto de datos {Z ( x l , y k )} , pero antes se debe elegir la resolucin


y la orientacin de la grilla.

Anlisis por las medias.


Bajo el supuesto de una observacin en cada nodo de una grilla, los estimadores
mnimos cuadrados ordinarios de las componentes aditivas de () son:
n

a$ =

Z (s )
i

i =1

Z (s )
i

r$k =

N ( yk )

c$l =

M ( xl )

a$

k = 1,K , p

a$

l = 1,K , q

Z (s )
i

N ( y k ) {i : s i = ( , y k ) ; i = 1,K , n }

(6.3.4)

M ( x l ) {i : s i = ( x l , ) ; i = 1,K , n }

Y el estimador mnimo cuadrados ordinarios de (s i ) es:


$ (s i ) = a$ + r$k + c$l donde s i = ( x l , y k )
(6.3.5)
Para s = ( x , y ) ubicados en la regin acotada por las lneas que unen los cuatros
nodos, ( x l , y k ) , ( x l +1 , y k ) , ( x l , y k +1 ) , y ( x l +1 , y k +1 ) , donde x l < x l +1 y y k < y k +1 se
define el interpolador plano (6.3.6):
y yk
x xl
$ (s) a$ + r$k +
(r$k +1 r$k ) + c$l +
(c$l +1 c$l ) k = 1,K, p 1; l = 1,K, q 1
yk +1 yk
xl +1 xl
Este estimador es no paramtrico, porque por ejemplo no se ha impuesto forma
de tendencia lineal o cuadrtica, y presenta una desventaja que consiste en que los

77

residuos

{Z (s i ) $ (si ): i = 1,K, n} permiten

estimadores sesgados de la dependencia

espacial desconocida del proceso del error () .


El enfoque tomado en esta seccin consiste de dos etapas. Primero, la estructura
de la media es estimada y removida. Entonces, la estructura de la dependencia espacial
es estimada. El procedimiento podra repetirse, en donde una estimacin ms eficiente
de la estructura de la media es obtenida la segunda vez, basada en la estimacin de la
dependencia espacial en la primera vez. En efecto, las dos etapas podran ser iteradas
hasta que existan pocos cambios en los resultados.
A los efectos de evitar el problema del sesgo en los estimadores de la
dependencia espacial, se propusieron estimadores no lineales de a, { rk } y { cl }.
Cuando la distribucin del proceso del error es simtrica, entonces
E ( promedio{Z (s i ): i A}) = E (mediana{Z (s i ): i A}) .
Adems la mediana de un conjunto de datos tiene la propiedad de ser resistente a
los outliers. Como los datos generalmente son transformados para que su distribucin
sea aproximadamente simtrica, (Cressie, 1985), las medianas anlogas a las medias
aritmticas de (6.3.4) pueden permitir residuos menos sesgados, en el sentido que los
estimadores de la dependencia espacial desconocida del proceso del error sean menos
sesgados. Este algoritmo es denominado de la mediana polish.
6.3.1 Mediana polish.
A travs de un ejemplo se presentar el algoritmo de la mediana polish. Bajo el
supuesto natural que () se descompone aditivamente en componentes direccionales,
este algoritmo produce el efecto mediano total a~ , los efectos medianos fila
{ r~k : k = 1,K , p} y los efectos medianos columnas { c~l : l = 1,K , q} desde un arreglo de
nmeros de tamao p x q {Ykl : k = 1,K , p; l = 1,K , q } .
En el contexto espacial, los datos grillados { Z (s i ): i = 1,2,K , n} juegan el papel
de las Y.
Ejemplo: Se desea aplicar el algoritmo de la mediana polish a los datos grillados que se
presentan en la siguiente tabla:
8
9
11
13
7

3
11
8
4
2

6
12
4
7
3

6
7
2
6
5

5
3
3
1
0

Etapa inicial o etapa 0.


Para iniciar el algoritmo, a las 25 celdas se le agregarn 11 celdas con ceros, es decir se
aadir una fila y una columna de ceros.
8
9
11
13
7
0

3
11
8
4
2
0

6
12
4
7
3
0

78

6
7
2
6
5
0

5
3
3
1
0
0

0
0
0
0
0
0

A los efectos de la explicacin se agregar otra fila y otra columna. En la ltima


columna se cargan las medianas de cada fila.
8
9
11
13
7
0

3
11
8
4
2
0

6
12
4
7
3
0

6
7
2
6
5
0

5
3
3
1
0
0

0
0
0
0
0
0

6
9
4
6
3
0

Etapa 1: a cada fila se le resta la mediana de la de la etapa anterior a los datos y se


acumulan las medianas en la penltima columna.
2
0
7
7
4
0

-3
2
4
-2
-1
0

0
3
0
1
0
0

0
-2
-2
0
2
0

-1
-6
-1
-5
-3
0

6
9
4
6
3
0

Como en la prxima etapa se necesitan las medianas por las columnas, se las agrega en
la ltima fila.
2
0
7
7
4
0
4

-3
2
4
-2
-1
0
-1

0
3
0
1
0
0
0

0
-2
-2
0
2
0
0

-1
-6
-1
-5
-3
0
-1

6
9
4
6
3
0
6

Obsrvese que el nmero 6 de la ltima celda de la ltima fila no es ms que la mediana


de las medianas por fila.
Etapa 2: se remueve las medianas por columnas de la etapa anterior desde los datos y se
acumulan en la penltima fila.
-2 -2 0 0 0 0
-4 3 3 -2 -5 3
3 5 0 -2 0 -2
3 -1 1 0 -4 0
0 0 0 2 -2 -3
4 -1 0 0 -1 6

Como en la prxima etapa se necesitan las medianas de los datos por las filas, se las
agrega en la ltima columna.

79

-2
-4
3
3
0
4

-2
3
5
-1
0
-1

0
3
0
1
0
0

0
-2
-2
0
2
0

0
-5
0
-4
-2
-1

0
3
-2
0
-3
6

0
-2
0
0
0
0

Etapa 3: se procede al igual que en la etapa 1, es decir se remueve las medianas por
filas de la etapa anterior desde los datos y se acumulan en la penltima columna.
-2
-2
3
3
0
4

-2
5
5
-1
0
-1

0
5
0
1
0
0

0
0
-2
0
2
0

0
-3
0
-4
-2
-1

0
1
-2
0
-3
6

Como en la prxima etapa se necesitan las medianas por las columnas, se las agrega en
la ltima fila.
-2 -2 0 0 0 0
-2 5 5 0 -3 1
3 5 0 -2 0 -2
3 -1 1 0 -4 0
0 0 0 2 -2 -3
4 -1 0 0 -1 6
0 0 0 0 -2 0
Etapa 4: se procede al igual que en la etapa 2, obtenindose la siguiente tabla:
-2
-2
3
3
0
4

-2
5
5
-1
0
-1

0
5
0
1
0
0

0
0
-2
0
2
0

2
-1
2
-2
0
-3

0
1
-2
0
-3
6

0
0
-4
0
2
0
0

2
-1
0
-2
0
-3
0

0
1
0
0
-3
6
0

Etapa 5: se procede al igual que en la etapa 3.


-2
-2
1
3
0
4
0

-2
5
3
-1
0
-1
0

0
5
-2
1
0
0
0

80

0
0
2
0
0
0

En este ejemplo el mtodo iterativo converge, puesto que la prxima tabla no se


modificar ya que se debern desagregar ceros y agregar ceros segn corresponda. La
tabla original 5x5 es reemplazada por una tabla 5x5 de residuos, ms el efecto mediano
total que se encuentra en la celda (6,6), ms los efectos filas medianos ubicados en la
columna 6 y los efectos columnas medianos que se encuentran ubicados en la fila 6.
En general, el algoritmo Mediana polish es el siguiente:
Para i =1,3,5, ..., se define

{
+ med {Y

}
: l = 1,K , q}

Ykl( i ) Ykl(i 1) med Ykl( i 1) : l = 1,K , q


Yk(,iq) +1 Yk(,iq+11)

( i 1)
kl

k = 1,K , p + 1 l = 1,K , q
k = 1,K , p + 1

(6.3.7)

Para i =2,4,6, ..., se define

{
+ med {Y

}
: k = 1,K , p}

Ykl(i ) Ykl(i 1) med Ykl( i 1) : k = 1,K , p


Yp(+i )1, l Yp(+i 11, l)

( i 1)
kl

k = 1,K , p l = 1,K , q + 1
l = 1,K , q + 1

(6.3.8)

donde med { y1 , y 2 ,K , y n } es la mediana de { y1 , y 2 ,K , y n } .


Para iniciar el algoritmo se supone que
Ykl k = 1,K , p l = 1,K , q

( 0)
Ykl =
0 en otro caso

Es decir se inicia con las pxq celdas correspondientes a los datos a los que se les
agregan p+q+1 celdas con ceros. Se usa (6.3.6) para remover las medianas por filas
desde los datos y acumular las cantidades removidas en las p celdas filas extras (que
forman la columna q + 1). De la misma manera en las columnas de la tabla, removiendo
las medianas por columnas desde no solo los datos sino tambin de la columna de las
remociones acumuladas de las filas. Esta ltima cantidad removida es la entrada de la
celda extra (p+1, q+1). Este proceso se debe repetir hasta lograr convergencia.
Suponindose convergencia, los efectos estimados son
a~ Yp(+1), q +1
r~ Y ( )

k = 1,K , p

c~l Yp(+1), l

l = 1,K , q

k , q +1

(6.3.9)

con la propiedad que


Ykl = a~ + r~k + c~l + Ykl( )

(6.3.10)

Esto es, la tabla original p x q es reemplazada por la tabla p x q de residuos


{Y : k = 1,K , p ; l = 1,K q } , y las p+q+1 celdas extras contienen los efectos
medianos por filas { r~k : k = 1,K , p} , los efectos medianos por columnas
{ c~l : l = 1,K , q} y el efecto mediano total.
()
kl

81

6.3.2 Superficie mediana polish.


En un contexto espacial Z se puede expresar como
Z (s i ) = a~ + r~k + c~l + R (s i )

si = ( xl , y k )

(6.3.11)

~ (s ) a~ + r~ + c~ es un estimador flexible de la superficie media que es


Donde
i
k
l
resistente a los outliers.
Para los pares ordenados que representan posicin: s = ( x , y ) ubicados en la
regin acotada por las lneas que unen los cuatros nodos,
( x l , y k ) , ( x l +1 , y k ) , ( x l , y k +1 ) , y ( x l +1 , y k +1 ) ,
donde x l < x l +1 y y k < y k +1 se define el interpolador plano (6.3.12):

y y k
y k +1 y k

~(s)a~ +r~k +

~ ~ ~ x xl
(rk +1 rk )+cl +

xl +1 xl

~ ~
(cl +1 cl )

k = 1,K, p 1;

l = 1,K, q 1
Tambin es posible extrapolar ms all de la grilla de observaciones. Supngase
que x < x1 pero y1 y k y y k +1 y p entonces, para s = ( x , y ) se define
y yk ~
x x1 ~ ~
( rk +1 r~k ) + c~1 +
( c2 c1 )
y k +1 y k
x 2 x1

~ (s) a~ + r~ +

k = 1,K , p 1

Una frmula similar se obtiene cuando y est fuera de rango o cuando ambas x y
y lo estn. Por lo tanto, a travs de la interpolacin y la extrapolacin se define la
~ (s)): s R 2 para todo el plano.
superficie mediana polish (s ,

Observaciones.
Si en cada nodo de la grilla el nmero de observaciones es distinto, la nica
modificacin necesaria es notacional. El algoritmo no se altera en su esencia,
sucesivamente remueve las medianas de las filas y las medianas de las columnas
desde las entradas de la tabla. Si una fila (columna) entera de nodos de la grilla no
tiene observaciones, entonces la fila (columna) es ignorada.
El algoritmo se inicia con la remocin por las filas, pero sin problema alguno el
proceso podra iniciarse por las columnas.
En la prctica, se necesita un criterio para detener el algoritmo; por ejemplo, cuando
otra iteracin deja inalterable cada entrada de la tabla dentro de una tolerancia
preestablecida, la mediana polish termina y el algoritmo se dice que converge.
6.3.3 Kriging basado en los residuos de la mediana polish.
Los residuos { R (s i ): i =1,K , n } obtenidos mediante mediana polish se piensan
como un nuevo conjunto de datos espaciales, a los cuales se les aplica kriging ordinario.
Modelo supuesto
R(s) (s) s D.
El proceso (s) es tal que E((s)) = 0 para todo s.
El proceso R(.) tiene variograma 2(h) = Var (R( s + h) R(s ))

82

Predictor supuesto
R$ (s 0 ) =

R( s i ) con

i =1

=1

i =1

Esta ltima condicin sobre los coeficientes del predictor lineal garantiza insesgadez
uniforme.
El vector de coeficientes *nx1 ( *1 ,K , *n ) esta dado por (5.3.9).
El kriging basado en los residuos se comporta como una proxi para el kriging
basado en los errores desconocidos { (s i ): i = 1 ,K , n } .
~ (s ) puede ser extendida para s R 2 y el
Como la estimacin mediana polish
0

kriging basado en los residuos permite R$ (s 0 ) para todo s 0 R 2 . De esta manera, el


predictor kriging mediana polish de Z(s0) es definido como
~
~ (s ) + R$ (s )
Z (s 0 )
s0 R 2
(6.3.13)
0
0
~
~
Ntese que Z () es un interpolador exacto; esto es, Z (s i ) = Z (s i ) i = 1,K , n .
~
La varianza del kriging asociado con el predictor kriging mediana polish Z (s 0 )
es definida como la varianza del kriging ordinario basados en los residuos obtenidos con
la mediana polish. Se la simboliza como 2m (s 0 ) y su expresin es
n

2m (s 0 ) i (s 0 s i ) + m

(6.3.14)

i =1

El procedimiento para el caso de que los datos no estn grillados es el siguiente:


Primero se define la grilla de baja resolucin, luego se aplica el mtodo de la mediana
polish para extraer la tendencia, y por ltimo los residuos son pensados como un nuevo
conjunto para realizar el kriging.
Para el caso grillado vale la propiedad de interpolacin exacta, Z~ (s i )=Z (s i ),
i = 1K
, , n . En el caso no grillado, la preservacin de esta propiedad es considerada
importante.

83

CAPITULO 7: APLICACIN A LA HIDROGEOLOGA,


"ACUIFERO DE TUCSON
En este captulo y en el siguiente se presentarn problemas que involucran datos
espaciales provenientes del campo de investigacin de la Hidrogeologa, cuyo
tratamiento requiere de las herramientas que han sido presentadas a lo largo de los
captulos anteriores. Se trabajar con datos correspondientes a variables geoqumicas de
aguas subterrneas.
En esta primera parte se trabaj con un conjunto de datos obtenidos en Internet
de la pgina http:/www.u.arizona.edu/. De acuerdo a la informacin suministrada en
dicho sitio, provienen de la tesis de Hidrologa UA MS 19886, con la cual se pretendi
caracterizar el acufero de Tucson. En el captulo 8 se trabajar con datos del sistema
acufero de La Caldera.
En una primera seccin se analizan los datos en forma descriptiva. En la
segunda, se realiza el anlisis estructural, como en todo estudio geoestadstico esta etapa
juega un papel preponderante. En la tercera seccin se realiza el kriging. Como en la
mayora de los trabajos con variables hidrogeolgicas se transforman las variables, ms
precisamente se trabaja con el logaritmo de las mismas, en la cuarta seccin se presenta
un estudio considerando la transformacin de la variable de inters. En la ltima seccin
se comparan los resultados obtenidos.

7.1 Anlisis descriptivo de los datos.


Se dispone de valores de las variables; concentracin de: Calcio, Magnesio,
Sodio, Potasio, HCO3, SO4, Cloro y NO4. Como as tambin los valores de las
coordenadas Este y Norte de 114 lugares donde se midieron las variables de inters.
La Figura 7.1 muestra las ubicaciones donde fueron tomadas las 114
observaciones. La distribucin de las coordenadas define aproximadamente un
rectngulo de 10.8 pies en la direccin oeste - este por 5.7 pies en la direccin sur
norte. Las ubicaciones de las observaciones estn irregularmente espaciadas, aunque
existen algunos claros y grupos, destacndose los claros en la zona del vrtice superior
izquierdo, en la zona del vrtice inferior derecho y en la zona del vrtice superior
derecho.

Figura 7.1: Posiciones de los datos correspondientes al estudio del acufero de Tucson.

84

De todas las variables qumicas disponibles se analizar el comportamiento de la


variable concentracin de Calcio en la regin de inters. Las medidas de la misma en
p.p.m. se presentan con sus respectivas posiciones en la Figura 7.2.

1.85

1.22
1.45
2.87

0.93
0.79
0.95
2.15
0.8
1.84
0.55
0.3
7.53

5
2.5511.46
1.98

1.32

2.5
1.8
2

1.5
0.51
0.45
0.340.48
0.640.76
0.34

3.19

1.91
2.54

2.2
1.72
1.5
1.65
1.68
1.08 0.54
3.21
1.81 1.77 2.21
1.96
3.34
3.19
1.23
3.69 2.6
3.74 2.99
2.99 1.31
1.9
0.85
0.94
2.253.3
0.851.21
3.99
1.1
2.2
2.59
0.88
1.36
0.55
1.83
1.39
2.4 2.2
0.650.51
0.870.58
1.7
1.39
0.79
0.8 1.55
1.43
1.72
1.5 2.54
1.15 1.12
2.02
2.291.34
2.04
1.08
1.9
0.94
2.2 0.79 2.45
1.85
1.3
0.88
1.07
1.12
1.25
3.08
1.11
0.6
1.47
2.28
2.42
1.19

0.63

0.55
3.09
1.59

2.15
0.74

10

Figura 7.2: Medidas de calcio en sus respectivas posiciones correspondientes al estudio del acufero de
Tucson.

En el mapa de los datos se observa en rojo los puntos de coordenadas


aproximadas (4.5, 5.5) y (5.0, 4.8) donde la variable presenta valores alejados con
respecto a los otros. Esto queda evidenciado a travs del scatter plot tridimensional,
como el presentado en la Figura 7.3.
3D Scatterplot (Tucwate.STA 10v*114c)

Figura 7.3: Scatter -plot para las medidas de la variable calcio.

85

En la Figura 7.4 se observa que la distribucin de la concentracin de Calcio


observada es asimtrica y presenta valores muy alejados 7.53 y 11.46, los cuales
coinciden con los anteriormente observados.

10

15

CALCIO
Figura7.4: Box-Plot para el contenido de Calcio.

En la figura 7.5 se representa el post plot para la cantidad de calcio en cada


observacin. Con el tringulo y el color celeste se representan los valores
correspondientes a los valores menores o iguales al primer cuartil, o sea a 0.93. Con la
estrella y el color verde se representan los valores comprendidos entre 0.93 y el valor
mediano 1.5. Con el diamante y el color azul se representan los valores comprendidos
entre 1.5 y el tercer cuartil 2.2 y con cuadrados rojos a los valores mayores que el tercer
cuartil.

norte
6
5
4
3
2
1
este
2

10

Figura 7.5: Post Plot para la variable calcio.

Si bien todos los valores estn dispersos en la regin, los menores se presentan
casi todos por debajo de la coordenada 3 del Norte. Los valores de cada categora
determinada por los cuartiles tienden a alinearse de alguna manera. La mayora de los
valores ms grandes se encuentran entre las coordenadas 4 y 7 del Este.

86

7.1.1 Otras herramientas exploratorias.


Los scatter plot de la variable de inters versus cada una de las variables que
definen la posicin de los puntos, mostrados en la Figura 7.6, sealan que no se presenta
tendencia en los valores de la variable calcio ni en la direccin Oeste-Este ni en la
direccin Sur-Norte.

15

10

10

CALCIO

CALCIO

15

0
0

6
ESTE

10

0
0

12

a)

3
4
NORTE

b)

Figura 7.6: Diagrama de puntos de: a) calcio vs. Coordenada este.


b) calcio vs. Coordenada norte.

A los efectos de detectar posibles tendencias y calcular el estadstico u se


procede a calcular medias y medianas por filas y columnas. Con franjas de amplitud 0.2
se definieron las filas en la direccin Sur - Norte y las columnas en la direccin Oeste Este.
La Figura 7.7 es un intento de resumir la posible no estacionariedad en la media
a lo largo de filas y columnas, es decir en las direcciones oeste- este y sur- norte, usando
la media muestral y la mediana muestral a lo largo de las filas y las columnas
respectivamente.

a)

b)

Figura 7.7: En ambas figuras con azul se representan los valores de la media y con rojo los valores de la
mediana de los valores de contenido de calcio. a) Segn columnas.
b) Segn filas.

Cuando slo se presenta el color rojo por banda es porque en aquellos puntos se
superponen media y mediana. Adems, se observa que no existe ninguna tendencia en
los valores medios y medianos a travs de las columnas ni de las filas.

87

En las tablas 7.1 y 7.2 se presentan las diferencias estandarizadas, para los
valores que estamos tratando, es decir los valores del estadstico u presentados en la
seccin 2.2.3.

Tabla 7.1: Valores del estadstico u segn columnas. Tabla 7.2: Valores del estadstico u segn filas.

88

En la tabla 7.1 el valor del estadstico u seala que en las columnas


correspondientes a los valores medios 4.894 y 6.14 de la variable este, la variable en
estudio podra presentar outliers. As para la primer columna sospechosa, el valor es
Calcio(4.86, 4.77)= 11.46 p.p.m.(ver Figura 7.5), es decir en esta franja se ubica uno de
los outliers ya detectado anteriormente.
A la lista de valores alejados se le agrega Calcio(6.23, 2.83)= 3.69 p.p.m.
aportado por la franja cuyo valor medio de este es 6.14. Este es un valor alejado con
respecto a los valores de la franja cuyas ubicaciones tienen las siguientes caractersticas:
estemedia

6.14

este
6.05
6.1
6.11
6.21
6.23

norte
0.8
1.67
2.34
2.11
2.83

calcio
1.21
1.15
1.1
0.65
3.69

El efecto del otro valor alejado detectado anteriormente sobre el valor del
estadstico u qued neutralizado por la composicin de la franja correspondiente a un
valor medio de este igual a 4.325.
En la tabla 7.2 se presentan los valores de u correspondientes a las filas. El valor
de u=2.79486 es producto de la franja cuya coordenada norte media es 1.05, sta recibe
el aporte de 5 valores. El nuevo valor alejado espacial es Calcio(3.95, 1.05)= 3.08 que
es ms grande que el tercer cuartil: 2.2, mientras los otros valores son menores que la
mediana: 1.5 (las medidas de posicin son las correspondientes al conjunto total de
datos).
En la franja cuya coordenada norte media es 4.5175 el valor Calcio(4.85, 4.59)=
1.98 es ms grande que la mediana y los tres valores restantes son inferiores al primer
cuartil: 0.93.
El valor alejado Calcio(4.86, 4.77)= 11.46 es detectado por la franja cuya
coordenada norte media es 4.69. En cambio Calcio(4.29, 5.4)= 7.53 es neutralizado por
los otros dos valores que determinan la franja con coordenada norte media: 5.49667.

7.2 Anlisis Estructural.


7.2.1 Estimacin del variograma.
En este apartado, se intenta sobre la base de los datos disponibles determinar la
estructura de correlacin espacial del proceso aleatorio Z(x): contenido de calcio.
Bajo el supuesto que el proceso Z(x) es intrnsecamente aleatorio, la funcin
semivariograma (h) cuantifica dicha estructura. A partir de una realizacin se debe
estimar el semivariograma.
Con el programa Vario que forma parte del Geoeas se genera el semivariograma
experimental omnidireccional, el cual permite utilizar todos los pares de datos
independientemente de la direccin. Se considera la direccin de 0 y una tolerancia
angular de 90 y para completar la definicin de los intervalos planos las siguientes
condiciones para las distancias: Mnimo =0, Mximo = 11.156. Es decir se toma en
cuenta la mxima distancia entre los puntos, y el incremento se fija en 0.561, de esta
manera se generan 20 intervalos de distancia. En la figura 7.8 se presenta el
semivariograma experimental omnidireccional correspondiente.
89

Figura 7.8: Semivariograma experimental omnidireccional.

En la figura 7.9 se presenta el mismo semivariograma, en a) se conectaron los


puntos del semivariograma a los efectos de la visualizacin, y en b) se indican la
cantidad de pares de valores que intervinieron para el clculo del semivariograma
correspondiente al valor medio de los valores de separacin que definen el intervalo
plano. As se observa que a partir del retardo 14 la cantidad de pares disminuye en
forma rpida pasando desde 64 hasta llegar al valor 4 que es la cantidad de pares que
aportan al valor del semivariograma 1.694 correspondiente a una distancia promedio de
10.945.

Figura 7.9: Semivariograma experimental omnidireccional.

Para observar que las elecciones de los intervalos de distancias no influyen en la


forma del semivariograma muestral se realizan sucesivos grficos con distintas
longitudes de los intervalos de distancia como el presentado en la figura 7.10.
Resultados comparables se obtienen si se trabaja con el programa Variowin, para
la obtencin del semivariograma emprico. Dichos resultados no son iguales debido a la
manera diferente de considerar la construccin de los intervalos de distancia. La figura
7.11 muestra un semivariograma emprico generado por este programa.

90

Figura 7.10: Semivariograma experimental omnidireccional, con las siguientes condiciones para las
distancias: Mnimo =0, Mximo= 11.156, y el incremento se fija en 1.2.

Figura 7.11: Semivariograma experimental omnidireccional generado con Variowin, con las
siguientes condiciones para las distancias:10 intervalos de amplitud 1.12 ms el intervalo
coorespondiente al retardo 0 de amplitud de 0.56.

En esta ltima figura se observa que la cantidad de pares de valores que


intervinieron para el clculo del semivariograma en los distintos retardos es
aproximadamente el doble que el que utiliza el otro programa. Este es por la manera de
la eleccin de los intervalos de retardo, y porque Variowin usa los datos en forma doble
para los clculos.
Una regla emprica afirma que los variogramas no son generalmente vlidos ms
all de la mitad de la mxima distancia entre muestras (en esta situacin 11.156). Esto y
lo observado en la figura 7.9 b); en cuanto a la confianza de los valores dado por la
cantidad de pares que intervienen en el clculo del semivariograma emprico. Se
considera la direccin de 0 y una tolerancia angular de 90 y para completar la
definicin de los intervalos planos las siguientes condiciones para las distancias:
91

Mnimo = 0, Mximo = 7.4, y el incremento se fija en 0.561. As se tiene 13 clases de


distancias iguales.

Figura 7.12: Ssemivariograma experimental omnidireccional, con las siguientes condiciones para las
distancias: Mnimo =0, Mximo= 7, y el incremento se fija en 0.561.

A los efectos de comparar ms adelante los ajustes de los semivariograma


empricos a semivarigramas tericos realizados con ambos programas, se considera la
generacin de los intervalos de distancia de la misma manera en ambos programas.

Figura 7.13: Semivariogramas experimentales, los de la derecha fueron generados por el Geoeas y los de
la izquierda por el Variowin.

En la Figura 7.13, en la primera fila, los intervalos de distancia se generan con


centro en 1.12 k con k=0,1,2,3,4,5,6 y radio 0.56. En la segunda fila, intervalos con
centro en 0.86 k con k=0,1,2,3,4,5,6 ,7,8 y radio 0.43.
7.2.2 Ajuste a modelos de semivariogramas.
La idea es buscar un semivariograma vlido que represente ms ajustadamente a
la dependencia espacial presente en los datos: Z = (Z(s1), ..., Z(sn) ). El espacio de
92

todos los semivariogramas vlidos es un gran conjunto, usualmente se elige una familia
paramtrica de semivariogramas. Para la variable Calcio de acuerdo a las publicaciones
y a la forma de los semivariogramas empricos se elige la familia de semivariogramas
esfricos.
Modelando con el Geoeas y el Variowin.
Con el programa Geoeas se realiza un ajuste a sentimiento. El cual no garantiza
un modelo de variograma nico ya que se basa en apreciaciones subjetivas y en la
experiencia del usuario. Luego a travs de la validacin cruzada se trata de determinar
la calidad y el grado de fiabilidad del modelo ajustado. No se debe intentar ajustar los
mnimos detalles ya que en general stos no son una caracterstica del verdadero
semivariograma sino ms bien fluctuaciones muestrales.
El valor del efecto pepita puede ser obtenido extrapolando los primeros puntos
del semivariograma muestral hasta cortar el eje de ordenadas.
Modelo 1.
Por ensayo de prueba y error se ajusta el modelo esfrico:

0
si
h= 0

3
3 h 1 h

(h;
)= c0 + ce
si 0 < h a e
Donde el vector de parmetros:
2
a
2 ae

= (c0 , c e , a e )' = (0.9, 0.9, 2 )'

c
+
c
si
h

a
0
e
e

Figura 7.14: Ajuste del semivariograma esfrico (lnea slida) al semivariograma omnidireccional
experimental.

En la figura 7.14 se muestra dicho ajuste. Es decir se ajusta un modelo esfrico


isotrpico con un efecto pepita igual a 0.9, y una meseta de 1.8 para un alcance de 2.
A los efectos de determinar la calidad y el grado de fiabilidad del modelo
ajustado se realizar la validacin cruzada (ver captulo 4). As se considera un nuevo
conjunto de datos: las diferencias entre las predicciones y los valores actuales
correspondientes; es decir los residuos de la prediccin.

93

La Figura 7.15 muestra el mapa de los residuos de la prediccin cuando se


realiza el ajuste antes mencionado. Se observa en la misma que se producen grandes
residuos (los smbolos son proporcionales a los residuos) cuando se predicen los valores
extremos 7.53 y 11.46. Otros residuos grandes pero de menor magnitud se presentan
cuando la prediccin (kriging) es realizada en zonas donde la informacin es escasa.

Figura 7.15: Mapa de los residuos de prediccin cuando se ajusta el modelo 1.

Scatterplot with Box Plot (ajuste12345.STA 23v*114c)

Scatterplot with Box Plot (ajuste12345.STA 23v*114c)

2
0
RESIDUO1

CALCIOE1

5
4
3
2

-2
-4
-6
-8

-10
-12

0
0

10

12

14

CALCIOE1

CALCIO

Figura 7. 16: a) Scatter plot de los valores de la variable calcio vs. los valores predichos.
b) Scatter plot de los valores de los residuos de prediccin vs. los valores predichos.

En la Figura 7.16 a) se observa la influencia de los valores alejados de la


variable Calcio, los cuales son predichos por valores pequeos en comparacin a sus
valores actuales. Pero hay otros valores que son predichos por valores ms grandes que
los valores actuales. Se esperara que los puntos se distribuyan alrededor de la recta
y = x , y estn muy prximos a ella.

94

En la Figura 7.16 b) se observa una leve tendencia lineal entre los residuos de
prediccin y los valores predichos, dicha estructura es consecuencia de la existencia de
valores alejados.
En la validacin cruzada la herramienta de diagnstico usual del ajuste es el
estudio de la distribucin de los residuos de prediccin estandarizados. La Figura 7.17
muestra la distribucin de los residuos (RESIDUO1) y los residuos de prediccin
estandarizados (RESEST1).
Box Plot (ajuste12345.STA 23v*114c)

RESEST1

RESIDUO1

-12

-10

-8

-6

-4

-2

Non-Outlier Max
Non-Outlier Min
Median; 75%
25%
Outliers
Extremes
Outliers
Extremes

Figura 7.17: Box plot de los residuos de prediccin y de los residuos de prediccin estandarizados para
el ajuste1.

La media de los residuos de prediccin estandarizados es 0.012 con un desvo


estndar de 1.15 y la mediana es de 0.2.
Por otro lado ajustando el modelo 1 propuesto con el programa Model de
Variowin da un ndice de ajuste del 0.13249. Este ndice de ajuste es una propuesta de
Pannatier (1996) para medir el grado de ajuste a travs de una cantidad en vez del ajuste
a sentimiento.
Modelo 2.
Con el programa Model de Variowin se ajusta el semivariograma emprico a un
modelo esfrico que produce el mejor valor del ndice de ajuste propuesto en dicho
programa. El valor del indicador es 0.058295.
En la figura 7.18 se muestra dicho ajuste. El modelo es esfrico isotrpico con un efecto
pepita igual a 0.6, y una meseta de 1.95 para un alcance de 1.

Figura 7.18: Ajuste del modelo 2 (lnea


slida) al semivariograma omnidireccional
experimental.

95

A los efectos de comparar los modelos se trabaja con el programa XVALID del
GEOEAS para realizar la validacin cruzada.
La Figura 7.19 muestra el mapa de los residuos de la prediccin cuando se
realiza el ajuste del modelo 2. Al igual que al trabajar con el modelo 1 se observa en la
misma que se producen grandes residuos cuando se predicen los valores extremos 7.53
y 11.46. Otros residuos grandes pero de menor magnitud se presentan cuando la
prediccin (kriging) es realizada en zonas donde la informacin es escasa.

Figura 7.19: Mapa de los residuos de prediccin cuando se ajusta el modelo 2.

La Figura 7.20 muestra los box plots de los residuos (RESIDUO3) y de los
residuos estandarizados (RESEST3) de prediccin cuando se ajusta el modelo 2.
La media de los residuos de prediccin estandarizados es 0.011 con un desvo
estndar de 1.16 y la mediana es de 0.18.
Box Plot (ajuste12345.STA 23v*114c)

RESEST3

RESIDUO3

-12

-10

-8

-6

-4

-2

Non-Outlier Max
Non-Outlier Min
Median; 75%
25%
Outliers
Extremes
Outliers
Extremes

Figura 7.20: Box plot de los residuos de prediccin y de los residuos de prediccin estandarizados para
el ajuste 2.

96

Modelo 3.
En general el ajuste del modelo al semivariograma muestral puede mejorarse
considerando modelos compuesto del tipo: (h) = i (h) donde cada uno de los
i

sumandos son modelos bsicos (exponencial, esfrico, etc.).


Una propuesta de este tipo es considerar la suma de un efecto pepita de 0.6, el
modelo esfrico de meseta 0.8 para un alcance de 2 y el modelo esfrico de meseta 0.6
para un alcance de 4.

Figura 7.21: Ajuste del modelo3 (lnea slida) al semivariograma omnidireccional experimental.

La Figura 7.22 muestra el mapa de los residuos de la prediccin cuando se


realiza el ajuste del modelo3.

Figura 7. 22: Mapa de los residuos de prediccin cuando se ajusta el modelo 3.

La Figura 7.23 muestra los box plots de los residuos (RESIDUO4) y de los
residuos estandarizados (RESEST4) de prediccin cuando se ajusta el modelo 3. La
media de los residuos de prediccin estandarizados es 0.048 con un desvo estndar de
1.33 y la mediana es de 0.24.

97

RESEST4

Non-Outlier Max
Non-Outlier Min
Median; 75%
25%
Outliers
Extremes
Outliers
Extremes

RESIDUO4

-12

-10

-8

-6

-4

-2

Figura 7.23: Box plot de los residuos de prediccin y de los residuos de prediccin estandarizados para
el ajuste 3.

El valor del ndice de ajuste proporcionado por el programa Variowin es 0.167.


Comparacin de los modelos.
Estos tres ajustes son ejemplos de los infinitos modelos que se podran ajustar al
semivariograma emprico, por el procedimiento de ajuste a sentimiento o cuantificando
el ndice propuesto por Pannatier en Variowin.
El sentido comn y el conocimiento fsico del fenmeno o de la variable que se
estudia, son esenciales a lo largo de todo el proceso de estimacin del semivariograma.
sta, en conjunto con la experiencia del modelador, es una herramienta fundamental
para la eleccin del semivariograma terico a ajustar.
Los tres modelos ajustados dan resultados similares, como se observa al
comparar los mapas de residuos de prediccin correspondientes y la comparacin de la
distribucin de los residuos estandarizados, que se muestra en la Figura 7.24.

c) RESEST4

b) RESEST3

a) RESEST1

-12

-10

-8

-6

-4

-2

Non-Outlier Max
Non-Outlier Min
Median; 75%
25%
Outliers
Extremes
Outliers
Extremes
Outliers
Extremes

Figura 7.24: Comparacin de las distribuciones de los residuos de prediccin estandarizados para los
tres modelos a) modelo 1, b) modelo 2, c) modelo 3.

Si se tiene en cuenta el ndice de ajuste (0.058) proporcionado por el Variowin el


modelo 2 sera el ms adecuado. Pero este es un modelo demasiado empinado

98

comparado con los otros que alcanzan la meseta en forma ms suave. El modelo 1 es el
ajuste que considero el ms adecuado, porque a falta de informacin precisa acerca del
fenmeno en estudio, la solucin debe ser la ms sencilla posible.
7.2.3 Isotropa.
A esta altura del anlisis estructural, es importante chequear la hiptesis de
isotropa. Se ver a travs de los semivariogramas direccionales si se presenta alguna
tendencia de los valores de la variable a lo largo de alguna direccin particular.
Todos los pares de puntos que intervienen en el clculo del semivariograma
emprico omnidireccional se dividen en cuatro grupos que aportan al clculo de los
cuatro semivariogramas direccionales en las direcciones de 00, 450, 900, y 1350 con una
tolerancia de 22.50. La grfica de estos cuatro semivariogramas direccionales en las
direcciones de 00, 450, 900, y 1350 con una tolerancia de 22.50 se presentan en las
Figuras 7.25 - 7.28 respectivamente

Figura 7.25: Semivariograma direccional 00 con una tolerancia de 22.50. Modelo ajustado: modelo1.

Figura 7.26: Semivariograma direccional 450 con una tolerancia de 22.50. Modelo ajustado: modelo1.

99

Figura 7.27: Semivariograma direccional 900 con una tolerancia de 22.50. Modelo ajustado: modelo1.

Figura 7.28: Semivariograma direccional 1350 con una tolerancia de 22.50. Modelo ajustado: modelo1.

Estos semivariogramas direccionales, como todos los semivariogramas


direccionales, esconden la mayor parte de la forma, distorsionan los valores del efecto
pepita y de la meseta. De esta manera se justifica porque usualmente se modela primero
el semivariograma omnidireccional.
Sin embargo, a partir de estas cuatro figuras, se puede confirmar el supuesto
acerca de la isotropa. Todos los puntos correspondientes a los distintos retardos del
semivariograma emprico en la direccin de 00, a excepcin del segundo, se encuentran
por debajo del modelo 1 ajustado (ver figura 7.25). De esta manera sugiere que en esta
direccin el rango debera ser ms grande. En las direcciones 450 y 1350, el
semivariograma omnidireccional ajustado parece ser adecuado. En la direccin de 900 la
distribucin de los puntos correspondientes a los distintos retardos del semivariograma
emprico, con respecto al modelo1 ajustado, sugiere que el alcance debe ser menor que

100

2. Por lo tanto solo bastara considerar un rango de alcances, que por ensayo y error se
establece entre 1 y 3.
Esta informacin es de utilidad porque cuando se realice la prediccin, es decir
el kriging, se considera que el alcance del modelo de semivariograma direccional
proviene de un patrn elptico.

7. 3 Kriging.
Con el programa Kriging del Geoeas se procede a realizar la prediccin. ste,
produce una grilla regular de puntos predichos, usando las ecuaciones del kriging
ordinario de la seccin 5.3 del captulo 5. La resolucin de dichas ecuaciones permiten
encontrar los pesos correspondientes a los valores de la variable que intervienen en el
promedio ponderado. A los efectos de disminuir el tiempo de computacin las
predicciones puntuales se realizan a partir de los valores muestrales que se encuentran
en una elipse con centro en el punto a predecir, adems se puede especificar la cantidad
mnima y mxima de puntos que intervienen en la prediccin.
El kriging se realiza sobre puntos de una grilla cuyo origen es el punto (0.3, 0.8),
es decir 0.3 de la direccin Este y 0.8 del Norte. La separacin en la direccin Este es de
1 unidad y en la direccin Norte es de 0.5.
Para realizar el kriging es fundamental el conocimiento del semivariograma
vlido, a travs de la etapa de anlisis estructural se decidi que el modelo de
semivariograma vlido es el modelo1 propuesto en la seccin 7.2
A partir de los valores predichos de la variable Calcio en la grilla, distintos
programas posibilitan dibujar las curvas de nivel, es decir las curvas que tienen igual
contenido de calcio. Dichas curvas de nivel se presentan en las Figuras 7.29 y 7.30, la
primera es una salida del programa Conrec (componente del Geoeas) y la segunda es
producida por el Statistica. Ambos grficos, tienen en general la misma distribucin de
las curvas de nivel, claro que el segundo goza de la belleza del color y se notan ms
claramente las referencias.

N
o
r
t
e

Figura 7.29: Curvas de nivel para los valores de kriging de la variable Calcio, producido con el
programa Geoeas.

101

Figura 7.30: Curvas de nivel para los valores de kriging de la variable Calcio, producida con el
programa Statistica.

Para visualizar la incertidumbre de la prediccin se presenta el grfico de las


curvas de nivel para los errores de prediccin en las Figuras 7.31 y 7.32, que muestran
los resultados razonables: los errores de kriging son ms altos en zonas con menor
densidad muestral.

Figura 7.31: Curvas de nivel para los valores de los residuos estandarizados del kriging de la variable
Calcio, producida con el programa Geoeas

Figura 7.32: Curvas de nivel para los valores de los residuos estandarizados del kriging de la variable
Calcio, producida con el programa Statistica.

102

7.4 Logaritmo del contenido de calcio.


7.4.1 Presentacin y anlisis descriptivo de los datos.
En la figura 7.4 se observ que la distribucin del contenido de calcio es
asimtrica. Si se supone normalidad, las ecuaciones de kriging permiten realizar
predicciones con propiedades ptimas. Entonces es apropiado trabajar con una variable
transformada para corregir la asimetra y proporcionar a la distribucin emprica
algunas de las caractersticas que posee la distribucin terica. En Hidrogeologa, en
general a las concentraciones de los iones mayoritarios se les aplica una transformacin
logartmica.
La figura 7.33 muestra el box- plot de los logaritmos de la variable contenido de
calcio. Se observa que presenta una distribucin casi simtrica, con un valor alejado. El
valor del coeficiente de asimetra es 0.031.

26

LOGCALCI

-1.0

-.5

0.0

.5

1.0

1.5

Figura 7.33: Box-Plot de la variable logaritmo del contenido de Calcio.

Una visualizacin del buen comportamiento normal de la variable logaritmo del


contenido de Calcio es permitida con el Q-Q plot de la Figura 7.34.

Quantile-Quantile Plot of LNCALCIO (lncalci.STA 7v*114c)


Distribution: Normal
y=0.365+0.638*x+eps
.01

.05 .1

.25

.5

.75

.9 .95

.99

Observed Value

-1

-2
-4

-3

-2

-1

Theoretical Quantile

Figura 7.34: Q-Q plot de la variable logaritmo del contenido de Calcio.

103

7.4.2 Semivariograma para la variable logaritmo del contenido de Calcio.


El grfico del semivariograma emprico de la variable transformada presenta
menos oscilaciones que el correspondiente a la variable sin transformar. En la figura
7.35 se presenta dicho semivariograma.

Figura 7.35: Semivariograma omnidireccional para la variable logaritmo del Calcio.

Por ensayo de prueba y error se ajusta un modelo esfrico isotrpico con un


efecto pepita igual a 0.28, y una meseta de 0.14 para un alcance de 4. En la figura 7.36
se muestra dicho ajuste.

Figura 7.36: Ajuste del semivariograma esfrico (lnea slida) al semivariograma omnidireccional
experimental de la variable logaritmo del Calcio.

La Figura 7.37 muestra el mapa de los residuos de la prediccin cuando se


realiza el ajuste antes mencionado. Se observa en la misma que se producen grandes
residuos cuando se predicen los valores correspondientes a los valores extremos sin

104

transformar: 7.53 y 11.46. Otros residuos grandes pero de menor magnitud se presentan
cuando la prediccin es realizada en zonas donde la informacin es escasa.

Figura 7.37: Mapa de los residuos de prediccin cuando se ajusta el modelo esfrico antes mencionado cuando se trabaja con la
variable Logaritmo de contenido de Calcio.

Las distribuciones de los residuos y los residuos estandarizados cuando se


realiza la validacin cruzada se presentan en la figura 7.38. La misma es un intento de
cuantificar el ajuste propuesto para el semivariograma de la variable transformada.
Box Plot (lncalci.STA 7v*114c)

RESIDEST

RESIDUO

-5

-4

-3

-2

-1

Non-Outlier Max
Non-Outlier Min
Median; 75%
25%
Outliers
Outliers

Figura 7.38: Distribuciones de los residuos de prediccin y de los residuos de prediccin estandarizados
para el modelo ajustado al semivariograma de la variable transformada.

Las distribuciones de los residuos y de los residuos estandarizados cuando se


realiza la transformacin inversa se presentan en la figura 7.39.

105

Box Plot (lncalci.STA 12v*114c)

RESEST

RES

-4

-2

10

12

Non-Outlier Max
Non-Outlier Min
Median; 75%
25%
Extremes
Outliers
Extremes

Figura 7.39: Distribuciones de los residuos de prediccin y de los residuos de prediccin estandarizados para el modelo ajustado al
semivariograma de la variable transformada.

En la figura 7.40 se comparan las distribuciones de los residuos de prediccin


estandarizadas cuando se ajusta el modelo1, es decir cuando no se transform la
variable, y cuando se realiza el ajuste del semivariograma de la variable transformada.

Box Plot (juntos.STA 35v*114c)

RESEST

RESEST1

-10

-6

-2

10

14

Non-Outlier Max
Non-Outlier Min
Median; 75%
25%
Outliers
Extremes
Outliers
Extremes

Figura 7.40: Comparacin de las distribuciones de los residuos de prediccin estandarizados para el
modelo 1, y para cuando se model el semivariograma del logaritmo del contenido de calcio.

7.4.3 Kriging de la variable logaritmo del contenido de calcio.


A los fines de comparar con los resultados obtenidos en el apartado 7.3, el
kriging se realiza sobre puntos de una grilla cuyo origen es el punto (0.3, 0.8), es decir

106

0.3 de la direccin Este y 0.8 del Norte. La separacin en la direccin Este es de 1


unidad y en la direccin Norte es de 0.5.
Para realizar el kriging es fundamental el conocimiento del semivariograma
vlido, a travs de la etapa del anlisis estructural se decidi que el modelo de
semivariograma vlido es el modelo esfrico isotrpico con un efecto pepita igual a
0.28, y una meseta de 0.14 para un alcance de 4.
La figura 7.41 muestra las curvas de nivel para el kriging de la variable
logaritmo del contenido de calcio.
Spline
7
6
5

NORTE

-0.277
-0.212
-0.146
-0.081
-0.016
0.05
0.115
0.181
0.246
0.311
0.377
0.442
0.508
0.573
0.638

4
3
2
1
0
-2

10

12

14

ESTE

Figura 7.41: curvas de nivel para el kriging de la variable logaritmo del contenido de calcio, obtenido a
partir de la grilla indicada.

Las curvas de nivel de las desviaciones estndares del kriging muestran que los
valores krigeados en la parte central de la grilla, la que coincide con la presencia de
mayor informacin, se corresponden con los valores ms pequeos de las desviaciones
estndares. La figura 7.42 presenta dichos resultados.
Spline
7
6
5

NORTE

0.578
0.587
0.597
0.606
0.616
0.625
0.635
0.644
0.654
0.663
0.673
0.682
0.692
0.701
0.711

4
3
2
1
0
-2

10

12

14

ESTE

Figura 7.42: curvas de nivel de las desviaciones estndares del kriging de la variable logaritmo del
contenido de calcio, obtenido a partir de la grilla indicada.

107

7.5 Comparacin de resultados.


Para poder comparar los resultados obtenidos en el apartado anterior con los
obtenidos en el apartado 7.3 a partir de la prediccin de la variable contenido de calcio
sin transformar, se realiza las transformaciones inversas adecuadas de los valores
predichos con la variable transformada. La figura 7.43 muestra las curvas de nivel
correspondientes a dichos valores.
Spline
7
6
5

NORTE

0.878
0.981
1.085
1.188
1.292
1.395
1.498
1.602
1.705
1.809
1.912
2.016
2.119
2.223
2.326

4
3
2
1
0
-2

10

12

14

ESTE

Figura 7.43: curvas de nivel para los valores transformados de los valores predichos con la variable
transformada.

Las curvas de nivel para los valores transformados de las desviaciones


estndares del kriging del logaritmo del contenido de calcio se muestran en la figura
7.44.
3D Contour Plot (tuc2.STA 6v*132c)
Spline
7
6
5

NORTE

0.552
0.622
0.692
0.762
0.832
0.902
0.971
1.041
1.111
1.181
1.251
1.321
1.39
1.46
1.53

4
3
2
1
0
-2

10

12

14

ESTE

Figura 7.44: curvas de nivel de los desvos estndares al aplicar la transformacin inversa adecuada.

En todos los mapas presentados los resultados tienen validez en el rectngulo


definido por la grilla de puntos definida para realizar el kriging es ms, dada la
irregularidad de la distribucin de los puntos donde se observ la variable, la regin
108

vlida de prediccin sera un polgono irregular. Esta grilla tiene sus lmites basados
en el rango de las coordenadas Este y Norte de los puntos de observacin de la variable
de inters. Para obtener otras predicciones se puede variar los valores que definen la
grilla.
En el siguiente mapa se presentan la grilla de puntos donde se realiza las
predicciones y la ubicacin de los puntos donde se observ la variable de inters.
Tambin se marca las regiones donde las predicciones no tendran ningn valor, porque
los valores extrapolados no tienen mucha confianza. De acuerdo a los resultados
presentados en el apartado 5.5.1 del captulo 5, se observa que en la zona donde se
dispone ms informacin los desvos estndares de la prediccin son menores, dando
ms confianza a los valores predichos.
Scatterplot (tuc2.STA 6v*132c)
7

NORTE

0
0

10

12

ESTE

Figura 7.45: mapa donde se muestran la grilla de prediccin y las ubicaciones de los puntos donde se
observ la variable de inters.

Por supuesto que el conocimiento geolgico del problema tratado ayudara a


tratar de determinar la significacin de los resultados. Es ah cuando la interdisciplina
alcanza su punto mximo.
De la comparacin de las curvas de nivel presentadas en las figuras 7.30 y 7.43
se observa que los valores predichos con la modelacin del semivariograma de la
variable transformada son altos en zonas o regiones que se esperaran valores ms bajos,
esta suposicin es ms respetada cuando la prediccin es llevada a cabo sin la
transformacin de la variable.
As, los resultados del kriging obtenidos en el apartado 7.3 con la variable sin
transformar son ms razonables que los obtenidos con la variable transformada. Estos
resultados no hablan en contra de la transformacin de las variables, pero muestra que
es conveniente realizar ambos tratamientos a los fines de decidir por cual herramienta
es ms til. Aparte que la interpretacin de los resultados a partir de la variable
transformada son ms difciles de realizar.

109

CAPITULO 8: APLICACIN A LA HIDROGEOLOGIA: DATOS


DEL ACUFERO DE LA CALDERA

8.1 Introduccin.
El principal objetivo de este captulo, es aplicar la metodologa Geoestadstica
en el modelado de las variables hidrogeolgicas de inters, que estn relacionadas con la
calidad qumica de las aguas subterrneas.
Para el desarrollo de la investigacin, se cont con la informacin proporcionada por la
ctedra de Hidrogeologa en el marco del proyecto de investigacin Hidrogeologa del
Sistema Acufero La Caldera. De acuerdo a los especialistas, las variables qumicas
consideradas de importancia para la caracterizacin del sistema acufero de La Caldera,
a los efectos de determinar posibles focos de contaminacin antrpica, son la
concentracin de cloruros y la concentracin de nitratos de las aguas subterrneas.
En la regin de inters, es decir lo que se denomina sistema acufero de La
Caldera, y para la poca (1991-1995) considerada como unidad temporal de anlisis, se
consideran las planillas de anlisis fsico- qumico de 47 pozos de los que estaban en
funcionamiento, para alimentar el sistema de agua potable del sector norte y el centro de
la ciudad de Salta.
Una de las primeras tareas durante la investigacin fue la elaboracin de la base
de datos. En ella principalmente se registr la informacin de la ubicacin de los pozos
donde se realizaron las observaciones de las variables de inters. stas, tambin se
clasificaron de acuerdo a los meses en que fueron observadas.
Al registrar la informacin de primera mano, proveniente de las fichas de los
anlisis qumicos de las muestras de agua, tomadas de los diferentes pozos junto a los
legajos de perforaciones realizadas por la Direccin General de Obras Sanitarias, se
encontr dificultades para determinar la ubicacin exacta de los pozos. Pero, con la
colaboracin de miembros del equipo de investigacin, fueron subsanadas.
Aquellos casos en que un pozo present en un mismo da o dentro del mismo
mes ms de una observacin, se tom como representativa el mayor valor de
concentracin para cada in.
Las pocas para las que se dispone de informacin son los meses de julio, agosto
y setiembre de 1991; agosto, setiembre y octubre de 1993. Algunas pocas fichas aportan
datos muy aislados en los meses de octubre y noviembre de 1992 (un total de 8 pozos).
Otros muy pocos datos se presentan en los primeros meses de 1991, 1992 y 1993, y solo
dos observaciones se encuentran disponibles en el ao 1995. As, a los fines de intentar
realizar el anlisis geoestadstico se consider a toda la informacin como proveniente
de un solo momento geolgico.
Por otro lado, el pozo ASP1232 presenta datos como para realizar un estudio
transversal, esto es, se podra estudiar el comportamiento de las variables de inters a
travs del tiempo, el cual no es el motivo de este trabajo. Este pozo era seguido con los
anlisis fsico-qumico mes a mes, por corresponder a una planta de alimentos
balanceados.

110

8.2 Ubicacin de los pozos.


El mapa que se muestra en la figura 8.1, presenta las ubicaciones de los 46 pozos
donde se observaron los valores de las variables de inters: concentracin de cloruros y
concentracin de nitratos. La distribucin espacial de los mismos es irregular.

N
O
R
T
E

Figura 8.1:Mapa que muestra la posicin


de los pozos de agua donde se observaron
las variables de inters.

ESTE

A los efectos de poder trabajar con los programas especficos, las coordenadas
Gauss Kruger que determinan la posicin de los pozos fueron modificadas restando a
las coordenadas este 3500 y a las del norte 7200.
De los 46 pozos cuyas fichas aportaron datos de concentracin de cloruros, 3
fichas (correspondientes a los pozos: AS0129, AS393 y AS0548) no aportan datos de la
concentracin de nitratos.

8.3 Concentracin de cloruros.


8.3.1 Anlisis descriptivo.
El siguiente diagrama de puntos presenta los valores de la concentracin de
cloruros observados.

Figura 8. 2:Scatter plot de la


concentracin de cloruros, las
unidades del eje vertical es mg/lt.

111

En el grfico de la figura 8.2 se nota claramente el valor alejado aportado por el pozo
ASP1232. Tambin se observa una leve tendencia lineal, en la direccin Sur- Norte. Las
posibles tendencias lineales se investigarn a travs de los scatter-plot de la
concentracin de cloruros versus cada una de las variables coordenadas.

Figura 8.3: Diagrama de puntos de la variable concentracin de Cloruros vs. la variable Este.

En la figura 8.3, se observa que no existe dependencia lineal entre la


concentracin de cloruros y la variable Este, cuyos valores son las coordenadas este de
los puntos de posicin. Lo cul queda confirmado con un p-valor muy alto (0.9667) que
no permite rechazar la hiptesis que la pendiente sea nula (a=-.07075). En cambio en la
figura 8.4 se observa una leve tendencia, a medida que aumenta los valores de la
coordenada norte disminuye la concentracin de cloruros. Pero es slo efecto de las
escalas porque a travs de un test de hiptesis (a=-1.6941, p-value=0.0119), se rechaza
la existencia de tendencia.

Figura 8.4: Diagrama de puntos de la variable concentracin de Cloruros vs. la variable Norte.

112

Es tambin importante destacar que en la figura 8.5 se observa una fuerte


dependencia lineal entre la concentracin de nitratos y la concentracin de cloruros, que
permitira aumentar la cantidad de datos de la primer variable predicindola a partir de
los valores de la segunda en los pozos ya citados.

Figura 8.5: Diagrama de puntos de la variable concentracin de Nitratos vs. la variable concentracin
de Cloruros.

Para este ajuste se obtuvo un coeficiente de correlacin igual a 0.744 y un test de


hiptesis para testar si la pendiente es nula es rechazado con un p-valor= 0.00000 para
un valor estimado de la pendiente igual a 0.601848.
Al dejar de lado la posicin y solo considerar la variable concentracin de
cloruros se observa que su distribucin es asimtrica positiva y presenta un valor
alejado: 71.84 mg/l, el correspondiente al pozo ASP1232. Esto, se observa en el box
plot siguiente.

Figura 8.6: Box plot de la variable concentracin de cloruros.

113

Para algunos modelistas es fundamental realizar una transformacin de variables


a los efectos de lograr simetra en la distribucin, caracterstica fundamental de la
distribucin terica normal. Porque, si las medidas de concentracin de cloruros
provienen de una distribucin normal, las predicciones obtenidas con el kriging
ordinario son ptimas (Cressie, 1991). En este apartado, se trabajar con los datos sin
transformar.
8.3.2 Anlisis estructural.
8.3.2.1 Estimacin del variograma.
En este apartado, se intenta sobre la base de los datos disponibles determinar la
estructura de correlacin espacial del proceso aleatorio Z(x): concentracin de
cloruros.
Bajo el supuesto que el proceso Z(x) es intrnsecamente estacionario, la funcin
semivariograma (h) cuantifica dicha estructura. A partir de una realizacin se debe
estimar el semivariograma.
Con el programa Vario que forma parte del Geoeas se genera el semivariograma
experimental omnidireccional, el cual permite utilizar todos los pares de datos (761
pares) independientemente de la direccin. Se considera la direccin de 0 y una
tolerancia angular de 90. Las siguientes condiciones para las distancias: Mnimo =0,
Mximo = 5 (km), es decir se toma en cuenta la mitad de la mxima distancia entre los
puntos, y un incremento de 0.5 (km), permiten generar 11 intervalos planos de distancia.
En la figura 8.7 se presenta el semivariograma experimental omnidireccional.

Figura 8.7: Semivariograma experimental omnidireccional para la concentracin de cloruros.

Para observar que las elecciones de los intervalos de distancias no influyen en la


forma del semivariograma muestral se realizaron sucesivos grficos con distintas
longitudes de los intervalos de distancia, pero la forma del mismo no vari
sustancialmente.

114

8.3.2.2 Ajuste a un modelo de semivariograma.


La idea es buscar un semivariograma vlido que represente ms ajustadamente a
la dependencia espacial presente en los datos: Z = (Z(s1), ..., Z(sn) ). El espacio de
todos los semivariogramas vlidos es un gran conjunto, usualmente se elige una familia
paramtrica de semivariogramas. Para la variable en cuestin de acuerdo a la forma de
los semivariogramas empricos se elige la familia de semivariogramas esfricos.
Con el programa Geoeas se realiza un ajuste a sentimiento. El cual no garantiza
un modelo de semivariograma nico ya que se basa en apreciaciones subjetivas y en la
experiencia del usuario. Es de destacar que no se debe intentar ajustar los mnimos
detalles ya que en general stos no son una caracterstica del verdadero semivariograma
sino ms bien fluctuaciones muestrales.
Por sucesivas pruebas de ensayos de prueba y error se ajust el semivariograma
esfrico:

0
si
h= 0

3
3 h

h
1
(h;) = 65 + 120 *
si 0 < h 1.6
2 1 .6
2 1 .6

185
si
h 1.6

En la figura 8.8 se muestra dicho ajuste. Es decir se ajusta un modelo esfrico


isotrpico con un efecto pepita igual a 65 (unidades de concentracin al cuadrado), y
una meseta de 185 (unidades de concentracin al cuadrado) para un alcance de 1.6 km.

Figura 8.8: Ajuste del semivariograma esfrico (lnea slida) al semivariograma omnidireccional
experimental.

A los efectos de determinar la calidad y el grado de fiabilidad del modelo


ajustado se realizar la validacin cruzada. As se considera un nuevo conjunto de datos:
las diferencias entre las predicciones y los valores actuales correspondientes a las
posiciones donde se realizaron las observaciones; es decir los residuos de la prediccin.
La Figura 8.9 muestra el mapa de los residuos de la prediccin cuando se realiza
el ajuste antes mencionado. Se observa que se produce un residuo elevado (los smbolos
son proporcionales a los residuos) cuando se predice el valor correspondiente al pozo
115

ASP1232. Otros residuos grandes pero de menor magnitud se presentan cuando la


prediccin (kriging) es realizada en zonas donde la informacin es escasa.

Figura 8.9: Mapa de los residuos de prediccin cuando se ajusta el modelo esfrico propuesto.

8.3.3 Isotropa.
A esta altura del anlisis estructural, es importante chequear la hiptesis de
isotropa. A travs de los semivariogramas direccionales se investiga si se presenta
alguna tendencia de los valores de la variable a lo largo de alguna direccin
particular.
Todos los pares de puntos que intervienen en el clculo del semivariograma
emprico omnidireccional se dividen en dos grupos que aportan al clculo de dos
semivariogramas direccionales en las direcciones de 00 y 900, con una tolerancia de 450.
Las grficas de estos semivariogramas direccionales se presentan en las figuras 8.10 y
8.11 respectivamente.

Figura 8.10: Semivariograma direccional 00 con una tolerancia de 450.

116

Figura 8.11: Semivariograma direccional 900 con una tolerancia de 450

Como todos los semivariogramas direccionales, stos esconden la mayor parte


de la forma del semivariograma, distorsionando los valores del efecto pepita y la
meseta. Sin embargo, a partir de estas dos figuras, se puede confirmar el supuesto
acerca de la isotropa. En ambas direcciones, el semivariograma omnidireccional
ajustado parece ser adecuado. En la direccin de 00 la distribucin de los puntos
correspondientes a los distintos retardos del semivariograma emprico, con respecto al
modelo ajustado, sugiere que el alcance debe ser mayor que 1.6. Por lo tanto solo
bastara considerar un rango de alcances, que por ensayo y error se establece entre 1.2 y
2.5. Esta informacin es de utilidad porque cuando se realice la prediccin, se considera
que el alcance del modelo de semivariograma direccional proviene de un patrn
elptico.
8.3.4 Kriging.
Con el programa Kriging del Geoeas se procede a realizar el Kriging (la
prediccin). ste, produce una grilla regular de puntos predichos, usando las ecuaciones
del kriging ordinario para encontrar los pesos correspondientes a los valores de la
variable que intervienen en el promedio ponderado.
El kriging se realiza sobre puntos de una grilla cuyo origen es el punto (56, 57),
es decir 56 de la direccin Este y 57 del Norte. La separacin de los puntos, que forman
la grilla, en ambas direcciones es de 0.5 km.
Para realizar el kriging es fundamental el conocimiento del semivariograma
vlido, a travs de la etapa de anlisis estructural se decidi que el modelo de
semivariograma vlido es el modelo esfrico propuesto en la seccin 8.3.2.2.
A partir de los valores predichos de la variable Concentracin de cloruros en la
grilla, distintos programas posibilitan dibujar las curvas de nivel, es decir las curvas
cuyos puntos tienen igual concentracin de cloruros. Dichas curvas de nivel se
presentan en la figura 8.12 que es una salida del programa Conrec (parte del Geoeas).

117

N
O
R
T
E

ESTE
Figura 8.12: Curvas de nivel para los valores de kriging de la variable concentracin de cloruros,
producido con el programa Geoeas.

Figura 8.13: Curvas de nivel para los valores de kriging de la variable concentracin de cloruros,
producido con el programa Geoeas, en una grilla de ms resolucin.

118

La Figura 8.13 muestra las curvas de nivel pero para otra grilla con mayor
resolucin (2.5 km. en ambas direcciones) donde se realiza el kriging. Los errores de
prediccin se presentan en el mapa de la figura 8.14.

Figura 8.14: Curvas de nivel para los valores de los errores estndares del kriging de la variable
concentracin de cloruros, producido con el programa Geoeas.

Los mapas de curvas de nivel de las predicciones de concentracin de cloruros


muestran que el pozo ASP1232 es un posible foco de contaminacin. Porque se
predicen valores altos en cercanas de dicho pozo, cuyas coordenadas en este mapa son
(59.31, 57.38). Son valores altos, pero si se tuviese ms informacin en posiciones
cercanas a dicho pozo, las predicciones tendran ms precisin, es decir las curvas de
nivel de los errores de prediccin en esta zona llegaran a tomar valores ms bajos.

8.4 Nitratos.
8.4.1 Anlisis descriptivo.
El siguiente post- plot muestra el comportamiento de la variable concentracin
de nitratos a travs de los 43 pozos que aportaron informacin.
Se observa un comportamiento similar a la de la concentracin de los cloruros,
los valores ms bajos de concentracin de nitratos se presentan en la parte norte del
acufero. En cambio los valores ms altos se encuentran diseminados en la parte sur. El
valor correspondiente al pozo ASP1232 no tiene muchas observaciones cercanas, as
que cuando se realice la validacin cruzada es muy probable que se observe un residuo
muy grande.

119

Figura 8.15: Ubicacin de los pozos donde se observ la variable concentracin de


nitratos(mg/l) y el valor de la misma categorizada segn los cuartiles.

El box - plot siguiente muestra la distribucin asimtrica de las observaciones de


la variable. En l se destaca el valor alejado: 61.92 mg/l correspondiente al pozo hasta
aqu cuestionado, los dems valores no superan el valor 39 mg/l.

Figura 8.16: Box- plot de la variable concentracin de nitratos.

A los efectos de detectar posibles tendencias en las direcciones pre-especificadas


se grafican los scatter plot: Nitratos vs Este y Nitratos vs Norte.

120

Figura 8.17: Diagrama de puntos de la variable concentracin de Nitratos vs. la variable Este.

En la figura 8.17, se observa que no existe dependencia lineal entre la


concentracin de nitratos y la variable Este, cuyos valores son las coordenadas este de
los puntos de posicin. Lo cul queda confirmado con un p-valor muy alto (0.683768)
que no permite rechazar la hiptesis que la pendiente sea nula (a=0.155854). En cambio
en la figura 8.18 se observa una leve tendencia, a medida que aumenta los valores de la
coordenada norte disminuye la concentracin de nitratos. Pero es slo efecto de las
escalas porque a travs de un test de hiptesis (a=-1.6941, p-value=0.0119), se rechaza
la existencia de tendencia.

Figura 8.18: Diagrama de puntos de la variable concentracin de Nitratos vs. la variable Norte.

121

8.4.2 Anlisis estructural.


8.4.2.1 Estimacin del variograma.
Con el programa Vario se genera el semivariograma experimental
omnidireccional. Se utilizan los mismos parmetros para la generacin de los
intervalos planos que en la definicin del semivariograma muestral de la variable
concentracin de cloruros. De esta manera se generan 11 intervalos de distancia. En la
figura 7.19 se presenta el semivariograma experimental omnidireccional.

Figura 7.19: Semivariograma experimental omnidireccional.

Para observar que las elecciones de los intervalos de distancias no influyen en la


forma del semivariograma muestral se realizaron sucesivos grficos con distintas
longitudes de los intervalos de distancia, pero la forma del mismo no vari
sustancialmente.
8.4.2.2 Ajuste a un modelo de semivariograma.
Con el programa Geoeas se realiza un ajuste a sentimiento. Por sucesivas
pruebas de ensayos de prueba y error se ajust el semivariograma esfrico:

0
si
h= 0

3
3 h

1 h
si 0 < h 2.5
(h;) = 5 0+ 125 *


2
2
.
5
2
2
.
5

175
si
h 2 .5

En la figura 8.20 se muestra dicho ajuste. Es decir se ajusta un modelo esfrico


isotrpico con un efecto pepita igual a 50 (unidades de concentracin al cuadrado), y
una meseta de 175 (unidades de concentracin al cuadrado) para un alcance de 2.6 km.

122

Figura 8.20: Ajuste del semivariograma esfrico (lnea slida) al semivariograma omnidireccional
experimental.

A los efectos de determinar la calidad y el grado de fiabilidad del modelo


ajustado se realiza la validacin cruzada.
La Figura 8.21 muestra el mapa de los residuos de la prediccin cuando se
realiza el ajuste antes mencionado. Se observa en la misma que se produce un residuo
elevado cuando se predice el valor correspondiente al pozo ASP1232. Otros residuos
elevados se presentan cuando la prediccin es realizada en zonas donde la informacin
es escasa.

Figura 8.21: Mapa de los residuos de prediccin cuando se ajusta el modelo esfrico propuesto.

123

A pesar de trabajar con muy poca informacin, a travs de los semivariogramas


direccionales se investig si se presenta alguna tendencia de los valores de la variable a
lo largo de alguna direccin particular, sin obtener resultados positivos.
8.4.3 Kriging.
Con el programa Kriging del Geoeas se procede a realizar la prediccin. El
kriging se realiza sobre puntos de una grilla cuyo origen es el punto (56, 57), es decir 56
de la direccin Este y 57 del Norte. La separacin de los puntos en ambas direcciones es
de 0.25 km. A partir de los valores predichos de la variable Concentracin de nitratos, se
dibujan las curvas de nivel. Dichas curvas de nivel se presentan en la figura 8.22.

Figura 8. 22: Curvas de nivel para los valores predichos de la variable concentracin de nitratos.

El mapa de curvas de nivel de las predicciones de concentracin de nitratos


muestran que el pozo ASP1232 es un posible foco de contaminacin.

124

Para visualizar la incertidumbre de la prediccin se presenta el grfico de las


curvas de nivel para los errores de prediccin en la Figura 8.23, que muestra los
resultados razonables: los errores de kriging son ms altos en zonas con menor densidad
muestral.

Figura 8. 23: Curvas de nivel para los valores de los residuos estandarizados del kriging de la variable
concentracin de nitratos, producida con el programa Geoeas.

8.5 Mapas generados por el programa Surfer.


A los efectos de presentar mapas con mejores definiciones que los producidos
por el programa Geoeas, a partir del modelado del semivariograma para los cloruros y
nitratos se realiz el Kriging con el programa Surfer, muy utilizado para realizar mapas,
y se procedi a representar las curvas de nivel.
En las figuras 8.24 y 8.25 se presentan los mapas de iso-contenidos de cloruros y
nitratos generados por el programa Surfer. A estos mapas hay que recortarles las curvas
de nivel en la zona del noroeste indicada con rojo en ambos mapas, porque en esa zona
no se presenta ninguna observacin y por lo tanto las predicciones en dichas regiones no
tienen validez.

125

Figura 8.24: Mapa de isolneas para la concentracin de cloruros.

126

7266

7265

7264

7263

7262

7261

7260

7259

7258
3557

3558

3559

3560

Figura 8. 25: Mapa de isolneas para la concentracin de nitratos.

127

3561

8.6 Conclusiones.
A pesar de contar con una cantidad de observaciones inferior a lo recomendado
para realizar un estudio geoestadstico, los mapas de curvas de nivel logrados a travs
de este procedimiento presentan caractersticas fundamentales que los especialistas
intuan acerca de la realidad. Aunque, la realidad nunca llega a ser conocida.
Las curvas de igual contenido de cloruros presentadas en el mapa
correspondiente, al igual que las de igual concentracin de nitratos, muestran que el
pozo ASP1232 es un posible foco de contaminacin. As los pozos cercanos estn
influenciados por sus valores altos de concentracin de cloruros y de nitratos. Si se
perforasen otros pozos en la vecindad, en un radio de 1km, se obtendran valores
similares de los indicadores. Otros focos posibles de contaminacin, para las aguas
subterrneas del acufero de La Caldera, pero de menor grado se encuentran en la zona
norte. A juicio de los especialistas esto es un llamado de atencin para la actual empresa
encargada de proveer el agua a los habitantes del sector norte y el centro de la ciudad de
Salta a los efectos de la perforacin de nuevos pozos, pero es muy poco determinante en
la calidad de las aguas que llegan al consumidor porque la pureza del agua provista por
el acufero se ve afecta en gran medida por el sistema de distribucin obsoleto.
Las curvas de nivel de los desvos estndares de las predicciones muestran
valores altos en las zonas cercanas al valor alejado correspondiente al pozo cuestionado,
como as tambin, en zonas donde la informacin es escasa. Dichos valores tambin
dependen del semivariograma elegido, pero por ensayo y error, modelos distintos a los
adoptados produjeron valores ms elevados.

128

CAPITULO 9: UNA APLICACIN A LAS CIENCIAS DEL MEDIO


AMBIENTE
9.1 Introduccin.
En este Captulo se pretende aplicar las herramientas proporcionadas por el
enfoque estadstico presentado en los 6 primeros captulos a un problema proveniente de
las denominadas ciencias del medio del ambiente.
Para ello se utilizar informacin suministrada por el equipo de investigacin del
proyecto 577: Determinacin de Dixido de Nitrgeno en la Atmsfera de Salta
(capital) de la Facultad de Ciencias de Exactas realizados entre los aos 1996 y 1998.
Este grupo de investigacin indaga acerca de la calidad del aire que se respira en la
ciudad de Salta y por lo tanto se interesan en las concentraciones de los contaminantes
mayoritarios en la troposfera. El dixido de nitrgeno es uno de los componentes
mayoritarios de la troposfera de las ciudades modernas debido, principalmente, a los
procesos de combustin, como los que ocurren en los motores de combustin interna de
los vehculos automotores. Estos producen xidos de nitrgeno que son descargados
directamente a la atmsfera. La produccin de NO X en los motores de los automotores
es inevitable bajo las condiciones de baja temperatura y presin de funcionamiento. En
un automvil cuya mezcla aire/combustible es la adecuada, la produccin de CO e
hidrocarburos sin quemar es mnima pero la de NO es mxima. (Informe final del
proyecto 567).
Los xidos de nitrgeno, y particularmente el dixido de nitrgeno pueden
impactar negativamente en la salud humana y contribuir a la degradacin del medio
ambiente por generacin de lluvia cida y formacin del nebluno fotoqumico.
El trnsito intenso de vehculos no debidamente controlados en cuanto a las
condiciones de emisin de los gases de escape, y las caractersticas topogrficas de la
Ciudad de Salta, plantearon la necesidad de determinar la concentracin de NO X en el
estrato inferior de la atmsfera.
La contribucin de este trabajo consiste en proporcionar mapas de la
concentracin de dixido de nitrgeno que permita predecirla en lugares donde no se
realiz observacin por falta de instrumentos debido a dos causas fundamentales:
el costo de los dispositivos y de los componentes qumicos para la deteccin de la
sustancia qumica de inters.
por la destruccin de los mismos ocasionados por la ignorancia acerca de la utilidad
de los dispositivos instalados para tal fin.

9.2 Presentacin de los datos.


Las observaciones fueron realizadas en determinados puntos estratgicos del
micro, del macro centro, y la periferia de la ciudad de Salta. A los efectos de tener como
referencia o medida basal local se tomaron mediciones de la concentracin de dixido
de nitrgeno en un ambiente netamente rural en el sitio denominado La Choza. Adems
se monitorearon cuatro vas de acceso a la ciudad.
Para la determinacin de NO2 en la atmsfera los investigadores utilizaron la
tcnica del muestreador pasivo, basado en la difusin del gas en tubos colectores. La
descripcin de los mismos se encuentran en el informe final del proyecto de
investigacin n577. Los tubos colectores fueron ubicados en las veredas de las calles

129

cerca de las esquinas siguiendo las dos direcciones Norte-Sur y Este-Oeste favorecidos
por la distribucin de las calles en el casco principal de la ciudad de Salta.
En el siguiente mapa se presentan las 22 posiciones de los puntos donde se logr
obtener informacin de la concentracin de dixido de nitrgeno en febrero de 1997
(uno de los periodos de recoleccin de 15 das de duracin). A los efectos de determinar
las coordenadas de los puntos de observacin en el mapa se consider un sistema de
coordenadas ortogonales con centro en un punto referencia de la ciudad: el vrtice
nortdeste de la plaza principal 9 de Julio. El eje de las abscisas en la direccin OesteEste y el eje de las ordenadas en la direccin Sur- Norte.
1600

1100

NORTE

600

100

-400

-900

-1400
-1600

-1100

-600

-100

400

900

1400

OESTE

Figura 9.1: Posiciones donde se realizaron las observaciones.

Las distancias estn medidas en metros. As, en metros, estn expresadas las
variables que definen ambos ejes del grfico de la figura 9.1. Los puntos de observacin
se distribuyen en un rectngulo de aproximadamente 2.5 kilmetros en la direccin
Oeste- Este por 2.7 kilmetros en la direccin Sur- Norte. Algunos puntos fueron
cambiados de sus posiciones originales a los efectos de que formen parte de una grilla
irregular de 6 filas por 7 columnas.
En la figura 9.2, los puntos correspondientes al microcentro estn indicados con
tringulos, con cuadrados los del macrocentro y los restantes corresponden a lugares
perifricos.
De acuerdo a la cantidad promedio de vehculos que circulan por las calles de la
ciudad, se observa que existe ms concentracin de puntos de observacin en la zona
denominada centro de la ciudad. Aproximadamente el 67% cumple con dicho requisito.
Claro que la densidad de puntos es ms alta cuanto ms nos acercamos al centro
comercial de la ciudad (microcentro).
Tambin en la Figura 9.2, con la letra T queda indicada la posicin de un punto
de observacin en la zona de la Terminal de mnibus, con M la del Mercado municipal
y con A posiciones de puntos de observacin en principales avenidas de acceso al centro
comercial de la ciudad.

130

M
T
A
A

Figura 9.2: Mapa donde se indican las posiciones de puntos estratgicos de observacin.

La variable de inters: concentracin de dixido de nitrgeno, est medida en

g de NO2 por cada m3. En la figura 9.3 se presenta las concentraciones del NO2
observadas en febrero de 1997 en sus respectivas posiciones.
1600

1.2

.8

2.4

3.4

1100

600

8.5

11.5

7.4

2.3

2.7

11.0

100
.4

4.3

5.5
4.0

NORTE

-400

.8

-900
.2

3.3

8.7

2.6

2.3

1.9

.3

-1400
-1600

-1100

-600

-100

400

900

1400

OESTE

Figura 9.3: Medidas de la concentracin de dixido de nitrgeno en sus respectivas posiciones


correspondientes a la ciudad de Salta.

El punto que representa a la zona de la terminal de mnibus al igual que el que


representa al mercado municipal presentan los valores ms elevados 11 g / m 3 y
11.5 g / m 3 respectivamente.
Sin considerar la posicin de las observaciones, en la Figura 9.4 se observa que
la distribucin de los valores de la variable de inters es asimtrica, no presenta valores
alejados. El valor mnimo de las concentraciones de dixido de nitrgeno es .20 g / m3 ,
el valor mximo es 11.5 g /m3 , el valor medio es 4.07 g / m 3 y el valor mediano es
2.65 g / m 3 .

131

Figura 9.4: Box Plot de la concentracin de dixido de Nitrgeno.

Los scatter plot de la variable de inters versus cada una de las variables que
definen la posicin de los puntos, mostrados en la Figura 9.5, sealan que no se presenta
tendencia en los valores de la variable concentracin de nitrgeno ni en la direccin
Oeste-Este ni en la direccin Sur-Norte.
b)

14

14

12

12

10

10

8
NOX297

NOX297

a)

6
4

4
2

0
-2
-2000

-1500

-1000

-500

500

1000

-2
-2000

1500

OESTE

-1500

-1000

-500

500

1000

1500

NORTE

Figura 9.5: Diagramas de puntos de a) concentracin de nitrgeno vs. Coordenada oeste- este.
b) concentracin de nitrgeno vs. Coordenada sur-norte.

A los efectos de detectar posibles tendencias y calcular el estadstico u se


procede a calcular las medias y medianas por filas y columnas.

Figura 9.6: En ambas figuras con azul se representan los valores de la media y con rojo los valores de la
mediana de los valores de concentracin de nitrgeno. a) Segn columnas.
b) Segn filas.

La Figura 9.6 es un intento de resumir la posible no estacionariedad en la media


a lo largo de filas y columnas, es decir en las direcciones sur- norte y oeste- este, usando
132

2000

la media muestral y la mediana muestral a lo largo de las filas y las columnas


respectivamente. En la Figura 9.6 a) se observa que la columna correspondiente a la
coordenada oeste-este 175 m se destaca de las otras que presentan una pequea
tendencia lineal. En cuanto a la Figura 9.7 b) muestra que existe una leve tendencia no
lineal sino cuadrtica. Luego, por el mtodo de la mediana polish se tratar de modelar
dicha tendencia.
En las tablas 9.1 y 9.2 se presentan los valores del estadstico u definidos en la
seccin 2.2.3.

Tabla 9.1: Valores del estadstico u segn columnas.

Tabla 9.2: Valores del estadstico u segn filas.

En la tabla 9.1 el valor del estadstico u seala que en las columnas


correspondientes a los valores de la variable oeste-este la variable en estudio no
presenta outliers. De forma similar ocurre en la tabla 9.2 para las filas. As las
diferencias estandarizadas entre medias y medianas muestran que por fila (o columna) la
variable no presenta valores alejados.

9.3 Modelado de la tendencia.


Mediante el mtodo de la mediana polish se proceder a modelar la tendencia
que presenta la variable concentracin de dixido de nitrgeno en la regin de estudio.
Luego de 20 iteraciones del proceso de extraccin de los efectos medianos segn fila y
segn columna, de acuerdo a la rutina indicada en el apartado 6.3.1, se obtuvieron los
resultados indicados en la tabla 9.3.

Efectos
medianos
Filas

Residuos

Efectos medianos columnas

Efecto
Mediano
Total

Tabla 9.3: Valores de los efectos medianos segn filas, columnas; efecto mediano total y residuos luego
de aplicar Mediana polish a las concentraciones de dixido de nitrgeno.

133

La superficie mediana polish formada por la unin de planos definidos sobre los
rectngulos que determinan la grilla con ecuaciones 6.4.11 se muestra en la figura 9.8.
En dicha representacin se observa como se modelo la tendencia que se presenta
particularmente en la direccin Sur- Norte.

Figura 9.7: Superficie de planos interpolados usando mediana polish para los datos de concentracin de
dixido de nitrgeno.

9.4 Kriging de los residuos.


Los residuos obtenidos mediante la aplicacin del procedimiento de mediana
polish se consideran como un nuevo conjunto de datos espaciales sin presencia de
tendencia. Por lo tanto, se puede llevar acabo la prediccin de los residuos en posiciones
determinadas mediante el procedimiento de kriging ordinario. Luego sta se sumar a la
tendencia para obtener la prediccin de la concentracin de dixido de nitrgeno en los
puntos de inters, de acuerdo a la descomposicin aditiva presentada en 6.4.10.
Para ello se deben seguir las distintas etapas que se desarrollan a continuacin.
9.4.1 Estimacin del variograma.
En este apartado, se intenta sobre la base de los datos disponibles determinar la
estructura de correlacin espacial del proceso aleatorio R(x):residuos obtenidos al
aplicar mediana polish.
Con el programa Vario (Geoeas) se genera el semivariograma experimental
omnidireccional, el cual permite utilizar todos los pares de datos (284 pares)
independientemente de la direccin. Se considera la direccin de 0 y una tolerancia
angular de 90 y para completar la definicin de los intervalos planos las siguientes
condiciones para las distancias: Mnimo 245, Mximo = 1800 (m) es decir la mitad de
la mxima distancia entre los puntos, y el incremento se fija en 300 m, de esta manera
se generan 6 intervalos de distancia. En la figura 9.8 se presenta el semivariograma
experimental omnidireccional y en la tabla 9.4 se muestran las cantidades de pares
que determinan el valor del semivariograma correspondiente a los intervalos de
134

distancias. La cantidad de los mismos en los dos primeros intervalos planos es menor
que 30 pares.

Figura 9.8:Semivariograma experimental omnidireccional para los residuos usando como parmetros
para las distancias: mnima=245 m; mxima=1800 m y un incremento 300 m.

1
2
3
4
5
6

Pairs
10
22
39
34
30
33

Avg Distance
418.671
682.636
986.583
1264.834
1585.817
1884.789

Estimate
6.508
7.196
8.884
7.965
8.202
7.213

Tabla 9.4: Valores de la cantidad de pares,


distancias promedios y la estimacin del
semivariograma correspondiente.

Los semivariogramas direccionales no aportan mucha informacin debido a que


la cantidad de observaciones disponible hace que la cantidad de pares de puntos que
intervienen en el clculo de la estimacin del semivariograma en cada intervalo plano
de distancia sea pequea.
9.4.2 Ajuste a un modelo de semivariograma.
Con el programa Geoeas se realiza un ajuste a sentimiento. Por sucesivas
pruebas de ensayos de prueba y error se ajust el semivariograma esfrico:

0
si
h= 0

3
3 h
)
1 h
)
si 0 < h 800
(h; ) = 2.4+ 5.6 *


2
800
2
800

8
si
h 800

En la figura 9.9 se muestra dicho ajuste. Es decir se ajusta un modelo esfrico


isotrpico con un efecto pepita igual a 5.6 (unidades de concentracin al cuadrado), y
una meseta de 8 (unidades de concentracin al cuadrado) para un alcance de 800 m. A
los efectos de determinar la calidad y el grado de fiabilidad del modelo ajustado se
realiza la validacin cruzada. Para ello se considera un nuevo conjunto de datos: las
diferencias entre las predicciones y los valores actuales correspondientes.

135

Figura 9.9: Ajuste del semivariograma esfrico (lnea slida) al semivariograma omnidireccional
experimental.

La Figura 9.10 muestra el mapa de los errores de la prediccin cuando se realiza


el ajuste propuesto. Se observa en la misma que se producen dos diferencias elevadas
(los smbolos son proporcionales a la diferencia entre el valor predicho y el valor de la
variable residuos). Una, cuando se predice el valor correspondiente a la posicin (-175, 175) que presenta un valor alejado de la variable residuo igual a 6.03; la otra diferencia
alta positiva se corresponde al punto (805, 420) en donde la variable presenta el valor
alejado 6.25.
Es de destacar que el programa no puede predecir en las posiciones (-420, 1400);
(-1400, 1400) ; (1050, -1330). Las dos primeras son el vrtice superior izquierdo y su
vecino ms cercano, que no presentan vecinos cercanos para realizar la prediccin. Lo
mismo sucede con el ltimo, pero su posicin es el vrtice inferior derecho (del
rectngulo que definen los datos).

Figura 9.10: Mapa de los residuos de prediccin cuando se ajusta el modelo esfrico propuesto.

136

Seguidamente a los efectos de comparar se realiz un ajuste usando el criterio de


mnimos cuadrados ponderados.
Al aplicar un ajuste mediante mnimos cuadrados ponderados propuesto en 4.3.2
mediante rutinas de estimacin no lineal de los paquetes SPSS o STATISTICA se
obtienen resultados similares al anterior
El modelo elegido para ajustar es el esfrico:
VAR=(c+b*((3/2)*(DIST/a)-(1/2)*(DIST/a)**3))*(DIST<a) +(c+b)*(DIST>=a)
La variable dependiente es VAR, la independiente es DIST y los parmetros a, b y c a
optimizar la funcin de prdida: (ENES/PRED**2)*(OBS-PRED)**2, donde ENES
se refiere a la cantidad de pares que intervienen en el clculo de cada uno de los seis
valores del semivariograma experimental.
STATISTICA
Mtodo Cuasi - Newton
Final loss: .821909587 R=.75514
Variance explained: 57.024%
Estimate A=1017.404 B=4.196404 C =3.9132
STATISTICA
Mtodo Hooke - Jeeves pattern moves
Final loss: 0.821909590 R=.75514
Variance explained: 57.023%
Estimate A= 1017.400 B=4.196639 C=3.9130
SPSS
Mtodo Sequencial Quadratic Programming
Loss function value: 0.8219095869
Estimate A=1017.404 B=4.196403 C=3.913228

En los tres casos el valor estimado del alcance es 1017.4, es decir que en
1017.4m el semivariograma crece desde un efecto pepita de 3.91 hasta alcanzar una
meseta de 8.1. Por lo tanto el semivariograma que mejor ajusta, segn el criterio de
mnimos cuadrados ponderados, es un esfrico con las caractersticas dadas. En al figura
9.11 se presenta dicho ajuste.
C:3

C:5

C:4

C:6

C:2

C:1

SEMIVAR

6
5
4
3
2
1
0
0

500

1000

1500

Figura 9.11: Ajuste mnimos cuadrados ponderados de un semivariograma esfrico (lnea slida) al
semivariograma omnidireccional experimental.

La distribucin de los residuos de prediccin utilizando este ltimo modelo no


difieren del propuesto intuitivamente, como lo muestra el mapa de residuos de
prediccin de la figura 9.12.

137

Figura 9.12: Mapa de los residuos de prediccin cuando se ajusta el modelo esfrico con un alcance de
1017.4m, un efecto pepita de 3.91 y una meseta de 8.1.

9.4.3 Kriging.
Basado en el ltimo semivariograma ajustado y en el conjunto de los datos de
los residuos, las ecuaciones de kriging ordinario (5.3.8) permiten la prediccin de los
residuos en los puntos de inters.
Para dibujar las curvas de nivel de los valores predichos se hace que la posicin
s vaya recorriendo los nodos de una malla regular con origen en el punto de
coordenadas (-1400, -1330), con una separacin de 100m entre lneas de la malla que
cubre el rectngulo definido por las observaciones. A partir de los valores predichos de
los residuos (R) en la malla, se pueden dibujar las curvas de nivel.

Figura 9.13: Mapa que presenta las curvas de nivel de prediccin de la variable residuos cuando se
realiza un kriging con el modelo esfrico con un alcance de 1017.4m, un efecto pepita de 3.91 y una
meseta de 8.1.

138

En forma similar que se obtienen las curvas de nivel de las predicciones para la
variable se obtienen simultneamente las curvas de nivel de las estimaciones de las
desviaciones estndar de prediccin. As, de esta manera se permite visualizar la
incertidumbre de la prediccin.

Figura 9.14: Mapa que presenta las curvas de nivel de las desviaciones estndar de prediccin de la
variable residuos.

9.4 Kriging Mediana Polish.


Desde las ecuaciones de interpolacin y extrapolacin (6.4.11), la estimacin
mediana polish ~(s 0 ) puede ser definida para todo s0 del plano, y adems, el kriging de
los residuos brinda R (s 0 ) para cualquier posicin del plano entonces la prediccin
)
mediana polish de Z (s ) est dada por: Z~ (s ) = ~ (s ) + R(s )
0

En particular se estima la tendencia mediana polish en los puntos de la grilla


definida en el kriging; es decir en la malla de puntos cuyo origen es (-1400, -1330) con
una separacin de 100m entre lneas. As en los 624 puntos de la malla se realiza la
suma de los valores de la tendencia y la de los residuos predichos. Entre dichos puntos
se encuentran los de inters para los investigadores, los valores de sus posiciones,
dixido de nitrgeno predichos y sus desviaciones estndares se presentan en la tabla
9.5.
oeste norte concentraciones de
nitrgeno predichas
-1200 -830
0.36
-400 -30
7.08
400
870
4.24
800 -830
3.97

desviaciones estndar
de la prediccin
2.76
2.58
2.58
2.72

Tabla 9.5: Valores predichos de la concentracin de dixido de nitrgeno y sus desviaciones estndares
en los puntos de inters para los investigadores.

139

Bajo el supuesto que Z: "concentracin de dixido de Nitrgeno" es normal, los


intervalos de prediccin del 95% para cada punto de inters seran:
oeste norte concentraciones de
nitrgeno predichas
-1200 -830
(-5.05, 5.77)
-400 -30
(2.02, 12.14)
400
870
(0, 9.30)
800 -830
(0, 9.30)
Tabla 9.6: Intervalos de prediccin de la concentracin de dixido de nitrgeno en los puntos de inters
para los investigadores.

En la figura 9.15 se presenta un mapa con las curvas de nivel de las predicciones
mediana polish de las concentraciones de dixido de nitrgeno. El mapa de los errores
estndares de la prediccin correspondiente se present en la figura 9.14.

Figura 9.15: Mapa que presenta las curvas de nivel de las predicciones mediana polish de la variable
concentracin de dixido de nitrgeno.

A modo de conclusin.
Como en todo estudio geoestadstico, el anlisis estructural tuvo un peso
importante en su desarrollo. Para el problema planteado se decidi ante la presencia de
tendencia modelarla mediante el procedimiento de mediana polish, y de esa manera
trabajar para la prediccin con el kriging correspondiente. Otros modelistas
probablemente elegiran otro forma para la tendencia, y se produciran diferentes
resultados. Pero de acuerdo a los resultados tericos con respecto al sesgo y ante la
presencia de muy poca informacin, se inclin por este procedimiento.
La eleccin del ajuste del semivariograma mediante mnimos cuadrados
ponderados tambin se fundamenta en los resultados tericos que fundamentaron el
prrafo anterior.
La cantidad de puntos de observacin tanto como sus ubicaciones son en general
adecuadas debido a los altos costos de la implementacin de los sistemas de deteccin y

140

medicin de la concentracin de dixido de nitrgeno, pero se considera que es


necesario agregar otros en el acceso de camiones de carga a la ciudad en la zona Este.
Se sugiere, para prximos estudios, que los datos estn distribuidos lo ms
uniformemente posible, de esa manera los pesos que se asignan a los datos no estn tan
influenciados por la posicin de los puntos de observacin a los efectos de mejorar las
predicciones.
Por ltimo, el mapa de los valores predichos de la concentracin de dixido de
nitrgeno junto con el de los desvios estndar del kriging son el resultado de este
trabajo, as el procedimiento geoestadstico permiti dar respuesta a la inquietud de los
investigadores.

141

CAPTULO 10: CONCLUSIONES.


Como bien lo dijo Matheron la Geostadstica es una mezcla de matemtica,
estadstica y computacin, esta tesis es una muestra de esta afirmacin.
A lo largo de los primeros captulos de este trabajo se presentaron las bases del
enfoque Geoestadstico en una forma ms ordenada y ampliada. Esto es el fruto de la
conjuncin de la lectura de la bibliografa disponible con las informaciones de distintas
pginas de Internet acerca de la temtica.
Para realizar las aplicaciones, se debe recurrir a paquetes de computacin que
estn compuestos por distintos programas que abarcan las diferentes etapas de un
estudio geoestadstico. Se trabaj especialmente con el paquete GEOEAS (Englund, E.
& Sparks, A..1991) muy recomendado por modelistas en distintas pginas visitadas de
Internet.
Existen otros software libres al igual que el GEOEAS, quizs con un poco ms
de herramientas como el BLUEPACK, pero la plataforma y el manual del usuario del
GEOEAS hacen sencilla la tarea de cualquier persona que se inicie en el estudio de esta
metodologa. La desventaja del paquete GEOEAS es su entorno DOS. A los efectos de
comparacin tambin se utiliz el programa VARIOWIN, que como su nombre lo
indica funciona bajo WINDOWS, pero slo esta diseado para tratar las etapas de
estimacin y modelado del variograma.
Las herramientas descriptivas clsicas fueron trabajadas con software de
estadstica general como ser SPPS y STATISTICA. Las otras, es decir las propias de la
Geoestadstica, fueron proporcionadas por el GEOEAS o por el VARIOWIN. Tambin
se program en lenguaje MATHEMATICA algunos instrumentos descriptivos no
disponibles en los softwares antes mencionados.
Se us adems el software MATHEMATICA para comprobar las virtudes del
kriging segn la disposicin de los datos.
Si bien el programa SURFER no es especfico de Geoestadstica se lo us en
alguna aplicacin para la generacin de los mapas de las curvas de "iso- contenidos". Es
importante destacar que para realizar mapas de las predicciones de la variable de inters
mediante kriging (una de las alternativas que presenta el programa SURFER) se debe
introducir el tipo de variograma adecuado y las caractersticas que lo definen, no se
debe usar los valores que presenta por defecto el programa porque no se estara
representando en forma adecuada. Es necesario un estudio geoestadstico previo que
puede ser llevado a cabo con el GEOEAS. En versiones ms actuales de SURFER se
pueden realizar algunas etapas de dicho estudio.
Se consider importante en cada una de las aplicaciones realizar el anlisis
estructural poniendo nfasis en la estimacin del variograma, porque es la herramienta
fundamental en el kriging de la variable de inters. Se trabaj con datos provistos por
las pginas de Internet a los efectos de ganar confianza en el tratamiento de este tipo de
informacin comparando con los resultados o propuestas de otros investigadores, uno de
dichos estudios es el presentado en el capitulo 7.
En las distintas etapas de un estudio geoestadstico es necesario la iteraccin con
los especialistas proveedores de los datos de esa manera los resultados y la
interpretacin de los mismos son ms provechosas, esto ocurri fundamentalmente con
la gente de Hidrogeologa cuando se realiz el estudio del acufero de la Caldera. En el
estudio de las concentraciones de dixido de nitrgeno slo se logr una reunin con los
investigadores y la provisin de los datos.

142

Los estudios realizados para completar esta tesis, han permitido detectar varios
temas directamente relacionados con el enfoque propuesto que seran muy interesante
analizar en el futuro, entre ellos los siguientes:
a) Generacin de curvas de nivel.
b) Simulacin Geoestdistica.
c) Muestreo espacial.
d) Mtodos Geoestadsticos multivariantes
Generacin de curvas de nivel.
Como los resultados geoestadsticos generalmente se presentan en mapas
bidimensionales a travs de las curvas de "iso contenido" es interesante investigar como
se produce la interpolacin para dibujar dichas curvas que puede ser tipo Splain como lo
realiza el Geoeas, o distintas alternativas que presentan otros programas como el
Statistica. La interpolacin fractal sera otra alternativa interesante. Vale aclarar que
para esta tesis los mapas con curvas de niveles fueron generados segn la propuesta del
programa Geoeas.
Simulacin Geoestadstica.
El fin ltimo de la Geoestadstica es la caracterizacin del fenmeno, lo que
conduce a varios tipos de aplicaciones. La primera de ella es la prediccin (estimacin),
la que fue tratada en esta tess. La prediccin suele producir mapas que son mucho ms
suaves que la realidad. Por ello, en los casos en que la variabilidad espacial sea de
inters es necesario recurrir a tcnicas de simulacin, segundo grupo de aplicaciones, a
fin de obtener realizaciones plausibles de la variable estudiada.
Muestreo espacial
Otro tipo de aplicacin de este enfoque que puede ser estudiado, es el que resulta
de que la Geoestadstica permite obtener no slo la prediccin sino tambin una medida
de la incertidumbre asociada a ella. As la Geoestadstica constituye el marco ideal para
seleccionar la ubicacin de puntos de muestreo de forma que se minimice la
incertidumbre de la prediccin.
Mtodos Geoestadsticos multivariantes.
En esta tesis se puso nfasis en el tratamiento de datos considerados como una
realizacin de un proceso aleatorio univariado, pero se puede estudiar el caso de datos
que sean una realizacin de un proceso aleatorio multivariado. En estos procesos
adems de la correlacin espacial cabe esperar la correlacin entre las variables.

Se destacan distintas lneas de estudio relacionadas con el enfoque propuesto en


esta tesis pero por supuesto que los otros enfoques para tratar datos espaciales como el
Mtodo Lattice, propuesto en Cressie (1991), son importantes de explorar.

143

CAPITULO 11: BIBLIOGRAFIA


Candela,L., Olea, R. & Custodio, E..1988. Lognormal kriging for the assessment of
reliability in groundwater quality control observation networks. Journal of
Hydrology 103, 67-84.
Cox Lawrence H. & Piegorsch Walter W..1996. Combining environmental
information. I: Environmental monitoring, measurement and assessment.
Enviorometrics 7, 299-308.
Cressie Noel A.C..1991. Statistics for Spatial Data. John Wiley & Sons, Inc.

Direccin General de Obras Sanitarias, 1995. Legajos de Perforaciones efectuadas


por la D.G.O.S. y por empresas particulares. Indita. Salta.

Englund, E. & Sparks, A..1991. Geo- EAS 1.2.1 Users Guide, US-EPA Report
#600/8-91/008, EPA-EMSL, Las Vegas, NV.
Erickson B.H., Nosanchuk T.A.. 1992. Understanding Data. Open University
Press. Buckingham.

Foster, S. y Hirata, R. 1991. Determinacin del riesgo de contaminacin de aguas


subterrneas. CEPIS (Centro de Planeamiento De ingeniera Sanitaria y Ciencias del
Medio Ambiente). Organizacin mundial de la Salud; Organizacin Panamericana
de la Salud (Programa de Salud Ambiental, HPE), Lima, Per.

Fuertes, A. et.al 1999. Plan de trabajo del proyecto de investigacin N0 577:


"Hidrogeologa del Sistema Acuifero La Caldera"

Fuertes, A. et.al 1999."Informe de avance del proyecto de investigacin N0


577:"Hidrogeologa del Sistema Acuifero La Caldera"

Gantmacher F.R. 1989.The theory of matrices. Volume one. Chelsea Publishing


Company.
Hoaglin D. C., Mosteller F., Tukey J. W.. 1983. Understanding Robust and
Exploratory Data Analysis. John Wiley & Sons, Inc
Isaaks E. H., Srivastava R.M.,1989. An Introduction to Applied Geostatistics.
Oxford University Press.
Lea Cox B. & Wang, J.S. Y. 1993. "Fractal surfaces: measurement and applications
in the earth sciences". Fractals, Vol. 1, 87- 115.
Manual de SPSS for Windows. Release 10.01. Standard Version.
Manual de Statistica '99 Edition. Kernel Release 5.5

144

Musso de Dip, H, E. et al 1999."Informe Final del proyecto de investigacin N0 577:


Determinacin de dixido de Nitrgeno en la atmsfera de Salta (Capital)" Consejo
de Investigacin de la Universidad de Salta.
Notas del curso Applied Geostatistical Workshop, dictado por los Drs. David B.
Mark, Carol A. Gotway y Gary W. Hergert de la University of Nebraska-Lincoln, en
Santa Marta Colombia.
Notas del curso Geoestadstica. 1997, dictado por el Dr. Javier Snchez Vila, en
Santa Rosa de la Pampa. Argentina.
Oliver M.A. & Webster R. 1991.How geostatistics can help you. Soil, use and
management 7, 216-217.
Oliver M.A.& Webster R. & McGrath S. P.1996. Disjuntive kriging for
environmental management. Enviorometrics 7, 333-357.
Pannatier, Y.. 1996. "Variowin,Software for Spatial Data". Springer Verlag.
Peraudin, J. J. et al. 1998. "La Feulle, The Universe of Geostatistics" Geovariances
Newsletter,#10.
Ripley, Brian D.. 1981. "Spatial Statistics". John Wiley & Sons, Inc.
Samper Calvete, F.J. y Carrera Ramrez, J.. 1996. "Geoestadstica, aplicaciones a la
hidrologa subterrnea". Centro Internacional de Mtodos Numricos en Ingeniera.
Universitat Politcnica de Catalunya. Barcelona.
Stein M. L., 1999. Interpolation of Spatial Data: Some Theory for Kriging.
Springer Verlag.
Wolfram S., 1991. The Mathematica book 3rd ed. Mathematica Version 3.
Sitios de Internet visitados en bsqueda de informacin:

http://www.geoavariances.fr

http://www.curie.ei.jrc.it/ai-gostats.htm

http://www-sst.unil.ch/geostatistics.html

http://www.u.arizona.edu/~donaldm/

http://www.springer-ny.com/supplements/variowin.html

http://www.statsoft.com

http://www.goldensoftware.com/products/surfer/surfer.shtml

145

APNDICE C5
1. Obtencin de las ecuaciones del Kriging simple.
Para la prdida dada por el error cuadrtico, el mejor predictor es E (Z (s 0 ) / Z ) , el cual
no siempre es lineal en Z. En vez de preguntar por el mejor predictor, uno podra
preguntarse por el mejor predictor lineal, esto es; obtener l1,l2 , ... , ln , k en
n

p(Z,s0) =

li Z(si) + k,

i =1

tal que minimice E(Z(s0) p(Z,s0))2. Es decir, se debe minimizar


2

E Z (s 0 ) li Z (s i ) k , con respecto a l1,l2, ... ,ln, k .

i =1

Se puede expresar:
2

n
n
n

E Z (s 0 ) li Z (s i ) k = var Z (s 0 ) li Z (s i ) + (s 0 ) li Z (s i ) k

i =1
i =1
i =1
donde (s) =E(Z(s)) s D.

Al ser suma de dos expresiones positivas o nulas , el valor mnimo de:


n

E Z ( s 0 ) li Z ( s i ) k

i =1
es la suma de los valores mnimos de ambas expresiones.

Si se elige k 0 = (s 0 ) li Z (s i ) el segundo sumando alcanza su valor mnimo: 0.


i =1
n

Minimizar var Z (s 0 ) li Z (s i ) respecto a los li i = 1,2, ... ,n equivale minimizar

i =1
:

var ( Z (s 0 )) +
j =1

l j li cov Z (s i ) ; Z (s j ) 2 li cov( Z (si ) ; Z (s 0 )) =


i =1

i =1

= var ( Z (s 0 )) + l l 2 l c

donde l = ( l1 , l2 , ... , ln ) , c (C(s0,s1), ... , C(s0,sn)) y es una matriz n x n cuyo


elemento (i,j) es C(si,sj).
Como:

Var Z (s 0 )

i =1

Z (s i )

= 2 l 2c = 0 por lo tanto l = c.

146

1 existe con seguridad si el proceso Z es tal que Cov Z (s i ), Z (s j ) = C (s i s j )


porque al ser esta funcin definida positiva, el determinante de la matriz del sistema es
no nulo entonces lo = c 1. Ntese que esta matriz no depende de s por lo que es fcil
calcular los coeficientes li para distintos puntos s simplemente cambiando el vector de
trminos independientes c.
Por lo tanto el predictor lineal ptimo p* (Z; s0) [o, ms simplemente, Z* (s0)] es:
Z*(s0) = p* (Z; s0) = lo Z + ko = c 1Z + (s0) lo
=
1
c (Z
) + (s0)
donde ((s1), ... , (sn) ).
El error cuadrtico medio de prediccin minimizado, a menudo denominado varianza de
la prediccin es:

sk2(s0) E(Z(s0) p* (Z,s0) )2 =


E(Z(s0) c 1( Z
) (s0))2 =
E(Z(s0) c 1 Z + c 1 (s0))2
Recordando que: E(X a)2 = (E(X) a)2 + Var(X) donde a es una constante.
Sea X = Z(s0) c 1 Z y a = c 1 (s0)
E(X) = (s0) c 1
Var(X) = Var (Z(s0))+ Var (c 1 Z) 2 Cov (Z(s0), c 1 Z)
= Var (Z(s0) )+ c 1 1 c 2 c 1 c
= Var (Z(s0)) c 1 c
Reemplazando en la expresin de sk2(s0) se obtiene:
sk2(s0) = Var (Z(s0)) c 1 c = C(s0, s0) c 1c .

2. Obtencin de las ecuaciones del kriging ordinario.


El predictor ptimo p (Z; B ) se obtiene minimizando el error cuadrtico medio de
prediccin:
k2(s0) E(Z(s0) p (Z,s0) )2
(1)
n

sobre la clase de los predictores lineales

i Z ( si ) que satisfacen

i =1

= 1.

i =1

Se debe minimizar:
n

E Z (s 0 )
i Z (s i ) 2m i 1
(2)
i =1
i =1

con respecto a 1 , 2 , ..., n y m, donde m es el multiplicador de Lagrange asociado

con la restriccin

= 1.

i =1
n

La condicin

= 1 permite que la siguiente identidad sea vlida:

i =1
n

[Z(s0) i
i =1

Z ( s i ) ]2 =

1
2

i
i =1 j =1

Z ( s i ) Z (s j )

147

i =1

( Z (s 0 ) Z (s i )) 2

Aplicando el operador esperanza miembro a miembro:


n

E[Z(s0) i Z ( s i ) ]2=
i =1

1
2

i j E ( Z ( s i ) Z (s j )) + i E ( Z (s 0 ) Z (s i )) 2
n

i =1 j =1

i =1

se obtiene:
n

E[Z(s0) i Z ( s i ) ]2 =
i =1

i j ( s i s j ) + 2 i (s 0 s i )
n

i =1 j =1

i =1

Por lo tanto minimizar (2) equivale minimizar:


n

i j si s j + 2
i =1 j =1

i =1

i =1

i (s 0 s i ) 2m [ i 1 ]

(3)

Despus de derivar (3) con respecto a 1 , 2 , ..., n y m, e igualar los resultados a


cero, se obtiene que los pesos ptimos satisfacen las ecuaciones:

j =1

j ( s i s j ) + (s 0 s i ) m = 0

i = 1, 2, ... , n.

=1

i =1

Esto es, el ptimo 1 , 2 , ...,

0 = 0 1
donde

puede ser obtenido desde:


(4)

0 ( 1 , 2 , L , n ,m)
0 ( ( s 0 s 1 ) ,L , (s 0 s n ) ,1 )

(s i s j ) i = 1,..., n

0
1
i = n +1

0
i =n +1

0 es una matriz simtrica (n+1) x (n+1).

j = 1,..., n
j = 1,..., n
j =n+1

Desde (4) el vector de coeficientes *nx1 ( *1 ,K , *n ) esta dado por

( 1 1 1 )
1
*
nx1 = + 1

1
1 1

148

(5)

m=

1 1 1
1 1 1

(6)

donde ( ( s 0 s 1 ) ,L , (s 0 s n ) ) , 1 (1,L ,1) y es una matriz n x n cuyo


elemento genrico es (si sj ) .
A continuacin se demuestran la validez de (5) y (6) .
0 se puede expresar como:
nxn 1nx1
0 =
donde nxn (s i s j ) i , j = 1,K , n
0
11 xn
Para encontrar los pesos ptimos, se necesita determinar la inversa de 0. Para ello se
proceder de la siguiente manera:
0 se puede expresar de la siguiente forma:
nxn 11 0
0 =
+ 11 = + 11
1
0
con el tamao del vector de unos adecuado en cada caso para que se puedan realizar las
operaciones matriciales. 0 es un vector de ceros de tamao n.
La inversa de 0 es:
= ( + 11)
1
0

1 11 1
=
1 + 1 1 1
1

(7)

donde:
1

( 11) 1
11 0
=
=
1
0
0

(8)

entonces,
1 1 1 = 1( 11) 1 1 1

(9)

y el escalar del denominador del segundo trmino en (7) es:


1 + 1 1 1 = 1 ( 11) 1 1

(10)

La matriz 1 11 1 se expresa como:

( 11) 1 (11)( 11) 1


11 =
1( 11) 1

( 11 ) 1 1

(11)

La inversa de 11 es:
( 11) 1 = 1 +

1 11 1
1
= 1 + 1 11 1
1

1 1 1

donde = 1 1 1 1
Reemplazando (12) en (9) y en (11)

(12)
(13)

149

1 + 1 1 1 =

(14)

1
1 1 1
( + 11 1 ) (11 )( 1 + 1 11 1 )

1 11 1 =
1

1( 1 + 1 11 1 )

( 1 +

1 11 1 )1

(15)
Donde la matriz n x n ( 1 +

1 11 1 )(11)( 1 +

1 11 1 ) se puede expresar

como:
( 1 +

1 11 1 )(11)( 1 +

1 11 1 +

1 11 1 ) =

1 1(1 1 1)1 1 +

1 1(1 1 1)(1 1 1)1 1 =

1
2
1
1
1
1
1 + ( 1 1) + 2 (1 1) 11 =

1 1 1 1
1 1
1
1
1 +
11 = 2 11

Por lo tanto:

1 1
1

11 1
( 1 + 1 11 1 )1
2

1 11 1 =

1
1
1
1
1( + 11 )

1 11 1

11
(1 )
=
1
1 1 1 1 1 1

1
1

1 1
1

(16)

As reemplazando (16) y (8) en (7) se obtiene:

1 1 1
+ 11 1
=

1
0

1
1 11 1

0 (1 )

1 1
1

150

1 1

1
=
1
1

1
1
1
1
1 11
=
1

1 1

1 1
1

En consecuencia:
1
1
1
1
1
* nx1 ( 1 1 1 11 ) 1 1 1 1 nx1
0 =
=
1
1
1
1

m
1

1
1
1 1
1 1

De donde:

* nx1 = 1 nx1 + 1

1 1 1 nx1

1 1 1

y m=

151

1 1 1 nx1
como se quera demostrar.
1 1 1

APNDICE C6
1. Obtencin de las ecuaciones del Kriging Universal en trminos de variogramas.
En el kriging universal, el predictor lineal insesgado ptimo, se simboliza como
p$ ( Z ; s 0 ) y es aquel que minimiza el error cuadrtico medio de prediccin:

2e = E [ Z (s 0 ) p( Z ; s 0 )]
sobre 1,K , n sujeto a X = x .

(1)

El problema de optimizacin puede ser expresado equivalentemente usando los


multiplicadores de Lagrange como;
Se debe minimizar:

E [ Z (s 0 ) Z ] 2 m .( X x )
Con respecto a los vectores y m; donde m ( m0 ,K , m p ) .
Es decir, se debe minimizar
2

(2)

p +1
n

E Z (s 0 ) i Z (s i ) 2 m j 1 i f j 1 (s i ) f j 1 (s 0 )
i =1
j =1
i =1

(3)

con respecto a 1 ,K , n , m0 ,K , m p .
Suponiendo que f 0 (s) 1 lo cul garantiza que

=1

(4)

i =1

Ahora, se obtiene que:


2

2
Z
(
s
)

i Z ( s i ) = [x + ( s 0 ) Z ]

0
i =1

= [x + (s 0 ) X ]
n

= (s 0 ) i (s i )
i =1

( (s ) ( s ))

= i

i =1 j =1

+ i ( (s 0 ) (s i ) )

2
2

(5)

i =1

Suponiendo que:
2 (h) = Var ( Z (s + h) Z (s)) = Var ( (s + h) (s) ) = E ( (s + h) (s) ) 2

152

(6)

(3) se transforma en:


n

i j (s i s j ) + 2
i =1 j =1

p +1

i =1

j =1

i =1

i (s 0 s i ) 2 m j 1 i f j 1 (si ) f j 1 (s 0 ) (7)

Ecuaciones de kriging universal.


Derivando con respecto a 1,K , n , m0 K , m p e igualando a cero, los pesos ptimos
son obtenidos desde

u = u1 u
donde
o

(8)

u ( 1 ,K , n , m0 ,K , m p )
u ( , m )

(9)

u ( (s 0 s1 ),L , (s 0 s n ) ,1, f 1 (s 0 ),L , f p (s 0 ))


u ( , x )

(10)

y u es una matriz simtrica (n + p + 1) x (n + p + 1) definida como sigue:

i = 1,K , n
(s i s j )

u f j 1 n (s i )
i = 1,L , n

0
i = n + 1,L , n + p + 1

j = 1,L , n
j = n + 1,L , n + p + 1

(11)

j = n + 1,L , n + p + 1

que se puede expresar en trminos de submatrices por:

u =
X
donde:
es la matriz n x n , = ( s i s j )

X
0

i , j = 1, 2 ,K , n .

X es la matriz n x ( p+1) X = f j 1 n (s i )

i = 1,2,K , n j = n + 1,K , n + p + 1

0 es la matriz nula (p+1) x( p+1).


Para encontrar la matriz inversa de u se aplica el algoritmo de Gauss generalizado,
procedimiento que se fundamenta en el apndice B.

I n + p +1
u
Sea la matriz
formada por los bloques, la matriz identidad de orden
I n + p +1 0 n + p +1
n+p+1: I n + p +1 , su opuesta: I n + p +1 y la matriz nula de orden n+p+1: 0 n + p +1 . Que se
expresa como,

153

In

0 ( p +1) xn

X
0

0 nx ( p +1)
I p +1

0 nx ( p +1)

0 p +1

In
0 ( p +1) xn

0 nx ( p +1)
I p +1

0n
0 ( p +1) xn

Aplicando el algoritmo de escalonamiento generalizado de Gauss:


En una primera etapa suponiendo la existencia de 1 se obtiene:


0
nx ( p +1)
0n

0 ( p +1) xn

X
X 1 X

In
X 1

1 X
I p +1

1
0 ( p +1) xn

0 nx ( p +1)
I p +1

0 nx ( p +1)

0 p +1

Para una segunda etapa se supone la existencia de ( X 1 X ) 1 ;


0
nx ( p +1)
0n

0 ( p +1) xn

X
X 1 X

In
X 1

0 nx ( p +1)
0 p +1

1 X ( X 1 X ) 1 X 1 + 1
( X 1 X ) 1 X 1

1 X ( X 1 X ) 1

( X 1 X ) 1
0 nx ( p +1)
I p +1

(12)

La matriz inversa de u es:

1 X ( X 1 X ) 1 X 1 + 1
=
( X 1 X ) 1 X 1

1
u

1 X ( X 1 X ) 1

( X 1 X ) 1

Por lo tanto se obtiene:

= ( + X ( X 1 X ) 1 ( x X 1 )) 1
y

m = x X 1

(13)

(14)

( X 1 X ) 1

La varianza del kriging se puede expresar como:

2k (s 0 ) = * 1 * + 2 * = * + ( * * 1* )
donde la expresin entre parntesis luego de trabajo algebraico se transforma en m x .
Por lo tanto;
2k (s 0 ) = * + m x = *u u
(15)
Adems, otra expresin de la varianza del kriging es:

2k (s 0 ) = 1 ( x X 1 ) ( X 1 X ) 1 ( x X 1 )

154

(16)

2. Obtencin de las ecuaciones del Kriging Universal en trminos de covariogramas.


Ahora, se establece el supuesto que el proceso Z()es estacionario de segundo orden.
Entonces, el covariograma C (h) = cov( Z (s + h); Z (s)) est bien definido.
En consecuencia el primer trmino de (5.2.9) se transforma en :
2

n
n

E Z ( s 0 ) i Z ( s i ) = E ( s 0 ) i ( s i )

i =1
i =1

= Var (s 0 ) i (s i )

i =1

(17)

= Cov( (s 0 ), (s 0 )) + 2 c

donde = Cov (s i ); (s j )

i , j = 1,2, ..., n y c = ( Cov (s 0 s1 ) ,L , Cov (s 0 s n ) )

Sin la suposicin adicional f 0 () = 1 , se debe minimizar:


Cov( (s 0 ); (s 0 )) + 2 c 2 X m 2 x m

(18)

Las ecuaciones obtenidas por la diferenciacin y la igualacin a cero se expresan


matricialmente como:
U U = cU

(19)

X c

=
O m x

(20)

La inversa de U se obtiene en forma similar a la inversa de u , as el vector de pesos


ptimos y el vector de multiplicadores de Lagrange estn dados por:

={c+ X ( X 1 X ) 1 (x X 1c)} 1
m =(x X 1 c) ( X 1 X ) 1

(21)

En esta situacin la varianza del kriging es:


n

2k (s 0 ) = C (0) 2 i C (s 0 s i ) + i j C (s i s j )
i =1

i =1 j =1

p +1

i =1

j =1

= C (0) i C (s 0 s i ) + m j 1 f j 1 (s 0 )
= C (0) c 1c + (x X 1 c) ( X 1 X ) 1 (x X 1 c)

155

(22)

Das könnte Ihnen auch gefallen