Tecnicas Estadisticas Evaluacion y Monitoreo 2006

Tcnicas Estadsticas para Evaluacin y Monitoreo de Recursos Naturales
i
Hans T. Schreuder Richard Ernst Hugo Ramrez Maldonado
UNIVERSIDAD AUTNOMA CHAPINGO
Tcnicas Estadsticas para Muestreo y Monitoreo de Recursos Naturales
Hans T. Schreuder Richard Ernst Hugo Ramrez Maldonado
UNIVERSIDAD AUTNOMA CHAPINGO

2006
ii

Por Hans T. Schreuder, Richard Ernst y Hugo Ramrez Maldonado Resumen. Se presenta la teora estadstica para inventario y monitoreo, desde un punto de vista probabilstico. Empezando con lo bsico, se muestran las interrelaciones entre diseos y estimadores, ilustrando los mtodos con una pequea poblacin artificial, as como con una poblacin real mapeada. Para tales aplicaciones, el apndice presenta las instrucciones para el programa gratuito R. Se describen varias fuentes de informacin auxiliar y se discute su aplicacin en las estrategias de muestreo. Tambin aparecen los estimadores clsicos de varianza y los derivados por el mtodo de bootstrap . Se dan numerosos ejemplos con soluciones a menudo basados en la experiencia de los autores. Adems, se incluyen referencias clave que se consideraran convenientes. Agradecimientos. Debemos una amplia gratitud a los revisores por sus valiosos comentarios. Chistopher Kleinn, Steen Magnusson, Ray Czaplewski y Keith Rennolls revisaron el libro completo; Geoff Wood revis un borrador inicial y Jule Caylor revis la seccin sobre sensores remotos y aadi algunas actualizaciones. Mike Willliams revis la seccin sobre residuos leosos gruesos; Jim Maldwin y Paul Geissler, la seccin sobre fauna silvestre; Ron McRoberts y Nick Crookston, la seccin sobre modelacin; Frank Roesch y Paul Patterson, la seccin sobre muestreo de variables discretas; Charles Scout, la seccin sobre muestreo multinivel; y Gretchen Moisen la seccin sobre estimacin de reas pequeas. Gary Boyak revis y reescribi, parcialmente, la seccin sobre sistemas de informacin geogrfica (SIG) y sistemas de posicionamiento global (SPG); Henry Lachowski revis la seccin sobre SIG; Jeff Goebel, la seccin sobre muestreo de eventos raros. Tim Gregoire y Kim Iles hicieron sugerencias tiles sobre como tratar rboles en los lmites. Lane Eskew hizo un excelente trabajo al revisar el manuscrito desde el punto de vista editorial, para segurar que se satisfacan los estndares de publicacin aceptables. La versin en espaol la realizaron los autores con ayuda de Janet D. Hummel, Leslie X. Galina y Csar Magaa, todos de la Universidad de Colima, Mxico. Se agradece la revisin de Carlos Francisco Romahn de la Vega, Gil Vera Castillo y Eduardo Vargas Prez, de la Divisin de Ciencias Forestales de la Universidad Autnoma Chapingo. Correcciones: Se hicieron algunas adiciones y correcciones en la edicin en espaol: en las ecuaciones (10), (20), (33) y (60). El uso de marcas y compaas es para beneficio del lector, tal uso no constituye el respaldo o aprobacin de ningn servicio o producto, o exclusin de otros que pueden ser apropiados, por el Departamento de Agricultura de Estados Unidos o la Universidad Autnoma Chapingo.
iii
iv
Contenido I. II.
A. B.
INTRODUCCIN OBJETIVOS DEL MUESTREO Y EL MONITOREO DE RECURSOS NATURALES

Por qu Muestrear? Planeacin de un Inventario de Recursos Naturales 1. Objetivos 2. Informacin a colectar 3. Desarrollo del enfoque de muestreo
1 2
2 3 3 4 6
III.
A. B. C. D. E. F. G. 1. 2. 3. 4. 5. 6. 7. 8. 9.
CONCEPTOS DE MUESTREO Y METODOLOGAS

Marco de Muestreo Muestreo Selectivo y Representativo Poblaciones, Parmetros, Estimadores y Estimadas Sesgo, Exactitud y Precisin Variables: Continuas y Discretas Funciones de Distribucin Herramientas de Trabajo Notacin Caracterizacin de una distribucin mediante medidas de tendencia central y de dispersin Errores estndar y lmites de confianza Expansin de varianzas y de errores estndar Coeficiente de variacin Covarianza, correlacin y regresin Independencia Varianzas de productos, razones y sumas Transformacin de variables
6
6 7 8 9 11 12 12 12 15 17 18 19 20 22 24 27
IV.
A. B. C. D. E. F. G. H. I. J. K.
ESTRATEGIAS DE MUESTREO
Diseos con el Estimador Horvitz Thompson Estimacin General de la Varianza Estimadores de Regresin y Razn Algunos Mtodos Especficos de Muestreo Forestal Determinacin del Tamao de Muestra Muestreo de Campo Efectos de Orilla al Muestrear los Lmites del Rodal Asuntos sobre el Diseo Instrumentacin Muestreo de Residuos Leosos Gruesos (RLG) Muestreo de Fauna
28
28 44 45 52 56 58 61 62 63 65 66
V.
A. B. C. D.
MTODOS DE MUESTREO PARA VARIABLES DISCRETAS

Muestreo Simple Aleatorio (MSA ) para Datos de Clases Muestreo de Atributos por Conglomerados Muestreo de Atributos por Conglomerados de Tamaos Diferentes. Muestreo de Variables Contables
67
67 70 73 75
VI.
A. B. C. D. E.
SENSORES REMOTOS Y OTRA INFORMACIN AUXILIAR

Sensores Remotos y Fotografa Exactitud de la Informacin de Sensores Remotos Sistema de Posicionamiento Global para las Necesidades de Ubicacin Espacial Sistemas de Informacin Geogrfica (GIS) Estimacin de reas Pequeas
76
76 79 84 84 85
VII. VIII.
A. B.
MUESTREO PARA LOS EVENTOS RAROS MUESTREO DE NIVELES MLTIPLES

Muestreo Multietapas Muestreo Multifase
87 88
88 90
IX. MONITOREO EN EL TIEMPO X. CONSTRUCCIN DE MODELOS CAUSAEFECTO

v
94 98
XI.
A. B.
SITUACIONES DE MUESTREO FORESTAL

Fallas Sugerencias
101
101 103
XII. REFERENCIAS XIII. GLOSARIO APENDICE 1. INFERENCIAS APNDICE 2. DISTRIBUCIONES

A. 1. 2. 3. B. 1. 2. 3. 4. 5. 6. Distribuciones Continuas Distribucin Normal Distribucin Gama Distribuciones Multivariadas Distribuciones Discretas Distribucin Binomial Distribucin Hipergeomtrica Distribucin Poisson Distribucin Multinomial Distribucin Multivariada Hipergeomtrica Leyes de los Grandes Nmeros
104 112 115 119

120 120 120 121 121 121 122 123 123 124 124
APNDICE 3. TABLAS 125 APNDICE 4. EJEMPLOS ELABORADOS DE ANLISIS ESTADSTICO 133

A. B. C. Software de Anlisis Conjuntos de Datos Resultados 133 133 134
NDICE
141
vi
I. Introduccin El propsito de este libro es servir como una introduccin completa a las tcnicas estadsticas de muestreo de recursos naturales, empezando con un nivel bsico y progresando a mtodos ms avanzados. Describimos herramientas y materiales suplementarios e identificamos referencias clave para los lectores que deseen profundizar en la materia. Una proporcin considerable del material se basa en la experiencia directa de los autores. Incluimos material introductorio, mucho del cual se tom del excelente libro bsico de Freese (1962), donde se expresan en una forma persuasiva sin perder la relevancia. Un buen ejemplo es el Captulo V: Mtodos de Muestreo para Variables Discretas. Los lectores avanzados pueden omitir estas secciones. En general, para facilitar la lectura se prescinde de las pruebas de los estimadores, como insesgamiento y la forma en que se deriva la varianza de los estimadores. Sobre los autores, Schreuder desarroll la mayor parte de su carrera en el Servicio Forestal del Departamento de Agricultura de Estados Unidos, trabajando para el Programa de Inventario Forestal y Anlisis (FIA, por sus siglas en ingls). Ernst dicta numerosos cursos cortos sobre inventario forestal y muestreo, y provee consultora en tales mtodos para especialistas en inventario y medicin del Sistema Nacional de Bosques (NFS, por sus siglas en ingls). Ramrez Maldonado tiene considerable experiencia en la enseanza de cursos en muestreo forestal, inventario y modelos, as como en consultora para agencias mexicanas en inventario forestal y monitoreo. Existen buenos libros introductorios sobre muestreo. El libro de Johnson (2000) es bsico y ofrece informacin extensa, sin embargo no cubre avances recientes en la materia. Los libros de Freese (1962) y deVries (1986) todava son tiles para presentar varios de los conceptos bsicos. El libro de Freese tiene la ventaja adicional de que est disponible en espaol. Shiver y Borders (1996) ofrecen una versin modernizada del libro de Freese (1962), incluyendo material con nfasis en mtodos tpicamente forestales. Tambin estn disponibles otros libros ms avanzados en dasonoma. En buena medida, este libro representa una simplificacin del libro de Schreuder y otros (1993). El libro de Iles (2003) revela por qu l es tan buen conferenciante y escritor, es un deleite leerlo y examinar sus sugerencias prcticas. El libro de Gregoire y Valentine (2004), a juzgar por su perfil, parece tener algn traslape con el nuestro, pero es probable que est escrito ms compactamente y dirigido a una audiencia ms sofisticada; tambin es ms limitado en sus objetivos, pero es un valioso auxiliar porque contiene numerosas pruebas que muestran las propiedades de varios estimadores. Arvanitis y Reich (2005) proporcionan la descripcin ms completa de mtodos geoestadsticos en dasonoma que, en la actualidad, se apoyan mucho en modelos. Para lectores interesados en tener un entendimiento cabal de cmo y por qu funcionan los mtodos de muestreo probabilstico, los libros clsicos de Sarndal y otros (1992) y Cassel y otros (1977) son lecturas obligadas y sorprendentemente fciles de leer, si se considera su fuerte orientacin terica. El libro de Cochran (1977) todava es bastante popular y presenta bien la teora bsica, con pocas excepciones, con la ventaja de que est disponible en espaol.
II. Objetivos del Muestreo y el Monitoreo de Recursos Naturales Antes de discutir la metodologa de muestreo para inventario, es conveniente hacer algunos comentarios breves sobre sta. En general, la estadstica debera considerarse como sentido comn sistematizado. Protege de saltar sin prudencia a conclusiones. Un buen ejemplo es el experimento clsico del efecto de la aspirina para el dolor de cabeza. Las pruebas iniciales mostraron que ayud a aliviar del dolor en 80% de la gente que la tom, sin duda una tasa de xito fenomenal. Entonces alguien tuvo la idea de probar un placebo. Se tuvo una tasa de xito de 60%, lo que indicaba que aunque la aspirina fue til, en apariencia mucha gente no la necesitaba para aliviar el dolor de cabeza. A causa de que muchas cosas estn abiertas a diferentes interpretaciones y a que cada vez las sociedades son ms controversiales, como la de Estados Unidos, la estadstica se ha vuelto crtica en muchas reas, incluyendo la de recursos naturales. Por ello, los mtodos de muestreo e inventarios con validez estadstica se vuelto importantes para generar estimadas confiables y cientficamente defendibles. Los inventarios son la base para la planeacin de proyectos, manejo o administracin y toma de decisiones estratgicas, de manera que se generen bases de datos confiables. Sin embargo, ya que un censo o conteo completo de recursos sera demasiado costoso y tardado, el muestreo se hace imprescindible. Su aplicacin para la evaluacin de los recursos forestales empez a principios del siglo veinte (Schreuder y otros 1993). Antes de disear un inventario por muestreo, se deben definir los objetivos. Muchos inventarios se inician con un solo objetivo, por ejemplo, slo se quiere saber cunta madera est disponible para cosecha en cierta rea o qu reas pueden tener especies de plantas raras. Muchos de estos inventarios se usan despus para otros propsitos. Con frecuencia, el operador novato gasta mucho dinero colectando datos de un gran nmero de caractersticas y luego no es capaz de responder preguntas especficas. Si se planea un inventario, en particular los de gran escala, es deseable analizar los datos que sern colectados para asegurar que el inventario atiende los requerimientos de los usuarios a quienes se dirige. Algunas preguntas a responder pueden ser: Se necesitan mediciones de las hierbas? Si la calidad de los rboles se considera una variable importante pero no puede medirse de manera confiable, vale la pena medirla? Recuerde: usted puede ser responsable por fallar al planear por adelantado, aun cuando los usuarios hayan asegurado que slo tenan objetivos limitados, o que la madera no era ms importante que otra informacin, o que ellos no tenan el dinero suficiente para financiar el inventario. A. Por qu Muestrear? El propsito del muestreo es derivar inferencias acerca de una poblacin de inters, como la altura promedio de los rboles de un bosque. El campo de estudio de la inferencia es tcnico y amplio, y se discute con mayor detalle en la seccin sobre inferencia (Apndice 1). Existen muchas maneras de hacer inferencia y la gente puede diferir sobre cmo obtener la informacin y cmo derivar inferencias o conclusiones, con base en esa informacin. Nos enfocamos en una parte limitada del campo de la inferencia: la obtencin de muestras probabilsticas de una poblacin finita y la inferencia que se hace con tales datos. La mayora de las decisiones en la vida se hacen con un conocimiento incompleto. Un mdico puede diagnosticar enfermedades a partir de pocas gotas de sangre o secciones microscpicas de un tejido; un consumidor juzga las sandas por el sonido que emiten cuando se golpean con la mano; o bien, una persona elige la pasta de dientes, la compaa de seguros, los sitios de recreo,
2
los amigos y aun una carrera, contando slo con un fragmento de la informacin total necesaria o deseable para un entendimiento completo. La esperanza es que las gotas de sangre o las muestras de tejido representen las porciones del cuerpo no muestreadas, que el sonido de las sandas indique la madurez de la fruta y que lo dicho en los anuncios sea una representacin honesta de la verdad. El conocimiento parcial es normal. El censo completo es raro, la muestra es ms usual. Un tcnico forestal anuncia la venta de madera con el volumen, la calidad y el valor estimado; tambin estima el riesgo y el costo. Los compradores consideran, bajo su propio juicio y riesgo, la precisin y confiabilidad de dicha informacin. El viverista siembra semilla, cuya germinacin estima con una pequea fraccin del lote de semillas, y a la cosecha estima el nmero de plntulas con una muestra de conteos en las camas del vivero. Los administradores planean el mantenimiento de las reas de recreacin, con base en el uso anterior y la experiencia. Colectamos informacin de una parte de la poblacin, a la cual llamamos muestra. Entonces, de alguna manera resumimos esta informacin. Tal vez, el resumen ms usado es la media muestral. Asumamos que podemos tomar tres unidades de alguna poblacin; as, nuestro juicio a menudo y + y2 + y3 , donde yi es el valor de la se basa en la media de las tres mediciones, esto es: y = 1 3 variable que se midi en la unidad muestral i, i = 1, 2, 3.
Aunque el censo total pareciera deseable, existen buenas razones para preferir el muestreo. En primer lugar, la enumeracin o medicin completa puede ser imposible. Por ejemplo, determinar la cantidad exacta de madera en un bosque podra costar varias veces su valor; el viverista estara mejor informado si conociera la capacidad germinativa de todas las semillas que va a usar, pero la naturaleza destructiva de las pruebas de germinacin impide probar cada semilla. Es claro que si la medicin o prueba es destructiva, es inevitable alguna forma de muestreo. El uso de un rea de recreacin se conoce hasta que la temporada se termina, por lo que la planeacin de los recursos necesarios para administrar el rea tiene que basarse en informacin previa. Con frecuencia el muestreo proporciona la informacin esencial a un costo inferior al del conteo completo. En especial, para poblaciones grandes, los datos colectados por muestreo son ms confiables. Hay varias razones de por qu esto puede ser cierto. Con menos observaciones por hacer y ms tiempo disponible, las brigadas de campo se cansan menos y logran mejores mediciones. Adems, una porcin de los ahorros en costos podran usarse para comprar mejores instrumentos y emplear personal mejor calificado. Es cierto, la medicin cuidadosa de cinco por ciento de las unidades en una poblacin proveera informacin ms confiable que la medicin poco esmerada de cien por ciento de las unidades. Por ltimo, los datos muestrales pueden colectarse y procesarse en una fraccin del tiempo requerido para un inventario completo, as que la informacin se obtiene ms oportunamente.
B. Planeacin de un Inventario de Recursos Naturales 1. Objetivos
El primer paso para realizar un inventario forestal o de recursos naturales es definir los objetivos, considerando que pueden ampliarse, modificarse o extenderse en el tiempo. A menudo, los inventarios exitosos se continan en el tiempo, con objetivos adicionales que se incorporan
3
despus. Para inventarios forestales de gran escala, como el de Estados Unidos, conducido por la unidad de Inventario Forestal y Anlisis (FIA, por sus siglas en ingls) del Servicio Forestal, los objetivos han cambiado en el tiempo. Esto es lo que se esperara de los inventarios exitosos. La mayora de inventarios forestales de gran escala incluye objetivos similares a los de de FIA: 1. Generar estimadas del estado actual, como superficie del rea forestal, cantidad del volumen de madera por grupos de especies, mortalidad de rboles, volumen maderable disponible para cosecha, etc. 2. Monitorear cambios en el tiempo de las variables sealadas y otras. 3. Establecer procedimientos para identificar posibles hiptesis sobre relaciones causa/efecto. 4. Definir mtodos para probar o documentar relaciones causa/efecto. Puesto que stas rara vez pueden establecerse con datos de inventario, usualmente se requiere experimentacin de seguimiento, por lo que es importante indicar lo que se puede hacer y lo que no es posible al respecto. 5. Proporcionar informacin in situ para los administradores, mediante el desarrollo apropiado de tcnicas, como el uso de mapas y procedimientos de estimacin de pequeas reas. 6. Suministrar informacin oportuna a los tomadores de decisiones. 7. Mantener una base de datos confiable, con suficiente documentacin y mantenimiento de archivos, y promover ms y mejores anlisis. El programa FIA se estableci para atender el Objetivo 1. Ms adelante, debido a que la preocupacin por el abasto de madera se volvi crtico, el Objetivo 2 se hizo importante. El Objetivo 3 adquiri relevancia en la dcada de 1980, por la controversia de la aparente declinacin del crecimiento de los bosques en el estado de Georgia. El Objetivo 4 casi siempre requiere muestreo y experimentacin. Ahora se realiza mucha investigacin sobre el Objetivo 5. El Objetivo 6 ser crtico para las reas de manejo y el Objetivo 7 siempre ha sido importante, pero lo ser an ms con un inventario anual para que la industria pueda analizar datos con mayor frecuencia y de manera independiente. El FIA ha cambiado de una intencin peridica a una anual; as, en vez de colectar datos cada 10 aos, ahora cada ao se medir entre 10 y 20% de las parcelas de muestreo nacionales, para tener un informe para cada estado cada cinco aos. Esto se hizo para satisfacer la necesidad creciente de informacin ms actual. Un libro clsico sobre planeacin de inventarios forestales es el de Hush (1971), que sugiere lecturas complementarias tiles para auxiliar en esa planeacin. Su apndice (Sample outline for preparing inventory plans), puede ser un punto de partida apropiado para quien va a iniciar un inventario nuevo.
2. Informacin a colectar
Los diseos de muestreo probabilstico existentes se pueden usar o adaptar para satisfacer objetivos especficos. Las relaciones causa/efecto son un asunto diferente, sobre el que trataremos ms adelante con mayor detalle. Con frecuencia la credibilidad de los resultados de un sistema de inventario y monitoreo es de gran importancia. Esto requiere criterios estrictos en el muestreo. Al respecto, conviene considerar algunos o todos los criterios y razonamientos siguientes (Schreuder y Czaplewski, 1992): 1. Emplear slo variables con errores de medicin despreciables o que se pueden calibrar con variables que tengan un error de medicin despreciable. Las observaciones subjetivas tienen
4
2. 3. 4. 5.
6.
altas tasas de error de medicin y sesgos impredecibles que puede comprometer su utilidad; las mediciones objetivas se justifican aun si su colecta es ms costosa. Evitar mediciones destructivas en parcelas de muestreo permanentes. Esas mediciones pueden ser aceptables en la vecindad inmediata, fuera de las parcelas permanentes. Mantener en secreto la localizacin exacta de las parcelas de muestreo para evitar tratamientos sesgados por parte de los propietarios del terreno o por visitantes que daen la vegetacin o el suelo y las hagan no representativas de la poblacin. Definir todas las variables para que no haya posibilidad de confusin. Definir algunas variables como la verdad de referencia, medidas en fuentes de sensores remotos ms bien que por muestreo de campo. La interpretacin de sensores remotos puede ser ms eficiente y precisa que las mediciones de campo para algunas variables, evitando el disturbio inadvertido de las parcelas por parte de las brigadas de campo o la negativa de acceso por parte del propietario. En algunos casos hay alguna flexibilidad en la definicin de las variables de inters, por ejemplo, cobertura de copa medida en fotografas areas de baja altura comparada con estimaciones hechas en el campo. Evitar proteger las parcelas de muestreo de manera diferente al resto de la poblacin, como a veces se hace con parcelas de crecimiento y rendimiento.
Relacionado con esto, est la importancia de definir variables con las caractersticas siguientes: 1. Que se pueden medir con precisin en fotografas areas, as que el muestreo de campo no es necesario. Por ejemplo, en algunos casos puede ser posible con el porcentaje de cobertura de copas o cambio en superficie de bosques maduros, pero no para medir cambios en bosques comerciales. 2. Que se pueden medir bien en el campo, como mortalidad y nmero de rboles. Tales variables se pueden correlacionar con otras medidas en fotografas areas. 3. Evitar variables difciles o costosas de medir en el campo. Algunos ejemplos son volumen del rbol, condicin de la copa y perfiles verticales y horizontales de la vegetacin. Conviene buscar otras variables asociadas que las puedan suplir al menos en parte, como rea basal para volumen. 4. Variables de las que puede ser de inters conocer su conducta en la estacin de crecimiento, como la cantidad y distribucin de lluvia, concentraciones de ozono, composicin qumica de los componentes del rbol, o sntomas de los efectos microbianos o de artrpodos en los rboles. Esto requiere ms de una visita en una estacin, lo cual a veces no se puede sufragar en un inventario. 5. Variables de las que se requiere un muestreo destructivo, como muestras de suelo y hojas para estudiar su composicin qumica y cilindros de taladro para estudios dendrocronolgicos y de crecimiento. Se debe considerar cmo se pueden afectar las remediciones en el tiempo. Las caractersticas y requerimientos crticos del diseo son: 1. Colectar datos de variables que expliquen estrs, como deficiencia de lluvia, baja humedad en el suelo, exposicin a la contaminacin, etctera. En general, este tipo de datos no se puede colectar en parcelas de muestreo, pero son esenciales para construir modelos confiables. 2. Simplicidad en el diseo. Esto proporciona flexibilidad en el tiempo y facilidad de anlisis. 3. Consistencia del diseo en el tiempo, lo cual simplifica la estimacin de cambios y la identificacin de posibles hiptesis de causa efecto.
5
4. Flexibilidad para atender nuevos temas ambientales o de manejo, manteniendo la consistencia del diseo. 5. Posibilidad de incorporar nuevas tecnologas de medicin, manteniendo la consistencia del diseo. 6. Posibilidad de tratar cada unidad de muestreo como una poblacin. Esto es importante, por ejemplo, para clasificar cada muestra para estimar el rea en tipos de bosque. Esto significa que no haya datos perdidos para una unidad de muestreo, a causa del diseo empleado. 7. Usar muestreo intercalable o mtodos similares, de manera que el muestreo se pueda intensificar en tiempo o en espacio si se necesita. sta es una buena caracterstica para inventarios anuales. 8. Poder acomodar el reemplazo de parcelas experimentales para atender daos causados por el proceso de medicin, por ejemplo, pisoteo y muestreo destructivo, o por la negativa de acceso a las parcelas de muestreo en propiedades privadas. Por ejemplo, podra ser muestreo con reemplazo parcial. 9. Capacidad para tratar datos perdidos, como parcelas inaccesibles o negativa de acceso. La inaccesibilidad se atiende mejor separando un estrato especfico para tales parcelas y estableciendo el tamao estimado de ese estrato y cmo se generaron las estadsticas para l, si es que se generan algunas. Instrumentar un programa fuerte de aseguramiento de la calidad, de modo que los cambios verdaderos en las parcelas de muestreo en el transcurso del tiempo no se confundan con cambios en el error de medicin, o detalles sutiles en el protocolo de medicin. 10. Considerar el uso de varios diseos de parcela en el mismo punto de muestreo. Aunque esto complica la coleccin de datos, podra requerirse cuando interesa un conjunto grande de datos. Por ejemplo, para nmero de rboles y rea basal total hay una amplia variedad de diseos de parcela que son eficientes (sitios de dimensiones fijas o variables).
3. Desarrollo del enfoque de muestreo
Dados los objetivos de un inventario especfico, la idea es desarrollar el enfoque ms eficiente en costos para lograr dichos objetivos. La mayor parte del resto de este libro est dedicada a disear enfoques de muestreo eficientes, dando al lector una visin de los mtodos disponibles y cundo y dnde emplearlos. Bsicamente, lo que estamos desarrollando son estrategias de muestreo que consisten en cmo colectar los datos, lo que llamaremos diseo, y cmo usarlos para estimar el valor de inters, lo que se conoce como el proceso de estimacin.
III. Conceptos de Muestreo y Metodologas A. Marco de Muestreo
Todos hacemos inferencias acerca de poblaciones basados en lo que es una tpica muestra sesgada, sabiendo que esto, por lo general, tiene complicaciones al hablar con la gente. Por ejemplo, Persona A: los jvenes manejan terriblemente! Persona B: Ah, en qu te basas para decir eso? Persona A: Bueno, cuando estaba manejando la semana pasada se me cerraron dos veces unos jvenes. Un marco de muestreo es una lista completa de las unidades de muestreo que pueden seleccionarse en la poblacin. Para evitar inferencias sesgadas, como la del ejemplo de los jvenes, se debe asegurar que la poblacin definida por el marco de muestreo es la poblacin de
6
inters, as como las unidades de muestreo que la constituyen. Por ejemplo, suponga que estamos interesados en los dos parmetros siguientes acerca de las ciudades de Colima, en el estado de Colima, Mxico, y Fort Collins, Colorado, Estados Unidos: 1. El ingreso promedio de cada vivienda. 2. El rea promedio poseda por propietarios. En estos ejemplos, la vivienda podra ser la unidad de muestreo, en el primer caso, y el propietario, en el segundo. Ahora, cmo procedemos para enlistar las dos poblaciones de inters?, es esto importante? Es crtico que cada unidad de muestreo en la poblacin tenga una probabilidad positiva de ser seleccionada para la muestra y que sepamos qu probabilidad es sa. Usar una lista de personas en el directorio telefnico es un marco de muestreo incompleto en cualquiera de las ciudades, pero es menos completa en Colima. Puesto que una lista de viviendas puede no estar disponible en cualquiera de las ciudades, se pueden considerar diferentes unidades de muestreo en cada caso, como manzanas, para las cuales habra una lista (ms tarde se explicar cmo hacer inferencias acerca de viviendas cuando la unidad de muestreo es una manzana, bajo muestreo por conglomerados). Obtener una lista de todos los propietarios sera ms fcil para ambas ciudades, ya que todos los propietarios pagan impuestos y por ello pueden encontrarse en una lista de contribuyentes. Seleccionar una muestra representativa de una poblacin es ms fcil cuando tenemos una lista completa de todas las unidades de muestreo, de la cual se extrae tal muestra representativa. Por ejemplo, suponga que N1 = nmero de hectreas y N2 = nmero de rboles en el mismo bosque. A menudo conocemos N1 pero rara vez conocemos N2. Si N1 hectreas estn enlistadas, podemos tomar una muestra simple aleatoria (MSA ) de n1 sitios de una hectrea. As tenemos una muestra aleatoria de sitios, pero con un nmero diferente de rboles en cada parcela. En general, no es fcil ni eficiente obtener una muestra aleatoria de rboles de una poblacin de rboles. Es posible obtener una muestra aleatoria sin tener un marco de muestreo. Entonces la lista de unidades estar disponible hasta despus del muestreo (ver Seccin 3.4, Schreuder et al. 1993, donde se discute un procedimiento descrito por Pinkham, 1987, y Chao, 1982). Sin embargo, el procedimiento es difcil de instrumentar.
B. Muestreo Selectivo y Representativo
En muestro selectivo, tambin llamado muestreo no probabilstico o muestreo basado en modelos, las muestras se seleccionan ms o menos deliberadamente. Esto se puede hacer con base en el juicio de quien muestrea sobre lo que es una muestra deseable o cul es la muestra conveniente de ser colectada. Por lo general, sta no se considera una muestra representativa de la poblacin de inters. La idea de seleccionar una muestra representativa de una poblacin se discuti ampliamente en la literatura fechada a principios del siglo XX (Johnson y Kotz, 1988, Vol. 8, pp. 77-81). Se han descrito ocho mtodos de seleccin, pero el de muestreo aleatorio o probabilstico, que se describe adelante, se ha favorecido. La idea bsica es seleccionar una muestra por eleccin azarosa para asegurar que no hay sesgos personales al hacerlo. Para lograrlo, usamos la aleatorizacin para seleccionar la muestra; es decir, seleccionamos la muestra de un arreglo de observaciones al azar. Para instrumentarlo, usamos muestreo probabilstico, el cual implica que:
7
1. Cada unidad en la poblacin puede ser integrante de la muestra, con una probabilidad positiva y conocida. 2. Dos unidades cualesquiera tienen una probabilidad de seleccin conjunta positiva.
Problema. Una propiedad incluye 100,000 ha de bosque, pastizal y agua; el dueo desea encontrar qu hay ah. Desarrolle un mtodo de muestreo que satisfaga las dos condiciones anteriores. Respuesta. Hay numerosas maneras de hacer lo anterior. Una propuesta: divida el mapa de la propiedad en sitios de 1 ha y seleccione al azar 20 de ellos para clasificarlos en las categoras bosque, pastizal y agua. Esto satisface las dos condiciones. La estimacin puede ser difcil porque uno de los sitios puede contener ms de una de las clases, pero se atender ms tarde al revisar la teora de estimacin.
Una estrategia de muestreo incluye un diseo de muestreo y la teora de estimacin asociada. El diseo de muestreo establece la forma en que las unidades de muestreo se eligen para constituir la muestra. Las unidades que constituirn la muestra pueden tener probabilidad de seleccin igual o desigual, ya sea para una unidad individual o para dos en forma conjunta, satisfaciendo los dos criterios de arriba. Esta flexibilidad nos conduce a diseos que se discuten adelante, como muestreo simple aleatorio (MSA), muestreo estratificado, muestreo por conglomerados y muestreo con probabilidad variable. Para completar la imagen de una estrategia de muestreo, necesitamos estimadores acordes con el diseo seleccionado. Enseguida se discuten algunos diseos de muestreo con los estimadores ms simples, estimadores adicionales y algunos procedimientos generales de muestreo.
C. Poblaciones, Parmetros, Estimadores y Estimadas
La nocin central en cualquier problema de muestreo es la existencia de una poblacin. Conviene pensar acerca de una poblacin como un conjunto de unidades que tienen valores o dimensiones de inters. Las unidades se seleccionan de alguna manera y los valores de inters se obtienen de las unidades seleccionadas, ya sea por mediciones o por observacin. Por ejemplo, podemos imaginar un predio arbolado de 40 ha en el cual la unidad que se observa es el rbol individual y el valor que se obtiene es la altura del rbol. La poblacin es la coleccin de alturas de los rboles en el predio. El nmero agregado de ramas de los mismos rboles sera otra poblacin, as como el nmero de rboles con huecos apropiados para que los animales aniden. Para caracterizar a la poblacin como un todo, usamos ciertas constantes de inters, llamadas parmetros, simbolizadas con letras griegas. Un parmetro es una funcin definida sobre todas las unidades muestrales que constituyen a la poblacin. Algunos ejemplos son el valor promedio o media del nmero de rboles por parcela en una poblacin de parcelas, la proporcin de arbolillos vivos en una plantacin de pinos, el nmero total de especies de arbustos en una poblacin y la variabilidad entre los valores de las unidades. El objetivo del inventario por muestreo es estimar tales parmetros. En el pasado se trataba de estimar la media o el total de la poblacin de una o ms variables. En la actualidad, a menudo el inters tambin es encontrar posibles explicaciones de porqu un parmetro tiene cierto valor. En lo sucesivo, el valor del parmetro estimado de una muestra se referir como la estimacin
8
muestral o como la estimada, simbolizada por letras romanas. La frmula matemtica usada de manera general para generar una estimada se llama estimador. Siempre que sea posible, se harn simplificaciones si las unidades en las cuales se define la poblacin son las mismas que las seleccionadas en la muestra. Si deseamos estimar el peso total de lombrices en la capa superior de suelo de 15 cm en alguna rea, ser mejor pensar que la poblacin est constituida por bloques de suelo de alguna dimensin especfica, con el peso de lombrices en el bloque como el valor de la unidad. Tales unidades se pueden seleccionar con facilidad para incluirlas en la muestra y la expansin de los datos de la muestra a la poblacin entera es simple. Si pensamos en las lombrices individuales como las unidades, la seleccin de la muestra y la expansin de los resultados a la poblacin pueden ser muy difciles o hasta imposibles.
Problema. Cmo se hara un muestreo en un nido de hormigas para estimar el nmero de ellas en el nido? Respuesta. Si el nido puede destruirse, se podra excavar, tomar muestras al azar de cierto volumen del nido y contar el nmero de hormigas en cada una de esas muestras. Si no se puede destruir el nido, no hay una manera obvia de tomar una muestra representativa del nido para contar las hormigas. D. Sesgo, Exactitud y Precisin
Cuando se estiman los parmetros de una poblacin, es deseable obtener estimadas cercanas a los valores verdaderos y a un costo razonable. Cuando slo se mide una parte de la poblacin, algunas estimadas pueden ser altas, bajas, cercanas o muy alejadas del valor verdadero. Una estimada cercana al valor verdadero se considera exacta. Si la persona que elige o mide la muestra tiene algn prejuicio, entonces la estimada puede ser sesgada. Por ejemplo, si se est interesado en las preferencias recreativas de los visitantes de un parque y se entrevistan a 99 mujeres y 1 hombre, se podra apreciar algn sesgo en los resultados; igualmente se considerara un sesgo si los resultados de una encuesta a 50 hombres y a 50 mujeres mostraran una alta preferencia por la pesca en un parque que no se conoce para ese propsito, adems sabiendo que el entrevistador es aficionado a la pesca. Aunque la mayora de la gente tiene una nocin general del significado de los trminos sesgo, exactitud y precisin, los estadsticos tienen expresiones bien definidas de ellos, ya que son cruciales en su rea de trabajo. stas son como sigue:
Sesgo es una distorsin sistemtica que puede surgir al elegir la muestra, durante la medicin o al estimar los parmetros de la poblacin.
Al elegir la muestra, el sesgo surge cuando a ciertas unidades se les da mayor o menor representacin en la muestra que la que tienen en la poblacin. Esto no se compensa en el proceso de estimacin. Supongamos, por ejemplo, que estamos estimando las preferencias para recreacin entre los visitantes de un parque y solo entrevistamos personas durante los fines de semana. Estos resultados estarn sesgados, porque los usuarios en los das de la semana no tienen oportunidad de aparecer en la muestra.
9
El sesgo en la medicin puede presentarse, por ejemplo, si la altura de plntulas se mide con una regla a la que le falta el primer medio centmetro, entonces todas las mediciones sern medio centmetro ms grandes y la estimada del promedio de altura de las plntulas ser sesgada. En estudios que involucran el conteo de rboles, algunos observadores podran incluir siempre a los rboles que estn en el lindero de las parcelas, mientras que otros consistentemente los excluiran. Ambas rutinas son fuentes de sesgo en la medicin. Al cubicar rboles en pie, las ecuaciones de volumen o la forma en que se usan pueden ser fuente de sesgo. Por ejemplo, una ecuacin de volumen construida con datos de rboles grandes podra dar resultados sesgados al emplearla sin ajustes para rboles pequeos. De manera similar, si un cubicador consistentemente sobreestima la altura de los rboles, las ecuaciones de volumen que emplean altura como una variable independiente estarn sesgadas. La nica manera prctica de minimizar sesgos en la medicin es a travs del entrenamiento meticuloso de las brigadas en los procedimientos utilizados y el uso, cuidado y calibracin de los instrumentos de trabajo. La tcnica usada para estimar los parmetros de la poblacin, a partir de los datos recogidos en la muestra, tambin es una fuente posible de sesgo. Por ejemplo, si las preferencias en recreacin en dos parque nacionales se estiman tomando el promedio aritmtico simple de las preferencias registradas en cada parque, el resultado puede ser seriamente sesgado si el rea de un parque es de 500,000 ha y tiene un milln anual de visitantes, en tanto que el otro es de 100,000 hectreas y tiene 10,000 visitantes por ao. Se obtendra una mejor estimacin si se ponderan las estimadas de cada parque por su tamao o por el nmero de visitantes. Otro ejemplo de este tipo de sesgo comn en la prctica forestal ocurre al estimar el dimetro promedio en un bosque, a partir del dimetro del rbol con rea basal promedio. Este ltimo procedimiento, en realidad, genera la raz cuadrada del dimetro cuadrtico promedio, que no es el mismo que la media aritmtica de los dimetros, a menos que todos los dimetros sean del mismo tamao. Los sesgos debidos a la seleccin de muestras y a la medicin rara vez son aceptables, en particular si los datos son de inters para varios usuarios. Sin embargo, a veces la estimacin sesgada puede ser aceptable porque algunos estimadores sesgados son mejores que los insesgados, el sesgo es en ocasiones trivial y los resultados son ms precisos que los que se logran usando procedimientos insesgados. Los estimadores sesgados aceptables suelen ser asintticamente insesgados, definidos como sigue:
Asintticamente insesgado: si el sesgo de un estimador se aproxima a cero, cuando el tamao de la muestra se aproxima al tamao de la poblacin, el estimador se considera asintticamente insesgado. Tales estimadores solan llamarse consistentes, por ejemplo, en Cochran (1977). Exactitud y precisin: una estimada sesgada puede ser precisa pero nunca exacta. Entre los estadsticos, exactitud se refiere al xito en estimar el valor verdadero de una cantidad; precisin se refiere al grado de agrupamiento de valores muestrales alrededor de su propio promedio, el cual s es sesgado, no puede ser el valor verdadero.
Al disparar dardos a un blanco o diana, si los dardos se ponen en el crculo central pequeo se puede decir que los disparos fueron precisos y exactos. Si otros disparos se ubican en el crculo exterior, pero agrupados en la parte superior (en la hora 12 en la cara de un reloj), se podra decir que son igualmente precisos pero de ninguna manera exactos. Otra serie de disparos podran pegar de una manera dispersa en toda la diana; se dira que no es precisa aunque en el promedio
10
podra ser exacta. Otro caso ms sera una serie de disparos que ni son precisos ni son exactos. Esto se ilustra en la Figura 1.
Insesgado (Inexacto) x x Impreciso x x x Insesgado (Exacto) x x Sesgado (Inexacto) xx x x x x x Sesgado (Inexacto) x x x
Preciso
x x x
Figura 1. Ejemplo de sesgo, precisin y exactitud. Las marcas x indican el lugar donde se clavaron los dardos disparados. Lo disperso de los dardos en cada serie, alrededor de su propia ubicacin promedio, refleja la precisin. La distancia entre la ubicacin promedio de cada serie de disparos y el centro de la diana identifica el sesgo o la exactitud.
Una serie de mediciones cuidadosas en una posicin fija en el tronco de un rbol, con una forcpula, en la que uno de sus brazos no es perpendicular a la regla graduada, podra ser precisa, pero no exacta. Ya que la forcpula no est ajustada, los valores medidos estarn distantes del valor verdadero (sesgo ) y la estimada del dimetro ser inexacta. Si la forcpula estuviera ajustada pero se usa con descuidado, la medicin sera insesgada y ni precisa ni exacta. Por lo general tratamos de usar estimadores que predicen un parmetro de manera ms confiable que otros comparables, donde la confiabilidad se mide usualmente por la razn de los errores medios cuadrados de los estimadores. Tales estimadores se llaman eficientes.
E. Variables: Continuas y Discretas
La variacin es un hecho de la vida. Por ello, atender algunos de los problemas de muestreo creados por la variacin es una parte importante para hacer inferencias vlidas. Todos los objetos tienen caractersticas como tamao, forma o color. Una caracterstica que vara de una unidad a otra se llama una variable. En una poblacin de rboles, su altura es una variable, como tambin los son su dimetro, su nmero de conos, su volumen, su clase de forma y su especie. El nmero de personas en cada grupo de recreacin es una variable, como lo son su gnero, su edad, etctera. Una variable que se expresa en una escala numrica de medicin, donde cualquier intervalo de sta puede, si se desea, subdividirse en un nmero infinito de valores, se dice que es continua, por ejemplo, tiempo de recreacin, altura, peso, precipitacin y volumen. Las variables cualitativas y aqullas que se representan por valores enteros o razones de nmeros enteros se dice que son discretas. Se pueden reconocer dos tipos de variables discretas: atributos y conteos. Un atributo
11
se refiere a unidades que se clasifican por tener o no cierta cualidad, como ser de cierta especie o no serlo, o estar vivo o muerto. Con frecuencia, algunos resultados se expresan como una proporcin o porcentaje, por ejemplo, incidencia de roya en plntulas de cierta especie de pino, supervivencia de arbolillos plantados o porcentaje de usuarios de cierto pas en un rea de recreacin. Un conteo se refiere a unidades descritas por un nmero, como personas en un grupo de recreacin, gusanos en un cono y brotes en el tocn de un rbol. Se distingue entre variables continuas y discretas porque los dos tipos de datos pueden requerir procedimientos estadsticos diferentes. La mayora de los mtodos de muestreo y los procedimientos computacionales que se discuten en este libro son para usarse en variables continuas. Los procedimientos para variables discretas, por lo general son ms complejos. A menudo las variables discretas se pueden tratar como continuas, sobre todo para tamaos de muestra grandes y un gran nmero de clases.
F. Funciones de Distribucin
Las funciones de distribucin para poblaciones muestran la frecuencia relativa con la cual ocurren los diferentes valores de la variable. Dada una de esas funciones, se puede estimar la proporcin de unidades cuyo tamao se encuentra entre ciertos lmites. Cada poblacin tiene su propia funcin de distribucin distintiva, pero sta puede ser aproximada por ciertos tipos generales de funciones, como la normal, la binomial y la Poisson. La distribucin normal, en forma de campana y conocida por la mayora de ingenieros forestales, a menudo se usa cuando se trata con variables continuas. La distribucin binomial se usa con atributos. La distribucin Poisson se usa con conteos que no tienen lmite superior fijo, particularmente si el cero o conteos muy bajos tienden a predominar. Algunas de las distribuciones ms importantes se describen en el Apndice 2. La forma de la funcin de distribucin dicta el tratamiento estadstico apropiado para un conjunto de datos, mientras que su forma exacta rara vez ser conocida. Algunos indicadores se pueden obtener de los datos de la muestra o por la familiaridad general con la poblacin. Los mtodos para atender datos con una distribucin normal son ms simples que la mayora de los mtodos que se han desarrollado para otras distribuciones. Afortunadamente, se ha demostrado que cualquiera que sea la distribucin de una variable, las medias de muestras grandes tienden a seguir una distribucin que se aproxima a la normal. A menudo, esta aproximacin a la normal se usa para evaluar la confiabilidad de las estimadas basadas en una muestra.
G. Herramientas de Trabajo 1. Notacin
Al describir varios mtodos de muestreo, es frecuente el uso de subndices, parntesis y smbolos de sumatoria. Estos smbolos son, como los ms familiares smbolos de +, -, o =, una forma concisa de expresar ideas que sera enredado ponerlas en lenguaje convencional. Usarlos y entenderlos es asunto de prctica.
12
Subndices. La apariencia de xi, xik, zjk o yilmn perturba a quien no est acostumbrado a estos smbolos. An as, interpretar esta notacin es simple. En xi, el subndice i significa que x puede tomar diferentes formas o valores. Un valor particular para i indica cul forma o valor de x est siendo referido; i puede implicar una caracterstica particular de un individuo y xi puede ser su altura, x2 su peso, x3 su edad, etctera. O el subndice podra referirse a un individuo en particular. En este caso, x1 podra ser la altura del primer individuo, x2 la del segundo, x3 la del tercero. El significado que se pretenda ser claro en el contexto.
Una variable, digamos x, a menudo se identificar en ms de una manera. As, podramos querer referirnos a la edad del segundo individuo o a la altura del primero. Esta clasificacin dual se logra utilizando dos subndices. En xik, la i podra identificar la caracterstica (para altura, i = 1; para peso, i = 2; para edad, i = 3) y k podra usarse para designar al individuo al que nos referimos. As, x2,7 se referira al peso (i = 2) del sptimo (k = 7) individuo. Este procedimiento se puede extender cuanto sea necesario. Si los individuos, en el ejemplo de arriba, fueran de diferentes grupos, podramos utilizar otro subndice (digamos j) para indicar el grupo. El smbolo xijk indicara la caracterstica i-sima del k-simo individuo del grupo j-simo.
Sumatoria. Para indicar que varios valores (digamos seis) de una variable (xi) deben sumarse, escribimos (x1 + x2 + x3 + x4 + x5 + x6) o, una forma ms corta, (x1 + x2 +...+ x6). Los tres puntos (...) indican que continuamos de la misma manera para todos los valores, desde x3 hasta x6. La
misma expresin puede ser ms compacta, como
x . En palabras, esto indica sumar todos los

i =1 i
valores de xi, haciendo que i vaya de 1 hasta 6. El smbolo es la letra griega sigma mayscula, que indica que debe hacerse la suma. La x dice lo que debe sumarse y los nmeros, arriba y abajo de , indican los lmites sobre los cuales el subndice i deber variar. Si todos los valores en una serie deben sumarse, el rango de la sumatoria a veces se omite en ese signo, xi , xi o a veces
xi.
x . Estas expresiones indican que la sumatoria debe hacerse sobre todos los valores de
El mismo principio se extiende a variables que se identifican por dos o ms subndices. Se puede usar un signo de sumatoria para cada subndice. Entonces, podramos tener
x
i =1 j =1
ij
. Esto nos
indica sumar todos los valores de xij, si i tiene valores de 1 hasta 3 y j desde 1 hasta 4, escrito en forma larga, esto significa (x11 + x12 + x13 + x14 + x21 + x22 + x23 + x24 + x31 + x32 + x33 + x34). Como para un solo subndice, cuando se deben sumar todos los valores en una serie, el rango de la sumatoria se puede omitir y, algunas veces, un solo smbolo de sumatoria es suficiente. La sumatoria de arriba podra simbolizarse por
x , xij
ij i, j
y aun por
x . Si un valor numrico
se sustituye por una de las letras en el subndice, la sumatoria se ejecuta, dejando que el otro subndice vare y mantiene el primer subndice con el valor especificado. Como ejemplo,
x
j =1
3j
= ( x31 + x32 + x33 + x34 ) y
x
i =1
i2
= ( x12 + x22 + x32 + x42 + x52 ) .
13
y y
i j i
indica que queremos sumar ambos i y j, desde 1 hasta 3, pero incluyendo slo los valores
cuando i j. La suma escrita en forma larga sera y1y2 + y1y3 + y2y1 + y2y3 + y3y1 + y3y2.
Parntesis o corchetes. Cuando otras operaciones deben realizarse junto con la suma, los parntesis pueden utilizarse para indicar el orden de las operaciones. Por ejemplo, xi2 nos
i
indica elevar al cuadrado cada valor de xi y entonces sumar estos valores cuadrados. Pero
xi indica sumar todos los valores de xi y entonces elevar al cuadrado esa suma. i
2
La expresin
x
i j
2
2 ij
indica elevar al cuadrado cada valor de xij y entonces sumar los cuadrados.
Pero xij indica que cada valor i debe sumarse primero sobre todos los valores de j. i j Despus, esta xij se eleva al cuadrado y estas sumas cuadradas se suman sobre todos los j valores i. Si el rango de j es de 1 a 4 y el rango de i es de 1 a 3, esto significa:
4 2 2 2 xij = ( x11 + x12 + x13 + x14 ) + ( x21 + x22 + x23 + x24 ) + ( x31 + x32 + x33 + x34 ) . i =1 j =1
3 2
La expresin xij nos dice sumar los valores de xij sobre todas las combinaciones de i y i j de j y entonces elevar al cuadrado el total.
3 4 2 As, xij = ( x11 + x12 + x13 + x14 + x21 + x22 + x23 + x24 + x31 + x32 + x33 + x34 ) . i =1 j =1
Cuando ejecutan operaciones que involucran dos o ms variables diferentes, se aplica el mismo 3 3 3 principio: xi yi = x1 y1 + x2 y2 + x3 y3 , pero xi yi = ( x1 + x2 + x3 )( y1 + y2 + y3 ) . xi2 no i i =1 i =1 i =1
siempre es igual que xi . De manera similar, i
2
x y
i i
no es igual que xi yi . i i
Factorial. Por conveniencia, usamos la siguiente notacin matemtica para factoriales, n! = n(n1) (n-2)... 1, donde n es un entero y 0! = 1.
14
2. Caracterizacin de una distribucin mediante medidas de tendencia central y de dispersin
La distribucin de valores de la poblacin de una variable se caracteriza por constantes o parmetros como la media y la varianza. La tendencia central proporciona alguna idea del valor tpico o valor medio de la distribucin de una variable. Las principales medidas de tendencia central usadas son la media, la mediana y la moda. Las medidas de dispersin indican qu tanta heterogeneidad hay en la distribucin de la variable; compendian el grado en que los valores de la variable difieren entre s. Las ms comunes son la varianza o su raz cuadrada, la desviacin estndar, y el rango o amplitud.
Medidas de tendencia central. Probablemente el parmetro ms conocido y usado es la media. Dada una muestra donde todas las unidades tienen la misma probabilidad de seleccin, la media de la poblacin se estima por:
y=
y
i =1
(1)
n es el tamao de la muestra y yi es el valor de la variable en la unidad de muestreo i. Por ejemplo, si tenemos las alturas de cinco rboles de 10 que existen, con valores de 20, 20, 25, 30 y 20 + 20 + 25 + 30 + 35 35 m, entonces la altura media estimada para los 10 rboles es y = = 26 m. 5
En ocasiones, se pueden tiles otros estimadores de tendencia central. Por ejemplo, la mediana es el valor tal que la mitad son ms grandes y la otra mitad son menores que ese valor, en este ejemplo la mediana sera 25. La moda es el valor ms comn que ocurre en el conjunto de datos, el cual sera 20 en este caso. La mediana, que es el valor central despus de ordenar las datos de menor a mayor, tiene alguna utilidad para estimar la tendencia central en poblaciones altamente asimtricas; el ejemplo clsico es el ingreso de la gente: en un pas hay un nmero reducido de personas que tienen ingresos de varios millones de dlares al ao y otros con menos de $10,000 dlares, esto hace que la media de la muestra sea un indicador pobre de la tendencia central y, por lo tanto, la mediana sera ms apropiada. De manera similar, en un rodal generado por rboles semilleros, la presencia de algunos grandes dimetros de esos rboles semilleros puede hacer que la mediana sea una estimada ms significativa como medida de tendencia central en tal rodal. Si el inters es identificar rodales infestados por descortezador donde slo los rboles recientemente atacados se pueden rescatar, puede ser deseable identificar rodales donde tales rboles son los ms comunes y la moda sera el mejor indicador de eso. Johnson (2000) proporciona descripciones detalladas de las tres medidas de tendencia central dadas arriba y de otras. En este libro nos enfocaremos en la media y el correspondiente total Y = Ny , donde N es el nmero total de unidades de muestreo en la poblacin. Una medida de dispersin. Aunque existen varias medidas de dispersin, slo discutiremos la varianza o su raz cuadrada, la desviacin estndar, porque con mucho son las ms usadas en estadstica.
15
En cualquier poblacin, como un rodal de rboles, la caracterstica de inters suele mostrar variacin. Por ejemplo, habr variacin en la altura de los rboles. Los rboles ms viejos sern ms altos que los rboles jvenes y ambos variarn alrededor de la media general de la altura de los rboles en el rodal. Se necesitarn ms observaciones para una buena estimada de la altura media de un rodal donde las alturas varan de 2 a 80 m, que en otro donde el rango es de 10 a 15 m. La medida de variacin ms usada por los estadsticos es la varianza. La varianza de una caracterstica de la poblacin, como la altura de los rboles, es una medida de la dispersin de los valores individuales alrededor de su media. Una varianza grande indica una amplia dispersin y una varianza pequea refleja poca dispersin. Esta varianza es una caracterstica de la poblacin (un parmetro ) y se denota por 2 (sigma cuadrada). La mayora de las veces no conocemos la varianza de la poblacin, as que tiene que ser estimada de los datos de una muestra. Para la mayora de los tipos de medidas, la estimada de la varianza de una muestra aleatoria simple se calcula por:
s2 =
( y y )
i =1 i
n 1
(2)
Donde s2 es la estimada de la muestra de la varianza de la poblacin y y es la media aritmtica de la muestra, como se defini en la Ecuacin (1) de arriba. Algunas veces, el clculo de la varianza de la muestra se simplifica reescribiendo esa ecuacin como:
n yi n n 2 2 2 i =1 y yi ny i n = i =1 s 2 = i =1 n 1 n 1
2
(3)
Suponga que tenemos observaciones sobre tres unidades con los valores 7, 8 y 12. Para esta muestra la estimada de la varianza es:
s2 =
(7
+ 82 + 122 ) 2
27 2 3 = 257 243 = 7 2
Note que las unidades de la varianza son el cuadrado de las unidades en las observaciones. Si las observaciones son de altura en metros (m) entonces la varianza ser en m2. Si las observaciones son sobre volumen en m3, entonces la varianza ser en m3 al cuadrado. Para evitar acertijos, no mostraremos las unidades de las varianzas. Tampoco distinguiremos entre los valores de la poblacin Yi y los valores de la muestra yi. Nuestra experiencia ha mostrado que esta distincin es innecesaria para los objetivos de este libro y slo confunde. Desviacin estndar. Es la raz cuadrada de la varianza y se expresa en las mismas unidades que la media y las observaciones de la variable. Se simboliza por s, en el ejemplo de arriba sera
16
estimada por s = 7 = 2.6458 . Al igual que la varianza, el uso de la desviacin estndar es frecuente en estadstica.
3. Errores estndar y lmites de confianza
Las estimadas muestrales estn sujetas a variacin, al igual que las unidades individuales en una poblacin. El dimetro medio de un rodal estimado de una muestra de tres unidades ser diferente de aqullos estimados de otras muestras del mismo rodal, aunque cada una de ellas tambin tenga tres unidades. Una estimada podra ser cercana a la media de la poblacin, otras podran ser muy grandes o muy pequeas con respecto a esa media. Las estimadas varan porque se observan diferentes unidades en cada una de las muestras. Tambin, por lo general, se esperara que una muestra de tamao seis genere mejores estimadas que una de tamao tres. Es deseable tener alguna indicacin de qu tanta variacin se podra esperar entre las estimadas muestrales. Una estimada del dimetro medio de rboles que vare de 11 a 12 cm, inspirar ms confianza que otra que vare de 7 a 16 cm, aunque el promedio sea el mismo. Como se discuti antes, la varianza y la desviacin estndar ( = desviacin estndar = varianza ) son medidas de la variacin entre individuos en una poblacin. Se emplean medidas similares para indicar cmo una serie de estimadas podra variar. stas se llaman varianza y error estndar de la estimada ( y = error estndar de y = varianza de la estimada de y ). El trmino error estndar de la
estimada se enuncia como error estndar cuando la estimada referida es obvia. El error estndar simplemente es una desviacin estndar, pero entre estimadas ms bien que entre unidades individuales. De hecho, si se obtuvieran varias estimadas a travs de muestreos repetidos en una poblacin, su varianza y error estndar se podran calcular con la Ecuacin (3). Sin embargo, el muestreo repetido es innecesario, la varianza y el error estndar se pueden obtener de un solo conjunto de unidades muestrales. La variabilidad de una estimada depende del mtodo de muestreo, del tamao de la muestra y de la variabilidad entre las unidades individuales en la poblacin; stas son las piezas de informacin necesarias para calcular la varianza y el error estndar. Para cada uno de los mtodos de muestreo que adelante se describen, se dar un procedimiento para calcular el error estndar de la estimada. El clculo de un error estndar se necesita porque una estimada muestral puede carecer de significado sin alguna indicacin de su confiabilidad. Si se requieren 100 pjaros de una especie rara para mantener o hacer crecer su poblacin en un bosque, nos podramos sentir bien si el administrador nos dice que estima que hay 150. Pero, qu tan til es esa informacin? Si posteriormente encontramos que la estimada real es entre 0 y 300, tendremos una expresin mucho ms realista de la situacin verdadera y nos daremos cuenta de que todava no sabemos si la poblacin de aves sobrevivir o no, y que necesitamos obtener mejor informacin. La Figura 2 tomada de Czaplewski (2003), ilustra la importancia de un buen tamao de muestra para construir intervalos de confianza.
17

Valor verdadero
N=41 n=4
N=124 n=12
N=403 n=40
N=1240 n=124
Frecuencia
0 2%
4% 6% 8% 10% 12% 14%
0% 2%
4% 6% 14% 0% 2%
4% 14% 0% 2% 4% 14%
Escala nacional (Base para las conclusiones de Tuker y Townshend)
Escala subcontinental
Escala continental Zonas ecoflorsticas
Escala global
Figura 2. Extensin estimada de la deforestacin tropical con una muestra de 10% de escenas de satlite Landsat (Czaplewski, 2003).
Dado el error estndar de la estimada es posible estimar lmites que sugieren qu tan cerca podramos estar del parmetro que se estima. stos son llamados lmites de confianza. Para muestras grandes, podemos tomar como una regla general gruesa, que el parmetro est dentro de un intervalo formado por un error estndar ms o menos alrededor de la media estimada, a menos que ocurra 1 en 3 oportunidades en el muestreo. Entonces, para un dimetro medio de rboles de una muestra de 16 cm con un error estndar de 1.5 cm, podemos decir que el dimetro medio verdadero est en algn punto entre 14.5 y 17.5 cm. Al hacer esta aseveracin muchas veces (con una muestra diferente en cada ocasin), estaremos en lo correcto dos veces de cada tres que lo hagamos. Una de cada tres estar equivocada a causa de la variacin natural del muestreo. Los valores dados por la estimada de la muestra ms o menos un error estndar son llamados lmites de confianza a 67 por ciento. Ampliando estos lmites, podemos tener ms confianza de que entre ellos se encontrar el valor verdadero. As, el rango dado por la estimada, ms o menos dos desviaciones estndar, incluir al parmetro a menos que ocurra una oportunidad en 20. Estos son llamados lmites de confianza a 95 por ciento. Los lmites de confianza a 99 por ciento se definen por la media ms o menos 2.6 errores estndar e incluirn a la media verdadera a menos que ocurra una oportunidad en 100. Se debe enfatizar que este mtodo para calcular lmites de confianza slo dar aproximaciones vlidas para muestras grandes. La definicin de lo que es una muestra grande depende de la poblacin misma pero, en general, una muestra menor que 30 unidades no sera considerada grande. Algunas tcnicas para calcular lmites de confianza se discutirn ms adelante para unos pocos mtodos de muestreo.
4. Expansin de varianzas y de errores estndar
Con frecuencia, una estimada se multiplica por una constante para generar estimadas de otros parmetros. Por ejemplo, de la estimada de la media a la estimada del total para una poblacin. Si un inventario se ha hecho usando sitios de muestreo de un quinto de hectrea (2,000 m2), el volumen medio por parcela calculado tendra que multiplicarse por 5 para expresarlo por hectrea, o por 4,000 para expandirlo a un predio de 800 ha. Ya que expandir una estimada de esta manera tambin debe expandir su variabilidad, ser necesario calcular la varianza y el error estndar para estos valores expandidos. Esto se hace
18
Frecuencia
fcilmente. Si la variable y tiene varianza s2 y esta variable se multiplica por una constante, digamos k, entonces el producto (ky) tendr una varianza de k2s2. Suponga que el volumen medio estimado para sitios de un 1/5 de hectrea es de 14 m3 con una varianza de la media de 25 y un error estndar de 5 m3. El volumen medio por hectrea es: 5(14) = 70 m3 y la varianza de esta estimada es (52) (25) = 625, con un error estndar de 25 m3, tambin para una hectrea. Note que si la desviacin estndar de y es s o el error estndar de y es s y , entonces la desviacin estndar de ky es ks y el error estndar de k y es ks y . Esto tiene sentido ya que las constantes no tienen variabilidad. As, en el caso de arriba, puesto que el error estndar de la media estimada para un quinto de hectrea es 5, el error estndar del volumen medio estimado por hectrea es (5) (5) = 25. Tambin se puede sumar una constante a una variable. La adicin no afecta la variabilidad y no requiere ajustes para la varianza o los errores estndar. Entonces, si z = y + k, y 2 es una variable y k una constante, sz2 = s y . Esta situacin surge cuando, para fines de clculo, los datos se codifican por la sustraccin de una constante. La varianza y el error estndar de los valores codificados y no codificados es la misma. Suponga que tenemos tres observaciones 127, 104 y 114. Para facilitar el clculo, stos podran codificarse restando 100 de cada uno, para tener 27, 4 y 14. Esta prctica era muy importante en el pasado, cuando las computadoras tenan capacidades limitadas y se presentaban problemas al manipular grandes valores, especialmente al calcular varianzas. La varianza de los valores codificados es:
s2 =
( 27
+ 42 + 142 ) 2
452 3 = 133
Que es la misma varianza de los valores originales:
s2 =
(127
+ 1042 + 1142 ) 2
3452 3 = 133
5. Coeficiente de variacin
El coeficiente de variacin, C, es la razn de la desviacin estndar a la media: C= s y (4)
As, para una muestra con media y = 10 y desviacin estndar s = 4, C= 4 = 0.4 40 por ciento 10
19
La varianza, nuestra medida de variabilidad entre las unidades, suele estar relacionada con el tamao de las unidades de la media; observaciones grandes tienden a tener una varianza ms grande que observaciones pequeas. Por ejemplo, la varianza en una poblacin de alturas de rboles sera ms grande que la varianza de las alturas de una poblacin de arbustos. El coeficiente de variacin expresa la variabilidad en trminos relativos. La poblacin de alturas de rboles podra tener una desviacin estndar de 4.4 m, mientras que la poblacin de arbustos tuviera una desviacin estndar de 0.649 m. En unidades absolutas, los rboles son ms variables que los arbustos. Pero si la altura media de los rboles es 40 m y la altura de los arbustos es 5.9 m, las dos poblaciones tienen la misma variabilidad relativa, esto es, un coeficiente de variacin de C = 0.11. La varianza tambin depende de las unidades de medicin usadas. En el ejemplo de arriba, la desviacin estndar de las alturas de los arbustos fue 0.649 m. Si las alturas se hubieran medido en decmetros, la variacin estndar hubiera sido diez veces ms grande (si z = 10y, sz = 10s y ), de 6.49 dm. Pero el coeficiente de variacin hubiera sido el mismo sin importar las unidades de medida. En cualquier caso tendramos: C= s 0.649m 6.49dm = = = 0.11 11 por ciento 5.9m 59dm y
Adems de poner la variabilidad en una base comparable, el coeficiente de variacin simplifica el trabajo de estimar y recordar el grado de variabilidad de diferentes poblaciones. En muchas de las poblaciones con las que un forestal se enfrenta, el coeficiente de variacin podra ser de 100% o mayor. Debido a que, a menudo, es posible suponer el tamao de la media de la poblacin, se puede estimar la desviacin estndar de manera gruesa si se conoce cul podra ser el coeficiente de variacin. Tal informacin es til para planear inventarios forestales.
6. Covarianza, correlacin y regresin
La covarianza y la correlacin son medidas de la relacin que existe entre la variabilidad de dos variables (covariabilidad). En algunas aplicaciones de muestreo se miden dos o ms variables en cada unidad de muestreo. Al medir la produccin de forraje, por ejemplo, podramos registrar el peso verde del pasto cortado a una altura de 1 cm de una parcela circular de 1 m de dimetro. Ms tarde podramos registrar el peso seco de la misma muestra y esperaramos que hubiera una relacin positiva entre estas dos variables. Suponga que las dos variables se etiquetan como y y x. Si los valores grandes de y tienden a estar asociados con los valores grandes de x, la covarianza ser positiva. Si los valores grandes de y estn asociados con valores pequeos de x, la covarianza ser negativa. Cuando no hay asociacin particular entre los valores de y y de x, la covarianza se aproxima a cero. Como la varianza, la covarianza es una caracterstica de la poblacin, un parmetro. Para muestras simples aleatorias, la frmula para la covarianza estimada de y y x ( sxy ) es:
20
sxy =
( x x )( y y )
i =1 i i
n 1
(5)
El clculo de la covarianza de la muestra se simplifica reescribiendo la frmula de la siguiente manera:
n n xi yi n n i =1 i =1 x y xi yi nxy i i n i =1 i =1 = sxy = n 1 n 1
(6)
Suponga que una muestra de n = 6 unidades produjo los siguientes valores de y y x, digamos peso verde y peso seco del forraje del ejemplo de arriba: "i" 1 2 3 4 5 6 Totales y 2 12 7 14 11 8 54 x 12 4 10 3 6 7 42 (2 12) + (12 4) + ... + (8 7) 6 1 54 42 306 378 6 = = 14.4 5
Entonces, sxy =
El valor negativo indica que los valores grandes de y tienden a estar asociados con los valores ms pequeos de x. Es claro que habra dudas sobre este resultado, por lo que se debera examinar con mayor cuidado qu fue lo que pas, ya que uno esperara que los valores grandes de peso seco correspondieran a valores grandes de peso verde. La magnitud de la covarianza, como la de la varianza, a menudo est relacionada con el tamao de las unidades de los valores. Unidades con grandes valores de x e y tienden a tener covarianza ms grande que valores pequeos de x e y. Una medida del grado de asociacin lineal entre dos variables que no se afecta por el tamao de las unidades de los valores es el coeficiente de correlacin simple. Una estimada basada en una muestra del coeficiente de correlacin, R, es:
rxy =
covarianza (x,y) = varianza (x) varianza (y)
sxy
2 2 sx sy
sxy sx s y
(7)
El coeficiente de correlacin puede variar entre -1 y +1. Como en la covarianza, un valor positivo indica que los valores ms grandes de y tienden a estar asociados con los valores ms grandes de x. Un valor negativo indica una asociacin entre los valores grandes de y con los valores ms pequeos de x. Un valor cercano a +1 -1 indica una asociacin lineal fuerte entre las dos variables. Las correlaciones cercanas a cero sugieren que existe poca o nula asociacin lineal.
21
Para los datos dados en la discusin de covarianza, encontramos sxy = 14.4 . Para los mismos
2 2 datos, la varianza muestral de x es sx = 18.4 . Entonces = 12.0 , y la varianza muestral de y es s y
la estimada de la correlacin entre y y x es:

rxy = 14.4 12.018.4 = 14.4 = 0.969 14.86
El valor negativo indica que si x se incrementa, y decrece, mientras que la cercana de r a -1 indica que la asociacin lineal es muy cercana. En este caso tendramos an ms sospechas acerca del resultado y podramos suponer, por ejemplo, que las etiquetas de alguna manera fueron cambiadas, y esperaramos una fuerte relacin positiva entre el peso verde y el peso seco. Algo importante que recordar acerca del coeficiente de correlacin es que es una medida de asociacin lineal entre dos variables. Un valor de r cercano a cero no necesariamente significa que no haya relacin entre las variables, slo significa que no hay una buena relacin lineal (lnea recta). De hecho, podra existir una fuerte relacin no lineal. Recuerde que el coeficiente de correlacin calculado de un conjunto de datos de una muestra es una estimada, precisamente como la media muestral es una estimada. Como la media muestral, la confiabilidad de un coeficiente de correlacin se incrementa con el tamao de la muestra (Tabla 5 del Apndice 3). El anlisis de regresin trata acerca de la relacin entre variables de inters y otras variables consideradas como covariables. La idea es usar la informacin en las covariables para mejorar la estimacin de las variables de inters, ya sea porque la informacin en las covariables est disponible o puede colectarse ms con mayor facilidad o de manera ms barata que en las variables de inters. Por esa razn establecemos una relacin lineal entre la variable de inters y y la covariable x tal que:
yi = + xi + ei , i =1,..., N
(8)
Donde ei , i = 1,..., N son los residuales para la poblacin, con un residual promedio sobre la poblacin denotado por E (ei ) , donde E (ei ) = 0 ; la covarianza de los residuales i y j se denota por E(eiej), donde E(eiej) = 2i si i = j, o E(eiej) = 0 de otra forma, y son coeficientes de regresin que se estimarn de los datos, de tal manera que podamos predecir yi para xi que se muestre, as como estimar la media o el total para la variable y. 2 denota la varianza de y al valor de xi (a menudo, se representa como una funcin de xi como vi = xik . El valor k se supone conocido, k = 0 denota una varianza constante y k = 1 2, a menudo, se usa cuando la varianza de yi se espera que se incremente de manera lineal con alguna funcin de xi). Por lo comn, 2 se estima de los datos.
7. Independencia
Cuando no existe relacin entre dos variables, se dice que son independientes; el valor de una variable no dice nada acerca del valor de la otra. Las medidas comunes de independencia (o falta
22
de ella) son la covarianza y el coeficiente de correlacin. Como se mencion antes, cuando hay poca o nula asociacin entre los valores de las dos variables, su covarianza y correlacin se aproximan a cero (pero recuerde que lo inverso no siempre es cierto; una correlacin igual a cero no prueba que no haya asociacin, slo indica que no hay una relacin lineal). Las variables independientes son raras en poblaciones biolgicas, pero muchas variables tienen poca relacin y, para propsitos prcticos, pueden tratarse como si fueran independientes. Como ejemplo, el crecimiento anual en altura de rboles dominantes de pino es relativamente independiente del rea basal del rodal, dentro de lmites ms o menos amplios (digamos 12 a 30 m2/ha). Tambin existe considerable evidencia de que el crecimiento peridico en volumen de rboles de pino est poco asociado con el rea basal del rodal en un rango amplio, esto es, son casi independientes. El concepto de independencia tambin se aplica a estimadas muestrales. En este caso, sin embargo, la independencia (o la falta de ella) puede deberse al mtodo de muestreo, as como a la relacin entre las variables bsicas. Se reconocen dos situaciones: se han hecho dos estimadas del mismo parmetro o se tienen estimadas de dos diferentes parmetros. En la primera situacin, el grado de independencia depende por completo del mtodo de muestreo. Suponga que se han hecho dos inventarios separados para estimar el volumen medio por hectrea en un bosque. Ya que se involucran diferentes sitios de muestreo, las estimadas del volumen medio de estos inventarios se consideraran como estadsticamente independientes. Pero suponga que una estimada se hizo de un inventario y entonces se seleccionaron sitios de muestreo adicionales y se hace una segunda estimada usando datos de los sitios del primero y del segundo inventarios. Puesto que algunas de las observaciones se usan en ambas estimadas, stas seran dependientes. En general, dos estimadas de un solo parmetro no son independientes si algunas de las observaciones se usan en ambas. El grado de asociacin depender de la proporcin de observaciones comunes en las dos estimadas.
Problema. Dos muestras aleatorias de tamao n se toman sin reemplazo de una poblacin. Por mera casualidad, las dos muestras son idnticas. Las dos estimadas son independientes? Respuesta. S, son independientes.
Problema. En el ejemplo anterior, que hara para combinar las dos muestras? Respuesta. La solucin con ms sentido sera tratarlo como si fuera una muestra de tamao 2n con reemplazo, aun cuando cada muestra originalmente se hubiera tomado sin reemplazo. La ventaja de esto es que la varianza as estimada, sera una sobreestimacin de la varianza verdadera.
En la segunda situacin, estimadas de dos parmetros diferentes, el grado de independencia puede depender del mtodo de muestreo y del grado de asociacin entre las variables bsicas. Si la altura media y el dimetro medio, en una poblacin de rboles, se estimaron seleccionando aleatoriamente un nmero de rboles individuales y midindoles la altura y el dimetro de cada
23
rbol, las dos estimadas no seran independientes. La relacin entre las dos estimadas (usualmente medida por su covarianza o correlacin) sera, en este caso, dependiente del grado de asociacin entre la altura y el dimetro de los rboles individuales. Por otro lado, si un conjunto de rboles se usaron para estimar la altura media y otro diferente para estimar el dimetro medio, las dos estimadas seran estadsticamente independientes, aun cuando la altura y el dimetro no son independientes si se miden en el mismo rbol. Una medida del grado de asociacin entre dos estimadas muestrales es esencial para evaluar el error de muestreo de diferentes tipos de inventario. Los procedimientos para calcular la covarianza de estimadas se mostrarn cuando se necesiten.
8. Varianzas de productos, razones y sumas
Ya hemos visto que si una cantidad se estima como el producto de una constante y una variable 2 (digamos Q = kz, donde k es una constante y z es una variable) la varianza de Q ser sQ = k 2 sz2 . As, para estimar el volumen total de un rodal, multiplicamos la media estimada por unidad ( y , una variable) por el nmero total de unidades (N, una constante) en la poblacin. La varianza del 2 total estimado ser N 2 s y . Su desviacin estndar (o error estndar ) ser la raz cuadrada de su varianza o Ns y .
Varianza de un producto. En algunas situaciones, la cantidad que nos interesa se estimar como el producto de dos variables y una constante: Q1 = kyx
_
(9)
2 2 Donde: k = una constante y y y x = variables con varianzas s y y sx y covarianza sxy .
Para muestras grandes, la varianza de Q1 se estima por:

2 2 sy 2sxy sx 2 2 = k2 + y 2 sx 2 xysxy s =Q 2 + 2 x2 sy . y x xy 2 Q1 2 1
(10)
Como ejemplo de tales estimadas, considere un proyecto de inventario forestal que utiliza conteo de puntos sobre fotografas areas, para estimar la proporcin de un rea que est cubierta por bosques, ( p ) y un muestreo en campo, para estimar el volumen medio por hectrea ( v ) de la zona arbolada. Para estimar el rea arbolada, el rea total del terreno (N) se multiplica por la proporcin arbolada estimada. sta, a su vez, se multiplica por el volumen medio en una hectrea arbolada para dar el volumen total. En forma de frmula, esto es:
Volumen total = N p v
24
Donde: N = rea total del terreno, en hectreas (una constante conocida); p = proporcin estimada del rea que est arbolada; v = volumen medio estimado por hectrea arbolada. La varianza estimada del volumen total sera: s2 sv2 2 s pv p s = ( Npv ) 2 + 2 + . p v pv
2 2 _
Si las dos estimadas se hacen de inventarios separados, entonces se asumen independientes y la covarianza se hace igual a cero. Esta sera la situacin donde p se estima de un conteo de puntos en fotografas areas y v a partir de un conjunto independiente de localidades en el terreno. Con la covarianza igual a cero, la frmula de la varianza sera: s2 s2 s = ( Npv ) p2 + v2 p v
2 2 _
Varianza de una razn. En otras situaciones, la cantidad de inters se estima como la razn de dos estimadas multiplicada por una constante. As, tenemos:
Q2 = k y x
(11)
Para muestras grandes, la varianza de Q2 puede ser aproximada por:

2 sy s 2 2s s = Q 2 + x2 xy x xy y 2 Q2 2 2
(12)
Un estimador ms robusto, que todava se usa a menudo, por ejemplo por Freese (1962) o Cochran (1977), es:
)= vJ (Y rm
N 2 (1 f ) X 2 (n 1) D(2j )
j =1
(13)
donde f = n/N, X es la media de la poblacin para la variable x, y para cada j en la muestra, D( j ) es la diferencia entre la razn
(ny y j ) (nx x j ) y el promedio de estas n razones (Schreuder et al. 1993).
Varianza de una suma. Algunas veces podramos desear la suma de dos o ms variables como la estimada de cierta cantidad. Con dos variables tendramos:
25
Q3 = k1 x1 + k2 x2
(14)
2 Con k1 y k2 siendo constantes y x1 y x2 variables con varianzas s12 y s2 y covarianza s12 .
La varianza de esta estimada es:

2 2 2 sQ = k12 s12 + k2 s2 + 2k1k2 s12 3
(15)
Si medimos el volumen de madera aserrada (x1) y el volumen de postes (x2) en los mismos sitios y en las mismas unidades de medicin, y encontramos que sus volmenes medios son x1 y x2 ,
2 con varianzas s12 y s2 y covarianza s12 , entonces el volumen total medio de madera en postes y en madera para asierre sera x1 + x2 . La varianza de esta estimada es: 2 s 2 = s12 + s2 + 2 s12 .
(16)
Por supuesto, se hubiera obtenido el mismo resultado si se totalizan los valores de x e y para cada parcela y se calcula entonces la varianza de los totales. Esta frmula tambin se usa al calcular una media ponderada. Por ejemplo, podramos tener muestras de inventario de dos predios forestales: Predio 1 Predio 2 Tamao 3,200 ha 1,200 ha Volumen medio estimado por ha 48 m3 74 m3 Varianza de la media 11.25 12.4 Al combinar estas dos medias para estimar la media general del volumen por hectrea, necesitamos ponderar cada media por el tamao de l predio, antes de sumarlas y dividir la suma ponderada entre la suma de las ponderaciones. Esto es lo mismo que estimar el volumen total en cada predio, sumar esos totales y dividir la suma entre la superficie total de ambos predios, para obtener el volumen medio por hectrea. As: x= 3200(48) + 1200(74) = 55.09 3200 + 1200
Ya que las medias por predio se obtuvieron de muestras independientes, la covarianza entre las dos estimadas es cero y la varianza de la estimada combinada sera:
(3200) 2 (11.25) + (1200) 2 (12.40) 3200 1200 2 sx = + = = 6.8727 11.25 12.40 ) ) ( ( (4400) 2 4400 4400
2 de una suma La regla general para la varianza sQ
26
Q = k1 x1 + k2 x2 + ... + kn xn = ki xi
i =1
(17)
es:
2 2 2 2 sQ = k12 s12 + k22 s2 + ... + kn sn + 2k1k2 s12 + 2k1k3 s13 + ... + 2kn 1kn s( n 1) n
= ki2 si2 + ki k j sij

i =1 i j
(18)
Donde ki, i = 1, 2,n son constantes, xi son variables con varianzas si2 y covarianza sij , para i = 1,, n; y j ( i ) = 1,..., n .
9. Transformacin de variables
Algunos procedimientos estadsticos de estimacin ya descritos, y otros que se vern adelante, implican ciertas suposiciones acerca de la naturaleza de la variable que se estudia. Cuando una variable no se ajusta a esas suposiciones para un procedimiento particular, se deben usar otros mtodos o la variable debe cambiarse para que se ajuste a las suposiciones o, como se dice en estadstica, transformarse. Una suposicin comn es que la varianza es independiente de la media. Algunas variables (como aqullas que siguen una distribucin binomial, como la proporcin de rboles que son de una especie particular o distribuciones Poisson, como el conteo del nmero de rboles) en general tienen varianzas que de alguna manera estn relacionadas con la media de la poblacin, ya que las medias grandes tienen varianzas grandes. Para emplear procedimientos que suponen que no hay relacin entre la varianza y la media, con frecuencia tales variables se transforman. La transformacin, si se selecciona bien, pone los datos originales en una escala en que su variabilidad es independiente de la media. Algunas transformaciones comunes son la raz cuadrada, el arco seno y el logaritmo. Si un mtodo supone que hay una relacin lineal entre dos variables, a menudo es necesario transformar una o ambas variables para que satisfagan esa suposicin. Por ejemplo, la relacin entre el volumen total del rbol y su dimetro normal usualmente es curvilnea, mientras que la relacin entre volumen y dimetro normal al cuadrado es lineal. Tambin se puede transformar una variable para convertir su distribucin a la normal, en la que se basan muchos de los mtodos estadsticos. Kutner et al. (2003) y Carroll y Rupert (1988) ofrecen buenas discusiones sobre transformaciones. Finalmente, ntese que una transformacin no es lo mismo que una codificacin, digamos dividiendo todos los nmeros entre 1,000, la cual se hace para simplificar los clculos. Tampoco es una forma de magia matemtica dirigida a obtener respuestas acordes con nociones preconcebidas. Pero la interpretacin de los resultados es ms complicada con las transformaciones. Si quisiramos entender una relacin entre el nmero de pjaros por hectrea y la densidad de plantas de cierta especie deseable, explicar una relacin lineal entre log (nmero de pjaros) y log (densidad de plantas) es difcil de razonar aun si esas transformaciones son necesarias para hacer estimaciones estadsticas vlidas. Cuando sea posible, las estimadas
27
deberan retransformarse a la escala original de inters. Esto no siempre se puede hacer directamente, lo que se discute en las referencias citadas.
IV. Estrategias de Muestreo A. Diseos con el Estimador Horvitz Thompson
En este captulo slo discutimos diseos de muestreo probabilstico en una sola fase, esto es, suponemos que existe un marco de muestreo del cual podemos seleccionar una muestra. Esto podra ser un marco de muestreo de rboles, sitios de muestreo de campo, usuarios de recreacin, sitios de campamento o das de muestra para recreacin. Recuerde que una estrategia de muestreo incluye un diseo de muestreo y los estimadores usados. Para un mejor entendimiento, empezaremos con el diseo probabilstico ms simple, el muestreo simple aleatorio (MSA ), para ilustrar los conceptos de probabilidad que subyacen al muestreo. ste se combina con los estimadores simples del total o de la media de la variable de inters para darnos una estrategia de muestreo simple. Lo anterior nos permitir sealar que los estimadores simples de la media y del total son casos especiales del estimador insesgado y de probabilidad desigual, llamado estimador Horvitz Thompson. Despus veremos el caso general de muestreo con probabilidad desigual y notaremos cmo el MSA, el muestreo estratificado, el muestreo por conglomerados, el muestreo con probabilidad proporcional al tamao (PPT) y, en algn grado, el muestreo sistemtico, son casos especiales y por qu son buenos diseos de muestreo para usarse en circunstancias especficas. En el texto se usa una pequea poblacin de tamao 10 con los datos que se muestran en la Tabla 1. Para lectores con inters en computadoras, el Apndice 4 usa una poblacin mapeada ms realista, llamada Surinam, con algunos ejemplos elaborados. Los lectores pueden usar los ejemplos en el texto y otros directamente con el programa R como se muestra en ese apndice. Este conjunto de datos consiste de una poblacin de 60 ha con los troncos de los rboles mapeados de un bosque tropical de Surinam usado y descrito por Schreuder et al. (1997). Esta poblacin, de 6,806 rboles, tiene la ubicacin espacial relativa de los rboles y se puede usar para ilustrar la eficiencia de varias estrategias de muestreo. Tabla 1. Una pequea poblacin usada para ilustrar algunas de las ideas discutidas, donde y = variable de inters y x1 y x2 son covariables. Unidad Edad y = volumen de rbol x1 = rea basal (ab) x2 =ab de sensor remoto 1 5 1 1 2 2 5 2 2 2 3 3 3 3 2 4 6 4 4 2 5 7 5 5 2 6 9 10 10 4 7 10 10 10 4 8 12 10 10 4 9 12 10 20 4 10 15 20 20 4 Y=75 X1=85 X2=30
28
Muestreo simple aleatorio (MSA ). sta es la propuesta ms simple de muestreo probabilstico. Todas las muestras posibles de tamao n (muestras que incluyen n unidades de muestreo) tienen la misma probabilidad de ser elegidas. Todas las unidades muestrales tienen una probabilidad de seleccin de n/N y cada conjunto de dos unidades tiene la probabilidad conjunta de seleccin de n(n 1) en la situacin ms usual de muestreo sin reemplazo. Esto puede parecer difcil de N ( N 1) N! implementar porque hay muestras posibles si el muestreo es sin reemplazo (todas las n !( N n)! n unidades en la muestra son diferentes). Por ejemplo, para una pequea poblacin de tamao 10, 10! = 45 muestras posibles de tamao 2. como la de la Tabla 1, hay 2!(10 2)! Seleccionar unidades distintas es ms eficiente que hacerlo con reemplazo, donde cada unidad puede elegirse y medirse ms de una vez. Esto es intuitivamente razonable, ya que medir ms de una vez una unidad que ya se incluy en la muestra y se midi, no provee nueva informacin, como s lo hace la medicin de una nueva unidad incluida en la muestra. Junto con esto viene el N n n concepto de correccin por poblacin finita fcf = = 1 , basado en la fraccin de N N n = f . El fcf es parte de la varianza estimada e indica que conforme n, el tamao de la muestreo N muestra, se aproxima a N, el tamao de la poblacin, la varianza estimada se aproxima a cero. Esto es as porque estaramos midiendo la poblacin completa y la fraccin de muestreo sera uno, o, dicho de otra forma, el fcf sera cero. A menudo ignoramos el fcf porque muchas poblaciones son bastante grandes y los tamaos de muestra son pequeos, as que el fcf es prximo a uno. El MSA no es difcil de implementar si est disponible una lista de las unidades en la poblacin. Lo nico que debemos asegurar es que la seleccin de una unidad no est influenciada por las otras unidades, sea o no que estn incluidas en la muestra. Por ejemplo, se puede asignar a cada unidad un nmero distinto, desde 1 hasta N, y elegir n nmeros aleatorios distintos entre 1 y N. Para el propsito se puede usar una tabla de nmeros aleatorios (Tabla 1 del Apndice), pero ahora es ms conveniente usar un generador de nmeros aleatorios, tambin dado en el Apndice. El MSA tambin tiene la ventaja de que al tener todas las unidades la misma probabilidad de seleccin, las tcnicas de anlisis aplicables son fciles de aplicar y la estimacin es inmediata y entendible, esto es, al estimar la media o el total Y de una poblacin. El estimador insesgado del total es:
Y=
N yi
i =1
= Ny
(19)
Con un tamao de muestra n, e yi el valor de la variable de inters para la unidad de muestreo i, la varianza del estimador del total es:
29
N 2 ( N n) V (Y ) = Nn
(y Y )
i =1 i
( N 1)
N 2 ( N n) S 2 S2 = N 2 (1 f ) N n n
(20)
Un estimador insesgado de la varianza del estimador es:
) = N ( N n) v(Y Nn
2
( y y)
i =1 i
(n 1)
N 2 ( N n) s 2 N n
(21)
Donde N = nmero de unidades muestrales en la poblacin y s2 = varianza de la muestra.

__ entre N, as que y = Y y su varianza Un estimador y de la media se obtendra dividiendo Y N __ v(Y ) sera v( y ) = 2 . N
Ejemplo:
Suponga que tenemos la pequea poblacin mostrada en la Tabla 1 y nos interesa estimar el volumen promedio por rbol, = Y , o el volumen total Y, para este mini bosque. Una muestra posible de tamao n = 4, es: Muestra 1: Unidad 1 Valor 1 2 2 3 3 4 4
__
El volumen promedio estimado por rbol para la poblacin de rboles es: y= (1 + 2 + 3 + 4) = 2.5 , y la varianza es: 4
s2 =
(1 2.5) 2 + (2 2.5) 2 + (3 2.5) 2 + (4 2.5) 2 (1.5) 2 + (.5) 2 + .52 + 1.52 = = 1.67 (4 1) 3
y v( y ) =
10 4 1.6667 = 0.25 10 4
= 10 2.5 = 25 con varianza estimada Si el total (Y) es de inters, la estimada sera Y ) = 100 0.25 = 25.00 . v(Y
30
Ntese que no es una buena estimada, puesto que la verdadera es Y = 75. Pero para todas las sera 75. Para ilustrar cmo pueden variar muestras de MSA, el valor promedio de Y dramticamente las estimadas con MSA, tomemos otra muestra aleatoria posible tambin de tamao n = 4 de esa poblacin, digamos 1, 2, 9, 10. Muestra 2 Unidad 1 Valor 1 2 2 9 10 10 20
Ahora el volumen medio por rbol estimado sera: y= 1+2+10+20 33 = =8.25 4 4
(1 8.25) 2 + (2 8.25) 2 + (10 8.25) 2 + (20 8.25) 2 s = = 77.58 (4 1)

2
y v( y ) =
10 4 77.58 = 11.64 10 4
= 10 8.25= 82.5 y v(Y ) = 100 11.64 = 1164 . Y
Por lo tanto, la primera es una estimada inexacta y muestra una varianza estimada pequea, mientras que la segunda es ms exacta pero muestra una varianza estimada grande. Esto es algo que puede suceder en el muestreo probabilstico, en especial con MSA, por lo que tenemos otros diseos que tpicamente se comportan mucho mejor en el promedio.
Problema. Cules son las ventajas del MSA ? Identifique al menos una desventaja. Respuesta. La gran ventaja del MSA es la simplicidad de su anlisis. La desventaja, igualmente seria, es que con frecuencia es ineficiente en la estimacin, ya que se pueden obtener muestras probabilsticas ms confiables e informativas con otros mtodos.
Ntese que para la poblacin simple de tamao 10 de arriba, hay
10! = 210 muestras de tamao 4!6! 4 sin reemplazo, pero 715 muestras con reemplazo (ignorando el orden en que las unidades se eligen). Sera ventajoso si pudiramos mejorar la probabilidad de favorecer la seleccin de algunas de estas muestras sobre otras, en el contexto de muestreo probabilstico si se sabe ms sobre la poblacin. Por ejemplo, tiene sentido que las unidades elegidas sean diferentes para ganar ms informacin sobre la poblacin. Por eso, elegir las unidades muestrales sin reemplazo es mejor que hacerlo con reemplazo, si notamos que para un tamao de muestra 4 slo hay 210 muestras distintas tomadas de las 715 posibles con reemplazo, 360 con tres unidades distintas, 135 con dos unidades distintas y 10 con una unidad distinta. Entonces, slo 210/715 = 0.34 de las muestras con reemplazo contienen el mximo de informacin al contener 4 unidades cada una.
31
Problema. Muestre que para poblaciones grandes con tamao de muestra pequeo, no hay diferencia si se usa el muestreo con o sin reemplazo. Respuesta. Especialmente para tamaos de muestra pequeos, se desea la informacin mxima en la muestra tomada. Una muestra consistente de unidades diferentes todas, es mejor que una que tenga duplicaciones. Entonces, la probabilidad de n unidades distintas en la muestra tomadas de N unidades en la poblacin es P(n distintas tomadas de N) = N ( N 1) ( N 2)...( N n + 1) / N n . Por ejemplo, para la poblacin de 10 unidades con un tamao de muestra n = 4, esto es 5,040/10,000 = 0.504. Para una poblacin de 20 unidades con n = 4, esto se convierte en 0.727. Para una poblacin con 100 unidades y n = 4, el resultado es 0.941. Es claro que esta probabilidad es casi igual a 1 para N grande, manteniendo n = 4.
Problema. Un investigador en combustibles se presenta un tanto molesto. l midi la profundidad de la capa orgnica en rodales quemados y no quemados. Para muestras aleatorias de tamao n = 5 en cada rodal, obtuvo los siguientes resultados: para las parcelas quemadas, la profundidad promedio fue 10 cm; para las parcelas no quemadas esa profundidad fue 8 cm. Podra usted explicar que sucedi? Respuesta. Pdale al investigador que calcule los errores estndar de ambas estimadas! Es probable que la variabilidad sea tan alta que una o ambas muestras hayan sido desafortunadas, en el sentido de que produjeron estimadas demasiado altas o demasiado bajas para las parcelas muestreadas. Es probable que los lmites de confianza para las dos estimadas presenten un traslape considerable, lo cual indica que las estimadas no son estadsticamente diferentes; lo que podra, al menos, hacer sentir un poco mejor al investigador, l esperara que la profundidad de la capa en el rea quemada tuviera una profundidad promedio menor que la del rea no quemada.
Con frecuencia se puede hacer una propuesta mejor que el MSA sin reemplazo. Algunas veces, podramos tener conocimiento completo sobre una covariable asociada con la variable de inters, para la que conocemos todos los valores en la poblacin; o bien, podemos obtener esos valores con relativa facilidad. Esta informacin, combinada con la informacin de la variable de inters obtenida en una submuestra de las unidades, se puede usar de diversas maneras en la seleccin de la muestra y en la estimacin. Si se denota por y = variable de inters y x = covariable, se pueden tener numerosos esquemas de seleccin y de estimacin. Muestreo con probabilidad desigual. Una gran ventaja del muestreo con probabilidad desigual es que, para un tamao de muestra fijo, es una generalizacin de otros procedimientos de muestreo en una sola fase. Entender el concepto de muestreo con probabilidad desigual facilita mucho el entendimiento de otros procedimientos y el por qu es ventajoso usarlos en ciertas circunstancias. Permita i ser la probabilidad de elegir la unidad i y ij la probabilidad conjunta de elegir a las unidades i y j. Entonces, el estimador Horvitz Thompson del parmetro Y de la poblacin es:
n y l HT = Y i i =1
i
32
(22)
es un estimador insesgado de Y, con varianza: Y HT
y yj 1 N V YHT = ( i j ij ) i i j 2 i j
( )
(23)
o
y yj 1 N V (YHT ) = wij i 2 i j i j
2
(24)
donde i es la probabilidad de elegir a la unidad i, ij la probabilidad de elegir a las unidades i y j, y wij = i j ij . Note que las Ecuaciones (19), (20) y (21) son casos especiales de las Ecuaciones (22), (23) y (24) respectivamente. En lo que sigue, no daremos la varianza real para las diferentes estrategias de muestreo, ya que todas son casos especiales de la Ecuacin (24). Unos estimadores insesgados basados en una muestra son:
1 n i j ij v1 YHT = ij 2 i j
( )
yi y j i j
(25)
y
n (1 i ) 2 n ij i j yi y j v2 YHT = yi + 2
( )
i =1
i j
ij
i j
(26)
Si el muestreo es con reemplazo (cr) y la probabilidad de elegir la unidad i en una sola eleccin l cr es: es pi, entonces el total estimado Y
1 n y Ycr = i n i =1 pi
(27)
con varianza
1 N y V Ycr = pi i Y n i =1 pi
( )
(28)
y un estimador insesgado de la varianza:
33
v Ycr =
( )
n yi 1 Ycr n(n 1) i =1 pi
(29)
n n(n 1) y todas las ij = , la Ecuacin (22) se reduce a la media N N ( N 1) simple en la Ecuacin (19) para MSA; similarmente, los estimadores insesgados en las Ecuaciones (23) y (24) se reducen al estimador insesgado de la varianza para MSA en la Ecuacin (21). Examinemos con mayor detalle las Ecuaciones (22) y (24). Note que si todas las i =
es constante, de hecho Y, y claramente V (Y ), Si i = kyi , siendo k una constante, entonces Y HT HT sera cero, la situacin ideal. sta slo es una condicin idealizada que no suceder en la prctica, pero que puede ser aproximada. Por ejemplo, en la pequea poblacin mostrada en la Tabla 1 estamos interesados en el volumen total. Si podemos elegir a los rboles de manera proporcional a su rea basal, entonces las razones (yi = volumen del rbol i) / (xi = rea basal del rbol i) son y y casi constantes sobre los 10 rboles, as que i j es cercano a cero. Puesto que nos j i aproximamos al volumen de manera aceptable, usando el rea basal, tal procedimiento debera ser eficiente y se confirma calculando las estimadas de la varianza, que sern prximas a cero. De manera similar, si nuestro inters es el nmero de rboles, es eficiente dar igual peso a cada rbol en la seleccin y el procedimiento de seleccin proporcional al rea basal no lo ser. La idea detrs del muestreo con probabilidad desigual es seleccionar las unidades con una probabilidad proporcional, tan cercana como sea posible, al tamao que tenga la variable de inters en esa unidad.
2
Muestreo estratificado. En este mtodo, la poblacin de inters se divide en subpoblaciones o estratos convenientes. En este caso, la covariable x representa a los estratos, digamos que x = 1 representa al estrato de rboles maduros, x = 2 al estrato de rboles para postes, x = 3 a las reas de matarrasa y x = 4 a las tierras agrcolas en el bosque. sta es una extensin simple, pero poderosa, del MSA. Simplemente se realiza un MSA en cada estrato. La idea detrs de la estratificacin tiene cuatro propsitos: 1. Proveer informacin sobre las subpoblaciones o estratos, y tambin sobre la poblacin completa. 2. Dividir la poblacin en estratos ms homogneos y mejorar la eficiencia de la estimacin, haciendo una distribucin de la muestra ms eficiente. 3. Permitir la aplicacin de diferentes procedimientos de muestreo en estratos diferentes, por ejemplo, el muestreo en la selva del Amazonas tal vez sea muy diferente al muestreo en las pampas u otras reas menos boscosas. 4. Es conveniente, ya que el muestreo se puede hacer desde diferentes campamentos. Cuando una poblacin es ms o menos homognea, el MSA puede ser ms barato que el muestreo estratificado. Un estimador insesgado de la media de la poblacin es:
34
yst = con varianza estimada de la media:
1 N
N
h =1
yh
(30)
k N 2 (N n ) 2 v( yst ) = h2 h h sh Nh h =1 N
(31)
donde yh = media muestral para el estrato h, k = nmero de estratos y Nh y nh son el nmero de unidades muestrales en la poblacin y en la muestra respectivamente, en el estrato h. En la Tabla 1, si estratificamos con base en la variable x2, obtenida con sensores remotos, podramos poner las primeras cinco unidades en el Estrato 1 y las ltimas cinco en el Estrato 2. Es claro que la variabilidad dentro de cada estrato es mucho menor que entre los estratos. Ahora suponga que decidimos elegir una muestra de tamao n = 4, dos unidades en cada estrato, por ejemplo, las Unidades (1 y 3) y (8 y 10). As tenemos: Estrato 1:
n1 = 2, (1 + 3) (1 2) 2 + (3 2) 2 2 y1 = = 2, s1 = = 2, N1 = 5 2 (2 1)
Estrato 2:
n2 = 2, y2 = (10 + 20) (10 15) 2 + (20 15) 2 2 = 15, s2 = = 50, N 2 = 5 2 (2 1)
y, yst = entonces, v ( yst ) = 1 2 52 5 2 780 = 7.8 5 2 + 52 50 = 2 10 5 5 100
( 5 2 ) + ( 5 15) = 8.5
10
= 10 8.5 = 85 con varianza estimada v(Y ) = 100 7.80 = 780 . yY st st
35
Problema. Cundo usara muestreo estratificado y cundo no? Respuesta. Se usa si el inters es sobre diferentes subpoblaciones (estratos) o si los estratos son ms homogneos que la poblacin en conjunto; tambin se usa si son deseables diferentes esquemas de muestreo para diferentes partes de la poblacin. No se usa si se desea simplicidad, por ejemplo, si las diferencias en probabilidad de seleccin no son deseadas. Generalmente, la estratificacin es deseable.
En muestreo estratificado se pueden usar diferentes intensidades de muestreo en cada estrato. En muestreo proporcional, la intensidad de muestreo es proporcional al nmero de unidades en cada estrato. En la distribucin ptima, la varianza general estimada por la Ecuacin (31) o el costo de muestreo total, C, se minimizan. Claro que se requiere conocer o tener una estimada de las varianzas de cada estrato y una funcin de costo, por tal motivo la distribucin ptima usualmente es, a lo sumo, una aproximacin (ver Schreuder et al. 1993 sobre detalles de las distribuciones de muestra ptima y proporcional). Muestreo por conglomerados. Esta es otra extensin del MSA, en la que conglomerados o grupos de unidades muestrales, rboles por ejemplo, se muestrean tambin con MSA. El muestreo por conglomerados es til cuando no se tiene una lista de las unidades muestrales o es costoso obtenerla, lo cual, con frecuencia, es el caso con rboles. Adems, es ms barato visitar y medir grupos o conglomerados de rboles, que hacerlo para rboles individuales, como en el MSA. En muestreo por conglomerados hay dos covariables, por ejemplo, el rea de cada conglomerado que se mantiene igual, digamos sitios de 1 ha, y el nmero de rboles en cada conglomerado que rara vez se conoce y slo llega a saberse para los conglomerados que se muestrean. Para tener mayor eficiencia, los conglomerados deberan ser heterogneos y no homogneos, como en los estratos. El muestreo por conglomerados es ms til cuando no se tiene una lista de unidades muestrales o es costoso obtenerla, donde, adems, el costo de obtener las observaciones se incrementa con la distancia entre las unidades. Debe tenerse un mecanismo para elegir aleatoriamente entre los conglomerados. Suponga que elegimos de manera aleatoria n entre los N conglomerados para ser muestreados y que cada conglomerado se mide completamente para la variable de inters. Entonces, para conglomerados de diferente tamao, un estimador insesgado de la media por unidad, ycl , es:
ycl =
M y
i =1 n i
i.
M
i =1
(32)
donde Mi es el nmero de unidades en el conglomerado i, con un estimador de la varianza:

M ( N n)
i =1 n 2 i
v( ycl ) =
( yi. ycl ) 2
Nn
(n 1)
36
(33)
donde N = nmero de conglomerados en la poblacin, n = nmero de conglomerados es el nmero promedio de unidades por conglomerado en n la muestra y yi. = al total para todas las observaciones en el conglomerado i. Este estimador es asintticamente insesgado, lo que significa que, en tanto n N, el sesgo se aproxima a cero. De los datos de la Tabla 1, tomemos una muestra por conglomerados. Esto no es algo que usualmente se pueda hacer en la prctica, pero supongamos que se puede hacer para ilustrar el punto. Primero lo haremos de una forma indeseable, o sea teniendo variabilidad mnima en los conglomerados. Si ponemos a las Unidades (1, 2) en el Conglomerado 1, a las Unidades (3, 4) en el Conglomerado 2, , y a las Unidades (9, 10) en el Conglomerado 5, tendremos poca variabilidad dentro de cada conglomerado y habr considerable variabilidad entre los conglomerados. Para implementar el muestreo por conglomerados con n = 2, hacemos cinco conglomerados de dos unidades cada uno, como se seala arriba, y seleccionamos dos de esos conglomerados aleatoriamente, como se ve enseguida: Conglomerado i Unidades muestrales Volumen yi. 1 1, 2 1.5 5 9, 10 15 Entonces: seleccionados por MSA, M n =
M
i =1
ycl =
M y
i =1 n i
i.
M
i =1
2 1.5 + 2 15 33 = = 8.25 2+2 4
y:
v( ycl ) =
( N n)
i =1
M i2 M
2 n
( yi. ycl ) 2
Nn
(n 1)
22 22 2 + (1.5 8.25) (15 8.25) 2 2 (5 2) 22 2 = = 27.136 5 2 2 1
= 10 8.25 = 82.5 y v(Y ) = 100 27.136 = 2713.6 As, Y cl cl
Recuerde que para muestreo por conglomerados es deseable una variabilidad considerable dentro de estos. Si ponemos a las Unidades (1, 10) en el Conglomerado 1, a las Unidades (2, 9) en el Conglomerado 2,... y a las Unidades (5, 6) en el Conglomerado 5, tendramos mxima variabilidad dentro de los conglomerados. Suponga que con este arreglo, ahora los siguientes dos conglomerados se elegen: Conglomerado i 1 5 Unidades muestrales 1, 10 5, 6
37
Volumen yi. 10.50 7.5
Entonces:
ycl =
M y
i =1 n i
i.
M
i =1
2 10.5 + 2 7.5 36 = = 9.0 2+2 4
y:
v( ycl ) =
( N n)
i =1
M i2 M
2 n
( yi. ycl ) 2
Nn
(n 1)
22 22 2 + (10.5 9.0) (7.5 9.0) 2 2 (5 2) 22 2 = = 6.75 5 2 2 1
= 10 9.0 = 90.0 y v(Y ) = 100 6.75 = 675.0 . Entonces, Y cl cl
Claramente, basndose en los resultados de las dos muestras, el segundo juego de conglomerados fue ms eficaz que el primero para hacer una estimacin eficiente de la media o el total de volumen.
Problema. Suponga que se desea estimar la edad promedio de los 10 rboles en la Tabla 1. Se permite taladrar un rbol en cada uno de tres conglomerados para determinar la edad y se pueden arreglar los conglomerados como se desee. Cmo se asignaran los rboles a los tres conglomerados? Cmo se asignaran los rboles a tres estratos seleccionando aleatoriamente un rbol de cada estrato? Respuesta. Para maximizar la informacin colectada se sugiere agrupar los 10 rboles para maximizar la variabilidad dentro de los conglomerados para muestreo por conglomerados, contrariamente, para muestreo estratificado se hara para minimizar la variabilidad dentro de cada estrato. Aunque no se proporciona informacin sobre la edad de los rboles, es razonable suponer que la edad est correlacionada positivamente con el volumen o con el rea basal. Esto significa que para muestreo por conglomerados, el Conglomerado 1 podra estar formado por los rboles (1, 2, 9,10), el Conglomerado 2 por los rboles (3, 4, 8) y el Conglomerado 3 por los rboles (5, 6,7). Para el estratificado, el Estrato 1 estara formado por los rboles (1, 2, 3), el Estrato 2 por los rboles (4, 5, 6) y el Estrato 3 por los rboles (7, 8, 9, 10).
Muestreo ppt. En muestreo con probabilidad proporcional al tamao (muestreo ppt), elegimos a las unidades muestrales de manera proporcional a la covariable (o variable independiente). Esto es eficiente cuando y e x estn altamente correlacionadas positivamente. Por ejemplo, rea basal, x1, es una excelente covariable cuando se muestrea para el volumen total del rbol, y. En la Tabla 1, el rbol 10 tendra 20 veces la probabilidad de seleccin del rbol 1 si los rboles se eligieran proporcionalmente al rea basal. La informacin colectada en la covariable y en la variable de inters se combinan en el estimador insesgado Horvitz Thompson para generar una estimada de, digamos, el volumen total. Por lo general, es mejor muestrear sin reemplazo que con reemplazo. El problema con muestreo ppt sin reemplazo es que cuando el tamao de muestra es mayor que 2, las probabilidades
38
conjuntas de seleccin, necesarias para la estimacin de la varianza, usualmente no se pueden calcular. Tambin hay preguntas sobre la facilidad de implementacin, la forma de fijar el tamao de muestra y las probabilidades de seleccin proporcionales al tamao. Se han desarrollado muchos procedimientos para evitar tales problemas en muestreo ppt, como en Brewer y Haniff (1983), donde se discuten 50 de ellos, y desde entonces se han sido desarrollados ms. Algunos mtodos y dificultades clave se discuten en Schreuder et al. (1993, p. 57-62). Una ventaja del muestreo ppt es que los otros procedimientos discutidos (MSA, estratificado, por conglomerados) son casos especiales de l. Un estimador insesgado de la media poblacional es:
yHT = 1 N
i =1
yi
i
(34)
con un estimador insesgado de la varianza:
y y v ( yHT ) = i j2 ij i j N ij i =1 i j
n
(35)
donde n = nmero de unidades en la muestra y N = nmero de unidades en la poblacin. Para ilustrar el muestreo ppt, suponga que, usando los datos de la Tabla 1, la muestra consiste de las Unidades 3, 6, 9 y 10, seleccionadas de manera proporcional al rea basal, x1. Entonces: yHT =
85 3 10 10 20 85 = 74.37 . + = 3.5 = 7.437 y Y HT + + 4 10 3 10 20 20 40
No calculamos la varianza en la Ecuacin (35) porque requiere las probabilidades conjuntas de seleccin para las cuatro unidades elegidas. En este caso, se pueden calcular esas probabilidades, pero no es fcil. Calculamos la varianza por el mtodo Bootstrap, como se muestra en la Tabla 2.
Tabla 2. Comparacin de los resultados del muestreo de la pequea poblacin en la Tabla 1, empleando cinco mtodos de muestreo, con un tamao de muestra de cuatro unidades. Mtodo Total estimado Varianza estimada del total Caso 1 25 25 MSA Caso 2 82.5 1164 Muestreo estratificado 85 780 Caso 1 82.5 607.5 Muestreo por conglomerados Caso 2 82.5 67 74.4 585 Muestreo ppt Muestreo sistemtico 45 245 ppt: con probabilidad proporcional al tamao.
39
Problema. Piense en una situacin en muestreo de recursos naturales donde el muestreo ppt realmente sera eficiente ! Respuesta. La respuesta clsica es en la seleccin de rboles de manera proporcional al rea basal, si el inters es el volumen. En la actualidad, eso se hace empleando un prisma o relascopio simple.
Por lo general, no recomendamos el muestreo ppt en la prctica. En inventarios multivariados, es poco probable que haya una covariable correlacionada positivamente con todas o varias de las variables que se consideran. Aun cuando el inters es slo en una variable, a menudo el muestreo estratificado garantiza una distribucin de la muestra eficiente para los diferentes tamaos de las unidades. Por otro lado, con muestreo ppt, aun las muestras menos deseables consistentes de las n unidades ms pequeas o ms grandes son probabilsticamente posibles.
Conectividad de los diseos expuestos. Para tener mayor sensibilidad sobre cundo emplear las estrategias de muestreo expuestas, desde un punto de vista terico considere la varianza en la Ecuacin (24) llamada V aqu por conveniencia.
S todas las unidades tienen la misma probabilidad de ser elegidas para la muestra y todos los conjuntos de n unidades muestrales tienen igual probabilidad de seleccin, entonces todas las n(n 1) , los pesos wij son probabilidades conjuntas de seleccin son iguales, o sea, ij = N ( N 1) n( N n ) para todas las unidades i y j, as que todos los N (N-1) trminos en wij = i j ij = 2 N ( N 1) la sumatoria contribuyen a la varianza en la Ecuacin (24). Como se seal antes, esto es muestreo simple aleatorio (MSA ). Para MSA, usando los datos de la Tabla 1, con n = 4, todas las ij = 12 / 90 = 2 /15 = 0.133 y todos los wij = 4 / 25 2 /15 = 2 / 75 = 0.027 . En general, suponiendo que todas las i son iguales a n/N y haciendo algunas de las ij iguales a n2/N2, de tal manera que los correspondientes wij = 0, implica que aquellos i y j tienen que ser n(n 1) , as que elegidos independientemente. Para tales unidades i y j, la ij se increment de N ( N 1) algunas de las otras ij tienen que reducirse correspondientemente porque la suma de todas las probabilidades conjuntas es
i j
ij
= n(n 1) . Para reducir la varianza V, sera ventajoso si wij = 0

2
y y para valores grandes de i j o, equivalentemente yi y j , para igual probabilidad de j i seleccin aun si esto incrementa wij para valores pequeos. Esta es la idea detrs del muestreo estratificado, donde tratamos de poner unidades que son muy diferentes en estratos separados, para maximizar yi y j , y unidades similares dentro de los mismos estratos. Por ejemplo, en la
Tabla 1, si el inters es en el volumen, podemos usar el rea basal obtenida de sensores remotos (x2) como una covariable. Entonces, tiene sentido si con dos estratos ponemos las Unidades 1, 2, 3, 4 y 5 en el Estrato 1 y las Unidades 6, 7, 8, 9 y 10 en el Estrato 2, porque, digamos, para n = 4,
40
con dos unidades por estrato, entonces
i j
ij
= 4 3 = 12 con las probabilidades conjuntas de
seleccin de dos unidades en el mismo estrato ij =(2/5)(1/4)=1/10=0.10 y la probabilidad de dos unidades en diferentes estratos, siendo ij =(2/5)(2/5)=4/25=0.16 . Entonces, wij = 0 para unidades en diferentes estratos y wij = 3 / 50 = 0.06 para unidades en el mismo estrato (las que son bastante homogneas) y las probabilidades ms bajas en los dos estratos separados. Lo ideal en muestreo por conglomerados es que los pesos negativos wij se asocien con los valores
y y grandes de i j para reducir V. Ninguna ij puede exceder i o j as, por ejemplo, si todas j i las i = n/N, entonces, todas las ij n / N. ij = n / N implica que si i es elegida entonces tambin se elige a j. Por lo tanto, todas las unidades para las que ij = n/N se eligen juntas. Esta es la idea de un conglomerado. Para hacer algunos de los wij < 0, queremos que las ij que son iguales a n/N
2
y y estn adjuntas a los valores grandes de las diferencias i j , lo cual implica que los i j miembros dentro de cada conglomerado idealmente variaran tanto como sea posible. Por ejemplo, en la Tabla 1, para estimar el volumen suponga que hay cinco conglomerados de tamao dos cada uno y tome una muestra de tamao n = 4. Entonces, como una buena opcin, ponga las Unidades 1 y 10 en el Conglomerado 1, las Unidades 2 y 9 en el Conglomerado 2, las Unidades 3 y 8 en el Conglomerado 3, en el Conglomerado 4 las Unidades 4 y 7 y las Unidades 5 y 6 en el Conglomerado 5. Entonces la probabilidad de seleccin para cada unidad es 2/5 = 0.40, pero ahora la probabilidad conjunta de dos unidades en el mismo conglomerado es ij = 2/5 = 0.40 y en conglomerados distintos ij = (2/5)(1/4) = 0.10, as que wij = 1/25 = 0.04 para unidades en el mismo conglomerado y wij = 3/50 = 0.06 para unidades en conglomerados diferentes.
Para el ejemplo de n = 4, usando los datos de la Tabla 1, tenemos que para MSA todas las ij = 0.133, con wij = 0.027. Para muestreo estratificado tenemos ij = 0.40, con wij = 0, para unidades en estratos diferentes, y ij = 0.10, con wij = 0.06, para unidades en el mismo estrato. Para muestreo por conglomerados, ij = 0.40 y wij = -0.04, para unidades en el mismo conglomerado, y ij = 0.10 y wij = 0.06, para unidades en conglomerados diferentes. Como muestran los resultados en la Tabla 2, la estratificacin y el muestreo por conglomerados pueden reducir la varianza de las estimadas de manera dramtica con respecto al MSA. La idea detrs del muestreo por conglomerados es lo opuesto a la idea detrs de la estratificacin. El muestreo por conglomerados es ms riesgoso que el muestreo estratificado. Habr ganancias significativas si los conglomerados se eligen bien, pero grandes prdidas si los wij negativos estn
y y asociados a valores pequeos de i j . En muestreo estratificado, los wij tpicamente j i cambian mucho menos que en muestreo por conglomerados porque unas cuantas unidades muestrales se elegirn con una probabilidad conjunta de 1, como sucede en el muestreo por conglomerados. Esto se explica elegantemente en Stuart (1964).
41
2
En el muestreo con probabilidad proporcional al tamao (ppt), una versin de muestreo con probabilidad desigual, se supone que hay una covariable que est positivamente correlacionada con la variable de inters, siendo la opcin ptima que y y x sean esencialmente lo mismo, de manera que V es casi cero. Haramos razonablemente bien en ese sentido con x1 para estimar el volumen y en la Tabla 1, como se not antes. El muestreo ppt es an ms riesgoso que el muestreo por conglomerados. Por ejemplo, si los wij se mantienen constantes, es claro que
yi y j puede ser muy grande si las probabilidades i tienen correlacin negativa con la yi. i j
2
Muestreo sistemtico con inicio aleatorio. En este tipo de muestreo, primero se elige al azar una unidad de muestreo como una unidad de comienzo y, luego, se elige cada k-sima unidad. El muestreo sistemtico supone que la poblacin puede estar arreglada en cierto orden, que puede ser natural, como los das de la semana para muestreo de actividades de recreacin, o artificial, como sitios numerados sobre un mapa. El ordenamiento se debe considerar cuidadosamente en el primer caso, pero puede ser azaroso en el segundo. Por ejemplo, cuando se muestrea el uso de un rea recreativa, probablemente no queremos muestrear cada sptimo da, digamos el domingo. En el pasado, por lo general el muestreo sistemtico no ha sido apoyado por los estadsticos tericos, pero los practicantes y los estadsticos aplicados lo han hecho prevalecer porque es una forma prctica de colectar informacin en el campo y evita el problema de tener muestras pobremente distribuidas, lo cual puede suceder en muestreo aleatorio. En general, los procedimientos de MSA se usan en muestreo sistemtico (con inicio aleatorio), con la suposicin que la varianza estimada para MSA da una sobreestimacin de la varianza que se logra con muestreo sistemtico.
El muestreo sistemtico con inicio aleatorio no debera usarse cuando la poblacin est distribuida en un patrn regular y el patrn de distribucin de la muestra puede coincidir con l. Por ejemplo, en el muestreo del uso recreativo de un rea puede no ser deseable elegir cada sptimo da, puesto que es claro que una muestra de cada lunes podra producir resultados muy diferentes a los de una muestra que incluya slo a los domingos.
Problema. Cul es una situacin prctica en dasonoma en la que el muestreo sistemtico sera realmente eficiente ? Respuesta. En la mayora de las situaciones de campo, es ms prctico poner una retcula de sitios de muestreo o seleccionar una muestra sistemtica de rboles en un bosque.
Un estimador insesgado de la media poblacional es:
ysist =
y
i =1
(36)
con un estimador sesgado de la varianza:
v ( ysist ) =
N n s2 N n
42
(37)
Note que las frmulas son las mismas que para MSA. De la Tabla 1, suponga que decidimos seleccionar el punto inicial aleatoriamente entre las Unidades 1, 2 y 3, y que elige la Unidad 2. Entonces, si n = 4, tomaramos las Unidades 2, 5, 8 y 1. Hacemos esto usando el Modo 10 de numeracin, esto es, seleccionamos las Unidades 2, 5, 8 y 11, slo que la Unidad 11 es sustituida por la Unidad 1, ya que est fuera del rango de unidades. As, nuestra estimada sera:
ysist =
con:
1+2+5+10 =4.5 4
s2 =
(1 4.5) 2 + (2 4.5)2 + (5 4.5)2 + (10 4.5)2 49 = = 16.33 3 3
v ( ysist ) =
10 4 16.33 = 2.45 10 4
= 45 y v(Y ) = 245 Y sist sist
Problema. Suponiendo que la poblacin se visita en el orden dado arriba con un muestreo sistemtico, empezando con la Unidad 2, Qu muestras de tamao tres no pueden ocurrir? Respuesta. Un ejemplo, la muestra que incluyera a las Unidades 2, 3 y 4, ya que no pueden ocurrir juntas.
En la Tabla 2 mostramos el resultado de los ejemplos de arriba para varios mtodos de muestreo. Es claro que los totales estimados y sus varianzas estimadas varan considerablemente de una muestra a otra. Se esperara que el MSA, bastante ineficiente en este caso, variara mucho ms que los otros y la tabla indica tremendas diferencias en los resultados de las dos muestras de MSA. Se esperara que los otros mtodos variaran menos. Los resultados del muestreo por conglomerados muestran la diferencia entre la eleccin adecuada de los conglomerados, como en el Ejemplo 2, contra la eleccin de conglomerados inadecuada, como en el Ejemplo 1. El muestreo ppt sera eficiente aqu, ya que estamos muestreando de manera proporcional al rea basal, la que est bastante relacionada linealmente con el volumen en esta pequea poblacin.
Problema. Muestre cmo el muestreo estratificado con distribucin ptima de la muestra es un procedimiento de probabilidad desigual. Muestre que la distribucin proporcional tambin debera considerarse como tal. Respuesta. En la distribucin ptima, las unidades en diferentes estratos tendran probabilidades diferentes de seleccin. En la distribucin proporcional, dos unidades en el mismo estrato tendran diferentes probabilidades de seleccin que otras dos unidades en un estrato diferente.
43
Problema. Suponga que en una poblacin de 25 osos, el consumo de carne por el Oso 13 es tpica. El Oso 1 come slo la mitad del promedio de los 25 osos, y el Oso 24 come tanto como los otros 24 osos juntos, de acuerdo con un especialista en fauna. Esa especialista est dispuesta y es capaz de darle buenas estimadas de la cantidad de carne que cada oso come. Si, debido a un presupuesto restringido, slo podemos muestrear el consumo real de un oso y necesitamos estar seguros de que se proporcione suficiente carne para minimizar el maltrato por los usuarios, cmo elegira al oso muestra? Respuesta. Si usted decide muestrear de manera proporcional al consumo estimado dado por la especialista en fauna, no es correcto! Claramente es mejor elegir al Oso 13. Este es un ejemplo de cmo usar sentido comn, ms bien que aplicar la teora. Tomando una decisin inmediata y seleccionar el Oso 24 o el Oso 1, por ejemplo, producira resultados intiles para tomar tal decisin. Este ejemplo es una modificacin de otro sobre elefantes en un circo, presentado por Basu (1971), para ilustrar el uso irreflexivo del muestreo probabilstico. En ese ejemplo, el estadstico recomend el uso de muestreo ppt y pronto fue despedido por el director del circo por dar tan desatinado consejo.
Problema. Muestre cmo el muestreo sistemtico con inicio aleatorio puede considerarse un caso especial de muestreo estratificado y muestreo por conglomerados. Respuesta. Es muestreo estratificado en el que se elige una unidad por estrato o puede ser considerado un muestreo por conglomerados donde se eligen todas las unidades de un conglomerado. B. Estimacin General de la Varianza
La estimacin clsica de la varianza se discuti antes. En muchos casos las varianzas se pueden derivar y producir estimadores insesgados, o al menos consistentes, de la varianza verdadera. En muchos casos, sin embargo, la estrategia de muestreo usada es bastante compleja y tales estimadores "clsicos" de la varianza no se pueden derivar y, por lo tanto, las estimadas de la varianza no se pueden calcular. Para tales casos, y aun en algunos donde las varianzas reales se pueden derivar y calcular, hay otros mtodos disponibles; los dos mejor conocidos son Jackknife y Bootstrap. Slo discutiremos el Bootstrap, puesto que es el ms fcil de implementar en la mayora de situaciones. Bootstrap es una tcnica ingeniosa que toma ventaja del poder computacional que ahora se tiene en todo el mundo. Este mtodo, basado en el uso de computadoras, permite calcular medidas de la precisin de las estimadas estadsticas. Los intervalos de confianza se pueden construir sin tener que hacer las suposiciones tericas de la normal. El concepto bsico es ms fcilmente entendido para el muestreo simple aleatorio. Suponga que tenemos una muestra de n unidades de y, con media muestral y y varianza v( y ) . El Bootstrap se realiza tomando una muestra de n unidades con reemplazo de las n unidades en la muestra. Esto se hace B veces. Entonces, para B . La varianza entre estas cada una de las B muestras, calculamos yb , b = 1,..., B , con promedio y estimadas de Bootstrap es:
44
v( yB ) =
(y
b =1
B )2 y
(38)
B 1
Esta estimada de la varianza tambin puede usarse para y . Adems, las B estimadas muestrales generan una distribucin de estimadas para la fcil construccin de intervalos de confianza. La seleccin de las muestras Bootstrap debera remedar el mtodo real de seleccin usado. No es aceptable usar muestreo Bootstrap simple con reemplazo sobre una muestra elegida con muestreo con probabilidad desigual. Tampoco lo es la aplicacin del Bootstrap para muestreo selectivo. Existen varias maneras en que se describe el Bootstrap, por ejemplo, Schreuder y Williams (2000). Cuando se pueden calcular estimadas de la varianza clsica y Bootstrap, no es claro cul es mejor usar. El mtodo Bootstrap produce intervalos de confianza inmediatos, pero no simtricos, mientras que la varianza clsica es ms fcil de calcular.
C. Estimadores de Regresin y Razn
Aunque el estimador Horvitz Thompson es eficiente en muchas situaciones, en algunas puede ser poco confiable. Para fcil entendimiento, nos limitamos a una sola covariable; los interesados en varias covariables debern consultar Sarndal et al. (1992). Considere una poblacin donde algunos de los valores de la covariable, x, son bastante pequeos con relacin a los valores de la variable de inters, y. Es claro que si algunas de las unidades muestrales contienen valores de y y x, donde sta es pequea, estas razones en la estimada, y/x, podran ser bastante grandes. Por ejemplo, si x = 0 para una o ms unidades, la razn sera indefinida. Las unidades con x = 0 no seran elegidas con muestreo ppt (causando sesgo en la estimacin), pero si lo seran con MSA. El tener razones extremas puede causar problemas serios con el estimador de media de razones (existen varios, aunque slo el estimador Horvitz Thompson se discute aqu) y su uso no se recomienda con MSA. Los estimadores de regresin y razn de medias, como la estratificacin, se desarrollaron para incrementar la precisin o la eficiencia de una muestra, haciendo uso de informacin suplementaria acerca de la poblacin que se estudia. La diferencia crtica de cundo usar el estimador de regresin o el estimador de razn de medias se ilustra en la Figura 3. Considere la relacin lineal entre dos variables, x e y, mostrada ah con la lnea marcada como A, pasando por el origen, y la otra marcada B, intersectando la ordenada y.
Figura 3. Relaciones postuladas entre las variables x y y.

45
Si la lnea B es la relacin esperada entre las variables, donde claramente la relacin no pasa por el origen, se debera usar regresin. Cuando la relacin A pasa por el origen, se recomienda la estimacin de razn. Matemticamente, los estimadores de regresin y razn de medias estn basados en el siguiente modelo, que es razonable para los datos:
yi = + xi + ei , i = 1,...N , con E (ei ) = 0 y E (ei e j ) = 2 vi si i = j, y E (ei e j ) = 0 si i j (39)

Aqu E (ei ) indica el error promedio del modelo de regresin sobre los valores de la poblacin de
y y x; E (ei e j ) denota la covarianza de los errores, dado que el error promedio es cero, y 2 vi denota la varianza de y, al valor de xi (vi a menudo se representa como una funcin de xi como vi = xik donde k = 0 denota una varianza constante y k = 1 2, a menudo, se usan cuando la varianza de yi se espera se que incremente con xi).
Entonces, s 0 se usa el estimador de regresin y s = 0, o aproximadamente, se debe usar un estimador de razn. En caso de duda, es mejor utilizar el estimador de regresin, ya que es el caso ms general. Ordinariamente, la pregunta se responde con base en el conocimiento de la poblacin y por estudios especiales de la variabilidad de y, a diferentes valores de x. Si sabemos la manera en que la varianza cambia, de acuerdo con el nivel de x, se puede emplear un procedimiento de regresin ponderada, haciendo k igual a valores conocidos, como k = 1 2.
Estimadores de regresin. Suponiendo una relacin de lnea recta entre y y x, con varianza constante (o sea, vi = 1, i = 1, 2,... N), la estimacin de regresin es todava la aproximacin ms aceptada generalmente. La ecuacin para la lnea puede estimarse de: yR = y + b ( X x ) = a + bx
donde: (40)
yR = media del valor de y estimada, a algn valor especfico de x, x ) y = media muestral de y,

x = media muestral de x
b=
( y y )( x x )
i =1 i i
(x x )
i =1 i
, coeficiente de regresin de y en x, y
a = y bx = el intercepto de y en x = 0.
Como lo notan Sarndal et al. (1992), el estimador de regresin es igual al estimador HorvitzThompson ms un trmino de ajuste. El estimador de regresin trabaja bien cuando el trmino de ajuste est negativamente correlacionado con el error del estimador Horvitz-Thompson. Para
46
errores grandes en el estimador Horvitz-Thompson, los trminos de ajuste sern aproximadamente iguales a los errores, pero de signo opuesto, para muestras grandes y con una relacin lineal fuerte entre las variables x e y.
Error estndar para regresin. Para calcular los errores estndar en muestreo simple aleatorio y muestreo aleatorio estratificado, fue necesario, primero, obtener una estimada de la variabilidad 2 de los valores individuales de y, alrededor de su media ( s y ) . Para obtener el error estndar para un estimador de regresin, necesitamos una estimada de la variabilidad de los valores individuales de y alrededor de la regresin de y sobre x. Una medida de esa variabilidad es la desviacin estndar de la regresin ( s y , x ) calculada por:
SS y s y.x =
n n
( SPxy ) 2 (41)
n
SS x n2
donde SS y = ( yi y ) 2 , SS x = ( xi x ) 2 , y SPxy = ( yi y )( xi x )
i =1 i =1 i =1
Entonces, el error estndar de yR es: s yR = s y . x 1 ( X x )2 N n + SS x N n (42)
Para y = volumen y x1 = rea basal en la Tabla 1, para una muestra de n = 4, con las Observaciones 1, 2, 9 y 10 tendramos: y = 0.401 + 0.73 x1 , as que el volumen medio estimado es yR = 0.401 + 0.73 10.75 = 8.25 . El = 10(8.25) = 82.5 , con desviacin estndar de la regresin volumen total estimado es Y R s y . x = 5.0 y error estndar de regresin, s yR = 2.5 . Es interesante comparar s yR con el error estndar que se habra obtenido estimando el volumen medio usando MSA con los valores de y nicamente. Una estimada del volumen medio por rbol es y = 8.25 , con error estndar de s = 8.8 y error estndar de la estimada de s y = 4.4 . La familia de estimadores de regresin. El procedimiento de regresin, en el ejemplo de arriba, es vlido slo si se cumplen ciertas condiciones. Una de stas es, por supuesto, que sabemos la media poblacional para la variable suplementaria (x). Como se ver en una seccin posterior (muestreo doble para regresin), se puede sustituir una estimada de la media de la poblacin. A menudo, la variable x se puede medir sobre una muestra ms grande que la variable y, as que la estimada para x es mucho mejor y puede usarse para mejorar la estimada de y. El estimador de regresin lineal que se acaba de describir es slo uno de un gran nmero de procedimientos relacionados que nos permiten incrementar la eficiencia del muestreo haciendo
47
uso de informacin suplementaria acerca de la poblacin. Otros dos miembros de esta familia son el estimador de razn de medias y el estimador de media de razones. El estimador HorvitzThompson puede considerarse un ejemplo del estimador de media de razones. Es peligroso usarlo con muestreo con probabilidades iguales, como el MSA, por lo que slo discutiremos el estimador de razn de medias. El estimador de razn de medias es apropiado cuando la relacin de y a x es en forma de una lnea recta pasando a travs del origen y cuando la desviacin estndar de y para cualquier valor de x es proporcional a la raz cuadrada de x. Esto significa que en la Ecuacin (39) suponemos que 0 y que vi xi, aproximadamente para todas las i = 1, 2,N unidades en la poblacin. La estimada de razn de medias ( yrm ) de la media de y es:
X yrm = R
(43)
donde:
= razn de medias obtenida de la muestra = y = R x

X = media poblacional conocida de x.
y x
El error estndar de esta estimada se puede aproximar razonablemente para muestras grandes por el estimador de la varianza de Jackknife:
= N 2 (1 f ) X 2 (n 1) vJ Y rm
( )
D
i =1
2 ( j)
(44) ny y j
y el promedio de nx x j estas n razones. Este estimador robusto, a menudo, provee una sobreestimada de la varianza real (Schreuder et al. 1993). Es difcil decir cundo una muestra es suficientemente grande para que la frmula del error estndar sea confiable, pero Cochran (1977) ha sugerido que n debe ser mayor que 30 y tambin s s suficientemente grande para que las razones y y x sean ambas menores que 0.1. y x De esta muestra, la razn de medias, usando la misma muestra de cuatro rboles que para el estimador de regresin, es:
= 33 / 43 = 0.77 R
donde para cada j en la muestra, D(j) es la diferencia entre la razn
Entonces, el estimador de razn de medias es:

48
= 1.5 . yrm = R X = 0.77*8.5 = 6.52 y el error estndar de la estimada del total es vJ Y rm Por supuesto, estos clculos son slo para propsitos ilustrativos. Para el estimador de razn de medias, un error estndar basado en menos de 30 observaciones es de valor cuestionable.
Precaucin! El lector que no est seguro de su conocimiento sobre las tcnicas de estimacin por regresin o razn, debera buscar consejo antes de emplear tales tcnicas. Determinar cul es la forma ms apropiada del estimador puede ser complicado. Los estimadores de razn son particularmente problemticos. Tienen una apariencia simple y amistosa que induce a los que muestrean a aplicaciones incorrectas. La equivocacin ms comn es usarlos cuando la relacin entre y y x no es realmente una recta que pasa por el origen (esto es, la razn de y a x vara en lugar de ser la misma para todos los valores de x o 0). Para ilustrar, suponga que deseamos estimar la superficie total de predios con plantaciones en un municipio. Como el rea total de de los predios rurales se puede obtener de los registros de propiedad, parece lgico tomar una muestra de propiedades, obtener la razn muestral de la superficie promedio forestada por predio sobre superficie total promedio para predios y multiplicar esta razn por la superficie total en el municipio, para obtener el rea total forestada en el municipio. Por supuesto, este es un estimador de razn de medias, su empleo supone que la razn de y sobre x es una constante (se representa grficamente por una lnea recta que pasa por el origen). Con frecuencia se encontrar que la proporcin forestada de un predio vara con el tamao de l mismo. Los predios en suelos pobres suelen ser ms pequeos que en suelos frtiles, o al revs dependiendo de la presin por uso de la tierra; pero en suelos pobres no el cultivo no es tan intenso, por lo que la proporcin de rea forestada podra ser mayor. As, el estimador de razn podra estar seriamente sesgado.
( )
El nmero total de plntulas enfermas en un vivero podra estimarse obteniendo la proporcin promedio de plntulas enfermas, medido en un nmero de parcelas muestrales, y multiplicando esa proporcin promedio por el nmero total de plntulas en el vivero. Sin embargo, estaramos suponiendo que la proporcin de plntulas enfermas es la misma, sin importar el nmero de plntulas por parcela de muestreo. Para muchas enfermedades, esta suposicin no sera vlida, ya que la tasa de infeccin puede depender de la densidad de las plntulas. En general, deberan usarse estimadores ms robustos, aunque tambin tal vez ms complejos. Los estimadores generalizados de regresin y razn de medias son generalizaciones de los estimadores simples de regresin y de razn de medias, dados arriba. Existen otros estimadores posibles, por ejemplo, estimadores basados en relaciones no lineales entre y y x, pero slo son aplicables en situaciones especficas, en especial si alguna transformacin de variables hace que la relacin sea lineal y entonces la estimacin por regresin lineal se hace posible usando las variables transformadas. Un estimador eficiente es el estimador generalizado de regresin (Sarndal, 1980):
n n 1 = yi + a Y N gr gr i =1 i i =1 i n xi + b X gr i =1 i n N ei = + y i i =1 i i =1
(45)
donde:
49
i = agr + bgr xi , ei = yi y i y
n yi xi b gr v i =1 i vi agr = i =1 i i n 1 i =1 i vi n
bgr =
v v v v
i =1 i i i =1 i i i =1 i i i =1
xi yi
yi
xi
v v
i =1 i i i =1 i
2 i
x i i =1 vi i
n
i i 2
con varianza:
V Y gr
( )
e e 1 N = ( i j ij ) i j 2 i j j i
(46)
y dos posibles estimadores de varianza: = 1( v1 Y gr 2 i j
( )
i j ij ) ei ij
e j i j
(47)
y
' n ' = 1 ( i j ij ) ei e j v2 Y gr 2 i j ij j i
( )
(48)
donde:
s bgr ( xi x s ) ei = yi y
50

n n xl2 X ) xl (X ( N N ) l =1 vl l l =1 l vl ei' = ei ei vi
2 n n xi N ) xl + ( X X ) 1 } + {( N l =1 vl l l =1 l vl vi
n xi2 i =1 i vi
1 2 n n x 1 i i =1 i vi i =1 i vi xi n v = xi , x s = s = i =1 i i , y y X N i =1 i s
n
= 1 , = 1, N N s i =1 i i =1 i vi
n n
v
i =1
yi
N s
i i
Schreuder et al. (1993) ofrecen algunos estimadores de varianza alternativos.

Problema. Muestre cmo el estimador de regresin lineal simple en la Ecuacin (40),
= N (a + bX ) = Y + b( X X ) con b = Y lr
( y y )( x x )
i =1 i i
(x x )
i =1 i
y a = y bx , es un caso especial de
Y gr
Respuesta. Haga todas las vi = 1 y seleccione las unidades con MSA, o sea que toda i = n/N.
El estimador generalizado de regresin en la Ecuacin (45) toma en cuenta a las probabilidades de seleccin y a la estructura de la varianza en la relacin entre y y x. Esa estructura en general no se conoce, pero puede ser aproximada, basndose en conocimiento previo. Una generalizacin del estimador de razn de medias es:
n yi = Y grm i =1 i
i =1
xi X X = Y HT HT X i
(49)
con varianza aproximada: ) = V (Y ) 2 RCov(Y ,X ) + R 2V ( X ) V (Y grm HT HT HT HT (50)
Schreuder et al., (1993) exponen una buena discusin sobre estimadores de varianza para el estimador de razn de medias.
51
Recomendamos el estimador Bootstrap de la varianza, tanto para el estimador de regresin generalizado en Ecuacin (45) como para el estimador de razn generalizado en Ecuacin (49). Ambos estimadores, generalizado de regresin y generalizado de razn, son sesgados pero asintticamente insesgados, en el sentido de que cuando n N el sesgo 0.
Problema. Muestre que ambos estimadores generalizados, el de regresin y el de razn, son sesgados pero asintticamente insesgados. Respuesta. Probar que los estimadores son sesgados no es fcil, se requiere derivar frmulas aproximadas para el sesgo, lo que puede no estar al alcance de la mayora de los lectores. Conviene ver las frmulas en libros como Schreuder et al., (1993). Para probar que los estimadores son asintticamente insesgados, haga que n N en las Ecuaciones (45) y (49). Entonces los estimadores muestrales se convierten en el parmetro de la poblacin.
Problema. En el estado de Jalisco, Mxico, todos los productores de agave, cuando lo van a plantar, tienen que registrar con una cooperativa industrial la superficie de produccin y la densidad a que lo hacen. La cooperativa quiere saber cuntas plantas mueren cada ao para cada edad y cunto se roban de los campos (el agave es un cultivo muy lucrativo y cada cabeza de la planta de tamao comercial alcanza un valor considerable). Proponga dos opciones a la cooperativa. Respuesta. Tenemos un marco de muestreo completo de la poblacin de inters y la solucin es directa. Ofrecemos dos posibilidades:
Estratificar la poblacin en clases de edad del agave y seleccionar una muestra aleatoria de cada estrato. Ya que el robo slo sera un problema en el agave listo para cosecha. Adems de los objetivos planteados, podramos preguntar a la cooperativa si desean tener informacin por tamao de l predio tambin. Si lo desean, podramos imponer una estratificacin adicional, basada en el tamao de la propiedad, y tomar una muestra aleatoria de tales estratos. Una desventaja es que el nmero de estratos podra crecer demasiado. Si tenemos nueve clases de edad y cinco clases de tamao del predio, ya tendramos 45 estratos. Por ello, tenemos que considerar un balance entre la informacin por estrato, cada uno de los cuales presumiblemente es de inters, y posibles limitaciones en el tamao de la muestra. Ntese que en ambos casos podramos usar tambin muestreo ppt, tal vez proporcional a la edad del cultivo o al tamao del predio. En general, se prefiere la estratificacin porque el muestreo ppt puede dar una distribucin de la muestra indeseable debido al azar. Tambin, podramos usar estimacin por regresin, ms bien que el estimador Horvitz-Thompson, si pensamos que alguna variable registrada como el tamao del predio podra estar linealmente relacionada con la mortalidad o con la incidencia de robos.
D. Algunos Mtodos Especficos de Muestreo Forestal
Casi todos los mtodos de muestreo tiles en otras disciplinas, tambin se han usado en dasonoma. Sin embargo, aqu slo discutiremos tres mtodos, nicos o de considerable inters en inventarios de recursos naturales. Para otros mtodos se puede consultar a Schreuder et al.
52
(1993, 1990) y Hajek (1957). Los tres mtodos de muestreo son: con parcelas de radio variable (PRV), parcelas de rea fija (PAF) y muestreo Poisson. Muestreo en Parcelas de Radio Variable (PRV ). En dasonoma, este mtodo lo introdujo Bitterlich (1947), para estimar el rea basal total (G) de un bosque mediante una tcnica simple de conteo, conocida como muestreo de conteo angular, muestreo por puntos, inventario sin parcelas o muestreo de Bitterlich. El mtodo funciona como sigue: un asesor visita un nmero de localizaciones (m) en el bosque y en cada una cuenta el nmero de rboles que, al divisar su tronco a cierta altura, generalmente a la altura del dimetro normal (1.30 m sobre el suelo), subtiende un ngulo horizontal mayor que cierto ngulo crtico preestablecido, digamos , generado por un medidor de ngulos. Este medidor de ngulos podra ser el propio dedo pulgar, a cierta distancia del ojo, una simple varilla con una pieza en cruz o, para trabajo preciso, un prisma o el Relascopio Spiegel. Los rboles se seleccionan de manera proporcional al rea de la seccin transversal en el punto en que se divisan. Si el inters es el rea basal, los rboles se miran a la altura del dimetro normal. Ya que los rboles se seleccionan de manera proporcional a la variable de inters, el simple conteo de los seleccionados multiplicado por una constante conocida produce una estimada del rea basal total en el bosque. En general, en analoga con la Ecuacin (34), el estimador es:
1 YHT = m donde ki =
yki
k =1 i =1
Nk
ki
Y
k =1
(51)
g ki , con gki como el rea basal del rbol i en el punto k; F el factor de rea basal, FA determinado por el tamao de l ngulo , y A es el rea de la poblacin de inters. La varianza es:
N 2 N y y yi V (YHT ) = i =1 + i j ij Y 2 m i j i j
(52)
con un estimador insesgado de la varianza:

v1 YHT =
( )
(Y
m k =1
Y HT
m(m 1)
(53)
Para la estimacin de volumen, la recomendacin general es elegir un factor de rea basal (prisma, Relascopio u otro instrumento) que produzca en el conteo un promedio de 6 a 10 rboles en cada punto de muestreo. El muestreo PRV es ventajoso, especialmente para personal orientado a la medicin de madera, ya que los rboles se eligen de manera proporcional a su tamao y as se minimiza la seleccin de demasiados rboles pequeos.
Problema. Si en muestreo PRV el inters es el rea basal, por qu la varianza, V, no es cero?
53
Respuesta. Porque el tamao de muestra es aleatorio, as que la varianza en tamao de muestra no es cero. La varianza de la estimada del rea basal es una combinacin de la variabilidad en las estimadas de rea basal y la variabilidad en tamao de muestra. La primera parte es cero, pero la segunda no lo es.
Problema. Algunas personas han tenido la idea de tomar diferentes factores de rea basal para seleccionar en el campo uno que proporcione el nmero de rboles deseado en cada punto. Qu es incorrecto en este procedimiento? (ver Schreuder et al., 1981). Respuesta. Puede estar rotundamente sesgado. De hecho, por eso llam la atencin del primer autor de este libro. Las estimadas basadas en esta propuesta fueron tan grandes, que las estimadas de crecimiento fueron totalmente irreales y los administradores forestales sospecharon que algo estaba mal.
El principio bsico en muestreo PRV es aplicable en otras disciplinas forestales, como al muestrear un rea por la cantidad de su uso recreativo. Un conteo instantneo del nmero de usuarios, a tiempos aleatorios durante el da, proporciona una estimada de la cantidad de uso para ese da, ya que los usuarios se eligen de manera proporcional a su uso. Por ejemplo, un pescador que est ah todo el da se contara cada vez que se hace el muestreo, mientras que una familia que slo est pocos minutos probablemente no se considere. Es claro que si estamos interesados en el nmero de usuarios, necesitamos ajustar el conteo estimado de personas por su uso (o sea, su probabilidad de seleccin ).
Muestreo con parcelas de rea fija. (En Mxico es usual llamar sitios a las parcelas de muestreo ) Este procedimiento se aplica usando parcelas y subparcelas circulares. Si el inters es sobre informacin ecolgica, es difcil optimizar este procedimiento para alguna variable especfica, contrario al caso del muestreo PRV, en el que el inters es el volumen maderable. Debido a su simplicidad, el muestreo con parcelas de rea fija es fcil de entender e implementar, comparado con el muestreo PRV. En reas tropicales, las parcelas rectangulares y alargadas se prefieren a causa de la facilidad de su establecimiento en bosques densos y terreno accidentado (Wood, 1990). Muestreo Poisson. Esta forma de muestreo, desarrollada por Hajek (1957), en la literatura forestal, Grosenbaugh (1964) lo introdujo como muestreo 3-P. Grosenbaugh propuso el mtodo para la venta de madera, donde los rboles a cortar deben elegirse y marcarse, y algunos de ellos pueden muestrearse para medir el volumen en ese momento tambin. En la aplicacin original, el muestreo se haca de manera proporcional a una covariable, la cual podra ser la estimacin ocular del rea basal o volumen de un rbol. Para ser eficiente, quien estimaba necesitaba ser habilidoso. Una forma de implementar el muestreo Poisson es visitar cada unidad i en la poblacin y, al hacerlo, obtener la covariable xi para cada rbol (digamos la estimacin ocular del volumen). Cada estimada x se compara con un nmero aleatorio, generado entre 0 y X/nt, donde X es el total de la poblacin y nt es el tamao de muestra deseado. Si el nmero aleatorio para la unidad i es menor o igual que xi, entonces la unidad i se incluye en la muestra para medirse; de otra forma no se incluye. Claramente, si xi>(X/nt), con certeza se incluye la unidad i se incluye en la muestra. En implementaciones prcticas, X no se conoce y tiene que estimarse de antemano por
54
X*, as que los nmeros aleatorios a usar son entre 0 y L = (X*/nt). Aqu, L se determina estimando X* y entonces obtiene el tamao de muestra deseado nt. Wood (1980) clarifica el procedimiento sobre cmo elegir muestras Poisson. Ntese que el tamao de muestra logrado es una variable aleatoria na con varianza: V (na ) = i i2
i =1 i =1 N N
Hajek (1957) introdujo un estimador insesgado del tipo Horvitz-Thompson:

na n y Yu = yi / i = i X * i =1 i = nt xi
(54)
es: La varianza de Y u
2 N ) = yi (1 i ) V (Y u i =1
(55)
Un estimador insesgado de la varianza es: )= v(Y u

i =1 na
yi2 (1 i )
i2
(56)
es insesgado, pero puede ser un estimador donde na es el tamao de muestra logrado. Y u ineficiente.
Grosenbaugh (1967) sugiere un estimador ligeramente sesgado pero ms eficiente para el , donde: muestreo Poisson, llamado estimador ajustado, Y a = Yu ne Y a na (57)
es: con ne = X/L, el tamao de muestra esperado. Una varianza aproximada para Y a
2 N V (n ) yi V Ya pi Y / ne 1 + 2a p ne i =1 i
( )
(58)
donde pi = xi/X. Un estimador confiable de la varianza es (Schreuder et al., 1993):
55
yi na y j 2 i =1 xi j =1 na x j X = v Y a ne na 1
na
( )
(59)
Un caso especial de este tipo de muestreo es aqul en el que todas las unidades tienen una probabilidad igual de ser elegidas, ese muestreo se llama binomial.
Problema. Muestre cmo el estimador insesgado Poisson puede ser ineficiente y poco confiable.
na na na na y y y y X* en Yu = i = i X * = i nt L = i L se muestra nt i =1 i i = nt xi i =1 nt xi i =1 xi que cuando yi = xi , para todo i = 1, 2, N unidades, nuestra estimada puede todava estar lejos na y n X* . Claramente, aun si en el promedio de Y, puesto que la sustitucin produce: Yu = i L = a ne i =1 xi ne = na , nuestra supuesta inicial X* de Y, a menudo, puede ser slo una aproximacin.
Respuesta. Substituyendo L =
Problema. Una agencia de administracin de tierras muestre un rea forestal grande para estimar el volumen de madera y emple varios estratos, con base en el volumen esperado en los estratos. Diez aos ms tarde, la agencia dese volver a muestrear el bosque para saber el volumen actual y el cambio en volumen, pero haba perdido los registros de las probabilidades de seleccin usadas en la primera ocasin. La agencia quiere emplear su muestra original como una muestra simple aleatoria para el bosque y remedir esas mismas parcelas para volumen y cambio en volumen. Es aconsejable? (ver Schreuder y Alegra, 1995). Respuesta. No! En el artculo referido, se deriva una frmula para el sesgo de este procedimiento. Puede ser bastante severo. Una leccin importante es conservar las probabilidades de seleccin de las unidades para usarlas en el futuro, en caso de que una muestra aleatoria de estas parcelas vaya a revisitarse para hacer remediciones. E. Determinacin del Tamao de Muestra
La pregunta sobre estadstica que con ms frecuencia hacen los usuarios de inventarios por muestreo es qu tamao de muestra se debe usar? Un primer paso es especificar con claridad los objetivos del muestreo. Mucho dinero se ha mal gastado debido a que una persona ha definido pobremente los objetivos. A menudo, esto conduce a objetivos que no se logran con la muestra obtenida. Una vez que los objetivos se han especificado, la decisin acerca del tamao de la muestra es ms fcil. En general, la recomendacin ser la muestra ms grande posible de acuerdo con el dinero disponible. Si esto no es una respuesta satisfactoria, se recurre a una propuesta estadstica sistemtica. Tpicamente, se desean intervalos de cierta amplitud aceptable para estimar un parmetro Y, es decir, se desea un intervalo de confianza:
56
zS y + zS y = 1 P Y Y Y n n
(60)
es el n que nos gustara generar. Esta ecuacin implica que el error estndar de la estimada de Y parmetro de inters (Y) tal vez se estimar dentro del intervalo, en promedio, (1-)100% de las veces. El problema es que suele no saberse cuanto es Sy y, puesto que tampoco sabemos el tamao de la muestra, se deber usar la distribucin t en lugar de la distribucin z. Para estimar el tamao de la muestra, se hace como sigue para MSA: Desarrolle una ecuacin que exprese n en trminos de la precisin deseada para la estimada. t 2 s2 Para MSA, n 2y , donde n es el tamao de la muestra deseado, t es el 1-/2 cuantil de la
donde z es el percentil normal estndar, para asegurar una alta probabilidad (1-) y
Sy
distribucin central t con n-1 grados de libertad que se puede encontrar en Tablas de t (Tabla 2 2 del Apndice 3), s y es la varianza estimada para la variable de inters y, con base en un es la amplitud del intervalo de confianza especificado. n Estime los parmetros de la poblacin desconocidos en las ecuaciones usadas para estimar el tamao de muestra deseado. Si esto no es posible, una regla general es tomar una muestra de tamao 50. Fije las prioridades en los objetivos de muestreo. Por ejemplo si usted tiene inters en ms de una caracterstica de la poblacin, se requiere determinar el tamao ptimo de la muestra deseado para satisfacer requisitos diferentes. Es la mortalidad de los rboles tan importante como el volumen, etc.? Asegure que el valor de n escogido es consistente con los recursos disponibles para tomar la muestra. A menudo, n es determinado slo con esta base y puede ser bueno, una vez hecho el ejercicio anterior, recomendar no muestrear en absoluto porque el tamao de la muestra factible es demasiado pequeo. Esta recomendacin, aunque factible, suele no considerarse. muestreo preliminar, y 2t =
2t s y
Problema. Un grupo de investigacin desea muestrear contaminantes en el aire arriba de un incendio, empleando un avin. Tiene un presupuesto de $2,000. Usted estima que para obtener una estimada confiable, se necesita una muestra de tamao 50 para muestrear dixido de carbono y de tamao 60 para muestrear nitrgeno. El grupo de investigacin slo puede pagar una muestra de tamao 1 para muestrear dixido de carbono y nitrgeno, pero tambin est interesado en otros cinco qumicos. Qu recomendara? Respuesta. La respuesta racional es recomendar que no se haga ningn muestreo esta vez, hasta que se disponga de ms dinero. El resultado ms probable es que el grupo de investigacin de todos modos haga el muestreo. Una situacin como sta la encontr el primer autor. Se puede argumentar que, con la tremenda variabilidad que se esperara en esta situacin, una muestra de tamao 1 podra ser peor que no muestrear, ya que el tamao de muestra 1 podra generar una estimada confusa del verdadero parmetro que se desea estimar.
57
Ejemplo: Estamos interesados en estimar la longitud de las hojas de una confera en un rbol con un intervalo de confianza no mayor que 10 mm, con un nivel de confianza de 95%. Con base en una pequea muestra de otro rbol cercano, estimamos que la longitud media de las hojas es y =
19.8 y s = 4.1 mm. Para lograr nuestro objetivo, necesitamos n =
2 2 t.05 s = 2.69 . Por ello, (10 / 2) 2 probablemente tomemos una muestra de tamao 3 de hojas del rbol para asegurar que la muestra obtenida sea suficiente y esperar que la muestra preliminar en que se bas la estimada sea vlida para el rbol de inters.
Problema. Una organizacin le dice que para una poblacin de 100,000 ha una muestra de tamao 40 ha es suficiente para producir una estimada confiable para una variable determinada. Ellos desean que usted haga un muestreo en 10,000 ha y tome una muestra de tamao 4, ya que es 1/10 de la poblacin original y, por lo tanto, en su opinin, se tendra una estimada igualmente precisa para la poblacin ms pequea. Usted est de acuerdo? Respuesta. No, no debera estar de acuerdo! El resultado ser mucho menos confiable para la pequea poblacin. Consultar a Czaplewski (2003), para un ejemplo real de una situacin similar. Tambin, ver la Tabla 2. F. Muestreo de Campo
Qu propuesta para localizar parcelas y qu tipo de parcelas deberan emplearse? El propsito del muestreo es obtener una muestra representativa de la poblacin de inters. Con frecuencia, en inventarios de gran escala el muestreo se basa en una cuadrcula con inicio aleatorio. Estrictamente hablando, sta no es una muestra aleatoria, ya que algunas unidades (localizaciones) tendrn una probabilidad de seleccin conjunta de 0. Pero se justifica como si fuera MSA, porque el estimador es insesgado y el estimador de la varianza del muestreo sistemtico con inicio aleatorio sobreestimar la varianza, suponiendo MSA. Es probable que en el futuro los inventarios para recursos mltiples requerirn diferentes formas y tamaos de parcelas de muestreo para las diversas variables de inters, pero compartiendo el mismo centro de parcela. Pero esto no es as en estos das, ya que el muestreo para otros recursos se sobrepone en el muestreo para madera. Por ejemplo, en Estados Unidos, FIA (Forest Inventory and Analysis) emplea cuatro subparcelas circulares de 0.017 ha (1/24 acres), muestrea parcelas de una hectrea (aproximadamente 2.5 acres) para la mayora de las variables ecolgicas de los rboles y usa transectos para materiales leosos y variables del sotobosque.
Tcnicas de muestreo en parcelas y transectos. Se pueden obtener estimadas insesgadas de los parmetros de la poblacin de cualquier combinacin de tamao y forma de las unidades muestrales, si se hace apropiadamente, pero la combinacin ptima depende de las condiciones del bosque. Las formas de parcelas de rea fija en dasonoma por lo general son rectangulares, cuadradas, circulares y rectangulares angostas; sin embargo, las circulares son con mucho, las ms empleadas. A menudo, los conglomerados de parcelas son ms eficientes que las parcelas individuales y se emplean con regularidad en dasonoma. Si existe un claro gradiente, las parcelas rectangulares transversales al gradiente resultan eficientes (recuerde que el muestreo por conglomerados es ms eficiente si los conglomerados son heterogneos), pero la orientacin se debe definir en el gabinete antes de llegar al campo a hacer el muestreo.
58
Por lo general, las parcelas rectangulares y cuadradas se trazan empezando en una esquina localizada por caminamientos (brjula y cinta), usando una fotografa area o un mapa. La segunda esquina se localiza enseguida y las esquinas tres y cuatro se ubican a ngulos rectos. Las parcelas circulares se definen por el centro de ellas y el radio deseado. Es ms simple establecer una parcela circular que de otra forma, porque las distancias del centro de la parcela slo se tienen que revisar para los rboles en una franja perifrica, de 1.5 a 3.0 m, donde hay duda sobre si estn o no dentro de la parcela. La longitud de la franja y, por lo tanto, el nmero de rboles en el lmite se incrementa con el incremento del radio de la parcela. A veces se necesita la medicin exacta para determinar si un rbol est fuera o dentro de la parcela. Las parcelas rectangulares angostas son ms convenientes si la informacin sobre la topografa y la composicin del bosque tambin se requieren como parte del inventario si, adems, el sotobosque es denso o las condiciones del terreno demandan mucho tiempo para establecer la parcela. El ancho de las franjas, determinado de antemano en gabinete, vara entre 5 y 40 m, dependiendo de la intensidad de muestreo, topografa, composicin del bosque, densidad del sotobosque, variabilidad del bosque y su valor. Para una intensidad de muestreo dada, un muestreo en franjas puede ser ms rpido que uno basado en parcelas, porque la relacin del tiempo de trabajo en las unidades, con respecto al tiempo de traslado entre ellas, es ms grande en las franjas. Las franjas y las parcelas pueden combinarse en lo que se llama "parcelas en lnea". De esta forma, los datos topogrficos y de tipo de bosque, se colectan en las franjas, y la informacin cuantitativa sobre el bosque, se obtiene en parcelas localizadas a intervalos a lo largo de las franjas. En dasonoma, los tres procedimientos ms populares para muestrear atributos de la madera, como volumen, crecimiento, mortalidad, etc., son los muestreos en parcelas de radio variable, en parcelas de rea fija y en lneas de interseccin o intercepcin. El muestreo en parcelas de radio variable (PRV) consiste de un conglomerado de cuatro o cinco subparcelas de radio variable en cierta rea, como un acre o una hectrea. Esta es una versin del muestreo con probabilidad desigual, donde los rboles se eligen de manera proporcional a su rea basal. Es eficiente para muestrear volumen y rea basal, ya que el rea basal, por supuesto, est correlacionada con el volumen. El muestreo con PRV fue inventado por W. Bitterlich, un forestal austriaco, en la dcada de 1930, aunque public su trabajo hasta finales de la dcada de 1940, tal vez por el surgimiento de la guerra. Este mtodo todava se utiliza en unos cuantos pases europeos. En Estados Unidos, el Jefe del Servicio Forestal orden que el procedimiento no se utilice por el FIA. Sin embargo, ste es un procedimiento todava bastante prctico para venta de madera y otros usos. Muestreo en parcelas de rea fija. Una parcela grande suele submuestrearse por un conglomerado de pequeas parcelas circulares. Los rboles se eligen con probabilidades iguales. Ahora, ste se usa por el FIA y el NFS (National Forest Health), del Servicio Forestal de Estados Unidos y por varios pases europeos. Las parcelas rectangulares tambin podran usarse, pero no son tan populares, aunque podran ser bastante tiles en regiones tropicales o en conjuncin con sensores remotos. Muestreo por lneas de interseccin o intercepcin. Este mtodo se usa con frecuencia para material leoso sobre el suelo y para vegetacin del sotobosque. Para el primero, la
59
probabilidad de inclusin es lisen wi/L, donde li es la longitud de la troza, wi es el ngulo agudo entre la troza y la lnea de muestreo, y L es el espaciamiento entre las lneas. El FIA y el Sistema de Vegetacin Actual (CVS, por sus siglas en ingls) en la Regin 6 (Oregon y Washington) del Servicio Forestal de Estados Unidos (Max et al., 1996), emplean parcelas compactas circulares de una hectrea. Aunque stas se pueden establecer en el campo ms rpidamente que las parcelas rectangulares alargadas, son menos eficientes para la estimacin debido a la correlacin espacial y la similitud de las subparcelas compactas adyacentes. Medirlas duplica mucho el trabajo ya hecho y se produce poca informacin nueva. Las subparcelas alargadas dispersas sobre el rea de observacin reducen el efecto de la correlacin espacial respecto a subparcelas circulares o cuadradas con un rea de muestreo del mismo tamao. Para incrementar la precisin de las estimadas para grandes reas, se busca que las estimadas de las parcelas sean tan similares como sea posible. Para esto, se incluye tanta variabilidad como sea posible dentro de la parcela, incrementando as la eficiencia. Sin embargo, las parcelas rectangulares alargadas o de grandes cuadrados tienen un gran permetro, lo que incrementa el nmero de decisiones necesarias para saber si los rboles en el lmite estn dentro o fuera. Las parcelas largas son ventajosas para los sensores remotos, especialmente para fotografas areas de bajo nivel y videografa. Numerosas variables de los rboles y de los rodales, como la densidad (rboles/hectrea) y mortalidad, se pueden medir con un alto grado de confiabilidad usando imgenes de sensores remotos. Sin embargo, es deseable muestrear subparcelas en el terreno en ese momento para verificar las mediciones hechas por los sensores remotos y ajustarlas mediante regresin, si es necesario. Las caractersticas de los tipos de parcela usados en Estados Unidos se resumen en la Tabla 3.
Tabla 3. Caractersticas de los tipos de parcelas usados en Estados Unidos. Parcela/subparcela FIA CVS 40x250m 25x400m
20x500m
Parcela 1.000 1.000 1.000 1.000 1.000 rea (ha) 56.42 m 40x250 m 25x400 m 20x500 m 56.42 Radio/Dimensiones(m) 1040 850 580 354.5 354.5 Permetro (m) Subparcela grande 0.1000 0.1000 0.1000 0.0763 0.1012 rea(ha) 20x50 25x40 25x40 15.58 17.95 Radio/Dimensiones(m) 140 130 130 97.89 112.8 Permetro (m) Subparcela media 0.020 0.020 0.020 0.020 0.0168 rea(ha) 10x20 10x20 10x20 8.02 7.32 Radio/Dimensiones(m) 60 60 60 50.4 46.0 Permetro (m) Subparcela pequea 0.001 0.020 0.020 0.004 0.001 rea 2x5 10x20 10x20 3.57 1.78 Radio/Dimensiones(m) 14 60 60 22.4 11.2 Permetro(m) FIA: Forest Inventory and Analysis; CVS: Current Vegetation System. La siguiente es una revisin de las ventajas de los diferentes tamaos y formas de subparcelas (Schreuder y Geisser, 1999):
60
Las parcelas rectangulares alargadas son ventajosas para mediciones en fotografas de poca altura y estimadas de la biodiversidad vegetal. Las parcelas rectangulares son ms fciles de cubrir e interpretar en un vuelo; una hectrea es un tamao conveniente para el vuelo y la fotointerpretacin. Las parcelas largas y angostas o transectos son deseables para evaluar la biodiversidad vegetal (riqueza de especies e identificacin de las mismas), porque se desea cubrir tantas condiciones de hbitat y un rea tan grande como sea posible para encontrar especies raras. Los asuntos de los lmites son menos importante porque uno slo tiene que revisar si las especies ocasionales encontradas en las subparcelas estn dentro o fuera de la parcela. Las subparcelas circulares son ventajosas para el muestreo con PRV y para medir otras variables donde los asuntos de los lmites son importantes, como en subparcelas para regeneracin. Los transectos son ventajosos para atravesar un rea grande con el objetivo de medir objetos dispersos o raros, como residuos sobre el suelo. Una serie de muestras de rea pequea, como muestras de suelo, son mejores para ciertas mediciones costosas y destructivas, como la evaluacin de la calidad y otras mediciones de suelo. Los diseos de parcelas para animales son menos definidas que para plantas. La serie de artculos que concluye con Schwarz y Seber (1999) dejan ver la posibilidad de que con el incremento tecnolgico, las poblaciones de animales puedan muestrearse algn da con la misma facilidad que las poblaciones vegetales. Las etiquetas de radio, aparatos de grabacin y las trampas pueden simplificar el muestreo de animales y, a menudo, son necesarias. Las aves y los mamferos grandes cubren grandes reas a causa de su movilidad; as, el muestreo para ellas requiere parcelas grandes. Animales que se mueven lentamente, como lombrices, caracoles, hormigas y muchos insectos, se pueden muestrear en microparcelas similares a las usadas para plantas descritas arriba, pero a menudo son difciles de observar y se pueden requerir trampas para encontrarlos. Particularmente, las aves son difciles de muestrear porque emigran, de manera que sus poblaciones tambin se reflejan por condiciones en otros lugares. El conteo de aves tambin est influenciado por la estacin, el tiempo durante el da y las condiciones del clima.
Problema. Usted estar a cargo de desarrollar una estrategia de muestreo para los estados de Chiapas, en Mxico, y Colorado, en Estados Unidos, para estimar los volmenes de madera en esos lugares. Qu tipo de parcelas en el terreno recomendara? Respuesta. Chiapas tiene una superficie considerable de bosques tropicales, con condiciones de acceso difciles. Es probable que parcelas alargadas, digamos de 5 m x 100 m podran ser mejores ah. En Colorado, el acceso a los bosques sera ms fcil y las parcelas de radio variable podran ser la mejor manera para seleccionar los rboles de forma proporcional a su rea basal. G. Efectos de Orilla al Muestrear los Lmites del Rodal
Las parcelas elegidas al azar pueden caer cerca del lmite del rodal y parte de la parcela puede quedar en un rodal diferente. Estas parcelas en el lmite se han estudiado de diferentes maneras, hasta el punto de mover las parcelas lejos de los lmites o eliminarlas por completo. Algunas prcticas pueden sesgar las estimadas del rodal, en particular en rodales largos y angostos o ecosistemas fragmentados, donde hay una gran cantidad de orillas. Los rboles a lo largo de las
61
orillas pueden crecer de manera diferente en dimetro y forma, por ejemplo, donde el rea vecina est abierta, as que es errneo ignorar las condiciones de la orilla. Los lmites del perfil irregular pueden introducir problemas adicionales. Para un tratamiento tcnico completo de estos asuntos, vea Schreuder et al., (1993), seccin 7.11.3, e Iles (2003), captulo 14. En una aplicacin prctica, tal vez el mtodo ms usado y aceptado para atender las parcelas en el lmite es la parcela de espejo (Avery y Burkhart, 1983 p. 221). Para usar la tcnica de la parcela de espejo, ubique la parcela en donde caera; si una parte de la parcela est fuera del lmite del rodal, instale una parcela de espejo. Desde el centro original de la parcela cuente todos los rboles en la parcela que estn dentro del rodal. Mida la distancia del centro de la parcela al lmite e instale una parcela espejo a la misma distancia sobre el otro lado del lmite. Cuente todos los rboles en la parcela de espejo que estn dentro de los lmites del rodal. En efecto, el rea de la parcela que existe fuera del rodal se refleja dentro del lmite del rodal, resultando en el conteo de algunos rboles dos veces desde puntos que son proyecciones ortogonales de (l1s , l2 s ) , usando los lmites del rodal que truncan el rea de inclusin ai . Formalmente, el mtodo de espejo trabaja como sigue: Una localizacin de muestreo (l1s , l2 s ) se ubica al azar dentro del rea A. Si ri es la distancia entre esta localizacin y el rbol i, y Ri es la distancia lmite para ser incluido en la muestra, dbhi o Ri = R . Dependiendo de que se usen PRV o parcelas circulares de rea entonces Ri = 2 F fija, la unidad ui se incluye en la muestra si ri Ri . El rea de inclusin ai es circular concntrica con ui , pero truncada por el lmite del rea si est dentro de Ri del rbol. La ponderacin asociada con yi es un entero mltiplo de A / ai (0) , en la que el multiplicador depende de que ui pueda tambin ser contado. El mtodo de espejo tiene problemas con lmites irregulares y con reas inaccesibles, por ejemplo, acantilados, pantanos, cuerpos de agua o accesos restringidos. Para tales reas, el mtodo llamado atravesar (walkthrough en ingls) se propuso por Ducey et al. (2004). Para rboles entre el centro de la parcela y el lmite, mida la distancia del centro de la parcela al centro del rbol. Siguiendo en la misma lnea, mida la misma distancia al lmite, si se est fuera del lmite el rbol se cuenta dos veces, de otra manera slo una vez. La ventaja es que nunca se necesita cruzar el lmite o preocuparse por lmites de perfil irregular. Una desventaja puede ser que la definicin del lmite para los rboles sea an ms subjetiva que para la parcela.
H. Asuntos sobre el Diseo
Los siguientes asuntos acerca del diseo son crticos: Colectar datos de variables explicativas o de estrs como deficiencia de lluvia, baja humedad en el suelo, exposicin a la contaminacin, etc. Por lo general, este tipo de datos no se puede colectar en parcelas, pero son esenciales para construir modelos confiables. Simplicidad en el diseo. Proporciona flexibilidad en el tiempo y facilidad en el anlisis. Consistencia del diseo a largo plazo. Simplifica los cambios en los procedimientos de estimacin y en la identificacin de posibles hiptesis de causa-efecto.
62
Flexibilidad para abordar nuevos asuntos ambientales o de manejo, manteniendo la consistencia del diseo. Flexibilidad para incorporar nuevas tecnologas de medicin, manteniendo la consistencia del diseo. Posibilidad de tratar a cada unidad muestral como una poblacin. Es importante, por ejemplo, para clasificar cada unidad para estimar la superficie en tipos forestales. Esto significa, por ejemplo, no perder datos de una unidad muestral a causa del diseo usado. Por supuesto, esto no siempre es posible lograrlo. Usar muestreo intercalado o mtodos similares, de manera que la intensidad de muestreo se pueda incrementar en tiempo y en espacio si se requiere. sta es una caracterstica deseable en inventarios anualizados, si se maneja apropiadamente. Proveer flexibilidad para acomodar parcelas de reemplazo para atender el dao causado por mediciones destructivas o las negativas de acceso a parcelas de propietarios privados, por ejemplo, muestrear con reemplazo parcial. Habilidad para manejar datos perdidos, como parcelas inaccesibles o en las cuales el propietario niega el acceso (como lo nota C. Kleinn, la inaccesibilidad tambin puede ser causada por minas o fauna, como leones o elefantes). La inaccesibilidad se maneja mejor si se separa un estrato para tales parcelas y se establece claramente el tamao estimado de dicho estrato y cmo se generarn las estimadas para ste, si es que se generarn algunas. Implementar un programa fuerte de aseguramiento de la calidad, de manera que el cambio verdadero en las parcelas de muestreo en el tiempo no se confunda con cambios sutiles en el protocolo de medicin. Considere el uso de varios diseos de parcelas en la misma localizacin. Aunque esto complica la coleccin de datos, se podra requerir cuando se necesita estimar un conjunto amplio de variables de la poblacin. Por ejemplo, para nmero de rboles y rea basal total, algunos diseos de parcela diferentes son eficientes: rea fija y PRV, respectivamente.
I. Instrumentacin
Las tcnicas de medicin se cubren con gran detalle en Schreuder et al. (1993), Captulo 7. Esta seccin servir como una actualizacin suplementaria de dicho captulo. Aunque los instrumentos que se emplean hoy por los tcnicos forestales son diferentes a los del pasado, los principios subyacentes son los mismos. En general, las mediciones se basan en la obtencin de distancias o longitudes y ngulos fciles de medir, y en relaciones trigonomtricas bsicas para calcular los elementos ms difciles de medir. El avance en tecnologas electrnicas permite que esas mediciones ahora sean ms fciles, rpidas y precisas. Adems, las computadoras manuales y resistentes permiten no slo capturar esas mediciones, sino tambin auditarlas y procesarlas.
Herramientas nuevas para medir dimetros. La herramienta preferida sigue siendo la cinta diamtrica o la forcpula. Sin embargo, dos nuevas herramientas parecen convenientes: la forcpula electrnica de Haglof y otra herramienta electrnica para medir dimetros, equivalente al Relascopio, de Laser Technology. La forcpula se parece a la tradicional, pero tiene un lector digital del dimetro, as como una grabadora; despus de un da de trabajo de campo, los datos se pasan a una computadora para su procesamiento. Un nuevo y promisorio instrumento, aunque todava no disponible comercialmente, es el dispositivo electrnico para medir dimetros. Una barra luminosa se proyecta encima del rbol y la amplitud de la barra se manipula con los
63
controles para coincidir con el dimetro del rbol. Se introduce una distancia en forma manual o mediante un medidor de distancias electrnico de lser conectado. La distancia al rbol y la amplitud de la barra permiten que el dimetro se capture internamente. El instrumento tiene un amplificador 2X y un medidor de ngulos verticales, con lo que tambin se pueden medir dimetros superiores en el tronco del rbol.
Herramientas nuevas para medir alturas. La clave para determinar la altura de un rbol es una medicin precisa de la distancia horizontal al mismo. Los dispositivos lser para medir distancias han probado ser muy eficaces. Algunas marcas, como Laser Technology, Newton Optik, LaserAce, Handlaser, Opti-Logic y otras, ofrecen medidores lser de distancia. Como con cualquier tecnologa nueva, estn cambiando continuamente, conviene buscar en Internet la informacin ms reciente. Algunos instrumentos tienen integrados medidores de ngulos verticales y, junto con otra informacin, pueden mostrar la altura. Para algunos modelos existe un aditivo opcional, como una brjula, que tambin puede conectarse al sistema interno del implemento.
Otra adicin reciente para el equipo de campo del tcnico forestal es el Hipsmetro Vertex de Haglof, un dispositivo ultrasnico para medir distancias. Este sistema tiene dos partes: un transponder y el hipsmetro. El transponder se puede colocar en el centro de la parcela o colgado de un rbol, y el hipsmetro se usa para determinar la distancia al transponder; opcionalmente puede incluir un medidor de ngulos verticales. La distancia y la altura se visualizan en la pantalla. El problema de rboles en los lmites, aqullos que ocurren sobre o muy cerca del lmite de las parcelas, siempre surge cuando se establecen unidades de muestreo en el campo. El error de medicin asociado con tales rboles puede ser una fuente de error considerable, al derivar estimadas por parcela en inventarios forestales. Los instrumentos ultrasnicos para medir distancias hacen ms fcil instrumentar procedimientos como la parcela espejo o el atravesar, descritos antes para muestrear reas en el lmite.
Nuevos grabadores de datos. La coleccin de datos en el campo en un grabador de datos porttil (PDR, por sus siglas en ingls) tiene muchas ventajas sobre los formatos en que se anota a mano, en particular para transferir los datos entre la computadora manual y otros instrumentos electrnicos de medicin. La captura directa de la salida del instrumento de medicin al PDR evita los errores de captura comnmente encontrados. Con el procedimiento mecnico de medicin y el tecleo inmediato de los datos en el PDR, se evita la posibilidad de errores de trascripcin. Adems, el PDR se puede programar para identificar datos ilgicos o faltantes.
Conforme madure la plataforma de Windows CE de Microsoft, muchas soluciones en hardware y software para dasonoma se harn disponibles, como reemplazo de lo que se desarroll para DOS y otros sistemas operativos. Ya existen muchas opciones de software para inventario, medicin y muestreo. El software comercial suele estar disponible con quienes venden hardware, aunque tambin est disponible a travs de entidades pblicas. La disponibilidad y bajo precio de los asistentes digitales personales (PDA por sus siglas en ingls) ha permitido la coleccin de datos de campo de manera ms barata. Con la adicin de estuches resistentes, el PDA se ha convertido en una unidad de campo muy til. Sin embargo, para uso en campo las unidades verdaderamente reforzadas con teclado integrado son preferibles.
64
J. Muestreo de Residuos Leosos Gruesos (RLG)
En inventarios de RLG, podramos estar interesados en el material leoso cado y en pie. Ya que la evaluacin de rboles vivos y muertos en pie se hace como parte del inventario tradicional para madera, aqu slo se discute el muestreo de residuos leosos cados. La discusin sigue en mucho la revisin hecha por Stahl et al. (2001). Suponemos que el inters es en volumen y nmero de piezas. Como lo sealan Stahl et al. (2201), no hay una mejor manera obvia de muestrear RLG. Pero en lnea con la simplicidad en este libro, se favorece el muestreo en lneas o franjas. El muestreo en franjas es lo mismo que otras tcnicas de muestreo en reas fijas ya discutidas y por lo tanto no se requiere mayor elaboracin aqu, excepto que se necesita decidir claramente cundo una troza est dentro o fuera de la muestra. Es mejor decidir que la troza est dentro si el centro del extremo mayor est dentro de la franja para la estimacin del volumen y el nmero de trozas. Se podra contar la troza dentro para estimar volumen si parte de la troza est dentro, pero el centro del extremo grueso no est; esto puede conducir a complicaciones, como que posiblemente haya volumen dentro sin que haya un nmero de trozas dentro. La ventaja de esta tcnica es que es simple de implementar, ya que tales parcelas son fciles de establecer y el material en el suelo es accesible para medirse. Tampoco hay problemas con trozas que no estn horizontalmente apoyadas en el suelo o que estn torcidas o tengan ramas hacia arriba, aunque esto tiene que considerarse para la estimacin del nmero de unidades de RLG. En la intercepcin de lneas, tambin llamado muestreo por interseccin lineal o de lneas, todas las unidades intersectadas por una lnea de inventario se muestrean. Las lneas se establecen en segmentos con orientacin y espaciamiento especficos. Suponiendo que las lneas se ponen en una direccin fija, la probabilidad de inclusin en la muestra de una unidad requiere la medicin de la proyeccin de la longitud de la unidad perpendicular a la orientacin de la lnea de muestreo. Entonces, los estimadores para la variable y, sea el volumen total o el nmero de unidades, es:
= L Y
i =1 m
yi li sin wi
(61)
donde L es el espaciamiento entre lneas de muestreo puestas sistemticamente en toda la poblacin, m es el nmero de lneas, li es la longitud de la unidad y wi es el ngulo agudo entre la unidad y la lnea de muestreo. Si se emplean m lneas de muestreo de tamaos si , entonces el siguiente estimador de razn, generalmente, debera ser ms eficiente:
m yi = A i =1 li sin wi Y m si
i =1
(62)
donde A es el rea muestreada. Una complicacin de este diseo de muestreo puede presentarse con trozas muestra que estn paralelas a la direccin de muestreo. Tales trozas tienen una probabilidad de seleccin cercana a cero y, como se indic antes con el estimador HorvitzThompson, esto puede crear estimadas exageradas, si tales trozas se cuentan dentro, aun si son parte vlida de la muestra. Si no se cuentan dentro, cuando deberan considerarse dentro, se
65
provoca un sesgo en la estimacin. Vea Williams y Gove (2003) para ms detalles del sesgo potencial. Este mtodo tiene la considerable ventaja de que establecer y caminar una lnea en el terreno es fcil, pero sufre del problema de tener que medir ngulos, no tiene compensaciones por trozas que no yacen horizontalmente o ramas y troncos chuecos, y la decisin sobre si estn dentro o fuera las trozas que estn paralelas a la lnea. Una discusin amplia de la teora e historia del muestreo en lneas se presenta en el Captulo 13 de DeVries (1986).
Problema. Considere el muestreo en franjas donde una troza se cuenta dentro para estimar volumen pero no para estimar nmero de trozas. Si parte de la troza est dentro de la franja, pero el centro del extremo grueso no lo est, es posible:
a. Tener estimadas de volumen, pero conteo cero para el nmero de trozas? b. Tener una estimada positiva del nmero de trozas, pero cero para volumen ?
Respuesta. a. Si, b. No. K. Muestreo de Fauna
Buena parte de la teora de muestreo de las poblaciones finitas de plantas no es aplicable al muestrear muchas de las poblaciones de fauna (Schreuder et al., 1993, p.326). Muchas especies de animales son mviles y se esconden, haciendo difcil la deteccin o la medicin, y el muestreo puede afectar su ubicacin. Por lo general, no hay ningn marco de muestreo y las probabilidades de seleccin tienen que estimarse despus de que se obtiene la muestra. La existencia de una probabilidad de seleccin especfica para un individuo en la poblacin es a menudo conceptual. Como resultado, el muestreo de las poblaciones de animales es ms caro que el muestreo de las poblaciones de las plantas y se tienen que hacer ms suposiciones estadsticas para hacer que una estimacin sea posible, por lo cual los errores son ms probables (Burnham, 1980). Las variables primarias de inters en el muestreo de fauna normalmente son el tamao de la poblacin y tasas de nacimiento, inmigracin, emigracin y mortalidad. A menudo, las poblaciones se clasifican como cerradas o abiertas, donde se asume que una poblacin cerrada tiene un tamao constante con los mismos miembros, excepto por las remociones conocidas que se hacen durante un estudio. En una poblacin abierta, pueden ocurrir nacimientos, inmigraciones, emigraciones y muertes. Tradicionalmente, slo se hace una visita a una unidad de muestreo primaria (ump). Sin embargo, es difcil obtener observaciones repetibles de animales dentro de una misma visita, porque el conteo es influido por clima, hora del da y otros factores. El equipo de video en el campo durante unas semanas permitir tomar las muestras en todo momento, da y noche, y bajo condiciones de clima variantes, haciendo las observaciones mucho ms repetibles. Una ventaja importante de los grabadores automticos es que se pueden observar los animales nocturnos y tmidos. Como se ha sealado, las estrategias de muestreo para animales son considerablemente ms complejas que para la vegetacin. Dispositivos como etiquetas de radio, clasificacin de muestras de ADN de pelos encontrados en la muestra e imgenes de sensores remotos de alto detalle harn que los muestreos de animales sean ms fciles en el futuro. Schwartz y Seber (1999) y
66
Thompson et al. (1998) presentan procedimientos detallados para muestreo de poblaciones de animales.
V. Mtodos de Muestreo para Variables Discretas A. Muestreo Simple Aleatorio (MSA ) para Datos de Clases
Suponga que para una poblacin dada de una especie rara de rboles es importante determinar la proporcin de rboles machos y hembras, pero el sexo del rbol slo puede determinarse fcilmente en el otoo. De una muestra aleatoria de 50 rboles, el nmero de hembras es de 39. Entonces, el estimador p , de la proporcin que es hembra es: p=
_ _
Nmero de individuos que tienen el atributo especificado Nmero de individuos observados
(63)
o p=
39 = 0.78 50
Error estndar del estimador. El error estndar de p es:

__
__
__ p 1 p 1 n n 1 N
(64)
donde: n = nmero de unidades observadas. En este ejemplo, N es extremadamente grande, con relacin a n, y as la correccin por poblacin finita podra pasarse por alto:
sp =
( 0.78 )(1 0.78) = 0.05918 ( 50 1)
Lmites de confianza. Para ciertos tamaos de muestra (entre ellos, n = 50) se pueden obtener lmites de confianza de la Tabla 3 del Apndice. En este ejemplo encontramos que en una muestra de n = 50 rboles, 39 resultaron hembras. La proporcin de rboles hembras que se estim fue de 0.78 y, como se observa en la tabla referida, los lmites de 95 % de confianza seran 0.64 y 0.88. Para muestras de tamao 100 y mayores, la tabla no muestra los lmites de confianza para proporciones mayores que 0.50. Sin embargo, stos se pueden obtener fcilmente trabajando con la proporcin de unidades que no poseen el atributo especificado. As suponga que, en una muestra de n = 1,000, 78% result ser rboles hembras. Esto equivale a decir que 22% no fueron hembras, y la tabla muestra que para n = 1,000, el intervalo a 95 % de confianza para una fraccin observada de 0.22 es de 0.19 a 0.25. Si la verdadera proporcin de la poblacin de rboles machos se encuentra dentro de los lmites de 0.19 y 0.25, la proporcin de la poblacin de semillas hembras debe de encontrarse dentro de los lmites 0.75 y 0.81.
67
Intervalos de confianza para muestras grandes. Para muestras grandes, el clculo del intervalo de 95% de confianza puede hacerse por medio de: 1 p 2s p + 2n (65)
Suponga que se ha escogido una muestra de n = 250 unidades y que 70 de estas unidades tienen algn atributo especfico. Entonces: p= Ignorando la correccin por poblacin finita: sp = 70 = 0.28 250
( 028)( 0.72 )
249
= 0.02845
Entonces, el intervalo de 95% de confianza es: 1 = 0.28 2 ( 0.02845 ) + = 0.28 0.059 = 0.221 a 0.339 2 250 ( ) As, a menos que haya ocurrido una probabilidad de 1 en 20, la verdadera proporcin se localiza dentro de los lmites 0.22 y 0.34. Para un intervalo de confianza de 99%, multiplicaramos s p por 2.6 en vez de 2 (para muestras de n = 250 1,000, el intervalo de confianza se pudo haber obtenido, por supuesto, de la Tabla 3 del Apndice. Para este ejemplo, la tabla da 0.22 y 0.34 como lmites). La ecuacin de arriba generada lo que se conoce como la aproximacin normal a los lmites de confianza. Como se observ, puede emplearse para muestras grandes. La consideracin de una muestra grande depende de la proporcin de individuos que tengan la caracterstica especificada. Como una gua burda, la aproximacin normal ser buena slo si el logaritmo comn del tamao de la muestra (n) es igual o mayor que:
1.5 + 3 ( P 0.5 ) donde P es nuestra mejor estimacin de la verdadera proporcin de la poblacin que tiene el atributo especificado y |P0.5| es el valor absoluto (esto es, ignorando el signo algebraico) de la diferencia de P menos 0.5. As, si nuestro estimador de P es 0.20, entonces P 0.5 es igual a 0.3 y, si se ha de usar la aproximacin normal, el logaritmo de nuestro tamao de muestra debe de ser mayor que: 1.5 + 3(0.3) = 2.4
68
por lo que n debe ser mayor que 251 (2.4 = log 251).
Tamao de la muestra. La Tabla 3 del Apndice 3 tambin puede emplearse como una gua para el nmero de unidades que deben observarse en un MSA para estimar una proporcin con una precisin especificada. Supngase que estamos muestreando una poblacin en la cual, alrededor de 40% de las unidades tienen cierto atributo, y deseamos estimar esta proporcin con una aproximacin de 0.15, al nivel de 95% de confianza. La tabla seala que para una muestra de
30 observaciones que tienen p = 0.4, los lmites de confianza seran de 0.23 a 0.60. Puesto que el lmite mayor no se encuentra dentro de 0.15 ms o menos de p = 0.4, una muestra de 30 unidades no dara la precisin necesaria. Una muestra de n = 50 da lmites de 0.27 y 0.55. Como cada uno de estos valores se observa dentro de p 0.15, concluimos que una muestra, cuyo tamao sea 50 sera adecuada. Si la tabla sugiere que sera necesaria una muestra mayor que 100, el tamao puede estimarse por:
n=
__ __
__
1
E 1 + ( 4 )( P )(1 P ) N
1
2
para 95% de confianza, y por
n=
E 1 + (6.76)( P)(1 P) N
para 99% de confianza
donde: E = la precisin con la cual ha de estimarse P. Y N = nmero total de unidades en la poblacin. La tabla indica que para estimar una P de cerca de 0.4 dentro de E = 0.05 (al nivel de 95% de confianza) se requeriran entre 250 y 1,000 observaciones. Usando la primera de las frmulas de arriba, y suponiendo que N = 5,000, encontraramos:
n=
( 0.05) 1 + ( 4 )( 0.4 )( 0.6 ) 5, 000

2
= 357
Si no tenemos idea del valor de P, tendremos que hacer una suposicin con objeto de estimar el tamao de la muestra. El procedimiento ms seguro consiste en suponer una P tan prxima a 0.5, como sea factible de ocurrir razonablemente. El siguiente problema muestra lo peligroso que puede ser muestrear por atributos, sin darse cuenta exactamente de las implicaciones.
69
Problema. La industria y un grupo de ecologistas estn discutiendo sobre cunto arbolado viejo hay en un cierto bosque muy grande. Acuerdan sobre la siguiente definicin de arbolado viejo: una hectrea de bosque se puede considerar arbolado viejo si tiene por lo menos un rbol con un dimetro normal de 100 cm o mayor. Se selecciona un grupo de consultores para hacer un inventario del bosque y decide tomar al azar 100 parcelas de una hectrea en todo el bosque. Debido a que es caro medir todos los rboles en la parcela muestra, se propone seleccionar cuatro subparcelas al azar de 0.1 ha cada una y entonces clasificar cada hectrea sobre si es arbolado viejo o no. Tanto la industria como el grupo de las ecologistas quieren una estimacin no sesgada del arbolado viejo en el bosque. Pueden obtenerlo con este mtodo? Respuesta. No. Con este mtodo slo se pueden equivocar en un sentido. Una hectrea puede clasificarse como no arbolado viejo cuando de hecho lo es, pero nunca puede clasificarse como arbolado viejo cuando no lo es. Puede resultar un riesgo serio de tal estimacin del arbolado viejo. Ver Williams et al. (2001) para un tratamiento extensivo del dilema expuesto. Para obtener un estimador insesgado, todas las parcelas de una hectrea tendran que medirse, es decir, censarse.
Cmo escoger un rbol o una semilla al azar. Si intentamos estimar la proporcin de rboles en un rodal que tenga una cierta enfermedad, podemos hacer un muestreo binomial, pero esto requiere visitar cada rbol en la poblacin y, en ese momento, determinar si es un rbol de muestra o no. Esto es MSA pero consume tiempo y resulta en un tamao de muestra al azar. As, es difcil seleccionar rboles individuales completamente al azar en forma prctica, lo que explica por qu el muestreo sistemtico con inicio aleatorio es popular, como una alternativa prctica, en tales situaciones.
En algunas poblaciones, los mismos individuos estn localizados al azar o fcilmente se pueden ubicar as. Un lote de semillas puede ser tal poblacin. Al mezclar completamente las semillas, antes del muestreo, es posible seleccionar un nmero de individuos de una posicin del lote y asumir que esto es equivalente a una muestra completamente al azar. Aqullos que han hecho un muestreo de semillas advierten que se debe evitar hacer la mezcla de tal forma que las semillas vacas y ligeras tiendan a subirse a la cima del montn. Como precaucin, quienes hacen estos muestreos toman semilla de varios lugares del montn con un cucharn, combinndolos y tratando a esa muestra como una muestra simple aleatoria.
B. Muestreo de Atributos por Conglomerados
En el muestro de atributos, el costo de seleccionar y localizar un individuo es muy alto, con relacin al costo de determinar si tiene o no tiene la caracterstica especificada. Debido a esto, se prefiere alguna forma de muestreo por conglomerados sobre el muestreo simple aleatorio. En el muestreo por conglomerados, la unidad de observacin consiste en un grupo de individuos, y el valor unitario es la proporcin de los individuos en el grupo que tiene el atributo especfico. Al estimar el porcentaje de supervivencia de rboles de una plantacin, es posible escoger a los rboles individuales para las observaciones, por medio de una seleccin aleatoria de pares de nmeros, haciendo que el primer nmero represente la hilera y el segundo nmero designe al rbol dentro de esa hilera. Pero obviamente, sera ineficiente ignorar a todos los rboles que deben pasarse para llegar al que se ha escogido. En vez de esto, se hacen conteos de supervivencia en un nmero de hileras escogidas al azar y, suponiendo que se plant el mismo
70
nmero de rboles en cada hilera, stos se promedian para estimar el porcentaje de supervivencia. sta es una forma de muestreo por conglomerados, donde el conglomerado es una hilera de rboles plantados. El porcentaje de germinacin de un lote de semillas tambin podra estimarse por medio del muestreo por conglomerados. Aqu, la ventaja de los conglomerados no se presenta al seleccionar a los individuos para la observacin, sino al evitar algunos riesgos de las pruebas de germinacin. Tales pruebas se hacen, comnmente, en pequeas cajas cubiertas. Si todas las semillas se colocan en una sola caja, cualquier accidente, como exceso de humedad o ataque de hongos, puede afectar la prueba entera. Para evitar este riesgo, es comn colocar un nmero fijo de semillas (100 200) en cada una de varias cajas. La caja individual se convierte, entonces, en la unidad de observacin y el valor de la unidad es el porcentaje de germinacin de la caja. Cuando los conglomerados son relativamente grandes y todos del mismo tamao, los procedimientos para el clculo de los estimadores de las medias y de los errores estndar son prcticamente iguales a los que se describen para datos de medicin. Para ilustrar, suponga que, de un lote totalmente revuelto se han escogido ocho muestras de cien semillas cada una. Las muestras de cien semillas se colocan en ocho cajas de germinacin separadas. Despus de 30 das, se registran los siguientes porcentajes de germinacin. Caja No. Germinacin (%) 1 84 2 88 3 86 4 76 5 81 6 80 7 85 8 84 Suma de % 664
Si pi es el porcentaje de germinacin en la caja nmero i, el porcentaje medio de germinacin se estimara por:
__
p=
p
i =1
664 = 83.0 8
La varianza de p se calculara por:

n 2 pi n 664 ) ( 2 i =1 2 2 2 pi (84 + 88 + ... + 84 ) 8 n i =1 = = = 14.5714 (n 1) 7
2
__
sp2
Por lo tanto, el error estndar de p se puede obtener como:

sp =
sp2 n
sp2 n 1 n N
sp =
14.5714 = 1.35 si la correccin por poblacin finita se ignora 8

71
Aqu, n significa el nmero de conglomerados muestreados y N es el nmero de conglomerados posibles en la poblacin. Como en el muestreo simple aleatorio en datos de medicin, tambin ahora se puede calcular un intervalo de confianza para el porcentaje estimado, por medio de la t de Student, para un intervalo de 95 % de confianza, p t s p , donde t es el valor de la t de Student al nivel de = 0.05 con n 1 grados de libertad. As en este ejemplo, t tendra 7 grados de libertad y t0.05 sera 2.365. El intervalo de 95 % sera: 83.0 (2.365)(1.35) = 83.0 3.19 = 79.8 a 86.2
Transformacin de porcentajes. Si los conglomerados son pequeos (menos de 100 unidades por conglomerado ) o si alguno de los porcentajes observados es mayor que 80 o menor que 20, puede ser deseable el transformar los porcentajes antes del clculo de las medias y de los intervalos de confianza. La transformacin comn es arcoseno porcentaje . La Tabla 4 del Apndice 3 da la transformacin de los porcentajes observados. Para los datos del ejemplo previo, los valores transformados seran:
Caja Porcentaje
arcoseno porcentaje 66.4 66.4 68.0 60.7 64.2 63.4 67.2 66.4 526.0
1 2 3 4 5 6 7 8 Total
84 88 86 76 81 80 85 84
La media de los valores transformados es: La varianza de estos valores es:
526.0 = 65.75 8
s2 =
( 66.4
+ ... + 66.4 7
( 526 )
8
= 8.1486
y el error estndar de la media de los valores transformados es:

sy =
8.1486 = 1.0186 = 1.009 8
ignorando la correccin por poblacin finita. As, los lmites de 95 % de confianza, usando t con 7 grados de libertad = 2.365 seran:
72
LC = 65.75 ( 2.365 )(1.009 ) = 65.75 2.39 = 63.36 a 68.14
Si consultamos la Tabla 4, nuevamente vemos que la media de 65.75 corresponde a un porcentaje de 83.1. Los lmites de confianza corresponden a porcentajes de 79.9 y 86.1. En este caso, la transformacin produjo poco cambio en la media o en los lmites de confianza, pero, en general, es ms seguro el empleo de los valores transformados, aunque esto implique algo de trabajo adicional. Otros diseos de muestreo por conglomerados. Si consideramos que los porcentajes observados o transformados son equivalentes a las mediciones, es fcil observar que tambin puede usarse para el muestreo por conglomerados de atributos, cualquiera de los diseos que ya se describieron para las variables continuas. En lugar de los individuos, los conglomerados se convierten en las unidades de las cuales se compone la poblacin. El muestreo al azar estratificado pudiera emplearse cuando deseamos estimar el porcentaje de germinacin de un lote de semillas constituido de fuentes diferentes. Las fuentes se convierten en los estratos, cada uno de los cuales se muestrea por dos o ms conglomerados escogidos al azar de 100 a 200 semillas. De manera similar, podramos estratificar una plantacin por secciones (estratos), unas con una mortalidad esperada alta y otras con una mortalidad esperada ms baja, para evaluar el porcentaje de supervivencia de rboles por seccin. Dos o ms hileras pueden seleccionarse al azar. En ambos casos, esto podra no slo ser ms eficiente en estimar toda la germinacin o el porcentaje de supervivencia, sino tambin en generar estimaciones para estratos que pueden ser de inters por s mismos. Con semilla almacenada en recipientes de 100 kg, podramos usar el muestreo bietpico, haciendo que los recipientes sean las unidades primarias de muestreo y conglomerados de cien semillas, las unidades secundarias. Si los recipientes fuesen de volumen diferente, podramos muestrear recipientes con probabilidad proporcional a su tamao.
C. Muestreo de Atributos por Conglomerados de Tamaos Diferentes.
Frecuentemente, cuando se efecta un muestreo de atributos, resulta conveniente hacer que el sitio o parcela sea la unidad de muestreo. En cada parcela contaremos el nmero total de individuos y el nmero que tiene los atributos especificados. Aun cuando los sitios sean de la misma rea, el nmero total de individuos puede variar de parcela a parcela; por lo tanto, los conglomerados sern de tamaos desiguales. Al estimar la proporcin de los individuos que tienen el atributo, probablemente no desearamos promediar las proporciones de todos los sitios, porque eso dara la misma importancia a sitios con pocos individuos que aqullos con muchos. En tales situaciones, se podra emplear el estimador de razn de medias. Suponga que un rea de encino arbustivo no comercial se ha asperjado y deseamos determinar los porcentajes de rboles muertos. Para hacer esta estimacin, se determina el nmero total de rboles (xi) y el nmero de rboles muertos (yi) en 20 sitios de un dcimo de acre (404.7 m2).
73
Parcela 1 2 3 4 5 6 7 8 9 10 11 12
Total de rboles (xi) 15 42 128 86 97 8 28 65 71 110 63 48
rboles muertos (yi) 11 32 98 42 62 6 22 51 48 66 58 32
Parcela 13 14 15 16 17 18 19 20
Total Media
Total de rboles (xi) 26 160 103 80 32 56 49 84 1,351 67.55
rboles muertos(yi) 16 126 80 58 25 44 24 59 960 48.0
El estimador de razn de medias de la proporcin de rboles muertos es: p= El error estndar estimado de p es:
2 2 2 1 s y + p sx 2 ps yx x2 n
y 48.0 = = 0.7106 x 67.55
sp =
n 1 N
2 2 es la varianza de los valores individuales de y, sx la varianza de los valores donde: s y
individuales de x, syx la covarianza de y y x, y n es el nmero de sitios observados. En este ejemplo,

9602 (11 + 32 + ... + 59 ) 20 sy 2 = = 892.6316 19 13512 2 2 2 (15 + 42 + ... + 84 ) 20 = 1542.4711 sx 2 = 19 (960)(1351) (11)(15) + (32)(42) + ... + (59)(84) 20 = 1132.6316 s yx = 19
2 2 2
Con estos valores (pero ignorando la correccin por poblacin finita ):
74
sp =
( 67.55 )
892.6316 + ( 0.7106 )2 (1542.4711) 2 ( 0.7106 )(1132.6316 ) = 0.026 20
Como en cualquier uso del estimador de razn de medias, los resultados pueden sesgarse si la proporcin de las unidades que tenga un atributo especificado en un conglomerado est relacionada con el tamao de l conglomerado. En muestras grandes, con frecuencia, el sesgo ser trivial.
D. Muestreo de Variables Contables
A menudo, se presentan complicaciones estadsticas al manejar datos como el nmero de insectos en un cono, el nmero de plntulas en una parcela de 0.0004 ha y variables similares que provienen de un conteo que no tiene lmite superior fijo. Los conteos pequeos y aqullos que tienen ceros numerosos presentan problemas complejos. Tienden a seguir distribuciones (Poisson, binomial negativa, etc.) con las que es difcil trabajar. Si no es posible evitar el tener que trabajar con variables discretas, lo mejor que podra hacer quien muestrea y carece de experiencia es definir las unidades del muestreo de modo que la mayora de los conteos sea grande y tomar muestras de 30 o ms unidades. Entonces, puede ser posible aplicar los procedimientos que se dieron para variables continuas. Con objeto de estimar el nmero de larvas de cierto insecto que habita en el piso de un rea forestal, se tom la hojarasca de cada uno de 600 sitios de 30 cm2 que se localizaron al azar (Freese, 1962). La hojarasca se examin cuidadosamente y se registr el nmero de larvas para cada muestra. Los conteos dieron valores que variaron de 0 a 6 larvas por parcela. El nmero de sitios en los cuales se observaron los diferentes valores resultantes de los conteos fueron:
Conteo Parcelas
0 256
1 244
2 92
3 21
4 4
5 1
6 2
Total 600
Los conteos estn muy prximos a la distribucin de Poisson (vase el Apndice 2). Con objeto de poder aplicar los mtodos de la distribucin normal, las unidades se redefinieron. Las nuevas unidades consistieron de 15 de las unidades originales, las que se escogieron al azar de las 600. Hubo un total de 40 unidades nuevas y los valores para estas nuevas unidades fueron el total del conteo de larvas en las 15 observaciones escogidas. Los valores de las cuarenta unidades redefinidas fueron: 14 16 12 15 12 13 18 14 8 12 16 11 13 12 20 13 7 14 5 19 13 9 14 13 9 14 10 13 15 14 15 11 9 13 15 Total = 12 10 17 10 13 504
Por los procedimientos de muestreo simple aleatorio para una variable continua, la media ( y ) por unidad es:
75
y=
2 ) es: La varianza ( s y
504 = 12.6 40
2 sy =
(142 + 162 + ... + 132 )

39
( 504 )
40
= 8.8615
Ignorando la correccin por poblacin finita, el error estndar de la media ( s y ) es:

sy = 8.8615 = 0.47 40
Las nuevas unidades tienen un rea total de 1.35 m2, por lo tanto, para estimar el nmero promedio de larvas por hectrea, la media por unidad debe multiplicarse por 10000 /1.35 = 666.67 ; as, la media por ha es (666.67)(12.6) = 8400.04 y el error estndar de la media por hectrea es (666.67)(0.47) = 313.33 . Como una aproximacin podemos decir que a menos que haya ocurrido una probabilidad de 1 en 20 al muestrear, el valor medio del conteo por hectrea se encuentra dentro de los lmites 8400 2(313.33) 7773.34 a 9026.66.
VI. Sensores Remotos y otra Informacin Auxiliar
A. Sensores Remotos y Fotografa
El uso de los sensores remotos puede definirse como la ciencia y arte de obtener la informacin sobre los objetos, reas y fenmenos, bajo investigacin a travs del anlisis de datos adquiridos por algn dispositivo que no est en contacto con estos objetos, reas o fenmenos (Lillesand y Kiefer, 1987). Los sensores remotos tienen varias ventajas significativas que no se logran por el muestreo terrestre, desde un punto de vista del inventario y el monitoreo. Proporcionan una vista sinptica del rea de estudio, la informacin puede colectarse rpidamente sobre un rea grande, proporcionan informacin sobre la cobertura de la tierra en las porciones visibles y no visibles del espectro electromagntico, su adquisicin se est incrementando y se procesan digitalmente, y proporcionan un registro permanente de la situacin en el tiempo. Los sensores remotos son pasivos o activos. Los pasivos reciben las seales del propio sujeto que se estudia, los activos transmiten una seal conocida. Las tecnologas de los sensores remotos pasivos tiles en las aplicaciones de los recursos naturales actuales incluyen los sistemas de imgenes fotogrficas y electro-pticas, como los sensores llevados por satlite y los escneres aerotransportados. Sus capacidades de sensores se extienden desde el espectro ultravioleta hasta dentro del espacio de las microondas. Los sensores activos incluyen el RADAR y el LIDAR, que ya estn empezando a demostrar su utilidad para algunas aplicaciones selectas. Descripciones breves de los tres tipos de sensores:
76
1. Los sistemas fotogrficos incluyen una cmara, una pelcula y una plataforma (normalmente un avin) para llevarlos. Estos sistemas se integran con los sistemas de posicionamiento geogrfico (GPS, por sus siglas en ingls) y otros aditamentos electrnicos para ayudar a identificar y grabar la localizacin y posicin de la cmara sobre el objeto que se est estudiando con la fotografa. La resolucin de la imagen es, principalmente, una funcin de resolucin de la lente de la cmara, la resolucin de la pelcula, la degradacin debida al movimiento de la imagen (el movimiento delantero, otros movimientos y vibracin del avin) y el procesamiento de la pelcula. Si todo va bien, el negativo de la pelcula tendr una resolucin de 50 pares de lneas por milmetro o ms. No es raro encontrar resoluciones de 60 o hasta 70 pares de lneas por milmetro. Las impresiones en papel todava estn limitadas a 25-30 pares de lneas por milmetro. El tamao de las particularidades del terreno que pueden identificarse es una funcin de lo anterior, ms la distancia focal de la lente de la cmara y la altura de vuelo sobre el terreno. Esto produce fotografas de una escala dada que, junto con la resolucin de imagen residente en el sistema, determina lo que ser posible ver e interpretar de las fotografas finales. Las mejoras en las cmaras y el montaje de las mismas, e integracin de GPS del avin con la cmara, hacen posible la fotografa precisa de piezas de terreno a grande escala (1:3000 a 1:1000). El uso de equipo de la computadora y los sistemas de informacin geogrficos (GPS) hacen que el plan de vuelo sea relativamente fcil y confiable. La grabacin electrnica de la informacin en los centros de fotografa hace posible mapear un vuelo poco tiempo despus de que se complete la misin. Debido a estas mejoras tecnolgicas, la adquisicin y despliegue de las fotografa de baja altitud pueden tener posibilidades reales, como fuente importante de informacin para las reas que son difciles de muestrear, como las reas silvestres, o al menos puede disminuir la cantidad de muestreo terrestre necesaria. Aunque ya un poco antigua, una referencia todava importante en el uso de fotografa para el inventario es Aldrich (1979).
2. Las imgenes de sensores electro-pticos colectan datos como arreglos de pxeles. Un pxel se define como la unidad ms pequea o celda de una imagen rster. Usualmente, se asume que un pxel es cuadrado y consiste de un nmero digital que representa el valor de brillantez registrado para ese pxel dentro de una sola banda espectral. La resolucin en el suelo de un pxel se entiende como la longitud que representa uno de los lados del pxel en el suelo. El asunto clave es extraer informacin til de los datos de la banda espectral al analizar la imagen (Holmgren y Thuresson, 1998).
Tales sensores incluyen los rastreadores multiespectrales; actualmente el ms importante de ellos es el mapedor temtico (TM, por sus siglas en ingls). La resolucin espacial del TM es 30 m para seis de las siete bandas que tienen Landsats 4 y 5. Landsat 7 tiene ocho bandas, una de las cuales es blanco y negro con 15 m de resolucin. La banda 6, la banda trmica infrarroja, tiene una resolucin espacial de 60 m. El radimetro avanzado de alta resolucin (AVHRR, por sus siglas en ingls) se usa regularmente por la US National Oceanic and Atmospheric Administration (Administracin Nacional Ocenica y Atmosfrica de Estados Unidos). ste se dise para obtener imgenes regionales diarias de alta resolucin, patrones de nubosidad para pronosticar el clima. Las bandas se disearon para discriminar entre nubes, agua, hielo, nieve y tierra. Posteriormente, se modific una banda en el sensor operacional anterior a NOAA-6 para tambin permitir observaciones deseables para estudios de vegetacin. AVHRR es muy grueso en su cobertura. Esto es ventajoso para obtener un menor nmero de observaciones para un rea grande, pero es bastante limitado en su resolucin espacial (de 1.1 km a un mximo de 3.5 km al nadir), por la misma razn. El sistema francs SPOT (System Probatoire dObservation de la Terre) es una alternativa comercial a TM. Tiene una resolucin mayor (10 m), pero es ms
77
costoso de adquirir. Otros sistemas de satlite con resolucin ms alta ya estn disponibles, generalmente de fuentes comerciales. Czaplewski (1999) revis fuentes disponibles de imgenes de sensores remotos y pronto estarn disponibles para propsitos de inventario. l distingue las siguientes categoras: Los datos de satlite de baja resolucin incluyen AVHRR, MODIS, Orb View-2, ERS-2, y SPOT 4. Tales datos no son costosos y tienen un ancho de cobertura de 1000 a 2900 km (600 a 1800 millas). Debido a su amplia cobertura, la resolucin espacial es pobre, un pxel representa de 64 a 128 ha (158 a 316 acres). Estos datos han sido tiles para mapas a escala muy grande de terrenos forestados para modelos de cambio global y para detectar "puntos calientes" de deforestacin seria en terrenos arbolados. Pero son demasiado gruesos para medir y monitorear de manera confiable la mayora de las condiciones del bosque. Los datos de satlite de resolucin media incluyen Landsat 5 y 7, Radarsat, SPOT 2 y 4, IRS C y D, P 2 y 5, Spin 2, EOS AM-1m y CBERS 1 y 2, con pxeles de 10 a 30 m (33 a 98 pies) y un ancho de cobertura de 50 a 160 km (30 a 100 millas). Naturalmente, son ms costosos que los anteriores. Tales sistemas pueden separar entre bosques y no bosques, y pueden identificar algunos tipos de bosques y clases de densidad. Por lo general, Landsat puede identificar claros en el bosque (matarrasa), pero no cortas parciales. La regeneracin avanzada (despus de una matarrasa), centros urbanos, y tamao, forma y conectividad de bosques fragmentados tambin se pueden medir. Se pueden obtener datos de alta calidad sin nubes cada uno o dos aos, excepto en las reas hmedas y muchos bosques boreales. Los satlites de alta resolucin incluyen Ikonos-2, OrbView 3 y 4, EROS B1 y B2, SPOT 5, y Quickbird 1 y 2. Tienen de 3.2 a 9.6 km (2 a 6 millas) de barrido y el tamao de l pxel es de 1 a 3 m (3 a 10 pies). Estos sensores tienen capacidades, limitaciones y costos similares a las fotografas de gran altitud de 56.25 cm2 (cuadrado de 9 pulgadas) de pequea escala, 1:40,000, como las disponibles del Programa Nacional de Fotografa Area (NAPP, por sus siglas en ingls) del Servicio Geolgico de Estados Unidos (USA Geological Service, USGS), que cubren un rea de alrededor de 8 km (5 millas) de ancho. Estos datos de satlite y fotografa pueden usarse para distinguir de manera confiable algunos tipos forestales, rodales en diferente estado de desarrollo, matarrasas, reas de cortas parciales, reas de regeneracin despus de limpia de terrenos, y parches de rboles muertos. Tambin se pueden fotointerpretar rodales forestales, uso de suelo, distancias entre caminos adyacentes, cuerpos de agua, fragmentacin del bosque y varios tipos de urbanizacin. La fotografa area de gran escala, de 1:2500 a 1:12000 rutinariamente se adquiere por compaas de inventario para pequeos sitios. Cada fotografa cubre un rea de 0.16 a 3.2 km (0.1 a 2 millas) de ancho. Los intrpretes pueden identificar, confiablemente, muchas condiciones de la cubierta forestal, como 10 tipos de bosque, cinco estados de desarrollo del rodal, tres clases de densidad, matarrasas y cortas parciales, tasas de xito en la regeneracin, origen natural o artificial del rodal, tres a cinco niveles de mortalidad de rboles, la mayora de indicadores de urbanizacin y fragmentacin de bosques a escala fina, y mediciones de tamao, forma y orillas de los rodales.
Aldrich (1979) nota que las enfermedades forestales son menos fciles de detectar y evaluar que el dao por insectos con fotografas areas porque toma mucho tiempo para que los sntomas visibles de la enfermedad se muestren. A menudo, los sntomas no son uniformes sobre el bosque y son ms tiles que el dao por insectos. El murdago enano, la enfermedad holandesa del olmo, la declinacin del encino, el cncer de la base del pino blanco, la declinacin del fresno, Fomes
78
anosus, el dao por bixido de azufre y el dao por ozono se pueden detectar con algn grado de xito. La pelcula de gran escala, a color y color infrarrojo (1:1584), es necesaria para identificar y delinear el grado del dao, mientras que las escalas 1:8000 a 1:16000 de fotografa de color infrarrojo se puede utilizar para definir y delinear los lmites de la enfermedad. Las fotografas de 70 mm a color y color infrarrojo pueden usarse como parte de una estrategia de muestreo en bosques susceptibles para la evaluacin del dao. Los disturbios a la vegetacin causados por tormentas, inundaciones, fuego o actividades humanas son fciles de detectar en fotografas areas, as como el cambio en estas caractersticas si la fotografa se repite. Las imgenes de los sistemas de video areo a color pueden tener una gran utilidad, en especial para inventarios anuales para encontrar ms informacin acerca de los cambios observados en ciertas reas de inters especial. Las videocmaras se pueden montar en una variedad de aviones, tanto para fotografas verticales como oblicuas. Las imgenes se pueden digitalizar e interpretar en computadora y se pueden usar de inmediato, ya que no se necesita el revelado. El equipo de video es porttil, verstil, fcil de usar, puede tolerar diferentes condiciones de luz y es ms barato de operar que los sistemas fotogrficos. Tambin, el operador puede ver las imgenes en un monitor en el avin, al mismo tiempo que se estn obteniendo, y puede ajustar la exposicin interactivamente y grabar comentarios sobre el vuelo. Asimismo, la alta tasa de obtencin de imgenes (30 cuadros/segundo) provee datos extra. Sus desventajas son la baja resolucin espacial, con relacin a la pelcula, la dificultad de obtener copias de las imgenes en papel, las limitaciones prcticas en el campo de visin, a causa del pequeo formato de la cinta, las dificultades en calibrar las cmaras por el control automtico de exposicin y problemas de imgenes borrosas en los videos sensores de infrarrojo cercano, ya que la ptica de la cmara no est diseada para esta longitud de onda. El valor de los sistemas comunes de video en color en aplicaciones de recursos naturales y agricultura es limitado por la dificultad de extraer datos espectrales discretos de una seal de video compuesta y la falta de bandas espectrales fuera de la resolucin visible.
3. Los sensores de microondas estn generando considerable inters, pero sus aplicaciones en dasonoma todava son limitadas (ver, por ejemplo, Lefsky et al., 2002). Las principales bases de datos para imgenes no fotogrficas incluyen aqullass conectados por Landsat 1-5 y 7, SPOT y AVHRR. stas estn disponibles en medios compatibles con computadora y en fotografas electrnicamente reconstituidas. Los mtodos de fotointerpretacin auxiliados por computadora y convencionales se utilizan para interpretar estos datos. Algunas referencias clave, con respecto a inventario y monitoreo usando sensores remotos, son Holmgren y Thuresson (1998), USDA Forest Service (1998), y Lefsky et al. (2002). B. Exactitud de la Informacin de Sensores Remotos
El manejo de tierras a travs de agencias de gobierno, como el Sistema Nacional de Bosques, el Servicio Forestal (National Forest System y Forest Service, USDA) y el Bur de Manejo de Tierras (Bureau of Land Management, USDI), requiere mapas confiables de variables como el porcentaje de cubierta forestal, estructura de los rodales y tipos de vegetacin. Tales mapas tambin requieren frecuentes actualizaciones y generarlas es costoso. Es natural que las fuentes de los sensores remotos, como TM, se utilicen para ese propsito, ya que se facilita la adquisicin digital frecuente de gran escala. Se ha desarrollado considerable trabajo en la elaboracin de tales mapas. Sin embargo, aunque TM contiene informacin til, la cantidad es limitada. Por ejemplo, es poco probable que sea til para identificar estructura de rodales, una variable difcil medir, aun
79
en el suelo. Tambin, los tipos de vegetacin son difciles de definir y la interpretacin puede variar de un usuario a otro. Idealmente, la informacin del TM debera combinarse con datos georreferenciados de inventario y otros para proporcionar la informacin necesaria para decisiones de manejo. Los investigadores en sensores remotos desean un coeficiente nico para representar la precisin de mapas temticos y para cada categora representada (Rosenfield y Fitzpatrick-Lins, 1986). Usualmente, los resultados de la evaluacin de precisin de mapas se exponen en una matriz llamada tabla de contingencia o matriz de errores, en la terminologa de sensores remotos, donde las columnas indican las clases de referencia (localizadas en campo) y las hileras indican las clases en el mapa generadas por la clasificacin. Los elementos en la tabla de contingencia son el conteo en las clases hileras/columnas; los nmeros de la ltima hilera son la cuenta total en la clase de las hileras y los nmeros en la ltima columna son la suma total en las clases de columnas. Un primer estimador obvio de la exactitud general es la razn de la suma de todos los conteos correctos sobre el nmero de conteos en la tabla de contingencia. Pero, idealmente, tambin queremos estimadores sobre los errores de comisin (las proporciones de los valores en la diagonal sobre la suma de las columnas = exactitud del usuario) y de omisin (las proporciones de los valores en la diagonal sobre las sumas de las hileras = exactitud del productor). Un coeficiente de la concordancia ampliamente aceptado es el estadstico Kappa (K), estimado por: = p0 pc K 1 pc donde:
p0 = pij wij = proporcin ponderada de unidades que concuerdan,
i, j k
(66)
pc = wij pi. p. j = proporcin ponderada de unidades con oportunidad esperada de

i, j
concordancia, y
pi. = pij , p. j = pij
j =1 i =1 k k
donde wij es la ponderacin de importancia de concordancia asignada a (i, j), con wij = 1 para toda i, j para el estadstico Kappa simple no ponderado y 0 wij 1 para el estadstico Kappa ponderado. Se pueden asignar diferentes ponderaciones si la precisin de algunas clases es ms importante que la de otras, con la desventaja inherente de que los pesos seran subjetivos. Aqu, = 0 indica que la concordancia obtenida es totalmente al azar, K > 0 indica una concordancia K = 1 es la < 0 una concordancia menor que la casualidad, y K mayor que la casualidad, K concordancia plena entre la realidad y el mapa.
80
Entonces, la exactitud del usuario = 1 (nmero correctamente clasificado como correcto en la diagonal en esa hilera) y la exactitud del productor = 1 (nmero clasificado como correcto en la diagonal en esa columna). Para evaluar la precisin, se necesita una muestra probabilsticamente elegida de tamao n, en la que los valores verdaderos y del mapa, que van a evaluarse estn disponibles (Schreuder et al., 2003). Por ser especficos slo discutiremos las situaciones que se presentan en ese artculo. Suponemos que se utilizan parcelas. El valor verdadero debe definirse exactamente para cada variable y medirse correspondientemente. No debera definirse como la mejor informacin, ya disponible, como se hace con frecuencia al trabajar con sensores remotos. Para la cobertura de copa en porcentaje (yi), la fotografa de baja altitud puede utilizarse, para composicin de especies (y2), tal fotografa debera combinarse con muestreo de campo; para estructura de rodales (y3), probablemente se requiere mayor nfasis en el muestreo de campo y la fotografa proporcionar alguna utilidad; para otras variables, como el sotobosque, especialmente en rodales densos, se dar mayor confiabilidad al muestreo de campo. Dadas las variables de inters sealadas (y1, y2, y3), ahora llamemos a los correspondientes valores de las variables en el mapa, cuya precisin se va a evaluar (x1, x2, x3), para una muestra simple aleatoria de n parcelas: Tenemos n parcelas, donde yi es la cobertura verdadera. Para muchas variables, es probable que algunas de las parcelas contendrn ms de una sola clase. El valor de referencia (llamado verdad) slo puede obtenerse de la fotografa o de una combinacin de informacin de la fotografa y el campo, dependiendo de la variable de inters. Sin embargo, si slo se utiliza informacin de la fotografa para el porcentaje de cobertura, el valor de referencia se tiene libre de errores para toda la parcela, mientras que si se involucra muestreo de campo, la informacin por parcela puede contener un error de muestreo.
No se conoce el error de localizacin para la informacin del mapa, pero se asume que es despreciable. Si el error est presente, probablemente conducir a la subestimacin de la precisin real. A menos que tengamos informacin detallada acerca de los errores en la localizacin de las parcelas, no podremos corregirlos. Para un cierto nmero de parcelas, n, toda la informacin puede quedar dentro de una o ms categoras para la variable de inters, tanto para la informacin verdadera como la leda en el mapa. Lo siguiente aborda el caso en que, tanto la x y la y, slo etiquetan dos clases verdaderas que ocurren en una parcela verdadera. La extensin a ms de dos clases es directa. Para una parcela dada, suponga que la parte x, etiquetada xij, es parte de, o cubre la parte yij llamada as por la parcela verdadera. Si la parcela verdadera y la parcela en el mapa se pudieran sobreponer completamente, esta suposicin no es necesaria. Pero la parcela verdadera slo proporciona reas estimadas de las superficies de las parcelas en las clases de inters, y2 y y3; esta suposicin se requiere, puesto que no sabemos qu parte de la parcela pertenece a la categora estimada. Esta es la situacin que en realidad se tiene. La violacin de esta suposicin, por lo general, resultar en estimadas ms grandes de precisin de lo que en realidad se obtiene.
81
Las variables continuas tienen que ubicarse en clases a fin de determinar si se mapearon de manera correcta o no. Esto se puede hacer objetivamente, por ejemplo, para el porcentaje de cobertura de rboles se usan las clases 0 a 10, 10 + a 20,, 90 + a 100%. Ahora tenemos la siguiente determinacin para cada una de las n parcelas k (k = 1, 2, n): Si la verdad designa yij y yij , con ponderaciones por rea de las parcelas wijy , wijy , tales que
y x x wijy + wijy + wiother = 1 , y x designa lo mismo, con ponderaciones por rea de parcela wij , wij , tales x x x x y x y que wij + wij wij + wiother = 1 , entonces si wij wij , wij , la clasificacin correcta para la parcela x x y x adquiere un valor de ( wij + wij wij ) / n para p0 ; los valores wij otra , otra son los porcentajes
(ponderaciones) de las reas de las parcelas para las cuales, tanto y como x, o ambas, definen una condicin no reconocida por la otra. El peso dado para todas las parcelas clasificadas de manera z1 z2 correcta, parcial o totalmente, es ( wij + wij ) / n para pij , donde z1 y z2 son ms pequeos que
x x y wijy , wij wijy , wij respectivamente. La variable de respuesta para cada parcela k es, entonces, z1 z2 pij = ( wij + wij ) / n , donde 0 pij 1/ n . Las parcelas clasificadas completamente correctas o
0.80 correctas se cuentan como 1/n y 0.80/n, en ese orden. Calcule p0 = pij wij y compute el estadstico Kappa con la Ecuacin (66). Si tomamos
i, j k
repetidamente n parcelas con reemplazo de las n parcelas de la muestra B, digamos 2,000 veces, y aplicamos el clculo anterior de pij a cada muestra, generamos una serie de B estimaciones para cada celda de nuestra tabla de contingencia, as como la exactitud para productor y usuario y un estadstico de Kappa para cada uno. Con esta corrida Bootstrap construimos lmites de confianza para todas las celdas en la tabla y tambin para el estadstico Kappa, tratando las muestras B como estimaciones independientes de las mismas cantidades. Un ejemplo de una tabla de contingencia con usuario, productor, exactitud global y el estadstico Kappa, basado en los resultados en la Tabla 4 para muestras de n = 200 parcelas, es:
Tabla 4. Ejemplo numrico de una tabla de contingencia para clases de cobertura forestal.
Tipo 1 cubierta Mapeado en tipo 60.3 1 Mapeado en tipo 2.6 2 7.1 Mapeado en tipo 3 Total de columnas 70
de Tipo 2 de cubierta Tipo 3 de cubierta Total de hileras 20.7 44.2 8.1 73 20.0 6.2 30.8 57 101 53 46 200
82
Entonces, la exactitud para usuario es: Clase 1 2 3 La exactitud para productor es: Clase 1 2 3 La exactitud global es 135.3/200 = 0.68. = 0.68 0.33 = 0.35 = 0.52 . Entonces, p0 = 0.68 y pc = 0.33 y K 1 0.33 0.67 Luego tomamos repetidamente 2,000 muestras con reemplazo de las 200 parcelas de la muestra, computamos de nuevo para cada muestra la exactitud y el estadstico Kappa y construimos los lmites de confianza alrededor del productor, usuario y la exactitud global anteriores, as como alrededor del estadstico Kappa. Las tablas de contingencia son el producto bsico de la valoracin de exactitud. Los usuarios deben estudiar esas tablas para intentar explicar las causas de clasificaciones errneas. Algunas son obvias, mientras otras necesitan investigarse. Las clasificaciones errneas pueden ser resultado de los problemas con la tecnologa usada, errores del usuario, errores de registro, errores en la preparacin ltima de los mapas o en los clculos de la valoracin de la exactitud. Es esencial estudiar los resultados, ya que se pueden explicar o descubrir errores que puedan corregirse. Para un administrador tambin es deseable saber qu tan seria puede ser una mala aplicacin de un tratamiento a un rea, si se piensa que pertenece a una categora cuando, de hecho, pertenece a otra. Habra consecuencias diferentes aplicando un tratamiento a una categora cerca de lo deseado o aplica a una que sea muy diferente. En resumen, lo que se necesita para las valoraciones de exactitud es: Defina la verdad para las variables de inters y dnde y cmo medirlas. Minimice o, si es posible, elimine los errores en la medicin de la verdad por los observadores. Decida sobre usar valoraciones de exactitud de pxel o valoraciones de exactitud de polgono. Asegure un tamao de muestra adecuado en cada una de las categoras de inters para las variables en estudio. Defina diferentes tipos de exactitud o asigne a algunos de stos una etiqueta diferente de la exactitud.
83
Exactitud 60.3/101 = 0.60 44.2/53 = 0.83 30.8/46 = 0.70
Exactitud 60.3/70 = 0.86 44.2/73 = 0.61 30.8/57 = 0.54
Determine las implicaciones de lograr una exactitud declarada, por lo que se refiere a hacer las decisiones de manejo correctas o incorrectas. Combine o integre las valoraciones de exactitud para las variables de inters y use la informacin para mejorar los mapas desarrollados.
C. Sistema de Posicionamiento Global para las Necesidades de Ubicacin Espacial
La ubicacin espacial es crtica para el xito en inventario y monitoreo forestales porque las necesidades actuales requieren esta informacin para la cartografa. Todava se usan mtodos tradicionales para determinar la ubicacin geogrfica, pero cada vez, con mayor frecuencia, esos mtodos son sustituidos por los sistemas de posicionamiento global (GPS), para el anlisis de recursos naturales. Los GPS usan satlites para localizar las posiciones en la tierra, normalmente dentro de 150 m, y a menudo a menos de 10 m. Con este sistema, la posicin de un avin y de las parcelas puede establecerse con exactitud razonable. Los GPS no requieren el uso de marcadores geodsicos conocidos para observaciones autnomas. Adems, las mediciones pueden hacerse en cualquier momento y en cualquier clima, quiz con excepcin de tormentas solares grandes. Sin embargo, como las mediciones requieren una lnea de vista clara a los satlites, es difcil establecer la posicin en bosques muy densos, valles profundos y caones, o en situaciones similares. Ms aun, suceden varios errores si el receptor de GPS no se usa de manera correcta, por ejemplo, usar un datum incorrecto. Adems, naturalmente, ocurren errores atmosfricos y de seal de los satlites y necesitan reconocerse y ajustarse o informarse dentro de las declaraciones de exactitud por el usuario. Los GPS se han usado con xito, en Australia Oriental, como base de sistemas de navegacin sofisticados y vuelos de grabacin para controlar la adquisicin de fotografas areas de gran escala (Biggs et al., 1989, Biggs y Spencer, 1990). La teledeteccin se ha vendido con exceso en Estados Unidos. En el futuro los GPS sern ms confiables y precisos. Por ejemplo, se estn desarrollando algoritmos que corrigen las seales de satlite y hacen el posicionamiento ms exacto. A los usuarios les toca mantener al da la tecnologa, porque, para inventario y supervisin, cada vez es ms critica.
D. Sistemas de Informacin Geogrfica (GIS)
Un Sistema de Informacin Geogrfica incluye medios de entrada, almacenamiento, manipulacin, anlisis y exhibicin de datos espaciales. Los datos pueden representarse por puntos, lneas o polgonos con las variables asociadas. Tales datos pueden representarse por rster o datos de malla, por un lado, y por datos vectoriales, en el otro. El sistema rster guarda los datos en un formato de malla o de pxel con los valores geodsicos limitantes como latitud y longitud, mientras el sistema de vectores usa una serie de coordenadas (x, y) para definir los lmites del atributo de inters. Los datos de malla son ms fciles de manipular computacionalmente, pero requieren cantidades grandes de espacio para almacenarse. Los datos vectoriales requieren menos almacenamiento y, en general, representan los datos discretos con ms precisin. Aunque el sistema vectorial puede retener la forma de un rasgo discreto con mayor correccin (tiene mejor resolucin), computacionalmente consumen ms tiempo y son difciles de analizar. Las imgenes de satlite, las imgenes digitales y los modelos digitales de elevacin, son ejemplos de datos de malla; los lmites de propiedad, los contornos de la estructura, los postes y las lneas de conduccin elctrica y otros servicios son ejemplos de
84
datos vectoriales. Un GIS es un sistema computarizado que puede jugar un papel importante en inventario, manipulacin y procesamiento de datos, en evaluacin del uso del suelo y la cubierta vegetal. Se han generado como una herramienta eficaz para definir y enfocar la discusin en relacin con los mritos de asignaciones alternativas de uso de tierra. Por ejemplo, permite a los analistas simular los efectos de cambios en el manejo (Green, 1993). Un GIS debe tener las capacidades siguientes: Entrada formas o formatos de datos diferentes, como mapas analgicos y digitales, informacin textual o tabular, e imgenes. Almacenamiento y mantenimiento de la informacin con las relaciones espaciales necesarias. Manipulacin de datos, como bsqueda y recuperacin, y capacidad para hacer los cmputos sobre los datos eficazmente. Proporcionar niveles de modelos tomando en cuenta las interrelaciones de los datos y las posibles respuestas de tipo causa/efecto de los factores pertinentes. Presentar tabulaciones, despliegue de videos y mapas generados por computadora de la informacin existente u otra que se derive de ella.
Un buen GIS depende, principalmente, de datos que los datos sean los apropiados. Adems de las computadoras de gran velocidad, se requiere una variedad de dispositivos perifricos de entrada y salida y software poderoso. Los artculos de Congalton y Green (1992), Green (1993) y Bolstad y Smith (1992) presentan una buena revisin global de GIS; Lachowski et al. (1992) presentan un ejemplo til de integracin de sensores remotos y GIS.
E. Estimacin de reas Pequeas
En las agencias de manejo existe considerable inters por tener informacin espacial confiable. En el pasado, los tcnicos forestales y otros administradores de tierras usaban croquis de las reas para decidir qu y dnde estaba lo que haba ah. Muchos administradores evitaban la informacin estadstica, ya que poda dar los datos de manera confiable sobre cunto exista, pero no en dnde. Los problemas legales frecuentes cambiaron esto en Estados Unidos. Ahora, el inters es obtener datos en mapas y estadsticas confiables (defendibles) al mismo tiempo. Un tema de este tipo de investigacin actual se llama estimacin de reas pequeas, que bsicamente es un procedimiento de construccin de modelos que usan los datos estadsticos en combinacin con los datos auxiliares como los de TM, GIS, mapas topogrficos y otra informacin relacionada. Las tcnicas de estimacin de reas pequeas representan una mejora sustancial, en lo que se refiere a la calidad de datos, y, sobre todo, en que las decisiones sobre manejo basadas en datos sean defendibles, comparadas con lo que hacan los administradores cuando se basaban en informacin subjetiva. Se ha dicho que las estimaciones de las reas pequeas tienen errores estndar similares a los del muestreo clsico. El problema es que la comparacin se hace para la poblacin de inters entera, mientras que los administradores tambin estn interesados en predicciones para reas ms pequeas, como los polgonos que ellos usan como base para la administracin. Los errores estndar para predicciones individuales pueden ser grandes, como se esperara, dada la variabilidad que se encuentra en el terreno en los bosques.
85
Para la estimacin exitosa de reas pequeas se necesita reunir dos condiciones. Primero, idealmente, debera haber una correlacin buena entre las reas incluidas en la muestra y las que no estn incluidas, pero estn cercanas, o de otras fuentes auxiliares como de sensores remotos. Esto, normalmente, requiere una malla mucho ms intensa que la de 5,000 m, usada por FIA. Segundo, las ubicaciones espaciales para las reas muestreadas y los datos auxiliares necesitan ser exactas. Dadas estas condiciones, debera ser posible desarrollar buenos modelos de prediccin. En la actualidad, se realiza mucho trabajo sobre la estimacin de reas pequeas de recursos forestales. Por ejemplo, un trabajo innovador que se hace en Finlandia, donde las condiciones ms homogneas que en otros pases pueden hacer que estos mtodos de reas pequeas sean ms tiles. Los mtodos de entrada mltiple (incluyendo modelos de regresin ) y tcnicas de los kvecinos ms cercanos se han propuesto para variables continuas. En estas tcnicas, se extrapola la informacin de la muestra de campo a la poblacin entera, introduciendo la informacin de las partes muestreadas a las partes no muestreadas, siguiendo algn criterio, como las lecturas del TM para las localidades muestreadas y no muestreadas. En las entradas mltiples para cada unidad sin datos de la muestra, se hace una serie de predicciones, digamos 100, usando datos seleccionados al azar y un modelo y una base de datos subyacentes. Entonces, los conjuntos de los datos se analizan por separado y se agrupan en un resultado final, por lo general, un promedio de los resultados. Franco-Lpez (1999) hace una revisin de los mtodos para proyectar y propagar informacin de las parcelas y rodales. Este autor seala que se ha hecho un considerable esfuerzo en pases nrdicos para combinar informacin de monitoreo forestal, sensores remotos y sistemas de informacin geogrfica (GIS) con el propsito de desarrollar mapas de las variables forestales como el tipo de cobertura, densidad de rodal y volumen de madera, enfatizando en la tcnica de los k vecinos ms cercanos. Ese autor seala que aunque sus resultados son pobres para Minnesota, son similares a los obtenidos por otros mtodos en esta regin. Lin (2003) presenta un mtodo tipo Bootstrap semiparamtrico para estimar la exactitud de las estimaciones. En general, ste consiste en: 1. Ajuste un modelo de mejor ajuste, digamos x . 2. Calcule los residuos + i y yi = + xi + i , resultando en un modelo estimado: yi = i
i = i i / n, i = 1,..., n . 3. Haga un proceso Bootstrap con los calcule los residuos escalados
i =1
i , i = 1,..., n , como tomar una muestra con reemplazo de tamao n de los n residuos. Lo residuos hace 1000 veces, cada una constituye una muestra Bootstrap. 4. Para cada muestra Bootstrap, x + + i . 5. Reajuste el modelo a cada una de las muestras Bootstrap, usando los i = calcule y i i , xi , y haga una prediccin para cada una de las muestras en las ubicaciones deseadas. puntos y Entonces, la variabilidad entre estas estimaciones se usa como la varianza Bootstrap para esta ubicacin. Los resultados de Lin (2003) para predecir mortalidad, rea basal total y nmero de rboles vivos en el Siuslaw National Forest en Oregon, mostraron errores que promediaban casi 100% para parcelas en una cuadrcula base de 1.36 km (0.85 millas) usando datos de parcelas de 1 ha muestreadas en una cuadrcula de 2.72 km (1.7 millas).
Para obtener predicciones confiables, en la actualidad, se requiere informacin adicional, como la disponible de los sensores remotos mejorados o las fotografas de escala grande y los diversos
86
mapas, combinndola con la experiencia de ecologistas locales. Adems, todava es necesario corregir con modelos los errores de ubicacin. Para hacer esas correcciones, se requiere informacin considerable sobre la magnitud y ubicacin de los errores. Es de esperarse que las mejoras en los sensores del tipo GPS reduzcan los errores de ubicacin en el futuro, lo que mejorar los resultados de las tcnicas de estimacin de reas pequeas.
VII. Muestreo para los Eventos Raros
El muestreo de poblaciones raras es ms difcil que el muestreo comn, en orden de magnitud. An as, evaluar tales poblaciones puede ser importante. Por ejemplo, el mundo est perdiendo muchas especies de plantas y de animales y la sociedad desea conservar, por lo menos, algunas de esas especies. Saber cuntos individuos existen de una especie y dnde y por qu en esas reas especficas es importante para su preservacin. Los costos de localizar las poblaciones raras son considerables y, a menudo, exceden los costos de medirlas. El problema fundamental es que pueden necesitarse varios intentos para identificar las unidades de la muestra con el rasgo raro en la poblacin global, como un hongo raro o una especie de rbol. Tambin se puede requerir conocimiento especializado que slo algunas personas tienen para identificar las especies reales u otros atributos. Algunas propuestas posibles son: 1. Escrutinio. Se examina una muestra grande de la poblacin total para identificar a los miembros de la poblacin rara o, por lo menos, las reas donde ms probablemente estn ocurriendo. Si lo ltimo es posible, entonces se muestrean tales reas, con una intensidad ms alta que otras reas, por la frecuencia de ocurrencia. 2. Muestreo multiplicado y muestreo adaptable. Bsicamente, stas son tcnicas que se basan en localizar algunas de las unidades con el atributo raro y entonces obtener informacin adicional sobre ellas, que se usa enseguida para localizar otras, reduciendo as el costo del estudio. a. En muestreo multiplicado, una unidad muestral seleccionada produce informacin de s misma, as como de otras unidades. Obviamente, esto es ms aplicable en las encuestas en humanos que en los inventarios de vegetacin. b. En muestreo adaptable, una muestra de unidades se selecciona probabilsticamente y otras unidades cercanas se agregan, si los atributos de inters para esas unidades satisfacen un criterio dado. La agudeza de este procedimiento es que todas las unidades en la poblacin se ponen en conglomerados que no se traslapan y todas las unidades en los conglomerados de la muestra se miden. Los conglomerados pueden variar mucho en tamao y forma. El muestreo adaptable es un procedimiento probabilstico, pero puede ser dificultoso de llevar a cabo y el anlisis de los resultados es difcil. 3. En muestreo de marcos mltiples, se toma una muestra de una lista parcial existente y una adicional de la poblacin total, para el escrutinio de las unidades con las caractersticas de inters. La debilidad de este procedimiento es el traslape de marcos, para ello, Kalton y Anderson (1977) presentan algunas soluciones, tambin puede ser considerable el gasto en el escrutinio y muestreo de la parte examinada de la poblacin. 4. En muestreo bola de nieve, una condicin necesaria es que unas unidades contengan informacin de las otras. As, se crea un marco de unidades de la poblacin rara y, a travs de ellas, se identifican otras. Otra vez, lo ms probable es que esto sea ms aplicable y fructfero con poblaciones humanas que con la vegetacin. Una vez que se ha desarrollado un marco de muestreo, se saca una muestra probabilstica. La debilidad de este procedimiento es que,
87
posiblemente, el marco de muestreo no est completo. Una ventaja es que estas unidades raras se identifican con mayor rapidez que con otros mtodos. 5. Muestreo secuencial. Se selecciona una muestra probabilstica inicial de tamao suficiente para dar el tamao de muestra deseable (n) de unidades muestrales de la poblacin rara con base en la tasa de incidencia observada. Esto producir n1 miembros de la poblacin rara y una estimacin de la incidencia. Si n1 < n , se selecciona una segunda muestra para producir los restantes n n1 miembros de la poblacin rara con base en la incidencia obtenida en la primera muestra. Este procedimiento, generalmente, es caro y por ello no muy prctico en los inventarios de vegetacin. Varias de estas tcnicas podran hacerse tiles para muestrear poblaciones de plantas y animales, cuando se desarrollen mtodos ms rpidos de identificacin de ADN.
VIII. Muestreo de Niveles Mltiples
Previamente, discutimos los inventarios de un solo nivel, donde las variables de inters o stas y las covariables se miden en las mismas unidades de la muestra. Cuando las covariables eran medidas, asumimos que todos los valores de la covariable eran conocidos o, al menos, lo era el total de la poblacin. A menudo, las covariables son tiles para la estimacin y son ms baratas de colectar, pero se desconocen. As, vale la pena colectar la informacin de la covariable en una muestra grande y la variable de inters en una submuestra. Este procedimiento se llama muestreo multinivel. Por ejemplo, en una venta de madera podran obtenerse estimaciones oculares de dimetro normal d (y, por lo tanto, de d2) para una muestra grande de rboles y medir el volumen real de algunos de stos. O, en estimacin de uso recreativo se pueden usar los contadores automticos para contar vehculos que pasen por la entrada a un parque en un nmero grande de das y realmente contar el nmero de usuarios en un subconjunto de esos das. Los muestreos de nivel mltiple se pueden separar en muestreos multietapa y multifase.
A. Muestreo Multietapas
Se refiere a diseos de muestreo donde las ltimas unidades de muestreo, llamadas elementos, se seleccionan en etapas. La muestra en cada etapa se toma de entre las unidades de muestreo que constituyen un conglomerado dentro de las unidades de muestreo seleccionadas en la etapa anterior. El inters es la estimacin de atributos, total o promedio por elemento, como biomasa por rbol, ms bien que por hectrea. Primero, la poblacin se divide en unidades de muestreo primarias (UMP), algunas de las cuales se seleccionan en la muestra de la primera etapa. Estas UMP se dividen en unidades de muestreo secundarias (UMS), algunas de las cuales, a su vez, se seleccionan en la segunda etapa de muestreo. Este proceso se puede continuar en etapas adicionales si es necesario. Se tiene la ventaja de concentrar el trabajo en un nmero relativamente pequeo de UMS, despus de lo cual se requiere menos esfuerzo para obtener la segunda muestra y las posteriores. Las principales razones para emplear el muestreo multietapas son:
88
1. Es demasiado costoso obtener el marco de muestreo de algunas poblaciones, como rboles en un bosque grande o usuarios de recreacin en un parque durante toda una estacin, por ejemplo. 2. Aun si se tuviera una lista de las unidades en la poblacin, por eficiencia se podra recomendar que se seleccionaran grupos de unidades, ms bien que las unidades individuales, y luego slo medir algunas unidades dentro de esos grupos. Por ejemplo, es ms barato muestrear 20 conglomerados elegidos al azar, cada conglomerado de 30 rboles, que 600 rboles localizados aleatoriamente. An ms, tal vez convenga slo medir 10 rboles entre los 30 de cada conglomerado. Al muestrear usuarios de recreacin, es ms fcil seleccionar algunos das y submuestrear algunos usuarios para ser entrevistados que seleccionar directamente los usuarios que se entrevistarn. Como se dijo antes, por lo general, hay una transaccin en eficiencia entre muestreo por conglomerados y muestreo aleatorio entre las unidades de muestreo; cuando stas estn cercanas, suelen ser ms homogneas que cuando estn distantes, por eso podra convenir medir slo algunas de las que integran a un conglomerado seleccionado. Este muestreo se puede hacer en un nmero grande de etapas. Ilustramos el caso simple y, a menudo, muy til, de dos etapas con muestreo simple aleatorio (MSA ) en cada etapa. Suponga que hay N grupos o conglomerados de Mi (i = 1, 2,, N) unidades en el i-simo conglomerado. Si el total es de nuestro inters, se puede escribir: Y = yij = Yi.
i =1 j =1 i =1 N Mi N
(67)
En muestreo de dos etapas, se selecciona una muestra de n entre los N conglomerados, pero en lugar de medir todas las unidades en el conglomerado seleccionado slo escogemos al azar una muestra de mi unidades entre las Mi en cada conglomerado. As, el total de cada conglomerado se estima por:
mi = M yij Y i. i j =1 mi
(68)
El total para la poblacin se estima con:

=N Y n mi yij N Mi = i =1 j =1 mi n
n
Y
i =1
i.
(69)
cuya varianza es: ) = V (Y donde:

89
2 N 2M a (1 f ) b2 N + n n 2 M i2 (1 f i ) wi mi i =1
(70)
Mi Yi Y i =1 M es la varianza entre conglomerados. b2 = a ( N 1)

N
2 wi =
( y
j =1
Mi
ij
Yi. )
M i 1
es la varianza dentro de los conglomerados.
N N M mi Y Y , Yi. = i. , Y = i. y M a = i es el nmero promedio de UMS Mi Mi i =1 N i =1 N ) es: por UMP. Similarmente, un estimador insesgado de la varianza del estimador v(Y
Aqu f =
n , N
fi =
) = N 2 M 2 (1 f ) v(Y a donde:
2 sb N + n n
2 M i2 (1 fi ) swi mi i =1 n
(71)
s =
2 b
(M y y )
i =1 i i
n 1
yi. =
j =1
mi
yij mi
mi ( yij yi. ) 2 Y 2 y swi = . y= NM a mi 1 j =1
Existe una literatura considerable sobre muestreo multietapas, pero una de las mejores referencias todava es Murthy (1967).
B. Muestreo Multifase
En muestreo multifase se retiene el mismo tamao de unidad muestral en cada nivel o fase, pero con menos unidades muestrales seleccionadas en cada fase consecutiva. En la ltima fase se mide la variable de inters y se combina con la informacin de covariables obtenida en las fases anteriores, ya sea en diseo (estratificacin o muestreo con probabilidad proporcional al tamao) o en estimacin (regresin o razn). En muestreo multifase se requiere un marco muestral completo, ya que se selecciona una muestra de las unidades en cada fase. La principal razn para emplear este muestreo es reducir costos, lo cual se puede hacer colectando una gran cantidad de informacin, de covariables que estn correlacionadas con las variables de inters, que son costosas de medir, en una muestra ms pequea. El muestreo doble estratificado y el muestreo doble para regresin o razn son dos ejemplos. Especficamente: 1. Para el muestreo doble estratificado, la informacin de la muestra grande, primera fase, se usa para construir los estratos, de los cuales se extraen las muestras de la segunda fase. Tpicamente, esto se hace si se tiene inters en subpoblaciones especficas (estratos), o esos estratos son ms homogneos que la poblacin, as se gana eficiencia con la estratificacin. Por ejemplo, en los grandes inventarios tradicionales para madera, podramos tener una gran muestra de n parcelas de 1 ha, clasificadas por sensores remotos o fotografas, como madera de grandes dimensiones, postes y regeneracin. Si el inters es el volumen, estos tres estratos
90
importaran por s mismos y probablemente sern ms homogneos (si se hace de manera acertada usando imgenes de sensores remotos) que toda la poblacin. Luego, se medira el volumen en el terreno de una submuestra de esas parcelas de 1 ha, en cada estrato. DE manera similar, en muestreo de un gran parque de recreacin, podramos tomar una gran muestra de fotografas en das de muestra para contar a los usuarios, usando esa informacin, se podra dividir el parque en estratos de uso intenso, moderado y ligero; luego se muestrearan estos tres estratos en un subconjunto de esos mismos das de muestra. El estimador del total, en ambos casos sera:
= Nw Y dst h
h =1
y
i =1
nh
hi
nh
y = Ny =N h h st
h =1
(72)
' Nnh donde K = nmero de estratos, N h = ' es el nmero estimado de unidades muestrales en el n ' n estrato h, wh = h es el peso o ponderacin del estrato h para la muestra en la primera fase con n' ' nh , el tamao de la muestral para el estrato h en la primera fase, y n el tamao total de la muestra para la poblacin en la primera fase, nh es el tamao de muestra para el estrato h en la segunda fase, y yst es la media estimada para el estrato h de la muestra de nh unidades en ese estrato. La varianza de este estimador es: 2 K 1 = N 2 S 2 1 1 + N 2 Wh S h V Y 1 dst n vh n N h =1
( )
(73)
2 es la varianza de y en el estrato h, vh = nh / n y donde S2 es la varianza de la poblacin de y, S h yh y yst son la media muestral para el estrato h y la media muestral para toda la poblacin para muestreo estratificado, respectivamente.
) casi insesgado, si tanto 1/N como 1/n son despreciables, es: Un estimador muestral de V (Y dst
2 2 K K wh sh g K 2 2 N wh sh + N 2 1 wh ( yh yst ) 2 (74) v Ydst = N n h =1 h =1 nh h =1
( )
donde g1 =
N n . N 1
Los estratos pueden tener diferentes grados de inters y variar en homogeneidad, as que pueden ser deseables diferentes tasas de muestreo. Se requiere conocer o tener una estimacin de la variabilidad dentro de cada estrato para poder hacer la distribucin de la muestra, n, entre ellos. Si se tiene tal conocimiento, se puede hacer una distribucin ptima de la muestra entre los estratos. Suponga que se tiene esa informacin o que se puede colectar fcilmente sobre una variable x correlacionada con y. Entonces, aplicando la funcin de costos:
91
C = C n + n Ch nh
h =1
donde C es el costo de clasificar una unidad para la primera fase y Ch es el costo de medir una unidad en el estrato h el costo esperado E(C) es: E (C ) = C n + n Ch vhWh
h =1 K
(75)
Entonces, la n ptima se puede calcular sustituyendo: h = s yh v C 2 K 2 s y w0 h s yh Ch h =1
2 2 y s yh son la varianza estimada para la variable y en la poblacin y en el estrato Por vh, donde s y
h, respectivamente, y w0h es el peso estimado para el estrato h basado en la informacin preliminar. En la literatura se discuten funciones de costo ms complejas, en especial Hansen et al. (1953), pero suele disponerse de informacin insuficiente para suponer una mejor funcin de costos; eso hace que los clculos del tamao de muestra sean difciles y la determinacin del tamao de muestra parezca bastante insensible ante mejores funciones de costos. 2. Para muestreo doble con estimadores de regresin o de razn, se supone una relacin lineal entre las covariables y las variables de inters como se muestra en la Ecuacin (39). Como ilustracin, en el ejemplo de madera de arriba, se puede confiar en que la informacin de las parcelas de 1 ha evaluadas con sensores remotos o con fotografas est relacionada con la misma informacin proveniente del campo. O, de manera similar, el conteo de usuarios en recreacin podra estar linealmente relacionado con los conteos hechos en el campo. Es claro que si tal relacin existe como una aproximacin til, o si hay una relacin til pero desconocida entre la informacin de los sensores remotos y la informacin de campo, en ambos casos determina si el muestreo doble estratificado o el muestreo doble con estimadores de regresin o de razn son ms eficientes y confiables. El estimador de regresin para el total de la poblacin es:
n n 1 = yi + a Y N gr gr 1 i =1 i i =1 i n xi + b X gr 1 i =1 i
(76)
donde:
n yi xi b gr v i =1 i vi agr = i =1 i i n 1 i =1 i vi n
92
bgr =
1 n xi yi n yi i =1 i vi i =1 i vi i =1 vi i
n
v
i =1
xi
v v
i =1 i i i =1 i
2 i
x i i =1 vi i
n
i i 2
= 1 , = 1, N = 1, N con N s 1 2 i =1 i i =1 i i =1 i vi
n n
= xi , X 1
i =1 i
= xi , x s = X 2
i =1 i
v
i =1
xi
N s
i i
donde ja es la probabilidad de seleccionar a la unidad j en la muestra de n unidades y i es la n yi v s = i =1 i i . Las i no probabilidad de seleccionar la unidad i en la muestra de n unidades y y N
s
siempre se pueden calcular. Es difcil derivar un estimador clsico de la varianza de este estimador y es un ejemplo donde el procedimiento de estimacin Bootstrap sera la eleccin.
Ilustracin: Una muestra grande de n parcelas se mide para la variable rea basal por parcela en fotografas areas. stas podran estratificarse en K estratos, despus se selecciona una submuestra de n parcelas en los K estratos o una muestra simple aleatoria de n tomada de las n parcelas y se miden en el campo. Usando ABTi y VTi, para denotar el rea basal en la parcela i medida en las fotografas y el volumen medido en las parcelas en el campo, respectivamente, tendramos:
n parcelas con ABTi, i = 1, 2, 3, n; n parcelas con ABThi, h = 1, 2, 3K; i = 1, 2, 3nh; y VThi, h = 1, 2, 3, K; i = 1, 2, 3nh para muestreo doble estratificado. O, ABTi, i = 1, 2, 3n; VTi, i = 1, 2, 3n, para muestreo doble con regresin. La eleccin de doble estratificado o con estimacin de regresin depende de la relacin que se espera entre ABTi y VTi. Si se espera que sea una relacin lineal se usara la estimacin por regresin, de otro modo lo indicado es la estratificacin. Para el muestreo doble estratificado se usaran la Ecuaciones (72) y (74) para estimar el volumen total y su varianza. Para muestreo doble con regresin se usara la Ecuacin (76) con Bootstrap. Si se espera que la relacin entre las covariables y las variables de inters pase por el origen aproximadamente, se puede usar un muestreo doble con estimador de razn de medias: n yi 1 i = i= n x i i =1 i Y HT = X 1 X HT
93
Y drm
X 1.
(77)
. Aqu tambin las En este caso, tambin es mejor usar Bootstrap para estimar la varianza de Y drm i no siempre se pueden calcular.
Los mtodos de muestreo multinivel son comunes en dasometra, especialmente para inventarios de gran escala. Por ejemplo: 1. Se usa muestreo doble para estratificacin para inventarios de gran escala como el de FIA. Las reas se estratifican en arboladas y no arboladas, ya sea con fotografas o, ahora, ms comnmente, por datos de fuentes de sensores remotos, como los de LandSat Thematic Mapper Satellite (TM) y luego las parcelas terrestres se miden en esos estratos. En el pasado, cuando el inters primario era la madera, se usaba la preestratificacin. Ahora, se usa la postestratificacin, porque las parcelas estn ubicadas con base en una retcula. Las nuevas fuentes de sensores remotos definirn caractersticas terrestres ms pequeas y la localizacin de la informacin terrestre y de la informacin de los sensores remotos puede ubicarse con ms precisin con el mejoramiento de las unidades de GPS. Es probable que en el futuro la estratificacin y la estimacin por regresin ms detalladas mejorarn la estimacin. 2. El muestreo con PRV y la seleccin subsiguiente de rboles, ya sea por muestreo Poisson proporcional a las alturas estimadas de los rboles u otro esquema de submuestreo, se usaban con frecuencia en ventas de madera. Claramente, las combinaciones de muestreo multietapas y multiniveles tambin pueden ser deseables. Por ejemplo, en el Caso 1 podramos seleccionar una muestra aleatoria de rboles en parcelas terrestres seleccionadas. Este diseo sera muestreo doble para estratificacin con un submuestreo aleatorio.
IX. Monitoreo en el Tiempo
Los administradores de recursos biolgicos siempre estn interesados en los cambios en el volumen de madera, la mortalidad, el hbitat para fauna, el grado de urbanizacin, el cambio de uso del suelo de forestal a agrcola, etc., conforme transcurre el tiempo. Existen tres opciones de muestreo mayores para considerar el muestreo en el tiempo. 1. Muestreo con reemplazo total (MRT). 2. Muestreo con remedicin total (MRMT). 3. Muestreo con reemplazo parcial (MRP). En MRT, en cada ocasin se tiene un conjunto de parcelas muestrales completamente nuevo. Este diseo es simple y barato de implementar, ya que la ubicacin de las parcelas no es permanente y no tenemos que preocuparnos de que las parcelas se traten de manera diferente a otras partes de la poblacin o que haya cambios en la poblacin subyacente. El MRT es eficiente para estimar los atributos actuales, pero no lo es para estimar cambios, en comparacin con el MRMT y el MRP. En MRMT todas las parcelas se remiden peridicamente. Esto requiere que esas parcelas sigan siendo representativas de la poblacin en el tiempo, as que las parcelas no deben visitarse excesivamente y deben tratarse de manera similar a otras partes de la poblacin. Este muestreo es el ms eficiente de los mtodos disponibles para la estimacin de los cambios.
94
En el muestreo con reemplazo parcial se mide un subconjunto de las parcelas permanentes y tambin un nuevo subconjunto de parcelas, esto es una combinacin de los dos anteriores. La estimacin de regresin entre las parcelas remedidas y las nuevas se utiliza para actualizar las parcelas que no se remidieron. Este muestreo puede ser eficiente cuando se requiere balancear la precisin entre la estimacin de lo actual y la estimacin del cambio. Duncan y Kaltn (1987) resumen las propiedades de las tres opciones de manera adecuada. Ellos tambin listan otros mtodos que son combinaciones de estos tres (Tabla 5). El muestreo con remedicin completa y el muestreo con reemplazo total son casos particulares del muestreo con reemplazo parcial, desde el punto de vista de estimacin, as que slo presentamos el muestreo con reemplazo parcial para dos ocasiones: S n unidades muestrales se seleccionan de N en dos ocasiones, con m unidades comunes a ambas, entonces u = n m unidades no son compartidas.
,Y ,e Y las estimadas de Yi, el total de la poblacin en la i-sima ocasin (i = 1, 2), con Sean Y im iu in = coeficiente de regresin del estimador, base en las m, u, y n unidades, respectivamente,
2 basado en las m unidades comunes; 12 y 2 las varianzas de y en los Tiempos 1 y 2, 12 la covarianza de y en los Tiempos 1 y 2, y e la correlacin entre las mediciones en esos tiempos. Entonces, un estimador insesgado de Y2 , con base en las u nuevas unidades en el Tiempo 2, es:
=N Y 2u con varianza:
y
i =1
2i
(78)
) = N 2 2 / u , V (Y 2u 2
(79)
y estimador de la varianza:
) = s 2 (1) / u v(Y 2u 2
(80)
2 donde s2 (1) es la varianza dentro de la muestra de las u y2i mediciones.
Equivalentemente, un estimador de Y2, basado en regresin, usando las m unidades comunes en los Tiempos 1 y 2, para actualizar el total del Tiempo 1, es:
(Y =Y + Y ) Y 2 mr 2m in im
(81)
con varianza:
95
Tabla 5. Objetivos y propiedades de cuatro diseos de muestreo (adaptado de Duncan y Kalton, 1987).
Objetivo muestreo de Muestreo con reemplazo total (MRT) Automticamente toma en cuenta los cambios en la poblacin. Muestreo con remedicin total (MRMT) Necesita algn mecanismo para tomar en cuenta los cambios en la poblacin. Muestreo con reemplazo parcial (MRP) Necesita algn mecanismo para tomar en cuenta los cambios en la poblacin durante la vida del grupo reemplazado. Se pueden usar estimadas compuestas para producir estimadas eficientes. Combinacin de MRMT con MRT o MRP El componente remedido necesita algn mecanismo para tomar en cuenta los cambios en la poblacin.
a) Estimar parmetros de la poblacin en tiempos diferentes. b) Estimar valores promedio de los parmetros de la poblacin. c) Estimar el cambio neto.
Estima el efecto combinado del cambio en los valores y cambios en la poblacin.
Necesita algn mecanismo para tomar en cuenta los cambios en la poblacin. La varianza del cambio se reduce por la correlacin positiva entre valores del muestreo.
Necesita algn mecanismo para tomar en cuenta los cambios en la poblacin durante la vida del grupo reemplazado. Se pueden usar estimadas compuestas para producir estimadas eficientes.
d) Estimar componentes del cambio en el tiempo. e) Agregar datos para individuos en el tiempo. f) Colectar datos sobre eventos que ocurren en periodos de tiempo especficos. g) Acumular muestras en el tiempo.
No es posible
Apropiado para estas poblaciones.
Se puede usar para estimar el cambio o agregar informacin de periodos ms cortos que el tiempo en que una unidad muestral ser reemplazada en la muestra. Slo se pueden usar las unidades muestrales que sern reemplazados. Se puede construir la historia de eventos a largo plazo pero con una base ms limitada que con el muestreo de remedicin completa.
No es posible
Se puede construir la historia a largo plazo de eventos combinando datos de varios muestreos. No es til para caractersticas estticas, pero s para eventos nuevos.
El componente remedido necesita algn mecanismo para tomar en cuenta los cambios en la poblacin. La varianza del grupo remedido se reduce por la correlacin positiva entre los valores en los muestreos. El componente de remedicin completa es apropiado para estos propsitos. No es posible para el componente de reemplazo total. Se puede construir la historia limitada de eventos.
Excelente para caractersticas estticas y para eventos nuevos.
De alguna utilidad para caractersticas estticas y til para eventos nuevos.
El componente de remedicin completa es excelente. El componente de remedicin completa es til para nuevos eventos pero no para caractersticas estticas.
96

2 2 ) = N 2 2 1 u V (Y 2 mr n m
(82)
e Y , para obtener una estimada mejorada de Y2, se hace Combinando las estimadas Y 2u 2 mr ponderndolas de manera inversamente proporcional a sus varianzas muestrales, as que se obtiene: = Y 2 Y (w
1 2u
2Y +w 2 mr w
(83)
) 1/ w , y w = w + w = 1/ 2 + 1/ 2 , y un estimador de la con una varianza aproximada de V (Y 1 2 1 2 2 varianza: ) = 1 + 4 v(Y 2 2 w 1 = con w
i =1
i (w w i ) w w di
(84)
1 1 . 2 = =w 1 + w 2 , d1 = m 1, d 2 = u 1 , y w es estimado por w , w , w ) ) v(Y v(Y 2u 2 mr Son posibles dos estimadores del cambio +Y , el ms obvio es: =Y Y +Y 1 2 1
(85)
Una propiedad deseable de tal estimador es que sea consistente con las estimadas en las dos ocasiones.
, en general, toma ventaja de la regresin basada en la m Un estimador ms eficiente que +Y 1 de arriba. Este estimador es: unidades comunes, como en Y
2
= +Y 2
+w 1 +Y 2 +Y w 1 2 w
(86)
y +Y son los estimadores de cambio de las m unidades remedidas y de las u parcelas Aqu, +Y 1 2 que no son comunes, respectivamente, donde:
1 = w
2 2 s12 s2 s12 s12 s2 + 2 , w2 = + m m m u u
son estimadores insesgados, respectivamente, de: w1 =
12
m
2 2
12
m
97
, w2 =
12
u
2 2
=w 1 + w 2 estimadas de w = w1 + w2 , y w
) = 1/ w V (+Y 2
(87)
con un estimador aproximado de la varianza de:

= 1 + 4 v +Y 2 2 w
( )
i =1
i (w w i ) w w di
(88)
donde: d1 = m 1, d 2 = u 1 .
Problema. Muestre cmo el muestreo con remedicin total y el muestreo con reemplazo total son casos especiales del muestreo con reemplazo parcial. Respuesta. Haga que = 0 , en la Ecuacin (82) para obtener la varianza de remedicin completa y = 1 para obtener la varianza para muestreo con reemplazo total.
La proporcin de parcelas comunes en muestreo con reemplazo parcial depende de la correlacin entre las mediciones en ambos tiempos. No debera exceder de 0.5 para optimizar el estimador . El muestreo con reemplazo parcial, rpidamente se vuelve ms complicado para la Y
2
estimacin si se consideran ms de dos ocasiones (Schreuder et al., 1993). Pero una desventaja seria del muestreo con reemplazo parcial, la estimacin de la varianza, se ha eliminado. Con Bootstrap debera ser ms simple generar estimadas de la varianza para cualquier nmero de remediciones y esquemas de estimacin. Todas las unidades del FIA, en Estados Unidos, ahora usan muestreo con remedicin completa, aunque antes algunas usaban muestreo con reemplazo parcial. En general, el muestreo con reemplazo parcial quiz sea ms eficiente, pero se vuelve bastante complejo para su anlisis, lo que lo hace intratable por los requerimientos especiales para las estimaciones de subpoblaciones especficas de la poblacin inventariada.
X. Construccin de Modelos CausaEfecto
La aseveracin de Box y Draper (1987), de que todos los modelos estn mal, la pregunta prctica es que tan mal deben estar para que no sean tiles, generalmente se acepta en el mundo de la estadstica, y puede parafrasearse como todos los modelos estn mal, aunque algunos son tiles. La utilidad de los modelos, a menudo, se evala por el grado de correlacin entre las variables de inters y las covariables, pero ntese que la correlacin no prueba causalidad (Kish, 1967). Mucha de la investigacin, si no es que toda, se mueve alrededor de la intencin de construir modelos. Pero la posibilidad de emplear mal los modelos se ha incrementado de manera considerable con la disponibilidad de computadoras y la facilidad de uso de los programas de
98
regresin. Idealmente, un investigador observa la realidad o estudia con cuidado las teoras cientficas sustantivas. Entonces, se desarrollan los modelos con base en la visin lograda, reconociendo el hecho de que adems de las variables explicatorias, existen otras fuentes de variacin que deben considerarse. Kish (1967) separa todas las fuentes de variacin en cuatro clases: 1. Las variables explicatorias o experimentales que son el objetivo de la investigacin, para explicar o establecer una relacin entre las variables dependientes (llamadas variables de respuesta, en este contexto) y las variables independientes (variables predictoras). 2. Variables extraas que pueden controlarse en la seleccin de la muestra o en la estimacin. 3. Variables extraas no medidas (a menudo no medibles), que pueden estar confundidas con las variables sealadas en la Clase 1. 4. Variables extraas difciles de controlar o incontrolables que tienen que tratarse como errores aleatorios. En experimentos ideales, pueden ser aleatorizadas, mientras que en muestreos slo se puede suponer que estn aleatorizadas. En toda investigacin, uno desea ubicar tantas variables de la Clase 2 como sea posible. Puesto que, usualmente, esto no puede hacerse, tenemos experimentos y muestreos. La conduccin de investigaciones o pruebas sistemticas y controladas, o sea la experimentacin, trata de controlar las variables en la Clase 3 tanto como sea posible, procurando que tales variables se incluyan en la Clase 4 mediante la aleatorizacin. En un experimento ideal no hay variables de la Clase 3. En un muestreo ideal todas las variables de la Clase 3 se separan de aquellas de la Clase 1, a travs de ajustes de regresin, apareamiento de unidades y estandarizacin. Si hubiera un control completo en una situacin de investigacin, se podran introducir los efectos y mediciones deseados en porciones controladas y aleatorizadas de la poblacin objetivo, con intervenciones experimentales firmes, y construir un modelo verdadero (Kish, 1967). Tales situaciones son raras, as que solemos tener experimentos que son fuertes en control, a travs de la aleatorizacin, pero dbiles en representar la poblacin real de inters y tambin, con frecuencia, en el planteamiento natural del modelo que se construye. A menudo, los muestreos son factibles cuando la experimentacin no se puede realizar, el caso ms obvio es que no hacemos experimentos con humanos. Los muestreos son fuertes en representacin, pero dbiles en control. Esto explica por qu, con cierta frecuencia, algunos estudios concluyen que algunos qumicos son nocivos y la investigacin subsiguiente no apoya tales conclusiones. A menudo, los datos de muestreo se usan para construir modelos, para lograr un mejor entendimiento de lo que est sucediendo. Muchos modelos parecen tener poca habilidad predictiva; por ejemplo, esto es verdad para el segmento de investigacin forestal para construir modelos de crecimiento y mortalidad. Algunos ingredientes faltantes son datos clave que ayudaran a identificar relaciones de causa y efecto, como lluvia diaria, deposiciones atmosfricas, contenido de humedad en el suelo, etc. Tales datos no se pueden colectar todava de una manera prctica en los inventarios de recursos naturales, pero el desarrollo de nuevos instrumentos tal vez lo haga posible algn da. Hasta que esta informacin sea rutinariamente disponible para las parcelas de observacin, los modelos de prediccin para crecimiento, mortalidad, erosin y otras variables clave, difcilmente sern muy confiables. Los inventarios de gran escala, como el del FIA y el Inventario de Recursos Naturales (NRI, por sus siglas en ingls) del Servicio Nacional de Conservacin de Recursos (NRCS, por sus siglas
99
en ingls), pueden establecer tendencias de cambio para reas grandes y pueden usarse para sugerir e identificar potenciales relaciones de causa y efecto, y sugerir hiptesis tiles para documentar tales relaciones (Olsen y Shreuder, 1997). Las inferencias sobre posibles relaciones causa y efecto tienen que interpretarse con cautela, porque el escrutinio de los datos hace difcil definir la poblacin sobre la que se infiere (ver, por ejemplo, Schreuder y Thomas, 1991). Es desafortunado que en Estados Unidos haya dos inventarios de recursos naturales, el Inventario Forestal y Anlisis (FIA) del Servicio Forestal de Estados Unidos (USFS) y el NRI, del NRCS, y ambas agencias estn en el Departamento de Agricultura de Estados Unidos (USDA, en ingls). Los inventarios con visin restringida parecen ser la regla en muchos otros pases tambin, como lo evidencia la descripcin en European Comission (1997). La complementariedad de los datos colectados hara ms probable la identificacin de relaciones causa y efecto promisorias para una amplia gama de variables sobre los recursos. Por ejemplo, sera deseable tener informacin confiable sobre suelos colectada, por el NRI, as como tambin la de las parcelas del FIA para desarrollar mejores modelos de crecimiento y rendimiento. Mosteller y Tukey (1977) identifican tres criterios, de los cuales dos tienen que satisfacerse para inferir sobre relaciones causa y efecto: consistencia, respuesta y mecanismo. La consistencia implica que la presencia y la magnitud del efecto y estn asociadas con un nivel mnimo del agente causal potencial x. La respuesta se establece por la exposicin experimental al agente causal potencial y se genera la reproduccin de los sntomas. El mecanismo demuestra el proceso biolgico o ecolgico que causa el efecto observado. Feinstein (1988) invoc los siguientes principios cientficos para establecer una relacin causa y efecto: estipular una hiptesis antes del anlisis, estudiar una cohorte bien definida que tengan un factor estadstico en comn, colectar datos de alta calidad, estudiar posibles explicaciones y evitar sesgos en la deteccin. Es difcil satisfacer los tres criterios de Mosteller y Tukey (1977). Por ejemplo, la consistencia entre fumar y el cncer se estableci en la dcada de 1950. La respuesta fue bien documentada entonces y en la dcada de 1960, pero el mecanismo causal no se haba establecido hasta la dcada de 1990 (Peifer, 1997). Y este eslabonamiento fue relativamente fcil de establecer porque el efecto es dramtico (Taubes, 1995). Hill (1965), en la literatura epidemiolgica, sugiere una propuesta de peso de la evidencia, que consiste de nueve criterios para inferir causalidad: fuerza, consistencia, especificidad, temporalidad, gradiente biolgico, plausibilidad, coherencia, evidencia experimental y analoga. La fuerza se refiere a tener una alta magnitud de un efecto, asociada con la exposicin al agente causal; la consistencia, a que repetidamente se observe la asociacin del efecto y el causal, bajo diferentes condiciones; la especificidad, al grado en que el efecto sea ms probable de ser diagnosticado, teniendo el causal y la facilidad de asociacin de ste con el efecto; la temporalidad, al hecho de que el causal siempre precede al efecto en tiempo; el gradiente biolgico, al cambio en el efecto con cambios correspondientes en el causal; la plausibilidad, a que la asociacin entre el efecto y el causal sea consistente con principios fsicos, qumicos y biolgicos; la evidencia experimental, a que los cambios en el efecto estn documentados, despus de la manipulacin experimental o a travs de la recuperacin de la poblacin despus de que se libera del causal; y analoga, tener causales similares asociados con efectos similares. En tanto ms de estos criterios se satisfagan, ms peso se le puede dar a la evidencia de que hay una causa probable.
100
Los datos de muestreo slo pueden proporcionar informacin para identificar relaciones de causa y efecto. Establecer que hay una correlacin entre posibles variables de causa y efecto es un primer paso til en esta identificacin. Para lectores que deseen ms informacin sobre cmo maximizar las posibilidades de tal identificacin, los referimos a Olsen y Schreuder (1997) y Gadbury y Schreuder (2003).
XI. Situaciones de Muestreo Forestal A. Fallas
Ahora que usted ha estudiado intensamente el muestreo, puede pensar sobre qu hacer. Esta seccin cubre algunos de los errores mayores cometidos por especialistas serios en muestreo en el transcurso del tiempo en Estados Unidos. 1. Mover subparcelas. El FIA elega parcelas de 0.4 hectreas (1 acre) como unidades primarias, submuestreadas con cinco o 10 subparcelas de radio variable. Como es lgico, en ocasiones algunas podan caer en una condicin diferente de la de la subparcela central. Por ejemplo, las Subparcelas 1 a 3 podran estar muestreando una plantacin de pino y las Subparcelas 4 y 5 un rodal de hojosas. La decisin se tom desde principios de la dcada de 1930 y continu hasta la de 1990, por varias unidades del FIA, de mantener todas las subparcelas en el mismo tipo de bosque. Por ejemplo, si la Subparcela 1, la central, estaba en una plantacin de pino, todas las subparcelas que no estuvieran en la plantacin se moveran de una manera sistemtica, para que cayeran dentro de la plantacin de pino. Este procedimiento sesga los resultados (Williams et al., 1996). 2. Promediar condiciones. Relacionado con lo de arriba, otra unidad no mova las subparcelas como en la situacin anterior, pero tomaron la decisin, igualmente indeseable, de promediar los tipos forestales, o sea que no mantuvieron registro de qu tipo de bosque se estaba muestreando. Ellos llamaron rodal mixto pino y hojosas a la parcela descrita en uno. Las situaciones uno y dos condujeron a la condicin interesante de que dos estados de Estados Unidos, que son bastante similares, mostraran enormes diferencias en las reas de rodales de pino y hojosas, en porcentajes, con respecto a la superficie total. 3. Muestreo con parcelas de radio variable para obtener de seis a ocho rboles por punto. Se hizo una recomendacin razonable en un libro de medicin forestal de que era conveniente seleccionar un prisma o relascopio que produjera un promedio de seis a ocho rboles por punto. Esta recomendacin se sigui incorrectamente en varios lugares del oeste de Estados Unidos. Las brigadas en el campo llevaron varios prismas y en cada punto elegan el que les produjera entre seis y ocho rboles. Esta propuesta sesgada, sorprendentemente fue apoyada por prominentes biometristas. En varios experimentos de este mtodo result un sesgo pequeo o no lo hubo, pero el primer autor estuvo involucrado en una situacin en California donde tan serio sesgo fue notado (Wensel et al., 1980; Schreuder et al., 1981). 4. Mal uso de predicciones de un modelo. Una unidad del FIA desarroll modelos de crecimiento y de mortalidad basados en estudios de crecimiento y rendimiento; luego us esos modelos para actualizar la informacin de parcelas que no pudieron remedir por razones de costo. Los valores predichos se emplearon como datos reales, por parcela, para generar estimadas para todo el estado. 5. Cancelar subparcelas para satisfacer metas de produccin. Los administradores del programa del FIA pusieron mucho nfasis en satisfacer metas de produccin. Por esto, una unidad aprob la eliminacin de la Subparcela 4 para lograr la produccin de ocho parcelas por dos semanas, si las brigadas sentan que no podran satisfacer esa meta de produccin. Esto sesga
101
los resultados, especialmente si las brigadas deciden discrecionalmente cancelar la Subparcela 4 donde las condiciones de muestreo son difciles. 6. Olvidar las probabilidades de seleccin. Una agencia de gobierno seleccion una muestra para estimar madera, usando muestreo estratificado para obtener estimaciones de volumen para diferentes estratos. Diez aos despus, se decidi visitar nuevamente las localizaciones para otro propsito, pero no se tena registro de las probabilidades de seleccin. Se quiso tratar a la muestra existente como MSA, para propsitos de remedicin. Schreuder y Alegra (1995) ilustran cmo esto puede resultar en un serio sesgo. 7. Tratar subparcelas como parcelas porque su informacin se considera no correlacionada. Claramente, las subparcelas no son observaciones independientes y, por lo tanto, no deberan tratarse como tales. 8. Resultados diferentes de agencias diferentes. Dos agencias en el mismo departamento estimaron reas de bosque muy diferentes en varios estados. Esto fue producido por diferentes interpretaciones de definiciones comunes de bosque, rbol y estndares en las tcnicas de medicin y estimacin. Varias de estas diferencias tambin estn ligadas a la consideracin del bosque como una clase de uso (Goebel et al., 1998). Un tcnico forestal deseara ver tanto bosque en un estado comos sea posible, mientras que un administrador de pastizales deseara ver la misma superficie como agostadero.
Problema. Usar un modelo de crecimiento desarrollado a partir de datos de crecimiento y rendimiento, cmo seran las predicciones de dicho modelo, comparadas con el crecimiento real de los rboles de la misma especie en las mismas parcelas de muestreo ? Solucin. Los estudios de crecimiento y rendimiento comnmente usan parcelas con niveles de 100% de densidad, con un ambiente ms favorable que las parcelas de muestreo de un inventario, que ms probablemente estn ms afectadas por insectos y enfermedades, actividades humanas, etc. Por lo tanto, es probable que las predicciones produzcan sobreestimaciones del crecimiento real de los rboles del inventario.
Problema. Una brigada desmotivada, usando la situacin descrita en la Falla 5, decide siempre cancelar la Subparcela 4 cuando sabe que es difcil de medir. Cules son las consecuencias? Respuesta. Esto sesgar las estimadas para el rea inventariada, porque cambia las probabilidades de seleccin de las subparcelas y, por lo tanto, de las parcelas de las que ellas son parte. No es posible decir en que sentido ser ese sesgo. Algunas subparcelas sern difciles de medir porque estn en un pantano; otras, podran estar en un rea muy productiva, donde las zarzas y otra vegetacin del sotobosque presenten dificultades para la medicin; ms an, algunas podran presentarse en un peasco muy inclinado e improductivo y tambin ofreceran dificultades para la medicin.
Problema. Una brigada bien intencionada, tambin en una situacin como la descrita en la Falla 5, decide medir las Subparcelas 4 slo cuando se cree que contiene rboles maderables buenos. Cules son las consecuencias?
102
Respuesta. Esto sesgar ciertas estimadas hacia arriba, como las relacionadas con volumen maderable. Podra no tener mucho efecto en las variables que no estn correlacionadas con la bondad del rbol para producir madera aserrada, como nmero de rboles o mortalidad.
Problema. Una brigada usa varios prismas y selecciona el que le produce entre 6 y 8 rboles en cada punto de muestreo PRV, genera estimadas para las 100 parcelas de radio variable y generan una estimada de 100,000 m3 para el rea. Venden la madera, con base en la cantidad estimada de volumen. El comprador slo encuentra 60,000 m3. Por eso, el comprador establece una demanda contra el que hizo el inventario. Ambas partes se acercan a usted, un reconocido experto en inventarios, para testificar a su favor. Cul escogera usted? Respuesta. Sera ms sensato tomar el lado del comprador. Ciertamente, el mtodo de muestreo present los problemas sealados en la Falla 3. B. Sugerencias
Nuestra experiencia nos conduce a creer que las cosas del inventario y el monitoreo, a travs de muestreo, se pueden hacer mejor de lo que ahora se hacen. Hoy es difcil cambiar los inventarios por muestreo que existen. Por ello: 1. 2. 3. 4. 5. 6. Se debe ser ms flexible, menos acartonado. Investigue sobre lo que hay y lo que se puede hacer mejor. Documente bien lo que est haciendo. Observe el principio de Mantngalo simple! en el diseo, que es menos necesario en estimacin. Haga anlisis creativos y competentes. Enfquese en los objetivos. Por ejemplo, podra haber necesidad de resolver conflictos potenciales entre lo que es importante para un inventario de madera y las variables ecolgicas que son importantes, desde otro punto de vista; los primeros y las segundas pueden tener diferente ponderacin. Tambin es necesario anticipar lo que puede ser necesario en el futuro. Mantngase al da con la literatura mundial y contribuya a ella. Defina variables medibles (ver Schreuder et al., 1993, p.292, especficamente la precaucin sealada por Innes, por ejemplo).
7. 8.
Con el tiempo hemos aprendido las siguientes lecciones: 1. Los objetivos de un inventario exitoso cambiarn con el tiempo y sern ms amplios. 2. No se encajone en las propuestas existentes. Permita el cambio, la adecuacin. Un ejemplo de esto es el diseo de las parcelas. En Estados Unidos se ha ido de las rectangulares a las parcelas de radio variable, a las circulares y, probablemente, en el fututo se estarn usando diferentes formas de parcela para diferentes variables, incluyendo las parcelas rectangulares alargadas o cuadradas asociadas con la informacin de los sensores remotos. En el futuro ser posible colectar ms informacin con los sensores remotos. Los inventarios de gran escala estn abandonando la orientacin puramente maderable, ahora habrn de poner mayor atencin a la informacin ecolgica, entre esa informacin, las caractersticas lineales como
103
las reas de galera, vegetacin del sotobosque y las especies vegetales raras, amenazadas o endmicas. Debido a que los puntos de observacin podrn ubicarse con mayor precisin, tanto en el terreno como en la informacin de sensores remotos, usando GPS, adems se podr tener informacin ms detallada con nuevas plataformas de sensores; con el tiempo ser posible tener estimaciones ms eficientes, combinando informacin terrestre y de los sensores en modelos de estimacin estadstica de regresin. 3. El anlisis y la estimacin deben ser y pueden ser mucho ms defendibles, tanto como sea posible. Un principio fundamental del FIA es mantener las cosas simples. Nuestra recomendacin es mantener el diseo simple, pero permitir mayor complejidad en el anlisis, ya que diferentes personas desearan usar los datos en diferentes maneras. En Estados Unidos se espera tener mucha controversia sobre el anlisis de los datos anualizados antes de que se logre algn acuerdo.
XII. Referencias (Todas las referencias citadas son en ingls, se proporciona una traduccin de sus ttulos como informacin del lector.) Aldrich, R. C. 1979. Remote sensing of wildland resources: a state-of-the-art review [Teledeteccin de recursos de reas silvestres: una revisisn del estado del arte]. USDA FS RM For. and Range Exp. Stn. Gen. Tech. Rep. RM-71. 56 p.
Arvanitis, L. G. and Reich, R. 2005. Natural resources sampling [Muestreo de recursos naturales]. Sage. New York. Avery, T. E. and Burkhart, H. E. 1983. Forest measurements [Mediciones forestales]. 3rd ed. McGraw-Hill. New York. 331 p. Biggs, P. H. and Spencer, R. D. 1990. New approaches to extensive forest inventory in Western Australia using large-scale aerial photography [Nuevos procedimientos in inventarios forestales extensivos en Australia Occidental utilizando fotografa area de gran escala]. Australian Forestry. 53:182-193. Biggs, P. H., Pearce, C. J. and Wescott, T. J. 1989. GPS navigation for large-scale photography [Navegacin usando GPS para la fotografa de gran escala]. Photogrammetric Engineering and Remote Sensing 55:1737-1741. Bitterlich, W. 1947. The angle count method (in German) [El mtodo tipo cuenta de ngulos (en alemn)]. Allgemeines Forst-und Holzwirtschaftliche Zeitung 58:94-96. Bolstad, P. V. and Smith, J. L. 1992. Errors in GIS [Errores en GIS]. Journal of Forestry 90:2129. Box, G. and Draper, N. 1987. Empirical model building and response surfaces [Construccin de los modelos empricos y superficies de respuesta]. John Wiley. New York. 74 p. Brewer, K. R. W. and Hanif, M. 1983. Sampling with unequal probabilities (Lecture Notes in Statistics) [Muestreo con probabilidades desiguales (Notas de las lecturas en la Estadstica)]. Springer-Verlag. New York. 164 p.
104
Buckland, S. T., Anderson, D. R., Burnham, K. P., Laake, J. L., Borchers, D. L. and Thomas, L. 2001. Introduction to distance sampling [Introduccin al muestreo a distancia]. Oxford University Press. Oxford. 432 p. Bunge, J. and Fitzpatrick, M. 1993. Estimating the number of species: a review [Estimando el nmero de las especies: una revisin]. Journal of the American Statistical Association 88:364-373. Burnham, K.P. 1980. Is finite popultation sampling always applicable to finite populations? [El muestreo de las poblaciones finitas es siempre aplicable a las poblaciones finitas?] Invited presentation to American Statistical Association National Meeting, Houston, TX. Aug 1980 (unpublished). Carroll, R. J. and Rupert, D. 1988. Transformations and weighting in regression [Transformaciones y ponderacin en regresin ]. Chapman and Hall. New York. 249 p. Cassel, C. M., Sarndal, C. E., and Wretman, J. H. 1977. Foundations of inference in survey sampling [Fundamentos de inferencia en inventarios por muestreo ].John Wiley. New York. 192 p. Chao, A. and Lee, S. M. 1992. Estimating the number of classes via sample coverage [Estimacin del nmero de clases por va de muestreo de la cobertura]. Journal of the American Statistical Association 87:210-217. Cochran, W. G. 1977. Sampling techniques [Tcnicas de muestreo]. 3rd ed. John Wiley. New York. 428 p. Congalton, R. G. and Green, K. 1992. The ABCs of GIS. Geographic Information Systems. Part 1 [El ABC de GIS. Sistemas de Informacin Geogrfica. Parte 1]. Journal of Forestry 90(11):13-20. Cramer, H. 1963. Mathematical methods of statistics [Mtodos matemticos de estadstica ]. Princeton University Press. Princeton. 575 p. Czaplewski, R.C. 2003. Can a sample of Landsat sensor scenes reliably estimate the global extent of tropical deforestation? [Puede una muestra de escenas de sensores Landsat estimar confiablemente la extensin de deforestacin tropical?]. International Journal of Remote Sensing 24:1409-1412. Czaplewski, R.C. 1999. Multistage remote sensing. Towards an annual national inventory [Teledeteccin multietapas. Hacia un inventario nacional anual]. Journal of Forestry 97(12): 44-48. Dawid, A. P. 1983. Inference, Statistical: I [Inferencia estadstica: I]. In: Kotz, S. and Johnson, N. L. Encyclopedia of Statistical Science 4:89-105. John Wiley. New York.
105
De Vries, P. G. 1986. Sampling theory for forest inventory. A teach-yourself course [Teora del muestreo para inventarios forestales. Un curso de auto-enseanza.]. Springer-Verlag. New York. 399 p. Deming, W. E. 1975. On probability as a basis for action [Sobre probabilidad como base para la accin]. American Statistician 29:146-152. Duncan, G. J. and Kalton, G. 1987. Problems of design and analysis of surveys across time [Problemas de diseo y anlisis del inventario a travs del tiempo]. International Statistical Review 55:97-117. European Commission. Study on European forestry information and communication systemReports on forestry inventory and survey systems [Estudio de la informacin forestal europea y sistema de comunicacin -Reportes de sistemas de inventarios forestales y inventarios]. Vol 1 y 2. Office for Official Publications of the European Communities. L2985. Luxemburgo. Feinstein, A.R. 1988. Scientific standards in epidemiological studies of the menace of daily life [Estndares cientficos en los estudios epidemiolgicos de las amenazas de la vida diaria]. Science 242:1257-1263. Franco-Lopez, H. 1999. Dissertation. Updating forest monitoring systems estimates [Disertacin. Actualizacin de las estimaciones de las sistemas de monitoreo forestal]. The University of Minnesota, Minneapolis. EM-7140.28. 48 p. Fraser, D. A. S.1983. Inference, Statistical: II [Inferencia estadstica: II]. ]. In: Kotz, S. and Johnson, N. L. Encyclopedia of Statistical Science 4:105-114. John Wiley. New York. Freese, F. 1962. Elementary forest sampling [Muestreo forestal elemental]. USDA FS Agriculture Handbook No. 232. 91 p. Gadbury, G. L. and Schreuder, H. T. 2003. Cause-effect relationships in analytical surveys: an illustration of statistical issues [Relaciones causa-efecto en inventarios analticos: una ilustracin de problemas estadsticos ]. Environmental Monitoring and Assessment 83:205-227. Goebel, J. J., Schreuder, H. T., House, C. C., Geisler, P. H., Olsen, A. R. and Williams, W. W. 1998. Integrating surveys of terrestrial natural resources: The Oregon demonstration project [Integracin de inventarios de recursos naturales terrestres: El proyecto de demostracin en Oregn]. USDA FS Forest Inventory and Monitoring Institute Technical Report No. 2, 20 p. Green, K. 1992. Spatial Imagery and GIS [Imgenes espaciales y GIS]. Journal of Forestry 90(11):32-45. Gregoire, T. G. and Valentine, H. T. 2005. Sampling techniques for natural resources and the environment [Tcnicas de muestreo para los recursos naturales y el ambiente]. Chapman Hall/CRC Press. New York.
106
Gregoire, T. G. 1998. Design-based and model-based inference in survey sampling: appreciating the difference [Inferencias de muestreo de inventarios basado en diseos y modelos: apreciacin de la diferencia]. Canadian Journal of Forest Research 28:1429-1447. Gregoire, T.G. and Scott, C. T. 1990. Sampling at the stand boundary: A comparison of the statistical performance among eight methods [Muestreo en la orilla del rodal: Una comparacin del desempeo estadstico entre ocho mtodos]. In: Proc. XIX World Forestry Congress IUFRO. Montreal, Canada. Aug 5-11, 1990. Publ. No. FWS-3-90, Virginia Polytech. Inst. and Univ. Blacksburg. pp. 78-85. Grosenbaugh, L. R. 1964. Some suggestions for better sample-tree measurement [Algunas sugerencias para medir mejor los rboles en la muestra]. In: Proceedings Society of American Foresters. Boston. pp. 36-42. Grosenbaugh, L. R. 1967. The gains from sample-tree selection with unequal probabilities [Ganancias en la seleccin de los rboles muestra con probabilidades desiguales]. Journal of Forestry 65:203-206. Haas, P. J. and Stokes, L. 1998. Estimating the number of classes in a finite population [Estimacin del nmero de clases en una poblacin finita ]. Journal of the American Statistical Association 93:1475-1487. Hahn, G. J. and Meeker, W. O. 1993. Assumptions for statistical inference [Suposiciones para inferencias estadsticas ]. American Statistician 47:1-11. Hajek, J. 1957. Some contributions to the theory of probability sampling [Algunas contribuciones a la teora de muestreo probabilstico ]. Bulletin of the International Statistical Institute 36: 127-133. Hansen, M. H., Hurwitz, W. N. and Madow, W. G. 1953. Sample survey methods and theory [Mtodos y teora de los inventarios por muestreo ]. Volmenes I y II. John Wiley. New York. 638 p., 332 p. Hill, A. B. 1965. The environment and disease: Association or causation? [El ambiente y enfermedades: Asociacin o causalidad?]. Proceedings of the Royal Society of Medicine 58: 295-300. Holmgren, P. and Thuresson, T. 1998. Satellite remote sensing for forestry planning: a review [Teledeteccin con satlites para la planeacin forestal: una revisin]. Scandinavian Journal of Forest Research 13:90-110. Hush, B. 1971. Planning a forest inventory [Planeacin de un inventario forestal ]. FAO Forest Products Studies No. 17. Rome, Italy. 121 p. Iles, K. 2003. A sampler of inventory topics [Un muestreo de temas de inventarios ]. Kim Iles Associates, Nanaimo, B.C. Canada. 869 p.
107
Johnson, E. W. 2000. Forest sampling desk reference [Referencia de escritorio para muestreo forestal]. CRC Press. New York. 985 p. Kalton, G. and Anderson, D. W. 1986. Sampling rare populations [Muestreo de poblaciones raras]. Journal of the Royal Statistical Society 149:65-82. Kish, L. 1967. Survey sampling [Inventarios por muestreo]. 2nd ed. John Wiley. New York. 643 p. Koch, G. G. and Gillings, D. B. 1983. Inference, design based vs model based [Inferencia, basndose en diseos contra modelos In: Kotz, S. and Johnson, N. L. Encyclopedia of Statistical Science 4:84-88. John Wiley. New York. Kotz, S. and Johnson, N. L. Encyclopedia of Statistical Science 8. John Wiley. New York. 870 p. Kruskal, W. H. and Mosteller, F. 1979. Representative sampling [Muestreo representativo]. In: Kotz, S. and Johnson, N. L. Encyclopedia of Statistical Science 8:89-105. John Wiley. New York. Kutner, M., Neter, J., Nachtsheim, C. and Wasserman, W. 2003. Applied linear regression models [Modelos aplicados de regresin lineal]. 4th ed. McGraw-Hill/Irwin. New York. 672 p. Lachowski, H., Maus, P. and Platt, B. 1992. Integrating remote sensing with GIS [Integracin de teledeteccin con GIS]. Journal of Forestry 12:16-21. Lefsky, M. A., Cohen, W. B., Parker, G. G. and Harding, D. J. 2002. Lidar remote sensing for ecosystem studies. [Teledeteccin Lidar para estudios de ecosistemas]. Bioscience 52:1930. Lillesand, T. M. and Kiefer, R. W. 1987. Remote sensing and image interpretation [Teledeteccin e interpretacin de imagenes]. 2nd ed. John Wiley. New York. 721 p. Lin, J. M. 2003. Small area estimation [Estimacin de reas pequeas]. Ph. D. dissertation. Statistics Department. Colorado State University. Ft Collins. 344 pp. Max, T. A., Schreuder, H. T., Hazard, J. W., Oswald, D. D., Teply, J. and Alegria, J. 1996. The Pacific Northwest Region vegetation and inventory monitoring system. [Sistema de monitoreo de vegetacin e inventario de la Regin Pacfico Noroeste]. USDA FS PNW Res. Paper PNW-RP-493. Mosteller, F. and Tukey, J. W. 1977. Data analysis and regression [Anlisis de datos y regresin ]. Addison-Wesley Publ. Reading, MA. 586 p. Murthy, M. N. 1967. Sampling theory and methods [Teora y mtodos de muestreo]. Statistical Publ. Co. Calcutta, India. 684 pp.
108
Olsen, A. R. and Schreuder, H. T. 1997. Perspectives on large-scale natural resource surveys when cause-effect is a potential iumse. [Perspectivas sobre los inventarios de recursos naturales de gran escala cuando la causa-efecto sea un posible problema.] Environmental and Ecological Statistics 4: 167-180. Overton, W.S. and Stehman, S.V. 1995. The Horvitz-Thompson Theorem as a unifying perspective for probability sampling: with examples from natural resource sampling [El teorema de Horvitz-Thompson como una perspectiva unificadora para muestreo probabilistico: con ejemplos de muestreos de recursos naturales]. American Statistician 49:261-268. Peifer, M. 1997. Cancer-beta -catenin as oncogene: The smoking gun [Cncer-beta-catenino como oncgeno: la pistola humeante]. Science 75:1752-1753. Pinkham, R. S. 1987. An efficient algorithm for drawing a simple random sample [Un algoritmo eficiente para escoger una muestra aleatoria simple]. Applied Statistics 36:370-372. Rosenfield, G. H. and Fitzpatrick-Lins, K. 1986. A coefficient of agreement as a measure of thematic classification accuracy [Un coeficiente de concordancia como una medida de precisin de clasificacin temtica]. Photogrammetric Engineering and Remote Sensing 52:223-227. Sarndal, C. E. 1980. A two-way classification of regression estimation strategies in probability sampling [Una clasificacin de dos vas de las estrategias de estimacin de regresin en muestreo probabilistico]. Canadian Journal of Statistics 8:165-177. Sarndal, C. E., Swensson, B. and Wretman, J. 1992. Model assisted survey sampling [Inventarios por muestreo asistidos por modelos]. Springer-Verlag. New York. 694 p. Schreuder, H. T 1994. Simplicity versus efficiency in sampling designs and estimation [Simplicidad contra eficiencia en los diseos de muestreos y estimacin]. Environmental Monitoring and Assessment 33: 237-245. Schreuder, H. T and Gregoire, T. G. 2001. For what applications can probability and nonprobability sampling be used? [Para qu aplicaciones se puede usar el muestreo probabilstico y no probabilstico?]. Environmental Monitoring and Assessment 66:281291. Schreuder, H. T. and Alegria, J. 1995. Stratification and plot selection rules, misuses and consequences [Reglas de estratificacin y seleccin de parcelas, abusos y consecuencias]. USDA Forest Service RMRS Research Note RM-RN-536. 4 p. Schreuder, H. T. and Czaplewski, R. L. 1992. Long-term strategy for the statistical design of a forest health monitoring system [Estrategia de largo plazo para el diseo estadstico de un sistema de monitoreo de la salud forestal]. Environmental Monitoring and Assessment 27:81-94.
109
Schreuder, H. T. and Geissler, P. H. 1999. Plot designs for ecological monitoring of forest and range [Diseos de parcelas para el monitoreo de bosques y praderas]. North American Science Symposium. Towards a unified framework for inventorying and monitoring forest ecosystem resources symposium. Guadalajara, Mexico Nov 1-4, 1998. USDA Forest Service RM Res. Stn. Proceedings. RMRS-P-2: 180-185. Schreuder, H. T. and Thomas, C. E. 1991. Establishing cause-effect relationships using forest survey data [Estableciendo relaciones causa-efecto usando datos de inventarios forestales ]. Forest Science 37:1497-1525. Schreuder, H. T. and Williams, M. S. 2000. Reliability of confidence intervals calculated by bootstrap and classical methods using the FIA 1-ha plot design [Confiabilidad de los intervalos de confianza calculados por los mtodos de Bootstrap y clsicos usando el diseo de parcela FIA 1-ha.]. USDA FS RMRS, General Technical Report RMRS-GTR57. 6 p. Schreuder, H. T., Bain, S. and Czaplewski, R. C. 2003. Accuracy assessment of percent canopy cover, cover type and size class [Evaluacin de la exactitud en el evaluacin de porcentaje de cobertura de copas, tipo de dosel y tamao de clase]. USDA FS RMRS General Technical Report RMRS-GTR-108. 10 p. Schreuder, H. T., Gregoire, T. G., and Wood, G. B. 1993. Sampling methods for multiresource forest inventory [Mtodos de muestreo para inventarios forestales de multi-recursos]. John Wiley. New York. 446 p. Schreuder, H. T., Li, H. G. and Sadooghi-Alvandi, S. M. 1990. Sunters pps without replacement sampling as an alternative to Poisson sampling [El muestreo tipo pps sin reemplazo de Sunters como una alternativas al muestreo tipo Poisson]. USDA Forest Service. RMRS Research Paper 290. 6 p. Schreuder, H. T., Lin, J. M. S, and Teply, J. 2000. Estimating the number of tree species in forest populations using current vegetation survey and forest inventory and analysis approximation plots and grid intensities [Estimacin del nmero de especies de rboles en poblaciones forestales usando las propuestas de parcelas e intensidades de mallas de inventarios actuales de la vegetacin e inventario forestal y anlisis]. USDA FS RMRS Research Note RMRS-RN-8. 7 p. Schreuder, H. T., Schreiner, D. A., and Max, T. E. 1981. Ensuring an adequate sample at each location in point sampling [Aseguramiento de una muestra adecuada para cada lugar en muestreo de por puntos ]. Forest Science 27:567-578. Schreuder, H. T., Williams, M. S. and Reich, R. 1999. Estimating the number of tree species in a forest community using survey data [Estimacin del nmero de especies de rboles en una comunidad forestal usando datos de inventario ]. Environmental Monitoring and Assessment 56:293-303. Schwarz, C. J and Seber, G. A. F.1999. Estimating animal abundance [Estimacin de la abundancia de animales]. Review III. Statistical Science 14: 427-456.
110
Shiver, B. D. and Borders, B. E. 1996. Sampling techniques for forest resource inventory. [Tcnicas de muestreo para inventarios de recursos forestales]. John Wiley. New York. 356 p. Smith, T.M.F. 1994. Sample surveys: 1975-1990; an age of reconciliation? [Inventarios por muestreo: 1975-1990; una poca de reconciliacin?]. International Statistical Review 62:5-34. Stahl, G., Ringvall, A., and Fridman, J. 2001. Assessment of coarse woody debris-a methodological overview [Evaluacin de residuos leosos gruesos]. Ecological Bulletin 49:57-70. Stuart, A. 1964. Some remarks on sampling with unequal probabilities [Algunos comentarios sobre muestreo con probabilidades desiguales]. Bulletin of the International Statistical Institute 40: 773-780. Taubes, G. 1995. Epidemiology faces its limits [Epidemiologa confronta sus limites]. Special News Report. Science 269:164-169. Thompson, W. L, White, G. C. and Gowan, C. 1998. Monitoring vertebrate populations [Monitoreo de poblaciones de vertebrados]. Academic Press. New York. 365 p. USDA Forest Service. 1998. Implementation of remote sensing for ecosystem management [Implementacin de teledeteccin para el manejo de ecosistemas]. USDA FS Engineering Staff. Remote Sensing Applications Center. Wensel, L., Levitan, J. and Barber, K. 1980. Selection of basal area factor in point sampling [Seleccin del factor de rea de basal en muestreo por puntos ]. Journal of Forestry 78:8384. Williams, M. S. and Gove, J. H. 2003. Perpendicular distance sampling: an alternative method for sampling downed coarse woody debris [Muestreo de distancias perpendiculares: un mtodo alternativo para muestreo de residuos leosos gruesos]. Canadian Journal of Forest Research 33:1-16. Williams, M. S., Schreuder, H. T. and Czaplewski, R. C. 2001. Accuracy and efficiency of area classifications based on tree tally [Precisin y eficiencia de clasificacin de rea basada en conteo de rboles]. Canadian Journal of Forest Research 31: 556-560. Wood, G.B. 1988. Generating the list of random numbers for 3P samples [Generacin de una lista de nmeros aleatorios para muestreo 3P]. Australian Forester 50:260-264. Wood, G.B. 1990. Ground sampling methods used to inventory tropical mixed/moist forest [Mtodos de muestreo de campo para inventarios de bosques tropicales mixtos y hmedos]. Forest Ecology and Management 35:199-206.
111
XIII.
Glosario
Aleatorizacin. Arreglo deliberadamente azaroso de observaciones para simular la seleccin aleatoria. rea basal por rbol. rea de la seccin transversal del tronco de un rbol, medida a la altura del dimetro normal. rea basal por sitio o parcela. El rea de la seccin transversal del tronco o fuste de todos los rboles en el sitio o parcela a la altura del dimetro normal (1.30 m arriba del suelo, referida en ingls como altura del pecho). Asintticamente insesgado. El sesgo en la estimacin se aproxima a cero, en tanto el tamao de la muestre se aproxima al tamao de la poblacin. Es lo mismo que consistencia, como lo usa Cochran (1977). Atributo. Caracterstica especfica que una unidad muestral puede tener o no y que permite su clasificacin en funcin de esa tenencia. Atura del dimetro normal o altura del pecho. Altura sobre el tronco de un rbol a 1.4 m (4 6) en Estados Unidos, Nueva Zelanda, Burma, India, Malasia, Sudfrica y algunos otros pases. A 1.3 m (4 3) en Europa continental, Gran Bretaa, Australia, Canad y Mxico. Coeficiente de correlacin. Medida del grado de asociacin lineal entre dos variable que no es influenciada por los tamaos o escalas de las variables. Consistencia. Ver Asintticamente insesgado. Covariable. Variable cuantitativa, a menudo explicatoria, en un modelo estadstico, como un modelo de regresin. Las covariables suelen ser importantes para mejorar la estimacin. Covarianza. Varianza conjunta o medida de la asociacin lineal entre mediciones apareadas de dos variables. Tiene presentes el tamao y las escalas de medicin de las variables. d o DAP. Dimetro normal o dimetro a la altura del pecho. Desviacin estndar. La raz cuadrada de la varianza definida en este glosario. Diseo de muestreo. Mtodo formalizado de seleccionar una muestra de una poblacin, por ejemplo, muestreo simple aleatorio. Estimada. Valor numrico calculado de un estimador mediante los datos de una muestra. Estimador de la media de la poblacin o poblacional. Frmula usada para estimar la media de la poblacin a partir de una muestra. Estimador de la varianza de la poblacin o poblacional. Frmula empleada para estimar la varianza de la poblacin a partir de una muestra.
112
Estimador eficiente. Estimador que predice un parmetro de manera ms confiable que otros estimadores competidores, donde la confiabilidad usualmente se mide por la razn de los errores medios cuadrados de los estimadores. Estimador. Funcin de los valores en una muestra o frmula usada para estimar un parmetro con base en una muestra. Estrategia de muestreo. Incluye a un diseo de muestreo y los estimadores usados, por ejemplo, muestreo simple aleatorio con el estimador de la media de la poblacin, digamos la media muestral. Exactitud. Ausencia de error o cercana de una medicin o una estimada al valor verdadero. En sentido amplio, es el grado en que una declaracin o un resultado cuantitativo se aproxima a la
verdad. Ntese que exactitud= precisin 2 + sesgo 2 , usando estas definiciones estadsticas. As, s el sesgo se elimina, exactitud = precisin.
Experimento. Conduccin sistemtica y controlada de una prueba o una investigacin. Inferencia estadstica. Expresin de la conexin entre el estado natural desconocido y la informacin observada en trminos probabilsticos. Inferencia. Obtencin de conclusiones con base en datos u observaciones. Marco de muestreo o muestral. Lista de todas las unidades muestrales usada para representar a una poblacin. Media. Valor promedio de los valores de una variable correspondiente a todas las unidades en una poblacin o una muestra. Mediana. Valor de una variable tal que la mitad de los valores son menores que l y la otra mitad son mayores. Moda. Valor de una variable que ocurre con mayor frecuencia en una poblacin o una muestra. Muestra. Subconjunto de una poblacin usado para obtener estimadas de uno o ms de sus parmetros. En este libro nos enfocamos en muestras probabilsticas. Por ejemplo, una muestra pueden ser los dimetros normales de todos los rboles en una muestra de parcelas, o la cantidad de tiempo dedicada a das de campo por los usuarios de un rea de recreacin en determinados das. Muestreo con probabilidad desigual. Diseos de muestreo en los que las unidades se seleccionan con diferentes probabilidades. Se necesita conocer esas probabilidades para hacer una estimacin insesgada. Muestreo de un solo nivel. Un diseo de muestreo en el que las unidades se seleccionan directamente del marco muestral de la poblacin.
113
Muestreo doble. Muestreo en dos niveles, donde el primero provee informacin sobre covariables y el segundo sobre las variables de inters para estimar parmetros. Muestreo estadstico. Involucra el diseo y la ejecucin de inventarios por muestreo o escrutinio para proveer estimadas de las caractersticas de una poblacin finita bien definida. Muestreo multi nivel. Diseo de muestreo en el que se usan ms de una fase o etapa. Los primeros niveles se emplean para colectar informacin sobre covariables tiles para una estimacin ms eficiente de los parmetros finales de inters, para los cuales la informacin, usualmente, se obtiene en las ltimas fases o etapas. Muestreo ppt. Diseo de muestreo en el que las unidades muestrales se seleccionan con una probabilidad proporcional a una medicin de tamao, usualmente una covariable como el dimetro normal o el rea basal en el caso de la estimacin del volumen de los rboles. Muestreo probabilstico. Procedimiento en el que las muestras se seleccionan de tal manera que todas las unidades y cada par de ellas tienen una probabilidad positiva de seleccin. Muestreos. El diseo y la ejecucin de inventarios por muestreo para estimar las caractersticas (parmetros ) de poblaciones finitas bien definidas. Parmetro. Funcin de los valores de las unidades en una poblacin, son las caractersticas de inters como volumen promedio por hectrea o volumen total de los rboles en un predio. Poblacin. Un agregado de cosas, usualmente cada una con alguna caracterstica comn a todas o un conjunto comn de caractersticas. En el sentido estadstico, una poblacin es un ensamble de unidades individuales para describir a una poblacin cuantitativamente. Por ejemplo, todos los rboles en algn bosque o un rodal, en particular, o todos los usuarios de un rea de recreacin. Precisin. Ausencia relativa de variacin aleatoria. En muestreo se expresa como el error estndar de la estimada y se relaciona con el grado de agrupamiento de los valores de una muestra alrededor de su propia media o a la reproducibilidad de una estimada en muestreos repetidos. Tambin se usa para indicar el poder de resolucin de un instrumento de medicin. Sesgo. Error sistemtico introducido en muestreo, mediciones o estimacin, por elegir o favorecer un resultado sobre otros, a veces sin tener la intencin deliberada. Sistema de posicionamiento global (SPG o GPS, por sus siglas en ingls). Sistema que usa informacin de satlites para ayudar a identificar la localizacin de puntos en la tierra. Unidad de muestreo o muestral. Unidad de una poblacin, como un rbol individual o todos los rboles dentro de una parcela o sitio de muestreo (por ejemplo, unidades de rea fija, o en franjas, o por puntos ). Unidad. Unidad de muestreo bsica empleada o aqulla usada en la ltima etapa de muestreo multi etapas.
114
Variable continua. Variable expresada en una escala numrica de medicin, en la que cualquier intervalo puede ser dividido en un nmero infinito de valores. Variable discreta. Variable cualitativa o aqulla representada por nmeros enteros o razones de valores enteros. Variable. Caracterstica que vara de una unidad a otra; por ejemplo, la edad de los rboles, su altura o su dimetro. Varianza. Promedio de las desviaciones al cuadrado entre los valores de una variable y la media o promedio de todos esos valores, en el caso de una poblacin, o entre los valores de la variable y la media muestral, en una muestra. En el primer caso, es un parmetro de la poblacin; en el segundo, es una estadstica muestral. Apendice 1. Inferencias
La lgica inductiva implica la obtencin de conclusiones, a partir de datos observados, acerca de parmetro no observados o leyes subyacentes; es uno de los asuntos ms debatidos en filosofa (Gregoire, 1998; Schreuder y Gregoire, 2001). La inferencia, la obtencin de conclusiones con base en datos u observaciones, no est limitada al angosto campo de la inferencia cientfica y estadstica. En el mundo actual, tan controversial, la inferencia estadstica es muy importante y su entendimiento apropiado es crucial para discutir el papel del muestreo en el proceso de las inferencias. La inferencia cientfica se convierte en inferencia estadstica cuando la conexin entre el desconocido estado de la naturaleza y la informacin observada se expresa en trminos probabilsticos (Dawid, 1983). La inferencia estadstica comprende el campo completo de la estadstica, su enfoque es lo lgicamente implicado por la informacin disponible (Fraser, 1983). Cramer (1946) resume el papel de la inferencia estadstica en tres funciones: descripcin, anlisis y prediccin. La descripcin es la reduccin de los conjuntos de datos en un grupo de nmeros tan pequeo como sea posible, como la media, la varianza, la asimetra de una distribucin, etc. Esto nos permite describir una poblacin tan concisa y brevemente como sea posible y puede permitir la comparacin entre poblaciones. El anlisis es el resumen de lo datos para un propsito u objetivo particular; por ejemplo, cules son las estimadas de ciertas caractersticas de la poblacin?, cierta muestra proviene de una poblacin dada?, dadas dos muestras, provienen de la misma poblacin o no? La estadstica proporciona mtodos sobre como hacer tales anlisis. Los mtodos estadsticos se usan para predecir y explicar fenmenos, lo que con frecuencia es una tarea desafiante. Idealmente, la inferencia estadstica siempre se debera basar en el teorema de Bayes, el cual combina informacin previa con informacin de los muestreos o experimentos y sera aceptable para muchos estadsticos si la informacin previa fuera objetiva. El problema es que, por lo general, esa informacin previa es subjetiva, en el sentido de que la informacin disponible vara de persona a persona. La informacin previa objetiva indica que la gente normalmente estara de acuerdo con ella. Como ejemplo de informacin subjetiva, un industrial forestal creera que hay suficiente arbolado maduro distribuido de manera adecuada en el bosque como hbitat de especies amenazadas, por otro lado, un ambientalista podra creer, tan convencido como el primero, que el arbolado maduro en el bosque es insuficiente y mal distribuido. A la gente
115
dispuesta a aceptar informacin previa subjetiva se le conoce como Bayesiana y se apoyan en el teorema de Bayes para la inferencia. La mayora de los no Bayesianos o frecuentistas, usa procedimientos clsicos de inferencia apoyndose slo en datos objetivos, a menudo, basados en suposiciones de normalidad y teora de muestras grandes fundadas en el teorema del lmite central y otras propiedades estadsticas relacionadas. Creemos que los procedimientos Bayesianos deberan usarse cuando se requieren decisiones inmediatas, lgicamente defendibles, y los procedimientos clsicos para construir un cuerpo de conocimiento cientfico. Un administrador forestal que tiene que tomar decisiones acerca de cortar o no arbolado maduro y dnde hacerlo para propsitos de manejo, podra elegir el uso de toda su informacin para construir una distribucin previa (subjetiva) y combinarla con datos reales de una muestra, a fin de usar el teorema de Bayes para tomar tales decisiones. stas pueden defenderse, al menos, con base en una propuesta sistemtica. Las bases de datos cientficas se pueden usar por diferentes usuarios, aplicando diferente informacin previa para tomar sus decisiones. La inferencia estadstica de escrutinios por muestreo puede basarse en modelos o en diseos. En muestreo basado en modelos, la inferencia se apoya en un modelo estadstico para describir como la estructura de probabilidad de datos observados depende de variables aleatorias incontrolables y, con frecuencia, en otras variables desconocidas indeseables. Estos modelos se pueden basar en el entendimiento terico del proceso por el cual se generaron los datos, tcnicas experimentales usadas, o experiencia con procesos similares. En el muestreo basado en diseos, la inferencia se apoya en el muestreo probabilstico. Esta es la proposicin ms ampliamente aceptada en la actualidad. Lo que sigue es un breve resumen de ambas propuestas. En el muestreo no probabilstico o basado en modelos la inferencia se hace especificando y haciendo subyacer un modelo, , de una superpoblacin para los valores de la variable que en la poblacin real se muestrean. Los valores reales se consideran como variables aleatorias de esta superpoblacin. Entonces, se supone que la poblacin real, o una muestra de ella, es una muestra de la cantidad de inters Y, la de esta superpoblacin de inters. Usando como estimador Y distribucin de Y-Y se puede derivar para la muestra especfica y el cuadrado medio del error basado en el modelo de Y-Y se puede obtener y estimar, conduciendo a la prediccin de un intervalo para Y con base en el modelo. La inferencia se extiende a parmetros del modelo de la superpoblacin, as que el espacio de inferencia es ms amplio que el de la inferencia basada en el diseo. Las unidades muestrales no tienen que escogerse al azar o con probabilidad conocida, en tanto que no se elijan con base en sus valores de inters yi, i=1,, N. Las conclusiones e inferencias descansan fuertemente en el modelo supuesto, lo cual puede ser una penalidad seria si el modelo no se especifica de manera correcta, pero, si el modelo est bien especificado se puede esperar un incremento en precisin, con respecto a la propuesta basada en diseos. Nuestra experiencia es que pocos modelos son confiables. La declaracin de Box y Draper (1987), ya referida antes, de que todos los modelos estn mal, la pregunta prctica es que tan mal deben estar para que no sean tiles, merece consideracin. Aun as, los modelos son tiles para construir un cuerpo de conocimiento en cada materia y se tiene que confiar en ellos cuando se necesita una decisin rpida. La propuesta Bayesiana de inferir con informacin subjetiva previa se acomoda bien en la propuesta de inferencia basada en modelos, aunque muchos adeptos al muestreo basado en modelos no se consideren as mismos como Bayesianos. Como lo notan Koch y Gillings (1983), la inferencia basada en modelos incluye a la inferencia
116
Bayesiana y la de superpoblacin, ya que la validez de la generalidad aludida depende del modelo, esto es, es sensible a la especificacin inapropiada del modelo. La propuesta de inferencia basada en diseo se apoya fuertemente en el muestreo probabilstico, en el que cada unidad muestral de la poblacin tiene una probabilidad positiva de ser elegida y la probabilidad de cada muestra se puede calcular. El comportamiento estadstico de los estimadores de un atributo de la poblacin se basa en estas probabilidades y la distribucin ponderada por probabilidad de todas las estimadas muestrales posibles. La distribucin de la variable, probabilstica o de otra manera, no se considera aqu. Una debilidad obvia de esta propuesta es que las muestras que no se obtuvieron se consideran para evaluar las propiedades del procedimiento de inferencia, an as, la inferencia acerca de un parmetro de la poblacin no debera basarse slo en la muestra real obtenida? Sin embargo, la propuesta es objetiva y la nica suposicin que se hace es que las unidades observadas se seleccionan al azar, as que la validez de la inferencia slo requiere que la poblacin objetivo y la muestreada sean la misma. La atencin cuidadosa en la seleccin de la muestra, en el marco del muestreo probabilstico, eliminar algunas muestras indeseables y a otras les dar poca probabilidad de seleccin. La idea completa, detrs del muestreo probabilstico, es hacer que la muestra sea representativa de la poblacin. Pero como se ilustra muy bien en Kruskal y Mosteller (1979), el trmino representativo est sujeto a interpretaciones diversas. Smith (1994, p.17), antes un convencido de la inferencia basada en modelos, establece: mi visin es que no hay un mtodo correcto nico de hacer inferencia. Todas las inferencias son producto de la imaginacin del hombre y no puede haber un mtodo de razonamiento inductivo absolutamente correcto. Diferentes tipos de inferencia son relevantes para problemas diferentes y, con frecuencia, la propuesta recomendada refleja el entorno del estadstico como ciencia, industria, ciencias sociales o gobierno Ahora encuentro aceptable el caso de la inferencia basada en la aleatorizacin para una distribucin incondicional La reconciliacin completa no es posible ni deseable. Vive la diffrence. Una diferencia crucial entre las propuestas basadas en diseo y en modelo, es que para la primera la inferencia se hace acerca de la poblacin muestreada, usualmente grande pero finita, mientras que el muestreo basado en modelos hace inferencias acerca de superpoblaciones por el uso obligado de modelos. Entonces, la inferencia es acerca de la poblacin real que se representa, en algn sentido, por la poblacin existente, suponiendo que los modelos usados subyacen en la poblacin real. Deming (1975) recomienda que se haga la distincin entre inventarios contables o numerables (o descriptivos) y analticos (o comparativos). En inventarios numerables, el inters es una poblacin finita, identificable y que no cambia, de la cual se obtienen las muestras. La accin se realiza sobre la poblacin de unidades estudiada (como todos los bosques en el estado de Montana) en el momento del muestreo para decidir cuanta madera se puede cosechar. Este es el tipo de inventario conducido por el programa FIA del servicio forestal de Estados Unidos. Aqu lo indicado es la inferencia basada en diseo. En contraste, los muestreos analticos se enfocan en poblaciones donde la accin se realiza en el sistema del proceso o la causa, el propsito es mejorar las condiciones en el futuro. Para los bosques de Montana todava hablamos de los mismos bosques, pero ya existen condiciones diferentes cuando aplicamos tratamientos para mejorar esas condiciones. Por ejemplo, las agencias de administracin de tierras como el Sistema Nacional de Bosques (NFS, por sus siglas en ingls) del servicio forestal de Estados Unidos,
117
pueden estar interesadas en colectar informacin para manejar especies de fauna raras y amenazadas, para crear o modificar condiciones de vegetacin existentes e incrementar el nmero de tales animales en el bosque. Aunque todava desearamos obtener una muestra basada en diseo de la poblacin existente, claramente la inferencia es para las poblaciones en el futuro, as que se basa en un modelo, en el sentido de que estamos extrapolando informacin de las poblaciones existentes a las del futuro. Esto se clarifica por lo que sigue. Deming (1975) sugiere que los inventarios numerables con muestreo de 100% de la poblacin proporcionan una respuesta completa a las preguntas planteadas, mientras que en los muestreos analticos, la respuesta no es concluyente. Hahn y Meeker (1993) amplan la distincin, al sealar que los estudios analticos requieren la suposicin, que usualmente no se puede verificar, de que el proceso acerca del que se quiere hacer la inferencia es estadsticamente idntico a aqul del que se seleccion la muestra. La Figura A-1, tomada de Hahn y Meeker (1993), ilustra las diferencias entre los inventarios analticos y numerativos. Un problema con esta distincin es que, a menudo, los muestreos conducidos por agencias administradoras de tierras tienen inters en ambos tipos de inferencia. Por ejemplo, un propsito puede ser determinar cuanta madera se puede cosechar y de donde, o que reas requieren control de malezas o de erosin (lo que demanda muestreo numerativo) y otro propsito puede ser evaluar lo que se necesita hacer para mejorar el hbitat para fauna o disminuir la presencia de hierbas indeseables (requiriendo muestreos analticos)
Inventario enumerativo Objetivos Inventario analtico
Defina el marco de muestreo
Defina la poblacin o proceso para el que se desea hacer la inferencia
Determine el proceso de evaluacin
Tipo de inventario necesario (1)
Defina el procedimiento de muestreo
El marco de muestreo es idntico a la poblacin objetivo?
no Determine la relevancia del Proceso muestreado Evale la relevancia del marco (2)
si
Defina el procedimiento de muestreo Seleccione la muestra deseada Elegir MSA (3) Otro muestreo probabilstico (4) Seleccionar muestra no aleatoria
Figura A.1. Comparacin de muestreos numerativos y analticos. Reproducido con permiso de The American Statistician. Copyright 1993 por la American Statistical Association. Todos los derechos reservados. Los nmeros se refieren a los siguientes comentarios.
118
(1) El propsito del estudio es obtener conclusiones acerca de una numeracin finita existente, (estudio numerativo), o es actuar sobre y predecir el comportamiento de un proceso frecuentemente en el futuro (estudio analtico)? (2) Los intervalos estadsticos se aplican al marco del cual la muestra se obtuvo. Cuando el marco no corresponde a la poblacin objetivo, las inferencias acerca de esa poblacin podran ser sesgadas, y un intervalo estadstico solamente provee un lmite inferior sobre la incertidumbre total. (3) La mayora de los intervalos estadsticos suponen una muestra simple aleatoria del marco. (4) Los intervalos estadsticos aplicables son ms complejos que los del muestreo simple aleatorio (ver Cochran, 1977). (5) Los intervalos estadsticos no son aplicables. Si se calculan, por lo general, proporcionan slo un lmite inferior en la incertidumbre total. (6) Los intervalos estadsticos se aplican a los procesos muestreados, pero no necesariamente a los procesos de inters. Por lo tanto, cualquier intervalo estadstico, por lo general, proporciona un lmite inferior en la incertidumbre total, con respecto a los procesos de inters.
Apndice 2. Distribuciones
Las poblaciones son discretas o finitas (N < ), pero a menudo se asumen como infinitamente grandes (N < ). porque las distribuciones continuas, con mayor probabilidad, se aproximan a la poblacin real. Las poblaciones infinitas tienen propiedades que son cruciales para la inferencia estadstica. En lo que sigue se presentan algunas de las distribuciones ms importantes y tambin algunos resultados clave de la teora estadstica basada en distribuciones continuas. Lo que se presenta es un condensado del material discutido en Schreuder et al. (1993). Las funciones se caracterizan por sus funciones generadoras de momentos (fgm).
Definicin. Si Y es una variable aleatoria con densidad de probabilidad f(y), entonces, al valor esperado, E, de ety se le llama fgm de Y si existe para cada valor de t en algn intervalo h2 < t < h2. Esto se denota por:
m(t ) = E (ety ) = ety f ( y )dy para distribuciones discretas, donde f(y) es la funcin de masa de
y
probabilidad, y por:
m(t ) = E (e ) =
ty
ty
f ( y )dy para distribuciones continuas, donde f(y) es la funcin de
distribucin de probabilidad (Mood et al., 1974). Con frecuencia, se usa el logaritmo de la fgm, llamada funcin generadora de cumulantes. Los momentos de esta funcin se llaman cumulantes. La funcin m(t) genera los momentos de las distribuciones. Por ejemplo, en muestreo, a menudo estamos interesados en estimar los dos primeros momentos de la distribucin normal. El primer momento es la media y se obtiene de la fgm, diferenciando con respecto a t una vez y haciendo
119
t=0. Similarmente, el segundo momento, la varianza, se obtiene diferenciando la fgm, con respecto a t dos veces, haciendo t = 0 y restando el primer momento cuadrado a t = 0.
A. Distribuciones Continuas
Las distribuciones continuas, normal, gama y multivariada, son importantes en estadstica experimental.
1. Distribucin Normal
La distribucin acumulativa, usualmente llamada simplemente distribucin, se define por:

F ( y ) = P{Y y} =
(1/
2 exp[1/ 2{( y ) / } ]dy =

2
f ( y; , )dy
donde y 2, llamados la media y la varianza, son los parmetros de la distribucin, > 0 y - < < . La fgm de la distribucin normal es:
m(t ) = exp(t + t 2 2 / 2)
con media m '(0) = 1' = y varianza m ''(0) [m '(0)]2 = 2 = 2 , as que, de hecho, la media y la varianza son los dos parmetros de la distribucin. Aunque existen numerosas situaciones donde la normal se aproxima a la distribucin de las unidades en una poblacin, como la altura de los rboles en una plantacin grande, comnmente se usa como una aproximacin conveniente de otras distribuciones. La normal es importante en teora de probabilidad porque es la distribucin limitante de casi cualquier suma (o media) estandarizada de variables aleatorias, en tanto el nmero de variables se incrementa. ) , , es un estimador insesgado de un parmetro , con varianza estimada v( Si un estadstico,
) / v( ) y tiene una distribucin aproximadamente normal, entonces el estadstico t = ( de Student con distribucin de densidad sigue la distribucin t 2 ( v +1) / 2 f (t ) = {(v + 1) / 2)}(1/ v )(1 + t / v) / (v / 2) , donde es el nmero de grados de libertad
en que se basa la estimacin del error estndar, y (v / 2) = t v / 21e t dt . La distribucin t es

0
fundamental para construir intervalos de confianza y las tablas para esta distribucin son ampliamente disponibles (ver la Tabla 2 del Apndice).
2. Distribucin Gama
Esta distribucin aparece naturalmente como la distribucin de la suma de los cuadrados de variables aleatorias independientes, estndar y que tengan la distribucin normal, Z1, Z2, Zn.
120
Entonces,
Z
i =1
2 i
tiene una distribucin 2 con parmetro n, donde 2 es un caso especial de la
distribucin gama y n es el nmero de grados de libertad. La distribucin gama, a menudo, se emplea en muestreo para viabilizar la comparacin de estrategias de muestreo. La distribucin es:
F ( y ) = P[Y y ] = y 1 exp( y / ) /{ ( 1)}dy = f ( y )dy
0 0 y y y
con parmetros y > 0, y > 0, y ( 1) = t ( 2) e t dt .

0
La fgm de la distribucin gama es:

m(t ) = (1 t )
con media = y varianza 2 = 2 .

3. Distribuciones Multivariadas
La distribucin multivariada normal se ha estudiado ms extensamente que otras distribuciones multivariadas y se usa con mayor frecuencia en inferencia entre distribuciones continuas multivariadas, en comparacin con lo que se usa la normal entre las distribuciones continuas univariadas. La normal bivariada se define como:
2 F ( x, y ) = P ( X x, Y y ) = (2 x y 1 2 ) 1 exp{[1/{2(1 2 )}]{( x x ) 2 / x 2 {( x x ) / x } 2 {( y y ) / y + ( y y ) 2 / y }]
con
< x < , < y < ,
donde
2 x = E ( X ), u y = E (Y ), x2 = V ( X ), y = V (Y )
2 = E ( X x )(Y y ) /( x2 y ) = xy /( x y ), (1 < < 1) se le llama la correlacin entre X y Y.
B. Distribuciones Discretas
Las distribuciones binomial, hipergeomtrica, Poisson y multinomial, son ejemplos importantes de distribuciones discretas.
1. Distribucin Binomial
Si se realizan n ensayos independientes (como decidir si una carga de trozas debe muestrearse o no) y cada ensayo tiene la probabilidad p de que ocurra el resultado i, entonces el nmero de veces en que ocurre i puede representarse como una variable aleatoria Y, siguiendo la distribucin binomial con parmetros n y p. Esta distribucin se define como una variable aleatoria Y (el nmero de ocurrencia de i) para la cual:
121
P[Y = y ] = [n !/( y !(n y )!] p y (1 p ) n y (y = 0, 1, 2,, n).
La fgm de la distribucin binomial es:

m(t ) = (1 p + pet ) n
De la fgm, la media y la varianza se derivan como:

' ' = np, 2 = 2 ( 1' ) 2 = p (1 p ) donde 2 = np + n(n 1) p 2
Existen muchas aproximaciones a la distribucin binomial. A menudo, tales aproximaciones implican distribuciones limitantes que surgen cuando uno o ambos parmetros convergen a un valor especfico. Algunas distribuciones limitantes son la Poisson (discreta ), que se discute despus (n , p 0) con np = una constante , y la normal, que es un caso especial de la variable binomial estandarizada (Y np ) / np (1 p ) como n .
2. Distribucin Hipergeomtrica
La situacin forestal clsica en que esta distribucin surge, es como sigue. Suponga que hay una poblacin de N rboles, M de los cuales estn muertos, y N M estn vivos. Si se seleccionan sin reemplazo al azar n, entonces la probabilidad de sacar y rboles muertos es:
P[Y = y ] = {M !/[ y !( M y )!]}{( N M )!/[( N M n + y )!(n y )!]}/[ N !/{n !( N n)!}]
Para max(0, n N + M ) y min(n, M ) con parmetros M, N y n, y n! = n(n-1)(n-2)1 y 0! = 1.

La fgm de la distribucin hipergeomtrica es: m(t ) = [( N n)!( N M )!/ N !]H (n, M ; N M n + 1; et )
donde H ( , ; ; z ) = 1 + ( / )( z /1!) + [ ( + 1) ( + 1) /{ ( + 1)}z 2 / 2!+ ... es una funcin hipergeomtrica convergente para valores absolutos de z < 1. La media es = nM / N y la varianza 2 = [( N n) /( N 1)]n( M / N )(1 M / N ) . Existen varias aproximaciones a la distribucin hipergeomtrica, una simple es la distribucin binomial P[Y = y ] = [n !/( y !(n y )!]M / N ) y (1 M / N ) n y , que usualmente es adecuada cuando n < 0.1N. Se pueden construir intervalos de confianza como se describi para la distribucin binomial asumiendo la distribucin binomial o la normal como aproximaciones a la distribucin hipergeomtrica.
122
3. Distribucin Poisson
Si el tiempo de vida futuro de un artculo de equipamiento, digamos una motosierra, es independiente de su edad presente, entonces el tiempo de vida se puede representar por una variable aleatoria Y, con distribucin P[Y = y ] = e y / y !, y = 0,1, 2,...; > 0 , donde t es el nico parmetro (= np en la distribucin binomial con n como p 0). Una aplicacin de esta distribucin, ampliamente citada, tiene que ver con el nmero de soldados muertos por patadas de mula en un ejrcito, a mediados del siglo diecinueve. Una situacin anloga podra ser el nmero de troceros muertos por un rbol al caer en un bosque. La probabilidad de muerte de los soldados por esa causa era pequea y el nmero de ellos expuestos era grande. Es dudoso que las condiciones de independencia y probabilidad constante (p) fueran satisfechas, pero los datos disponibles se ajustaron satisfactoriamente por esta distribucin. La fgm es m(t ) = exp[ (et 1)] , con media = y varianza 2 = .
4. Distribucin Multinomial
A menudo, las distribuciones discretas multivariadas estn cercanamente relacionadas con las univariadas. Por ejemplo, la distribucin marginal de variables individuales, por lo general, es una distribucin simple binomial, Poisson, o hipergeomtrica, o bien, una derivada de ellas obtenida al modificar o conjuntar una de las distribuciones univariadas. Por ejemplo, la distribucin conjunta de las variables aleatorias n1 , n2 ,..., nk que representa el nmero de ocurrencias de los eventos O1 , O2 ,..., Ok en n ensayos es la distribucin multinomial:
P (n1 , n2 ,..., nk ) = n ! kj =1 ( p j j / n j !)
n
con 0 n j para toda j = 1, 2, k, y
n
j =1
= n . Esta distribucin es una extensin natural de la
distribucin binomial, la que es un caso especial si k = 2. La distribucin conjunta de cualquier subconjunto s < k tambin es una multinomial; de ah el subconjunto importante con dos clases, Clase 1 y todas las otras clases, tambin es una binomial. La fgm de la multinomial es m(t1 ,..., tk ) = ( p1et1 + ... + pk etk ) n , donde los momentos de las
ni (i = 1,..., k ) simplemente son: 1' (t ) = pi , i = 1,..., k y 2 (ti ) = pi (1 pi ) .
Ntese que la covarianza de ni y n j y su coeficiente de correlacin son, respectivamente:

Cov(ni , n j ) = npi p j y Cor (ni , n j ) = pi p j /{(1 pi )(1 p j )
Los intervalos de confianza para cualquier pi ni pi se pueden construir tratando la multinomial como una binomial con probabilidades p de elegir la clase i y (1-p) para todas las otras clases. As, es apropiada la discusin para construir intervalos de confianza para la binomial.
123
5. Distribucin Multivariada Hipergeomtrica
Una generalizacin de la distribucin hipergeomtrica es la hipergeomtrica multivariada, que se define como sigue. Si hay una poblacin de N unidades, Ni de las cuales son del tipo i (i = 1, 2
k), de modo que
N
i =1
= N y se toma una muestra de tamao n, sin reemplazo, de entre las N
unidades, entonces:
P (n1 , n2 ,..., nk ) = ik=1{N i !/[( N i ni )!ni !]}/[ N !/{( N n)!n !}]
es la distribucin hipergeomtrica multivariada, con:
n
i =1
= n;0 ni N i , i = 1,..., k
Los momentos de la hipergeomtrica multivariada son anlogos a los de la hipergeomtrica, y la correlacin ni y n j es:
Corr (ni , n j ) = N i N j /{( N N i )( N N j )}
6. Leyes de los Grandes Nmeros
En inferencia inductiva determinamos algo acerca de una poblacin de inters, digamos su media, examinando una muestra de la poblacin. Los teoremas siguientes, suponiendo un muestreo aleatorio, son crticos para la inferencia en muestreo. Un nmero finito de valores de Y se pueden usar para hacer inferencias confiables acerca de E(Y), el promedio de un nmero infinito (o finito, pero muy grande) de valores de Y ( o sea,
y /N
i =1 i
el promedio para la poblacin completa).
Para muestreo simple aleatorio, los tres siguientes teoremas son aplicables.
a) Teorema 1 (Desigualdad de Tchebysheff)
Para una distribucin F(y), con media y varianza finita 2, y si y es la media de una muestra aleatoria de tamao n de esa distribucin y es cualquier nmero positivo, entonces:
P[ / n y / n ] 1 1/ 2
b) Teorema 2 (Ley Dbil de los Grandes Nmeros)
Sean F(y) una distribucin con media y varianza finita 2, y y dos nmeros pequeos especficos, donde > 0 y 0 < < 1. Si n es un entero ms grande que 2 /( 2 ) y yn es la media de una muestra aleatoria de tamao n de F(y), entonces:
P[ < yn < ] 1
124
Este teorema establece que para dos nmeros pequeos cualesquiera, y , que satisfagan las desigualdades sealadas, existe un entero, n, tal que para una muestra aleatoria de tamao n o ms grande, tomada de la poblacin de valores y de F(y) la probabilidad de que la media de los valores y, yn , sea arbitrariamente cercana a la media de la poblacin se puede hacer tan cercana a 1 como se desee. La ley dbil de los grandes nmeros es un ejemplo de convergencia en probabilidad. El teorema siguiente ejemplifica la idea de convergencia en distribucin. Esto subyace en el amplio uso de la distribucin t para construir intervalos de confianza alrededor de las estimadas de los parmetros de inters y resalta la importancia crtica de la distribucin normal.
c) Teorema 4 (Teorema del Lmite Central)
Sean F(y) una distribucin con media y varianza finita 2, y yn la media de una muestra aleatoria de tamao n de F(y). S zn = ( yn ) n / , entonces la distribucin de zn se aproxima a la distribucin normal estndar, en tanto n incrementa sin lmite. Este teorema establece que la media yn de una muestra aleatoria de cualquier distribucin con media y varianza finita 2 se distribuye aproximadamente como una variable normal con media y varianza finita 2 / n . Ya que tratamos con poblaciones de tamao N considerablemente menor que infinito, n no puede incrementar sin lmite, as que la aplicabilidad de este teorema a poblaciones finitas es discutible. En muchos casos, cuando n no es demasiado pequea y la distribucin de y no es muy lejana de la simetra, la distribucin de zn ser aproximadamente normal por inferencia.
Apndice 3. Tablas
Con frecuencia, los valores tabulados se usan en anlisis de datos y pruebas de hiptesis. Algunas de las tablas ms comunes (incluidas aqu) son: tabla de nmeros aleatorios, distribucin t de Student, intervalos de confianza para (95%) para la distribucin binomial, transformacin arcoseno y niveles de significancia de dos colas para el coeficiente de correlacin r. Las tablas que aqu se presentan se generaron usando el paquete R de distribucin libre. El cdigo usado para crear estas tablas se puede bajar del sitio de Internet http://www.r-project.org/ y se puede modificar y usar para tener tablas ms detalladas para satisfacer necesidades especficas.
125
Tabla A 1. Nmeros aleatorios.

55862 97923 17929 88428 94726 33594 38484 23393 33066 12453 42973 43397 75824 24270 32155 49128 47881 93028 26557 95069 51473 98957 87592 84100 69462 93608 37241 06855 33864 45167 10376 76057 48157 19216 79799 66450 49643 64688 83199 48957 31520 79921 61925 72272 10468 62553 35447 19103 30337 47692 60028 18397 55580 02973 96394 42163 82742 92829 15870 12644 07534 23611 90235 55651 68603 21969 12394 21485 64989 69229 80805 01776 16277 24705 75353 51581 76107 01654 23633 76848 26051 59061 87580 94944 25680 44121 52256 86497 96114 90234 55566 86171 85835 53992 31050 95380 27155 62493 92962 26117 91162 07083 87423 84905 27173 38862 97349 57421 92911 66071 05961 66887 50165 70371 79326 31791 75834 22449 92738 46441 43166 41706 80114 64552 55513 80948 05023 72357 45729 60638 05958 99632 63412 24907 78339 57958 83727 11718 63855 73325 34231 76108 14394 81817 11951 01880 42159 37452 73239 93398 85487 03166 60462 84056 26980 50095 79329 56030 65568 23306 91822 40420 73609 14985 66834 65133 98023 22769 33404 78814 72797 02004 45577 98131 61777 13244 55846 44801 94221 68478 26032 38049 14967 23361 17785 31070 10502 30387 84683 66531 32805 29949 50871 12916 79915 33595 24651 61498 56598 57816 20079 20100 59407 75368 97538 17487 27487 44354 12030 57484 87805 85851 78919 14037 40810 87914 14238 51741 34823 06683 55594 88199 71564 88260 33936 90477 98129 44527 05364 19660 70926 16427 96049 53250 56191 07780 33228 81471 77294 99814 50095 43793 34031 52008 18578 87211 11036 01268 64538 63784 83140 91873 02847 55777 03304 73955 19675 99024 20615 94167 27406 70848 59579 62393 58086 94509 28407 73796 16386 08060 58313 23230 44776 93647 73288 64002 99577 39412 21029 37288 12253 32878 65071 20996 43378 22565 77280 69358 70078 84011 11283 76096 63297 17139 80143 01350 68729 86549 07889 26129 92328 01053 58994 44107 56921 08492 51409 81048 47014 97846 55693 96851 44524 11783 42403 68943 68837 77954 47933 12097 66610 46862 20956 92447 41643 97790 04714 94943 14214 36493 24339 35052 47452 33125 86551 05845 54647 86787 27467 49570 63437 47031 14653 24086 60940 94782 25001 05779 16337 39655 75732 22487 25050 33478 81531 09220 06121 03412 10701 15446 03082 88053 21285 66017 08679 75250 53505 63441 63335 06202 15308 30452 79028 11779 44854 51510 14525 59185 25117 84647 10527 64613 27659 90405 56210 96733 06660 89068 55558 93967 29449 05651 72731 45478 04323 79018 66550 74811 49040 71076 99974 84297 91622 52961 46436 22790 58232 92339 28657 07339 88774 45201 96637 16198 10046 53812 69719 06115 79080 61721 14649 36627 87581 70527 50286 10052 61717 51827 19902 60814 32828 42041 64928 31429 59454 33271 41882 05747 60777 92174 19936 65043 60901 25374 20327 07533 65944 90167 88682 03351 75759 26207 95150 25592 30293 01190 75438 08951 70364 22159 65647 19124 15385 10791 78249 09729 16543 36601 61179 74309 20670 70343 18809 81665 81280 97117 24131 21751 66955 50908 17867 35050 92431 22476 06007 89295 46890 42642 31646 74640
Tabla A 1. Nmeros aleatorios (continuacin)

12368 33570 52449 73618 50313 03759 43816 80437 14066 31114 37150 88254 30644 42175 70672 11496 09467 07966 48327 11873 93911 10300 15956 28226 33804 52998 87381 42383 42374 48718 77900 95538 64412 68731 69796 41981 69089 76849 32218 83532 07710 98565 55242 34494 09370 61478 03858 95261 25867 08240 44900 40765 70402 83981 97272 56898 55216 64131 36283 96875 126 63036 37423 27976 68435 36512 16524 48997 56586 96019 44598 09541 39175 08474 13824 37197 99470 44554 93570 91864 90183 87084 74793 54064 22642 79443 81524 16474 30307 89841 58624 70367 16095 17177 85836 68344 78416 62920 65755 50048 51209
Tcnicas Estadsticas para Muestreo y Monitoreo de Recursos Naturales 87913 99132 97629 08978 26668 54846 72087 65497 95803 40865 04433 02057 05041 43891 10374 32879 86673 29063 54587 48607 16094 63697 13117 77399 76618 32875 27458 58754 80475 83370 58667 72694 54230 93447 73087 90745 65291 87733 51120 12974 12779 07045 12065 31824 72131 13492 41553 63890 79878 73813 42512 29545 08958 35418 14181 41917 79602 82907 82178 40236 87689 97671 17999 55809 52580 27999 25165 54831 72564 59074 87361 32519 94654 03232 01796 46442 38867 78320 37580 84671 05910 27311 90226 93418 60163 78267 49538 88909 49539 10520 71494 47260 35821 81921 76418 24985 24948 49067 67765 45025 85404 11871 02064 81953 88704 05822 79590 79676 40982 55632 95621 36193 54144 53848 69368 87049 16168 06363 73014 60372 75765 82732 21722 53779 08473 55879 03037 04136 84887 35081 11005 87266 19632 07371 22160 43272 29895 25856 60820 73961 54215 66748 98132 35310 97997 52420 09809 15016 05502 14291 06415 92668 46322 10160 76727 30694 02472 64092 80949 50550 32473 89097 72030 01344 98807 37561 29385 92041 44762 83911 99740 75748 27061 58445 65764 54557 43076 21869 86498 08714 66363 10231 30574 61211 48094 58143 31357 20640 94053 90404 01684 58533 30545 08986 57730 91635 91077 51265 55380 62878 23378 83102 89408 61112 32040 84334 73214 79623 89849 29368 17358 97436 94319 52087 89434 91799 91189 34316 01045 46629 92253 61262 28407 95912 32425 23033 55029 59400 47579 10365 32841 19623 69342 48770 50128 78138 81324 07709 20130 39620 76653 95816 66290 43351 91125 15520 71407 50471 21296 68399 13949 79433 29133 02478 53429 79864 98243 97243 21812 71527 96251 82848 38162 71873 89247 62083 92444 40358 50199 56527 60327 93419 02560 67019 18343 96736 79983 80402 43411 78615 56090 32971 01401 59967 39652 66991 25040 75478 47693 64812 91036 77645 98950 23521 72131 04310 73372 52226 52332 98938 20064 41806 73409 31243 58663 74995 99140 40069 52536 33963 83490 50400 72246 37877 16555 64267 52654 91235 89686 54098 59145 28236 27592 81341 32447 19391 20928 86340 86113 79254 91567 49158 54521 26714 99344 97000 07814 31074 31903 76120 06714 55337 78913 48597 18387 25027 37696 17050 62889 21476 15282 30383 84668 59709 17419 39796 67114 62464 21796 14023 27967 12773 20743 30049 19325 84792 02850 77852 27990 25203 09753 82636 98049 62896 33734 35706 56085 50188 65604 79077 41564 09484 97291 18636 34394 11775 97921 73460 57359 29614 68069 12459 51673 75029 65307 23878 07811 85963 84932 61710 66006 06669 61529 46986 12427 16530 54735 72261 05238 33335
127
Tabla A 2. Distribucin t de Student.

df 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 Probabilidad de un valor de t ms grande, ignorando el signo 0.5 0.1 0.05 0.01 0.001 1.00 6.31 12.71 63.66 636.62 0.82 2.92 4.30 9.92 31.60 0.76 2.35 3.18 5.84 12.92 0.74 2.13 2.78 4.60 8.61 0.73 2.02 2.57 4.03 6.87 0.72 1.94 2.45 3.71 5.96 0.71 1.89 2.36 3.50 5.41 0.71 1.86 2.31 3.36 5.04 0.70 1.83 2.26 3.25 4.78 0.70 1.81 2.23 3.17 4.59 0.70 1.80 2.20 3.11 4.44 0.70 1.78 2.18 3.05 4.32 0.69 1.77 2.16 3.01 4.22 0.69 1.76 2.14 2.98 4.14 0.69 1.75 2.13 2.95 4.07 0.69 1.75 2.12 2.92 4.01 0.69 1.74 2.11 2.90 3.97 0.69 1.73 2.10 2.88 3.92 0.69 1.73 2.09 2.86 3.88 0.69 1.72 2.09 2.85 3.85 0.69 1.72 2.08 2.83 3.82 0.69 1.72 2.07 2.82 3.79 0.69 1.71 2.07 2.81 3.77 0.68 1.71 2.06 2.80 3.75 0.68 1.71 2.06 2.79 3.73 0.68 1.71 2.06 2.78 3.71 0.68 1.70 2.05 2.77 3.69 0.68 1.70 2.05 2.76 3.67 0.68 1.70 2.05 2.76 3.66 0.68 1.70 2.04 2.75 3.65 0.68 1.68 2.02 2.70 3.55 0.68 1.67 2.00 2.66 3.46 0.68 1.66 1.98 2.62 3.37 0.67 1.64 1.96 2.58 3.29
128
Tabla A 3. Intervalos de confianza (95%) para la distribucin binomial.

Observado 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 n = 10 0 31 0 45 3 56 7 65 12 74 19 81 26 88 35 93 44 97 55 100 69 100 n = 15 0 22 0 32 2 40 4 48 8 55 12 62 16 68 21 73 27 79 32 84 38 88 45 92 52 96 60 98 68 100 78 100 n = 20 0 17 0 25 1 32 3 38 6 44 9 49 12 54 15 59 19 64 23 68 27 73 32 77 36 81 41 85 46 88 51 91 56 94 62 97 68 99 75 100 83 100 n = 30 0 12 0 17 1 22 2 27 4 31 6 35 8 39 10 42 12 46 15 49 17 53 20 56 23 59 25 63 28 66 31 69 34 72 37 75 41 77 44 80 47 83 51 85 54 88 58 90 61 92 65 94 69 96 73 98 78 99 83 100 88 100 n = 50 0 7 0 11 0 14 1 17 2 19 3 22 5 24 6 27 7 29 9 31 10 34 12 36 13 38 15 40 16 42 18 45 20 47 21 49 23 51 25 53 26 55 28 57 30 59 32 61 34 63 36 64 37 66 39 68 41 70 43 72 45 74 47 75 49 77 51 79 53 80 55 82 58 84 60 85 62 87 64 88 66 90 69 91 71 93 73 94 76 95 78 97 81 98 83 99 86 10 89 100 93 100 n = 100 0 4 0 5 0 7 1 9 1 10 2 11 2 13 3 14 4 15 4 16 5 18 6 19 6 20 7 21 8 22 9 24 9 25 10 26 11 27 12 28 13 29 13 30 14 31 15 32 16 34 17 35 18 36 19 37 19 38 20 39 21 40 22 41 23 42 24 43 25 44 26 45 27 46 28 47 28 48 29 49 30 50 31 51 32 52 33 53 34 54 35 55 36 56 37 57 38 58 39 59 40 60
129
Tabla A 4. Transformacin arcoseno porcentaje . La transformacin de los porcentajes de la binomial en los mrgenes de los ngulos es igual a la informacin en grados.
% 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 0 0.00 1.81 2.56 3.14 3.63 4.05 4.44 4.80 5.13 5.44 5.74 8.13 9.97 11.54 12.92 14.18 15.34 16.43 17.46 18.43 19.37 20.27 21.13 21.97 22.79 23.58 24.35 25.10 25.84 26.57 27.27 27.97 28.66 29.33 30.00 30.66 31.31 31.95 32.58 33.21 33.83 34.45 35.06 35.67 36.27 36.87 37.46 38.06 38.65 39.23 39.82 40.40 40.98 41.55 42.13 42.71 43.28 43.85 44.43 45.00 45.57 46.15 46.72 1 0.57 1.90 2.63 3.19 3.67 4.10 4.48 4.83 5.16 5.47 6.02 8.33 10.14 11.68 13.05 14.30 15.45 16.54 17.56 18.53 19.46 20.36 21.22 22.06 22.87 23.66 24.43 25.18 25.91 26.64 27.35 28.04 28.73 29.40 30.07 30.72 31.37 32.01 32.65 33.27 33.90 34.51 35.12 35.73 36.33 36.93 37.52 38.12 38.70 39.29 39.87 40.45 41.03 41.61 42.19 42.76 43.34 43.91 44.48 45.06 45.63 46.20 46.78 2 0.81 1.99 2.69 3.24 3.72 4.14 4.52 4.87 5.20 5.50 6.29 8.53 10.30 11.83 13.18 14.42 15.56 16.64 17.66 18.63 19.55 20.44 21.30 22.14 22.95 23.73 24.50 25.25 25.99 26.71 27.42 28.11 28.79 29.47 30.13 30.79 31.44 32.08 32.71 33.34 33.96 34.57 35.18 35.79 36.39 36.99 37.58 38.17 38.76 39.35 39.93 40.51 41.09 41.67 42.25 42.82 43.39 43.97 44.54 45.11 45.69 46.26 46.83 3 0.99 2.07 2.75 3.29 3.76 4.17 4.55 4.90 5.23 5.53 6.55 8.72 10.47 11.97 13.31 14.54 15.68 16.74 17.76 18.72 19.64 20.53 21.39 22.22 23.03 23.81 24.58 25.33 26.06 26.78 27.49 28.18 28.86 29.53 30.20 30.85 31.50 32.14 32.77 33.40 34.02 34.63 35.24 35.85 36.45 37.05 37.64 38.23 38.82 39.41 39.99 40.57 41.15 41.73 42.30 42.88 43.45 44.03 44.60 45.17 45.74 46.32 46.89 4 1.15 2.14 2.81 3.34 3.80 4.21 4.59 4.93 5.26 5.56 6.80 8.91 10.63 12.11 13.44 14.65 15.79 16.85 17.85 18.81 19.73 20.62 21.47 22.30 23.11 23.89 24.65 25.40 26.13 26.85 27.56 28.25 28.93 29.60 30.26 30.92 31.56 32.20 32.83 33.46 34.08 34.70 35.30 35.91 36.51 37.11 37.70 38.29 38.88 39.47 40.05 40.63 41.21 41.78 42.36 42.94 43.51 44.08 44.66 45.23 45.80 46.38 46.95 5 1.28 2.22 2.87 3.39 3.85 4.25 4.62 4.97 5.29 5.59 7.03 9.10 10.78 12.25 13.56 14.77 15.89 16.95 17.95 18.91 19.82 20.70 21.56 22.38 23.18 23.97 24.73 25.47 26.21 26.92 27.62 28.32 29.00 29.67 30.33 30.98 31.63 32.27 32.90 33.52 34.14 34.76 35.37 35.97 36.57 37.17 37.76 38.35 38.94 39.52 40.11 40.69 41.27 41.84 42.42 42.99 43.57 44.14 44.71 45.29 45.86 46.43 47.01 6 1.40 2.29 2.92 3.44 3.89 4.29 4.66 5.00 5.32 5.62 7.27 9.28 10.94 12.38 13.69 14.89 16.00 17.05 18.05 19.00 19.91 20.79 21.64 22.46 23.26 24.04 24.80 25.55 26.28 26.99 27.69 28.39 29.06 29.73 30.40 31.05 31.69 32.33 32.96 33.58 34.20 34.82 35.43 36.03 36.63 37.23 37.82 38.41 39.00 39.58 40.16 40.74 41.32 41.90 42.48 43.05 43.62 44.20 44.77 45.34 45.92 46.49 47.06 7 1.52 2.36 2.98 3.49 3.93 4.33 4.70 5.03 5.35 5.65 7.49 9.46 11.09 12.52 13.81 15.00 16.11 17.16 18.15 19.09 20.00 20.88 21.72 22.54 23.34 24.12 24.88 25.62 26.35 27.06 27.76 28.45 29.13 29.80 30.46 31.11 31.76 32.39 33.02 33.65 34.27 34.88 35.49 36.09 36.69 37.29 37.88 38.47 39.06 39.64 40.22 40.80 41.38 41.96 42.53 43.11 43.68 44.26 44.83 45.40 45.97 46.55 47.12 8 1.62 2.43 3.03 3.53 3.97 4.37 4.73 5.07 5.38 5.68 7.71 9.63 11.24 12.66 13.94 15.12 16.22 17.26 18.24 19.19 20.09 20.96 21.81 22.63 23.42 24.20 24.95 25.70 26.42 27.13 27.83 28.52 29.20 29.87 30.53 31.18 31.82 32.46 33.09 33.71 34.33 34.94 35.55 36.15 36.75 37.35 37.94 38.53 39.11 39.70 40.28 40.86 41.44 42.02 42.59 43.17 43.74 44.31 44.89 45.46 46.03 46.61 47.18 9 1.72 2.50 3.09 3.58 4.01 4.41 4.76 5.10 5.41 5.71 7.92 9.80 11.39 12.79 14.06 15.23 16.32 17.36 18.34 19.28 20.18 21.05 21.89 22.71 23.50 24.27 25.03 25.77 26.49 27.20 27.90 28.59 29.27 29.93 30.59 31.24 31.88 32.52 33.15 33.77 34.39 35.00 35.61 36.21 36.81 37.41 38.00 38.59 39.17 39.76 40.34 40.92 41.50 42.07 42.65 43.22 43.80 44.37 44.94 45.52 46.09 46.66 47.24
130
Tabla A 4. Transformacin arcoseno porcentaje . La transformacin de los porcentajes de la binomial en los mrgenes de los ngulos es igual a la informacin en grados. (continuacin )
% 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 99.1 99.2 99.3 99.4 99.5 99.6 99.7 99.8 99.9 0 47.29 47.87 48.45 49.02 49.60 50.18 50.77 51.35 51.94 52.54 53.13 53.73 54.33 54.94 55.55 56.17 56.79 57.42 58.05 58.69 59.34 60.00 60.67 61.34 62.03 62.73 63.43 64.16 64.90 65.65 66.42 67.21 68.03 68.87 69.73 70.63 71.57 72.54 73.57 74.66 75.82 77.08 78.46 80.03 81.87 84.26 84.56 84.87 85.20 85.56 85.95 86.37 86.86 87.44 88.19 1 47.35 47.93 48.50 49.08 49.66 50.24 50.83 51.41 52.00 52.59 53.19 53.79 54.39 55.00 55.61 56.23 56.85 57.48 58.12 58.76 59.41 60.07 60.73 61.41 62.10 62.80 63.51 64.23 64.97 65.73 66.50 67.29 68.11 68.95 69.82 70.72 71.66 72.64 73.68 74.77 75.94 77.21 78.61 80.20 82.08 84.29 84.59 84.90 85.24 85.59 85.99 86.42 86.91 87.50 88.28 2 47.41 47.98 48.56 49.14 49.72 50.30 50.89 51.47 52.06 52.65 53.25 53.85 54.45 55.06 55.67 56.29 56.91 57.54 58.18 58.82 59.47 60.13 60.80 61.48 62.17 62.87 63.58 64.30 65.05 65.80 66.58 67.37 68.19 69.04 69.91 70.81 71.76 72.74 73.78 74.88 76.06 77.34 78.76 80.37 82.29 84.32 84.62 84.93 85.27 85.63 86.03 86.47 86.97 87.57 88.38 3 47.47 48.04 48.62 49.20 49.78 50.36 50.94 51.53 52.12 52.71 53.31 53.91 54.51 55.12 55.73 56.35 56.98 57.61 58.24 58.89 59.54 60.20 60.87 61.55 62.24 62.94 63.65 64.38 65.12 65.88 66.66 67.46 68.28 69.12 70.00 70.91 71.85 72.85 73.89 75.00 76.19 77.48 78.91 80.54 82.51 84.35 84.65 84.97 85.30 85.67 86.07 86.51 87.02 87.64 88.48 4 47.52 48.10 48.68 49.26 49.84 50.42 51.00 51.59 52.18 52.77 53.37 53.97 54.57 55.18 55.80 56.42 57.04 57.67 58.31 58.95 59.60 60.27 60.94 61.61 62.31 63.01 63.72 64.45 65.20 65.96 66.74 67.54 68.36 69.21 70.09 71.00 71.95 72.95 74.00 75.11 76.31 77.62 79.06 80.72 82.73 84.38 84.68 85.00 85.34 85.71 86.11 86.56 87.08 87.71 88.60 5 47.58 48.16 48.73 49.31 49.89 50.48 51.06 51.65 52.24 52.83 53.43 54.03 54.63 55.24 55.86 56.48 57.10 57.73 58.37 59.02 59.67 60.33 61.00 61.68 62.38 63.08 63.79 64.53 65.27 66.03 66.82 67.62 68.44 69.30 70.18 71.09 72.05 73.05 74.11 75.23 76.44 77.75 79.22 80.90 82.97 84.41 84.71 85.03 85.38 85.75 86.15 86.61 87.13 87.78 88.72 6 47.64 48.22 48.79 49.37 49.95 50.53 51.12 51.71 52.30 52.89 53.49 54.09 54.70 55.30 55.92 56.54 57.17 57.80 58.44 59.08 59.74 60.40 61.07 61.75 62.44 63.15 63.87 64.60 65.35 66.11 66.89 67.70 68.53 69.38 70.27 71.19 72.15 73.15 74.21 75.35 76.56 77.89 79.37 81.09 83.20 84.44 84.74 85.07 85.41 85.79 86.20 86.66 87.19 87.86 88.85 7 47.70 48.27 48.85 49.43 50.01 50.59 51.18 51.77 52.36 52.95 53.55 54.15 54.76 55.37 55.98 56.60 57.23 57.86 58.50 59.15 59.80 60.47 61.14 61.82 62.51 63.22 63.94 64.67 65.42 66.19 66.97 67.78 68.61 69.47 70.36 71.28 72.24 73.26 74.32 75.46 76.69 78.03 79.53 81.28 83.45 84.47 84.77 85.10 85.45 85.83 86.24 86.71 87.25 87.93 89.01 8 47.75 48.33 48.91 49.49 50.07 50.65 51.24 51.83 52.42 53.01 53.61 54.21 54.82 55.43 56.04 56.66 57.29 57.92 58.56 59.21 59.87 60.53 61.21 61.89 62.58 63.29 64.01 64.75 65.50 66.27 67.05 67.86 68.70 69.56 70.45 71.37 72.34 73.36 74.44 75.58 76.82 78.17 79.70 81.47 83.71 84.50 84.80 85.13 85.48 85.86 86.28 86.76 87.31 88.01 89.19 9 47.81 48.39 48.97 49.55 50.13 50.71 51.30 51.88 52.48 53.07 53.67 54.27 54.88 55.49 56.10 56.73 57.35 57.99 58.63 59.28 59.93 60.60 61.27 61.96 62.66 63.36 64.09 64.82 65.57 66.34 67.13 67.94 68.78 69.64 70.54 71.47 72.44 73.46 74.55 75.70 76.95 78.32 79.86 81.67 83.98 84.53 84.84 85.17 85.52 85.90 86.33 86.81 87.37 88.10 89.43
131
Tabla A 5. Niveles de significancia en dos colas del coeficiente de correlacin r.

df 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100 150 200 300 400 500 0.1 0.988 0.900 0.805 0.729 0.669 0.621 0.582 0.549 0.521 0.497 0.476 0.458 0.441 0.426 0.412 0.400 0.389 0.378 0.369 0.360 0.352 0.344 0.337 0.330 0.323 0.317 0.311 0.306 0.301 0.296 0.257 0.231 0.211 0.195 0.183 0.173 0.164 0.134 0.116 0.095 0.082 0.073 Nivel de significancia 0.05 0.01 0.997 1.000 0.950 0.990 0.878 0.959 0.811 0.917 0.754 0.875 0.707 0.834 0.666 0.798 0.632 0.765 0.602 0.735 0.576 0.708 0.553 0.684 0.532 0.661 0.514 0.641 0.497 0.623 0.482 0.606 0.468 0.590 0.456 0.575 0.444 0.561 0.433 0.549 0.423 0.537 0.413 0.526 0.404 0.515 0.396 0.505 0.388 0.496 0.381 0.487 0.374 0.479 0.367 0.471 0.361 0.463 0.355 0.456 0.349 0.449 0.304 0.393 0.273 0.354 0.250 0.325 0.232 0.302 0.217 0.283 0.205 0.267 0.195 0.254 0.159 0.208 0.138 0.181 0.113 0.148 0.098 0.128 0.088 0.115 0.001 1.000 0.999 0.991 0.974 0.951 0.925 0.898 0.872 0.847 0.823 0.801 0.780 0.760 0.742 0.725 0.708 0.693 0.679 0.665 0.652 0.640 0.629 0.618 0.607 0.597 0.588 0.579 0.570 0.562 0.554 0.490 0.443 0.408 0.380 0.357 0.338 0.321 0.264 0.230 0.188 0.164 0.146
132
Apndice 4. Ejemplos Elaborados de Anlisis Estadstico
La mejor manera de entender la estadstica es trabajar muchos ejemplos. Desafortunadamente, la mayora de ejemplos requieren muchos clculos. Pero con las capacidades de cmputo en la actualidad hay disponibles muchos paquetes adecuados de anlisis estadstico. En este apndice, mostramos las instrucciones as como las salidas de muchos ejemplos que se presentan. Escogimos el lenguaje R porque es disponible libremente y porque proporciona un arreglo extenso de procedimientos de anlisis estadstico. El paquete R se puede bajar del sitio de Internet http://www.r-project.org/. La aplicacin de los mtodos que se discuten en este libro requiere de clculos intensos. En esta seccin presentamos ejemplos de estos anlisis, los que se pueden emplear como puntos de partida o plantillas para otros anlisis. En este apndice se incluye la descripcin de los conjuntos de datos y tambin una variedad de mtodos de muestreo con sus resultados. Los conjuntos de datos y los programas se pueden bajar del sitio de Internet http://www.fs.fed.us/rm/ftcol/index.shtm.
Nombre del archivo schreuderworkedexamples.xls surinam.csv macros.r schreuder.r schreudertables.r workedexamples.r Descripcin Conjunto de datos grande original con descripcin y resumen de resultados Texto para exportar el conjunto de datos grande que es ledo por R Definiciones de funciones miscelneas usadas por los programas R Clculos usados en el cuerpo del texto Desarrollo de las tablas usadas en el apndice Ejemplos elaborados usando el conjunto de datos grande
A. Software de Anlisis
La gama de software que corre en Windows, Linux u otras plataformas es muy amplia. Los paquetes comercialmente disponibles como SAS, SPSS o S/S-Plus corren en plataformas desde PC hasta mainframe (computadores grandes). Debido a las peculiaridades de estos paquetes y a su disponibilidad selectiva, aqu no pretendemos trabajar estos ejemplos en trminos de esos paquetes. En cambio, ilustramos los anlisis con un paquete fcilmente disponible y de distribucin gratuita, R. El paquete R para manipulacin de datos es robusto y poderoso, y ofrece un amplio arreglo de procedimientos de anlisis estadstico; la mayora de los programas escritos para los paquetes S y S-Plus, comercialmente disponibles, corrern en el sistema R. Las ligas de la pgina principal de R lo llevarn a los sitios de donde se puede bajar el paquete mismo (la instalacin completa contiene los ejecutables, junto con una amplia documentacin) y otras contribuciones que se han hecho, as como varias publicaciones en ingls, espaol, francs y alemn.
B. Conjuntos de Datos
El primer conjunto de datos es el que se presenta en la Tabla 1 en el cuerpo del texto. Aunque artificial, es un conjunto de datos que se puede analizar a mano. El segundo conjunto de datos consiste en una poblacin de 60 ha con los rboles mapeados de un bosque tropical de Surinam. Estos datos fueron descritos y usados por Schreuder et al. (1997).
133
Esta poblacin de 6,806 rboles tiene la localizacin espacial relativa de los rboles y se usa para ilustrar la eficiencia de varias estrategias de muestreo. La poblacin de rboles mapeados se expone en seguida.
Localizacin de rboles con crculos proporcionales a los dimetros Parcelas muestrales como cuadros gruesos y rboles muestra como crculos gruesos
Distancia (m) sobre Y
Distancia (m) sobre X
Los atributos registrados para cada rbol son:

Nombres de columna Diameter_cm Longitude Lattitude Height_m Volume_cum Subplot DBHClass Diameter_in Height_ft Volume_cuft CC Descripcin Dimetro del rbol, medido en centmetros Ubicacin X del rbol, medida en 0.1 m Ubicacin Y del rbol, medida en en 0.1 m Altura del rbol, en metros Volumen del rbol en metros cbicos Identificacin de la subparcela basada en una retcula etiquetada con letras en una dimensin y nmeros para la otra Clase diamtrica Dimetro del rbol, en pulgadas (conversin directa) Altura del rbol, en pies (conversin directa) Volumen del rbol, en pies cbicos (conversin directa) Clase de copa del rbol: dominante (D) o subdominante (S), derivada de la altura
La localizacin de los rboles est indicada con crculos que son proporcionales al dimetro del rbol. De la poblacin, se seleccionaron diez rboles al azar para ilustrar el muestreo simple aleatorio; estos rboles estn indicados con crculos gruesos. Tambin se seleccionaron, al azar, parcelas de 30 por 30 m para ilustrar el muestreo por conglomerados, que estn marcadas con cuadros gruesos. El muestreo estratificado se ilustra haciendo categoras de rboles como dominantes o subdominantes, con base en su altura.
C. Resultados
Los resultados del anlisis del conjunto de datos pequeo estn tabulados en el cuerpo principal del texto. Los clculos de los ejemplos elaborados se pueden crear corriendo el programa R en el archivo schreuder.r.
134
El conjunto de datos Surinam se puede usar para ejercicios realistas sobre la aplicacin de los mtodos discutidos en este libro. Uno de los pasos ms tiles en cualquier anlisis es producir algunas estadsticas descriptivas, en tablas y en grficas. Algunas grficas tiles son las de caja. En seguida se muestran grficas de caja para volumen (en metros cbicos) para la poblacin completa y para la poblacin estratificada.
Grfica de caja para volumen

Grfica de caja para la poblacin estratificada Volumen por estrato
V o lu m e n (m 3 )
Volumen (m 3 )
Estratos
Claramente, el volumen por rbol est relacionado con la posicin de su copa, por lo que es til para estratificar a la poblacin. Todos los mtodos de muestreo que se discuten en este libro tienen fortalezas y debilidades. Como ejercicio, la poblacin original y cinco muestras se usaron para demostrar la ejecucin real de los clculos en el programa R. Las instrucciones o comandos para duplicar estos resultados estn en el archivo workedexamples.r. La Tabla A 6 resume estos resultados. La primera fila de la tabla contiene los parmetros de la poblacin calculados de los 6,806 rboles; esta es la referencia contra la cual se deben juzgar todas las estimadas. Las siguientes dos lneas de la tabla son para dos muestras arregladas que incluyen tres rboles de los ms pequeos y tres de los ms grandes. Aunque este es un tamao de muestra claramente inadecuado, cualquiera de las dos podra resultar de un ensayo aleatorio. Ambos resultan en estimadas pobres del parmetro de la poblacin. La naturaleza de las estimadas resultantes de una muestra aleatoria no garantiza estimadas confiables. El siguiente ensayo fue una muestra simple aleatoria de tamao 10 seleccionada de la poblacin. La estimada, otra vez basada en una muestra, es mejor pero todava no es confiable. Una muestra aleatoria de diez conglomerados result en la medicin de 73 rboles y produjo un resultado confiable. En una muestra estratificada se incluyeron 10 rboles, pero esta vez cinco de los dominantes y cinco de los subdominantes. Este ensayo particular result en otra estimada confiable del parmetro de la poblacin.
135
Tabla A 6. Resumen de resultados para los parmetros de la poblacin del conjunto de datos Surinam y resultados de algunas muestras (Nota: La salida incluye texto que puede modificarse desde el programa R y aparece en espaol, y otras palabras que son producidas por el propio progama y aparece en ingls. El usuario de R podr diferenciar cual es el caso).
Mtodo Poblacin original Muestra de rboles pequeos Muestra de rboles grandes Muestra simple aleatoria Muestra en conglomerados Muestra estratificada Tamao 6806 3 3 10 10 parcelas 73 rboles 10 Media 1.89 0.40 8.44 4.15 2.25 2.35 Varianza 8.30 0.004 10.54 14.94 3.17 7.29
La salida de la corrida del anlisis del conjunto de datos grande se muestra enseguida.
*********************************************************** Ejemplos elaborados: Datos Surinam. Resumen de informacin para la poblacion. Las siguientes variables estn disponibles: Diameter.cm Longitude Lattitude Height.m Volume.cum SubPolt x2 x3 DBHClass Diameter.in Height.ft Volume.cuft CC Las estadsticas basicas de estas variables para la poblacin son: Statistical summary: Diameter.cm Height.m Volume.cum Mean 41.79327 24.28212 1.886360 Variance 326.25685 71.81564 8.295587 N 6806.00000 6806.00000 6806.000000 Las estadisticas se guardan en el archivo:..//Data/AllSurinamResults.csv With the distribution summary: Diameter.cm Height.m Volume.cum "Min.: 25.00 " "Min.: 9.20 " "Min.: 0.176 " "1st Qu.: 29.00 " "1st Qu.:19.50 " "1st Qu.: 0.569 " "Median: 36.00 " "Median:22.60 " "Median: 0.961 " "Mean: 41.79 " "Mean:24.28 " "Mean: 1.886 " "3rd Qu.: 48.00 " "3rd Qu.:25.90 " "3rd Qu.: 1.903 " "Max.:165.00 " "Max.:70.90 " "Max.:35.978 " NA NA NA *********************************************************** Ver la grafica (en otra ventana) del arreglo espacial de los arboles. Ademas, escriba: identify(surinam$Longitude, surinam$Lattitude,surinam$Diameter.cm) para sealar (clic) puntos e identificar interactivamente el diametro. NOTA: asegurese de boton-derecho/clic/Stop si usted hace esto. Ver la grafica de caja (en otra ventana) de un ejemplo para diametro. *********************************************************** Suponga que se elige una muestra simple aleatoria de tamao tres de la poblacion, digamos las observaciones: 4 34 216 Las estadisticas basicas para esta muestra son: Resumen estadistico: Diameter.cm Height.m Volume.cum Mean 88 42.66667 8.444333
136

Variance n 39 3 90.20333 3.00000 10.535722 3.000000
Las estadisticas se guardan en el archivo:..//Data/SurinamSample1Results.csv *********************************************************** Suponga que elgimos otra muestral simple aleatoria de tamao tres de la poblacion, digamos las observaciones: 3 814 1278 Las estadisticas basicas para esta muestra son: Resumen estadistico: Diameter.cm Height.m Mean 28 18.10 Variance 12 50.89 n 3 3.00 Volume.cum 0.402333333 0.004058333 3.000000000
Las estadisticas se guardan en el archivo:..//Data/SurinamSample2Results.csv *********************************************************** Compare las estimadas de estas dos muetras con los parametros reales de la poblacion. *********************************************************** Ahora elijamos una muestral aleatoria verdadera de tamao 10, digamos las observaciones: 654 1008 1040 3038 3587 4529 4564 5470 5628 6030 Las estadisticas basicas para esta muestra son: Resumen estadistico: Diameter.cm Height.m Volume.cum Mean 57.3000 32.9100 4.15060 Variance 683.1222 238.1877 14.93925 n 10.0000 10.0000 10.00000 *********************************************************** Que tan bien se estimaron los parametros? *********************************************************** *********************************************************** Tambien podriamos usar parcelas o conglomerados para muestrear. Suponga que elegimos una muestra aleatoria verdadera de 10 parcelas Las parcelas muestra Diameter.cm 37 35 46 85 75 32 77 28 78 64 79 28 80 30 81 28 82 46 84 46 85 26 86 40 87 27 88 25 89 32 90 32 763 57 767 31 770 41 776 47 2765 42 2766 25 elegidas son: Height.m Volume.cum 25.0 1.196 32.3 3.761 19.2 0.710 20.1 0.544 46.9 5.116 20.1 0.545 28.7 0.734 22.3 0.677 20.1 1.403 14.9 0.927 22.3 0.585 23.5 1.220 21.3 0.648 17.5 0.375 20.1 0.743 26.8 0.936 21.9 2.520 23.8 0.737 29.3 1.547 23.5 1.834 25.0 1.358 21.0 0.397 IsOnPlot 2 2 8 8 8 8 8 8 8 8 8 8 8 8 8 8 7 7 7 7 9 9
137

2768 2771 2775 2776 2778 2779 2780 2878 2879 2880 2881 2882 2883 2885 2886 2887 2888 2889 2890 2891 2892 3191 3192 3193 3196 4116 4120 4121 4123 4124 4127 4129 4386 4393 5863 5864 5866 5867 5868 5872 5874 5875 5876 5877 5878 5879 6118 6119 6120 6123 6125 57 32 35 27 39 42 42 44 29 33 36 71 82 25 29 60 26 25 33 40 72 26 65 29 32 28 89 29 52 25 26 72 43 27 30 36 33 117 65 31 120 36 31 46 29 38 28 38 26 43 96 18.6 25.0 19.8 12.2 26.5 24.1 22.6 20.7 19.5 22.3 23.2 32.3 47.2 20.4 22.3 28.4 22.6 17.4 21.0 17.7 42.5 14.6 44.2 14.6 19.1 18.3 40.3 17.7 19.9 23.5 15.8 27.4 25.0 22.6 18.9 21.3 24.7 63.6 48.9 21.0 67.6 27.7 21.4 23.2 19.5 19.8 22.3 12.8 21.6 25.0 46.3 1.731 0.874 0.942 0.286 1.311 1.540 1.281 1.205 0.515 0.816 1.033 2.962 7.719 0.373 0.584 3.769 0.555 0.390 0.780 1.049 4.457 0.295 5.306 0.414 0.658 0.480 7.985 0.505 1.676 0.487 0.407 5.467 1.359 0.697 0.541 0.920 0.721 22.41 3 6.584 0.732 25.699 1.302 0.717 1.701 0.571 0.973 0.617 0.450 0.485 1.359 9.713 9 9 9 9 9 9 9 6 6 6 6 6 6 6 6 6 6 6 6 6 6 3 3 3 3 1 1 1 1 1 1 1 4 4 5 5 5 5 5 5 5 5 5 5 5 5 10 10 10 10 10 [6] [7] 14.000000 4.0000000 1.871929 1.6595000 4.574484 0.5448577
Estadisticas de [1] mi 7.000000 ybari 2.429571 vari 9.337635 [8] mi 14.000000 ybari 1.083071 vari 1.422464
conglomerados para volumen (m3): [2] [3] [4] [5] 2.000000 4.000000 2.000000 12.00000 2.478500 1.668250 1.028000 5.23950 3.289613 5.904263 0.219122 80.47928 [9] [10] 9.0000000 5.00000 1.0800000 2.52480 0.2456065 16.28365
Entonces las estimadas de volumen para la poblacion total son: Media: 2.245466 y varianza: 3.167461
138

*********************************************************** *********************************************************** Suponga que la poblacion se estratifica por clases de copa. Datos Surinam estratificados. Resumen de informacion para la poblacion estratificada. Las siguientes variables estan disponibles: Diameter.cm Longitude Lattitude Height.m Volume.cum SubPolt x2 x3 DBHClass Diameter.in Height.ft Volume.cuft CC IsSRS IsOnPlot IsStratifiedSample Las estadisticas basicas poblacionales para los arboles dominantes son: Resumen estadistico: Diameter.cm Height.m Volume.cum Mean 45.86105 27.10766 2.400007 Variance 377.56259 71.87200 10.712216 N 4829.00000 4829.00000 4829.000000 Las estadisticas se guardan en el archivo:..//Data/DomSurinamResults.csv Mientras las estadisticas de los arboles suprimidos son: Resumen estadistico: Diameter.cm Mean 31.85736 Variance 61.79857 N 1977.00000 Height.m 17.380475 4.544404 1977.000000 Volume.cum 0.6317299 0.1742217 1977.0000000
Las estadisticas se guardan en el archivo:..//Data/SupSurinamResults.csv *********************************************************** Compare los parmetros de estos dos estratos con los parametros de la poblacin simple. *********************************************************** Podemos muestrear de estos dos estratos con los resultados: Estadisticas estratificadas para volumen (m3): [1] [2] IDi "D" "S" nh "5" "5" ybarh "3.053" "0.6374" varh "10.1608805" "0.3070853" Resultando en estimadas para la poblacin de: Media: 2.351319 y varianza: 7.29087 Ver la grafica de caja (en otra ventana) de un ejemplo para diametro, por dominancia.
139
140
ndice
A
Adaptable 97 ADN 75, 98 Areas 8, 29, 68, 88, 94, 103 Aleatorizacin 11, 110, 130
Continua 15, 85, 127
D
Datos perdidos 9, 71 Desviacin estndar 18, 19, 20, 21, 23, 24, 28, 53, 54, 55 Discreta 94, 127, 135
Altura 5, 8, 11, 13, 15, 16, 19, 20, 24, 27, 28, 60, 69, 72, 86, 124, 125, 127, 133, 148 rea basal 8, 9, 13, 27, 33, 39, 44, 45, 46, 49, 54, 60, 61, 62, 67, 70, 71, 96, 103, 126 Atravesar 69, 70, 72 AVHRR 87, 89
Diseo 8, 9, 11, 32, 71, 74, 100, 105, 115, 118, 121, 122, 125, 126, 129, 130 Distribucin ii, 8, 15, 16, 18, 31, 32, 39, 41, 46, 48, 50, 51, 59, 64, 84, 102, 128, 129, 130, 132, 133, 134, 135, 136, 137, 138, 139, 143, 147 Distribucin t 64, 134, 138, 139
B
Basado en modelos 10, 129, 130 Beta 121 Binomial 15, 31, 63, 84, 135, 136, 137, 139, 143, 144, 145 Binomial negativa 84 Bitterlich 60, 67, 116 Bootstrap i, 122
E
Eficaz 43, 94 Eficiente 7, 9, 10, 34, 39, 43, 44, 45, 46, 48, 49, 51, 57, 62, 63, 66, 67, 74, 82, 105, 108, 109, 121, 125, 126 Error estndar 21, 22, 23, 28, 53, 54, 55, 56, 64, 76, 80, 81, 83, 85, 127, 134 Escrutinio 97, 111, 126 Estadstico i, iii, 4, 9, 13, 14, 15, 16, 19, 20, 31, 32, 48, 50, 51, 64, 75, 84, 89, 90, 92, 95, 110, 111, 115, 117, 118, 119, 122, 124, 125, 126, 127, 128, 129, 130, 132, 133, 147, 149, 150 Estimacin de reas pequeas i, 95, 96 Estimacin de la varianza 44, 109 Estratificacin 39, 41, 47, 52, 59, 100, 101, 104, 105, 121 Estratificado 11, 32, 39, 40, 41, 44, 45, 46, 47, 50, 53, 82, 100, 101, 102, 103, 104, 113, 148, 149, 150, 153 Existente 94, 97, 113, 130, 131, 132
C
Censo 4, 5, 6 Coeficiente de correlacin 25, 26, 27, 137, 139, 146 Coeficiente de variacin 23, 24 Conglomerado 41, 42, 47, 50, 67, 79, 81, 84, 98, 99 Consistente 37, 65, 108, 112 Conteo 4, 6, 13, 15, 29, 31, 60, 61, 69, 70, 74, 75, 84, 85, 89, 102, 123
141
F
Facilidad 8, 12, 26, 37, 44, 62, 69, 71, 110, 112 FIA iii, 6, 7, 66, 67, 68, 69, 95, 104, 109, 111, 112, 113, 115, 122, 130 Fija 14, 60, 61, 66, 67, 70, 71, 73, 127 Fijo 16, 37, 80, 84 Finita 5, 34, 76, 80, 81, 83, 85, 119, 126, 130, 132, 138, 139 Finito 138 Franjas 67, 73, 74, 127
Inventario forestal iii, 6, 7, 24, 29, 72, 116, 117, 118, 119, 122 Inventario por muestreo 5, 12, 64, 115, 117, 119, 126
J
Jackknife 51, 55
L
Landsat 21, 87, 89, 117
M
Mapear 86 Media 5, 12, 13, 16, 18, 19, 20, 22, 23, 24, 26, 28, 30, 31, 32, 34, 35, 39, 40, 41, 43, 44, 48, 51, 52, 53, 54, 55, 56, 65, 68, 80, 81, 82, 85, 87, 101, 125, 127, 128, 133, 134, 135, 136, 138, 139 Media aritmtica 13, 20 Mediana 18, 19 Mtodo de espejo 70 Metodologa 4 Microondas 86, 89
G
Gama 111, 133, 134, 147
H
Hipergeomtrica 135, 136, 137, 138 Hipsmetro 72 Horvitz - Thompson ii, 32, 38, 44, 51, 53, 54, 59, 62, 74, 75, 121, 123
I
Inferencia 5, 9, 10, 15, 111, 117, 119, 128, 129, 130, 131, 132, 134, 138, 139 Inferencia estadstica 119, 128, 129, 132 Infrarroja 87 Infrarrojo 88 Intercepcin 67, 73 Interseccin 67, 73 Intervalo de confianza 64, 65, 77, 81 Inventario i, iii, 4, 5, 6, 7, 8, 9, 12, 22, 24, 27, 28, 29, 30, 45, 60, 64, 66, 67, 71, 72, 73, 78, 85, 86, 87, 88, 89, 93, 94, 97, 98, 101, 104, 111, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 126, 130, 131
Moda 18, 19 Monitoreo i, 4, 7, 85, 89, 93, 96, 115, 118, 120, 122 Muestreo aleatorio 10, 48, 53, 99, 138 Muestreo binomial 79 Muestreo con reemplazo parcial 9, 71, 105, 106, 109 Muestreo con reemplazo total 105, 106, 107, 109 Muestreo con remedicin total 105, 106, 109 Muestreo de fauna 75 Muestreo doble 54, 100, 102, 103, 104, 105 Muestreo por conglomerados 41, 45 Muestreo simple aleatorio ii, 10, 11, 32, 33, 34, 35, 36, 37, 39, 40, 41, 42, 44, 45, 46, 47, 48, 49, 51, 53, 54, 55,
142

58, 64, 66, 75, 77, 79, 81, 85, 99, 113, 125, 132, 138, 148 Multietapas 98, 100, 105, 117 Multifase 98, 100 Regresin lineal simple 58 Multinomial 135, 137 Regresin ponderada 53 Multivariada 133, 134, 136, 137, 138 Relascopio 45, 113 Razn de medias 52, 54, 55, 56, 58, 59, 82, 83, 84, 104 Regresin ii, 24, 26, 52, 53, 54, 55, 56, 57, 58, 59, 68, 95, 100, 102, 103, 104, 105, 106, 108, 110, 115, 117, 120, 121, 124
N
Normal 5, 15, 16, 32, 51, 60, 64, 77, 78, 84, 98, 124, 125, 126, 133, 134, 135, 136, 138, 139 Normal bivariada 134
Relativo 15, 24, 33, 37, 127, 148 Remedicin completa 105, 107, 109
S
Seleccin 10, 11, 12, 13, 18, 33, 34, 36, 37, 39, 41, 44, 45, 46, 47, 50, 51, 58, 61, 64, 66, 74, 75, 79, 104, 110, 113, 114, 119, 121, 124, 126, 130 Sensores remotos i, 7, 40, 46, 67, 68, 75, 85, 86, 87, 89, 90, 95, 96, 101, 102, 104, 115 Sesgo 7, 9, 12, 13, 14, 15, 42, 51, 59, 64, 74, 84, 113, 114, 124, 125, 132 Sistema de informacin geogrfica i, ii, 94, 96, 117 Sistema de posicionamiento global i, 93, 127 Sistemtico 32, 45, 48, 49, 50, 66, 79, 127 Spot 87, 89
O
ptima 41, 48, 50, 66, 102
P
Parmetro 10, 11, 12, 13, 15, 18, 19, 22, 24, 27, 28, 38, 59, 64, 65, 66, 106, 125, 126, 127, 128, 129, 130, 133, 134, 135, 136, 138, 149, 150, 153 Parcela de muestreo 7, 8, 9, 56, 61, 66, 67, 68, 69, 71, 78, 105, 112, 113, 114 Parcelas de radio variable 60, 61, 67, 69, 70, 71, 104, 112, 113, 114, 115 Permanente 85, 105
Sugerencias i, 4, 119 Precisin 5, 8, 13, 14, 51, 52, 60, 64, 68, 72, 77, 78, 89, 90, 91, 94, 104, 105, 115, 121, 125, 129 Previo 58, 81 Probabilidad desigual 32, 37, 39, 48, 50, 51, 67, 126 Probabilidad variable 11 Probabilstico i, 4, 7, 10, 32, 33, 36, 50, 97, 119, 121, 126, 129 Punto i, 7, 9, 16, 22, 29, 42, 46, 49, 60, 61, 70, 85, 87, 94, 96, 105, 113, 114, 115, 122, 123, 127, 147, 150
T
Tamao de 14, 19, 21, 23, 24, 25, 26, 31, 34, 36, 37, 44, 45, 56, 59, 60, 61, 62, 63, 64, 65, 75, 77, 78, 79, 84, 86, 87, 93, 97, 100, 101, 102, 122, 124, 149 Tamao de muestra 21, 34, 36, 37, 44, 45, 61, 62, 63, 64, 65, 77, 79, 93, 97, 101, 102, 149
V
Varianza i, iii, 18, 19, 20, 21, 22, 23, 24, 25, 26, 28, 29, 30, 31, 34, 35, 36, 38, 39, 40, 41, 42, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 55, 57, 58, 59, 60, 61, 62, 63, 64, 66, 80, 81, 83, 85, 96, 99, 100, 101, 102, 103, 104, 106, 107, 108, 109, 125, 128, 133, 134, 135, 136, 138, 139, 153, 154
R
Radio variable 60, 67, 70, 112, 113, 114, 115
143

Verticales 8, 72, 88 Volumen 5, 6, 8, 12, 13, 15, 20, 22, 23, 27, 28, 29, 30, 31, 32, 33, 35, 36, 39, 43, 44, 45, 46, 47, 48, 49, 54, 61, 62, 63, 65, 67, 73, 74, 82, 96, 98, 101, 103, 104, 105, 113, 114, 126, 127, 149, 153
144

Tecnicas Estadisticas Evaluacion y Monitoreo 2006

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Tecnicas Estadisticas Evaluacion y Monitoreo 2006

Hochgeladen von

Copyright:

Verfügbare Formate

Tcnicas Estadsticas para Evaluacin y Monitoreo de Recursos Naturales

UNIVERSIDAD AUTNOMA CHAPINGO

Tcnicas Estadsticas para Muestreo y Monitoreo de Recursos Naturales

Hans T. Schreuder Richard Ernst Hugo Ramrez Maldonado

UNIVERSIDAD AUTNOMA CHAPINGO

Tcnicas Estadsticas para Muestreo y Monitoreo de Recursos Naturales

INTRODUCCIN OBJETIVOS DEL MUESTREO Y EL MONITOREO DE RECURSOS NATURALES

CONCEPTOS DE MUESTREO Y METODOLOGAS

MTODOS DE MUESTREO PARA VARIABLES DISCRETAS

SENSORES REMOTOS Y OTRA INFORMACIN AUXILIAR

MUESTREO PARA LOS EVENTOS RAROS MUESTREO DE NIVELES MLTIPLES

IX. MONITOREO EN EL TIEMPO X. CONSTRUCCIN DE MODELOS CAUSAEFECTO

SITUACIONES DE MUESTREO FORESTAL

XII. REFERENCIAS XIII. GLOSARIO APENDICE 1. INFERENCIAS APNDICE 2. DISTRIBUCIONES

104 112 115 119

APNDICE 3. TABLAS 125 APNDICE 4. EJEMPLOS ELABORADOS DE ANLISIS ESTADSTICO 133

Tcnicas Estadsticas para Muestreo y Monitoreo de Recursos Naturales

Tcnicas Estadsticas para Muestreo y Monitoreo de Recursos Naturales

Tcnicas Estadsticas para Muestreo y Monitoreo de Recursos Naturales

Tcnicas Estadsticas para Muestreo y Monitoreo de Recursos Naturales

Tcnicas Estadsticas para Muestreo y Monitoreo de Recursos Naturales

Tcnicas Estadsticas para Muestreo y Monitoreo de Recursos Naturales

Tcnicas Estadsticas para Muestreo y Monitoreo de Recursos Naturales

Tcnicas Estadsticas para Muestreo y Monitoreo de Recursos Naturales

Tcnicas Estadsticas para Muestreo y Monitoreo de Recursos Naturales

Tcnicas Estadsticas para Muestreo y Monitoreo de Recursos Naturales

Tcnicas Estadsticas para Muestreo y Monitoreo de Recursos Naturales

Tcnicas Estadsticas para Muestreo y Monitoreo de Recursos Naturales

Tcnicas Estadsticas para Muestreo y Monitoreo de Recursos Naturales

misma expresin puede ser ms compacta, como

x . En palabras, esto indica sumar todos los

= ( x31 + x32 + x33 + x34 ) y

= ( x12 + x22 + x32 + x42 + x52 ) .

Tcnicas Estadsticas para Muestreo y Monitoreo de Recursos Naturales

Tcnicas Estadsticas para Muestreo y Monitoreo de Recursos Naturales

2. Caracterizacin de una distribucin mediante medidas de tendencia central y de dispersin

Tcnicas Estadsticas para Muestreo y Monitoreo de Recursos Naturales

Tcnicas Estadsticas para Muestreo y Monitoreo de Recursos Naturales

Tcnicas Estadsticas para Muestreo y Monitoreo de Recursos Naturales

4% 6% 8% 10% 12% 14%

Escala nacional (Base para las conclusiones de Tuker y Townshend)

Escala continental Zonas ecoflorsticas

Tcnicas Estadsticas para Muestreo y Monitoreo de Recursos Naturales

Que es la misma varianza de los valores originales:

El coeficiente de variacin, C, es la razn de la desviacin estndar a la media: C= s y (4)

Tcnicas Estadsticas para Muestreo y Monitoreo de Recursos Naturales

Tcnicas Estadsticas para Muestreo y Monitoreo de Recursos Naturales

El clculo de la covarianza de la muestra se simplifica reescribiendo la frmula de la siguiente manera:

covarianza (x,y) = varianza (x) varianza (y)

Tcnicas Estadsticas para Muestreo y Monitoreo de Recursos Naturales

la estimada de la correlacin entre y y x es:

Tcnicas Estadsticas para Muestreo y Monitoreo de Recursos Naturales

Tcnicas Estadsticas para Muestreo y Monitoreo de Recursos Naturales

2 2 Donde: k = una constante y y y x = variables con varianzas s y y sx y covarianza sxy .

Para muestras grandes, la varianza de Q1 se estima por:

Tcnicas Estadsticas para Muestreo y Monitoreo de Recursos Naturales

Para muestras grandes, la varianza de Q2 puede ser aproximada por:

Tcnicas Estadsticas para Muestreo y Monitoreo de Recursos Naturales

2 Con k1 y k2 siendo constantes y x1 y x2 variables con varianzas s12 y s2 y covarianza s12 .

La varianza de esta estimada es:

Tcnicas Estadsticas para Muestreo y Monitoreo de Recursos Naturales

= ki2 si2 + ki k j sij

Tcnicas Estadsticas para Muestreo y Monitoreo de Recursos Naturales

Tcnicas Estadsticas para Muestreo y Monitoreo de Recursos Naturales