Sie sind auf Seite 1von 5

Resumen

Un correcto anlisis de los datos adquiridos durante la investigacin geolgica es fundamental


tanto para la interpretacin de los mismos como para su posterior comunicacin a la
comunidad cientfica. Por ese motivo el aprendizaje de una metodologa de anlisis de datos
debe formar parte de la preparacin de todo gelogo a lo largo de su formacin. En este
trabajo se desarrolla una metodologa de anlisis de datos como parte principal de dicha
preparacin. Las tcnicas propuestas no requieren conocimientos avanzados de estadstica por
parte del gelogo y tienen como principal objetivo el establecimiento de relaciones entre
datos y la elaboracin de hiptesis sobre las mismas que debern ser formalizadas en una fase
final de tratamiento estadstico aplicado

INTRODUCCIN

El Anlisis de Datos es un conjunto de tcnicas y mtodos estadsticos que aplicados de forma


global y sistemtica a unos datos permiten obtener conclusiones sobre ellos mismos y sobre la
poblacin o poblaciones de la que proceden. Todo anlisis de datos debe comprender al
menos las siguientes fases:

1. Modelizacin

2. Adquisicin y depuracin

3. Descripcin y representacin

4. Establecimiento de relaciones e hiptesis de trabajo

5. Formalizacin estadstica

Las cuatro primeras fases pueden ser realizadas por cualquier gelogo con una preparacin
adecuada en anlisis de datos cuyo desarrollo metodolgico es el cometido de este trabajo. El
ltimo punto lo podr realizar el gelogo con conocimientos en estadstica aplicada, aunque si
la complejidad es alta tendr que resolverse por especialistas en esta materia. Algunas de
estas fases forman parte, de forma parcial o completa, de los programas de asignaturas de
Matemticas y/o Estadstica que se imparten preferentemente en el primer curso de Grado de
Geologa. Estas asignaturas tienen en comn el enfoque formal Matemtico como demuestra
el hecho de ser impartidas por docentes de departamentos de Matemtica Aplicada,
Estadstica o Investigacin Operativa. Por ese motivo se basan en el aprendizaje de conceptos
eminentemente matemticos como la combinatoria; el clculo y las distribuciones de
probabilidades; las variables y la inferencia estadstica. Solo en algunos casos se complementa
la formacin matemtica con el manejo de herramientas informticas (p.e. Tratamiento
estadstico e informtico de datos geolgicos en el segundo curso de Grado de Geologa en la
Universidad de Zaragoza). El enfoque del anlisis de datos como metodologa de investigacin
no se plantea durante la formacin de graduados ni tampoco en la formacin de posgrado. La
realizacin de un anlisis de datos incompleto tiene dos problemas asociados. El primero es
que en las publicaciones de las investigaciones geolgicas no se incluyen descripciones y
anlisis de datos correctos dificultando el seguimiento de todo el proceso de adquisicin y
descripcin de datos (apartados siempre presentes en estos artculos) y por lo tanto la
discusin y posterior conclusiones del trabajo de investigacin. El segundo que el gelogo
investigador no explota toda la informacin contenida en los datos adquiridos en muchas
ocasiones con un coste y esfuerzo muy elevado. En este trabajo se propone el contenido y
desarrollo de una metodologa de anlisis de datos basada en la aplicacin de tcnicas
eminentemente prcticas de tratamiento y representacin de datos que deber
complementarse con la utilizacin de herramientas informticas para la realizacin del anlisis
de datos. Se ha incluido un apartado final con algunas de las herramientas informticas
recomendadas. Los autores proponen que la metodologa de anlisis de datos debera formar
parte de seminarios eminentemente prcticos enmarcados en cursos de posgrado (doctorado
o mster).

MODELIZACIN Y ADQUISICIN DE DATOS

El punto fundamental de todo anlisis de datos es definir de manera clara y concisa qu es lo


que queremos hacer. Esto implica entre otras cosas identificar la poblacin de estudio y definir
toda la informacin en forma de datos que vamos a manejar de la misma. Los principales datos
geolgicos sern medidas de magnitudes fsicas o qumicas (p.e. datos morfomtricos,
composiciones qumicas, parmetros fsicos, cartogrficos), datos calculados a partir de dichas
medidas y datos obtenidos al clasificar muestras. Modelizacin: consiste en asociar variables a
cada uno de los datos que van a ser adquiridos o calculados. Las variables pueden ser
cuantitativas cuando representan datos numricos y que por lo tanto toman cualquier valor
dentro de un intervalo; y cualitativas para los datos categricos que solo toman 2 o ms
valores dentro de un conjunto limitado de opciones denominadas modalidades. Para las
variables cuantitativas es necesario definir las siguientes propiedades: Rango o intervalo de
variacin Unidades de medida en funcin de la magnitud que representan Nmero de
decimales representativos La consulta bibliogrfica sobre trabajos anteriores es fundamental
para asignar valores a las propiedades de las variables cuantitativas. Para las variables
cualitativas solo habr que definir todos los posibles valores o modalidades que puedan tomar.
Es importante asignar un valor numrico a cada modalidad para poder representar relaciones
de orden. Por ejemplo, podemos asignar valores numricos para expresar el grosor mediante
1, 2, 3, 4 y 5 representando 1 un menor grosor que 3 y este que 5; y a su vez a cada nmero
una etiqueta: muy delgado, delgado, normal, grueso y muy grueso.

Adquisicin de datos: es necesario tener en cuenta y definir los siguientes aspectos: Errores
cometidos durante el proceso de medida - Errores sistemticos. Constantes, controlables y por
lo tanto medibles - Errores accidentales. Inevitables y no controlables y necesitan del uso de
tcnicas estadsticas para su manipulacin Representatividad de los datos adquiridos. El azar
no es garanta de representatividad. La representatividad de los datos respecto de la poblacin
que pertenecen es requisito para la validez de la investigacin Precisin y sensibilidad de los
aparatos de medida. Se especifica como parte de la descripcin del instrumental de medida
utilizado. Relacionado con la modelizacin de los datos y en concreto con las unidades y
posiciones decimales Nmero de medidas necesarias. Las medidas necesarias dependen de
la variacin y de la mxima diferencia esperadas entre el valor medido y el valor real. La
consulta bibliogrfica permite estimar esta variacin

DESCRIPCIN Y DEPURACIN

Los objetivos de esta fase son el conocimiento de los datos adquiridos y calculados, su
descripcin y su posterior depuracin para detectar valores anmalos y/o incorrectos. Aunque
la descripcin de los datos lleva asociada una serie de descriptores numricos cuya
especificacin es fundamental en todo trabajo de investigacin, como parte de la metodologa
de anlisis de datos se propone la utilizacin de mtodos grficos como potentes herramientas
de descripcin de datos. Los trabajos de Cleveland (1993), (1994) y Chambers et al. (1983) se
proponen como textos de referencia en la descripcin grfica de datos. Las variables
cualitativas se describen mediante frecuencias absolutas y relativas, acumuladas o no. La
representacin numrica de las variables cualitativas consiste en tablas en las que se indican
las frecuencias de cada una de las modalidades. La representacin grfica visual se realiza en
forma de diagramas de sectores y de rectngulos (Cleveland, 1985) estableciendo una
correspondencia entre las frecuencias de cada modalidad y el rea de los sectores o los
rectngulos (ver Figura 1). Las comparaciones entre variables cualitativas se realizarn mejor
mediante representaciones grficas.

Las variables cuantitativas se describen mediante medidas de posicin (media aritmtica,


mediana, moda y cuantiles), dispersin (rango, error estndar de la media; recorrido
intercuartil, varianza, cuasivarianza, desviacin y cuasidesviacin tpica) y simetra (coeficiente
de simetra de Pearson). El valor de las mismas junto con el nmero total de datos debe
incluirse como resultado de todo anlisis de datos. La representacin grfica de los datos
cuantitativos se realiza mediante histogramas (ver Figura 2), diagramas de tallos y hojas y
grficos de cajas (Chambers et al., 1983). Los mtodos grficos, adems de ofrecer una
representacin rpida y concisa de las medidas de posicin, dispersin y simetra, permiten
depurar rpidamente los datos y efectuar un anlisis bsico de normalidad e igualdad de
varianzas. Las tcnicas estadsticas ms utilizadas (punto 5 del anlisis de datos) solo son
vlidas cuando los datos se han obtenido de forma independiente (fcilmente asumible),
siguen una distribucin estadstica normal (por lo tanto simtrica) y existe homogeneidad de
varianzas (los lmites de variacin son similares entre variables comparadas). Ambos supuestos
pueden contrastarse fcilmente en las representaciones grficas de variables cuantitativas
aunque la formalidad se asignar mediante tcnicas estadsticas. Una alternativa al
cumplimiento de estos requisitos es el uso de medidas posicin robustas (mediana, medias
recortadas o Windsorizadas) y mtodos estadsticos robustos en el punto 5 del anlisis de
datos, obtenindose conclusiones formales sin necesidad de normalidad e igualdad de
varianza (Garca-Prez, 2005)

ERRAMIENTAS RECOMENDADAS PARA ANLISIS DE DATOS Hojas de clculo. Fciles de


utilizar y con clculos potentes, su uso es muy recomendable para la representacin y manejo
de datos. Sus opciones estadsticas son escasas aunque tiles. Grficos de gran calidad pero
limitados (De Levie 2004) Paquetes estadsticos comerciales, tipo SPSS. Accesible a todo tipo
de usuarios con varios niveles de complejidad. El anlisis de datos se puede realizar de forma
completa y cada vez incorporan grficos de mayor calidad. Su elevado precio as como sus
funcionalidades avanzadas limitadas son las nicas desventajas (Sweet 2011) Software de
estadstica de libre distribucin. En este campo destaca el software libre R que a la ventaja de
su coste cero se une la potencia que aaden los usuarios al desarrollar nuevos mtodos
estadsticos de anlisis y representacin grfica de datos. Recomendado para todo tipo de
usuarios (Murrel 2005; Chambers 2008; Garca-Prez 2010; R Development Core Team 2010).
AGRADECIMIENTOS Este trabajo se ha desarrollado dentro del proyecto nmero 26 aprobado
en la Convocatoria de Proyectos de Innovacin y Mejora de la Calidad Docente para el curso
2011/2012 de la Universidad Complutense de Madrid. BIBLIOGRAFA Bermdez de Castro, J.M.
(2010). La evolucin del talento. Editorial Debate, Barcelona. 78 Comunicaciones del XVII
Simposio sobre Enseanza de la Geologa Box, G. E. P., Cox, D. R. (1964). An analysis of
transformations (with discussion). Journal of the Royal Statistical Society B, 26, 211-252.
Chambers, J. M. (2008). Software for Data Analysis: Programming with R. Springer Verlag,
Nueva York. Chambers, J.M., Cleveland, W.S., Kleiner, B., Tukey, P.A. (1983). Graphical
Methods for Data Analysis. Chapman and Hall, Nueva York. Cleveland, W.S. (1994). The
elements of graphing data. Hobart Press, Summit, Nueva Jersey. Cleveland, W.S. (1993).
Visualizing Data. Hobart Press, Summit, Nueva Jersey. De Levie, R. (2004). Advanced Excel for
scientific data analysis. Oxford University Press, Nueva York. Garca-Prez, A. (2005). Mtodos
avanzados de estadstica aplicada: Mtodos robustos y de remuestreo. Editorial UNED.
Coleccin Educacin Permanente. Garca-Prez, A. (2010). Estadstica bsica con R. Editorial
UNED. Coleccin Grado. Gervilla, F., Proenza, J.A., Frei, J.M., Gonzlez-Jimnez, C.J., Garrido,
J.C., Melgajero, A., Meibom, A., DazMartnez, R., Lavaut, W. (2005). Distribution of
platinumgroup elements and Os isotopes in chromite ores from Mayar-Baracoa (eastern
Cuba). Contributions to Mineralogy and Petrology 150, 589-607. Gower, J.C. and Hand, D.J.
(1996). Biplots. Chapman & Hall, Londres. Malitch, K.N., Melcher, F., Mhlhans, H. (2001).
Palladium and gold mineralization in podiform chromitite at Kraubath, Austria. Mineralogy and
Petrology 73, 247-277. McGill, R., Tukey, J.W., Larsen, W.A. (1978). Variations of Box Plots. The
American Statistician, 31, 12-16. Merinero, R. (2008). Procesos mineralgicos y geoqumicos en
chimeneas submarinas de carbonatos metangenos del Golfo de Cdiz: biogeomarcadores
framboidales de sulfuros y oxihidrxidos de hierro. Tesis Doctoral. Universidad Complutense
de Madrid. Murrell, P. (2005). R Graphics. Chapman & Hall/CRC Press, Boca Ratn, USA. R
Development Core Team (2010). R: A language and environment for statistical computing. R
Foundation for Statistical Computing, Viena, Austria. ISBN 3-900051-07- 0, URL http://www.R-
project.org/. Sweet, S.A., Grace-Martin, K. (2011). Data Analysis with SPSS: A First Course in
Applied Statistics. Prentice Hall, Boston, USA. Williamson, D.F., Parker, R.A., Kendrick, J.S.
(1989). The box plot: a simple visual method to in

Relacin entre variables cuantitativas y cualitativas Finalmente es interesante comparar el


efecto de las modalidades de una variable cualitativa en los parmetros de posicin, dispersin
y simetra de una variable cuantitativa (extensible a varias variables cuantitativas con
magnitudes y unidades similares). Para ello se divide la variable cuantitativa en tantos
subconjuntos como modalidades presenta la variable cuantitativa, obteniendo de esta manera
varias nuevas variables cuantitativas que por lo tanto tienen sus propios parmetros de
posicin, dispersin y simetra. Las hiptesis de trabajo que se realizan en este tipo de relacin
son las siguientes: Las variables de posicin/dispersin de todas/algunas de las modalidades
son iguales Las variables de posicin/dispersin de todas/algunas de las modalidades son
mayores/menores entre s 77 Huelva 2012 Aunque las hiptesis son formalizadas de nuevo
mediante test estadsticos (anlisis de la varianza con comparaciones mltiples) primero ser
necesario plantearlas segn los valores obtenidos de los parmetros de de las nuevas
variables. Si dos de esas nuevas variables presentan medias muy distintas no tendr sentido
plantear una hiptesis de trabajo de igualdad de medias. Los diagramas de cajas permiten
realizar de forma rpida una comparacin de los parmetros de posicin y dispersin de varias
variables cuantitativas (McGill et al. 1978; Williamson et al. 1989) (ver Figura 5)

Das könnte Ihnen auch gefallen