Sie sind auf Seite 1von 24

El proceso informacional no implica

tanto el uso de herramientas como el

dominio de tcnicas y el cambio de

actitudes hacia la informacin por parte

de los usuarios y las organizaciones, lo

que equivale a decir que el problema de

la informacin en nuestros pases no es

uno de informtica

Iraset

Pez Urdaneta, 1991


Titulo: Gua prctica para decidir el tipo de anlisis estadstico en investigaciones
biomdicas.

Autores:

Ing. Pedro E. Boza Torres


MSc. Lic. Teresa Guilarte Labrada
Lic. Oslaidi Liriano Leyva
Lic. Juan Miguel Reyes Domnguez
LIc. Yaderine Prez Snchez
Resumen
Se realiz un estudio exploratorio, descriptivo y observacional con la finalidad de
brindar una herramienta a aquellos investigadores no expertos en bioestadstica,
que les sirva para seleccionar una prueba estadstica. La investigacin parti de
una revisin de la literatura sobre las principales pruebas estadsticas que se
utilizan en la actualidad y se dise un esquema, el que puede utilizarse de dos
maneras: la primera consiste seguir el esquema hasta descubrir cual es la tcnica
estadstica apropiada para sus datos y la segunda: siguiendo el esquema hacia
atrs, determinar si la prueba fue una eleccin lgica para los datos analizados.
Dicha herramienta se aplic a una muestra por sujetos tipo (10 tesis), entre los que
figuraron: tesis de especializacin, maestra y doctorado. Se calcul el costo para
crear la base de datos, del anlisis de los datos y el costo total en CUC al aplicar
las tcnicas estadsticas escogidas. Para usarla, debe identificar variables
dependientes e independientes, despus llegar a una medida de sntesis o a una
estimacin puntual til para sus datos que generalmente ir seguida de una
clasificacin general de las pruebas estadsticas. Se probaron los modelos:
y=b0*exp (b1*x) y v3=b0+b1*v1+b3*exp (b2*v2) para relacionar el costo total en
CUC con el tiempo para crear la base de datos y su tamao. Se encontr una R=
0,976; 0,99 y varianza explicada del 95,27%; 99,180 para cada modelo
respectivamente. Concluimos que la gua propuesta es til para seleccionar una
tcnica estadstica para el anlisis de datos en las investigaciones biomdicas.

Palabras Claves: Anlisis de datos, Bioestadstica, Gestin de la informacin,


Informtica.
Introduccin
El desarrollo que las nuevas tecnologas de la informacin y las comunicaciones
han logrado en tan corto tiempo ha permitido que la informacin sea valorada
como un elemento para el desarrollo, por lo que gestionar esa informacin sea una
meta importante para todas las organizaciones (1). En el espacio educativo esto
no ha sido la excepcin, sobre todo, en el nivel universitario donde ao tras ao se
ha incrementado de manera exponencial la cantidad de tecnologa que las
universidades adquieren y distribuyen en todas sus reas (2).
La Estadstica se ocupa de los mtodos y procedimientos para recoger, clasificar,
resumir, hallar regularidades y analizar los datos, siempre y cuando la variabilidad
e incertidumbre sea una causa intrnseca de los mismos; as como de realizar
inferencias a partir de ellos, con la finalidad de ayudar a la toma de decisiones y en
su caso formular predicciones. Subdividida generalmente en Estadstica
descriptiva: describe, analiza y representa un grupo de datos utilizando mtodos
numricos y grficos que resumen y presentan la informacin contenida en ellos y,
Estadstica inferencial: apoyndose en el clculo de probabilidades y a partir de
datos mustrales, efecta estimaciones, decisiones, predicciones u otras
generalizaciones sobre un conjunto mayor de datos.
El desarrollo y el nivel de aplicacin que la Bioestadstica, como herramienta til y
rigurosa en el campo de la investigacin en todas las Ciencias Sociales, han
experimentado en los ltimos aos, ha sido espectacular. Es indudable que este
progreso en el conocimiento y aplicacin de la Estadstica ha venido
estrechamente vinculado al que ha experimentado el rea de la computacin, un
segundo factor asociado a este progreso del conocimiento en el mbito estadstico,
ha sido el cambio de actitud experimentado por todos los profesionales de las
reas de Ciencias Sociales y especialmente, en el mbito de las Ciencias de la
Salud. Este cambio en la dimensin del ejercicio profesional, determina que los
planes de estudio de todas las licenciaturas y diplomados incluyan la
Bioestadstica para el mbito de Salud y Biologa, como materia troncal con
entidad propia y de autntica necesidad.
El principal objetivo a la hora de analizar los datos recogidos para una
investigacin, la eleccin de un mtodo de anlisis adecuado es crucial para evitar
llegar a conclusiones errneas. La seleccin de la tcnica de anlisis ms
apropiada ha de hacerse tomando en cuenta distintos aspectos relativos al diseo
del estudio y a la naturaleza de los datos que se quieren cuantificar. El nmero de
grupos de observaciones a comparar, la naturaleza de las mimas (segn se trate
de muestras independientes u observaciones repetidas sobre los mismos
individuos), el tipo de datos (variables continuas / cualitativas) o su distribucin de
probabilidad son elementos determinantes a la hora de conocer las tcnicas
estadsticas que se pueden utilizar (3).
Desde la perspectiva estadstica asistimos al desarrollo de nuevas herramientas
para el anlisis de datos como son: el anlisis conjunto, los modelos de
ecuaciones estructurales, y las redes neuronales entre otros, unidos a una
explosin de datos que hipotec nuestros recursos para manejar fsicamente y
analizar toda la informacin disponible (4).
En nuestra poca se destacan entre los paquetes estadsticos, ms utilizados los
siguientes: -SAS (Statistical Analysis System). Dirigido al mundo empresarial, las
universidades y las especialidades tcnicas. BMD (Biomedical Computer
Programs), enfocado principalmente hacia la medicina;-SPSS (Statistical Package
for the Social Sciences), que apunta hacia aquellas ciencias relacionadas con la
sociedad, y STATISTICA (Complete Analysis Statistical Package), integra las
ventajas de los dos anteriores.
Ajena a esta transformacin social se encuentran la gran mayora de nuestros
alumnos que cursan los primeros aos de alguna carrera de Ciencias Sociales o
Ciencias de la Salud. Sus nicos objetivos se centran en llegar a ser mdicos,
bilogos, psiclogos, y no alcanzan a entender que utilidad les puede reportar una
materia como la Bioestadstica en su currculo. En situacin diferente se
encuentran los alumnos de postgrado que ya han comenzado su vida profesional y
han tenido, por tanto, ocasin de darse cuenta de la utilidad que tiene la
Bioestadstica, pues una parte importante en la transmisin de los nuevos
hallazgos y conocimientos de otros colegas de su mbito profesional, es el
lenguaje estadstico. Es por ello que han de estar absolutamente familiarizados
con dicha terminologa si se pretende tener una actitud crtica y objetiva ante la
lectura de cualquier literatura cientfica.
Por otra parte todo lo que se publica es la verdad? De ser as y habida cuenta del
enorme nmero de investigaciones realizadas en los ltimos 50 aos, publicadas o
no, ya no quedara casi ninguna pregunta por contestar. Todos sabemos que ello
no es as. Aunque la estadstica ocupa un lugar central en la estructura y funcin
de un diseo de investigacin es incapaz de resolver los problemas generados por
la metodologa empleada. Lo inverso tambin es cierto: un diseo impecable
puede no dar los resultados esperados por mala eleccin de las estadsticas a
utilizar. El uso de hardware y paquetes estadsticos costosos -algunos de los
cuales tienen errores y limitaciones - tampoco garantiza nada (5)
En este contexto, debe entenderse que las tecnologas de informacin y las
telecomunicaciones no son ms que un medio para transmitir y gestionar datos,
informacin y conocimiento, y este ltimo es factor fundamental para la creacin de
riquezas (2).
El objetivo que nos propusimos en este trabajo consiste en brindar una caja de
herramientas a aquellos no expertos en bioestadstica la incorporen a su arsenal
de instrumentos que les permita escoger un anlisis estadstico a sus datos sin la
necesidad de poseer profundos conocimientos tericos sobre la materia. Este
trabajo fue escrito para cubrir este vaco.
Justificacin
El ingreso de la bioestadstica en las ciencias biomdicas ha sido justificadamente
bienvenido pero ha tenido y tiene algunos inconvenientes, no poco de los cuales
derivan de una magnificacin de su papel en relacin con la importancia crucial de
la metodologa de la investigacin. La estadstica no corrige, sino que suele
empeorar todos aquellos errores que se cometen en los mtodos, y stos son el
90% de la labor del investigador (5). Por otra parte los recursos informticos se
han centuplicado, los paquetes estadsticos se han popularizado (no todos,
algunos siguen siendo muy caros, poco amigables o francamente engorrosos) y
por lo tanto el resultado es que para el comn de los lectores de las revistas
cientficas mdicas resulta bastante complicado comprender que mtodos
estadsticos se aplicaron, y si eran o no adecuados a la pregunta y al diseo de la
investigacin. Entonces el subcaptulo "Statistical Analysis" o "Statistical Methods"
o "Metodologa Estadstica" pudiera ser ledo sin una razonable capacidad crtica
imprescindible a toda lectura cientfica.

La proliferacin, a veces abusiva, de los mtodos estadsticos y en especial de los


multivariados agrava esta situacin. Ms all del alcance de este artculo debe
tenerse en cuenta que algunos de estos mtodos tienen limitaciones e
inconvenientes matemticos y clnicos. Finalmente no todos los trabajos cientficos
mdicos publicados suelen especificar el software empleado y si lo hacen no
siempre se menciona la versin utilizada (las hay con errores, o con mtodos de
clculo dismiles o polmicos. Sin embargo debemos reconocer la repercusin y la
importancia que disponer de programas estadsticos para ordenadores significa
como impacto cultural, recurso prctico y estmulo para clnicos e investigadores
(6, 7, 8).

En estudios realizados en publicaciones europeas y norteamericanas, de un total


de 784 artculos de seis revista mdicas que utilizaron 1702 pruebas estadsticas,
las 10 ms frecuentemente utilizadas, que en conjunto constituyen el 74.6% de las
mismas, fueron: prueba de Student 241 (14.2%), Chi cuadrado 204 (12.0%),
ANOVA de una o ms vas, 158 ( 9.3%), Regresin logstica binaria 140 ( 8.2%),
Prueba de Fisher 106 (6.2%), Modelo de Cox 104 (6.1%), U test de Mann-Whitney
89 (5.2%), Mtodo de Kaplan-Meier 87 (5.1%), Prueba de Wilcoxon 71 (4.2%),
Correlacin-regresin lineales 70 (4.1%). Cuatro de las cinco pruebas ms
frecuentemente utilizadas son las clsicas para variables categricas (Chi
cuadrado y Fisher) y contnuas (t de Student y ANOVA), alternando con ella una de
multivariables como la Regresin logstica binaria (5).

Conceptualmente los tests utilizados pueden agruparse como: 1) Comparaciones


de promedios (media , mediana) o medidas de dispersin (varianza) , 630
(37.0%) , 2) Pruebas univariadas de asociacin-independencia entre variables
categricas , 421 (24.7%) , 3) Modelos multivariados de asociacin-independencia
para variables categricas y continuas con estimacin de Odds-Ratio y Riesgo
Relativo , 323 (18.9%) , 4)Estadsticos de sobrevida y ocurrencia de eventos , 138
(8.1%) , 5) Modelos bivariados de correlacin-regresin para variables continuas o
de rangos , 90 (5.3%). El resto corresponde a metodologas como comparaciones
interindividuos en mtodos de diagnstico, metaanlisis, etc. (5).

De los 712 artculos que utilizaron mtodos estadsticos descriptivos o


inferenciales, en 233 (32.7%) se dej constancia de la utilizacin de software
estadstico especfico. En total fueron mencionadas 269 aplicaciones de esta
clase: en 198 artculos se menciona un nico programa (85%), en 34 artculos 2
programas (14.6%) y en un trabajo 3 programas (0.4%). Existi constancia de la
versin del programa o paquete estadstico utilizado en 144 (53.5%) de los
mencionados. Una aplicacin era para computadora tipo mainframe, el resto para
computadoras personales (5).
Los paquetes ms empleados segn (5) fueron: SAS 89 (33.1), SPSS 64 (23.8),
STATA 20 ( 7.4), EPI INFO 14 ( 5.2), STAT VIEW 11 ( 4.1), EXCEL 8 ( 3.0), BMDP,
S-PLUS y JMP 6 ( 2.2) respectivamente, STATISTICA 5 ( 1.9), SIGMASTAT,
STATXACT, MINITAB, y REVIEW MANAGER con el 3 ( 1.1) indistintamente, STAT
SOFT, EGRET y MLN acaparraron el 2 ( 0.7) per cpita y, otros el 22 ( 8.2).

Sin embargo el hecho ms relevante, ratifica el mismo autor, es que en 67% de los
artculos no se especific el paquete utilizado aunque resultaba evidente que por el
tipo de prueba utilizada o el tamao muestral se haba empleado alguno, y que
cuando se hizo mencin del o los paquetes estadsticos empleados en casi la
mitad no se hizo referencia a la versin empleada. Estos hechos no tienen
significacin en pruebas que se calculan habitualmente de la misma manera y con
escasas variantes matemticas, pero si lo tienen en tests complejos donde
conocer sus detalles y variantes permiten interpretar mejor los resultados.

En entrevistas realizadas a varios profesionales, que se encontraban enfrascados


en desarrollar sus tesis de maestras y diplomados todos coincidieron en admitir
que no contaban con una gua que les permitiera escoger el anlisis adecuado
para el tipo de datos (variables) y el diseo de su investigacin (anlisis univariado,
bivariado o multivariable), adems reconocieron su pobre conocimiento sobre las
herramientas estadsticas y en el manejo de los paquetes estadsticos ms
utilizados como el SPSS y el STATISTICA, y que estas eran las razones bsicas
por la que solicitaban el servicio y al indagar sobre la parte del protocolo de sus
proyectos de investigacin reconocan y observamos que este aspecto era
deficiente.
Pero la tendencia ms avanzada de la bioestadstica en el mundo es darle un
tratamiento estadstico adecuado a la informacin y generar un conocimiento fiable
y de alta calidad.
Todo lo anterior nos motivo a recopilar una serie de herramientas estadsticas y
ponerlas al servicio de docentes, estudiantes e investigadores, especialmente a los
tutores de tesis, en forma de guin general como un recurso para su desarrollo
profesional sin incurrir en explicaciones tericas sobre cada instrumento.

Materiales y mtodos
Se realiz un estudio exploratorio, descriptivo, observacional con la finalidad de
obtener informacin relacionada con el anlisis estadstico de datos. Para
confeccionar el trabajo se parti de una revisin de la literatura sobre las
principales pruebas estadsticas que se utilizan en la actualidad (6, 10-14) y a partir
de los esquemas propuestos en la misma se dise un esquema (Anexo 1 - 5).
Cuando utilice los esquemas (Anexo 1 4) observe que:
1. Las medidas subrayadas con una sola lnea son estimaciones mustrales
puntuales (media, mediana etc.)
2. Las tcnicas subrayadas con una lnea doble se utilizan para realizar
pruebas de significacin estadstica o para construir intervalos de
confianza.
3. El tipo de las pruebas se indica con lneas horizontales por encima y por
debajo.
4. La palabra o indica que cualquiera de las pruebas mencionadas es
aceptable para responder a la misma pregunta; sin embargo, la prueba
situada en primer lugar tiene ms potencia estadstica o se usa con mayor
frecuencia, o ambas cosas a la vez.
5. Al final, en un recuadro, se indica un algoritmo simple de trabajo para
trabajar con el programa Statistica.
El universo de trabajo esta constituido por el total de tesis de especializacin y
maestra que se atendieron en el departamento de Informtica e Investigacin del
centro durante septiembre de 2008 a abril de 2009 y, la muestra fue por sujetos
tipo (10 tesis), por ser un estudio exploratorio. Toda la investigacin se bas en la
aplicacin directa de dicha herramienta a un conjunto de trabajos cientficos entre
los que figuraron: tesis de especializacin, maestra y un doctorado.
Adems se midi el tiempo promedio invertido en escoger la tcnica para cada
anlisis, el de introducir los datos primarios en el programa (crear la base de
datos), la duracin total del anlisis de los datos mediante el uso del paquete
estadstico Statistca (sin tener en cuenta el tiempo anterior y, se calcul el costo
para crear la base de datos, y del anlisis de los datos al aplicar la tcnica
estadstica escogida (Estadstica descriptiva, Correlaciones, Anlisis de
Supervivencia mediante regresin de Cox, Regresin Logstica y, Anlisis de
Series Cronolgicas), donde se tuvo en cuenta, que cada vez que se utilice la PC
para gestionar informacin u otra actividad consideramos que se le cobrara al
usuario 6.00 CUC/ hora, es decir 0.10 CUC/minuto. Adems se calcul el costo
total en CUC sumando el costo para crear la base de datos ms el del anlisis de
los datos. No se cuantific el tiempo dedicado a explicar y aclarar dudas respecto a
los resultados obtenidos en los anlisis estadsticos.
Para analizar la informacin se elabor una base de datos, que se proces con el
paquete estadstico STATISTICA versin 8.0.360 para Windows de 2008, mediante
el modulo Advanced Linear/Nonlinear Models/ NonlinearEstimation/User-specified
regression, custom loss function, donde se probaron los modelos: y = b 0 * exp(b1*x)
y v3=b0+b1*v1+b3*exp(b2*v2 ), con el uso del mtodo de estimacin de Quasi-
Newton y de Rosenbrock and Quasi-Newton respectivamente, con la funcin de
prdida (OBS-PRED)**2. Toda la informacin se resumi en tablas y grficos
estadsticos.

Anlisis y discusin de los resultados

A continuacin se indica como pueden utilizarse los esquemas (Anexos 1 4):


La primera consiste seguir el esquema hasta descubrir cuales son los tipos de
tcnicas de estadsticas apropiados para una investigacin determinada. Para usar
el esquema de esta manera, primero debe identificar una o ms de dos variables
dependientes (es decir no mtricas: nominal, ordinal y, mtrica: de razn (son
aquellas que poseen un cero real y, de intervalos (poseen un punto cero arbitrario)
y luego cero, una o ms variables independientes. Seguidamente, ha de decidir el
tipo de la variable dependiente (esto es mtrica o no mtrica). Una vez que haya
tomado estas decisiones, el esquema lo conducir a la siguiente parte aplicable a
sus datos. Siguiendo el dibujo, llegar a una medida de sntesis o a una estimacin
puntual til para sus datos que muchas veces va seguida de una clasificacin
general de las pruebas estadsticas. Al final encontrar un recuadro con una
indicacin mnima del camino a seguir para realizar el anlisis con el paquete
estadstico Statistica.
Por otra parte, como lectores de literatura mdica, lo que nos interesa ms a
menudo es comprobar si la prueba seleccionada por otros es apropiada. En este
caso el esquema puede utilizarse como una ayuda para encontrar el nombre de la
prueba seleccionada y siguiendo el esquema hacia atrs, determinar si la prueba
es una eleccin lgica para los datos analizados.
Aplicacin de las tcnicas estadsticas multivariables (Anexo 5).
Cuando consideremos la aplicacin de tcnicas estadsticas multivariante, la
primera cuestin que debemos preguntar es:
1. Pueden dividirse las variables mediante clasificacin de:
Dependiente e Independiente, basndose esta clasificacin en
alguna teora?
2. La respuesta a esta pregunta nos indica si debemos realizar un anlisis de:
Dependencia: Es aquel donde una o un conjunto de variables es
Identificada como la variable dependiente y que
ser explicada por otras variables, conocidas
como variables independientes.
Interdependencia: Es aquel donde ninguna variable o grupo de
variables es definida como dependiente o
independiente, ms bien, el procedimiento
implica el anlisis de todas las variables del
conjunto simultneamente.
3. Si puede hacerse Cuntas de estas variables son tratadas como
dependiente en un anlisis simple.
4. Cmo son las variables medidas?:

- Continuas o de razn
Mtricas: - Intervalos

No mtricas - Nominales
- Ordinales

Adems es importante sealar que del total de tesis que se utilizaron en la


investigacin: dos venan con una propuesta vaga del tipo de anlisis a realizar.
cinco de ellas no tenan una propuesta definida y tres con propuesta errnea.
La figura 1, muestra la relacin entre el costo total en CUC y el tiempo en crear la
base de datos, mediante el uso del mdulo Advanced Linear/Nonlinear Models/
Nonlinear Estimation/User-specified regression del paquete estadstico Statistica,
probando el Modelo: Costo total en CUC=b0*Exp(b1*tiempo para crear la base de
datos), como se aprecia los valores del costo total se incrementan en cinco veces
(pasan de 50 a 250 CUC) y se encontr efecto significativo entre las variables a
p< 0,05, adems el coeficiente de correlacin de R= 0,976 y que el modelo
explic el 95,27% de la variabilidad de los datos por lo que demuestra que puede
ser utilizado en la prediccin del costo.
La figura 2, establece la relacin entre el costo total en CUC y el tiempo en crear y
el tamao de la base de datos. Mediante el uso del mdulo Advanced
Linear/Nonlinear Models/ Nonlinear Estimation/User-specified regression del
Statistica, se puede observar que el costo total se incrementa de a ms de 250
CUC, si el tamao de la base de datos pasa de 280 datos a 10 500,
simultneamente si el tiempo de crear dicha base pasa de 5 a 45 horas, adems el
tiempo que se utiliza en el procesamiento de los datos (incluido en el costo total)
por el programa estadstico vari concomitantemente de 12 a 25 minutos
(incrementando el costo de 1 CUC a 3 CUC). Se encontr efecto significativo entre
las variables a p< 0,05, adems el coeficiente de correlacin de R= 0,99 y que el
modelo explic el 99,18% de la variabilidad de los datos por lo que demuestra que
tambin puede ser utilizado en la prediccin del costo.
Es por ello que los costos se hacen mximos en relacin el tamao de los
documentos, siendo menores cuando el documento es de menor tamao y el
tiempo que se invirti en su elaboracin es mnimo (ver toda la tonalidad en verde),
mientras que las tonalidades ms fuertes se asocian a costos ms elevados,
tamaos de la base de datos elevados y, tiempo mayores en su elaboracin
incrementan los costos totales. Los mismos pueden reducirse mediante el uso de
una tecnologa disponible ms eficiente, que propicie una mayor velocidad en el
procesamiento de los datos, y de esto depende la usabilidad del sistema y su
economa.

En otro orden de cosas las plantas generadoras de electricidad en el pas


consumen las menos eficientes entre 280-295 Kw/g de diesel y las ms eficientes
alrededor de 210 Kw/g. Una tonelada de petrleo tiene 8 barriles y este ltimo se
cotiza en el mercado mundial actualmente a 59.74 USD, por lo que la tonelada
cuesta 477.92 USD, es decir 0.477 USD el kilogramo, 0.000477 USD el gramo, por
lo que las plantas que consumen entre 280-295 g/Kw generado, le cuesta a la
economa del pas 0.13 0.14 USD/Kw y las que consumen 210 g/Kw el costo es
de 0.10 USD/Kw. Mientras que la computadora con la que se trabaj (Intel [R]
Celaron [R] CPU 3.05 - 3.06 Ghz, 224 MB de RAM) consume 0.200 Kw/hora (2
Kw en 10 horas) y al pas le cuesta producir un Kw 0.10 0.14 USD, entonces en
10 horas de trabajo consecutivas de una mquina costara cerca de 0.20 0.28 0
USD solo por concepto de generacin de electricidad.

Conclusiones
La gua propuesta es una herramienta til para seleccionar una tcnica
estadstica para el anlisis de datos en las investigaciones biomdicas.
Evita errores en el diseo estadstico que definen la veracidad y la calidad
de una investigacin.
Reduce las perdidas en divisas, ms la prdida de tiempo, salarios, y
aumenta la calidad del conocimiento.

Recomendaciones
Se recomienda utilizar esta herramienta y los modelos evaluados por
estudiantes, docentes, profesionales en el rea de las investigadores
biomdicas.

Bibliografa
1. Gmez D, Castro P, Curbelo I. Propuesta para facilitar el ordenamiento de la
gestin de la informacin en la Delegacin Territorial del CITMA, Cienfuegos.
Ciencias de la Informacin Vol. 34, No. 3, diciembre, 2003. pag. 39-47.

2. Lpez de la Madrid, M.C., Espinoza, A. y Flores, K. (2006). Percepcin sobre las


tecnologas de la informacin y la comunicacin en los docentes de una
universidad mexicana: el Centro Universitario del Sur de la Universidad de
Guadalajara. Revista Electrnica de Investigacin Educativa, 8 (1). Consultado el
13 de mayo de 2008 en: http://redie.uabc.mx/vol8no1/contenido-espinoza.html

3. Altman DG. Practical Statistics for Medical Research. London: Chapman & Hall,
1991.)1. Metodologa de la Investigacin. Prtega Daz S, Pita Fernndez S
Unidad de Epidemiologa Clnica y Bioestadstica. Complejo Hospitalario Juan
Canalejo (ACorua). Centro de Salud de Cambre (A Corua) 2007.
4. Anlisis Multivariante 5ta ed. JF Hair, RE Anderson, RL Thatam, WC Black,
Univ. Autonoma de Madrid, editoria Prentice Haal Iberia, Madrid l, 1999 ).
5. Jorge Pouso. La estadstica mdica entra en un paquete?. Rev. INFOSUIR. N
8 1, 2002).
6. Hair F, Anderson RE, Tathan RL, Black WC. Anlisis multivariante. 5ta ed.
Editorial Prenticed Hall Iberia. Madrid. 1999.
7. Zimprich D, Perren S, Hornung R. A twolevel confirmatory factor analysis of a
modified Rosenberg Self-esteem scale. Educ Psychol Meas. 2005; 65(3):465 81.
8. Ruiz M. Introduccin a los modelos de ecuaciones estructurales. Madrid:
Ediciones UNED; 2000.
9. Schermelleh-Engel K, Moosbrugger H, Mller H. Evaluating the fit of Structural
Equation Models: Tests of significance and descriptive goodness-of-fit measures.
Methods of psychological research online. 2003; 8(2):2374.

10. Herndez S. Metodologa de la Investigacin. 2da ed. Ciudad: Edicin; Ao.

11. Bayarre H, Maritza O. estadstica Inferencial. Tecnologa de la salud.Ciudad de


La Hbana: ECIMED; 2005.

12. SPSS, Inc. Statistical Package for the Social Science (SPSS) for Windows
[computer program] versin 12.0. Chicago, Illinois, United State of Amrica: SPSS;
2000.

13. STATISTICA, Stsoft inc., Tulsa oK, for Windows [computer program] versin
8.0.3. Tulsa, United State of Amrica: STATISTICA, 2008.

14. Riegerman RK, Hirsch RP. Cmo estudiar un estudio y probar una prueba:
lectura crtica de la literatura mdica. 2 a ed. Washington, D:C: Organizacin
Panamericana de la Salud; 1992 (Publicacin cientfica 531).
Anexo 1. Esquema para seleccionar una tcnica estadstica un variante para variables dependientes mtrica y no mtrica:

VARIABLE DEPENDIENTE MTRICA: VARIABLE DEPENDIENTE NO VARIABLE DEPENDIENTE NO


CONTINUA. MTRICA: ORDINAL. MTRICA: NOMINAL.

PRUEBAS DE NORMALIDAD
PRUEBAS DE NORMALIDAD PRUEBAS DE NORMALIDAD PRUEBAS DE NORMALIDAD
PRUEBAS DE NORMALIDAD No aplicables PRUEBAS DE NORMALIDAD
.Kolmogorov-Smirnov No aplicables
.Kolmogorov-Smirnov No aplicables
Shapiro-Wilk's PRUEBAS DE HOMOGENEIDAD No aplicables
Shapiro-Wilk's PRUEBAS DE HOMOGENEIDAD PRUEBAS DE HOMOGENEIDAD
Lilliefors No aplicable PRUEBAS DE HOMOGENEIDAD
Lilliefors No aplicable
PRUEBAS DE HOMOGENEIDAD No aplicable
PRUEBAS DE HOMOGENEIDAD No aplicable
Bartlett
Bartlett
Cochran
Cochran
Hartley
Hartley
Bronw y Forsythers
Bronw y Forsythers
Wetch
Wetch

Proporcin Tasa

Media Mediana Desenlace Comn Desenlace raro

t de Student Prueba de Wilcoxon Binomial Aproxi. Poisson Aprox. Aprox.


o del Signo Binomial Poisson Poisson

Statistica: Algoritmo de trabajo Statistica: Algoritmo de trabajo Statistica: Algoritmo de trabajo


Statistics/Basic Statistics and Statistics/Nonparametrics /Ok Statistics/Distribution Fiting/Ok
Tables/Frecuency tables/Ok
Anexo 2. Esquema para seleccionar una tcnica estadstica bivariante para variables dependientes mtrica y no mtrica:

VARIABLE DEPENDIENTE MTRICA: VARIABLE DEPENDIENTE VARIABLE DEPENDIENTE NO


CONTINUA. NOMTRICA: ORDINAL. MTRICA: NOMINAL.

Variable indep. Variable indep. Variable Indep. Variable Indep. Variable Indep. Variable Independiente
Nominal Nominal Nominal Ordinal Nominal Nominal o Continua

Variable indep. Variable indep. Variable indp. Variable indep. Diseo para Diseo para Pendiente y
aleatoria o de una muestra de una muestra de una muestra datos apareados datos indep. punto de
intencional aleatoria aleatoria o inten- aleatoria insercinal
cional

Diferencia Regresin lineal Anlisis de Mediana Coeficiente de Razn Diferencia Diferencia Razn de
entre Correlacin (Si existe) correlacin de de entre de Productos
medias Spearman P.C. Proporcin Tasas Cruzados
Kendal tau (OR) o Razn o Razn
Pendiente y Ganma
punto de intersercin
t de Coeficiente de Mann Whitney Prueba de Prueba de Aproxim. Aproxim. X de X
Student t deStudent correlacin de o test Mediana Spearman Mac Nemar a Binomial Binomial Mantel - para
Pearson o de o X o ten-
OF Eta Exacta Fiher Haenszel dencia
t de Student o F

Statistica: Algoritmo de trabajo Statistica: Algoritmo de trabajo Statistica: Algoritmo de trabajo Statistica:
Statistics/Basic Statistics and Statistics/Regresin/Ok Statistics/Nonparametrics /Ok y Statistics/GLZ
Tables/Ok/ Statistics/Distribution Fiting/Ok
Anexo 3. Esquema para seleccionar una correlacin e independencia para tablas de contingencia.

VARIABLE DEPENDIENTE VARIABLE DEPENDIENTE NO VARIABLE DEPENDIENTE


MTRICA: CONTINUA. MTRICA: NOMINAL. NOMTRICA: ORDINAL.

Ordenada por rangos

Variable Variable Variable Variable Variable Variable Variable Variable


indep. independientes indep.
nominal nominal nominal nominal nominal ordinal ordinal ordinal
ordenada
por rangos

Tablas Tablas Tablas Tablas Tablas Tablas Tablas Tablas


nxn nxn 2x2 Mayores nxn nxn nxn nxn
de 2 x 2

Eta Fi Coeficiente V de Lambda Ganma Rho de D de Somers


de contingencia Cramers ( b) () Spearman
C de (V) y Tau de
Pearson (C) Kendall
Statistica: Algoritmo de trabajo Statistica: Algoritmo de VARIABLE DEPENDIENTE VARIABLE DEPENDIENTE
Statistics/Nonparametrics /Ok trabajo MTRICA: CONTINUA. MTRICA: CONTINUA.
Statistics/Basic Statistics
and Tables/Ok/
Anexo 3 A. Interpretacin de los coeficientes de correlacin e independencia para tabulaciones cruzadas.

Coeficientente Interpretacin

- Fi Vara de 0 a +1, donde cero implica ausencia de correlacin entre


variables y +1 significa que las variables estn correlacionadas
perfectamente
-Coeficiente de contigencia Cero indica ausencia de correlacin, pero su valor mximo depende
o C de Pearson (C). del tamao de la tabla de contingencia. Con tablas
2x2 vara de 0 a 0,707. si se trata de tablas 3x3 vara de 0 a
0,816
- V de Cramer (V) Es un ajuste de Fi en mayores de 2x2. Vara de 0 a +1 con
Variables nominales 0 es nula correlacin y +1 es correlacin
Perfecta.
Lambda ( b) Se utiliza con variables nominales y vara de 0 a +1 (+1 significa que
puede predecirse sin error a la variable dependiente definida en la
tabla, sobre la base de la independiente.
- Ganma Vara de -1 a +1 (-1 es una relacin negativa perfecta y +1 una
relacin positiva perfecta).
- Tau-b de Kendall (Tau-b) Vara de -1 a +1, se interpreta igual que la anterior.
- D de Somers Vara de -1 a +1, se interpreta igual que la anterior.
- Eta Es un indicador de cuan dismiles son las medias en la variable
dependiente dentro de las categoras de la independiente. Si
Son idnticas, es igual a cero. Cuando son muy diferentes y las
varianzas dentro de las categoras de la independiente son pe
queas, este puede incrementarse hasta 1.

a
Fuente: Sampier R. Metodologa de la Investigacin. 2 ed.
Anexo 4. Esquema para seleccionar una tcnica estadstica multivariable para variables dependientes mtrica y no mtrica:

VARIABLE DEPENDIENTE MTRICA: VARIABLE DEPENDIENTE VARIABLE DEPENDIENTE NO


CONTINUA. NOMTRICA: ORDINAL. MTRICA: NOMINAL.

Variable indep. Variable indep. Variable Indep. Diseo datos Diseo datos Variable Independiente Variables independientes
Nominal Continua Cont. o Nominal Independientes apareados Nominal Nominales o continuas

1 2 1 2 3 4 3 4
Diseo no Diseo VIMAOI VIMA VIMAO VIMA VDT VNDT VDT VNDT
apareados apareados

Prueba de Prueba de Proporcin Incidencia


8 9
Kruskall-Wallis Friedman o Razn o (riesgo) RPC DEP
5 6 5 6 7 8
Medias Medias CR CD CR CD o Bartolomeu ANOVA TSA RPC

ANOVA ANOVA Anlisis Anlisis ANCOVA Anlisis Anlisis de Anlisis Regresin Regresin Anlisis
MANOVA MANOVA Regresin Correlacin MANCOVA Correlacin Tablas de vida Estratificado de Cox logstica Discriminante

F; Student; Newman-K euls F; F parcial Log-rank Mantel- Haenszel RMP10 RMP10 RMP10

(1) (2) (2) (2) (1) (2)


Statistica: Algoritmo de trabajo Statistica: Algoritmo de trabajo Statistica: Algoritmo de trabajo Statistica: Algoritmo de trabajo
(1) Statistics/Nonparametric/Ok (1) Statistics/GLZ/Ok /
Statistics/ANOVA/MANOVA/OK Statistics/Regresin/Ok (2) Statsitics/Advanced (2)Statsitics/Multivariate/Explora
Statistics/ANOVA/MANOVA/OK Linear/Nonlinear Models/OK tory tecnics/OK
1 2
VIMAOI: Variable independiente de una muestra aleatoria o intencionada; VIMA: Variable independiente de una muestra aleatoria o
3 4 5 6
intensionada; VDT: Variable dependiente del tiempo; VNDT: Variable dependiente del tiempo; CR: Coeficiente de regresin; CR:
7 8 9
Coeficiente de determinacin; TSA: Tasa de supervivencia acumulada; RPC: Razn de Productos Cruzados; DEP: Diferencia entre
10
proporciones; RMP: Razn de mxima probabilidad.
Anexo 5. Esquema para seleccionar una tcnica estadstica multivariable para variables dependientes mtrica y no mtrica:
Qu tipo de relaciones estn siendo medidas?
Qu tipo de relaciones estn siendo medidas?
DEPENDENCIA INDEPENDENCIA

Cuntas variables estn prediciendo o explicando?: Es la estructura de relaciones entre?:


Cuntas variables estn prediciendo o explicando?: Es la estructura de relaciones entre?:

Mltiple relaciones Varias variables Una variable dependiente Variables Casos/Encuestados Objetos
dependientes e dependientes en una en una relacin nica
independientes relacin nica

Cul es la escala de
Modelo de Ecuacio nes Cul es la escala de Cul es Anlisis Cmo son los
medida de la
lasescala
varia de Anlisis Anlisis Cluster Cmo son los
Modelo de oEcuacio nes
estructurales Cul es
medida de la
lasescala
varia de medida de las varia Factorial Anlisis Cluster atributos?
bles dependientes? Factorial atributos?
estructurales
Path Anlisis. o medida
bles de las varia
dependientes? bles dependientes?
Path Anlisis. bles dependientes?
Mtrica No mtrica Mtrica No Mtrica
Mtrica No mtrica
Regresin mltiple Anlisis discriminante mltiple
Regresin mltiple Anlisis discriminante mltiple
Cul es la escala de
Cul es
medida de la
lasescala
varia de Anlisis conjunto Modelos Logia y Probit
Anlisis de correla Anlisis conjunto Modelos Logia y Probit
medida de las varia
bles predictor? Anlisis de correla
ciones cannicas con
bles predictor? ciones cannicas
variables ficticias con No mtrica
variables ficticias
Mtrica No mtrica
Anlisis de
Anlisis de
correspondencias
Anlisis multidimencional
Anlisis multidimencional correspondencias
Anlisis de correla
Anlisis de correla Anlisis multivariable de
ciones cannicas Anlisis
ciones cannicas varianzamultivariable
MANOVA de
varianza MANOVA
F IG U R A 1 . R e l a c i n e n tr e e l c o s to to ta l e n C U C y e l ti e m p o e n c r e a r la b a s e d e d a to s . M e d i a n te e l u s o d e l
m d u lo A d v a n c e d L i n e a r / N o n l i n e a r M o d e l s / N o n l i n e a r E s t i m a t i o n / U s e r - s p e c i fi e d r e g r e s s i o n
d e l S t a t i s t i c a , p r o b a n d o e l M o d e lo : C o s to to ta l e n C U C = b 0 * E x p ( b 1 * tie m p o p a r a c r e a r la b a s e d e d a to s ) .
y= 3 4 ,8 3 7 7 * e xp ( ( ,0 5 0 7 6 2 ) * x)
R = ,9 7 6 y V a r ia n z a e x p l ic a d a : 9 5 ,2 7 % p - n i ve l 0 ,0 0 0
400

350

300
Costo total en CUC

C :1 0
250
C :7
C : C9 : 3
200

150
C :6

100
C :8
5 0 C :1
C : 4C : 2
C :5
0
0 5 10 15 20 25 30 35 40 45
T ie m p o p a r a c r e a r la b a s e d e d a to s , e n h o r a s
F IG U R A 2 . R e l a c i n e n tr e e l c o s to to ta l e n C U C y e l ti e m p o e n c r e a r y e l ta m a o d e l a b a s e d e
d a to s . M e d ia n te e l u s o d e l m d u lo A d v a n c e d L in e a r/N o n lin e a r M o d e ls / N o n lin e a r
E s t i m a t i o n / U s e r - s p e c i fi e d r e g r e s s i o n d e l S t a t i s t i c a , p r o b a n d o e l M o d e l o : C o s t o
to ta l e n C U C = b o + b 1 * /T ie m p o p a ra c re a r la b a s e d e d a to s + b 3 * E x p (b 2 * T a m a o
d e l a rc h iv o )
z = ( 7 ,8 5 4 5 1 ) + ( 5 ,8 0 8 0 2 ) * x + ( 7 ,2 8 7 4 7 ) * e x p ( ( - 3 ,2 9 4 ) * y )
R = ,9 9 5 8 9 V a r ia n c e e xp la in e d : 9 9 ,1 8 0 % p - n ive l 0 ,0 0 0

C :1 0

CC C::39: 7

C :6

C :8

CCC ::1:42
C :5

> 250
< 250
< 200
< 150
< 100
< 50
MINISTERIO DE SALUD PBLICA
FILIAL DE CIENCIAS MDICAS
Dr. EFRAN BENTEZ POPA
BAYAMO GRANMA

Titulo: Gua prctica para decidir el tipo


de anlisis estadstico en investigaciones
biomdicas.

Autores:

Ing. Pedro E. Boza Torres


MSc. Lic. Teresa Guilarte Labrada
Lic. Oslaidi Liriano Leyva
Lic. Juan Miguel Reyes Domnguez
LIc. Yaderine Prez Snchez
AO DEL 50 ANIVERSARIO DEL TRIUNFO DE LA
REVOLUCIN
2009

Das könnte Ihnen auch gefallen