You are on page 1of 16

EVALUACIÓN DE MÉTODOS ESTADÍSTICOS UTILIZADOS EN

TRABAJOS DE GRADO Y TESIS DE LOS PROGRAMAS DE LA


FACULTAD DE CIENCIAS AGROPECUARIAS, EN UN PERÍODO DE
TRES AÑOS

Hernán Echavarría Sánchez1; Guillermo Correa Londoño2; Juan Fernando Patiño Díez3;
Juan José Acosta Jaramillo4 y Jairo Alberto Rueda Restrepo5
____________________________________________________________________

RESUMEN

Se hizo un censo de los métodos estadísticos usados en los trabajos de grado y tesis realizados en
un periodo de tres años (1999-2001) en la Facultad de Ciencias Agropecuarias de la Universidad
Nacional, sede Medellín. En casi la mitad de los trabajos evaluados se encontró al menos un error
(49,2 %). A nivel de pregrado, en el programa de Ingeniería Forestal se observó el menor
porcentaje de trabajos con al menos un error; mientras que el mayor porcentaje fue observado en
Ingeniería Agrícola. La mayoría de los errores se originaron en la poca claridad sobre el papel de la
estadística como herramienta para la consecución de los objetivos planteados en los trabajos, lo
cual se reflejó en que los trabajos incluyeran resultados estadísticos que en nada contribuían al
cumplimiento de los objetivos, en que se omitieran resultados relevantes para su satisfacción y/o en
que habiéndose generado resultados pertinentes, no se les diera discusión alguna.

PALABRAS CLAVE: Evaluación de métodos estadísticos, trabajos de grado, tesis.

ABSTRACT

EVALUATION OF STATISTICAL METHODS USED IN FINAL PROJECTS AND THESIS OF


THE FACULTAD DE CIENCIAS AGROPECUARIAS, OVER A THREE-YEAR PERIOD

A census of the statistical methods used in the final projects and thesis of the Facultad de Ciencias
Agropecuarias of the Universidad Nacional de Colombia, Sede Medellín over a three-year period was
done (1999-2001). In almost half of the evaluated works (49,2 %), at least one error was found. At
the undergraduate level, the smallest proportion of at-least-one-error works was observed in the

1
Profesor Asistente. Universidad Nacional de Colombia, Sede Medellín. Facultad de Ciencias Agropecuarias. A.A.
1779, Medellín, Colombia. <hechavar@unal.edu.co>
2
Profesor Asociado. Universidad Nacional de Colombia, Sede Medellín. Facultad de Ciencias Agropecuarias. A.A.
1779, Medellín, Colombia. <gcorrea@unal.edu.co>
3
Ingeniero Forestal. Universidad Nacional de Colombia, Sede Medellín. Facultad de Ciencias Agropecuarias. A.A.
1779, Medellín, Colombia. <jfpatino@unalmed.edu.co>
4
Ingeniero Forestal. Smurfit Kappa Cartón de Colombia S.A. Cl 15 18-109 Puerto Isaacs Yumbo, Cali, Colombia.
<juan.acosta@smurfitkappa.com.co>
5
Instructor Asociado. Universidad Nacional de Colombia, Sede Medellín. Facultad de Ciencias Agropecuarias. A.A.
1779. <jarueda@unal.edu.co>

Recibido: Febrero 24 de 2006; aceptado: Agosto 10 de 2006.

Rev. Fac. Nac. Agron. Medellín. Vol.59, No.2. p. 3465-3580. 2006.


Echavarría, H.; Correa, G.; Patiño, J.F.; Acosta, J.J.; Rueda, J.A.

Ingeniería Forestal program, whereas the higher proportion was observed in the Ingeniería Agrícola
program. A great bulk of errors was originated in the lack of conscience about the role of statistics
as a tool for the achievement of objectives. As a consequence, some works included statistical
results that had nothing to do with the objectives; they omitted relevant results and/or failed to
discuss them when they appeared.

Key Words: Statistical methods evaluation, Final projects, Thesis.


_________________________________________________________________________________

INTRODUCCIÓN principales errores conceptuales en que


incurrieron los estudiantes al hacer uso de
En los trabajos de grado y tesis, los métodos estadísticos, a fin de
requisitos parciales para obtener el proponer los cambios necesarios en los
título académico en programas de cursos de Bioestadística I (3000009),
pregrado y Maestría, respectivamente, Bioestadística II (3000010) y Métodos
los estudiantes hacen uso frecuente de Estadísticos para la Investigación
la estadística inferencial y, en menor (3000021).
medida, de la estadística descriptiva,
para el análisis y presentación de sus
resultados. En cualquier caso, los mé- MATERIALES Y MÉTODOS
todos deben ser seleccionados con base
en definiciones precisas de los objetivos Se realizó un censo de los trabajos de
específicos, la población objetivo y las grado y tesis realizados en la Facultad
restricciones existentes en la toma o de Ciencias Agropecuarias durante el
generación de la muestra. periodo 1999–2001. No se tomaron en
consideración los trabajos realizados en
La Universidad Nacional de Colombia la especialización en Ciencia y Tecnología
tiene un compromiso con la comunidad de Alimentos, pues la exigencia para éstos
en general, en cuanto a la veracidad del es de una monografía, la cual
conocimiento que se genera a través de generalmente no implica un análisis
los trabajos de grado y tesis de sus estadístico. Inicialmente se consideraron
estudiantes; de ahí la importancia de 189 trabajos, de los que se analizaron
detectar los principales errores concep- los 179 que usaron métodos esta-
tuales en que se está incurriendo en los dísticos (172 trabajos de grado y 7 tesis
análisis estadísticos que estos conllevan, de Maestría), distribuidos así: 16
con el fin de aplicar algunas medidas trabajos de grado de Ingeniería Agrí-
preventivas que eviten la continuación de cola, 55 de Ingeniería Agronómica, 45
tal situación y que den validez externa a de Ingeniería Forestal, 56 de Zootecnia
su producción académica. y 7 tesis de la Maestría en Bosques y
Conservación Ambiental.
Mediante este trabajo se buscó deter-
minar, para el período evaluado, el Se elaboró una base de datos en la cual
porcentaje de trabajos en los cuales el se consignó información relacionada con
(los) método(s) estadístico(s) utilizado(s) los métodos estadísticos usados en cada
fue(ron) inadecuado(s) e identificar los uno de los trabajos, se evaluó el uso

3566 Rev. Fac. Nac. Agron. Medellín. Vol.59, No.2. p. 3465-3580. 2006.
Evaluación de métodos estadísticos...

adecuado o inadecuado de los mismos, un error. En cuanto a pregrados se


definiendo para cada uno de ellos una refiere, en Ingeniería Forestal se observó
lista de errores, carencias y violaciones el menor porcentaje de trabajos de
evidentes a los supuestos; todos éstos grado con al menos un error; mientras
fueron denominados con el nombre que el mayor porcentaje fue observado
genérico de “errores”. No se incluyó en en Ingeniería Agrícola. El porcentaje de
tal lista el uso inadecuado o impreciso errores fue similar en los trabajos de
del lenguaje técnico. Seguidamente, se grado de Ingeniería Agronómica y en
realizó un análisis descriptivo y se los de Zootecnia; en ambos casos, tal
discutieron los aspectos más relevantes. porcentaje es cercano al 60 %. El menor
porcentaje global de trabajos con al
menos un error se observó en las tesis de
RESULTADOS la Maestría en Bosques y Conservación
Ambiental. En la Figura 1 se discriminan
Evaluación de métodos los trabajos por programas con base en la
estadísticos. En casi la mitad de los detección de al menos un error.
trabajos evaluados se detectó al menos

100,0

80,0
Error (%)

60,0

40,0

20,0

0,0
I. Agrícola I. Agronómica I. Forestal Zootecnia Maestría Total

Sin errores 37,5 41,8 71,1 42,9 85,7 50,8

Con errores 62,5 58,2 28,9 57,1 14,3 49,2

No. trabajos 16 55 45 56 7 179

Figura 1. Porcentaje de trabajos por programa en la Facultad de Ciencias


Agropecuarias, con al menos un error, 1999 y 2001.

Identificación de los principales Asimismo, se consideró inadecuado incluir


“errores” cometidos. Entre las resultados que no se mencionaron o
carencias consideradas genéricamente analizaron en el trabajo y que, en
como “errores”, una muy frecuente algunos casos, ni siquiera contribuían al
consistió en indicar el uso de métodos o logro de los objetivos planteados. Por
pruebas, sin incluir ningún tipo de otro lado, la no especificación del diseño
resultado que respaldara la discusión. experimental usado o la presencia de

Rev. Fac. Nac. Agron. Medellín. Vol.59, No.2. p. 3465-3580. 2006. 3567
Echavarría, H.; Correa, G.; Patiño, J.F.; Acosta, J.J.; Rueda, J.A.

inconsistencias en las tablas de valos de confianza del parámetro p de


resultados también se clasificó como una población binomial. También se
“error”, ya que ello genera dudas acerca calcularon, para variables ordinales,
del grado de compenetración de los intervalos de confianza para los
investigadores con la situación estudiada parámetros µ y σ.
y, por tanto, sobre su capacidad para usar
la información disponible de manera Prueba de hipótesis para dos pará-
adecuada. metros. En uno de los seis trabajos
que mencionaron este método se utilizó
Para la mención y posterior discusión de un valor tabular inadecuado para la
los diferentes errores detectados, éstos prueba realizada.
se clasificaron de acuerdo al método
estadístico en el cual fueron hallados. Diseño completamente al azar. En el
No se discuten los métodos en los 66,67 % de los 42 trabajos en que se
cuales no se detectaron errores, ni utilizó este diseño se presentaron errores
aquéllos donde se incluyeron resultados tales como no aleatorización; no
que no se analizaron o donde el error realización de pruebas de comparación de
consistió en no presentar resultados del medias a pesar de que el análisis de
método utilizado. varianza resultó significativo o viceversa;
tras obtener Análisis de Varianza no
Medidas de tendencia central. En el significativos se procedió a realizar nuevos
3,25 % de los 154 trabajos en que se análisis de varianza sobre sub-conjuntos
obtuvieron, se calculó la media para de tratamientos, con el fin de buscar
variables medidas en escala ordinal o, significancia. En un trabajo se detectó el
tratándose de variables medidas en uso de seudo repeticiones, en otros se
escala de razón, se usó la media como usó el diseño completa-mente al azar, a
medida de tendencia central en una pesar de estar identificada una fuente
muestra conformada por datos sesgados. de variación adicional a los
tratamientos. En algunos trabajos se
Medidas de dispersión. En 4,84 % de detectaron inconsistencias en las tablas
los 124 trabajos en que se obtuvieron, de análisis de varianza presentadas y en
se calculó la varianza para variables un trabajo se hizo una interpretación
medidas en escala ordinal. errónea de los estadísticos calculados.

Gráficos. En el 1,52% de los 132 Diseño de bloques al azar . Entre el


trabajos en que utilizó este recurso se 40 % de los 10 trabajos en que se usó
usaron histogramas para graficar las este diseño se encontraron los
frecuencias de variables categóricas. siguientes errores: no aleatorización;
se ignoró la estructura factorial de los
Intervalos de confianza. En el 19,44 tratamientos; no se realizaron pruebas
% de los 36 trabajos en los que se de comparación de medias, a pesar de
usaron, se utilizó la aproximación que el Análisis de Varianza resultó
normal –con un número insuficiente significativo, y en un caso se utilizó el
de observaciones– para hallar inter- diseño experimental inadecuado.

3568 Rev. Fac. Nac. Agron. Medellín. Vol.59, No.2. p. 3465-3580. 2006.
Evaluación de métodos estadísticos...

Diseño completamente al azar con justificación para el uso de los bloques; no


arreglo factorial. Entre el 65,22 % de se realizaron pruebas de comparación de
los 23 trabajos en que se usó se medias a pesar de que el análisis de
encontró como error más frecuente el varianza fue significativo y en un trabajo
evaluar efectos principales a pesar de se utilizó como criterio de bloqueo un
que la interacción entre los factores fue factor que presentaba interacción
significativa. También se observó que evidente con los tratamientos.
no se analizaron interacciones o se hizo
de manera incorrecta; se evaluaron Diseño de cuadrados latinos con
efectos de factores que no fueron arreglo factorial. Sólo un trabajo
significativos en el análisis de varianza; incluyó este diseño pero se ingnoró la
se llego a incluir menos factores de los estructura factorial de los tratamientos.
que realmente se usaron en el
experimento; se ignoró la autocorre- Diseño de parcelas divididas en el
lación entre los errores de diferentes tiempo. En seis de los 10 trabajos que
lecturas tomadas en el tiempo; se incluyeron este tipo de análisis se encon-
evaluaron efectos simples cuando la traron los siguientes errores: interpreta-
interacción entre los factores no había ción errónea de los estadísticos calcula-
sido significativa; se declararon diferen- dos; desconocimiento de la auto-
cias significativas entre los tratamientos correlación entre los errores de diferentes
sin haber realizado pruebas de com- lecturas tomadas en el tiempo; no se
paración de medias; en un trabajo no se evaluó un efecto principal significativo;
realizaron pruebas de comparación de análisis individuales en el tiempo sin el
medias a pesar de que el Análisis de respaldo de un análisis conjunto en el que
Varianza fue significativo. En otros casos se incluyera el tiempo como uno de los
se usó el diseño completamente al azar, a factores; conclusiones inconexas con los
pesar de estar identificada una fuente de resultados estadísticos; declaración de
variación adicional a los tratamientos; se diferencias significativas sin el respaldo de
hizo interpretación errónea de los las correspondientes pruebas de medias,
estadísticos calculados o se detectaron y en un trabajo el análisis de las
inconsistencias en las tablas de análisis de interacciones fue incorrecto.
varianza presentadas.
Diseño cross–over. Este diseño se
Diseño en bloques al azar con utilizó en cinco trabajos y en tres de ellos
arreglo factorial. En tres de los seis se detectaron los siguientes errores: el
trabajos que usaron este diseño, el diseño era inadecuado para la situación y
error que más se presentó fue el no no se realizaron pruebas de comparación
analizar las interacciones o hacerlo de de medias, a pesar de haberse obtenido
manera incorrecta; además se evaluaron un análisis de varianza significativo.
efectos principales a pesar de que la
interacción entre los factores resultó Prueba de Kruskal–Wallis. En uno
significativa; se detectó una fuente de de los cuatro trabajos que utilizaron
variación adicional a los tratamientos y esta prueba, el diseño experimental no
los bloques. En un trabajo no había era completamente al azar.

Rev. Fac. Nac. Agron. Medellín. Vol.59, No.2. p. 3465-3580. 2006. 3569
Echavarría, H.; Correa, G.; Patiño, J.F.; Acosta, J.J.; Rueda, J.A.

Pruebas de comparación de Regresión polinómica. Se detectaron


medias. Se realizaron 76 de este tipo los siguientes errores entre 5 de los 11
de pruebas, de las cuales 31 trabajos que utilizaron el método: se
presentaron algún tipo de error. En este presentó un modelo polinómico en el
informe se consideraron de manera cual el término de mayor orden no fue
agrupada pues el error sistemático fue significativo; se hizo extrapolación; en
su uso a pesar de que el análisis de un trabajo las conclusiones no
varianza no fue significativo. correspondían con los resultados; en
Adicionalmente, en un trabajo se otro, se detectó una posible auto-
informó haber usado la prueba de correlación de errores pues se hicieron
Duncan para la evaluación de contrastes medidas repetidas en el tiempo sobre
y en otro trabajo se detectó una los mismos individuos; y en dos de los
interpretación errónea de las trabajos, se identificó que los resi-
comparaciones realizadas. duales presentaban varianzas hetero-
géneas.
Regresión simple. Se detectaron los
siguientes errores en 16 de los 36 Correlación. Este tipo de análisis se
trabajos en que se uso el método: se realizó en 25 trabajos y en el 56 % de
usaron modelos de línea recta para ellos se detectaron errores tales como
modelar asociaciones evidentemente usar los resultados del análisis de
curvilíneas; se detectaron extrapola- correlación como prueba de causalidad
ciones; se detectaron situaciones en que y el uso del coeficiente de correlación
los residuales presentaban varianzas lineal en una asociación no rectilínea.
heterogéneas; en un trabajo se inclu-
yeron resultados que no coincidían con el Análisis de conglomerados. En
problema planteado y en otro las cuatro de los 16 trabajos que utilizaron
conclusiones no correspondían con los este método se realizaron
resultados estadísticos. agrupamientos dentro de un mismo
dendrograma con base en diferentes
Regresión múltiple. En casi el 46 % puntos de corte.
de los 24 trabajos que utilizaron este
método se encontraron las siguientes Muestreo aleatorio simple. En uno
fallas: se realizaron extrapolaciones; se de los ocho trabajos en que se
presentó un modelo final en el cual mencionó, se utilizó este esquema
algunos de los coeficientes no eran muestral, cuando existían estratos
significativos; se detectó una posible claramente identificados.
autocorrelación de errores pues se
hicieron medidas repetidas en el tiempo Muestreo estratificado. En el único
sobre los mismos individuos y en otro trabajo en el que se encontró este
trabajo, se detectó que los residuales esquema muestral se utilizó una
presentaban varianzas heterogéneas. fórmula incorrecta para calcular el
número de unidades muestrales.

3570 Rev. Fac. Nac. Agron. Medellín. Vol.59, No.2. p. 3465-3580. 2006.
Evaluación de métodos estadísticos...

DISCUSIÓN brindar recomendaciones en muchos de


los casos, más que en el porqué de los
Una discusión integral de los errores mismos. En tal sentido, no se discuten los
detectados tendría que analizar el métodos en los cuales no se detectaron
porqué de los mismos, lo cual se dificulta errores, ni aquéllos donde el error
por tratarse de eventos relacionados con consistió en incluir resultados que no se
conductas académicas, más que con analizaron o en no presentar resultados
fenómenos naturales y por la forma en del método utilizado. Esta última situa-
que se colectó la información. Es posible ción también fue encontrada por Olsen
mencionar algunos eventos que, com- 2003, en 14 % de los artículos revisados
binados entre sí o de manera aislada, son en la revista Infection and Immunity.
determinantes en dicho proceso. El
problema puede tener origen en una El hecho de que en 3 de los 5
deficiente formación en la aplicación de programas evaluados, los trabajos con
los métodos estadísticos, lo cual a su vez al menos un error superaran los
podría deberse a un inadecuado enfoque trabajos en los que no se detectaron
de las correspondientes asignaturas o a la errores y que en general casi la mitad
poca conciencia por parte del estudiante de los trabajos evaluados (49,2 %)
de la importancia de tales herramientas contenía al menos un error, constituye
para su transcurrir académico en la una alerta para estudiantes, directores
Universidad y su posterior desempeño de trabajos y jurados, pues la veracidad
profesional. Estos errores podrían, del conocimiento que se generó a través
asimismo, estar asociados con la de tales trabajos se vio afectada, no
inadecuada o inexistente asesoría esta- haciéndose un uso óptimo de la
dística, así como con un deficiente información en los casos más favorables,
seguimiento de las instrucciones suminis- o llegando a conclusiones totalmente
tradas en una adecuada asesoría incorrectas en los casos más extremos.
estadística. A partir de la revisión de los
informes finales, no les es posible a los Aunque estos resultados son inferiores a
autores de este estudio determinar cuáles los hallados por otros autores en
de las anteriores circunstancias aplican a estudios similares, ello no significa que
cada trabajo. la situación sea menos preocupante,
sólo evidencia que no se trata de un
Además, en los casos en los que las problema local. Kanter y Taylor 1994, al
conclusiones no corresponden con los revisar 57 artículos de la revista
resultados del método estadístico, no es Transfusion, encontraron que el 75 %
posible discernir si se trata de errores de los mismos presentaba algún tipo de
involuntarios por parte del estudiante o error estadístico; MacArthur y Jackson
de un desconocimiento de la adecuada 1984, quienes evaluaron 114 artículos
interpretación de los resultados. del Journal of Infectious Diseases,
encontraron que un 95 % de los
Por lo anterior, la presente discusión se mismos presentó algún tipo de error
centra en ilustrar las implicaciones de estadístico. Los resultados más similares
los principales errores detectados y en serían los de Olsen 2003, quien

Rev. Fac. Nac. Agron. Medellín. Vol.59, No.2. p. 3465-3580. 2006. 3571
Echavarría, H.; Correa, G.; Patiño, J.F.; Acosta, J.J.; Rueda, J.A.

encontró errores en al menos la mitad Al evaluar características medidas en


de los 141 artículos revisados en la escala ordinal, resulta inadecuado utilizar
revista Infection and Immunity. la media y la desviación estándar como
medidas de resumen, pues dado que en
Teniendo en cuenta el compromiso de este tipo de variables la distancia entre
la Universidad con la comunidad y los los diferentes niveles o categorías no es
importantes recursos invertidos en el constante, la media aritmética no refleja
desarrollo de los trabajos, se hace la verdadera tendencia central de los
urgente tomar acciones correctivas que datos. Consecuentemente, la desviación
eviten la continuación de tal situación y estándar tampoco resulta adecuada, por
que den validez externa a la producción ser una medida basada en la media. En
académica de la Facultad. estos casos, deben usarse la mediana y
la desviación mediana como medidas de
resumen.
IDENTIFICACIÓN DE LOS
PRINCIPALES ERRORES Aunque los estadísticos de forma se
utilizan frecuentemente como valores
Estadística descriptiva. Al evaluar el de referencia para inferir sobre la
uso de medidas de resumen, se distribución normal de un conjunto de
encontró que en algunos trabajos en los datos, no se recomienda su uso aislado
que se incluyeron medidas de tendencia para tal fin; en estos casos es preferible
central, éstas no se acompañaron con al utilizar una prueba formal de bondad de
menos una medida de dispersión. Aunque ajuste. Una aplicación adecuada y poco
el uso aislado de una medida de frecuente de los estadísticos de forma,
tendencia central no se considera erróneo en particular del coeficiente de
per se, ésta debe ir acompañada por un asimetría, es orientar sobre la medida
estadístico de dispersión siempre que de tendencia central más adecuada
ello sea posible, con el fin de describir para el conjunto de datos, pues la
de manera más completa el conjunto de media, que es la medida de tendencia
datos. Esta carencia puede deberse al central más utilizada, sólo resulta
hecho de que las medidas de tendencia adecuada cuando no se presenta una
central, a diferencia de las medidas de asimetría muy marcada; en caso
dispersión, tienen una interpretación contrario, se recomienda el uso de la
más directa, aún por aquellas personas mediana. Por lo anterior, se sugiere
que tomaron sus cursos de estadística usar siempre el coeficiente de asimetría
hace mucho tiempo. como guía para la elección de la medida
Los errores relacionados con las medidas de tendencia central (y, en
de tendencia central y de dispersión se consecuencia, de dispersión) más
asocian con el uso indiscriminado de la adecuada.
media y la varianza sin tomar en
consideración algunas características de En lo que a las herramientas gráficas de
los datos, como la escala de medición y la la estadística descriptiva se refiere,
simetría de los mismos. existen dos figuras que por su forma a
menudo son confundidas: los histo-

3572 Rev. Fac. Nac. Agron. Medellín. Vol.59, No.2. p. 3465-3580. 2006.
Evaluación de métodos estadísticos...

gramas de frecuencias y los diagramas conoce la probabilidad de acierto en la


de barras. Los histogramas de frecuen- estimación del parámetro. En tal
cias se usan cuando se tienen variables sentido, se considera que los intervalos
cuantitativas; en éstos las barras son de confianza deberían usarse más a
adyacentes y su ubicación corresponde menudo como complemento a otros
con el orden intrínseco de la variable. métodos; en particular, en la pre-
Los diagramas de barras se deben utilizar sentación final de los resultados, donde
cuando se tienen variables cualitativas; en aportarían valiosa información adicional
éstos las barras están separadas y su sobre los parámetros de interés, bien sea
ubicación no responde a un orden en el ámbito del diseño de experimentos,
particular. El uso de un histograma para la regresión o el muestreo.
la caracterización de una variable
cualitativa podría generar la falsa idea El uso de la aproximación normal para
de continuidad de dicha variable. obtener intervalos de confianza del
parámetro p de una población binomial
Una situación detectada cuando se resulta especialmente inadecuado
hacía uso de métodos descriptivos cuando el tamaño de la muestra es
consistió en hacer afirmaciones propias pequeño. En tales casos, lo más
de la estadística inferencial, sin usar las adecuado es obtener el intervalo de
herramientas propias de ésta. Cabe confianza exacto, usando la distribución
recordar que para generalizar a las binomial. De manera general, dada la
poblaciones los comportamientos de las actual disponibilidad de herramientas
muestras que las representan, no basta tecnológicas, se recomienda obtener en
con reportar la magnitud de las todos los casos el intervalo de confianza a
diferencias observadas; deben usarse partir de la distribución exacta.
métodos inferenciales, los cuales per-
miten cuantificar la probabilidad de Tras calcular medidas de resumen para
error de las aseveraciones realizadas. variables ordinales (mediana y des-
viación mediana), no es adecuado
construir intervalos de confianza para los
ESTADÍSTICA INFERENCIAL parámetros µ y σ. Lo anterior resulta
más evidente si se tiene en cuenta que µ
Estimación. En diversos campos de las y σ son los parámetros de una dis-
Ciencias Agropecuarias, como la tribución normal, la cual resulta
producción, el mejoramiento y la inadecuada para modelar fenómenos
modelación de fenómenos naturales, medidos en escala ordinal. Olsen 2003,
entre otros, con frecuencia se busca también menciona esta situación en
estimar parámetros. Si bien, tal artículos médicos, donde se usaron
estimación puede realizarse de manera métodos que requerían la distribución
puntual, los intervalos de confianza normal de los datos y éstos tenían una
representan un método más completo, distrbución sesgada.
pues además de suministrar info.-
mación sobre la tendencia central y la Pruebas de hipótesis. El usar valores
dispersión de la variable de interés, se tabulares inadecuados, ya sea por

Rev. Fac. Nac. Agron. Medellín. Vol.59, No.2. p. 3465-3580. 2006. 3573
Echavarría, H.; Correa, G.; Patiño, J.F.; Acosta, J.J.; Rueda, J.A.

errores en el nivel de significancia, en retirar el efecto de los bloques del


los grados de libertad o en la distribución modelo cuando dicho efecto no resulta
requerida, hace que las probabilidades “significativo”, realizando un nuevo
reales de error no coincidan con las análisis de los datos con base en el
nominales, lo que conlleva la sobre- análisis de varianza de una vía (Diseño
estimación o subestimación del riesgo Completamente al Azar).
de error o incluso la toma de decisiones
incorrectas acerca del juego de hipó- Acorde con Manly 1992, la no
tesis planteado. aleatorización y/o el uso de seudo repeti-
ciones generan falta de independencia, lo
Diseño de experimentos. Se cual afecta la estimación del error
presentan las siguientes consideraciones experimental y la validez interna del
relaciona-das con los errores detectados ensayo, propiciando que los efectos de los
en algunos de los trabajos en los que se tratamientos se confundan con efectos de
realizaron experimentos diseñados. Uno otros factores no considerados en el
de los errores más básicos consiste en experimento (factores de confusión).
usar un diseño experimental inadecuado, Dos acciones erróneas que hacen que el
bien sea por la no inclusión de fuentes de nivel de significancia real de la prueba
variación reconocidas o por la inclusión de supere el nivel de significancia nominal
supuestas fuentes de variación dentro son: realizar pruebas de comparación
del modelo con el ánimo de disminuir el de medias para un factor cuyo efecto no
error experimental o simplemente por resultó significativo (Lentner y Bishop
tradición. 1986, Steel y Torrie 1995) y realizar
nuevos análisis de varianza sobre
Un caso particular de la situación subconjuntos de tratamientos, con el fin
planteada anteriormente se presenta de buscar significancia. Estas acciones
cuando el experimento es sometido al responden a la creencia común de que
esquema de aleatorización restringida en todo ensayo experimental se deben
propio del Diseño de Bloques al Azar hallar diferencias significativas,
(aleatorización dentro de grupos), sin desconociendo que la no detección de
ningún criterio para ello, manteniendo o éstas constituye un resultado igualmente
retirando los bloques del modelo con importante para la aproximación a la
base en información a posteriori. En comprensión del fenómeno estudiado.
este caso se pueden cometer dos errores:
por un lado, evaluar la supuesta sig- El caso contrario ocurre cuando a pesar
nificancia de los bloques con base en el de que el Análisis de Varianza resulta
valor p generado por la mayoría de significativo, no se realizan pruebas de
programas estadísticos, lo cual, según comparación de medias ni contrastes,
Lenter, Arnold y Hinkelmann, citados por desconociendo que el análisis de
Kuehl 1994 y Petersen 1994, resulta varianza es una prueba general que en
incorrecto, pues no existe una prueba ningún caso permite concluir que
válida para evaluar la significancia de tal existen diferencias entre todas las
efecto. El otro error que puede medias; su significancia sólo implica que
cometerse en esta situación resulta de al menos dos de las medias comparadas

3574 Rev. Fac. Nac. Agron. Medellín. Vol.59, No.2. p. 3465-3580. 2006.
Evaluación de métodos estadísticos...

difieren, sin especificar cuáles son las diferencias entre los niveles de un factor
medias causantes de la significancia de no permanecen constantes a través de
la prueba. cada uno de los niveles de los otros
factores, resulta incorrecta la obtención
En ensayos experimentales que invo- de una diferencia promedio. Por tanto, la
lucran dos o más factores de interés, en evaluación de efectos principales sólo
ocasiones se ignora la estructura factorial procede cuando la interacción no es
de los tratamientos y se realiza el análisis significativa y el factor sí lo es. De la
de varianza que correspondería a una misma manera, resulta inadecuado
estructura unifactorial. Aunque tal forma evaluar efectos simples cuando la
de análisis no conlleva errores interacción no es significativa.
matemáticos, puede considerarse un
error metodológico, pues se En el área biológica son frecuentes los
desaprovecha la capacidad de tales ensayos en los que se realizan lecturas
estructuras de tratamientos para evaluar de una variable sobre una misma
las posibles relaciones existentes entre unidad experimental a través del
los factores evaluados y dificulta, en caso tiempo. Con ello se genera una estructura
de que tales relaciones existan, de covarianzas entre los errores
presentar recomendaciones específicas correspondientes a las diferentes lecturas
para cada uno de los niveles de los de una misma unidad experimental.
factores relacionados. Algo similar ocurre Para el análisis de este tipo de ensayos
cuando se ignora(n) alguno(s) de los deben usarse métodos que permitan
factores involucrados inicialmente en el modelar dicha estructura, la cual no es
experimento. manejable a través del análisis clásico
que asume que las covarianzas entre
Otro error detectado cuando se rea- errores son cero (errores
lizan experimentos con estructura independientes). Para tal efecto,
factorial de tratamientos consiste en pueden consultarse Littell et al. 1998,
evaluar efectos principales, a pesar de Littell et al. 1996 y SAS 1999, entre
que la interacción entre los factores otros.
resulte significativa (Petersen 1994).
Una interacción implica que las Un procedimiento que ha sido usado
diferencias entre los niveles de un factor por los investigadores para intentar
cambian, dependiendo de la obviar la modelación de la estructura de
combinación de niveles de los demás covarianzas consiste en realizar análisis
factores. La evaluación de un efecto individuales para cada uno de los
principal consiste en comparar las tiempos. Debe advertirse que este
medias de cada uno de los niveles de método no permite evaluar las ten-
un factor; estas medias se obtienen dencias de la variable respuesta a través
promediando todas las combinaciones del tiempo, por lo que no constituye un
que contengan el nivel de interés, verdadero método de análisis de medidas
estando allí involucrados todos los repetidas y, si bien puede resultar útil
niveles de los demás factores. Puesto para un análisis exploratorio, no es
que, en presencia de interacción, las

Rev. Fac. Nac. Agron. Medellín. Vol.59, No.2. p. 3465-3580. 2006. 3575
Echavarría, H.; Correa, G.; Patiño, J.F.; Acosta, J.J.; Rueda, J.A.

adecuado como método final de análisis Uno de los supuestos para el análisis de
(Littell et al. 1998). regresión es la homocedasticidad. Ésta
sólo puede evaluarse de manera objetiva
Uno de los supuestos del diseño de cuando se tienen repeticiones de los
bloques al azar es la aditividad; esto es, la valores de la variable independiente. En
no existencia de interacción entre bloques caso contrario, que es lo más frecuente,
y tratamientos. Cuando este supuesto no este supuesto se evalúa a través del
se cumple, el estimador del error gráfico de residuales estandarizados; aún
experimental es inadecuado, pues así, este procedimiento a menudo es
corresponde en realidad al efecto de tal omitido. Cuando las varianzas no son
interacción. En estos casos, no es posible homogéneas, no es posible obtener un
estimar el verdadero error experimental, a estimador adecuado de la varianza
menos que cada tratamiento esté promedio de las subpoblaciones de la
presente más de una vez dentro de cada variable dependiente para cada nivel de la
bloque (Lentner y Bishop 1986). variable independiente, razón por la cual
la inferencia realizada en tales situaciones
resulta inadecuada.
REGRESIÓN Y CORRELACIÓN
Regresión múltiple. Las
Regresión simple. Uno de los errores consideraciones hechas para los modelos
detectados obedece a que existe la de regresión simple, en general aplican
creencia de que la significancia de un también a los modelos de regresión
modelo de regresión lleva implícito el múltiple. Vale la pena, sin embargo,
buen ajuste del mismo. Esto, desde luego, resaltar algunos aspectos adicionales.
no es cierto, ya que la significancia de un
modelo de regresión lineal simple sólo El uso de modelos de regresión múltiple
indica la presencia de un efecto lineal para predecir valores de la variable
significativo, pero no da ninguna dependiente a menudo conlleva extra-
información acerca de posibles efectos polaciones, las cuales tienen las mismas
cuadráticos. implicaciones anotadas para el caso de
regresión simple. Su detección, sin
Otro error frecuente en el uso de los embargo, no es tan directa, pues no es
modelos de regresión es utilizarlo para suficiente que los valores usados para la
predecir valores de la variable respuesta a predicción estén incluidos en el rango de
partir de valores de la variable predictora valores usado para cada una de las
que están por fuera de la región usada variables independientes, sino que ten-
para ajustar el modelo. Esta acción no es dría que verificarse que la combinación
recomendable, ya que el comporta-miento evaluada esté en una región que haya
de un fenómeno en una región sido usada para el ajuste del modelo.
determinada no garantiza que dicha
tendencia se mantenga por fuera de la Exceptuando aquellos casos en los
misma, lo cual puede causar que las cuales deba respetarse el principio de
estimaciones así realizadas estén bastante jerarquía, un modelo final de regresión
alejadas de la realidad. sólo debe contener términos sig-

3576 Rev. Fac. Nac. Agron. Medellín. Vol.59, No.2. p. 3465-3580. 2006.
Evaluación de métodos estadísticos...

nificativos, pues de lo contrario se estaría Correlación. Al evaluar relaciones


viciando el modelo con relaciones entre variables a través del coeficiente
inexistentes, las cuales afectarían la de correlación, un error consiste en la
capacidad predictiva del mismo, así interpretación de éste como prueba de
como la estimación de los coeficientes causalidad, situación errónea pues dicho
de regresión, que miden el grado de coeficiente sólo refleja la existencia de
asociación entre las demás variables asociaciones lineales entre las variables
independientes y la variable respuesta. analizadas, sin que de ningún modo la
significancia de una correlación implique
Para el caso de los modelos de que el comportamiento de una de las
regresión, el principio de jerarquía variables sea responsable de los valores
mencionado anteriormente establece que tome la otra.
que si un término de orden k resulta
estadísticamente significativo, el mo- Como su nombre lo indica, el coeficiente
delo deberá contener todos los términos de correlación lineal simple sólo es ade-
de orden inferior a k, aunque éstos no cuado para caracterizar relaciones lineales
sean significativos. Este principio también entre variables, por lo que resulta erróneo
es aplicable a aquellos modelos que el uso del mismo para caracterizar otros
incluyen interacciones significativas, en tipos de relaciones. Por lo anterior, al
cuyo caso el modelo deberá incluir cada evaluar correlación entre dos variables, se
uno de los términos involucrados en la recomienda acompañar el uso del
interacción, aun si éstos no son coeficiente de correlación con el
significativos. correspondiente gráfico de dispersión.

Una situación ya mencionada en el Por lo anterior, la no significancia del


contexto de diseño de experimentos, coeficiente de correlación -sin el corres-
consistente en el uso de medidas pondiente diagrama de dispersión- no
repetidas en el tiempo sobre una misma podrá interpretarse como ausencia de
unidad experimental, aparece también relación entre las dos variables. Sólo
en el contexto de regresión, con las podría decirse que no existe relación lineal
mismas implicaciones allí anotadas (en entre las mismas.
este caso se habla de autocorrelación de
errores). Además de verse afectada cada
lectura por los valores registrados en los ESTADÍSTICA MULTIVARIADA
tiempos anteriores, lo que va en contra
del supuesto de independencia, los Al representar una clasificación jerár-
modelos ajustados carecerían de validez quica de individuos por medio de
externa, es decir, que no podrían utili- dendrogramas, la escogencia de los
zarse para describir el comportamiento de grupos, para un método de agrupa-
la población, pues en realidad se habría miento dado, debe estar acorde con la
modelado el comportamiento de unos medida de similitud/disimilitud elegida.
individuos. Si bien pueden plantearse diferentes
agrupamientos dependiendo del nivel
de detalle establecido, una vez que éste

Rev. Fac. Nac. Agron. Medellín. Vol.59, No.2. p. 3465-3580. 2006. 3577
Echavarría, H.; Correa, G.; Patiño, J.F.; Acosta, J.J.; Rueda, J.A.

se elija, deberá usarse para todas las Muchos de los errores se originaron en
agrupaciones dentro de ese nivel de la poca claridad sobre el papel de la
detalle. No es adecuado, por tanto, al estadística como herramienta para la
usar métodos de clasificación jerárquica, consecución de los objetivos plan-
fusionar subgrupos cuya disimilitud sea teados en los trabajos, lo cual se reflejó
mayor que la existente entre otros grupos en que éstos incluyeran resultados
declarados como diferentes. estadísticos que en nada contribuían al
cumplimiento de los objetivos, en que
Otros. Al plantear el esquema de se omitieran resultados relevantes para
muestreo para la caracterización de una su satisfacción y/o en que habiéndose
variable, la presencia de condiciones que generado resultados pertinentes, no se
puedan afectar su comportamiento, les diera discusión alguna.
generando subpoblaciones, hace ne-
cesario el uso de un esquema de El principal error detectado en el uso de
muestreo acorde, esto es, un muestreo los métodos de estadística descriptiva
estratificado. El uso del esquema de consistió en obtener medidas de
muestreo aleatorio simple en tales casos resumen no adecuadas para la
desaprovecha el conocimiento de tales naturaleza de los datos, ya fuera por
relaciones, haciendo ineficiente y posible- que éstos presentaban sesgo o porque
mente sesgada la caracterización de la se midieron en escala ordinal.
variable de interés.
En inferencia para una población, se
detectó que a pesar de la actual
CONCLUSIONES Y disponibilidad de herramientas tecno-
RECOMENDACIONES lógicas que facilitan la obtención del
intervalo de confianza exacto para el
En este trabajo se definieron una serie parámetro p de una población bino-
de falencias conceptuales, carencias y mial, se sigue obteniendo el intervalo de
violaciones evidentes a los supuestos, al confianza mediante la aproximación a la
aplicar métodos estadísticos. Todos distribución normal, lo cual resulta más
éstos fueron tratados y discutidos con el inadecuado cuando el tamaño de
nombre genérico de “errores”. En casi la muestra es pequeño.
mitad de los trabajos evaluados (49,2
%) se detectó al menos un error. A Los errores encontrados en los trabajos
nivel de pregrado, en Ingeniería en los que se aplicaron métodos de
Forestal se observó el menor porcentaje inferencia estadística para los pará-metros
de trabajos con al menos un error; de una y de dos poblaciones, pueden
mientras que el mayor porcentaje fue resumirse en uso inadecuado de la
observado en Ingeniería Agrícola. El aproximación normal. En algunos de los
porcentaje de errores es similar en los trabajos revisados en esta investigación
trabajos de Ingeniería Agronómica y en se obtuvieron intervalos de confianza con
los de Zootecnia; en ambos casos, tal base en dicha aproximación, sin tener en
porcentaje es cercano al 60 %. cuenta el tamaño de muestra; en otro
caso, se usó tal aproximación para

3578 Rev. Fac. Nac. Agron. Medellín. Vol.59, No.2. p. 3465-3580. 2006.
Evaluación de métodos estadísticos...

modelar variables ordinales, generando dominio de los métodos estadísticos. Este


incluso intervalos de confianza para µ y σ. proceso debe emprenderse desde el
En lo concerniente a los experimentos principio de la carrera, involucrando, no
diseñados los principales errores estu- sólo a los miembros de la Sección de
vieron asociados con una aleatorización Bioestadística, sino a todos los encar-
deficiente o nula, en el uso incompleto gados de las asignaturas donde se
de las técnicas del análisis de varianza, requiera el uso de tales métodos.
dejándose de usar los contrastes de
medias para responder las preguntas Específicamente, se considera oportuno
planteadas en los objetivos, o usando que en la asignatura Bioestadística I se
pruebas de medias forzadas (con haga más énfasis en el capítulo de
análisis de varianza no significativo). El inferencia estadística, especialmente en
mayor porcentaje de errores se observó lo relativo a pruebas de hipótesis, lo
en experimentos con estructura factorial cual podría hacerse a expensas de
donde la Interpretación de las disminuir el énfasis dado a la unidad de
interacciones en algunos casos no fue álgebra de probabilidades, limitando
adecuada, pues no se evaluaron efectos ésta a la presentación de las definiciones
simples cuando correspondía o se básicas y de las distribuciones de
evaluaron cuando en realidad se debía probabilidad más usadas.
analizar los efectos principales.
En relación a la asignatura Bioestadística
Entre los errores detectados al usar II, se considera innecesario continuar
métodos de regresión, los principales incluyendo en el programa el diseño de
estaban relacionados con el no cum- cuadrado latino, dado su poco uso. En
plimiento de supuestos tales como cambio debe incluirse información
homocedasticidad e independencia. Con relacionada con el análisis de medidas
menor frecuencia se presentaron mo- repetidas en el tiempo.
delos definitivos con términos no
significativos y la extrapolación de con- Aunque al momento de realizar el censo
clusiones por fuera del área analizada, no existían trabajos de la Maestría en
además del uso de modelos de línea Ciencias Agrarias, se considera que sus
recta para modelar asociaciones tesis podrían exhibir errores similares a
evidentemente curvilíneas. los detectados en los demás programas
de la Facultad, dado que las interac-
El principal error detectado en el uso de ciones entre estudiantes, profesores,
coeficientes de correlación tuvo que ver directores y jurados son, asimismo,
con su uso como prueba de causalidad. similares. Por tanto, el curso de Métodos
En un solo trabajo se identificó su uso Estadísticos para la Investigación,
para caracterizar una relación no manteniendo sus particularidades, de-
rectilínea. berá enfocarse también en prevenir
sobre los errores más frecuentemente
Como recomendación general, se consi- encontrados.
dera necesario concientizar al estudiante
sobre la importancia del adecuado

Rev. Fac. Nac. Agron. Medellín. Vol.59, No.2. p. 3465-3580. 2006. 3579
Echavarría, H.; Correa, G.; Patiño, J.F.; Acosta, J.J.; Rueda, J.A.

Se considera muy importante la parti-


cipación de los directores de trabajos de Littell, R. C., Henry, P. R. and Ammer-
grado y tesis en una revisión más man, C. B. 1998. Statistical analysis of
detallada de la metodología estadística, repeated measures using SAS pro-
con la realización de las correspondientes cedures. En: Journal of Animal Science.
consultas especializadas cuando la Vol. 76; p. 1216–1231.
situación lo amerite. Con base en los
correctivos que se sugieran, podrían Littell, R. C.; Milliken, G. A.; Stroup, W.
optimizarse los recursos invertidos en los W. and Wolfinger, R. D. 1996. SAS®
trabajos, obteniéndose la mayor infor- system for mixed models. Cary North
mación posible que apunte al logro de los Carolina, USA: SAS Institute. 633 p.
objetivos y/o que pueda dar lugar a
nuevos proyectos. Mac Arthur, R. D. and Jackson, G. G.
1984. An evaluation of the use of
statistical methodology in the Journal of
RECONOCIMIENTOS Infectious Diseases. En: Journal of
Infectious Diseases. Vol. 149, no. 3; p.
349-354.
Este trabajo fue realizado con el apoyo
financiero de la Dirección de investigación Manly, B. F. J. 1992. The design and
de la Universidad Nacional de Colombia, analysis of research studies. New York:
Sede Medellín –DIME- proyecto Cambridge University Press. 353 p.
030802611.
Olsen, C. H. 2003. Review of the use of
statistics in infection and immunity. En:
BIBLIOGRAFÍA Infection and Immunity. Vol. 71; p.
6689-6692.

Kanter, M. H. and Taylor, J. R. 1994. Petersen, R. G. 1994. Agricultural field


Accuracy of statistical methods in experiments: design and analysis. New
transfusion: a review of articles from York: Marcel Dekker. 409 p.
July/August 1992 through June 1993.
En: Transfusion. Vol. 34, no. 8; p. 697- SAS Institute. 1999. SAS/STAT. Guide
701. for personal computers. Versión 8. Cary,
NC: SAS. 378 p.
Kuehl, R. O. 1994. Statistical principles
of research design and analysis. Belmont, Steel, R. G. y Torrie, J. H. 1995.
USA: Duxbury Press. 686 p. Bioestadística: principios y procedi-
mientos. Mexico: McGraw Hill. 622 p.
Lentner, M. and Bishop, T. 1986.
Expemimental design and analysis. Zar, J. H. 1984. Biostatistical analysis.
Blacksburg, USA: Valley Book New Jersey: Prentice-Hall. 718 p.
Company. 557 p.

3580 Rev. Fac. Nac. Agron. Medellín. Vol.59, No.2. p. 3465-3580. 2006.