Sie sind auf Seite 1von 170

MEDICINA BASADA EN EVIDENCIAS

UNA HERRAMIENTA INDISPENSABLE PARA


ABORDARLA:

MANUAL DE ANALISIS SISTEMATICO DE


LITERATURA MEDICA CLINICA.
Versión 2004.

Dr.Patricio Herrera L.
Profesor Titular de la Universidad de Chile.
Pediatra e Infectólogo.
M.Sc. en Epidemiología Clínica
Universidad de Pennsylvania.
Hospital Clínico de Niños Roberto del Río.

®Derechos reservados.
6ª Ed. Marzo, 2004.
Inscrito en el Registro de Propiedad Intelectual con el N° 132-776 ( 28 de Mayo, 2003).
Este NO es un Manual de Medicina Basada en Evidencias (MBE), sino una herramienta
pensada para dar a conocer las bases de este enfoque actual de la Medicina Clínica. El
estudio y práctica de la MBE requieren otros recursos y abordan más capítulos que los
incluidos en este texto, que son los básicos.
La gran mayoría de las materias y conceptos contenidos en el texto no tienen la pretensión
de ser originales. Más bien, corresponden a la presentación, examen y aplicación de
conceptos y prácticas que son de dominio público.
Si algo hay de original en este Manual –y ello podría constituir en cierto modo un
inconveniente- es la aplicación de la metodología de la MBE con tres sesgos evidentes:
1) Está en castellano, pensada para médicos sin formación en Epidemiología Clínica. De
aquí los Apéndices y muchas de las notas al pie.
2) Está orientado a la práctica clínica pediátrica, con ejemplos recogidos de ésta.
3) La mayoría de los artículos usados como material de trabajo, se refieren a Infectología
Pediátrica. La razón de todo lo anterior es que el autor es pediatra clínico, infectólogo e,
incidentalmente, epidemiólogo clínico y este Manual, así como otros esfuerzos en esta
materia, surgieron como respuesta al respaldo inestimable y decisivo de la Sociedad
Latinoamericana de Infectología Pediátrica al desarrollo y diseminación de la
Epidemiología Clínica y la MBE.
4) “La verdad final” no existe en Ciencia. Todas la piezas de los paradigmas científicos son
perfectibles. No hay, pues, estudios perfectos. Los artículos aludidos en este texto lo
son en la medida en que han sido accesibles y útiles para demostrar asuntos en análisis. No
hay respecto a ellos intención alguna de juicio de valor ya que, por lo menos, representan el
fruto del esfuerzo investigador, con sus aciertos y limitaciones y, por encima de todo, la
dificultad inherente a emprender esta actividad creativa.
5) En Ciencia no hay recetas de cocina, como suele haberlas en Medicina Clínica. No
existen textos de como hacer ciencia. Lo que sí se ha ido acumulando en forma exponencial
es sobre como NO se hace ciencia. Del todo aplicable a la investigación científica en
Medicina Clínica, este concepto aproporcionará a quien ejerza análisis sistemático de
litertura médica, una imagen “en espejo” de la manera de hacer mejor investigación en esta
área particularmente difícil de la investigación científica.

6) Finalmente, es el propósito de este Manual contribuir a la adquisición, por parte del


médico clínico, las bases para una posición racional e independiente frente a cualquier
forma de dogmatismo que pretenda influir en las decisiones que debe tomar para resolver
los problemas de su o sus pacientes, en el marco de la MBE.

El autor, miembro de una comunidad clínica académica, de habla castellana, en formación,


acepta con agradecimientos cualquier objeción, sugerencia u otro aporte para el
perfeccionamiento de este Manual y del conocimiento de la MBE, frente a los cuales está
dispuesto, con especial afecto, al diálogo fraterno y, seguramente, enriquecedor entre
colegas.

Dr.Patricio Herrera Labarca.

2
Introducción.

“La evidencia proveniente de la investigación clínica se está convirtiendo cada vez más
importante en las decisiones de la práctica médica, a medida que se publica más y mejor
evidencia. Sin embargo, ¿cuándo es la evidencia lo suficientemente contundente como
para justificar cambios en la práctica?.
McQuay HJ., Moore RA “Using numerical results from systematic reviews in clinical
practice”. Ann.Intern.Med. 1997;712-20.

La medicina basada en evidencias ya es conocida por la comunidad médica, si bien su


trascendencia no puede ser completamente comprendida por muchos de nosotros.

La medicina basada en evidencias consiste en “el uso concienzudo, explícito y juicioso de


la mejor evidencia actual para tomar decisiones respecto al cuidado de pacientes
individuales” (Centre for Evidence Based Medicine, Universidad de Oxford, 1999). Esta
definición se ha ampliado para incluir el grado de experto del clínico correspondiente, así
como las preferencias del paciente como actor decisivo en la discusión de las estrategias
que preceden a lo que antes se llamó, simplemente, “decisión clínica”.

Este es el concepto central y el objetivo del proceso. Este Manual abarca una etapa de éste:
la búsqueda, en el material publicado, de la mejor evidencia disponible y contempla:

a) Identificar una duda o área de posible incertidumbre u obsolescencia del conocimiento


del clínico ante un problema de su paciente.
b) Transformar la duda en una pregunta clínica precisa, susceptible de ser respondida, que
tome en cuenta las características del paciente en cuestión.
c) Llevar a cabo una búsqueda de artículos primarios o secundarios que puedan responder
eficientemente la pregunta clínica: lo más al día y lo más conveniente para el paciente,
incluyendo sus posibilidades y preferencias.
d) Hacer un escrutinio del resultado de la búsqueda, en dos etapas: 1) eliminando aquellos
artículos que contienen fallas metodológicas que invalidan irrescatablemente las
conclusiones y 2) examinar los artículos restantes para extraer de ellos la respuesta al
problema. A esta fase está dedicado este manual.
e) Evaluar en qué medida estos datos son aplicables o compatibles con la solución del
problema del paciente (medir sus ventajas y desventajas, o bien, hacer un balance de los
beneficios y perjuicios potenciales de usar la información para solucionar el problema
del paciente en su contexto y consideraciones de su condición de persona).
f) Evaluar el resultado de la decisión que se tome a partir de lo anterior.

Este manual está dedicado, en especial, a resolver el punto “d”, seleccionar la “evidencia”
existente para seleccionar aquello que vale la pena examinar y proceder a ello, lo que
permite descartar lo que no sirve (fase rápida) o de selección (en negrita en los
cuestionarios de análisis).
En la medida de las posibilidades determinadas por la existencia de los datos necesarios,
resolver el punto “e”, examinar lo que parece honrar el esfuerzo (fase más lenta).

3
Entendemos por “evidencia” los hechos objetivos contenidos en un artículo, como son los
contenidos en las secciones “material, métodos” y “resultados”, y no necesariamente la
interpretación que dan sus autores en la sección “comentarios” o “resumen”. Mucho menos
la opinión de terceros. “Evidencia”, en este campo, no significa “prueba”, sino elemento
objetivo de juicio, más o menos válido.

Ya a esta altura se pueden predecir algunos resultados de este proceso:


Las “evidencias” son de una gran gama de categorías, desde la más sólida hasta la más
débil.
No siempre, más bien muchas veces, no existen evidencias suficientes o de la calidad que
aprenderemos a reconocer a lo largo de nuestro aprendizaje, para resolver nuestro
problema. El no encontrar evidencias, sin embargo, no significa que éstas no existan.
Debido a lo anterior y como alguna solución tendrá que tener la pregunta que nos hemos
hecho, deberemos recurrir lo mejor o menos deficiente que encontremos, si es nuestra
decisión resolver el problema de nuestro paciente.
Por otro lado, nos iremos sorprendiendo de la cantidad de áreas de la práctica clínica cuyas
bases no se afirman en lo que pronto sabremos que son las evidencias de mayor validez.
Finalmente, habrá casos en que la experiencia personal, si es contemplada en forma
juiciosa, o la de un experto, si realmente lo es, puede ayudarnos a salir del paso si nuestro
esfuerzo por hallar lo mejor no llega a buen puerto.

El objetivo del curso de análisis sistemático pretende, por consiguiente, habilitar al clínico
para desarrollar criterios independientes y válidos ante la información que se le ofrece para
resolver sobre determinado problema clínico.

Resaltamos el siguiente concepto general para evitar errores de interpretación: durante


mucho tiempo –desde siempre para muchos- hemos sido lectores de resúmenes “abstracts”
o de síntesis literarias hechas por terceros (los capítulos de los textos, por ejemplo). Este
manual es parte de un esfuerzo para terminar con la condición de simple lector de
resúmenes o síntesis hechas por otros. Al respecto, hay instituciones –cada vez más-
dedicadas a la elaboración de material basado en evidencias, especialmente en el rubro de
las revisiones clínicas (RC) y meta-análisis. Nuestro objetivo sería lamentablemente
malogrado si, luego de este esfuerzo, el antiguo lector de resúmenes se convierte en un
ilustrado y moderno lector de “Medicina Basada en Evidencias”, a través de revisiones
clínicas hechas por otros.
Finalmente, en el texto y en los cuestionarios, hemos incluido puntos que no aparecen en
las guías habituales de análisis sistemático. Están allí porque, en nuestra experiencia, es
importante tomarlos en cuenta.

¡Advertencia!: El uso del análisis sistemático de la literatura médica y la eventual práctica


de la Medicina Basada en Evidencias son absolutamente inútiles y hasta peligrosos, si el
enfrentamiento del paciente no arranca de una buena anamnesis y un buen examen físico.

Dr.Patricio Herrera L. Fax: 56 2 4753342. E-mail: pherrera@vtr.net

4
Contenido:

Página
Sección 1: Sobre diagnóstico 6

Sección 2: Sobre causalidad 49

Sección 3: Sobre pronóstico 83

Sección 4: Sobre terapia 95

Sección 5: Síntesis de información y meta-análisis 115

Sección 6: Estudios descriptivos 131

Sección 7: Apéndices 144


Apéndice 1: Likelihood ratios 144
Apéndice 2: Sesgos en pruebas diagnósticas 150
Apéndice 3: Sesgos en causalidad y otros. 155
Apéndice 4: Medidas de asociación en terapia 159
Apéndice 5: Glosario 165
Apéndice 6: Lecciones de análisis sistemático 175
Apéndice 7: Equivalencias terapéuticas 177
Apéndice 8: Diseños de investigación: ventajas e inconvenientes 182

5
SECCION 1.

SOBRE PRUEBAS DIAGNÓSTICAS.

“Los puntos clave de la historia y examen físico, en la mayoría de los trastornos específicos,
son(grandes como) mamuts y aquéllos derivados de la mayoría de las incursiones basadas en
alta tecnología, son (del tamaño de) enanos”. (En Sackett DL, Haynes RB, Tugwell P.
“Clinical Epidemiology”. Little, Brown & Co. Boston, 1985.p 119).

Generalidades:

El diagnóstico médico puede entenderse como un intento de tomar decisiones adecuadas usando
informción inadecuada (Riegelman RK. “Studying a Study and Testing a Test” Little, Brown &
Co.Boston, 1981).
Jamás se debe olvidar que el primer conjunto de pruebas diagnósticas (y mucho más) está
contenido en la buena anamnesis y el buen examen físico. Todo lo que sigue se refiere a las
pruebas que llamaríamos “paraclínicas”, pruebas o “tests” diagnósticos.
Los fines últimos de las pruebas diagnósticas son, evitando la biopsia o la necropsia (y, a veces,
otros procedimientos inconvenientes por dolorosos, incómodos, costosos o no disponibles)
reducir la incertidumbre del clínico ante la identificación de la condición que aflije a su paciente.
Los objetivos centrales de una prueba diagnóstica son ser reproducible y exacta. Todo lo cual es,
salvo excepciones, prácticamente imposible por la variabilidad que suele afectar a la prueba
diagnóstica, al grupo con enfermedad y al grupo sin enfermedad, constituyendo la variación de
estos dos últimos, la variabilidad poblacional (1). Una prueba diagnóstica perfecta, entonces,
daría los mismos resultados cada vez que se lleve a cabo en las mismas condiciones, en
poblaciones comparables y sus resultados permitiría identificar siempre a las personas enfermas
y diferenciarlas de las sanas. Nos guste o no, ello no es así en la vida real.

El asunto de esta sección se refiere al examen sistemático que debe aplicarse para juzgar sobre la
validez y utilidad, para la solución de problemas diagnósticos en nuestros enfermos, de una
prueba diagnóstica según aparece propuesta en un artículo de la literatura que consultamos
corrientemente. Antes de abordar los elementos del análisis sistemático, parece necesaria una
introducción sobre aspectos generales de las pruebas diagnósticas.
Las pruebas diagnósticas son los instrumentos que nos permiten resolver la incertidumbre que
implica decidir sobre la condición de salud de un paciente que nos consulta. Es decir, por un
lado contribuyen a despejar incógnitas tales como si una determinada persona está sana o
enferma, si la afecta o no una determinada enfermedad o, en otros casos, a identificar
correctamente la naturaleza del sindrome que lo afecta, cuando éste puede ser la expresión de
dos o más entidades nosológicas que se expresan en forma semejante, a veces indistinguibles
unas de otras. Es interesante reconocer que síntomas y signos o, más frecuentemente,
agrupaciones de ellos, operan como herramientas diagnósticas y de hecho, sabemos que la
anamnesis y el examen físico bien hechos orientan a un diagnóstico que con alta frecuencia es el
correcto. Las pruebas diagnósticas pueden servir, además, para evaluar la evolución de una
enfermedad; por ejemplo, los valores de la proteína C reactiva han sido propuestos para evaluar
el curso de ciertas enfermedades supurativas (1) . También pueden servir para establecer
pronóstico, como es el caso de la determinación del tipo de células que constituyen un tumor.
En este punto, es oportuno referirse a los siguientes conceptos necesariamente preliminares:

6
La anamnesis y el examen físico cuidadosos contienen elementos que operan como pruebas
diagnósticas y deben preceder a las pruebas o procedimientos diagnósticos instrumentales,
porque dan lugar al tema del diagnóstico diferencial .
Las proposiciones diagnósticas resultantes de la historia y examen físico deben ser ordenadas, en
términos de verosimilitud o probabilidad, antes de decidir el tipo y número de procedimientos
diagnósticos que se realizarán. Como se explicará más adelante, esta estimación de la
probabilidad pre-prueba diagnóstica es esencial para el cálculo correcto de los valores
predictivos derivados de la sensibilidad y especificidad estándar de las pruebas que se usarán en
seguida.
El resultado de una prueba diagnóstica debería implicar siempre la toma de una decisión basada
en sus resultados. La decisión va desde abstenerse de toda nueva acción, hasta continuar con
otras pruebas diagnósticas, prescribir o modificar una terapia o formular un pronóstico.
Las pruebas diagnósticas instrumentales (de laboratorio, imagenología, etc.), nacieron no sólo
de la necesidad de mayor exactitud diagnóstica, sino para evitar procedimientos impracticables
(autopsia), dolorosos o peligrosos (biopsias), desagradables (endoscopías), muy complejos o
muy costosos. Ejemplos notables del aporte de la tecnología en este campo, es la disponibilidad
de “kits” diagnósticos que se pueden llevar a cabo en la consulta misma o en un consultorio de
atención primaria y que suelen reemplazar procedimientos a veces largos y engorrosos. .
Otros conceptos importantes para el uso e interpretación de la literatura en que se proponen
nuevas pruebas diagnósticas son las siguientes:
La mayor ayuda diagnóstica es la que aporta una prueba cuando nuestra duda o disyuntiva
diagnóstica, antes de aplicar la prueba, es o está cercana al 50% en un paciente en el que,
clínicamente, dos entidades se presentan de la misma manera. Por ejemplo, en las etapas
iniciales de un síndrome meníngeo, la primera pregunta a resolver es si se trata o no de una
inflamación meníngea. La prueba por excelencia para resolver la incógnita es el examen del
líquido céfalo raquídeo obtenido habitualmente por punción lumbar. La segunda incógnita que
aparece es si se trata de un agente bacteriano o viral, para lo cual has pruebas rápidas con valores
variables de sensibilidad y especificidad (examen citoquímico completo) y pruebas de proceso
más lento (cultivo), con menos sensibilidad que especificidad. Las implicaciones exactas de esta
incertidumbre se analizan más adelante, al tratar las probabilidades pre-prueba.
En otras palabras cuando, si se trata de diferenciar una enfermedad A de una enfermedad B,
dado que las características de los síndromes de ambas entidades son similares, no hay manera
clínica de decidir si se trata de la enfermedad A o la enfermedad B.1 Y de saberlo dependen
importantes decisiones clínicas (por ejemplo, usar o no antibióticos).
Es el caso común de las infecciones respiratorias bajas en lactantes o los síndromes meníngeos
en el mismo grupo. Comúnmente, la duda diagnóstica en estas instancias y su dilema asociado
es sobre si la etiología es bacteriana o viral y si cabe o no prescribir antibióticos. En la medida
en que el sindrome del paciente se vaya estructurando de modo que cada vez sea más evidente el
diagnóstico de la enfermedad A y no la B (p.ej., porque se tienen nuevos antecedentes sobre el
paciente o se agregan signos o síntomas), menor será el aporte de la prueba diagnóstica que
diferencia A de B. En el extremo de este espectro, llega un momento en que las evidencias
clínicas son iguales o mejores que la prueba diagnóstica, en cuyo caso esta última puede resultar
innecesaria (por ejemplo, en varicela).

1En rigor, la disyuntiva de probabilidades 50:50 es excepcional. Sin embargo, variaciones importantes de
esta relación, en una u otra dirección, pueden no tener expresión clínica que permita diferenciar dos
enfermedades. Por otro lado, es frecuente que el clínico no tenga a mano la probabilidad pre-prueba de una
u otra.

7
Las pruebas diagnósticas se usan con objetivos diversos:

Para establecer valores normales basales. La discusión del concepto de “normalidad” es larga y,
eventualmente, podría llevar a confusión por lo que se omite en este texto. Sobre todo, porque
nuestra preocupación está enfocada en pruebas para descartar o confirmar enfermedad y lograr
diagnósticos diferenciales, más que al primer objetivo mecionado.

En el screening o “tamizaje”: se usa para detectar, en una población amplia, en principio sana,
individuos en riesgo de tener una enfermedad, en cuyo caso sirve para identificar a los que están
en riesgo de los que no lo están. La medición de presión arterial hecha por voluntarios en
centros de gran afluencia de público tiene este carácter. Los exámenes para hipotiroidismo y
fenilquetonuria en todo recién nacido, también cumplen un objetivo de este tipo.
(Eventualmente y en situaciones muy especiales, dependiendo de la trascendencia de la
enfermedad y las bondades de determinada prueba, se puede agregar como resultado la
medición de la incidencia o prevalencia de una enfermedad).

De pesquisa: en este caso, se usan para detectar determinadas enfermedades en grupos de


individuos que consultan por algún problema de salud. Un ejemplo común es el solicitar
hemograma y VES en niños con fiebre, o el efectuar una radiografía de caderas en un lactante
con antecedentes de displasia de caderas en familiares o nacido de parto en nalgas.

De confirmación diagnóstica: son los que se piden para confirmar o descartar una enfermedad
específica cuya existencia se sospecha fundadamente. Por ejemplo, hemo o mielocultivos en un
enfermo con sindrome clínico y hematológico de fiebre tifoidea o punción lumbar en un
paciente febril con sindrome meníngeo.

Para descartar uno o más diagnósticos, en el crítico proceso del diagnóstico diferencial en
enfermedades poco conspicuas: síndrome febril de causa no precisable clínicamente.

Para evaluar terapias. Tanto para iniciar intervenciones terapéuticas como para modificarlas una
vez iniciadas. Un ejemplo es el estudio del LCR en pacientes tratados con antibióticos por
meningitis bacteriana. Del mismo tipo es la proposición de los valores de C reactiva para seguir
el curso de supuraciones crónicas (1).
Para establecer pronóstico. Es el caso de la sonocardiografía para detectar alteraciones
coronarias en enfermedad de Kawasaki, las que serían condicionantes del pronóstico. En niños
neutropénicos con tumores sólidos, el aumento del recuento de neutrófilos en los con recuento
inicial menor de 100 células x mm 3 sería índice de mejor pronóstico que su mantención o
caída, luego de la administración de antibióticos, en términos de infección bacteriana grave, (2).
La importancia de reconocer estas modalidades de uso de las pruebas diagnósticas está en que la
utilidad de una determinada prueba varía según el objetivo clínico o epidemiológico que se
persigue. Por ejemplo, el VDRL, prueba no treponémica con alta sensibilidad, sirve para
detectar la sífilis, mientras las pruebas treponémicas, como el FTA-ABS, son más específicas y
se usan para confirmar la enfermedad. Ello significa que la positividad del VDRL en la madre y
el recién nacido define una probabilidad mayor de la presencia de sífilis activa que en una dupla
madre-hijo con VDRL negativo pero que, para certificar la existencia de sífilis activa en los
primeros, debe recurrirse a una prueba treponémica, como es el FTA-ABS (3).
En la práctica clínica, el problema de la utilidad de las pruebas diagnósticas es muy frecuente y
se hace evidente a raíz de un determinado paciente: ¿Significa la velocidad de

8
eritrosedimentación de 35 mm a la hora, que determinado paciente tiene una enfermedad
bacteriana?, lo que implica decidir si prescribir o no antibacterianos. ¿Cuán confiable es la
ultrasonografía abdominal para afirmar que un lactante ictérico tiene atresia de la vía biliar
intrahepática y no una hepatitis infecciosa?, lo que implica intervenirlo o no quirúrgicamente.

Las pruebas diagnósticas se usan para detectar, confirmar o descartar un determinado hecho
clínico o un conjunto de ellos, un síndrome que sugiere diagnósticos. No son un oráculo al
que le pedimos que nos diga qué tiene el paciente mientras esperamos con la mente en
blanco.

Propiedades de las pruebas diagnósticas:

El comportamiento2 de la mayoría -si no de todas- las pruebas diagnósticas conlleva la


probabilidad de parecer positiva en casos en que, en realidad, la enfermedad está ausente:
Igualmente, existe una cierta probabilidad de resultar negativa en casos en que la enfermedad,
en realidad, sí está presente. Sobre este particular trata el párrafo siguiente.
Al usar un procedimiento diagnóstico cualquiera para predecir la existencia de determinada
condición del paciente (por ejemplo, cierta enfermedad), los resultados posibles de su uso son
cuatro:

Tabla 1.1.

Enfermedad

Presente Ausente
Positiva a b
Prueba
Negativa c d

2Llamaremos “comportamiento” de una prueba diagnóstica, su habilidad de identificar enfermos y no


enfermos expresada en sus índices fijos: sensibilidad y especificidad.

9
a) La prueba resulta positiva y, efectivamente, existe la entidad en cuestión (caso de un
resultado positivo verdadero).
b) La prueba resulta positiva pero la entidad en cuestión está ausente (caso de un resultado
positivo falso).
c) La prueba resulta negativa pero la entidad en cuestión está, en realidad, presente (caso de un
falso negativo).
d) La prueba resulta negativa y, efectivamente, la entidad en cuestión está ausente (caso de un
resultado negativo verdadero).
El problema a resolver es, pues, si los resultados de una prueba concuerdan o no con el estado
real del paciente: p.ej., sano o enfermo o, más bien, cuál es la probabilidad de acierto de sus
resultados..
Si los resultado de una prueba son o no correctos, se sabe por la comparación de éstos con un
“gold standard”, “patrón de oro”, “patrón ideal” “patrón de certeza”, o “patrón estándar”, que
es un procedimiento que permite asegurar la existencia o ausencia de la enfermedad en cuestión,
en los términos que abordaremos luego, con sensibilidad y especificidad 100%
Más adelante se discuten diversos aspectos relacionados con el concepto de patrón de certeza o
“gold standard”.

Las características de una prueba diagnóstica perfecta (hipotética) son:


a) Que identifique, con resultado positivo, todos los casos en que la enfermedad en cuestión está
presente.
b) Que identifique, con resultado negativo, todos los casos en los que dicha enfermedad está
ausente.

Como no hay pruebas perfectas (a lo sumo los patrones estándar), en los resultados positivos así
como en los resultados negativos o en ambos, existe un margen de probabilidades de error
propio de cada prueba. De aquí la necesidad de introducir los siguientes conceptos relacionados
con las propiedades de una prueba diagnóstica, que son expresiones algebraicas de su
comportamiento:

LOS INDICES FIJOS:

Sensibilidad: es la probabilidad de resultado positivo si (y sólo si) la enfermedad en cuestión


está presente en el paciente. Otras maneras de expresar esta propiedad son: “La proporción de
verdaderos positivos de la prueba” o, menos preciso, “la capacidad de una prueba de identificar
correctamente los casos de la enfermedad”.
Sea cual sea la definición, el exacto significado del concepto conviene expresarlo así:

Sensibilidad = P (T+|E+).

En que: P = probabilidad, T+ = resultado positivo, | =“dado que” y E+ = enfermedad presente


(o “positiva”), y que se lee: “probabilidad de resultado positivo, dado que la enfermedad está
presente”.
Especificidad: es la probabilidad de resultado negativo si la enfermedad en cuestión no está
presente en el paciente. Otras maneras de definir esta propiedad son:

10
“La proporción de verdaderos negativos de la prueba”. Menos preciso es: “la capacidad de una
prueba de identificar correctamente los casos que no padecen la enfermedad”.
Sea cual sea la definición, el exacto significado del concepto conviene expresarlo así:

Especificidad = P (T-|E-).

En que: P = probabilidad, T- = resultado negativo, | =“dado que” y E- = enfermedad ausente (o


“negativa”), y que se lee: “probabilidad de resultado negativo, dado que la enfermedad no está
presente”.
Es oportuno señalar que esta forma algebraica de expresar las propiedades de probabilidad
condicional de una prueba diagnóstica, tiene la ventaja de permitir examinar y comprender
fácilmente la diferencia que, como se explica más adelante, existe entre los conceptos de
especificidad y sensibilidad (o índices fijos), y los de “valores predictivos” (índices variables).
Que la sensibilidad y la especificidad de una determinada prueba diagnóstica sean llamados
índices fijos, es para denotar que ésta tiene una sensibilidad y una especificidad que no varían y
le son propias o inherentes. En la práctica, sin embargo, esto puede no ocurrir así, pero es
preciso adelantar que una prueba diagnóstica cuyos índices fijos sufren variaciones, no tiene
utilidad ninguna ya que éstos son el eje sobre el cual se basan todas las conclusiones que derivan
de su uso clínico. Esta es la razón de examinar los criterios de validez de una prueba
diagnóstica, que es el tema que se examina más adelante. La verificación de tal validez permite
al clínico confiar en que la estabilidad de estos índices permitirá las inferencias derivadas de los
resultados observados al aplicar la prueba a un paciente.
El que las pruebas diagnósticas no sean siempre perfectamente exactas implica que no se da con
frecuencia, en la práctica, que una prueba de uso clínico tenga, simultáneamente, valores de
sensibilidad y especificidad = 100% (o 1), respectivamente, atributo que, más bien se exige a los
criterios de certeza (“gold standard”). Además, la sensibilidad tiene valores que tienden a variar
en forma inversa a los de la especificidad: es frecuente que, mientras más sensible sea una
prueba, menor sea su especificidad y vice-versa.
Del todo diferente es el concepto de índices variables o valores predictivos, que se derivan del
uso de la prueba a partir de los valores estables de la sensibilidad y especificidad. Ambos tipos
de índices son analizados más adelante.
La mejor manera de ilustrar el comportamiento de una prueba diagnóstica y, al mismo tiempo,
examinar sus propiedades, es observando sus resultados (referidos a un criterio de certeza o
“gold standard”) en una tabla de 2 x 2.

11
La tabla de 2 x 23.

Como vimos, las cuatro posibilidades de resultados de una prueba diagnóstica pueden ordenarse
en una tabla de 2 x 2, de la que se pueden calcular las sensibilidad y la especificidad.

Antes de examinar la conocida y útil tabla 2 x 2, es conveniente adelantar que expresaremos las
probabilidades como proporciones y no como porcentajes. A este respecto, las proporciones
expresan mejor el rango en que se sitúan las probabilidades de un evento, que van de 0 a 1.

La representación estadística de la comparación de los resultados de una prueba diagnóstica con


los de un patrón de certeza, se hace según se muestra en la Tabla 1.2.
Tabla 1.2.

Resultado según patrón de certeza


Enfermedad presente Enfermedad ausente Total
Resultado de la prueba
Enfermedad presente : a b a+b
(Prueba positiva)

Enfermedad ausente: c d c+d


(Prueba negativa)
Total a+c b+d a+b+c+d =(N)

De examinar la tabla, conviene identificar los siguientes grupos de pacientes, en sentido vertical
(izquierda):

a = el número de casos en que la prueba es positiva en individuos que tienen la enfermedad en


estudio (verdaderos positivos).
c = el número de casos en que la prueba es negativa en individuos que tienen la enfermedad en
estudio (falsos negativos).
a+c = cantidad total (real) de individuos con la enfermedad en el grupo en estudio.
2) En sentido vertical (derecha):
b = el número de casos en que la prueba es positiva en individuos que no tienen la enfermedad
en estudio (falsos positivos)
d = el número de casos en que la prueba es negativa, en individuos que no tienen la enfermedad
en estudio (verdaderos negativos).
b+d = cantidad total (real) de individuos sin la enfermedad en el grupo en estudio.

3 Aunque en el texto nos referiremos, la mayoría de las veces, a pruebas cuyos resultados son dicotómicos,
es decir, que originan tablas 2 x 2, debe dejarse establecido que la presentación estadística de los resultados
de una prueba puede ser 2 x n, entendiendo que “2” son las categorías identificadas por el patrón de certeza
o “gold standard” y “n” es el número de categorías en que se puede clasificar los resultados de la prueba.

12
Cuando los resultados de la prueba corresponden a una escala continua, como podrían ser mg/dl,
células por mm cúbico, etc., un “punto de corte” -determinado como se menciona más adelante-
permite separar el grupo experimental en las cuatro categorías correspondientes, conformándose
la tabla 2 x 2.4 (Figura 1.1.)

Figura 1.1.

No de casos No de no casos
mg/l

70 ••••• A • B
60 •••• •
50 •••• •
40 ••••• •
30 •• •••••
20 • C •••••••••• D
10
Total 21 19

Cada “•” representa el resultado de la medición en un paciente.


Línea de puntos = “punto de corte” que separa los casos en las categorías A, B, C, D, cuyos
valores para los cálculos son:
A = 18, B = 4, C = 3, D = 15.
Sensibilidad = 0,857
Especificidad = 0,714.

Este procedimiento podría involucrar pérdida de información valiosa, por lo que debe estudiares
una mejor solución, por medio de los “likelihood ratio”. (Este tema se aborda más adelante en el
apéndice 1). O bien, sobre todo en casuísticas grandes, por medio de las curvas ROC, que se
elaboran con algún software y que ahorran tiempo pues calculan para nosotros el “mejor valor”
para el punto corte, lo que significa donde aquél alcanza la mayor sensibilidad y, al mismo
tiempo, especificidad posibles . En la práctica, no es aceptable que en un artículo se nos den los
5

índices fijos –sensibilidad y especificidad- “determinados por curvas ROC” sin que aparezca la
tabla 2 x 2 resultante de la operación. ¿La razón?. No está a nuestro alcance examinar la
“evidencia”, que son las distribuciones (números) de pacientes en cada celda.

4 Como ya se mencionó, más de un “punto de corte” originará una tabla 2 x n.


5 Por ejemplo, ROCKIT de la Universidad de Chicago:
http://www.fisterra.com/material/investiga/program_internet/program_internet.htm

13
Cálculos de las propiedades o “comportamiento” de una prueba diagnóstica (cálculo de
sus índices):

El comportamiento de una prueba diagnóstica a través del cálculo de sus índices, aplicada a una
población o grupo de pacientes con y sin la enfermedad en estudio se hace así:
Sensibilidad: la proporción resultante de dividir el número de verdaderos positivos, por el total
de individuos que tienen la enfermedad (a/(a+c)) y corresponde, como ya vimos, a: P (T+|E+).
Especificidad: la proporción resultante de dividir el número de verdaderos negativos, por el
total de individuos que no tienen la enfermedad (d/(b+d)), se llama y corresponde a: P (T-|E-).
(¡Cuidado!: los verdaderos positivos y los verdaderos negativos están en casilleros en diagonal y
no adyacentes ( a y d ).
a+b+c+d: es la suma del total de la muestra en la que se ha llevado a cabo el ensayo de la
prueba (N), incluyendo casos y no casos. Se llama también población en que se hizo la prueba.
Además de ser la suma del total de la tabla, esta cifra representa un grupo heterogéneo de
individuos (por lo menos, con y sin la enfermedad), hecho del que derivan importantes
consideraciones, a las que se alude más abajo.
Puede notarse también que, si se suman los verdaderos positivos con los verdaderos negativos
(a+d), el resultado denota el total de individuos en que la prueba no se equivocó. Este total,
dividido por N, se denomina “exactitud o eficiencia de la prueba”.

Resumen: El cálculo de los índices fijos se hace, entonces, del siguiente modo:

Sensibilidad = a/(a+c)
Especificidad = d/(b+d)

Es necesario tener presente que estos valores tienen implicaciones epidemiológicas pero no
directamente clínicas: de nada nos serviría, para resolver la duda diagnóstica planteada por el
sindrome de un paciente, saber que la sensibilidad de un signo o una prueba es, digamos, 80%.
Por ejemplo, si verificáramos que la velocidad de sedimentación globular está por encima de 30
mm en el 75% de las infecciones por Gram (+), de nada nos serviría, para resolver sobre la
etiología (probabilidad de Gram +) de la enfermedad de un determinado paciente, en el que el
resultado de la prueba es 40 mm de sedimentación. Lo mismo es aplicable a la especificidad.

Para ilustrar sobre el comportamiento de una prueba diagnóstica, nos remitiremos a un estudio
llevado a cabo para probar la utilidad del uso de una tira reactiva (que reacciona ante la
presencia, en orina recién emitida, de nitritos, estearasa leucocitaria y proteínas) además del
examen directo, macroscópico, de la misma orina, para detectar infección urinaria (ITU) en
niños (adaptado de referencia N° 4) (Tabla 1.3.):

14
Tabla 1.3.

ITU
Tira reactiva y aspecto
macroscópico de la Presente Ausente Total
orina
(+) 317 (a) 175 (b) 492

(-) 17 (c) 312 (d) 329


Total 334 (a+c) 487 (b+d) 821 (N)

(Compruébelo en STATSLP 2004, Hoja N°2 en Tabla 1.a. Los resultados están
redondeados)

Sensibilidad = a / (a+c) =
317/334 =0,95
Especificidad = d / (b+d) =
312/487 =0,64

Prevalencia = (a+c) /N = 334/821= 0,41


Los valores de esta tabla o, en su defecto, los valores de los dos índices fijos (sensibilidad,
especificidad) deben estar presentes -o deben poder calcularse de los datos proporcionados
por el texto en revisión- de cualquier artículo sobre pruebas diagnósticas. La
imposibilidad de encontrarlos o la presencia de sólo uno de los índices, inutiliza el artículo
para cualquier análisis de utilidad diagnóstica, por lo que debe descartarse como
información útil.

Sin embargo, de artículos en que sólo se menciona la sensibilidad y la especificidad, se puede


derivar la tabla 2 x 2, siguiendo un raciocinio aritmético relativamente sencillo. Este raciocinio
es el que se usará más adelante para “ajustar” valores predictivos (o probabilidades post-prueba)
según la prevalencia (o probabilidades pre-prueba).

La aplicación de los criterios de análisis que se explican más adelante, tiene por objeto examinar
la validez de los valores de sensibilidad y especificidad declarados en el artículo, ya que tal
validez, así como la reproducibilidad de la prueba, es lo que permite derivar los índices variables
aplicables a los pacientes en particular y que son, por ello, los de interés clínico, porque
proporcionan información sobre la probabilidad que tiene un determinado paciente de padecer la
enfermedad estudiada, dado el resultado de la prueba diagnóstica aplicada a él y, por lo tanto,
son la base de nuestras decisiones ulteriores. Dicho en otras palabras: se trata de asegurarse que
la sensibilidad y especifidad de la prueba propuesta están logradas de un modo que garantiza
que, cada vez que se hace la prueba, en las exactas condiciones en que fue hecha en el artículo,
estos índices fijos serán los mismos y no otros.

15
LOS INDICES VARIABLES:

Si, luego del análisis, se estiman cumplidos los criterios que respaldan la validez de los índices
fijos de la prueba (según analizaremos más adelante), el clínico está en condiciones de estudiar
su uso en los pacientes a su cargo. Ya no se trata de saber en qué porcentaje de determinada
población la prueba resulta confiablemente positiva o negativa (sensibilidad y especificidad),
sino que el problema clínico se convertirá en una pregunta que la tabla que, en lo que hemos
examinado hasta aquí, sólo resuelve parcialmente. Tal pregunta es: si el resultado de la prueba
hecha en un paciente resulta positivo, ¿cuál es la probabilidad que el paciente tenga la
enfermedad?. Y,a su vez, si el resultado de la prueba es negativo, ¿cuál es la probabilidad que
no exista la enfermedad en tal paciente?.
El primer paso para responder estas preguntas es reexaminar la tabla 2 x 2, teniendo en cuenta
que estas preguntas implican las siguientes proposiciones expresadas algebraicamente:
Si el resultado de la prueba fue positivo en un paciente, ¿cuál es la probabilidad de la que la
enfermedad esté presente en el individuo al que se le practicó, dado que la prueba salió
positiva?.
Ello puede expresarse algebraicamente así: P (E+|T+).6
El cálculo se hace dividiendo los verdaderos positivos por el total de resultados positivos: a/
(a+b).
En la tabla 1.3. encontramos, 317/492 = 0,64 , que es la probabilidad de que la enfermedad esté
presente, dado que la prueba fue positiva. Este índice se llama valor predictivo positivo y es una
probabilidad post-prueba.
Del mismo modo, si el resultado de la prueba fue negativo en un paciente, ¿cuál es la
probabilidad que la enfermedad esté ausente en el individuo en el que se la practicó, dado que la
prueba salió negativa?. Lo cual puede expresarse algebraicamente así:P(E-|T-),
El cálculo se hace dividiendo los verdaderos negativos por el total de resultados negativos: d/
(c+d).
De la tabla, 312/329 = 0,95 , que es la probabilidad de que la enfermedad no esté presente, dado
que la prueba fue negativa. Este índice se llama valor predictivo negativo y es también una
probabilidad post-prueba.

Los valores predictivos o post-prueba que aparecen en el artículo sólo valen para la
particular situación de prevalencia del experimento. No necesariamente son directamente
aplicables a pacientes de la vida real.

Como se verá y al contrario de los de los índices fijos, los valores de estos dos índices
predictivos son esencialmente variables, hecho que depende de un conjunto de factores o
atributos del paciente, que han determinado un valor de probabilidad particular de padecer la
enfermedad en cuestión, anterior a la aplicación de la prueba (probabilidad pre-prueba). Esta
probabilidad pre-prueba se la denomina genéricamente, “prevalencia”, aunque este término
epidemiológico se entiende habitualmente como la proporción de individuos con determinada
característica (p.ej., cierta enfermedad) en una población, en un momento dado. En el contexto
de las pruebas diagnósticas, la “prevalencia” debe aplicarse, más bien, a la proporción de
enfermos con la entidad de interés, presentes en el grupo total de pacientes en los que se probó
experimentalmente la prueba (a+c)/(a+b+c+d), reservando el término “probabilidades pre-
prueba” a aquéllas que deben usarse para analizar al caso individual de un paciente a ser
6 Note que esta expresiones algebraicas difieren de las que expresan sensibilidad y especificidad, en que los
términos “E” y “T” están invertidos.

16
sometido a ella. Cada paciente, ya sea por su edad, sexo, antecedentes mórbidos, status de
inmunizaciones (anamnesis), signos presentes al examen (examen físico), etc., tiene una cierta
particular probabilidad de padecer la enfermedad de interés, que le es peculiar: son sus
probabilidades pre-prueba. A estos conceptos volveremos más adelante.

Una cierta prueba diagnóstica para una condición x, tiene valores de sensibilidad y especificidad
fijos que le son propios. En la presentación de ella en un artículo, los autores han elegido una
cierta prevalencia (a+c)/N que determina valores predictivos “en las condiciones del artículo”,
en la “población experimental” del estudio que estamos examinando, pero que no son
aplicables directamente a la realidad clínica del lector u otra en particular.
Los cambios de prevalencia, además del inimaginable número de factores presentes en la
condición de enfermo o sano de cada persona estarán determinados (redunciéndolos con enorme
simplismo, con fines operacionales) por: a) la proporción de enfermos con la condición x en la
población que atiende cada lector del artículo y, muy especialmente, por b) el conjunto de
circunstancias epidemiológico-clínicas propias de cada paciente individual. Estas últimas deben
ser estimadas a partir de la anamnesis, el examen físico y, ocasionalmente, por otras pruebas
llevadas a cabo con anterioridad en el paciente. (En Pediatría hay gran escasez de estudios,
típicamente descriptivos, que entreguen probabilidades pre-prueba para las patologías más
frecuentes, categorizadas por edad, sexo, etc. Ver más adelante).

Eficiencia o exactitud = (a+d)/N. En realidad este aspecto de la prueba da una idea general de
su utilidad, pero no informa en qué sentido. Por esta razón no insistiremos en él.

A) GUIAS DE SELECCION: SOBRE LA VALIDEZ DE LOS INDICES FIJOS: GUIAS


DE SELECCION.

En el examen de artículos sobre pruebas diagnósticas, son requisitos esenciales la existencia


de un estándar de oro o gold standard, la comparación independiente y ciega de los
resultados de la prueba con éste y la inclusión de pacientes que expresen un espectro amplio
de la enfermedad de interés así como de la o las cuales se las desea diferenciar.

Al elegir artículos sobre pruebas diagnósticas para uso clínico, es de extrema importancia
cerciorarse de que el artículo corresponde a este tema y no a otro parecido. Como esta
recomendación puede ofender a algún lector sensible, daremos un ejemplo. El estudio de un
procedimiento biológico o bioquímico en función de un determinado estado patológico no es,
necesariamente, el estudio de una prueba diagnóstica en sentido clínico. Más bien, se trata
generalmente de los ensayos de correlación entre variables biológicas y un cierto correlato
patológico, que constituyen los primeros argumentos para desarrollar una prueba de diagnóstico
clínico que utilizará tal correlación en el futuro. Son estudios en Fase I de una prueba
diagnóstica. Es el caso de numerosos artículos sobre la PCR y la RPC (proteína C reactiva y
reacción de polimerasa en cadena) y de mediadores de inflamación en diversas condiciones,
p.ej., infecciosas, previos a su ensayo como pruebas de utilidad clínica (Fase II o III). (Ver
ejemplos en página ).
Otros artículos relativamente comunes miden las propiedades de una prueba diagnóstica,
generalmente un método bioquímico o inmunológico usando, para medir su sensibilidad, sólo
muestras de pacientes en las que los autores se han cerciorado de que está presente el elemento
que debe detectar la prueba y, como "control negativo", para medir la especificidad, muestras en
las que se han cerciorado de que tal elemento no está (p.ej., agua destilada o suero estéril). Debe

17
tenerse presente que "sensibilidad" y "especificidad" en sentido bioquímico no son equivalentes
a los mismos términos usados al hablar de pruebas diagnósticas. Una diferencia notable es la
amplitud (idealmente, la mayor posible) del espectro clínico del que se obtienen las muestras en
que se ensaya la prueba diagnóstica y de cuyos resultados se calculan los índices de la misma.
Lo mismo debe cumplirse en el grupo sin la enfermedad (5). Esta es la razón por la cual se
exige, para que estas últimas sean válidas, la existencia de una cierta gama de expresiones
clínicas (p.ej. gravedad, etapa de la enfermedad) en el grupo de pacientes con la enfermedad y
en el grupo sin ella.
Conviene tener en cuenta que la evolución de una prueba diagnóstica, desde su concepción hasta
la aplicación rutinaria, sigue los siguientes pasos, comparables a los de una intervención
experimental:
a) Demostración de una asociación o correlación entre una enfermedad y una expresión de ella
(parámetro bioquímico, inmunológico u otro) o Fase I.
b) Ensayo (en las condiciones que se describen más adelante) de su comportamiento en un
grupo experimental de enfermos y no enfermos, estos últimos con una condición clínicamente
confundible con la enfermedad. Es la Fase II. Esta etapa, traducida en artículos originales según
aparecen en las revistas médicas, es a la que nos referimos en este capítulo. Aunque
frecuentemente ausente, en estos ensayos (artículos) hay una hipótesis subyacente: la prueba
tiene una determinada sensibilidad o especificidad. Agregado a lo anterior, puede suponerse que
la hipótesis incluye el supuesto de su utilidad para cierta aplicación clínico-epidemiológica.
c) Estudio del comportamiento de la prueba en un grupo análogo al experimental, constituido
por los individuos de la población que forman parte de la realidad epidemiológica de la práctica
clínica habitual (validación de la prueba) o Fase III.. (Ver párrafo al final).

a) Criterios que debe respetar el estudio y conducción de un ensayo de prueba diagnóstica


para que sus índices fijos sean aceptables. En nuestro esquema, son los aspectos cuya
presencia o ausencia determinarán críticamente nuestra decisión de descartarlos o dedicar
esfuerzo para analizarlos en profundidad.

Antes de referirnos a estos criterios, digamos que entendemos como "validez" de sus índices
fijos sus características de exactitud no sesgada respecto a valores que son propios de la prueba
llevada a cabo en condiciones ideales7. Diversos factores pueden distorsionar ("sesgar") estas
características y hacer de sus índices fijos valores inexactos, irreproducibles o variables, por lo
cual no son confiables y -de aquí- no aplicables en la práctica. Los criterios a que haremos
referencia tienen por objeto identificar y examinar aquellos aspectos que mayor impacto pueden
tener sobre la validez de determinada prueba diagnóstica.
a.1. Existencia de un “gold standard” (o criterio) de certeza explícito y confiable.
Como ya se dijo, los resultados de una prueba que está siendo estudiada deben ser comparados
con un patrón de certeza o "gold standard". La respuesta a esta exigencia es de importancia
crítica para apoyar todas las inferencias basadas en las propiedades de una prueba diagnóstica.
En ciertas áreas del quehacer clínico la elección de este patrón de certeza puede ser muy difícil,
aunque no lo parezca.
Es el caso de las enfermedades infecciosas en las que, por ejemplo, contra la gran especificidad
que suele tener la identificación por cultivos del agente causal, es raro que la sensibilidad de
7 La selección de un grupo de “casos” y “controles” para realizar el estudio de una prueba diagnóstica es, ni
más ni menos, tomar una muestra de un universo en el que la prueba tiene un cierto comportamiento, de
modo que los valores obtenidos para la sensibilidad y especificidad no son sino estimaciones de los valores
reales.

18
éstos sea 100%. Una de las consecuencias de este inconveniente es la dificultad para estudiar las
propiedades de pruebas que lo sustituyan ya que, cuando los resultados de la nueva prueba
resultan ser mejores en sensibilidad que los cultivos, existe el gran riesgo de sesgo8 por
transformación de la prueba analizada en patrón de referencia (lo que implica presumir que su
sensibilidad es 100%), mecanismo de distorsión de los valores de los índices fijos que se
denomina "sesgo por inclusión". El problema puede ser muy difícil porque estamos enunciando
una paradoja aparente: no puede haber pruebs mejores que los “gold standard” que estamos
usando. Esto lleva a una discusión que no abordaremos aquí para no oscurecer nuestro objetivo.
Otro problema común y relacionado es, como ya explicamos más arriba, homologar pruebas de
laboratorio que usan muestras obviamente "positivas" y "negativas" que, o no proceden de
pacientes reales o no representan sino los casos comprobados (por métodos de baja sensibilidad)
o clínicamente muy obvios de la enfermedad en estudio, con lo cual pareciera cumplirse el uso
de un patrón de certeza (porque se sabe con seguridad cuáles son muestras verdaderamente
positivas y cuáles no) pero no se cumple otro de los requisitos que analizaremos, como es la
necesidad de haber aplicado la prueba a un espectro amplio de los casos y de las enfermedades
con que se puede confundir. En el otro extremo, se podría examinar la "especificidad", por
medio de muestras que se sabe -a ciencia cierta- que no corresponden a casos de las
enfermedades clínicamente confundibles con la que se está estudiando, sino de pacientes sanos.
Un caso extremo sería el mencionado uso de suero fisiológico o agua destilada como "control
negativo".9 El lector cuidadoso puede identificar las publicaciones que sólo están estableciendo
correlaciones entre un fenómeno químico, sero-inmunológico, etc., y la existencia de cierta
enfermedad: no se pueden calcular la sensibilidad ni especificidad sino, más bien, se compara
los resultados (sensibilidad versus especificidad) recurriendo a pruebas de significación
estadística (p.ej., “p<0,05).
Otro error derivado de patrones de referencia defectuosos (y, en realidad, del diseño del estudio
para determinar las propiedades de la prueba) es el resultado, al final del estudio, de tres (o más)
grupos luego de aplicar el “gold standard”: un primer grupo, en los que el patrón de referencia
identificó los casos verdaderos positivos, un segundo grupo en que se identificaron los
verdaderos negativos y un tercer grupo de "dudosos", que suele ser de mayor tamaño que cada
uno de los otros dos. Es, justamente, este grupo de "dudosos", para los cuales es críticamente
importante desarrollar una prueba que reemplace el patrón de referencia como método
diagnóstico de rutina. Un error metodológico común es sumar este grupo, arbitrariamente, al
grupo de los enfermos o al de los no enfermos. (En rigor, cuando se planifica un estudio de
prueba diagnóstica, se debene especificar dos categorías del “veredicto” del gold standard”:
positivos o negativos. Si se perevén “dudosos” se debe prever, también, cuál será el criterio para
asignarlos a uno de las dos categorías sin haber comparado los resultados de la prueba con el
“gold standard”).
Existen circunstancias en que los resultados de aplicar el patrón de certeza pueden variar según
la forma clínica de la enfermedad, lo cual puede hacer que los índices fijos también varíen. Esta
es la razón del requisito de espectro clínico lo más amplio posible lo cual, cuando se cumple,
debiera reducir al máximo este posible factor de distorsión. Esto ocurre cuando sólo se incluyen
en el grupo en estudio casos "floridos" de la enfermedad o se excluye sistemáticamente, del
8 Sesgo: Cualquier factor, en cualquier etapa del desarrollo de la inferencia, que pueda apartar las
conclusiones sistemáticamente de la verdad (Sackett DL J.Chron.Dis. 1979; 32:51-63).
9En estos casos se está extrapolando conceptos análogos, no necesariamente válidos, del laboratorio
químico al laboratorio clínico: en química, "sensibilidad" puede entenderse como la capacidad de una
prueba o procedimiento que detectar cantidades ínfimas de una substancia, mientras "especificidad" es la
capacidad de tales pruebas de detectar una y sólo una cierta substancia.

19
grupo en comparación, casos que podrían determinar resultados falsamente positivos. Esta es
una de las razones de por qué conviene que la serie de casos y no casos (lo que se sabrá al
término del proceso experimental) sea una serie continua de casos, para evitar un posible sesgo
de selección que distorsione los índices fijos (Ver sobre "espectro clínico" y Apéndice 2).

a.2. Comparación independiente y ciega con un estándar de certeza o “gold standard”.

El "gold standard", estándar patrón de certeza o estándar ideal, que puede ser una biopsia, la
cirugía, la autopsia, la confirmación diagnóstica por el seguimiento a largo plazo de los casos,
etc., debe aparecer claramente establecido en el artículo que estamos leyendo. No podemos
aceptar que los autores lo dejen a la imaginación del lector, porque es un elemento crítico en la
estructura del modelo de análisis de una prueba diagnóstica. Además debe ser explícito que la
comparación de los resultados de la prueba con los del estándar de certeza fue aplicado a cada
paciente, sin conocerse los resultados de aplicar la primera (en forma independiente o “ciega”).
En alguna instancia, podríamos no estar de acuerdo con el “gold standard” utilizado en el
estudio. Si es así y nuestra discrepancia puede explicarse por la probabilidad de sesgos
específicos y claros, el artículo no servirá a nuestros propósitos y deberemos desecharlo. Si lo
aprobamos, la pregunta siguiente será si se compararon los resultados de la prueba con los del
“gold standard” o patrón de referencia en forma independiente.
La comparación “independiente y ciega” consiste en que quien determina la positividad o
negatividad de la prueba, no está en conocimiento de la concordancia o discordancia entre estos
resultados y el “gold standard”, ni quien decide -aplicando el “gold standard”- sabe cuál fue el
resultado de la prueba en cada caso.
Esta exigencia es necesaria por la diversidad de distorsiones (sesgos) que pueden afectar sus
resultados. El siguiente ejemplo puede ilustrar la naturaleza de tales sesgos: Suele ocurrir que no
vemos una sombra en una radiografía de tórax pero, después de saber que la tomografía
computada de tórax detectó una lesión pulmonar; “reconocer” la radiografía como “positiva”,
reconocer la auscultación de un soplo, sólo después que la ecocardiografía demostró una CIV.
Estas situaciones, algo caricaturizadas, no pretenden delatar a los médicos como “tramposos”,
sino que ilustran una realidad derivada de nuestra condición humana falible.
Como se ve, si existe la duda acerca de esta independencia, se suscitarán serias y justificadas
reservas sobre la confiabilidad del estudio. En la medida en que el tema puede ser importante, se
podrá contemplar preguntar a los autores directamente.

La interpretación independiente y ciega puede haberse hecho de varias maneras. Una es que
quienes leyeron los resultados de la prueba en estudio lo hicieron sin saber los resultados del
estándar de certeza o “gold standarad”, porque éste fue aplicado por terceros (p.ej., patólogos
que no saben de los resultados de la prueba). Otra, que los datos concernientes a los pacientes,
que podrían permitir identificarlos, fueran enmascarados con un código. Hoy día es
relativamente fácil independizar los resultados de la prueba de los del estándar de certeza, si los
datos se guardan en una planilla computacional a la que puede ingresarlos, codificados, un
digitador adiestrado que no sabe del estudio, a medida que aquéllos van apareciendo. El riesgo
más frecuente de distorsión de los valores de los índices fijos se produce cuando quien hace la
prueba conoce el estado del paciente -en cuanto a si tiene o no la enfermedad- porque conoce el
resultado de aplicar el patrón de certeza o cuando, terminado el proceso de análisis, se revisan
los resultados de la comparación y se cede a la tentación de "corregirlos". En este punto cabe
advertir que no debe presumirse malicia por parte de los autores. Los ensayos se hacen porque
se espera que sirvan y este pensamiento (positivista) siempre busca eludir lo que sería un

20
"fracaso": terminar demostrando que la prueba no servía (lo cual puede ser tanto o más
importante que la suposición inicial, siempre, en todo caso, que el estudio esté bien construido.
Qué es lo importante en esto: eliminar la posibilidad de corregir los resultados de la prueba o del
estándar de certeza, según convenga a la hipótesis en cuestión ("La prueba X tiene alta
sensibilidad o especificidad para identificar la enfermedad Z").

Cuando no se cumplen estos dos criterios de selección (existencia de un buen “gold standard” y
comparación independiente y ciega de resultados) en un artículo sobre pruebas diagnósticas,
debe descartarse de plano (9 ).

a.3. Espectro clínico de la enfermedad y su alternativa (grupo de comparación o


"controles"), representado en los pacientes a quienes se les practicó la prueba.

Los individuos portadores de cierta enfermedad, como también los sin ella, muestran un rango
más o menos amplio de resultados al aplicarles cualquier prueba diagnóstica. Ello puede deberse
a los diferentes estados de gravedad de la enfermedad o a diferencias de respuesta o expresión
de los individuos a la misma. Esto hace necesario cumplir dos requisitos: 1) definir
precisamente la enfermedad y 2) incluir en los grupos con y sin la enfermedad, espectros
clínicos lo más amplios posibles (1) . (La inclusión de un espectro amplio de los pacientes sin la
enfermedad, se refiere a la inclusión de la mayor cantidad posible de condiciones que, sin ser la
enfermedad, se pueden confundir con ella. Nosería adecuado, por consiguiente, incluir en el
grupo sin enfermedad, individuos reconocidamente sanos ni síndromes tan específicos, que
difícilmente podrían confundirse con la enfermedad para la que se está ensayando la prueba. Por
ejemplo, si estamos ensayando una prueba para diferenciar fiebres tíficas de otras infecciones
febriles, pacientes con varicela no constituirían el mejor grupo en comparación. Distinto es el
criterio si se está ensayando una prueba de carácter más genérico. Por ejemplo, el
comportamiento de una citokina para diferenciar enfermedades de origen bacteriano de
enfermedades de origen viral.

La utilidad de una prueba diagnóstica radica en la habilidad para distinguir entre una
enfermedad “blanco” o de interés y uno o más estados patológicos 10 con los que corrientemente
ésta puede ser confundida. La correcta selección de los casos depende, en gran medida, del
conocimiento de la evolución natural de la enfermedad en estudio. La elección de pacientes sólo
con formas graves de una enfermedad dada, para el estudio de una prueba diagnóstica, puede
conducir a resultados alentadores, pero la ausencia en la muestra de formas de menor gravedad,
particularmente aquellas poco características (indiscriminables clínicamente de otras que se les
asemejan) no permitirá conocer las propiedades reales de la prueba. Hay que hacer notar que se
trata de “espectro clínico”, es decir, el material con que se trabaja es con pacientes o muestras
que los representan y no, simplemente, muestras ("30 muestras" pueden representar 30 pacientes
diferentes o la suma de 10 muestras provenientes de sólo 3 pacientes). Por ello, el lector deberá
cerciorarse de que el número de muestras o procedimientos diagnósticos a que se refiere el
texto, corresponde a un número igual de pacientes. Una instancia en que se incurre en este error
es usar un cierto número de muestras provenientes de un número menor de pacientes (más de
una muestra por paciente), problema que suele surgir cuando la prueba es analizada desde el
punto de vista del laboratorio, más que desde el punto de vista propiamente clínico.

10 O, posiblemente, la ausencia de enfermedad, como ocurre cuando se lleva a cabo un tamizaje o


“screening”.

21
También es importante la especificación -en el artículo- de qué se entendió por “espectro clínico
adecuado o suficiente”. Idealmente, debería existir en el texto, en la sección “métodos”, la
descripción del tipo de pacientes incluidos o descripción del espectro.
Qué es importante en esto: al tipo de pacientes que no se incluyó en el espectro clínico no se
podrá aplicar en forma válida la prueba ensayada. Además, habrá distorsiones de los valores de
los índices fijos. (La tendencia natural en quien ensaya una prueba es esperar que su sensibilidad
y especificidad sean cercanas a 100%, lo que implica el riesgo de eliminar los "molestos" falsos
positivos o falsos negativos).

Cuando estemos convencidos de que el artículo describe un apropiado espectro de pacientes a


los cuales, en forma independiente y ciega, les fue aplicada la prueba en estudio y el patrón de
certeza o “gold standard”, podremos esperar que los resultados representen una estimación no
sesgada del valor de sus índices fijos, es decir, una estimación en la que se puede descartar que
haya factores que distorsionen sistemáticamente la verdad (valor de los índices fijos). Sin
embargo, hay otras probabilidades de sesgo, si no se cumplen o se ignoran algunas otras
condiciones.

22
B) GUIAS DE INSPECCION: SOBRE LOS RESULTADOS DE LA PRUEBA.

b.1 Sitio en que se llevó a cabo la experiencia y mecanismos de referencia de los pacientes.

El lugar (nivel de atención) en que fueron reclutados los pacientes con la enfermedad, así como
sus controles (grupo en comparación) son importantes por razones que se discuten más en
detalle en las secciones siguientes. Para ciertas pruebas diagnósticas, se requiere un grado de
experiencia a nivel de experto que sólo se da en el nivel secundario o terciario, como es el caso
de las pruebas de imagenología y diversas otras de laboratorio en las que el elemento subjetivo
cumple un papel importante (examinar requisitos de reproducibilidad), de modo que la sola
descripción de especificaciones técnicas de los equipos no basta para trasladar su uso, por
ejemplo, al nivel primario.
El mecanismo de referencia (derivación) de pacientes también debe estar especificado ya que
influye, especialmente, en el espectro de las condiciones patológicas en casos y en controles,
además de influir sobre la prevalencia de los casos en el grupo experimental. En un servicio
especializado, tenderá a producirse un "filtrado" de casos derivados desde otros niveles
(.primario). Si sólo se trata de problemas relacionados con la prevalencia, en este texto se
expone la manera de subsanar este inconveniente ajustando los resultados de una cierta prueba a
las condiciones de la realidad local.
La importancia de este último aspecto se hace crítica, cuando el lector tiende a impresionarse
por los valores predictivos que aparecen en el artículo y adopta la prueba sin reparar en el
significado de la prevalencia para el ajuste a sus exigencias locales.

b.2. Los resultados de la prueba en estudio no deben influir en la decisión de llevar a cabo
el procedimiento considerado estándar de certeza.

Las propiedades de la prueba diagnóstica serán distorsionadas si su resultado influye en la


aplicación del patrón de certeza. Ello tiende a suceder cuando, a raíz de un resultado positivo, el
investigador despliega mayor esfuerzo en comprobar el diagnóstico que cuando el resultado es
negativo. O un resultado negativo de la prueba induce reparos éticos respecto a la aplicación del
“gold standard”. Esta situación puede ilustrarse con el siguiente ejemplo: en el estudio de una
prueba diagnóstica para identificar la etiología herpética de un sindrome meningo-encefalítico,
tendrán más probabilidades de ser sometidos a una biopsia cerebral (patrón de certeza) los
pacientes en que la prueba resulte positiva, que los pacientes con resultados de tal prueba
negativa (en estos últimos no se llevará a cabo la comprobación por medio del criterio del
estándar de certeza). Esto ocurre, en especial, si el estándar de certeza es un procedimiento
riesgoso.

b.3. Requisitos de reproducibilidad de la prueba.

Con frecuencia las condiciones de ejecución de una prueba diagnóstica no se reducen a la


maniobra de laboratorio, sino que exigen alguna maniobra o estrategia indispensable
(clásicamente, para algunas pruebas, la condición de estar “en ayunas”). La descripción de los
métodos para llevar a cabo la prueba debe incluir todas las maniobras necesarias para repetir la
prueba incluyendo dieta, drogas a evitar, equipo usado, precauciones después de la prueba,
especificaciones técnicas de la prueba, manejo del eventual dolor, criterio de análisis e
interpretación de los resultados.

23
No terminan aquí las exigencias en este rubro. En la mayoría de los exámenes de laboratorio
(incluida la imagenología) hay un operador u observador, lo que conlleva un problema de dos
caras: el papel de la subjetividad y el grado de destreza de tal operador. Para eliminar la
subjetividad en la interpretación de los resultados de pruebas diagnósticas, se debería recurrir
siempre a la medición de las variaciones que éstos experimentan por la natural variabilidad de la
apreciación por parte de dos operadores independientes, para luego estudiar la concordancia
entre ambos (medición del error o variación interobservador). La afirmación frecuente que “un
mismo autor” hizo todas las mediciones, no da garantías de por sí. Ello, porque el grado en que
el operador es experto en la medición sólo puede saberse por la consistencia o grado de validez
que tienen, de hecho, sus mediciones o categorizaciones. Para ello podría recurrirse a la
medición del grado de concordancia de las categorizaciones del operador consigo mismo
(medición del error o variación intraobservador). En todo caso, el operador único deja planteado
el problema de su idoneidad técnica y, por consiguiente, el de la confiabilidad de los resultados
del análisis o reproducibilidad de la prueba. No es una garantía.

b.4. Los valores de sensibilidad y especificidad, o los datos para calcularlos, deben
aparecer en el artículo.

Como hemos visto, este requisito es indispensable porque, de otro modo, estamos impedidos de
acceder a la evidencia (los valores de los índices fijos) y por consiguiente, tendríamos que
aceptar a priori las afirmaciones del texto al respecto. Como se analizó, el lector debe
cerciorarse, además, que las categorías "positivo" y "negativo" determinadas por la aplicación
del patrón de certeza son inequívocas, es decir, provienen de la aplicación de un patrón de
certeza que sólo reconoce dos categorías: “positivo” y “negativo”. Como ya anotamos, no es
raro que aparezcan tablas o figuras en las que aparecen tres grupos (a veces más): los
demostradamente positivos, los demostradamente negativos y un tercer grupo dudoso. Es
oportuno recordar los conceptos iniciales: la mayor ayuda de una prueba diagnóstica la da
aquélla que puede resolver nuestro problema diagnóstico cuando la probabilidad de error es del
50%. Esta es la situación que puede representar el grupo "dudoso". El grupo "dudoso" es el que,
precisamente, requiere un procedimiento que lo discrimine como positivos o negativos.
Tampoco la prevalencia real es posible calcularla en estos casos, porque ¿a qué grupo
("positivos", "negativos") asignaremos los individuos del grupo "dudoso"?. Más importante aún:
en la estrategia al diseñar el estudio del comportamiento de una prueba, debe preverse que el
patrón de referencia o “gold standard” clasificará a los pacientes del grupo en estudio como
“positivos” o “negativos” y, en ningún caso como “dudoso”.

Ejemplos:
Para ilustrar algunos de los aspectos comentados, usaremos como ejemplo un estudio que no
está propuesto como el análisis de una prueba diagnóstica de uso clínico, a pesar que los autores
buscan “evaluar el valor diagnóstico” de ella en el estudio de neutropenias febriles en niños (6) .
Se verá, antes de examinar los datos, que éste es un estudio de correlación entre una variable
(IL-6) y causas de fiebre en pacientes neutropénicos febriles. Por ello, no se respetan los
requisitos para el estudio de una prueba diagnóstica con intencionalidad clínica (p.ej., no se
especifica un patrón de certeza, los controles son niños sin fiebre, etc.). En la figura 2 del
estudio, se presentan los valores de IL-6, expresados en pg/ml, en los 47 casos en que se midió,
agrupados en 4 categorías: infección comprobada por un Gram (-), infección comprobada por
un Gram (+), fiebres no explicadas y “otras”.

24
Este tipo de representación de resultados, que es frecuente (Figura 2), induce a la siguiente
deducción errónea: Si uno elige 50 pg/ml como punto de corte para usar esta prueba en forma
dicotómica, con el fin de diferenciar niños neutropénicos con infecciones bacterianas de "otras"
no bacterianas, podría armar la siguiente tabla (1.5.):

25
Tabla 1.5.

DETECCION DE INFECCION BACTERIANA POR MEDICION DE IL-6 EN EL


PLASMA DE NIÑOS NEUTROPENICOS FEBRILES.

Infección bacteriana
Si(*) No Total
IL-6
+ (≥ 50 pg/ml) 16 13 29

-(<50 pg/ml) 0 23 23
Total 16 36 42
(*) Valores en infecciones por Gram (+) y Gram (-)

De acuerdo a lo que ya sabemos, esta prueba parece tener sensibilidad = 1 (100%) y


especificidad = 0,64 (64%). El valor predictivo negativo (VPN) resulta ser =1 (100%). ¡Parece
una buena prueba para descartar infección bacteriana en niños neutropénicos febriles!.
Desgraciadamente, es imposible construir esta tabla a partir de los datos de este estudio. ¿Cómo
sabemos que las fiebres de origen no explicado y las "otras" no se debieron a infecciones
bacterianas?. Los autores indican, correctamente, que los valores bajos de IL-6 en niños
neutropénicos febriles no respaldan la decisión de no tratarlos con antibióticos. ¿Cómo
resolvería usted este dilema clínico?. Simplemente, tratando con antibióticos adecuados a todos
los niños neutropénicos febriles, en cuyo caso esta prueba no es mejor que el criterio o método
clínico.
Algo semejante ocurrió durante el ensayo de la adenosina-deaminasa sérica (ADA) como un
método para detectar fiebre tifoidea (7) . En este estudio pudo observarse varios de los
problemas de pruebas diagnósticas en Infectología. Los resultados están presentados en una
figura del tipo ilustrado en la Figura 2, pero las columnas, en vez de ser dos, son siete. El punto
de corte ha sido establecido en 80 U/L (Figura 1.2., adaptada y resumida del original, en la
muestra pediátrica)11. (Línea de puntos = punto de corte)

11Los autores presentaron correctamente, en una publicación preliminar, una serie menor de estos
pacientes, en sólo dos categorías: pacientes con síndromes febriles y con fiebre tifoidea. (Rev.Chil.Infectol.
1990; 7:71-75). En tal caso, la sensibilidad es 0,96 y la especificidad es 1.

26
Figura 1.2.

Adenosina deaminasa en fiebre tifoidea y otras enfermedades febriles.


ADA
U/L
200

80 1 8 45

0 81 6 31 41 13 16 4
Total 81 6 31 41 14 24 49
Controles Sepsis Virus Otras Salmonelosis Hepatitis F.Tifoidea
fiebres

Si la prueba está prevista para detectar fiebre tifoidea, los resultados podrían representarse como
se ve en la Tabla 1.6.

Tabla 1.6.
Fiebre tifoidea

Valores de Si No Total
ADA
∃80 U/L 45 9 54
< 80 U/L 4 10712 111
Total 49 116 165

Sensibilidad = 91,8%
Especificidad = 92,2%

Las objeciones más importantes sobre los resultados (sensibilidad = 91,8%, especificidad =
92,2%), se basan en varios hechos. El primer problema lo causa la inclusión de individuos sanos
para discriminar el diagnóstico diferencial de una enfermedad febril, lo que aumenta
(inválidamente) la especificidad, por lo que este grupo ha sido eliminado de la tabla 1.6. El
segundo problema evidente es la incapacidad del patrón de certeza para precisar respecto a si,
en el grupo “otras fiebres, sepsis, salmonelosis y hepatitis”), se puede dar por descartada -con
seguridad- la fiebre tifoidea (sabemos que los cultivos no resuelven el problema, si son
negativos, ya que su sensibilidad es alrededor de 60% , para los hemocultivos y, en conjunto,
hemo, mielo y bilicultivos, no tienen sensibilidad 100% aunque, combinados, ésta mejore y
pueda usarse como tal operacionalmente (100%, ejemplo de un “gold standard” discutible) (8).
Los grupos, “otras fiebres, sepsis, salmonelosis y hepatitis”, representan el grupo de pacientes de
mayor interés desde el punto de vista de resolver, por medio de una prueba que sea mejor que
los cultivos, la duda de si se trata o no de fiebre tifoidea, pero este ensayo no resuelve el
problema, porque el patrón de certeza no permite aceptar como válidos sus resultados negativos,
debido a la naturaleza no dicotómica de los resultados de aplicar el patrón de certeza.

12Se ha exceptuado 81 controles sanos porque no están en el espectro clínico habitual en que es necesaria
una prueba diagnóstica.

27
¿Qué hacer cuando en el curso de un estudio para evaluar el comportamiento de una prueba
diagnóstica aparecen casos con resultados "dudosos"?.
Si los resultados "dudosos" corresponden a una tercera (o cuarta) categoría de la prueba en
estudio, los autores (sin conocer el resultado de la aplicación del estándar de certeza) pueden
decidir si considerarán estos resultados como una tercera categoría (entre positivos y negativos),
en cuyo caso no resultará una prueba 2 x 2, sino 2 x 3. Cuando los resultados de la prueba se
pueden catalogar en más de dos (2 x n), se usan los likelihood ratios (razones de verosimilitud),
que se explican más adelante en la Sección 6 (Apéndice 1).
Sin embargo, si el grupo "dudosos" corresponde a una tercera categoría del diagnóstico según la
aplicación del patrón de certeza, aparece violado un requisito no necesariamente obvio pero
esencial: los resultados de la aplicación del estándar de certeza deben ser dicotómicos.

Otro aspecto importante es que el patrón de referencia debe ser lo suficientemente confiable. Un
ejemplo desafortunadamente común es que los cultivos no son, para estudiar pruebas
diagnósticas en enfermedades infecciosas, lo suficientemente confiables porque, en general, es
muy difícil descartar que haya falsos negativos. Como hemos visto, en fiebre tifoidea en niños,
el hemocultivo tiene una sensibilidad cercana al 60%, el mielocultivo y el bilicultivo cercanas al
85%. Nótese que se puede postular que la suma de estos tres procedimientos sigue sin garantizar
un 100% de sensibilidad. Esta situación es frecuente en diagnóstico infectológico.
Más complejo es el caso de patrones de certeza o "gold standard" de comportamiento disímil
según la etapa de la enfermedad u otras circunstancias asociadas a la forma de aplicar la prueba
a los pacientes con la enfermedad. La sensibilidad y especificidad en estos casos, pueden variar
en uno u otro sentido, con lo que estos valores, aplicados a un espectro lo suficientemente
amplio, pueden adquirir carácter "flotante", según se aplique en una u otra etapa o circunstancia
de la enfermedad. Un ejemplo bien conocido es la prueba PPD en tuberculosis, que es
frecuentemente negativa, precisamente, en el curso de una diseminación miliar. La conclusión
es que no nos sirve y que es preciso saber que no nos sirven.

Pruebas con resultados cuyos valores corresponden a una escala continua.

Más adelante examinaremos pruebas en que los resultados de ella son más de dos categorías.
Queda por resolver aquellas en que los resultados son una colección de valores de una escala
continua, como hemos visto en el caso de ADA e IL-6 y que incluye otras como VHS, PCR,
etc.. En estos casos, se ordenan los valores de menor a mayor en dos columnas, de acuerdo a lo
determinado por el patrón de certeza (aplicado, a cada caso en forma independiente y ciega, del
mismo modo que se ha mencionado antes). Luego se establece un “punto de corte” (valor que
separa el grupo “positivo” del grupo “negativo”) buscando, para establecer este punto, el valor
con el que se logra el mejor comportamiento de la prueba: la mejor sensibilidad asociada a la
mejor especificidad posibles.
El punto de corte separa los pacientes en los cuatro grupos comparables con los de las pruebas
de resultados dicotómicos (aunque pueden ser más categorías, en cuyo caso se aplican los
likelihood ratios). Ello implica buscar el punto de corte que permita la mejor sensibilidad y la
mejor especificidad, asunto que no es sencillo ya que ambas, como se ha dicho, tienden a tener
valores en función inversa. Una forma de resolver este problema es usando las curvas ROC
(Receiver Operating Characteristics), para las cuales hay programas computacionales13 cuya
descripción y desarrollo exceden el objetivo de este texto. En cualquier caso, se trata de
13
P.Ej ROCKIT Software Ver. 9.1, de la Universidad de Chicago
www-radiology.uchicago.edu/cgi-bin/roc_software.cgi

28
establecer el punto de corte allí donde el índice fijo que más interesa (p.ej.,especificidad) tenga
su valor máximo, con la menor disminución del otro (sensibilidad). El clínico debe tener
especialmente en cuenta qué uso espera hacer de una prueba y no dejarse impresionar por el sólo
hecho que uno de sus índices es 100% o un valor cercano. Si su interés es confirmar la
enfermedad en determinado paciente, debe buscar una prueba con alta especificidad. Si, por el
contrario, el interés es descartar la enfermedad en un cierto paciente, la prueba más útil será la
con mayor sensibilidad. Las implicaciones que pueda tener que el valor de uno u otro índice sea
o no 100% (p.ej., 95%), dependen de las decisiones a que dará lugar el resultado de la prueba en
los pacientes, lo cual está estrechamente determinado por la naturaleza de la enfermedad y su
gravedad.
Puntos de corte:
En este punto queremos discutir un aspecto que se nos ha hecho cada vez más evidente: el punto
de corte elegido por los autores no puede ser cualquiera, sino uno convencionalmente aceptado
por los diferentes autores (si logran ponerse de acuerdo). Si cada autor usa el punto de corte que
mejor le acomoda en su pequeño grupo de pacientes, el conjunto de la literatura sobre el tema
llega a ser caótico, como hemos señalado en una publicación reciente (8b), ante lo cual los
clínicos escondemos la cabeza y usamos los “valores de referencia” de los laboratorios locales,
que no son otros que los anotados por la industria que vende el “kit” de la prueba (y que no
provienen de datos confiables clínicoepidemiológicos).

Tamaño muestral: Número de pacientes en que se estudió la prueba.

Para no agobiar con bioestadística al lector, usaremos un ejemplo intuitivamente fácil de aceptar
aunque bastante absurdo. Si el número de verdaderos positivos es 1 y los falsos negativos es 0,
la sensibilidad será 100%. Si, para la misma prueba, el número de verdaderos negativos es 1 y el
de falsos positivos es 0, la especificidad será 100%. Pero estos valores se habrán obtenido de
ensayar la prueba en sólo cuatro pacientes, lo que hace obvio que los índices fijos logrado no
significan nada. Surge entonces la pregunta: ¿Cuántos casos de la enfermedad y cuántos casos
de la condición "control" o “enfermedad alternativa” se necesitarán para hacer confiables las
estimaciones de sensibilidad y especificidad?. La respuesta no es simple y el método de cálculo
lo es menos. Ayudará darse cuenta que ambos índices fijos, sensibilidad y especificidad, son
proporciones a/(a+c) y d/(b+d), por lo que son estimaciones cuyo error estándar depende del
número de casos. Del mismo modo, a cada una de estas estimaciones se le puede construir su
intervalo de confianza del 95%.
Por ser proporciones que generalmente se busca que sean o resultan ser cercanas a 1 o 0 (100 o
0%), el intervalo de confianza apropiado no se construye con la fórmula común: IC 95% de P=
P ± 1.96 √(p * (1-p)/n). La razón es fácil de comprender si se aplica esta fórmula. Si el N es
pequeño (p.ej. 10), el límite superior del IC puede quedar por encima de 1 (si se trata de
sensibilidad = 100%) lo que es absurdo, ya que el límite superior de 1. Por esto, la fórmula
anotada debe ser modificada ya que, inclusive para valores como 0,98 el límite superior puede
ser superior a 1 lo cual, como vimos, es un absurdo (9). (Ver y usar, en STATSLP, Hoja 2
TESTS, Tabla 1f). Por medio del intervalo de confianza se puede calcular empíricamente el
número de casos y "no casos" necesarios para estimar la sensibilidad y especificidad, pensando
en valores próximos a 100% (o 1); el número (n) que resulta, está por encima de 200 y 200
(N=400). Las inexactitudes derivadas de este aspecto tienen trascendencia variable según la
situación clínica y las decisiones que derivan del uso de la prueba. Por ejemplo, cuando la
sensibilidad estimada es 100%, en la casilla “c” hay un 0, e implica que el valor predictivo
negativo será 100% (d/(c+d) o que la probabilidad de que la enfermedad esté presente, si la

29
prueba es negativa, es 0. Ello puede implicar no tratar un caso falsamente negativo, debido a que
el valor en la casilla “c” (que afecta a la sensibilidad) está sesgado por “n” insuficiente. Las
consecuencias derivan de la mayor o menor gravedad que conlleva no tratar a un enfermo que sí
debe ser tratado.(8) (El lector interesado puede estudiar una aproximación a la solución del
problema del cálculo del tamaño muestral para una prueba diagnóstica propuesta por Duffau)
(8c).
Consideraciones análogas cabe hacer en el caso de la especificidad.

B.3. Criterio clínico de normalidad.

En ciertas pruebas diagnósticas el objetivo incluye diferenciar sanos de enfermos. En este caso,
los autores deberán especificar qué consideran un resultado “normal” de la prueba, valor que
deberá ser clínicamente razonable. Esta definición delimita un nivel en el resultado más allá del
cual se encuentra la enfermedad específica, con una probabilidad conocida. La normalidad
puede ser definida de varias maneras: por encima o por debajo de una o dos desviaciones
estándar, percentil 15, 90 o 95, etc. Todas la definiciones de normalidad tienen problemas. Por
ejemplo, si los “valores normales” son establecidos como aquellos por debajo de + 2
desviaciones estándar o por debajo del percentil 95, resultan varias consecuencias poco
aceptables. a) Todas las enfermedades tendrían la misma prevalencia (5%). b) La probabilidad
de que un paciente sea considerado “normal” al aplicarle una prueba con este criterio es 95%
(0,95); Al aplicarle dos pruebas independientes (que miden dos sistemas o funciones diferentes),
la probabilidad de resultar normal es 0,95 x 0,95 = 0,90. Generalizando este cálculo, la
probabilidad de que un paciente cualquiera sea considerado normal es 0,95 elevado al número
de pruebas independientes que le sean hechas (10) .
Un ejemplo de la dificultad que puede tener para el lector el "juego de puntos de corte" o “límite
de la normalidad”, lo representa la imposibilidad de comparar los distintos estudios sobre la
utilidad de la proteína C reactiva para distinguir infección bacteriana de otras enfermedades
porque, entre otros problemas, los puntos de corte significativos para los autores difieren unos
de otros (11) .
Hasta aquí se han examinado los criterios que permiten estudiar un artículo en el que se propone
una nueva prueba diagnóstica.
El trabajo del clínico no termina con esto. Si aprobamos el artículo y decidimos que cumple con
los requisitos de validez examinados, falta por estudiar si la prueba aporta o no a la solución de
nuestros problemas diagnósticos derivados de la población que atendemos. Los elementos de
análisis que siguen ayudan a resolver este asunto.

30
C. AJUSTE DE LOS VALORES PREDICTIVOS SEGUN LA PREVALENCIA.

El lector debe centrar su atención en los valores de los índices fijos que propone el artículo y no
en los valores predictivos. La razón es que, al aplicar la prueba en la propia población, es muy
probable que la prevalencia sea substancialmente diferente de la del artículo. Ello se debe a que,
cuando se ensaya una prueba diagnóstica, se hace un esfuerzo especial por “balancear” los
grupos de enfermos verdaderos y los no enfermos, por lo que la prevalencia en el artículo resulta
muy elevada (con frecuencia cercana al 50%) y los valores predictivos que allí aparecen serán,
con toda seguridad, inútiles para nosotros. Primero, porque muy probablemente, en la población
o grupo de pacientes que atiende un médico y en relación con el tipo de atención que da
(primaria, secundaria o terciaria), la prevalencia de la condición para que está diseñada la prueba
variará alejándose de los valores predictivos que aparecen calculados a partir del grupo del
artículo que es, en realidad, un grupo experimental.
Segundo, porque el proceso de ajuste por prevalencia, para llegar a la probabilidad de existencia
o ausencia (predicción) de la enfermedad para la cual se aplicó la prueba, al ser aplicada a un
paciente en particular, requiere el ajuste de acuerdo a las probabilidades pre-prueba de ese
paciente para obtener las probabilidades post-prueba para ese paciente.

C.1. Ajuste de valores predictivos según la probabilidad pre-prueba a nivel poblacional.

Primero, veamos cómo ajustar los valores predictivos proporcionados por una prueba
diagnóstica aparecida en la literatura, de acuerdo a una prevalencia diferente de la que tiene la
enfermedad en el grupo experimental. Este análisis terminará dándonos una idea de si la prueba
nos será útil en nuestra población. Posteriormente haremos un segundo análisis para determinar
las probabilidades de que la enfermedad esté o no presente en un cierto paciente en particular.
Iniciemos el examen de estos conceptos con un ejemplo hasta hace poco bastante común, que
usa la clínica y no una prueba diagnóstica para identificar una enfermedad.
Usando sólo la intuición, favorecida por la experiencia, consideremos la probabilidad de acertar
el diagnóstico presunto de fiebre tifoidea en base al signo "fiebre de 6 días". En un niño de 8
meses parece poco probable, por poco específico (bajo valor predictivo positivo), que se trate de
una fiebre tífica. En cambio, en un niño de 10 años, es más probable que el signo "fiebre de 6
días" corresponda a esta enfermedad (mayor valor predictivo positivo). ¿Por qué?. Porque todos
sabemos que la "prevalencia " (en realidad, incidencia) de esta infección es considerablemente
mayor en niños de 10 años que en niños de 8 meses.14
Tomemos ahora como ejemplo el siguiente estudio para analizar el comportamiento del
inmunoensayo óptico (IEO) para identificar la etiología estreptocóccica en pacientes con
faringitis aguda, en la Tabla 1.7. (12):

14El lector puede recordar innumerables otros ejemplos como éste y otros referidos a signos propiamente de
laboratorio. Al hacerlo, deberá reconocer que muy poco sabemos de las probabilidades "pre-prueba" para
ajustar los innumerables procedimientos diagnósticos que utilizamos a diario. Poco sabemos, también, cuál
es la sensibilidad y especificidad de tales procedimientos. Por ejemplo, en tifoidea, ¿cuál es la sensibilidad
y especificidad del signo leucopenia+desviación a izquierda+aneosinofilia?. Particularmente en nuestra
Pediatría, no se ha hecho esfuerzos por esta tan importante labor descriptiva.

31
Tabla 1.7.

Etiología Estreptocóccica
Presente Ausente
IEO Total
Positivo 107 8 115
Negativo 10 176 186
Total 117 184 301

De acuerdo a lo ya estudiado en la tabla 1.2., podemos calcular los valores de los índices fijos de
esta prueba, que son:

Sensibilidad: 0,91 (91%)


Especificidad: 0,96 (96%)
La prevalencia de estreptococcias en estos 301 pacientes es 0,388 (38,8%), por lo que los
valores predictivos resultan ser:
VPP: 0,93 (93%)
VPN: 0,95 (95%).

Note el lector que la situación en que se usó esta prueba es muy peculiar: más de 1/3 de los
niños tenían faringitis estreptocóccica, fenómeno que obviamente no se da en la práctica diaria.
La explicación es que éste es un grupo experimental reunido para probar el comportamiento de
la prueba en cuestión. En su práctica habitual, la probabilidad de estreptococcia faríngea será,
muy probablemente, bastante menor. Más aún, en niños menores de 5 años, las faringitis
estreptocóccicas son menos probables que en escolares (hay diferencias de “prevalencia”). Por
estas razones, no se deje impresionar por los valores predictivos tan elevados. En su práctica, el
VPN será más alto mientras el VPP será más bajo que lo que informan los autores. En seguida
se explica por qué.

En el ejemplo dado en la Tabla 1.7, la prevalencia es 38,8%, lo que es bastante elevada. Por
ello, debe hacerse la siguiente operación, si la prevalencia en su población de enfermos es,
digamos, sólo 5% (de estreptococcias en niños con faringitis) (Tablas 1.8.).

32
15
a) En una tabla vacía, elija un número alto para N. Por ejemplo, 2.000 (Tabla 1.8.a.)

Tabla 1.8.a.
Etiología Estreptocóccica
IEO Presente Ausente Total
Positivo a b a+b
Negativo c d c+d
Total a+c c+d 2.000

Como la prevalencia (a+c)/N en su población es 5%, en la celda a+c, corresponde el 5% de


2.000 = 100 (Tabla 1.8.b.)

Tabla 1.8.b.
Etiología Estreptocóccica
IEO Presente Ausente Total
Positivo
Negativo
Total 100 2.000

Como la sensibilidad es 91% sólo el 91% (aprox.) de 100 estarán en la celda a. Por simple resta
se puede saber cuántos pacientes no tienen la enfermedad: 2.000 - 100 = 1.900 (Tabla 1.8.c.)

Tabla 1.8.c.
Etiología Estreptocóccica
IEO Presente Ausente Total
Positivo 91
Negativo
Total 100 1.900 2.000

Por el mismo procedimiento puede calcular , a partir de la especificidad, 96% (aprox:96%),


el valor a poner en la celda d: 96% de 1.900 = 1.824 (Tabla 1.8.d.)

Tabla 1.8.d.
Etiología Estreptocóccica
IEO Presente Ausente Total
Positivo 91
Negativo 1.824
Total 100 1.900 2.000
Ahora se puede armar toda la tabla, de acuerdo a su prevalencia (Tabla 1.8.e.):

Tabla 1.8.e.
Etiología Estreptocóccica
15Elija un número grande para evitar fracciones de casos en los casilleros de la tabla. El tamaño elegido
puede ser cualquiera, ya que no distorsionará los valores predictivos ajustados. La razón es que, tanto la
sensibilidad como la especificidad, permanecerán constantes gracias al modo de "armar" la tabla 2 x 2 en
base a ellas.

33
IEO Presente Ausente Total
Positivo 91 76 167
Negativo 9 1.824 1.833
Total 100 1.900 2.000

Ahora procede volver a calcular los nuevos valores predictivos16:


VPP:54,4%
VPN:99,5%

Es decir: cayó el valor predictivo positivo, mientras se elevó el valor predictivo negativo, lo
cual es uno de los efectos esperados de los cambios de prevalencia: cuando disminuye ésta, cae
el valor predictivo positivo y aumenta el valor predictivo negativo. Lo contrario ocurre cuando
aumenta la prevalencia. Ahora decida Ud. si esta prueba le servirá o no. Si lo que pretende es
descartar estreptococcias (y las consecuencias que derivan de una prueba negativa: no dar
antibióticos), IEO le da un buen margen de seguridad, aunque hay un 0,5% de probabilidades de
equivocarse. Si lo que pretende es confirmar estreptococcias, el IEO no le sirve mucho, ya que
tiene un 45,6% de probabilidades de equivocarse si da por confirmado el diagnóstico en base a
un resultado positivo.
Queda por examinar una interrogante estrictamente clínica: ¿qué implica, para los pacientes,
diagnosticar un 0,5% de estreptococcias (en este grupo de 2000, 100 niños) de menos, en
comparación con sobrediagnosticar un 45,6% de más (en este grupo, 912 niños)?. Implica que
el 0,5% de los pacientes que usted atenderá usando este método, entrarán al rango de riesgo
clásico del 3% (0,03) de padecer enfermedad reumática. (El 0,5% de ellos tendrá, entonces, un
3% de riesgo de enfermedad reumática: 0,005 x 0,03 = 0,00015 ). Contraste este riesgo con el
inconveniente que implica aceptar el VPP de esta prueba, es decir, que el 45,6% (casi la mitad)
de los pacientes que usted diagnosticó como con estreptococcias no la tendrán y habrán recibido
antibióticos de más.

Lo que Ud. resuelva, lo habrá hecho sobre la base de las evidencias analizadas de este modo y
no “de oídas” o "por tinca". (De paso, si desea asegurarse, haga cultivos a los niños con
resultados de IEO positivos antes de tratarlos con antibióticos).

16 La sensibilidad y especificidad, en la nueva tabla, son 41 y 98%, respectivamente, iguales a la tabla


inicial. Puede Ud. comprobarlo por sí mismo.

34
C.2. Ajuste de valores predictivos según la probabilidad pre-prueba individual.

Este análisis de la relación entre valores predictivos y prevalencia, podría (debiera) contemplar
otros ajustes para logros más avanzados, que llevan a mayor precisión en las decisiones respecto
a un enfermo en particular. Las diferentes "prevalencias" de cierta enfermedad (por edad, área
geográfica, raza, etc.) se refieren a la probabilidad simple de padecerla de individuos
pertenecientes a diferentes grupos etarios, geográficos, étnicos, etc. En el ejemplo de las
estreptococcias faríngeas, sabemos de la epidemiología clásica que los lactantes rara vez la
padecen, mientras los escolares son los más afectados (lo que generalmente no sabemos, de
mediciones provenientes de nuestra población real, es cuál es la probabilidad -en cifras- de un
lactante o un escolar que consulta por faringitis, que ésta sea estreptocóccica)17.
Para ilustrar, entonces, el ajuste por probabilidades pre-prueba individual, usaremos lo
aprendido para resolver sobre la probabilidad de esta infección en niños individuales
sospechosos de padecer de infección del tracto urinario (usando el ejemplo del examen
macroscópico de orina y la tira reactiva) cuyas diferencias conocidas consisten en que, por edad,
sexo o ambos, la probabilidad antes de hacer la prueba diagnóstica (probabilidad pre-prueba) es
diferente en relación a la edad y sexo.
Recordaremos que la prevalencia es una tasa, la que reduciremos a proporción con el fin de
emplearla en ajustar los valores predictivos.
Los datos sobre prevalencia por edad y sexo de infección del tracto urinario en niños del Area
Norte de Santiago (Chile) pueden extraerse de un estudio real en nuestra población , Tablas 1.9.
(Adaptado de referencia N°13).

Tablas 1.9.

PREVALENCIA (PROBABILIDADES PRE-PRUEBA) DE INFECCION DEL


TRACTO URINARIO EN NIÑOS SEGUN LA EDAD, SEXO Y COMBINACION DE
AMBOS..

Tabla 1.9.a.
Grupos por edad:

Edad (meses) 0 a 23 24 a 47 48 a 71 > 71


N° referidos 196 251 168 390
% confirmados 34,0 49,0 60,0 63,0

17Hay tanto trabajo descriptivo en nuestra literatura y congresos pediátricos, pero datos de prevalencias de
entidades como las estreptococcias según grupos etarios y muchas otras, brillan por su ausencia.

35
Tabla 1.9.b.

Grupos por género:

Género Varones Mujeres


N° referidos 221 784
% confirmados 33,0 59,0

Tabla 1.9.c.

Probabilidades pre-prueba (prevalencia) según género y edad.

Grupo etario Varones Mujeres


(meses)
0-23 0,31 0,35
24-47 0,35 0,48
48-71 0,38 0,59
> 71 0,19 0,67

Con estos datos, resolvamos sobre qué decidir en el caso de un paciente (¿tiene sentido hablar de
“un paciente” si podemos especificar mejor identificándolo como “un varón” (y, más adelante,
cuya edad es 60 meses?) que tiene una prueba positiva. Por ser varón, la probabilidad pre-
prueba es 0,33 (33%). La prueba diagnóstica que estamos usando mostró sensibilidad = 0,95 y
especificidad = 0,64 (14). Usando el método descrito en la serie de Tablas 1.8. (o por medio de
STATSLP, Hoja N°2, TESTS, Tabla 1b) compruebe que la probabilidad de este paciente de
tener infección del tracto urinario, dado que tiene un resultado positivo (VPP), es 0,56 (en
términos prácticos, si no fuera por, a penas, un 0,06 (6%), habría las mismas probabilidades a
favor que en contra de tener infección del tracto urinario). En la práctica, ya que el ensayo de
esta prueba se hizo en niños que tenían sólo fiebre y en niños que, además, tenían disuria, dolor
a la percusión de la zona lumbar, etc., la decisión de hacerle o no un examen de orina completo
(sedimento, cultivo, recuento de colonias) dependerá de cuán obvio es su sindrome clínico, pero
si el problema consiste en que tiene fiebre y no hay otro foco infeccioso clínicamente detectable,
este examen positivo no nos ayuda casi nada. Más información nos proporciona un resultado
negativo en un varón en el que la prueba resulta negativa, ya que con el VPN = 96,3%, si
damos por descartada la infección del tracto urinario en este paciente, sólo hay un 3,7% de
probabilidad de error.

Supongamos ahora que el paciente varón tiene 5 años. El resultado positivo de la prueba
indicará que el valor predictivo positivo (prevalencia en varones de 48 a 71 meses de edad =
38%) será 0,62, es decir, predice que 2 de 3 casos tendrán la enfermedad, lo cual resulta más
informativo que el VPP anterior.
Para denotar la importancia de considerar las probabilidades pre-prueba para tomar decisiones
en base a los resultados de la prueba diagnóstica (y evitar un exceso de palabras), supongamos
que el paciente es una mujercita de 7 años (probabilidad pre-prueba = 0,67). La prueba positiva
indica VPP = 0,84, que es más de 4:5 probabilidades de infección presente. En este último caso,
seguramente, usted no dudará en ordenarle examen completo de orina. A estos valores
corregidos (de los valores predictivos de la prueba en el grupo experimental) se los llama
probabilidades post-prueba. Note el lector que esta prueba, aplicada a grupos con baja

36
prevalencia de infección del tracto urinario, sirve mejor para descartar que para confirmar la
enfermedad, que es un buen comportamiento para una prueba usada en un consultorio de
atención primaria. Tiene sentido, dada la epidemiología de las infecciones urinarias en niños.

Tanto las probabilidades pre como post-prueba, pueden llevarse a razones de "verosimilitud"
(likelihood ratio) y los resultados de las pruebas pueden ser calculados como "razones de
verosimilitud", que expresan riesgo de otra manera que nos es poco familiar, pero que tiene la
ventaja de depender menos de la prevalencia, de lo que quien escribe no está tan seguro, pues las
probabilidades pre-prueba, expresadas en “odds”, son un elemento a incorporar en el análisis. La
clara ventaja es que permite interpretar con fines clínicos pruebas cuyos resultados pueden ser
expresados en más de dos categorías. Es éste un tema considerablemente más complejo que es
tratado aparte (ver apéndice 1).

D. Utilidad práctica de los resultados de una prueba diagnóstica según aparece en la


literatura.

El primer asunto que debe resolver el lector de un artículo sobre una prueba diagnóstica es si la
prueba propuesta en él tiene o no ventajas sobre los métodos diagnósticos que pretende
reemplazar o complementar con ella. Desde ya digamos que, cuando la nueva prueba
diagnóstica no exhibe ventajas claras sobre el método diagnóstico vigente, sólo se justificaría si
fuera menos dolorosa o molesta para los pacientes o -argumento no despreciable hoy día- menos
costosa. Debe tenerse esto presente por razones como las que se anotan, que parecen obvias. Sin
embargo, la presión tecnológica nos lleva con frecuencia a usar pruebas diagnósticas novedosas
que, en último término no aportan a la solución del dilema clínico y, de una u otra manera, la
decisión final queda supeditada a la apreciación clínica del médico. A este rubro pertenecen
innumerables intentos de dilucidar si en cierto paciente la causa de su enfermedad es un agente
bacteriano o no , p.ej. la electroinmunoforesis, la proteína C reactiva y otros en perspectiva, para
decidir en niños con diagnóstico clínico de meningitis o sepsis o neutropenia febril, situaciones
importantes porque se trata de respaldar la decisión de usar o no antimicrobianos. En ocasiones
el procedimiento diagnóstico propuesto puede retardar el comienzo de la terapia, en cuyo caso
puede representar un inconveniente si la decisión de iniciar el tratamiento es urgente. La
urgencia de resolver el problema es una de las razones de por qué se hacen tantos intentos por
sortear la demora que involucra esperar los resultados de los cultivos en este tipo de afecciones y
reemplazarlos por pruebas más rápidas.

El hacer ajustes por probabilidades pre-prueba nos da una idea particularmente ajustada de la
aplicabilidad o utilidad de los resultados de una prueba propuesta, siempre que los índices fijos
hayan sido reconocidos como válidos.
Aunque hemos abordado en otras secciones aspectos relacionados con esta pregunta, no está de
más recordarlos en resumen:

37
Desde el punto de vista de la toma de decisiones clínicas, disciplina críticamente importante,
este tipo de análisis es de enorme importancia. Imaginemos un escenario relacionado con el
ejemplo de las infecciones del tracto urinario en niños, que a nadie le resultará poco familiar: un
centro hospitalario (terciario) es el único recurso de laboratorio para un médico ubicado en un
consultorio pediátrico alejado, de nivel primario. Puede suponerse que el centro hospitalario
sirve, en el mismo sentido, a varios consultorios alejados (digamos distritales). En la consulta
pediátrica habitual, a nivel primario, el número de niños en los que sepuede sospechar infección
del tracto urinario es considerable (¿cuál es la tasa en su población?). Es concebible, también,
que de todos los sospechosos sólo una pequeña proporción (¿cuál en su caso?) tendrá esta
infección. En este escenario se dan, casi inevitablemente los siguientes fenómenos: i) El
laboratorio en el hospital tiene tal cantidad de solicitudes de exámenes de orina (sedimento y
cultivo) que no da abasto: los pacientes deben concurrir a pedir hora para que les tomen las
muestras, lo que postergará la decisión de iniciar tratamiento antibacteriano durante un tiempo
inaceptabl. El resultado tomará, en el mejor de los casos, otras 36 a 48 horas, pero la llegada de
la información al médico, por las razones endémicas en nuestro medio,se alargará horas o días
más. ii) Ante esto, el médico tenderá a pedir el examen de orina, pero intentará salvar la
contingencia tratando, de todos modos y sin certeza alguna, a una gran cantidad de pacientes, en
los que se puede prever un gran número de tratados de más y un número menor de tratados sin
certeza diagnóstica. No es difícil calcular el costo de este escenario, para el paciente, su familia,
para la institución hospitalaria, para quien, en definitiva paga la atención médic, etc
iii) Si usted valida el comportamiento de una cinta reactiva como la usada en los ejemplos de
arriba, y comprueba que sus índices fijos son reproducibles y, además, conoce la probabilidad
de padecer infección del tracto urinario de los niños de su comunidad por edad y género, usted
podrá llegar fácilmente, cifras en mano, a concluir que, si se dispone de ella en el consultorio
alejado, la cantidad de niños que ameritan ser enviados para toma de muestra de orina y examen
completo, se reducirá considerablemente, con un alto grado de confianza en que no está dejando
de tratar estas infecciones. Si sólo se limita, en cambio, a confirmar por medio del laboratorio
del hospital los casos de niños con resultados positivos de la cinta, contribuirá a malgastar
menos antibacterianos y a descongestionar el laboratorio del hospital, con una esperable mayor
expedición en el proceso de tomar las muestras a los niños que reciban de la periferia.
¡Pruébelo!.

1) ¿Será satisfactoria en nuestro medio la reproducción e interpretación de los


resultados?.

Los autores deben detallar los procedimientos y técnicas indispensables para reproducir la
prueba ya que, de otro modo, podríamos no estar haciendo lo mismo al tratar de aplicarla a
nuestros pacientes. La aparente garantía que significa que un solo experto (muy experto) fue
quien ejecutó la prueba no lo es, primero, porque el grado de destreza de un operador no es
mensurable ni reproducible. En segundo lugar, todo experto está en riesgo de error y éste debe
ser medido. Por ello, cuando la ejecución de la prueba involucra intervención humana y
subjetividad, es necesario medir (y aparecer en el texto) la llamada variación inter e
intraobservador. De esta manera, sabremos qué hacer para equiparar nuestra destreza a la del
autor del texto y qué podemos esperar en términos de error humano (que es, en último término,
corregible en la mayoría de los casos si se prevé, se sabe en qué consiste y cómo corregirlo).
2) ¿Son aplicables los resultados a nuestros pacientes?.
Para responder a esta pregunta, debemos verificar que nuestros pacientes son semejantes a los
examinados en el artículo. Ello implica, por ejemplo, revisar cuidadosamente el espectro clínico

38
del grupo experimental y las características de la población. Por otro lado, de nada nos servirá
una prueba que es rechazada por nuestros pacientes o no la pueden costear.

39
¿Cambiarán los resultados nuestras decisiones sobre el problema?.
Es indispensable recordar que las pruebas diagnósticas suceden a la anamnesis y examen físico,
de los que derivarán diagnósticos cuya verosimilitud depende de las respectivas probabilidades
de ocurrencia en la población en que usted trabaja. Después de terminado este proceso debe
elegirse las pruebas diagnósticas más adecuadas a la situación, para resolver el problema del
diagnóstico diferencial (15). ¡Nunca al revés!.
Hay numerosas pruebas de aspecto y presentación muy atractivos. Sin embargo, muchas veces
al enfrentar nuestros propios pacientes, terminamos basando nuestras decisiones en argumentos
clínicos u otras pruebas. Esto es particularmente probable cuando la decisión que se propone
tomar a partir del resultado de la prueba, tiene consecuencias graves. Típicamente, es el caso de
un lactante con meningitis y signos de hipertensión endocraneana, con valores en el examen de
LCR en los límites entre viral o bacteriano, cuya proteína C reactiva es menor de 20 mg/100 ml
(con valor local normal hasta 20 mg/100 ml); pese a los numerosos trabajos que le asignan alta
sensibilidad, a este paciente lo trataríamos con antibióticos de todos modos. Esta situación no es
imaginaria. Un buen estudio mostró cómo una razonablemente buena prueba para resolver el
frecuente problema de la infección bacteriana grave (prueba de látex en orina), se usó
ampliamente pero las decisiones de tratar a los pacientes con antibacterianos se tomaron antes
de conocerse los resultados de tal prueba (16).

Pruebas diagnósticas y meta-análisis:

Ocasionalmente encontramos meta-análisis de pruebas diagnósticas (17), lo cual nos


desconcierta por razones justificadas. ¿Cómo pueden los autores homologar los distintos
trabajos en asuntos como el espectro de la enfermedad y del grupo control?. ¿Cómo hacerlo
respecto a la comparación independiente y ciega con un patrón ideal comparable, ¿Las
variaciones Inter. e intraobservador?. Es difícil aceptar la “suma” de una serie de cortes
transversales en poblaciones heterogéneas o, según se mire, de diseños caso-control (forma
incompatible por definición, con la validez de una prueba diagnóstica).
Una última consideración: Conviene hacer notar que es posible enfocar el análisis del
comportamiento de una prueba diagnóstica como si se tratara de un diseño caso-control. Las dos
categorías “prueba positiva” y “prueba negativa” podrían ser, respectivamente, los “casos” y los
“controles”, respectivamente. Las dos categorías de “exposición”, podrían ser, en esta instancia,
el grupo con la enfermedad de interés y el sin dicha enfermedad. En otras palabras, se partiría de
los resultados de la prueba y, por algún procedimiento ciego e independiente, se buscaría medir
la proporción de verdaderos enfermos y verdaderos no enfermos que caerían en cada categoría
de “prueba positiva” o “prueba “negativa. El resultado podría expresarse en ORs a favor o en
contra de la enfermedad. De hecho, este procedimiento está comprendido en los diseños a
considerar para la clasificación de la validez del estudio sobre prueba diagnóstica (ver más
adelante los conceptos relacionados con diseño caso-control, ORs y clasificación según nivel de
validez de los estudios). Desde ahora digamos que es una pobre manera de estudiar una prueba
diagnóstica (retrospectiva) y que el riesgo de sesgos por falta de independencia (sesgo de
revisión de los resultados de la prueba y sesgo de revisión del diagnóstico), insuficiencia del
espectro clínico en ambos grupos, etc., hace necesario advertir que este método origina
resultados muy poco confiables. Tal vez se justificaría si no hubiese forma alguna de llevar a
cabo el estudio de la prueba, lo que en general resulta dudoso. ¡No es recomendable!. Se usa,
más bien, con fines asociados a decisiones en política de atención (adquirir o no tal o cual
prueba).

40
41
Comentario:
En el cuestionario que sigue se ha introducido una pregunta que no aparece en la literatura
ortoxa: ¿Cuál es el objetivo de la prueba?. Si alguien o un grupo va en busca de resolver un
problema, en este caso diagnóstico, puede suponerse que tienen claro para qué la quieren.
¿Puede suponerse así, fácilmente?. En nuestra área de trabajo son muy frecuentes y parecen
suficientes objetivos tales como “evaluar la utilidad de...la prueba”, “contribuir a mejorar el
diagnóstico de...”, “diferenciar entre infecciones bacteriana y virales”, etc. Menos frecuentes
encontramos objetivos tales como “mejorar la identificación de niños que no necesitan terapia
antibacteriana...” (alta sensibilidad), “identificar, para tratar precozmente...” (alta especificidad),
que podrían llamarse objetivos “primarios”. O bien, como objetivos “secundarios”, asociados a
los anteriores, “evitar el sobreuso de terapias”, “reducir el riesgo de postergación de terapias...”
etc.

Nota indispensable:
Cuando usted se pregunte si los resultados del artículo servirán para utilizar la prueba
diagnóstica en sus pacientes, lo primero que debe hacer es examinar cuidadosamente en
qué medida éstos calzan con la población descrita para el ensayo de la prueba en el
artículo bajo análisis.

Nota metodológica:
El diseño para probar la hipótesis que una cierta prueba diagnóstica tiene cierto valor (presunto)
de sensibilidad o especificidad, es el corte transversal (“cross sectional”). Ello implica enrolar
una serie consecutiva de casos. Hay otros diseños, pero no son los óptimos. Por ejemplo el
diseño caso-control. Las razones de esto último se pueden deducir teniendo en cuenta los
requisitos de validez del diseño para prueba diagnóstica que hemos analizado.
Antes de finalizar esta sección – y no es excesivo subrayarlo-hay que recordar que las
pruebas diagnósticas tal como se presentan en la literatura, requieren una validación en una
población lo más semejante posible a la de quien piensa usar la nueva prueba en sus
pacientes (18) y que rara, si alguna vez, una sola prueba diagnóstica resuelveun problema
clínico, usada fuera de contexto: de hecho, se aplica a un paciente con todo lo que él
significa de historia, hechos físicos, preferencias, etc.(19 .

Arquitectura de la investigación en diagnóstico: objetivos (20).


Fase I: Responder a “¿difieren los resultados de una prueba en paciente con cierta enfermedad a
los de la misma prueba en individuos sanos?”.
Fase II: Responder a: “¿Tienen los individuos con ciertos resultados de una prueba más
probabilidad de tener cierta enfermedad que los que tienen otros resultados de la prueba?”.
Fase III: Responder a: “¿Distinguen los resultados de una prueba a pacientes con y sin cierta
enfermedad en los cuales es clínicamente razonable sospechar que la enfermedad está
presente?”.
Fase IV: Responder a: “¿Les va mejor a los pacientes a los que se hace cierta prueba diagnóstica
que a los que no se les hace?”.

Los resultados de estudios de Fase I y II no pueden llevarse al uso clínico.


Los resultados de Fase III deben aceptarse para el uso clínico habitual sólo si han sido evaluados
en series independientes (que coincidan en las características de comportamiento de la prueba) y
que compartan un cierto punto de corte, si se trata de una variable continua.

42
Los de fase IV, cumplida la fase III, se hacen en pacientes aleatorizados para ser o no objeto de
la prueba.

43
BIBLIOGRAFIA:

1) Roine Y, Faichensicht Y, Arguedas B, Herrera JB, Rodriguez F “Serial serum c-reactive


protein to monitor recovery from hematogenous osteomyelitis in children”. PIDJ 1995;14:40-
44.
2) Kernie SG, Mustafa MM “Fever and neutropenia: defining low risk groups”. PIDJ 1995:
14:82-83.
2) Jakobsson B, Berg U, Svensson L “Renal scarring after acute pyelonephritis”..
Arch.Dis.Child. 1994;70:111-15.
3) American Academy of Pediatrics. Red Book 1997.
4) Herrera P Duffau G., Lagos R. "Importancia de las probabilidades pre-prueba en el uso
de pruebas diagnósticas". Rev.Chil.Pediatr.1997; 68:125-13.
5) Ransohoff DF, Feinstein AR “Problems of spectrum bias in evaluating the efficacy of
diagnostic tests”. NEJM 1978;299:926-30.
6) Heney D, Lewis J, Evans SW, Banks R, Bailey CC, Whicher JT “Interleukin-6 and its
relationship to c-reactive protein and fever in children with febrile neutropenia”. J.Infect.Dis.
1992; 165:886-90.
7) Casanueva V, Cid X, Cavicchioli G, Oelker O, Cofré J “Adenosina deaminasa en fiebre
tifoidea y otras enfermedades febriles”. Rev.Chil.Pediatr. 1991; 62:221-26.
8) Avendaño A, Herrera P, Horwitz Y, Duarte E, Prenzel Y, Lanata C et al “Duodenal string
cultures: Practicallity and sensitivity for diagnosis of enteric fevers in children”. J.Infect.Dis.
1986; 153:359-358).
8b) Herrera P, Duffau G «¿Existen bases para el uso de proteína C reactiva en la detección
de infecciones bacterianas en niños?”. Rev.Med Chile. 2004 (Entregado para publicación).
8c) Duffau G. “Tamaño muestral en estudios sobre pruebas diagnósticas”. Rev.Chil.Pediatr.
1998; 69:122-125.
9) Valenzuela Y C “Confiabilidad de la sensibilidad y especificidad del 100%)”. Rev.Med.Chile
1997; 125:228-231.
10) Sackett DL, Haynes RB, Tugwell P “Clinical Epidemiology. A basic science for clinical
medicine”. Little, Brown & Co.Boston, 1985.
11) Jaye DL, Waites KB “Clinical application of c-reactive protein in pediatrics”. PIDJ 1997;
16:735-47.
12) Roddey OF, Clegg HW, Martin ES, Swetenbur RL, Koonze EW “Comparison of an
optical immunoassay for the detection of group A streptococci in a pediatric office”..J.Pediatr.
1995; 126:931-3.
13) Lagos R, Carter J., Benavente C, Lamberg T, Muñoz A, Bravo I, Campos J, Soto G,
Herrera P. "Epidemiología de las infecciones del tracto urinario en niños y riesgo de
recurrencia y alteraciones nefrourológicas".Rev.Chil.Pediatr. 1995; 66: 1-12.
14) Lagos R., Carter J., Herrera P. "Utilidad de una tira reactiva y del aspecto
macroscópico de la orina para descartar la sospecha clínica de infección del tracto urinario
en niños ambulatorios". Rev.Chil.Pediatr. 1994; 65:88-94.
15) Richardson WS, Wilson MC, Guyatt GH, Cook DJ, Nikishawa J “User´s guide to the
medical literature: XV. How to use an article about disease probability for differential
diagnosis”. JAMA 1999; 281:1214-19.
16) Adcock PM, Paul RI, Marshall GS “Effect of urine latex test on the treatment of
children at risk of invasive bacterial infection”. Pediatrics 1995; 96:951-54.
17) Irwing L, Tosteson ANA, Lau J, Golditz G, Chalmers TC, et al. “Guidelines for meta-
analyses evaluating diagnostic tests”. Ann.Intern.Med. 1994; 120:667-76.

44
18) Irving L, Bossuyt P, Glasziou P, Gatsonis C, Lijmer J. “Designing studies to ensure that
estimates of the accuracy are transferable”. BMJ 2002; 324:669-71.
19) Elstein AS, Schwarz A. Clinical problem solving and diagnostic decision making: selective
review of the cognitive literature”. BMJ 2002; 324:729-32.
20) Sackett DL, Haynes RB “The architecture of diagnostic research”. BMJ 2002; 324:539-41

45
CUESTIONARIO N° 1.

ANALISIS DE LA ESTRUCTURA Y RESULTADOS DE UN ARTICULO SOBRE


PRUEBAS DIAGNÓSTICAS.

Especifique su pregunta:

Cita:

a) ¿Cuál es el objetivo exacto de la prueba?. (¿Descartar?, ¿confirmar?, ¿Diferenciar?)

b) )¿Hay un “estándar diagnóstico ideal” aceptable?. (*)


c) ¿Se hizo comparación independiente y ciega con el “estandar diagnóstico ideal” o
de certeza?
d) ¿Se incluyó un espectro adecuado de pacientes con la enfermedad y sin ella pero
con clínica similar?

e) Los pacientes incluidos, ¿corresponden a una serie consecutiva de casos y no casos?


f) ¿Puedo armar una tabla 2 x 2 o 2 x n?
g) ¿Se describió el medio donde se desarrolló el estudio y del filtro por el que pasaron los
pacientes?
h) ¿Se describió la reproducibilidad de los resultados de la prueba (precisión) y de su
interpretación (variación interobservador)?.
i) ¿Se definió en forma adecuada el término o valor “normal”?.
j) Si la prueba se propone como parte de un grupo o secuencia de pruebas, ¿se determinó
su contribución a la validez global?.
k) ¿Se describieron con detalle las tácticas para desarrollar la prueba (como para
reproducirla).
l) ¿Se determinó la “utilidad” de la prueba?.
m) ¿Ha sido validada en una población no experimental?.
n) ¿Puedo asignar a mi paciente una probabilidad pre-prueba razonable?
o) ¿Me sirven los resultados para mis pacientes?
p) Asigne un nivel de validez a este estudio
q) Asigne un grado de recomendación a este estudio.

(*) Si el “estándar diagnóstico ideal da origen a tres categorías en vez de dos, la


prueba no ha sido hecha en forma independiente y ciega y, por tanto, no sirve. (El
tercer grupo, el “dudoso” es, precisamente, el que debiera ser resuelto por el estándar
diagnóstico ideal).
¿A qué fase (arquitectura) de la investigación corresponde esta prueba?. (Anote sus comentarios
al reverso o en hoja aparte).

46
SECCION 2.

SOBRE ETIOLOGÍA O CAUSALIDAD (p.ej., de daño).

Generalidades.
En esta sección nos dedicaremos a los estudios sobre etiología o causalidad, los cuales
intentan establecer una asociación entre uno o más eventos (factores) de exposición y otro
evento (efecto) en el individuo o la población, más que causalidad. Si bien el marco en que
se plantea la hipótesis es el de relación causa-efecto, esta relación no se logra asegurarla
por medios que no sean experimentales o intervencionistas lo cual excluye, de entrada, los
modelos de estudio de tal naturaleza en seres humanos. En condiciones sub-experimentales
(administración o autoadministración casual, accidental o inadvertida de un agente con
efectos dañinos), el análisis puede ser llevado casi al modo en que se desarrolla el
experimental, con algunas limitaciones que derivan del hecho que el investigador no
controló la intervención (ingreso del agente al organismo), principalmente, porque no se
trató de un diseño aleatorio.
Las dificultades inherentes al tema (ver requisitos para establecer relaciones de causalidad)
no son propias de la Epidemiología Clínica ya que, además, la determinante de una cierta
condición o “efecto” rara vez, si alguna, es única o monofactorial. En particular, desde el
momento en que debe entenderse la enfermedad (e, inclusive estados de normalidad, como
el crecimiento y desarrollo) como resultante de un proceso de interacción entre el individuo
(patrimonio genético) y el medio, el estudio de causalidad está dirigido a identificar
factores concurrentes para la producción de algún evento de interés (efecto) clínico-
epidemiológico. Estos factores pueden ser indispensables, suficientes o sólo marcadores en
el proceso que termina en enfermedad. Desde el punto de vista clínico-epidemiológico,
interesan todos ya que, aunque no se conozca la causa ni el mecanismo de cierta condición,
el marcador (factor) estrechamente asociado al efecto ya permite acciones dirigidas a
detectar y, a veces, iniciar el control del problema. Por ejemplo, cierto nivel socio-cultural
no es la causa de ciertas enfermedades, pero está asociado a la exposición de factores que sí
lo son. La pobreza y el analfabetismo no son la causa de ciertas enfermedades infecciosas,
pero su asociación a ciertos rasgos culturales tales como el hacinamiento o la raza
favorecen ciertas enfermedades (meningococcias en el primero y el sarampión en
aborígenes americanos la segunda). A mediados del siglo 19, Ignaz Semmelweiss observó
la gran diferencia de tasas de mortalidad entre dos maternidades. En uno de los análisis más
interesantes de la historia de la epidemiología, Semmelweiss revisó un sinnúmero de
posibles factores asociados a tal diferencia. Aunque su estudio y la conclusión a que llegó
no identificaron la causa de la fiebre puerperal, sí encontró un factor asociado: quienes
atendían a las mujeres de la clínica con mayor mortalidad (estudiantes de obstetricia) tenían
contacto con cadáveres, por lo que concluyó que "partículas" cadavéricas adheridas a las
manos podrían ser la causa de la enfermedad. Aunque no identificó la causa, la
intervención ideada por él (lavarse las manos con substancias cloradas) redujo
drásticamente la mortalidad (1).
Aunque “causalidad” aparece como capítulo aparte, el concepto está ligado a “pronóstico”,
a “terapia” y -aún- a “pruebas diagnósticas, pero por razones didácticas se trata por
separado. El estudio de factores o variables asociadas a un efecto determinado es siempre
importante en medicina clínica, en la medidad en que permite identificar puntos en los
cuales intervenir en beneficio del paciente o la población. A su vez, una intervención

47
-terapéutica- es un factor que produce un efecto benéfico...aunque a veces produce,
además, daño (que puede sobrepasar los benéficos).
Una tercera consideración sobre causalidad es que, dado que el método experimental no
está permitido en este contexto (sí en los ensayos terapéuticos, con las consecuencias que se
comentarán), los estudios para estudiarla tienen menos “fuerza” que si los datos provinieran
del modelo experimental. Ello se debe, principalmente, a que el investigador no interviene,
sólo observa, lo que implica no poder manipular la presunta “causa”. Sin embargo ello, a la
larga y cuando los estudios están bien construidos y llevados a cabo, conducen a
importantes conclusiones de aplicación práctica a veces decisiva (los ejemplos aparecen, en
cada caso, más adelante).
Un capítulo importante de etiología o causalidad es el que estudia el daño involuntario que
ciertas intervenciones en atención médica, pueden hacer en los pacientes. Este se trata al
final del presente capítulo.
En artículos sobre etiología, causalidad o daño, son requisitos esenciales para aceptar su
validez a) la definición clara y precisa del efecto o la exposición como los fenómenos a
medir, b) el tipo de diseño utilizado y c), la comparabilidad de los grupos, con excepción
de la magnitud del evento en base al cual se establecerá la asociación causa/efecto.

A) Sobre el modelo o diseño elegido para estudiar etiología.

Es frecuente leer, en los títulos de trabajos, el término “estudio de factores en...”. El primer
paso del lector debe ser identificar qué modelo o diseño de estudio se empleó para el objeto
declarado. En las tablas 2. y 2.b. se ordenan según la solidez o “fuerza” 18 de las
conclusiones a que pueden llegar en cuanto a causalidad y algunas características de los
diferentes modelos o diseños de investigación. En realidad, el concepto que subyace es el
de validez, entendiendo por tal el grado en que los resultados de un estudio (clínico) se
acerca a la realidad. (Ver Apéndice 8).

18 El término “fuerza” aparece varias veces en este texto. Sus interpretaciones son análogas: se llama
“fuerza” de una asociación, a la medida en que aquella se aleja del valor de la hipótesis nula (= 1 en el caso
de los riesgos relativos). RR = 5 o RR = 0,02, son asociaciones “fuertes”. Análogamente, “fuerza” de una
evidencia puede entenderse como la medida en que una conclusión se acerca a la verdad.

48
El más simple de los modelos es la descripción de un caso. Le sigue la descripción de un
grupo de casos y las series de casos (diferentes por el tamaño de la muestra y, a menudo,
por el propósito) y, en el límite, el llamado corte transversal.
El problema surge en el momento de examinar el grado en que podrían cumplirse las
condiciones para establecer o proponer una relación causa-efecto por la observación de
asociaciones19 (p<0,05) entre las variables de las series de pacientes. Basta examinar los
requisitos para establecer causalidad (ver más adelante), para comprender que, aún en el
caso de los resultados impresionantes de una prueba de significación estadística aplicada a
una aparente asociación (p<0,01), ello sólo daría pie para proponer una hipótesis a estudiar
apropiadamente.

Ensayos clínicos controlados. En el grupo de los estudios analíticos, el modelo


experimental (controlado, aleatorizado) es el que proporciona evidencias más sólidas de la
relación causa-efecto, porque se cumplen prácticamente todos los requisitos para ello, pero
en el establecimiento de la relación causa-efecto, salvo con fines terapéuticos, no puede
usarse. Sin embargo, en este tipo de ensayos, suelen identificarse efectos indeseados al
finalizar el estudio. Otro factor que obliga a recurrir a otros diseños de estudio lo constituye
un efecto de frecuencia baja. Si el evento en cuestión es de incidencia muy pequeña, se
necesitarían grandes cantidades de pacientes en los grupos en comparación de un ensayo
controlado aleatorio para detectar diferencias significativas (en sentido clínico y
estadístico).

Estudio de cohortes. Lo sigue en la ordenación por validez el estudio (comparación) de


cohortes, en el cual el investigador no “experimenta” sino sólo observa lo que ocurre, luego
de transcurrido un tiempo, en dos grupos iguales, diferentes sólo respecto a la presencia del
factor al que se atribuye, hipotéticamente, el efecto o enfermedad que se estudia.
En principio, las cohortes pueden ser de dos clases: las prospectivas y las históricas.
"Prospectivo" es un término muy usado y, por su uso desaprensivo, suele resultar equívoco.
En general, significa -respecto a los diseños- que el modelo implica la observación de un
fenómeno desde cierto momento inicial hacia adelante ("desde hoy, hacia el futuro"). Su
contrapartida es la observación retrospectiva ("desde hoy hacia el pasado").
Para los efectos de analizar la relación causa-efecto, es preferible entender como
"prospectivo", aquél diseño que estudia tal relación en el sentido en que lógicamente están
ambos relacionados: primero la causa y luego el efecto. En otras palabras, el investigador
lleva a cabo el análisis de tal relación a partir del momento en que actúa la causa presunta o
exposición, midiendo luego los efectos de ella (habitualmente, la frecuencia o incidencia de
enfermedad). De inmediato reconozcamos que el estudio de cohortes puede ser hecho en
base a hechos históricos (no por ello "retrospectivo"). Tal es el caso de los posibles estudio
de los efectos de la radiación en la población de Chernobyl después de producida la
exposición, como también diversos estudios dirigidos a medir las consecuencias de la
meningitis bacteriana en términos de secuelas neurológicas. Se parte del hecho cierto que
existió la exposición (meningitis) en un grupo de niños identificados por revisión de
registros de egresos de un servicio y se mide, un tiempo después y en los sobrevivientes, la
proporción con secuelas neurológicas. Nótese que la incógnita al iniciar el estudio no es la
existencia de la exposición, sino la tasa de incidencia del efecto (compromiso neurológico).
Los mejores estudios prospectivos en este tema son, naturalmente, aquellos que se inician

19 Imprevistas.

49
con el seguimiento de los pacientes, durante un lapso variable, desde el momento del
diagnóstico, en este caso, de la meningitis.
Este lapso no es arbitrario (para ninguno de los dos modelos del diseño), ya que se sabe
(luego de sucesivos estudios parciales) que hay secuelas que pueden mejorar o desaparecer.
Al comparar ambos diseños, parecerá claro que, en el caso del estudio de la cohorte
histórica, existe el riesgo de no encontrar todos los casos que sobrevivieron, lo que equivale
a una pérdida en el seguimiento, con sus posibles efectos distorsionadores sobre la
estimación de la probabilidad de secuelas. Por otro lado, también es fácil comprender que,
dado un mismo plazo entre el diagnóstico de meningitis y la medición de la proporción de
secuelas, es más simple, menos costoso y más rápido de ejecutar el modelo de la cohorte
histórica que el seguimiento. Las evidencias aportadas por el estudio de cohortes históricas
puede ser, en consecuencia, menos sólida que el del seguimiento de tales cohortes. Ahora
bien, si se busca complementar lo que es un estudio más bien descriptivo (por seguimiento
de una sola cohorte), de modo de afirmar causalidad aportando, por ejemplo, evidencias
sobre la relación dosis-efecto, es más probable que ello se logre cuando se asiste a ella que
estimándola en grupos históricos.
En el ejemplo de las meningitis, no parece ser motivo de duda que la exposición
(enfermedad) es un evento abrupto y suficiente (pero no el único: no todos los niños que la
padecen tienen secuelas) para explicar el daño neurológico subsiguiente, pero no siempre
es así.
En el caso de las enfermedades respiratorias infantiles, la hipótesis que atribuye al humo de
leña un papel causal en la probabilidad de infecciones respiratorias bajas, el problema es
muy diferente. ¿Cuándo comenzó la exposición?. ¿Qué magnitud de ella fue necesaria para
explicar el efecto nocivo?. ¿Durante cuánto tiempo hay que seguir niños expuestos para
afirmar que la asociación está fuera de duda?. Claramente es difícil estudiar esta relación
causa-efecto. Ello explica el uso de otros modelos de estudio tales como el diseño caso-
control20.

Estudios caso-control: lo esencial en este diseño, es que el estudio no se hace a partir de la


exposición (cuya existencia, expresada en probabilidad de estar presente en casos y
controles, es la incógnita), sino del efecto (2).
Concretamente, se reúne un grupo de pacientes que tienen la enfermedad (efecto) y se los
compara con otro grupo sin ella, para conocer una hipotética diferencia entre ambos en
términos de la probabilidad de haber estado expuestos a la causa (exposición) (3,4). En
términos algebraicos, convenientemente explicativo por lo demás, se puede expresar la
diferencia entre estudio de cohortes y estudios caso control, de la siguiente manera
(bastante simplificada):

20El término "caso-control" en epidemiología ha quedado consagrado para asignarlo a estudios


retrospectivos. No debe confundirse éste con cualquier otro diseño en que a los casos se les ha asignado
controles.

50
Estudio de cohortes: p (E|F) = probabilidad de ocurrencia del efecto, dado el factor.
Estudio caso-control: p(F|E) = probabilidad de ocurrencia del factor, dado el efecto.

Por un procedimiento matemático relativamente complejo que omitiremos aquí, se hace


una extrapolación por la cual la inversión de los términos no influye en la decisión de
atribuir al factor el efecto de interés. Sin embargo, aparte de las diferencias respecto a la
solidez de las conclusiones, asunto que se analiza más adelante, es necesario tener presente
que el proceso inferencial es diferente entre ambos, como los son sus estadígrafos.
Este diseño es particularmente útil cuando el evento "efecto" es de muy baja incidencia o
cuando el tiempo transcurrido entre la exposición al factor nocivo y la aparición del evento
de interés es muy largo. Un ejemplo que ilustra bien estas ventajas es el ya clásico estudio
que, con ocho mujeres jóvenes afectadas de adenocarcinoma vaginal y 32 mujeres
comparables sin él, se estableció que el dietilstilbestrol ingerido por sus madres durante sus
respectivos embarazos, era la causa del tumor (5).
El principal inconveniente del diseño caso-control (en varios aspectos semejantes a los de
las cohortes históricas) es que el establecimiento de la existencia de la exposición, así como
su dosis, duración, etc., está sujeto a errores derivados de utilizar antecedentes de interés
muchas veces definidos, medidos y registrados (a veces omitidos) por terceros. Otra
diferencia importante es que el estudio prospectivo permite estimar la proporción de efecto
producido por el factor (incidencia), lo que no es posible en el diseño caso-control. De
hecho, al reunir un grupo n1 de casos de cierta enfermedad y asignarle un grupo de
controles n2 (en general, de tamaño igual o mayor que n1) de controles sin ella, se
establece en el universo en estudio una incidencia artificiosa, convencional, cercana o
mayor al 50% que es, obviamente, falsa. En epidemiología se usan procedimientos para
hacer estimaciones de la incidencia verdadera que no son aplicables a los estudios clínicos.
Ello es debido al número de individuos incluidos en el estudio y, sobre todo, a la
prevalencia o incidencia real de la enfermedad. En epidemiología se estudia por medio de
este diseño, con mayor probabilidad que en clínica21, eventos o enfermedades de baja
incidencia. Ello condiciona, también, diferencias importantes entre los estadígrafos propios
de cada estudio (riesgo relativo y odds ratio), los cuales no son sinónimos no sólo por lo ya
anotado, sino porque en la práctica -investigación clínica- tienen dimensiones diferentes, a
veces considerables. En este punto cabe desarrollar estos conceptos de otra manera para su
mejor comprensión.

Estadígrafos de riesgo.

Hay diversas maneras de expresar riesgo22, entendido éste como la probabilidad de que
ocurra un evento cualquiera. En el caso del estudio de cohortes, el riesgo de ocurrencia de
un efecto. En el diseño caso-control, el riesgo de ocurrencia de una exposición.
a) Proporciones y porcentajes. Un modo simple de medir y expresar riesgo es en términos
de una proporción (que, multiplicada por 100, se convierte en porcentaje). En el glosario
que incluye este texto se definen estas expresiones. Por ahora, expresemos la proporción y
el porcentaje de la siguiente forma:
21La diferencia entre estudio epidemiológico y clínico es arbitraria desde el punto de vista metodológico
propiamente tal. Más bien, se trata de diferencias entre los asuntos de interés de los epidemiólogos y los de
los clínicos.
22"Riesgo" denota, en general, la probabilidad de ocurrencia de un efecto adverso. Sin embargo, puede
entenderse como una simple probabilidad.

51
Proporción (p) = A/(A+B).
Porcentaje = (A/A+B) x 100.

Con todo lo importante que es conocer, por ejemplo, la proporción de niños con secuelas
después de padecer meningitis bacteriana, la estimación de ésta, en términos de porcentaje,
constituye sólo una descripción. La inferencia subyacente es que tal proporción es la
correspondiente al universo total de niños con meningitis bacteriana. Porque las
estimaciones se hacen en muestras (limitadas) del universo, siempre es necesario expresar
su grado de precisión o, en otros términos, el grado de su dispersión. La dispersión de una
proporción se expresa en términos de su intervalo de confianza del 95%. La fórmula (no
para que se la aprenda de memoria, sino para que la compare con las de los otros
estadígrafos de riesgo) es:

IC 95% de p = p± 1,96* √(p*(1-p)/n).

La proporción da una idea del riesgo absoluto de ocurrencia del evento, lo que no es lo más
ilustrativo desde el punto de vista clínico-epidemiológico.

b) Razones: las razones también sirven para expresar riesgo.


Las razones pueden expresarse de la siguiente forma:

R = A/B

(R = razón).
Una razón bastante común en nuestra literatura, generalmente no resuelta aritméticamente,
es la que se refiere a la relación según género: Razón varones:mujeres = 4:3. (La resolución
aritmética es 4/3= 1,33 (¡que no es una proporción!), que denota que en la relación según el
género, por cada 1,33 varones hay una mujer.

c) Riesgos relativos o razones de riesgo: Más interesante es el riesgo relativo o las razones
de riesgo (entendido en general), que sigue el concepto de condicionalidad, comparando
riesgos absolutos. Específicamente, se refiere al riesgo de ocurrencia de un evento (efecto)
en quienes estuvieron expuestos , relativo (o en comparación con), al de quienes no
estuvieron expuestos. Análogamente, el otro riesgo relativo, el odds ratio, compara la
probabilidad de haber estado expuestos quienes padecen el efecto, relativo o en
comparación con quienes no lo tienen (sanos). (El asunto es algo más complicado, pero se
completa y aclara más adelante).
Antes de entrar en los riesgos relativos, examinemos un ejemplo para comprender mejor
por qué son más interesantes éstos que las proporciones.

52
En el estudio de Newburger et al. (6) sobre el efecto de la gamaglobulina endovenosa
(IGEV) en comparación con el ácido acetil salicílico (AAS), en enfermedad de Kawasaki,
la incidencia de alteraciones de las arterias coronarias (AAC) en 75 niños tratados AAS fue
0,20 (20%), mientras con IGEV fue 0,068 (6,8%). ¿Qué se puede decir de esto (¡antes de
mirar el valor de "p"!)?. Primero, que la diferencia entre ambos tratamientos es 0,132
(13,2%, con IC 95% de la diferencia = 0,02 a 0,24). Además se puede decir que el riesgo
relativo (RR) es 2,96, es decir, que los no tratados con IGEV tienen 2,96 veces más
probabilidad de tener AAC que los tratados con ella (IC 95% = 1,13 a 7,73). Para otros
cálculos con el RR, se puede expresar al revés: 1/2,96 = 0,338, que significa que los
tratados tienen 0,338 veces (menos de una) de tener AAC que los no tratados o tratados
con AAS.
Posteriormente (7), los mismos autores compararon 4 dosis de 400 mg/kg de IGEV fue 9%
(0,09) con una sola dosis de 2 gr./kg., en 260 niños, que fue 5% (0,05): según una
operación simple que luego veremos, el riesgo relativo (RR) de alteraciones coronarias en
estos niños, referido al de niños que recibieron sólo una dosis, es 1,9823. Ello significa que
recibir cuatro dosis de IGEV, conlleva un riesgo 1,98 veces mayor (casi el doble) de
desarrollar alteraciones coronarias respecto de los niños que recibieron sólo una dosis
(Intervalo de confianza del 95% (CI 95%) = 1,01 a 3,87). Este estudio, que es un ensayo
clínico controlado es, en realidad, una comparación de dos cohortes (por ello, cabe el
cálculo del RR).
Del mismo modo, en el estudio retrospectivo controlado (caso-control) hecho por nosotros
(8) sobre el pronóstico en meningitis bacteriana aguda, la proporción de estos niños en
estado de coma al ingreso, fue 0,4% (0,004) con coma. Es interesante saberlo, pero más
aún lo es que para estos niños, el riesgo de morir o tener secuelas groseras al alta, relativo
al de los niños que no ingresaron en coma, expresado en OR -como corresponde- fue (OR)
=12,9, es decir, 13 veces mayor.

Examinemos los riesgos relativos desde otro punto de vista, antes de iniciar el análisis
sistemático sobre etiología.
Los riesgos relativos se presentan en tablas de 2 x 2, recurso que ayuda a examinar mejor
las diferencias entre los estadígrafos de los estudios de cohortes y los de estudios caso-
control.

23Los cálculos de RR no están hechos en los artículos originales.

53
Supongamos que tenemos un grupo de pacientes con una enfermedad determinada que
llamaremos "ENF"24 y un elemento de exposición que llamaremos "EXP".
Supongamos ahora que deseamos saber (porque ésta es nuestra hipótesis a verificar) si
cierta exposición EXP produce un efecto ENF en una medida (o en una proporción o
incidencia de ella) diferente de la que aparece el efecto ENF en la población que no está
expuesta a tal factor EXP.
Es importante tener en cuenta que, salvo en condiciones experimentales muy rigurosas, es
posible que el factor EXP esté ejerciendo su efecto o lo haya ejercido en alguna medida,
sobre la población total, sin que se haya producido, o se vaya a producir el efecto ENF. Del
mismo modo, los exentos de cierta condición ENF pueden haber estado expuestos al factor
EXP. Estas explicaciones, que pueden parecer un poco crípticas, reflejan una realidad cuya
característica es que nada, o casi nada, es blanco o negro.25

Para ilustrar esta idea, propongamos una hipótesis no original, sobre la que se han escrito
numerosos artículos: "la asfixia perinatal produce (entre otros) problemas de rendimiento
escolar".
Situación 1. Podemos asistir al momento en que se produce la exposición o podemos
precisar con algún grado suficiente de certeza que ésta se produjo. Suponemos que tal
exposición se asocia al efecto adverso propuesto. (Se da por entendido que "asfixia
perinatal" está precisamente definida y también "problemas de rendimiento escolar") (9) .
Lo que no sabemos en la etapa de hipótesis es a) si ello es cierto ni b) si lo es, hasta dónde
podemos atribuir a la exposición la ocurrencia de este efecto de interés. Para saberlo, se
decide controlar durante el tiempo transcurrido desde el nacimiento (exposición), hasta la
edad escolar, momento en el cual se mide el efecto (problemas o anormalidad de
rendimiento escolares).
En este caso, la estructura del estudio podrá expresarse, esquemáticamente, de la siguiente
manera (datos imaginarios) en Tabla 2.3:

24En inglés es más fácil denotar estos grupos con símbolos: Enfermedad es "disease"="D" y exposición es
"exposition" = "E". En castellano no podemos recurrir a éstos.
25 Aún en situaciones experimentales (ensayos terapéuticos) , no se puede esperar que en los no "expuestos"
a un factor que se supone causante de una modificación (situación patológica en estudio), sea igual a 0%, o
en los sí expuestos la modificación se produzca en el 100%.

54
Tabla 2.3.

Exposición:

Casos: Controles: Total


Asfixia grave o Asfixia leve o
moderada ausente
(a) (b)
Alterado 23 23 46
Efecto Rendimiento
escolar
No (c) (d)
alterado 27 77 104
(a+c) (b+d)
Total 50 100 150

% de efecto 46 23
Hechos importantes:
a) Los "casos" son los expuestos, los "controles" son los no expuestos.
b) Al iniciar el estudio, no se sabía cuáles serían los resultados en términos del efecto, es
decir, las proporciones de rendimiento escolar alterado en cada uno de los dos grupos.
Ahora se puede hacer una estimación del efecto dado el factor (incidencia de rendimiento
escolar alterado).
c) El número de expuestos ha sido manipulado por el investigador, de modo de asignar dos
controles por caso.
d) En ambos grupos hay “efecto”: problemas de rendimiento escolar.
e) Por ello, los porcentajes aislados dicen poco.
f) Si relacionamos ambos porcentajes (p.ej, en términos de proporciones), resulta
intuitivamente aceptable que dividir la proporción de afectados dada la exposición (P[Enf|
Exp]), por la proporción de afectados dada la no exposición, es decir, 0,46/0,23, resulta
2,0. Esta operación se puede expresar, también, usando las celdas de la tabla, como:

a/(a+c)
b/(b+d)

Hemos calculado el Riesgo Relativo (RR), que es una medida de riesgo relativo adecuada,
luego de un seguimiento de dos cohortes definidas en el momento en que cada uno de sus
integrantes estuvo expuesto (al nacer).
g) Puede advertirse que el investigador puede establecer, con cierto grado de precisión la
incidencia de problemas escolares en los casos: a/(a+c)= 0,46 (o 46%); IC 95% = 0,32 a
0,6. Además, puede comparar esta proporción con la de problemas escolares en los
controles (0,23).

55
Estos cálculos y sus resultados se logran fácilmente por medio de programas de análisis
comunes y sencillos (p.ej., Epi-Info en cualquiera de sus versiones). (Note, si hace el
cálculo, que el valor del tan perseguido "p" es 0,02).

Situación 2. El investigador interesado no asistió al momento de la exposición, pero está en


condiciones de medir su impacto en el rendimiento escolar del mismo modo que el
investigador anterior (incluido el tamaño de los grupos).
Puede proceder de dos maneras según sus recursos económicos, de tiempo, disponibilidad
de pacientes, etc.
a) Primero busca antecedentes, en maternidades o servicios de neonatología, de dos grupos
de neonatos: uno con diagnóstico de asfixia perinatal grave o moderada y otro con asfixia
leve o ausente. En otras palabras, "arma" dos cohortes: expuestos (casos) y no expuestos
(controles).
Luego debe buscar (y encontrar) los 150 niños en los registros escolares correspondientes.
Si lo logra, habrá abordado el problema por medio del estudio de dos cohortes históricas.
La estructura general del análisis será la misma que la anotada más arriba, y el RR debiera
ser cercano si no el mismo.
Pero puede ocurrir que prevea las dificultades y los costos que significa el trabajo de buscar
a los 150 niños y el riesgo de no encontrar los suficientes26. Esto último puede deberse a
incapacidad de sus recursos, a la tendencia natural de la migración de la población o a otros
factores tales como la muerte de algún paciente por causas relacionadas o no con la
exposición, etc;.
b) En vista de lo anterior, puede recurrir a otro método: identificar un cierto número de
niños con problemas escolares (aplicando el mismo instrumento de medición usado en el
estudio de cohortes) y reconocer un grupo de niños con los problemas definidos, que serán
los casos, y otro grupo sin ellos, que serán los "controles". Habrá, pues, conocido un grupo
con el efecto y otro sin él. Esta diferencia con los dos diseños anteriores es fundamental
para enfrentar la recolección de datos y su análisis, porque ahora la incógnita es si hubo o
no la exposición que, hipotéticamente, se pretende asociar al efecto conocido.
Una vez constituidos de esta manera los casos y controles (en conjunto, la "población en
estudio"), deberá proceder como en el caso 2.b., es decir, recurrir al examen de los
antecedentes obstétricos. La disposición de los datos obtenidos al final del estudio deberá
ser hecha de la siguiente manera: (Tabla 2.4.)

26Esta es una de los muchas posibles razones para no hacer este estudio.

56
Tabla 2.4.

Efecto:
Rendimiento
escolar

Casos: Controles: Total


Alterado No alterado
Asfixia grave (a) (b)
o moderada 23 23 46
Exposición

Asfixia leve o (c) (d)


ausente 27 77 104
(a+c) (b+d)
Total 50 100 150

Los valores de frecuencias en las casillas a,b,c,d, no los conoce el investigador sino al final
del ensayo. Por razones que sería largo explicar aquí (e inductor de dificultades de
comprensión) se puede suponer que estos valores no serán los mismos que los obtenidos
por el otro diseño. Pero, con fines didácticos, vamos a suponer que sí lo son.
Como lo que se estudia no es la probabilidad de efecto dada la exposición, sino la
probabilidad de exposición dado el efecto (dicho en forma simplificada) y porque el n de
cada columna no puede ser usado ahora para calcular la incidencia del efecto, el cálculo no
puede ser proporción1/proporción2, sino una razón de dos razones, el odds ratio u OR. (En
el apéndice correspondiente se incluye el desarrollo que explica el por qué de la forma de
calcular este estadígrafo).
El cálculo del OR se hace de la siguiente manera:

(a x d)
(b x c)

Ello nos lleva a :(23 x 77)/(23 x 27) = 2,85; IC 95%=1,38 a 5,89). El valor de "p" es,
igualmente, 0,02.

Hechos importantes:
a) Los "casos" son ahora enfermos y los "controles", los no enfermos.
b) Al iniciar el estudio, no se sabía cuáles serían los resultados en términos de
"exposición", p.ej., las proporciones de expuestos en cada uno de los dos grupos.
c) El número de afectados (ya no expuestos) ha sido manipulado por el investigador, de
modo de asignar dos controles por caso.
d) Sólo en uno de los grupos hay problemas de rendimiento escolar.
e) Por lo anterior, no se puede calcular porcentajes de "efecto" (de hecho, por la estructura
del diseño, resulta 0,46, lo que no sólo es falso, sino además el investigador no lo propone
como verdadero).

57
f) No cabe relacionar ambos porcentajes, porque ahora lo que se busca es comparar P[Exp|
Enf] entre ambos grupos (en términos simplificados). Nuestra intuición latina tiende a no
aceptar esta nueva modalidad de estudiar riesgos.

Los problemas de este diseño son muy parecidos a los del estudio de cohortes históricas, a
los que se agregan otros bastante serios, como es el no poder afirmar, con total seguridad,
la existencia de la exposición ni, menos, su duración, intensidad, etc. (Tal vez, más
importante, es que se puede hacer cálculos, pero la exactitud y precisión de sus resultados
son los problemáticos).

Es importante dejar establecido que, pese a estas dificultades, este diseño se usa cada vez
más por varias razones, entre las cuales sobresalen la imposibilidad de experimentar para
establecer etiología de efectos dañinos, los costos de la investigación, la urgencia creciente
con la que se necesita información clínico-epidemiológica, la frecuente situación de
ignorancia sobre la etiología o factores asociados a enfermedades de aparición reciente, etc.
Hay, por otro lado, numerosos problemas en los cuales se puede obviar dificultades
relacionadas con la existencia de la exposición (p.ej., en enfermedades agudas, con
diagnóstico inequívoco).
Puede proponerse una manera de disminuir el tipo de problemas que afectan a los estudios
históricos (cohorte, caso-control) reduciendo el sesgo subjetivo que afecta el registro (o su
omisión) de los datos necesarios, con un diseño que los prevea y evite la clásica revisión de
historias no normadas (p.ej. registro "prospectivo", por estructurado ad hoc, para efectuar
estudios históricos o retrospectivos con menor potencial de sesgos).

Puede haber diseños híbridos, entendiendo por tales aquellos que combinan los modelos
analizados, los que podríamos llamar básicos. Un ejemplo podría ser un estudio que se
iniciara con un estudio retrospectivo, con ciertos objetivos (p.ej., identificar una asociación
entre dos variables), para luego proseguir con un estudio de cohortes para poner a prueba la
hipótesis de la asociación encontrada. En este caso, lo habitual es que se trate, en realidad,
de dos diseños del todo diferentes. En cambio, no es raro que en un estudio de cohortes se
proceda a hacer análisis que, en realidad, corresponden a estudios retrospectivos, lo cual no
siempre es correcto. Otra modalidad de estudio híbrido es el que usa, para un diseño caso-
control, los casos “incidentes”27, en vez de buscar datos en las historias clínicas. A este tipo
de estudios pertenecen los que buscan asociaciones entre marcadores genéticos y
enfermedades (4).

Un ejemplo de estudio de factores asociados a efectos (con fines pronósticos) es el estudio


clásico de Herson y Todd sobre factores pronósticos en meningitis bacteriana en niños
(10) . En este estudio, los autores reunieron una cohorte de niños con meningitis bacteriana
aguda, en la que definieron los tipos de morbilidad al alta y la compararon después, por
medio de una encuesta, con los diagnósticos de esta morbilidad hechos por los respectivos
médicos tratantes (Tabla II en el original), para concluir que había discrepancias entre los
diagnósticos de morbilidad hechos al alta y los presentes al momento de la encuesta. En
seguida, clasificaron a los pacientes en dos grupos: muertos o con secuelas mayores (que
llamaremos casos) y vivos con secuelas menores o sin ellas, (que llamaremos controles).

27 En este caso, “incidentes” = a medida que van apareciendo.

58
Nótese que ambos grupos representan, ordenados en forma dicotómica, el resultado de
haber tenido meningitis (son categorías de “efectos”), para estudiar qué factores clínicos -al
ingreso (exposición) pudieron afectar tal resultado. Obviamente, ambos grupos no podrían
haber sido seguidos longitudinalmente como cohorte (los fallecidos en la etapa aguda están
incluidos).
El análisis de los factores predictores de morbilidad, a pesar de haber sido declarado un
seguimiento, debió ser hecho como si hubiese sido un diseño caso-control pues se trata, en
realidad, de un estudio retrospectivo (que partió de los efectos categorizados en forma
dicotómica, para averiguar la posible influencia de eventos, que como exposición,
ocurrieron en el pasado), sin hipótesis específica alguna (a lo más, que el grupo de “casos”
difiere del grupo “control”, lo que se intenta estudiar con pruebas de significación
estadística). El resultado de este estudio es que el seguimiento de los sobrevivientes con
duración entre tres meses a dos años, de 73 niños con meningitis bacteriana, mostró que el
8,2% tenían secuelas graves, 13,7% secuelas menores y 75,3% no las tenían.28 (10).
Hay un diseño intermedio en parte descriptivo, en parte analítico, que es el corte
transversal. En este modelo, se recoge un cierto número de datos en una población, en
cierto momento, con lo que se mide simultáneamente la existencia de cierto número de
eventos de interés. Luego, además de estimar prevalencias, se suele establecer asociaciones
entre algunas de ellas en los términos generales de causa-efecto, lo cual resulta un error
porque, al ser medido todo al mismo tiempo, es difícil establecer la relación en el tiempo
entre unas y otras. Por ello, este diseño se presta más para proponer hipótesis que para
ponerlas a prueba.

Identificación del diseño.

Resumiendo esta última sección sobre los diseños, digamos cuál es el primer paso
importante de quien lee un artículo sobre causalidad, etiología o “factores” que influirían
ciertas condiciones. Lo primero es identificar la hipótesis y luego de qué diseño se trata:
Si en el estudio está claro que se sabe de la exposición, pero no se sabe cuál será la
incidencia del evento (por ejemplo, secuelas), se trata de la formulación de un diseño que
estudia cohortes (o de un ensayo clínico controlado).
Si en el estudio lo que está claro es que hay un grupo de individuos con un efecto o
consecuencia, y se lo compara con otro que no los tiene y, a partir de ello se busca
averiguar posibles causas o factores “causales”, “contribuyentes”, “importantes”, etc.,
entonces se trata de un estudio retrospectivo del tipo caso-control.
El estudio de cohortes, como todo los inferenciales, debería tener, siempre, una o más
hipótesis, pues no se concibe seguir un grupo de individuos sin indicar para qué. También
el diseño caso-control exige una pregunta o una hipótesis central. De no ser así, se incurre
en las llamadas “expediciones de pesca”, en que se buscan, “a ciegas”, asociaciones entre
variables que expliquen qué pasa hoy, pero sin una hipótesis. Como se examinan muchas
posibles asociaciones, la aparición de alguna puede considerarse fruto del mero azar.
Gran mayoría de los estudios conducentes a identificar los efectos del tabaco sobre la salud,
están hechos por medio de esta excelente herramienta (como todas, excelente cuando se la
usa bien para lo que corresponde).
(Sobre identificación del diseño, ver nota importante al final de la sección).

28 La parte retrospectiva no es muy afortunada. Sólo se hicieron pruebas de significación, algunas erróneas
(chi cuadrado donde debió hacerse Fisher exacto) y no se calcularon los riesgos relativos (odds ratio).

59
60
B) VALIDEZ DE LA INFORMACION PROPORCIONADA POR ARTICULOS
SOBRE ETIOLOGIA.

La validez de los estudios sobre causalidad se analizan según los siguientes rubros:
El diseño o modelo:

1) El diseño descriptivo.
Hasta aquí no hemos mencionado los estudio descriptivos, (como si no existieran), tales
como el informe de casos, series de casos o cortes transversales, en circunstancias que
constituyen , sobre todo los primeros, una enorme proporción de los trabajos presentados a
congresos, jornadas y publicaciones latinoamericanas.
Digamos desde ya que la comunicación descriptiva tiene un lugar como fuente de
información con fines clínicos, pero sólo cuando implica el enriquecimiento del conjunto
de nociones vigentes sobre determinado tema (paradigma). Si han de llenar vacíos, estos
estudios describirán fenómenos únicos, desconocidos hasta el momento de su publicación.
Tales son los casos de las descripciones de los primeros casos de sindrome de
inmunodeficiencia adquirida (11) y el sindrome linfo-muco-cutáneo o Sindrome de
Kawasaki (12). Ocasionalmente, los estudios descriptivos dan lugar a la suposición de
alguna asociación que, obviamente, requiere para su estudio un diseño analítico. Si no
todos, la mayoría de los estudios analíticos derivan de alguna descripción. Bien
construidos, los estudios descriptivos pueden aportar información sobre incidencia o
prevalencia. Para los estudios descriptivos no hay fuentes de información sobre requisitos
editoriales y metodológicos como ocurre para los analíticos. Sin embargo, podría aplicarse
a ellos las normativas editoriales estándar (importancia del problema, propósitos, marco
epidemiológico temporal, geográfico, poblacional, institucional, en que se hace la
observación, definiciones de “caso”, etc.). No nos extenderemos más sobre ellos porque,
generalmente, no aportan información útil para resolver los problemas de pacientes
individuales. (Ver Apéndice 4).

2) Estudios analíticos:

En éstos, siempre se hace una comparación entre dos o más variables (o medición en dos o
más puntos en el tiempo, de una o más variables). Tal comparación se hace siguiendo las
normas de la inferencia estadística. En principio, las evidencias aportadas por los estudios
analíticos se ordenan, en términos de solidez de las asociaciones, según lo anotado en la
Figura.2. Sin embargo, el lector debe estar advertido sobre la naturaleza del problema
abordado. Hay problemas inabordables por los métodos mejores desde un punto de vista
meramente metodológico, situación en la que debe considerar la posible importancia de un
artículo en el que el problema se presenta abordado por medio de un diseño más débil:
puede ser el único o, de hecho, el mejor disponible.
Debe tenerse presente, además, que mientras mayor sea la validez interna (corrección
metodológica) menor tiende a ser el valor general de las conclusiones.

61
C) GUIAS DE SELECCION DE ARTICULOS SOBRE CAUSALIDAD O
ETIOLOGIA.

C.1.Comparabilidad de los grupos:

La construcción de un diseño en el que se comparan dos grupos para buscar diferencias


específicas entre ellos está sujeta a numerosos riesgos de sesgo29. Sackett inició en 1979 un
catálogo de sesgos e invita a comunicarle otros tipos además de los muchos que define y de
los cuales mencionaremos sólo algunos.
Un principio útil en esta materia es considerar que los individuos con cierta característica
difieren de los que no la tienen. Esto que parece obvio, se ignora frecuentemente. Si se
desea reunir dos cohortes para medir sus diferencias hipotéticas respecto a un factor de
interés, una de las cuales se supone que ha estado expuesta y la otra no, debe evitarse
llamar voluntarios por los medios de comunicación: quienes leen el diario porque pueden
comprarlo, lo hacen regularmente y leen el tipo de avisos que llama a voluntarios, difieren
sistemáticamente de los que o no pueden comprar el diario, o no lo hacen regularmente o
no leen avisos o no aceptan ser voluntarios (sesgo de voluntariado). Las madres que llevan
sus hijos a control médico regularmente, difieren de las que no lo hacen, etc.;.
Algunos sesgos conocidos ilustrativos de lo anterior son los siguientes:
Sesgo de acceso a la atención médica: quienes viven cerca de un hospital terciario tienen
más probabilidades de ser incluidos en un estudio sobre pronóstico que los que viven muy
lejos y, con ello, se les hace más fácil cumplir un seguimiento que cuando ello implica
hacer largos viajes para ser controlados cada vez.
Sesgo de selección (hay varios): cuando se va a probar un nuevo procedimiento terapéutico,
hay tendencia a aplicarlo a aquellos en los que es más probable que se beneficien (casos),
dejando como testigos a los más graves (controles). Obviamente, es muy probable que el
nuevo procedimiento parezca, luego del análisis, mejor que lo que es en realidad.
En general, los sesgos pueden identificarse con sentido común, aún cuando en ocasiones no
es fácil. Es el caso de los confundidores. Son éstos variables que parecen estar asociadas a
un efecto, hasta el punto de parecer causales de éste, cuando en realidad no lo son, sino
están asociadas o a la exposición o al efecto, pero no en relación de causalidad. Un
confundidor clásico es el consumo de alcohol: aparentemente asociado a enfermedad
miocárdica. En realidad, quienes consumen alcohol también fuman, y es más probable que
sea el tabaco y no el alcohol el responsable del efecto (13) .
Algo ocurre siempre cuando se eligen grupos para estudios analíticos, ya que pareciera que
ni los diseños experimentales se libran de sesgos de selección. Si revisamos la tabla
siguiente, a la que volveremos hacer referencia en el capítulo "sobre pronóstico",
descubriremos un hecho curioso (Ver Tabla 2.5.).

29No estará de más recordarlo: Sesgo: Cualquier factor, en cualquier etapa del desarrollo de la inferencia,
que pueda apartar las conclusiones sistemáticamente de la verdad (Sackett DL J.Chron.Dis. 1979; 32:51-
63).

62
Tabla 2.5.

LETALIDAD DE MENINGITIS BACTERIANA AGUDA EN GRUPOS


EXPERIMENTALES Y EN SERIES DESCRIPTIVAS.30

Grupos experimentales en que se estudió el efecto de la Dexametasona.


Autor Año Muertos (n) Placebo (n) N %
Odio C 1991 2 49 101 2
Schaad B 1993 1 55 115 0
Wald ER 1995 0 74 143 0
Lebel MH 1988 0 98 200 0
Series descriptivas.
Ishikawa T. 1994 26 - 328 8,2
Bravo P. 1995 9 - 105 8,6

Al hacer una prueba de significación estadística comparando los niños con meningitis
tratados con placebo en vez de Dexametasona (n=276, muertos= 2) y los tratados con
dexametasona, pero no en los estudios controlados (n=433, muertos=35), pareciera que el
placebo es mejor que el corticoesteroides en esos grupos: ¡con nivel p<0.000!. A todas
luces, la letalidad de la meningitis bacteriana aguda en los grupos experimentales es menor
que en la vida diaria de cualquier hospital, lo cual sugiere algún sesgo en la selección de
casos y controles en esas series. La prueba de "p" obviamente no implica que el placebo es
mejor que el tratamiento dado a los otros 433 niños. Lo que ocurre es que esta comparación
no puede hacerse, porque los grupos no son comparables (aunque no es raro que el placebo
sea mejor que alguna terapia...).
Sesgo de diagnóstico (o de pesquisa): a) Derivado de desconocer la historia natural de la
enfermedad: al reunir un grupo de casos (enfermos), se puede excluir aquellos que han
fallecido o tienen enfermedad muy leve. b) Derivado de inexactitudes en la definición de la
enfermedad. Ciertas denominaciones incluyen o excluyen erróneamente grupos de
pacientes. Por ejemplo, en el estudio de factores de riesgo de enfermedad invasora por
Streptococcus grupo A en niños con varicela (14), se incluyen fasceítis necrotizantes, y
"celulitis". Aquí aparece un factor que el lector debe investigar siempre: la descripción de
los casos se informa en un artículo aparte (15), cuya revisión es indispensable, ya que se
pueden obtener evidencias para interpretar los resultados y su validez. En sólo 3/13 de las
celulitis se aisló el agente de la sangre y en 1 no se hizo hemocultivos. Que el grupo con
hemocultivos positivos y los con hemocultivo negativo pertenecen a poblaciones diferentes
está fuertemente sugerido por la duración de la hospitalización: 18,75 días en los primeros
contra 7,89 en los segundos (diferencia=10,86 días; p=0,03). Ello implica que es posible
que haya entre los casos pacientes que debieron ser controles, con lo cual el cálculo de los
riesgos relativos (OR, en este caso) se distorsionará en un sentido imprevisible.
Dados los sesgos enumerados y otros, los autores del estudio deberán dar cuenta de la
comparabilidad de los pacientes en una tabla o usar métodos bioestadísticos para controlar
factores que pueden distorsionar los resultados (v.gr.,confundidores). Entre éstos la edad
constituye un factor con alto riesgo de actuar como confundidor, ya que está asociada a
exposiciones y, en general a riesgos diferenciales propios de los diferentes estratos etarios.

30 Ver bibliografía en Sección siguiente.

63
(Sea como fuere, la afirmación sobre la existencia de determinado sesgo en los datos o
interpretacion de ellos en los artículos, implica emitir una proposición que puede ser
verdadera o falsa (hipótesis), lo que invita a ponerla a prueba. Generalmente no es posible
aunque, de alguna manera, la ciencia avanza así: los nuevos estudios se hacen para corregir
los sesgos de estudios anteriores. Sin embargo, hay defectos –sesgos- que invalidan
insanablemente los resultados (pérdida de más del 10% de los casos en seguimiento) y
otros dejan en tal grado de incertidumbre, que equivalen a anular el estudio como fuente de
información).

C.2. Identificación de la variable "exposición" y la variable "efecto".

Este aspecto ya no le será extraño al lector. De ello depende descubrir si el estudio consiste
en un estudio de cohortes (si lo que se desconoce es la probabilidad de efecto dada la
presencia de una exposición conocida) o un estudio caso-control (si lo que se desconoce es
la probabilidad de exposición dado el efecto (enfermedad) conocido. De ello depende
también la propiedad del rubro siguiente.

D) GUIAS DE INSPECCION DE UN ARTICULO SOBRE CAUSALIDAD..

D.1. Estadígrafo usado.


En el caso de los estudios de cohortes, el estadígrafo de asociación que debe usarse es el
riesgo relativo (RR) y no el OR. En cambio, si se trata de un estudio caso-control, el
estadígrafo de asociación debe ser el odds ratio (OR). El lector ya está advertido de las
distorsiones a que lleva no respetar este concepto.
En el estudio de Odio et al sobre el efecto de la dexametasona sobre las secuelas
neurológicas en meningitis bacteriana en niños, los autores usaron OR en vez de RR (que
correspondía, ya que estudiaron dos cohortes de niños). El efecto de ello es el siguiente:
(Tabla 2.6.)

64
Tabla 2.6.

Riesgo global de una o más secuelas neurológicas o auditivas 31

Placebo Dexametasona Total


Sí 18 7 25
Secuelas
No 30 44 74
Total 48 51 99
(%) (38,0) (14,0)

Riesgo Relativo: 18/48 =38%; 7/51 = 14%; RR= 38/14 = 2,71


Odds Ratio: (18 x 44 = 792); (7 x 30 = 210); OR = 792/210 = 3,77
El resultado de usar estadígrafos inadecuados esconde el hecho que la dexametasona es un
28% menos eficaz que lo calculado.
El que el valor de "p" sea estadísticamente significativo, no es argumento suficiente para
esta imprecisión, ya que no se trata de demostrar sólo que los efectos son estadísticamente
diferentes, sino de cuantificar la ventaja de usar dexametasona.

D.2. Cumplimiento del seguimiento:

La pérdida de pacientes puede ocurrir en cohortes (falla del seguimiento), pero una
deficiencia análoga puede ocurrir en los estudios caso-control cuando, al elegir los casos,
no se incluyen los más graves o los menos graves (porque, por haber muerto, los primeros,
no aparecen en los registros hospitalario; o, por tener enfermedad leve, nunca han
consultado médico).

D.3. Definición de casos y controles.

Una misma enfermedad puede ser llamada de modo diferente o, lo que es peor,
enfermedades diferentes pueden ser llamadas con el mismo nombre. Para evitar esto, es
mejor utilizar las definiciones del código internacional de diagnósticos.
Ya se ha mencionado algo sobre el origen de casos y controles (sesgo de voluntariado y
otros). Un error común es comparar pacientes hospitalizados con pacientes no
hospitalizados. Ya mencionamos que, en principio, difieren. El solo hecho que una misma
enfermedad (misma gravedad) pueda ser atendida, en el caso de ciertos pacientes, en casa
mientras en el de otros hay que hospitalizarlos, sugiere diferencias (p.ej., factores
socioeconómicas o culturales, frecuente y fuertemente asociados a diferencias que afectan
el pronóstico).

31 En niños con meningitis bacteriana por Haemophilus influenzae tipo b. Comparación de riesgo de
secuelas entre los tratados con Dexametasona vs placebo. (Adaptado de datos del texto (no de las tablas)
de Odio C,. et al. NEJM 1991; 324:1525-1531).

65
E) UTILIDAD DE LA INFORMACION OBTENIDA PARA LA SOLUCION DEL
PROBLEMA DE UN PACIENTE EN PARTICULAR.

Este aspecto, relativamente simple, es críticamente importante. Para empezar, se debe leer
muy cuidadosamente la descripción de los pacientes (población en estudio) que se
analizaron en el estudio. Lo primero que puede ser evidente es que sean tan diferentes del
suyo, que la aplicación de la información en cuestión no sea útil con seguridad o, aún,
pueda ser nociva. Por ejemplo, no es raro que resultados de estudios hechos en adultos sean
directamente extrapolados a niños. (p.ej, el uso de quinolonas puede causar serios
trastornos óseos en niños). O que el marco epidemiológico sea tan diferente, que las
conclusiones no sean aplicables localmente. En Estados Unidos no se usa BCG
sistemáticamente, pues interferiría con el método de detección de tuberculosis (PPD), en
una población en la que la tuberculosis se considera un riesgo bajo en niños (concepto que
está en vías de cambio). En países como Chile, nadie podría discutir su uso en recién
nacidos, dada la impresionante reducción de la meningitis tuberculosa desde el comienzo
de su uso sistemático en neonatos.

E. Datos que permiten intervenir posibles factores de enfermedad.

Cuando el análisis sistemático de la literatura médica se hace con el fin de usar la


información clínicamente el estudio que más nos ayudará, en el supuesto que cumple con
los requisitos de validez, es aquél que identifica, por lo menos, un factor susceptible de
modificar para beneficio del paciente. En un estudio reciente se entrega evidencia respecto
a la forma de administrar ácido acetil salicílico y gamaglobulina endovenosa (2 gr/kg en
una dosis) en Sindrome de Kawasaki. A largo plazo parece no haber diferencias respecto al
efecto sobre anormalidades coronarias, con 4 dosis de 400 mg/kg, pero este último
tratamiento es factor de hospitalización más prolongada (7,16), lo que es claramente un
inconveniente a evitar .
En los artículos en los que se buscan factores de riesgo es conveniente intentar la
formulación de una hipótesis precisa en torno a la cual puedan ensayarse otras. De no ser
así, los hallazgos pueden ser de difícil interpretación. En artículos recientes ya
mencionados (14,15), se hizo una búsqueda de factores de riesgo de complicación de
varicela en niños, con infecciones invasoras por Streptococcus grupo A (S.pyogenes), lo
cual tiene interés por la gravedad que suelen tener este tipo de infecciones, en una
enfermedad común como es la varicela. No hay en el estudio una hipótesis central
("expedición de pesca"), por lo que aparecen numerosos factores que, independientemente,
están asociados a este riesgo. Hay en el artículo otros defectos importantes -sobre todo por
ser un estudio caso-control- que hace difícil su interpretación como fuente de información
clínica útil. El primero es una falla en la definición del efecto ya comentada: Ello hizo el
grupo de casos muy heterogéneo32. Un segundo hecho es la selección asimétrica de los
controles, ya que los "casos" fueron niños hospitalizados recolectados de forma también
heterogénea (pasiva y activamente) del mismo modo que los "controles" (espontáneos y
32Se emplea el término "celulitis" sin establecer si había o no puerta de entrada, aunque se tiende a suponer
que siempre la hubo (varicela). Sin embargo, estudiando la descripción de los casos (publicada aparte), se
puede comprobar que el grupo con hemocultivos positivos (ciertamente por invasión) con aquellos en que
no se hicieron hemocultivos o no se aisló el S.pyogenes de la sangre, puede comprobarse que los días de
hospitalización entre ambos grupos difirió estadística y clínicamente: mientras los primeros estuvieron
hospitalizados durante un promedio de 18,7 días, los segundos sólo lo estucieron 7,89 (diferencia: 10,9 días,
p<0,03). Ello sugiere mayor gravedad en los primeros.

66
seleccionados). Entre las asociaciones más "fuertes", el Albuterol (OR=11,6; IC 95%=1,04
a 58), que no es un corticoide, parece no tener sentido. Sin embargo, sí apareció asociación
de asma (que, independientemente, está asociada como factor de riesgo, OR=6,2; IC
95%=1,16 a 41) pero no los corticoides orales o tópicos, lo cual no permite decidir qué
papel le corresponde al Albuterol como factor de riesgo: ¿Debe suspenderse su uso en
niños con varicela?, ¿por qué?.

F) Algunos breves ejemplos:

Estudio de cohortes:
Una madre consulta alarmada a su pediatra, porque oyó en un programa de divulgación por
televisión, que la vacuna anti-sarampión -aplicada a sus tres hijos- puede causar colitis
ulcerosa33. El pediatra, tomado de sorpresa, posterga cualquier respuesta para la próxima
visita y consulta la bibliografía vía Internet. Encuentra el resumen del artículo que
concluye, de un estudio de cohortes, que el virus del sarampión puede cumplir un papel no
sólo en enfermedad de Crohn, sino también en colitis ulcerosa (17). Las cohortes
comparadas fueron niños con vacuna con virus vivo o vacuna con virus muerto seguida por
vacuna con virus vivo ("expuestos"), y una cohorte no vacunada. El RR es 2,99, lo que es
una asociación medianamente "fuerte". Sin embargo, nuestro pediatra aplica análisis crítico
al estudio y descubre (sólo lo más relevante): 1) La cohorte de expuestos es muy
heterogénea y no totalmente recuperada para la encuesta sobre el efecto (enfermedad
inflamatoria intestinal). 2) Hubo insistencia en pesquisar la enfermedad inflamatoria
intestinal en los expuestos, pero no en los controles (no expuestos). 3) Las bases biológicas
derivan de estudios que encontraron una asociación entre la exposición perinatal al
sarampión y el desarrollo ulterior de enfermedad de Crohn. Pero el virus de la vacuna no es
el salvaje, sino la cepa Schwartz. El pediatra decide responder a su paciente que se
tranquilice porque no está probada la asociación entre la vacuna y la enfermedad
inflamatoria intestinal y, más importante, sus hijos no tendrán sarampión y sus riesgos
asociados.

Estudio caso-control:
Un residente que atiende a un recién nacido de muy bajo peso, con sospecha de sepsis,
planea agregar al esquema antibiótico para ese niño, un antibiótico para el cual la
Pseudomona aeruginosa es habitualmente sensible. El Comité de Antibióticos del hospital
objeta la indicación para evitar el sobreuso del antibiótico. El residente alega que la
bilirrubinemia directa está elevada. El conflicto plantea la pregunta: ¿Es la bilirrubina
directa elevada un factor o indicador de riesgo de infección por Pseudomas aeruginosa en
neonatos de muy bajo peso con sospecha de sepsis o sindrome de distress respiratorio?.
Para resolver el impasse, consulta Medline y encuentra un artículo sobre factores de riesgo
de infección por esa bacteria (18). En él, los autores intentan identificar factores de riesgo a
favor de infecciones por Pseudomona aeruginosa en niños de bajo peso con sospecha de
sepsis o sindrome de distress respiratorio, por medio de un diseño caso-control. Para ello,
revisaron las historias de los neonatos de su hospital durante 5 años (1989-1993). Cada
caso de infección (efecto = infección, enfermedad) fue pareado con niños comparables sin
infección (controles). Se trata de un estudio retrospectivo, controlado sin hipótesis alguna

33 Este es uno de los “escenarios” propuestos por el Centre for Evidence Based Medicine.

67
("expedición de pesca"). Sin embargo, los autores trataron los resultados sólo como una
comparación de proporciones (donde las hubo).

Tabla 2.7.

(Tabla correspondiente al factor "bilirrubinemia directa elevada", pág. 370 en el artículo):

Casos Controles
Sí 12 10
Bilirrubinemia
elevada
No 10 24
Total: 22 34
Proporción 0,54 0,23

Mayor riesgo absoluto = 0,31


RR = 0,54/0,23 = 2,4
OR = (12 x 24) / (10 x 10) = 4,08 (IC 95% = 1,2 a 14,3).

Para la pregunta específica, los autores muestran que la bilirrubinemia directa elevada
ocurrió en el 54% de los casos (n=22) y en el 12% de los controles (n=44). El mayor riesgo
absoluto es, pues, 0,54-0,12 = 0,31 (aproximadamente 1/3 mayor). Sin embargo, este
cálculo, que es comparación de proporciones, no es correcto porque no se trata de un
estudio de cohortes, cuyo riesgo relativo (no calculado en el artículo) sería 2,4. Por ser un
estudio caso-control, corresponde calcular OR, que resulta ser (12 x 24) / (10 x 10) = 4,1,
medida de asociación considerable. La duda ante esta asociación es si el alza de la
bilirrubinemia es factor de infección por P.aeruginosa, un fenómeno concurrente o una
consecuencia de ella. Si la pregunta está dirigida a tomar decisiones profilácticas o
terapéuticas, este estudio no resuelve el problema ya que, muy probablemente, se trata de
una concurrencia o una consecuencia de la infección y la detección del factor resultaría
muy tardía. El estudio no fue llevado a cabo como un diseño caso-control, sino una
comparación simple de dos series pareadas. Un desarrollo adecuado, con estudio de
confundidores era indispensable para interpretar los hallazgos. El que diferentes variables
tengan valores de "p" <0,05 sólo indica que ambos grupos difieren significativamente. En
suma, el propuesto estudio de factores (causa/efecto) no lo es, sino que se limitó a una
descripción de casos con pruebas de significación estadística.
(En todo caso, es muy probable que el residente se las arregle para lograr administrar, con
razón, el antibiótico anti P.aeruginosa).

68
G) SOBRE DAÑO:

El concepto de daño por causa médica (iatrogenia) está convirtiéndose en un asunto de


preocupación cada vez mayor. De hecho, en la ordenación temática del grupo de Sackett en
sus primeros textos (19) y el enfoque actual de la lectura crítica (20), hay una gran
diferencia: el capítulo "causalidad" ha sido reemplazado por "daño". Son innumerables las
terapias que encierran riesgo de daño al paciente o al feto en mujeres embarazadas.
Algunos ejemplos son el efecto adverso atribuido a los beta-adrenérgicos inhalados en
asma grave del adulto (21,22), la asociación entre la ingestión de aspirina y sindrome de
Reye en niños , etc;. En el problema de los beta-adrenérgicos, no es posible descartar que
la asociación no esté determinada por un confundidor porque quienes los usan son los
pacientes más graves. En el caso de la asociación aspirina- S. de Reye, existieron dudas
sobre si el diagnóstico era homogéneo o no (sesgo por heterogeneidad de la medición o
definición del efecto), pero estudios recientes sugieren que la existencia de síndromes
parecidos (trastornos metabólicos hereditarios) no afectan la asociación (23).
El daño en el sentido que nos preocupa es, pues, la consecuencia de una “etiología” o
"causalidad" y, por consiguiente, debe estudiarse de acuerdo al criterio sistemático a que
hacemos referencia. En principio, cualquier decisión terapéutica implica riesgo de daño.
Las decisiones sobre las que pende riesgo de daño deben tomarse haciendo, primero, un
cuidadoso estudio sistemático de la literatura consultada al respecto y, luego, haciendo un
balance de los beneficios y riesgos que involucra llevarla a cabo, en el paciente real,
obviamente evitando aquellas sobre las cuales hay pocas dudas de su peligrosidad.

Sobre estudios observacionales y ensayos controlados:

Recientemente se ha postulado que la estimación del efecto terapéutico lograda por


estudios observacionales (comparación de cohortes y caso-control) no difiere
consistentemente de la estimación lograda de ensayos controlados (24, 25). ¡No nos
entusismemos prematuramente!. Si el ensayo controlado estuvo bien hecho (y todos
sabemos los difícil que es ello) y, a su vez, los estudios observacionales también lo
estuvieron (más difícil aún por la falta de control de las co-variables y sesgos), la
afirmación propuesta es válida. Pero rara vez esto se cumple y, si los autores citan una lista
de casos en que esto ocurrió, tales casos tienen que haber sido buscados “con pinzas”. Hay
dos objeciones a este hecho empírico. Primero, que es inimaginable proponer el uso de una
nueva terapia sin un ensayo controlado previo: dado lo anterior, quienes desarrollan los
estudios observacionales a posteriori tienen la ventaja de conocer la estructura de la
experiencia inicial y pueden controlar mejor co-variables y sesgos. Segundo, que las
hipótesis de partida de ambos son diferentes. Si un ensayo controlado indica que A es más
efectivo que B, los observacionales no podrían proponer que A puede ser mejor o peor que
B. Lo cual implica, en realidad, una repetición de un hecho conocido: el efecto observado
en el ensayo controlado. Es más, dada la variabilidad de la validez de los ensayos
controlados, se plantea la duda (a priori) con qué ensayo controlado comparar los
resultados del estudio observacional correspondiente ya que, la equivalencia entre ambos
tipos de diseños debe ser una hipótesis a priori. De otro modo es “concordismo”. Al
respecto, se ha establecido que un gran ensayo controlado es mejor que un metanálisis
sobre el mismo asunto (26, 27). Ello habla de la heterogeneidad, en términos de validez
(por diversas causas, como ser series muy pequeñas y otras), de los ensayos controlados.
Las series pequeñas están sujetas a serios inconvenientes como son, falta de poder para

69
detectar una diferencia, aceptación de diferencias cuando no las hay (error tipo I) y, si son
bien hechos y detectan una medida del efecto, ésta tendrá un amplio intervalo de confianza
que puede determinar que un mismo estudio, hecho con un número suficiente de pacientes,
arroje un tamaño del efecto lejano (pero dentro del intervalo de confianza) respecto al
estudio con una serie pequeña. ¿Daría, un estudio observacional sobre el asunto, resultados
similiares o “no consistentemente diferentes” de los de la serie pequeña?.
Todo lo anterior significa que, además de lo ya contenido en este manual, debe extremarse
la cautela cuando nos encontremos con un estudio sobre terapia, cuyo método es
observacional...a no ser que se trate de un etudio semi-experimental, que no es el caso en la
comparación estudios observacionales vs ensayos controlados.
Sin embargo: En nuestros países se promueve una infinidad de drogas (terapia, profilaxis)
que terminamos usando sin mediar ensayo controlado alguno. En tal caso, es nuestra
obligación intentar un ensayo controlado, primero y, si no lo logramos, diseñar un estudio
observacional para evaluar el efecto real y compararlo con el propuesto en la publicidad
que suele abrumarnos.

Nota importante (anunciada más arriba).

Para examinar los artículos que, en realidad, nos están intentando dar cuenta de una prueba
de hipótesis, hay que tener presente que todas las pruebas de hipótesis requieren un diseño
y éste debe ser explícito. Es decir, debe aparecer en el texto. Con frecuencia uno cree poder
reconocer el diseño por la forma en que están presentados los métodos, las pruebas de
significación estadística y las tablas. Veremos que esto puede no ser tan fácil, lo cual tiene
gran significación: La identificación del diseño es un asunto crucial. Las razones se
exponen a continuación.

La decisión de emprender un estudio clínico científico puede originarse por revisión del
paradigma correspondiente (las teorías y el conocimiento aceptado como válido para el
asunto específico, hasta el momento de tomar la decisión) o, muy raro, por simple intuición
(Además de raro, difícil, por lo que veremos a continuación).

Lo primero que deriva de un estudio acucioso del paradigma es una proposición original
(que cambiará el paradigma modificándole, agregándole o quitándole elementos). Esta
proposición inicial, que llamaremos “hipótesis conceptual” (28), requiere un diseño
34

apropiado que, para ser llevar a cabo, exige una “hipótesis operacional”. La importancia
del diseño radica en que, dependiendo del que se elija, la formulación de la hipótesis
operacional tiene requisitos muy precisos por razones tanto técnicas como éticas.

34 Recordar que “hipótesis” es una proposición que puede ser verdadera o falsa.

70
Ejemplos y comentarios sobre estos dos tipos de hipótesis.
Uno podría plantear la siguiente hipótesis conceptual: “La hipoxemia fetal afecta el
desempeño escolar en niños”. Para examinar esta hipótesis, hemos visto que se puede
recurrir a dos diseños: el diseño caso-control y el que compara dos cohortes.
Si elegimos el diseño caso-control, la hipótesis operacional tendrá que ser, más o menos)
así: “En niños con déficit en el rendimiento escolar, la probabilidad de haber sufrido
hipoxemia fetal es (digamos) el doble que en el grupo de niños sin déficit en el rendimiento
escolar”.
Si, en cambio, elegimos como diseño el seguimiento de cohortes (dos), la formulación de la
hipótesis operacional rezará (más o menos) así: “Los niños (recién nacidos) con hipoxemia
fetal tendrán el doble de riesgo de tener mal rendimiento escolar, comparados con los
(niños (recién nacidos) sin hipoxemia fetal.

Desde el punto de vista operacional, metodológico, podrá verse.( p.ej a través de la lectura
de este Manual), cómo, para cada hipótesis, hay un cierto diseño que garantiza mayor o
menor validez a las conclusiones (o resultados, es más propio decir), independientemente
del hecho de si cada uno de ellos es o no posible. Valga decir que nunca podrá, una
hipótesis operacional, comprobar 100% una conceptual, por la imperfección de los diseños.

Volviendo a los diseños aludidos para probar la hipótesis conceptual, ya sabemos en qué
aspectos difieren: en el primero conocemos casos que comparamos con controles, en el
segundo conocemos expuestos que comparamos con no expuestos. Sabemos, además, que
lsa medidas de asociación son diferentes (OR, RR), como diferentes son los métodos de
análisis bioestadístico (aunque las pruebas de significación se vean similares).

Pero hay más: sea cual sea el diseño, se necesita calcular el número de pacientes, en cada
caso, necesarios (ni de más ni de menos) para probar la hipótesis operacional. Es decir, se
necesita calcular el tamaño muestral. Las razones para afirmar que es necesario, tienen que
ver con la validez de los resultados. Así es, pues deberemos evitar tanto el error alfa o tipo
I, como el error beta o tipo II. ¿En qué medidas?. Aunque es de elección del investigador,
lo habitual (mínimo exigible) el error alfa no puede exceder un 5% bilateral (0,05 bilateral)
y el error beta no puede exceder un 20% (0,20 unilateral).

¿Por qué habrían de aparecer estos errores?. Porque estamos intentando demostrar que hay
una asociación (una diferencia de probabilidades ) entre la hipoxemia fetal y mal
35

rendimiento escolar, en dos grupos de pacientes. Si recordamos el comienzo de esta nota,


podemos deducir que, para plantear esta hipótesis, se revisó exhaustivamente el paradigma,
de tal modo que sabemos o podemos deducir con cierta seguridad, cuál es el valor que
corresponde al paradigma o lo conocido actualmente (que llamaremos “valor bajo la
hipótesis de igualdad, o de “no hay diferencias”), que llamamos Ho. Y es éste valor el que
comparamos, por medio del diseño estadístico, con otro valor, hipotético propiamente, que
corresponde a H1.
Hay, entonces, tres errores que no podemos cometer, so pena de obtener resultados no
válidos: primero, desconocer la necesidad de especificar una diferencia entre el valor bajo
Ho y el valor bajo H1 (error “delta”). Segundo, aceptar que sí existe una diferencia que, en
realidad es falsa: Es aceptar que Ho≠ H1, en circunstancias que, en la realidad, o error alfa.
35 Es una forma de expresarlo. “Asociación” es la medida en que la diferencia entre los valores de dos
variables se aleja de 0 o 1, según sea la estructura de la prueba de hipótesis en su componente estadístico.

71
Tercero, no detectar una diferencia que, en realidad, sí existe: aceptar Ho=H1, cuando, en
realidad, Ho≠ H1., o error beta.
Digamos que tal diferencia se puede expresar como diferencia de proporciones o como
razón de proporciones (Riesgo Relativo) para el diseño de cohortes o razón de Odds (Odds
Ratio) para el diseño caso-control.

Existen razones agregadas a lo anterior, de tipo ético: A) No es ético someter a más


pacientes que lo razonablemente necesario en investigación clínica. B) No es ético aceptar
resultados espurios (no válidos), por defectos en el tamaño de la muestra.. C) No es ético
dejar de obtener resultados válidos (después de haber usado pacientes), por no haber
calculado el tamaño de la muestra como debió hacerse. D) No es ético, por fin, publicar
resultados no válidos, pues éstos influirán, erróneamente, en las decisiones de los clínicos,
sobre todo en los que no están advertidos sobre cómo interpretar la literatura clínica.
Obviamente, no es ético llevar a cabo estudios, particularmente aquellos que inplican
experimentación con seres humanos, y no publicarlos jamás (lo cual, por esta última razón,
dejan de ser –propiamente- científicos).

Identificación del diseño:

Primero, el diseño debe estar explícitamente señalado en el texto y a raíz de una hipótesis
operacional clara y acotada (con los valores necesarios para el cálculo muestral).
Segundo, debe aparecer el cálculo del tamaño muestral y su justificación.
Tercero, no sólo hay que encontrar escrito lo anterior, sino verificarlo (por ejemplo, usando
Epi Info).

Indicios para sospechar que el diseño no es el correcto o es otro que el declarado:


Primero, ausencia de lo anterior.
Segundo, desproporción del tamaño de un grupo respecto al otro (casos vs controles).
Tercero, diseño estadístico (en “material y métodos”) inadecuado o incompleto.
Cuarto, falta de datos que permitan caracterizar los grupos o que impidan saber cuán
comparables son.
Quinto, asociaciones disparatadas (por enormes o absurdas biológica o
epidemiológicamente). 36

Situaciones frecuentes que responden a lo recién anotado: series de casos recopilados


“prospectivamente” y luego divididos en dos grupos (una o varias veces), según variables
dicotómicas o dicotomizadas, que se presentan como “estudios de cohortes”. (29). Estos
estudios son, en realidad, observacionales: series de casos o, a lo más, exploratorios
(“fishing expeditions”) (30).

Advertencia: Lo que no está escrito, no lo suponga el lector, porque incurriría en “sesgo de


intención al leer” (32).

36 Hay excepciones notables: Una clásica, con diseño exploratorio, es la de Herbst et al para identificar la
asociación del el DSB con cáncer de células vaginales en hijas de las madres que estuvieron expuestas a la
droga. (31). Aquí se usó 8 casos de cáncer y 32 controles (y sus familias, en ambos grupos) pareados por
múltiples factores, lo que no es común. Es interesante leer el artículo y muy largo extenderse sobre él aquí.

72
BIBLIOGRAFIA:

1) OPS, Publicación científica N° 505. Washington, 1988, págs.47-62.


2) Herrera P, Duffau G, "Diseño Caso-Control". Mediterráneo, 1997.
3) Elting LS, Rubenstein EB, Rolston KV, Bodey GP “Outcomes of bacteremia in patients
with cancer and neutropenia: Observations from two decades of epidemiological and
clinical trials”. Clin.Infect.Dis. 1997; 25:247-59.
4) Herrera P, Pandey JP, Arcos-Burgos M, Valenzuela C. “Gm and Km allotypes and
typhoid fever”. Exp.J.Immunogenet.1996;12:121-25.
5) Herbst AL, Ulfelder H, Poskanzer DC, “Adenocarcinoma of the vagina: association of
maternal stilbestrol therapy with tumor appearance in young women”. NEJM
1971;284:878-81.
6) Newburger JW, Takahashi M, Burns JC, Beiser AS, Kyung JC, Duffy CE et al. “The
treatment of Kawasaki Disease with intravenous gamma globulin”. NEJM 1986; 315:341-7
7) Newburger JW, Takahashi M, Beiser AS, Burns JC, Bastian J, Chung KS “A single
intravenous infusion of gamma globulin as compared with four infusions in the treatment
of acute Kawasaki syndrome”. NEJM 1991; 324:163-169.
8) Skarmeta M, Herrera P. " Factores pronósticos en meningitis bacteriana aguda del niño.
Estudio Caso-control". 3er Congreso Latinoamericano de emergencias y cuidados
intensivos pediátricos". Rev.Med.Chile 1998; 126:1404-4.:
9) Robertson CMT, Finer NN, Grace MGA “School performance of survivors of neonatal
encephalopathy associated with asphyxia at birth” . J.Pediatr. 1989; 114:753-60.
10) Herson VC, Todd JK “Prediction of morbidity in Haemophilus influenzae meningitis”.
Pediatrics 1977; 59:35-39
11) Gottlieb MS, Schroff HM, Schanker HM, Weisman JD, Fan PT, Wolf A et al
“Pneumocystis carinii pneumonia and mucosal candidiasis in previously healthy
homosexual men: Evidence of a new acquired cellular immuno deficiency”. NEJM
305:1425-31.
12) Kawasaki T, Kosaki F, Osawa F et al “A new infantile acute febrile mucocutaneous
lymph node syndrome prevalent in Japan”. Pediatrics 1974; 54:271-6.
13) Dales y Ury, 1978, citados por Schlesselamn JJ "Case-Control Studies, Oxford
University Press, N.Y.1982
14) Vugia DJ, Peterson CL, Meyers HB, Kim KS, Arrieta A, Schlievert PM et al. “Invasive
group A streptococcal infections in children with varicella in Southern California”. PIDJ
1996; 15:146-150.
15) Peterson I, Vugia DJ, Meyers HB, Chao SM, Voght J, Lanson J et al. “Risk factors for
invasive group A streptococcal infections in children with varicella; a case-control study”.
PIDJ 1996; 15:146-50. PIDJ 1996; 15:151-6.
16) Durongpisitkul K, Gururaj VJ, Martin CF “The prevention of coronary artery
aneurisms in Kawasaki disease: A meta-analysis on the efficacy of aspirin and immuno
globulin treatment”. Pediatrics 1995; 96:1057-61
17) Thompson NP et al. "Is measles vaccination a risk factor for inflammatory bowel
disease? Lancet 1995; 345:1071-74.
18) Leigh L et al "Pseudomonas aeruginosa Infection in Very Low Birth Weight Infants: A
case-control Study". PIDJ 1995; 14:367-71
19) Sackett DL, Haynes RB, Guyatt GH, Tugwell P. "Clinical Epidemiology: A Basic
Cience for Clinical Practice". Little Brown & Co. Boston, 2nd.Ed.1991.

73
20) Levine M, Walter S, Lee H, Haines T, Holbrook A, Moyer V et al. “User´s guide to the
medical literature. IV How to use an article about harm”. JAMA 1994;271:161519.
21) Crane J, Pearce N, Flatt A, Burgess C, Jackson R, Kwong T et al. “Prescribed
Fenoterol and death from asthma in New Zealand, 1981-83: Case-control study”. Lancet
1989;1:917-22.
22) Spitzer DO, Suissa S, Ernst P, Worwitz IR, Habbick B, Cockcroft D et al. “The use of
β-agonsits and the risk of death and near death from asthma”. NEJM 1992;326:501-6.
23) Hardie RM, Newton LH, Bruce JC, Glasgow JFT, Mowat AP, Stephenson JBP et al.
“The changing clinical pattern of Reye´s syndrome 1982-1990”. Arch.Dis.Child.1996;
74:400-5.
24) Concato J, Shaw N, Horwitz RI “Randomized, controlled trials, observational studies,
and the hierarchy of research designs”. N.E.J.M. 2000; 342:1887-92.
25) Benson K, Hartz AJ “A comparison of observational studies and randomized controlled
trials”. NEJM 2000; 342:1878-86.
26) LeLorier J, Gregoire G, Benhaddad A, Lapierre J, Derderian F “Discrepancies between
meta-analyses and subsequent large randomized, controlled trials” NEJM 1997; 337:536-
42.
27) Cappelieri JC, Ioannidis JPA, Schmid CH, Ferrant SD, Aubert M, Chalmers T et al.
“Large trials vs meta-analysis of smaller trials”. JAMA 1996; 276:1332-38.
28) Kleinbaum DG, Kupper LL, Morgenstern H “Epidemiological research” Van Nostrand
Reinhold Co. NY,1982.
29) Herrera P, Prado V “Shigatoxin-producing Escherichia coli infections, antibiotics and
hemolytic uremic syndrome in children. Seeking for evidence”. 3er Congreso Mundial de
Infectología Pediátrica. Santiago, Chile 19-23 de Noviembre, 2002. Book of Abstracts p.
85.
30) Schlesselman JJ “Case-Control studies) Oxford University Press, 1985, pág.
31) Herbst AL, Ulfelder H, Poskanzer DC, “Adenocarcinoma of the vagina: association of
maternal stilbestrol therapy with tumor appearance in young women”. NEJM
1971;284:878-81.
32) Herrera P. “Intention to read”. Respuesta a Heloisa P Soares, Stephanie Daniels,
Ambuj Kumar, Mike Clarke, Charles Scott, Suzanne Swann, and Benjamin Djulbegovic
BMJ 2004;328:22-24.

74
CUESTIONARIO N° 2.

A) ANALISIS DEL TIPO DE DISEÑO, ESTRUCTURA Y RESULTADOS DE UN


ARTICULO SOBRE CAUSALIDAD

Especifique su pregunta:

Cita:

Primeros pasos:
a). ¿Hay una hipótesis operacional con los elementos para el cálculo muestral?.
b). ¿Qué diseño se usó para establecer la asociación causa/efecto?.
c). ¿Qué grado de respaldo da el diseño elegido para establecer la relación causa/efecto?.

d)¿Fueron los grupos en todo comparables excepto el evento cuya magnitud es


necesaria para establecer la asociación causa/efecto (enfermedad o exposición)?.
e)¿Fueron definidos en forma clara y precisa el efecto o la exposición, como evento
por medir (incógnita) según corresponda?.
f) Si se trata de seguimiento de cohortes, ¿se las siguió durante un tiempo adecuado?.
¿Llegaron al fin del seguimiento todos los pacientes incorporados al comienzo?.
g) ¿Cumplen los resultados con los criterios de causalidad? (Ver sección B del
cuestionario, a continuación).

h)¿Cuál es el estadígrafo usado para riesgo y cuán preciso es?.


i) Si se trata de un diseño caso-control, ¿es correcto e inequívoco el diagnóstico en los
casos?.
j) ¿Es adecuado el origen de los casos y de los controles?
k) ¿Se pueden identificar otras variables que, obviamente, podrían afectar seriamente la
estimación de la asociación?.
l) ¿Cómo me sirve la información para resolver el problema de mi(s) paciente(s)?.
m) ¿Conducen los resultados a identificar exposiciones (factores) que se puedan modificar
por medio de eliminación o reemplazo del agente dañino?
n) Asigne un nivel de validez a este estudio
o) Asigne un grado de recomendación a este estudio.

75
B) Sobre la proposición de causalidad.

a) ¿Cuán fuerte es la asociación?


b)¿Existe una relación temporal lógica?.
c)¿Existen evidencias (gradientes) para apoyar la relación causa/efecto?
d)¿Tiene la asociación sentido biológico?
e)¿Tiene la asociación sentido clínico-epidemiológico
f)¿Hay otros estudios con resultados concordantes?
g)¿Es específica la asociación?.
h)¿Existen otras asociaciones análogas?

Asigne un nivel de validez a este estudio


Asigne un grado de recomendación a este estudio.

76
SECCION 3.
SOBRE PRONOSTICO.

Generalidades:

Aquí se trata de predecir la evolución de determinada condición. Situaciones típicas en que


el médico está enfrentado a responder sobre una pregunta que involucran pronóstico son:
¿Se repetirán las convulsiones en un determinado niño que tuvo una primera?. ¿Llegará a
ser epiléptico un niño que ya ha tenido dos convulsiones?. ¿En qué o cómo afectará el
futuro de una paciente el tener una primera infección del tracto urinario?.
El concepto de pronóstico se refiere, pues, a los posibles desenlaces que una enfermedad
puede tener durante su curso y la frecuencia con que éstos podrían ocurrir (Ej.: muerte).
Algunas veces existen características del paciente que permiten prever, con alguna
seguridad, qué sucederá al enfermo (p.ej. el estado de coma al ingreso al hospital, en un
lactante con meningitis bacteriana). A estos factores se les denomina “factores
pronósticos”. Estos pueden ser la edad, etiología de la enfermedad, algún rasgo específico
de ésta en el paciente, etc. Pueden predecir un pronóstico bueno (cura o sobrevida) o malo
(muerte o complicaciones). Los factores pronósticos no necesariamente causan el
desenlace, sino que se asocian a éste de modo lo suficientemente fuerte, como para predecir
su ocurrencia. En cambio los “factores de riesgo” son aquellos relacionados estrechamente
con el desarrollo de la enfermedad. El fumar es un factor de riesgo del desarrollo de cáncer
pulmonar pero el tipo de tumor es un factor pronóstico. (Esta distinción entre riesgo y
pronóstico podría ser arbitraria, pero parece necesaria por razones de claridad en el
contexto clínico).
El pronóstico no puede estudiarse en forma experimental por diversas razones, entre las
cuales las éticas son excluyentes: no se podría inducir en enfermos factores pronósticos
para comprobar su validez, o intervenir, sobre un factor en ciertos enfermos y no en otros,
en un modelo al azar, con el mismo fin. Más aceptable son los diseños para determinar la
presencia y el aumento del riesgo asociado a un factor pronóstico, son los estudios
observacionales (estudio de cohortes). El estudio de cohorte ideal es aquél que incluye una
muestra bien definida de pacientes representativos de la población de interés, precozmente
en el curso de su enfermedad, y usa criterios objetivos para medir los eventos de interés de
la evolución. Los estudios rigurosos aleatorios contemplan documentación cuidadosa de los
criterios de inclusión y estrictos protocolos de seguimiento, de modo que los pacientes
puedan generar información sobre el desenlace de cierta enfermedad, habitualmente
después del uso de un agente terapéutico, pero generalmente el paciente ingresado a un
estudio de este tipo no es representativo de la población general que sufre la enfermedad.
Un ejemplo de ello puede observarse si se analizan los grupos de niños con meningitis
bacteriana aguda tratados con dexametasona como terapia coadyuvante de la antibiótica, en
estudios aleatorios y ciegos. La letalidad en estos casos es muy baja, en claro contraste con
series en las que también se usó dexametasona, pero no con fines experimentales.
(Tabla 3.1).

77
Tabla 3.1.

LETALIDAD DE MENINGITIS BACTERIANA AGUDA EN GRUPOS


EXPERIMENTALES Y EN SERIES DESCRIPTIVAS.

Grupos experimentales en que se estudió el efecto de la Dexametasona.


Autor Año Muertos (n) Placebo (n) N %
Odio C (1) 1991 2 49 101 2
Schaad B (2) 1993 1 55 115 0
Wald ER (3) 1995 0 74 143 0
Lebel MH (4) 1988 0 98 200 0
Series descriptivas.
Ishikawa T. (5) 1994 26 - 328 8,2
Bravo P. (6) 1995 9 - 105 8,6

En ocasiones los investigadores coleccionan “casos” de individuos que han sufrido cierta
enfermedad y luego un evento de ella que es de interés (complicación, muerte) y los
comparan con “controles”, que son pacientes con la misma enfermedad, pero que no han
tenido el evento de interés. En estos estudios -caso-control- los investigadores cuentan el
número de individuos en cada grupo con un factor pronóstico hipotético (p.ej., los
pacientes que fallecieron tuvieron retraso de la terapia en una proporción
significativamente mayor que los que no fallecieron).
El potencial sesgo al seleccionar casos y controles así como la naturaleza retrospectiva de
la recolección de datos acerca de los factores pronósticos (que a menudo depende de la
memoria de los pacientes, de los familiares o de la acuciosidad de las historias clínicas),
limita en ciertos casos la fuerza de la inferencia que los clínicos podamos extraer de este
diseño.
Tampoco el caso-control puede dar información del Riesgo Absoluto (RA) de ocurrencia
de un evento sino solo un riesgo relativo (OR). Sin embargo, este diseño puede dar
excelente información y es particularmente apropiado cuando el desenlace es raro o el
tiempo requerido de seguimiento es largo o no hay otra manera de hacerlo en concreto.
Para evaluar la utilidad de un trabajo sobre pronóstico deberíamos contestar las preguntas
de los cuestionarios de lectura que aparece al final de este capítulo.

En artículos sobre pronóstico son requisitos de validez esenciales a) que los pacientes
incluidos representen todos una etapa precoz y homogénea en la historia natural de la
evolución y b) que el seguimiento haya sido completo en todos los pacientes estudiados.

A) CRITERIOS DE SELECCION DE ARTICULOS SOBRE PRONOSTICO.

La validez de un estudio hace referencia a la relación (correcta) entre los objetivos, el


método y las conclusiones de aquél. Por ello, es necesario hacer un análisis cuidadoso de
los siguientes aspectos:
A.1. La muestra de pacientes debe ser representativa del mismo momento en la evolución
de la enfermedad.
No por obvio debe dejarse de subrayar el hecho que, para llegar a una conclusión
pronóstica, los integrantes del grupo estudiado deben ser homogéneos respecto al
diagnóstico, momento de la enfermedad a partir del cual se inició el seguimiento para

78
medir -por ejemplo- el tiempo transcurrido hasta aparecer o no un evento indeseado (p.ej.,
muerte), etc. El mejor modelo para estudiar pronóstico es el que contempla un estudio
hecho a partir de una “cohorte incipiente”, es decir, un grupo de pacientes con el mismo
diagnóstico, en el mismo momento evolutivo de la enfermedad y, ésta, en sus etapas más
tempranas.
Existe una variedad de sesgos en la elección de los pacientes que se eligen como miembros
de cohortes. Uno está determinado por la derivación de ciertos pacientes a centros
terciarios por diversas razones, algunas de las cuales son perfectamente comprensibles
(mayor cantidad de recursos diagnósticos y/o terapéuticos). Pero si el estudio sobre
pronóstico se diseña en base a este tipo de enfermos, hay un aumento de las probabilidades
de sesgo, como podría ser un exceso relativo de formas más graves o poco comunes de la
enfermedad en la muestra, con el correspondiente aumento de la probabilidad de
desenlaces adversos o desfavorables (Ej.: la probabilidad de una nueva convulsión no febril
en niños con una primera convulsión febril, aparece considerablemente más baja en
estudios hechos en poblaciones generales ambulatorias, que en los llevados a cabo en
centros especializados). Otras veces ocurre que los autores de uno de estos estudios
“filtran” ciertos pacientes por razones de proyectos específicos del grupo investigador. O,
lo que hace del sesgo más evidente, la selección de pacientes puede ser hecha en
circunstancias tales, que no aparezcan en el grupo ni los que fallecieron ni los que, por
complicaciones, debieron emigrar del área de acción del grupo investigador.
Una dificultad común para aceptar determinaciones pronósticas deriva del estudio de éstas
a partir de pacientes incluidos en ensayos terapéuticos controlados. Si bien en estos
estudios se exige que los casos sean comparables a los controles, subyace el sesgo potencial
que implica excluir aquellos casos en los que el tratamiento parece inútil o que no tendrá el
efecto esperado. Este sesgo, descrito para interpretar intervenciones del área quirúrgica,
suele aparecer también en el ámbito médico y pediátrico.

B.2. Importancia del seguimiento los suficientemente largo y completo.

Uno de los problemas más duros que deben resolver quienes hacen investigación clínica
que lo requiere, es el seguimiento completo. Completo significa que se pudo tener toda la
información necesaria, en todos los pacientes con que se inició el estudio. Los eventos de
interés pronóstico pueden ocurrir muchos años después del comienzo de la enfermedad
clínicamente demostrable o de la expresión de un factor pronóstico. Por esto, es frecuente
que el período de observación deba ser largo, sobre todo en enfermedades crónicas. Del
mismo modo, la inasistencia a las citas de control es otro mecanismo por el cual puede
debilitarse la validez, o desaparecer, en un estudio de este tipo. Los pacientes pueden faltar
a los controles por diversas razones como las ya mencionadas, a las que se podría agregar
el cambio de domicilio, razones económicas, expectativas de mejor tratamiento en otro
centro, etc. Se aplica aquí el mismo axioma a tener presente en los estudios con inferencia:
los pacientes que difieren en alguna característica, generalmente importante, también
difieren en cuanto a pronóstico. Mientras más pacientes se pierden, menos precisa es la
estimación de la magnitud del factor pronóstico estudiado. Es común aceptar que si la
pérdida de pacientes es un 10 %, debe dudarse de los resultados. En este sentido resulta del
todo ilustrativo el ejemplo de Sackett et al.(7) sobre las mermas en el grupo que se sigue.

79
Figura 3.1.

EFECTO DE LA PERDIDA DE PACIENTES EN ESTUDIOS DE COHORTES


PARA ESTABLECER PRONOSTICO.

Estudio del pronóstico de cierta enfermedad en términos de recaídas y muerte.

N° de individuos al inicio del estudio: 71.


N° de individuos "perdidos" al final: 6 (8,5%)
N° de individuos estudiables 65
N° de casos con recaída: 39
Tasa de recaídas 39/65 = 60%.
N° de individuos fallecidos: 1.
Tasa de letalidad: 1/65 = 1,5%.

1) Cálculo del efecto de la pérdida sobre la probabilidad de recaer:


a) Criterio del "efecto mayor": Agregar los "perdidos" a ambos términos.
(Supone que todos los individuos perdidos recayeron):

(39+6) / (65+6) = 45/71 : Tasa de recaídas = 63%.

b) Criterio del "efecto menor". Agregar los "perdidos" sólo al denominador.


(Supone que ninguno de los individuos perdidos recayó):

(39) / (65+6) = 39/71 : Tasa de recaídas = 55%.

2) Cálculo del efecto de la pérdida sobre la probabilidad de morir:


a) Criterio del "efecto mayor":

(1+6) / (65+6) = 7/71 : Tasa de letalidad = 10%.

b) Criterio del "efecto menor":

(1) / (65+6) = 71 : Tasa de letalidad = 1,4%.


Corolario: Mientras menor el riesgo de un evento pronóstico, mayor el efecto potencial de
la pérdida de individuos sobre la estimación de ese riesgo.

(estas operaciones forman parte de lo que se llama “análisis de sensibilidad” y se pueden


calcular usando la hoja N° 20 de STATSLP ).

80
Cuando la pérdida de pacientes pone en cuestión la validez del estudio, se debe analizar las
circunstancias por las cuales los pacientes abandonaron, para lo cual los autores deben dar
cuenta de ello, en detalle. Si al comparar las características demográficas (edad, sexo, etc.)
y clínicas entre los pacientes que abandonaron y los que tuvieron un seguimiento completo,
no aparecen diferencias importantes, se puede asignar mayor validez a los resultados del
estudio, sobre todo si las razones de la desaparición no están relacionadas (no habrían
influido) con el evento en estudio. Si los autores omiten las causas del abandono y las
características de este grupo, la validez de los resultados se debilitará inevitablemente.

B) GUIAS DE INSPECCION DE UN ARTICULO SOBRE PRONOSTICO.

B.1. Sobre el criterio de pronóstico objetivo, inequívoco y no sesgado.

Los investigadores deben hacer una definición clara e inequívoca de qué evento medirán
para definir variaciones del pronóstico (en general, eventos adversos), antes que comience
el estudio. Esta definición es necesaria, porque “mal pronóstico” puede implicar
evoluciones que van desde aquellos eventos objetivables sin dudas (muerte) pasando por
aquellos que requieren algún análisis (complicación), hasta los que necesitan un análisis
más complejo, que necesiten un mayor despliegue técnico para su definición exacta y
precisa (incapacidad, calidad de vida). Para reducir al máximo el riesgo de sesgos en
estudios de seguimiento para medir la asociación presunta entre factores y efectos, los
investigadores que miden el evento de interés o "efecto" deben ignorar si el paciente tiene o
no un potencial factor de riesgo. Esto, que puede no ser indispensable para eventos
inequívocos como la muerte, lo es para los que requieren cierto análisis, como pueden ser
las complicaciones o los grados de funcionalidad.

Cuando el evento que se mide para establecer el pronóstico (p.ej., el compromiso auditivo
postmeningitis o la falla renal en diabetes) es poco frecuente en la población general o es
muy propio de la enfermedad, puede bastar con el seguimiento de una cohorte; en cambio,
si este evento no lo es (p.ej., mal rendimiento escolar, trastornos conductuales), puede ser
necesario seguir dos cohortes, una con la enfermedad de interés y otra de población
"testigo", como puede ser una muestra de la población general de la misma edad.
En el primer caso están los estudios de sobrevida en cáncer, enfermedad en la cual ciertas
infecciones son determinantes de la muerte del paciente. En el segundo caso, el problema
puede ser considerable. Por ejemplo, en el estudio de Taylor HG et al.(8), en el que se mide
el efecto de la meningitis por Haemophilus influenzae en términos de trastornos
neuropsíquicos y rendimiento escolar, los controles fueron los hermanos más cercanos en
edad a los casos. Esta decisión, destinada a disminuir la varianza por pareo de condiciones
socio-económicas y culturales, terminó con un hallazgo impensado: los hermanos de los
casos tuvieron problemas que requirieron educación especial en una proporción
considerablemente elevada de modo que, aparentemente, el pronóstico en estos términos se
favoreció en los casos que tuvieron meningitis. Tal vez hubiera sido mejor elegir una
cohorte de la población general para controlar con mayor certeza este aspecto.

81
B.2.El ajuste del pronóstico según otros factores pronósticos importantes.

Cuando se ha establecido un cierto pronóstico, los investigadores deben examinar la o las


cohortes para cerciorarse de su homogeneidad en aspectos relevantes relacionados con tal
pronóstico.
Como ejemplo, examinemos el artículo de Berg AT et al. (9) sobre el riesgo de
recurrencias de convulsiones febriles en una cohorte de 94 niños con pérdida del
seguimiento pequeña (2,5%). Luego de medir el riesgo general de recurrencias y estimarlo
en 27%, el autor procede a estudiar factores que lo pueden modificar, como aparece en la
siguiente tabla:

Tabla 3.2.

Corrección de la estimación pronóstica por diversos factores:

Riesgo
Factor relativo37 IC 95%
Duración de la fiebre >1 hr 0,48 0,35 a 0,66
Temperatura ≥ de 38,9°C 0,82 0,69 a 0,97
Edad ≥ 18 meses 0,51 0,34 a 0,79
Historia familiar conv.febriles (-) 0,53 0,34 a 0,81

Interpretación de esta tabla:


El que el valor del riesgo relativo sea menor que 1, indica que el factor definido en cada
categoría es “protector”. P.ej., Si la primera convulsión se produce en un niño con
temperatura ≥ de 38,9°C, el riesgo de recurrencias es alrededor de la mitad (RR=0,48)
respecto a aquellos niños cuya primera convulsión se produjo con temperaturas menores de
38,9°C.
En resumen, qué hay de importante en esto: que, además de aspectos metodológicos para
evitar sesgos, los estudios sobre pronóstico deben aportar información para "personalizar"
la información adecuándola a casos particulares. Queda claro que a la pregunta de una
madre sobre su hijo de más de 2 años que ha sufrido una primera convulsión febril, la
respuesta no puede ser "el riesgo de más convulsiones es 27%". Es necesaria más
información clínica sobre ese niño en particular, para saber, por ejemplo, con cuánta fiebre
tuvo la convulsión, si hay o no historia familiar de episodios de esta naturaleza, etc.
Sin embargo, como en este caso, el aporte de otros factores sobre el pronóstico es
independiente. Informa mejor el análisis multivariado que combina factores facilitando
reconocer la condicionalidad que, muy frecuentemente, afecta a los factores por separado.
En el ejemplo, aprendemos que la edad es un factor protector si el niño es mayor de 18
meses, pero no sabremos "ajustar" con mayor precisión el pronóstico si, además de ser un
menor de esta edad presenta, además antecedentes familiares de convulsiones febriles.

37Los riesgos relativos menores que la unidad (<1) tienen significado "protector". Los intervalos de
confianza del 95%, indican que la magnitud del riesgo relativo estimada no es por azar, ya que ninguno
pasa por 1. Dicho más exactamente, si el riesgo relativo correspondiente no es el real, está en algún lugar
del intervalo de confianza, con 95% de probabilidades de que así sea.

82
B.3. Sobre los resultados.

En el ejemplo recién expuesto parece obvio cuál es el resultado: La probabilidad de


recurrencia de convulsiones febriles, expresada en porcentaje y la medida en que tal
estimación global se modifica de acuerdo a ciertos factores. Cabe hacer notar que, en
analogía con los subgrupos que permiten ajustar los valores predictivos de una prueba
diagnóstica, estos distintos riesgos relativos están asociados a ciertas variables (algunas
accesibles por la anamnesis, otras por el examen físico), que se refieren a subgrupos en los
que la “prevalencia” de segundas convulsiones es diferente de la global y entre ellos.

B.4. Precisión de las estimaciones pronósticas (probabilidades o medida de


asociación).

Aún con resultados válidos los estudios de pronóstico proporcionan sólo una estimación del
riesgo verdadero. Además de examinar el tamaño del riesgo es necesario examinar la
precisión de su estimación, es decir el intervalo de confianza con un 5% de probabilidad de
errar atribuible al azar (bilateral) o IC 95%. Las curvas de sobrevida tienen más pacientes
en los períodos tempranos que en lo más posteriores por el abandono y porque no todos los
individuos ingresan al mismo tiempo al estudio, lo que se traduce en el período temprano
en un intervalo de confianza más estrecho. El RR asociado tiene un valor que significa el
número de veces que el evento o desenlace ocurre en comparación con el grupo control. El
intervalo de confianza describe la precisión de la estimación, en los términos ya explicados

B.5.Aporte de los resultados del estudio para resolver el problema de un paciente en


particular.

Ya comentamos la forma en que los resultados deberían apoyar nuestra conducta (respuesta
a la madre del niño con convulsiones). Sin embargo, quedan todavía asuntos que
determinar:

B.6 ¿Fueron los pacientes estudiados semejantes a los míos?

Los autores deben describir las características de sus pacientes y aportar las definiciones de
los diagnósticos, los términos críticos en que se expresa el pronóstico (p.ej., "convulsión
febril") en forma lo suficientemente clara y extensa para poder compararlas con las de
nuestros pacientes. Mientras más se parezcan las características de ambas poblaciones, más
apropiada será la aplicación de los resultados del estudio para el uso en nuestros pacientes.

B.7. ¿Son los resultados útiles para tranquilizar o aconsejar pacientes?


Aunque los resultados del pronóstico no permitan indicar una terapéutica efectiva, pueden
ser clínicamente útiles. Un resultado de buen pronóstico válido, preciso y generalizable es
muy útil al clínico, en especial cuando permite tranquilizar a un paciente o pariente
preocupados. Por otro lado, un resultado de mal pronóstico permite al clínico un punto de
partida de discusión con el paciente y la familia en los aspectos pertinentes a ese mal
pronóstico.

83
BIBLIOGRAFIA:

1) Odio C, Faigenzicht I, Paris M, Baltodano A, Rogers J et al "The beneficial effects of


early dexamethasone administration in infants and children with bacterial meningitis".
NEJM 1991;324:1525-31.
2) Kennedy WA et al. "The role of corticosteroid therapy in children with pneumococcal
meningitis". AJDC 1991; 145:1274-78.
3) Schaad B, Lips U, Gnehm HE, Blumberg A, Heinzer I, Wedgewood J et al
"Dexamethasone therapy for bacterial meningitis in children". Lancet 1993; 342:457-61.
4) Wald ER, Kaplan SL, Mason EO, Sabo D, Ross L, Arditi M et al "Dexamethasone
therapy for children with bacterial meningitis". Pediatrics 1995; 95:21-28.
5) Lebel MH, Freij BJ, Syrogiannopoulos G, Chane DG, Hoyt MJ, Stewart SM et al
"Dexamethasone therapy for bacterial meningitis results of two double-blind placebo-
controlled trials". NEJM 1988; 319:964-71)
6) Ishikawa T, Asano Y, Morishima T, Nagashima M, Sobue G, Watanabe K et al
"Epidemiology of bacterial meningitis in children: Aichi Prefecture, Japan, 1984-1993".
Pediatr.Neurol. 1996; 14: 244-50.
7) Sackett DL, Haynes RB, Guyatt GH, Tugwell P. "Clinical Epidemiology: A Basic
Cience for Clinical Practice".. Clinical Epidemiology. 2nd Ed Little, Brown & Co.Boston,
1991.
8) Taylor HG, Michaels RH, Mazur PM, Bauer RE, Liden CB “Intellectual
nueropsychological , and achievement outcomes in children six to eight years after
recovery from Haemophilus influenzae meningitis”. Pediatrics 1984; 74:198-205.
9) Berg AT, Shinnar S, Hauser A, Alemany M, Shapiro DE, Salomon ME et al “A
prospective study of recurrent febrile seizures”. NEJM 1992; 327:1122-27.

84
CUESTIONARIO N 3.

Especifique su pregunta:

SOBRE EL TIPO DE DISEÑO, ESTRUCTURA Y RESULTADOS DE UN


ARTICULO SOBRE PRONOSTICO.

Especifique su pregunta:

Cita:

En el caso del estudio de una cohorte (estudio descriptivo):


a) ¿Fue la muestra de pacientes representativa del mismo momento en la evolución
de la enfermedad (cohorte incipiente)?
b) ¿Fue el seguimiento lo suficientemente largo y completo?

c) ¿Fue utilizado un criterio de pronóstico inequívoco, objetivo y no sesgado?


d) ¿Hubo ajuste para los factores pronósticos importantes?
e) ¿De qué tamaño es la probabilidad de los eventos de desenlace en un período de tiempo
especificado?
f) ¿Cuán precisas son las estimaciones de la probabilidad del evento de interés?
g) ¿Fueron los pacientes estudiados semejantes a los míos?
h) ¿Son los resultados útiles para tranquilizar o aconsejar a pacientes?

En el caso del estudio (comparación) de dos cohortes, remítase a la sección “Etiología,


Causalidad, Daño)”
Comentarios:

85
SECCION 4.

SOBRE TERAPIA.

Generalidades.

De los modelos de investigación clínica, el que más obviamente implica la necesidad de


respetar un severo marco de requisitos, en que lo técnico está estrechamente ligado a
principios éticos es, el que se refiere a terapéutica porque, como veremos, exige la
aplicación del modelo experimental en seres humanos, en oposición a los observacionales,
donde los seres humanos no son objeto de manipulación experimental. (Esto de ninguna
manera quiere decir que, en investigación clínica, sólo el modelo experimental está ceñido
por exigencias éticas). Debemos destacar que los ensayos terapéuticos, entendidos como el
ensayo para averiguar la acción de drogas en sus efectos curativos, no son la única
modalidad del diseño experimental o “intervencionista”. Lo son, también, los ensayos de
vacunas, las intervenciones que proponen un programa educativo para modificar
situaciones objetivas tales como la tendencia al suicidio de adolescentes, el uso de drogas
psicotrópicas, el ensayo de inducción de cambios de actitud en la población, etc. Debe
tenerse en cuenta que, en todos estos casos, además de hacer a los participantes objeto de
una intervención, de resultados hipotéticos, se recoge información de los sujetos
involucrados en el ensayo (requisitos de confidencialidad), se les entrega información (que
debe ser completa y no sesgada) y, en último término, se influirá en sus conductas y, por
ello, en sus futuros personales. En todos estos casos, el uso de placebos, hasta hace poco
tan en boga, debe ser cuidadosamente examinado ya que el entusiasmo científico, la
urgencia por resolver el problema y otros imperativos a veces muy loables, pueden hacer
incurrir en faltas éticas con perjuicio potencial evidente, por ejemplo, para el grupo que se
decidió dejar exento del elemento que constituye la intervención. Esto puede ocurrir
cuando existe la posibilidad de no dejar expuestos a la simple observación (grupo control) a
individuos que podrían recibir algo mejor que el placebo o, simplemente, el elemento que
se está investigando. Ejemplo crítico de este tipo de riesgos, son los ensayos recientes sobre
el uso del régimen ACTG 076 para reducir la transmisión vertical del SIDA en mujeres
embarazadas infectadas (1) . En este ejemplo es fácil comprobar cómo concurren a la
formulación del marco de exigencias éticas de un proyecto, no sólo los conceptos que tánta
difusión han tenido en los últimos años sobre ese tipo de requisitos, sino también la
necesidad de utilizar recursos metodológicos correctos que se refieren, inclusive, a la uni o
bilateralidad del nivel de error alfa para el estudio de la hipótesis (cálculo de la muestra)
hasta la formulación de la hipótesis misma, porque errores en estos últimos tienen graves
connotaciones éticas. (2) .
Luego de un período en que la introducción de agentes terapéuticos o preventivos (terapia:
cloramfenicol; vacunas, BCG) fue hecha sin controles, hemos entrado a otra en que esto ya
no se puede hacer, salvo en el caso de enfermedades 100% mortales sin otro tratamiento
(p.ej., rabia humana) porque, a la par del desarrollo científico y tecnológico -que implican
el uso del método analítico- se ha ido desarrollando (afortunadamente) la conciencia ética
respecto al uso del ser humano como objeto de experimentos. Más aún, las investigaciones
sobre terapéutica están siendo sometidas al escrutinio de diseños que estudian daño
(producido por ellas) que no son, en consecuencia, diseños experimentales, sino
observacionales (ver más adelante).

86
Esta es una de las áreas que con mayor frecuencia debiera inducir un esfuerzo de análisis
metodológico sistemático (p.ej., lectura crítica) sobre todo para los médicos clínicos
latinoamericanos. Latinoamérica no es, en general, una región de la que surgen las
novedades terapéuticas (sin bien la industria farmacéutica las pone a nuestra disposición
cada vez con mayor prontitud). Los “productos” (drogas, substancias de acción biológica,
procedimientos) llegan a nuestro conocimiento en tres categorías, sobre las cuales no
siempre indagamos:
a) Productos suficientemente probados e, inclusive, autorizados por los organismos de
salud pública (“registradas”) en el extranjero.
b) Productos ya utilizados pero no adecuadamente estudiados en el extranjero.
c) Productos en fases experimentales previas a su autorización y uso en el extranjero.

Todo médico clínico debería ser capaz de enfrentar lo que significa la oferta de
información terapéutica con criterio propio, objetivo y certero, antes de decidir usar
recursos de este tipo en sus pacientes, partiendo de la premisa que sus pacientes, ya sea
considerados como población o en forma individual, no son necesariamente iguales a
aquéllos en que se llevaron a efecto estudios en los que se basan las bondades propuestas de
determinada intervención.

La proporción de enfermedades para las cuales no hay tratamiento alguno ha disminuido


dramáticamente en los últimos 50 años. Recordamos esto para traer a colación que para la
mayoría de las enfermedades hay ya alguna terapia, de modo que la propuesta de un nuevo
tratamiento implica la perspectiva de uno mejor. Sin embargo, esta proposición no termina
con el problema: hay áreas de la patología en la que se necesitan tratamientos equivalentes
(p.ej en SIDA), por diversas razones, entre las cuales el costo es preponderante.

Este preámbulo tiene por objeto preparar al lector para el contexto en el que se analizará el
método que regula los ensayos terapéuticos: el modelo llamado ensayo clínico controlado,
aleatorio, doble ciego (“randomized controlled trials”). En este modelo se lleva a cabo
una comparación entre la medida en que cierto tratamiento “mejora” a los pacientes de un
grupo tratado con él, con la medida (de dimensión mayor) en que se espera lo haga un
nuevo tratamiento en un grupo comparable. La previsión de las eventuales consecuencias
que acarreará a los enfermos el uso del nuevo tratamiento comanda el rigor exigible a estos
ensayos. Quien, leyendo lo que sigue, piense que se trata de un exceso de “tecnicismos”,
incurrirá en error, ya que lo que exponemos a continuación no sólo no es un exceso, sino
un apretado resumen del problema técnico que representan los ensayos clínicos controlados
(1,2) .

Antes de abordar el examen crítico de los artículos sobre terapia digamos desde ya que
aquéllos que no son controlados deben ser descartados, excepto cuando aparezcan las
primeras terapias para enfermedades 100% mortales como la rabia (Quien tenga bases para
ensayar una terapia con perspectivas razonables de efectividad en rabia, ¡no podría usar
controles!). Esto nos lleva a no aceptar las series de casos, por grandes que sean, tratados
con cierta terapia, como argumento de su bondad. Del mismo modo, no resulta ético hacer
“ensayos” administrando determinada “nueva” terapia, cuando ésta pertenece al primer
grupo enunciado al comienzo de esta sección (a). Podría postularse que alguna terapia ya
probada en el extranjero como eficaz, se supusiera inútil o peligrosa en nuestros pacientes,
con argumentos suficientes hasta el punto de hacer un ensayo. Si los argumentos no son

87
suficientes, no debería adoptarse la “nueva” terapia, sino mantener la vigente. Si los
argumentos fueran “equiparados” (son consistentes, pero dejan algún margen de duda),
podría justificarse un ensayo, pero controlado, aleatorio, ciego, etc,....siempre que no haya
riesgo para los pacientes que recibirán la terapia en duda o el placebo, si es el caso.
Si el nuevo producto no ha sido aceptado en el extranjero (grupos b y c), y tiene esa
procedencia, las condiciones del ensayo deben ser con respeto de las normas éticas
generales y las reglas generales y nacionales vigentes al respecto . Finalmente, los estudios
38

de equivalencia de terapias son difíciles, además, por el tamaño muestral necesario para
aceptar que una diferencia pequeña entre ellos (“equivalencia”) no se debe error tipo II
(falta de poder estadístico para detectar, en estos casos, una diferencia pequeña pero lo
suficiente como para que los haga "no equivalentes"). (Ver al final del capítulo:
“Evidencias, estadística y ética médica”).

A) GUIAS DE SELECCION:

Estas guías permiten detectar rápidamente cuáles de los artículos logrados por una revisión
del tema específico no vale la pena leer, por no cumplir los requisitos básicos que
garanticen la validez de sus resultados.

En artículos sobre terapéutica, son requisitos básicos de validez: a) la asignación


aleatoria (al azar) de los pacientes a cada uno de los grupos (generalmente dos: tratados
y controles), b) que se dé cuenta de todos los pacientes con que se inició el estudio al
analizar los resultados, c) que el seguimiento sea completo (sin pérdidas) y d) que los
pacientes se mantengan, durante el estudio, en el grupo al que fueron asignados.

El incumplimiento de alguno de estos requisitos, permite descartar el artículo.

A.1. Asignación de pacientes al azar.

La asignación de los pacientes, ya sea al grupo con la nueva terapia o al grupo con la
antigua, debe hacerse al azar por diversas buenas razones. En general, diremos que se hace
para “evitar sesgos”. En particular, mencionaremos algunos de los objetivos más
importantes. Primero, el criterio y la voluntad de los investigadores no debe influir en la
probabilidad de cada paciente de ingresar a uno u otro grupo. Si operan el criterio y
voluntad del o los investigadores, inevitablemente se tenderá a asignar los pacientes con
mejor pronóstico al grupo que recibirá la nueva terapia, lo que hará sobrevalorar sus
bondades. Esta tendencia positivista está tan íntimamente incrustada en nosotros, que no
constituye falta o pecado sino, simplemente, un error.
Una segunda muy buena razón que, de paso, resuelve el problema anterior, es la necesidad
que existe de comparar dos grupos cuya única diferencia sea la terapia recibida. Hay
numerosos factores que condicionan el pronóstico (covariables, covarianza) de los
pacientes antes del ensayo terapéutico. A grosso modo, la edad, el sexo, la etapa de la
enfermedad o su gravedad, las terapias previas, son factores que pueden influir a favor o en
contra de una de las dos alternativas terapéuticas en estudio. Por ello, lo mejor es recurrir a
un sistema por el cual ambos grupos (terapia antigua, terapia nueva) queden comparables
por distribución balanceada de estos factores (u otros a veces no predecibles). Ello se
38 El Ministerio de Salud de Chile emitió una normativa general de aplicación específica a a ensayos
clínicos que utilizan medicamentos en seres humanos, a comienzos de 1998.

88
consigue asignando los pacientes al azar. Hoy día, era de la computación, “al azar”
significa seguir el orden determinado por una serie de números aleatorios generados por un
ordenador personal. Para quienes no estén aún familiarizados con éstos, se puede
recomendar la extracción de números de lotería o, simplemente, lanzar una moneda al aire,
todo lo cual ya no es del todo elegante. Los autores de un estudio de esta naturaleza deben
describir (no sólo decir que la hubo) la aleatorización, es decir, cómo fue hecha. Esto
importa, porque el uso de pares/impares, días de la semana, letras del apellido, etc, son
procedimientos riesgosos para los fines de aleatorizar, porque involucran algún grado de
sistematización. Por ejemplo, la elección de días impares puede coincidir con una
alternancia paralela de dos grupos de médicos o personal tratante; la elección de un
segmento de la semana desconocería que los pacientes que acuden en los fines de semana
difieren de los que lo hacen en el resto de los días; la elección de ciertas letras de comienzo
de un apellido (W, X, Y), puede fácilmente seleccionar individuos no comparables al resto
en una población -por ejemplo- de origen hispánico, etc.
La exigencia no termina aquí. Debe aparecer una tabla en la que se comparen los casos y
los controles, antes de la intervención terapéutica, en un número razonable de variables
entre las que se incluyan rasgos marcadores generales de la aleatorización (corrientemente
edad, sexo) y algunas que estén relacionadas con factores pronósticos que podrían influir
39

en los resultados de comparar las terapias. Por ejemplo, grado de gravedad, etapa o
duración de la enfermedad, tratamientos previos, etc. En dicha tabla, descriptiva para
comparar los grupos, no debe haber diferencias significativas entre ellos (p<0,05). Sin
embargo, el lector debe estar alerta al examinar esta tabla. Si en ella el valor de “p”
resultante de comparar una variable en los grupos es 0,051, no hay significación estadística
formal, según se acostumbra, pero la probabilidad que los grupos no correspondan a un
mismo universo, sin ser 95% es 94,9%. El lector juzgará (si los autores no lo hacen) si esta
diferencia en la variable en cuestión es o no importante para interpretar los resultados. Los
grupos no deben diferir en las variables que generalmente se eligen para examinar el grado
de balance de factores muy probablemente coviariantes (edad, sexo, raza, etapa de
evolución de la historia natural de la condición en estudio), después de efectuada la
aleatorización. Por ello, la ausencia en el artículo de una tabla de comparación de
condiciones basales o iniciales de los grupos a comparar, malogrará su examen en cuanto a
la validez o ausencia de sesgos, lo que bastará para descartarlo.
Finalmente, conviene tener presente que la asignación aleatoria balancea los grupos en
función del tamaño de ellos. Cuando los grupos están constituidos por pocos individuos,
hay riesgo de falta de balance en alguna variable de eventual importancia para los objetivos
de estudio, por mero azar . En estos casos también influirá la probabilidad de error tipo II
40

(error beta), ya que el número pequeño de casos tiende a impedir la aparición de la


diferencia real entre los grupos, aún cuando ésta exista. Más aún, con grupos pequeños la
exactitud de la estimación de la diferencia tiende a perderse (IC 95% muy ancho).

A.2. Seguimiento de los grupos.

Los pacientes incorporados al estudio deben permanecer en él y en el grupo al que fueron


asignados al inicio del estudio (excepto en algunos modelos llamados “cross-over”), todos
hasta el final. Pueden ocurrir tres inconvenientes en este aspecto. Uno es la pérdida de
39Queson potencialmente fuente de covarianza.
40Si
los pacientes de los correspondientes grupos son realmente comparables, el grado de balance tenderá a
aumentar en función del número total de individuos (N).

89
pacientes, el otro es la migración de pacientes de un grupo al otro (“contaminación” en el
estudio) y el tercero es la exclusión de pacientes por incumplimiento de la terapia u otras
razones. Si hay pérdida de pacientes, tal como ocurre en estudios de cohortes, la validez del
estudio entra al marco de la duda. Esto deriva de un axioma general asociado al concepto
de sesgo: “los pacientes que se pierden difieren de los que no se pierden”. En el caso de los
ensayos controlados, los pacientes perdidos tienen diferente pronóstico que los no perdidos
y pueden desaparecer porque sufrieron eventos adversos (como por ejemplo muerte) o, si
se sintieron muy bien, pueden dar por suficiente el tratamiento y no acudir más a los
controles.(La inextricable mente humana origina muchos otros motivos para abandonar un
estudio de esta naturaleza).
Cuando hay una cierta proporción de pérdida de pacientes, se puede recurrir al siguiente
procedimiento para intentar aproximarse a la realidad (siempre que el resto del estudio lo
justifique por su validez): Suponer, en aquellos estudios en los que la nueva droga parece
ser mejor que la vigente, que los pacientes perdidos, que pertenecen al grupo de la nueva
droga, evolucionaron mal y que los casos perdidos pertenecientes al grupo control,
evolucionaron bien. Con este proceso in mente, podemos recalcular la diferencia entre los
grupos en el aspecto en que se propuso compararlas. Si la nueva droga sigue siendo mejor
que la anterior, aún después de volver a calcular la diferencia del evento de interés entre los
dos grupos, se puede suponer que la pérdida de pacientes, aún en el peor de los casos, no
cambia las conclusiones y, por ello, podemos considerarla válida . Obviamente, se debe
41

concluir lo contrario si este procedimiento anula las diferencias entre los grupos o, peor, si
invierte la relación entre ellas.

El otro aspecto mencionado tiene relación con la probabilidad que individuos del grupo
tratado “se cambien” al de los controles y queden recibiendo el tratamiento alternativo. En
los estudio droga vs placebo, la migración puede ser desde la droga al placebo y viceversa,
si ambas drogas o terapias están bien enmascaradas. Esto puede ocurrir por diversas
razones, sobre todo en ensayos hechos en pacientes ambulatorios, sobre los que se tiene
menor control clínico. Una razón puede ser el aspecto del producto que se está
administrando (los colores, olores, sabores, formas, tamaños y, sobre todo, las vías de
administración, condicionan actitudes en las personas). Otra causa de distorsión de los
resultados suelen ser las "cointervenciones", que son procedimientos suplementarios
dirigidos a mantener los individuos en el seguimiento. Típicamente, proporcionar
incentivos a los casos y no a los controles.
Una tercera instancia es que algunos individuos no cumplan el tratamiento, factor que
tienda a excluirlos del análisis, lo cual no debe hacerse porque se malogra la aleatorización.
Los pacientes que no cumplieron el tratamiento deben mantenerse en sus grupos (tratado o
control) para el análisis, con lo cual se mantienen las ventajas de la distribución al azar
(análisis de "la intención de tratar"), ya que se mantienen así covariables eventualmente
condicionantes pronósticas.

B) GUIAS DE INSPECCION.

Si se cumplen los requisitos de validez del diseño, se procede a examinar si existen


elementos que distorsionen los resultados, pese a haberse cumplido los requisitos de
validez.

41 Aunque la precisión de la estimación del efecto tenderá a ser incierta.

90
Un elemento de distorsión puede ser determinado por una co-intervención (entrega a uno
de los grupos, generalmente al que se le está administrando la terapia en estudio, de algún
aliciente, si se lo considera más difícil de mantener en observación). Esta co-intervención
puede ser un factor que afecte poderosamente el evento en que se medirán los resultados,
en forma paralela a la terapia en estudio. En tal caso, si la co-intervención es asignada al
grupo con la terapia en estudio, se puede magnificar el efecto de ésta. Si, por el contrario,
es asignada al grupo control (lo cual es improbable por las razones de las co-
intervenciones), se puede aminorar el efecto de la terapia estudiada.
Otra causa de distorsión puede ocurrir por un mal sistema de supervisión del estudio, en
virtud del cual la migración de pacientes de un grupo al otro puede ser, simplemente, al
azar. El problema, en todas estas instancias, es que la diferencia entre los grupos al
momento de examinar los resultados, tenderá a desaparecer porque, en ambos ha habido
un proceso que los hizo menos diferentes en su composición (aproximación de la diferencia
al valor de la hipótesis nula). Dicho de otra manera, el tamaño muestral de los
verdaderamente diferentes, se redujo porque los migrantes determinaron “empates” en los
grupos y la reducción del número de individuos en comparación, disminuye la probabilidad
de encontrar la diferencia supuesta por la hipótesis (error tipo II o beta).

B.1. Sobre los requisitos de independencia y “doble ciego”.

Estos requisitos son siempre exigibles (aunque no siempre es posible), por las razones que
fácilmente se pueden derivar de los párrafos anteriores.
El de “independencia” se refiere a que quien mide el efecto elegido como variable de
comparación entre tratamientos, no debe saber a cuál de los dos grupos pertenece el
paciente que está evaluando. El asunto no tiene demasiada importancia si lo que se mide es
mortalidad pero, en general, la medición se refiere a aspectos más susceptibles de
variaciones por apreciación subjetiva. Por esta razón, debe haber un grupo de supervisión
del estudio, independiente de los investigadores, que tomará decisiones en casos en que los
efectos de los tratamientos en estudio tomen alguna dirección favorable o desfavorable tal,
que se justifique sacar del estudio a algunos o todos los pacientes.
El concepto “doble ciego” se refiere a que ni el paciente ni quien se lo proporciona, sabe
cuál de los productos está recibiendo cada individuo. Obviamente, para que ello sea así, la
presentación de los productos debe ser idéntica en todas sus propiedades organolépticas. La
vía de administración es un problema si se compara un tratamiento oral con uno parenteral.
En estos casos, si las exigencias éticas lo permiten, puede administrarse al grupo por vía
oral, un producto parenteral inocuo, mientras al grupo por vía parenteral, un producto
inocuo por vía oral. (¡Ojo!: hay aquí la sana tentación de administrar, en vez de algo
inocuo, algo beneficioso. Esto puede hacerse sólo si el efecto beneficioso es el mismo en
ambos grupos o no tiene nada que ver con el efecto esperado de la intervención en estudio;
de otro modo habrá una co-intervención que, probablemente, afectará la validez de los
resultados).

B.2. Los resultados del estudio.

Los estudios analíticos sobre terapia buscan, en términos generales, establecer una
asociación entre una intervención (nuevo tratamiento) y un resultado de beneficio.
Consecuentemente, es preciso que la medida del efecto refleje fielmente el objetivo del
estudio. Ello implica la existencia de exigencias que no son menores. Desde luego, los

91
resultados deben referirse preferentemente a esta medida, sin omitirla en beneficio de
variables sustitutas. Además, al momento de comparar los grupos al inicio de la
experiencia, lo que habitualmente se hace mostrando una serie de variables, e ambos
grupos (tratados y controles) muchas veces convencionales, en ocasiones sin incluir la más
importante, cual es la situación de los pacientes respecto a la variable en que se medirá el
efecto. Un ejemplo de tropiezos en este aspecto, se puede observar en el trabajo de Salazar-
Lindo et al (3), en que se mide el efecto del racecadotril vs placebo en el volumen de
deposiciones de niños con diarrea aguda. La variable que identificará el efecto es estipulada
como “los gramos de deposición evacuada en 48 horas” (traducción libre). Sin embargo, en
la Tabla 1 (pág 464) se ve comparar el número de deposiciones, su consistencia y la
duración de la diarrea pero no el volumen de deposiciones al comienzo de la experiencia.
En otras palabras, no conocemos la comparabilidad de los dos grupos en la variable de
efecto principal: el volumen -en gramos- de las deposiciones al comienzo de la experiencia.
Las medidas de asociación quedan a elección de los autores y pueden expresar diferencia
entre promedios, diferencia entre proporciones (o de tasas de incidencia de cierto resultado
o efecto), correlaciones, etc. Sin embargo, para tomar decisiones clínicas, es decir, para
adoptar una terapia como la más apropiada para nuestros pacientes concretos, existen
estudios analíticos metodológicamente bien construidos y que proporcionan evidencias
pero que, con mucha frecuencia y en relación con ciertas áreas clínicas o especialidad, no
aportan la información en forma lo suficientemente adecuada para el uso en nuestros
enfermos. Específicamente, la frecuente comparación de terapias que muestra que el
tratamiento se asocia a un promedio de éxito mayor que el observado en el grupo con el
placebo, no necesariamente permite asegurar su aplicabilidad en un caso particular en la
práctica clínica. Como se comprenderá de la discusión que sigue, el que este tipo de
estudios cumpla con los requisitos metodológicos que se han examinado y que
abordaremos, puede no ofrecer la solución que nos interesa. Esto deriva de que “el
promedio” es un valor que, por el cálculo que lo origina, puede no corresponder a una
realidad particular (Por ejemplo, el promedio de estatura de 15 niños de un curso, puede ser
una cifra en cm que no corresponde a ninguno de los 15 niños). Una diferencia
estadísticamente significativa entre dos (o más) promedios sólo indica que las poblaciones
(“casos”, “controles”) pertenecen a universos diferentes, pero no nos permiten prever qué
pasará al aplicar el resultado de una comparación de promedios, a un paciente determinado.
El peso que tiene el análisis de un estudio bien hecho puede entusiasmarnos al punto de
ignorar una verdad matemática simple como ésta.

En un estudio hecho para comparar el efecto del salbutamol con el de la epinefrina


racémica en niños con bronquiolitis (4), los autores concluyen que la epinefrina racémica
es superior al salbutamol en el tratamiento de lactantes con su primer episodio de
bronquiolitis aguda, sobre la base de cambios en el puntaje de ingreso, expresados como
promedios y error estándar del promedio , después del uso de una y otra droga. En la
42

Figura 1 del artículo aparecen los cambios en ambos grupos, representados por líneas que
unen los valores de puntaje antes y después de las drogas. Del examen de esta figura, puede
apreciarse que, en el grupo con el mejor tratamiento hay, por lo menos, 2 líneas que
representan pacientes que empeoraron. A la vez, en el tratamiento “sin cambios” respecto
al puntaje basal hay, por lo menos, 4 líneas que representan pacientes que mejoraron. Es
42 Cosa que no es correcta: para “scores” o puntajes, debe usarse la prueba de Wilcoxon. Posibles cambios
en los resultados no se pueden explorar -en este artículo- porque los autores no ofrecen los datos
individuales.

92
decir, pese a la diferencia de promedios, no podemos calcular cuál es la probabilidad de
que la nueva terapia favorecerá o perjudicará a un determinado paciente. Es así
comprensible que valiosa información desaparezca cuando estos valores se promedian con
los que no cambiaron y los que tuvieron otra dirección (mejoraron o empeoraron,
respectivamente) y no permiten calcular, por ejemplo, el NNT (ver más adelante). 43

B.4. Tamaño del efecto de la intervención o tratamiento.

El tamaño del efecto de una intervención puede estar expresado de diversas maneras. Sea
como sea, el tamaño del efecto debe estar presente en forma clara en el artículo en revisión.
Hay diversas maneras de expresar el tamaño del efecto. En un estudio sobre terapia se ha
administrado a un grupo ("casos") una droga A y al grupo testigo ("controles") un placebo
o una droga B, y lo que se espera es una diferencia en la proporción de eventos en un
grupo comparado con el otro. Los resultados al final del estudio podrán expresarse de
varias maneras, de las que analizaremos las más directamente comprensibles para quienes
no están habituados al lenguaje epidemiológico: Proporciones (y porcentajes, que son
proporciones x 100) y riesgos relativos.

Usemos como ejemplo el primer estudio de Newburger sobre el efecto de inmunoglobulina


endovenosa (IGEV) sobre la proporción de alteraciones (aneurismas) de las arterias
coronarias (AAC) en el Síndrome de Kawasaki (5)
La intervención es la administración de IGEV. El evento en que se midió el efecto de dar
AAS, en comparación con IGEV, fue la aparición de alteraciones de las arterias coronarias.

Tabla 4.1.

Resultados a las 2 semanas de seguimiento,:44 (niños sin AAC al ingreso).

AAC Sí AAC No Total %


AAS 15 60 75 0,20 20,0
IGEV 5 69 74 0,068 6,8

La reducción del riesgo absoluto (RAR) de AAC es 20,0 - 6,8(%) =13,2.% (o, 0,068/0,2 =
0,132).
El riesgo relativo (RR) (en este caso, riesgo de tener aneurismas, dado el no haber recibido
IGEV, relativo al riesgo de tenerlos, dado el sí haber recibido IGEV) es: 0,2/0,068=2,9

43 Si el objetivo es una estimación de una diferencia en el efecto de mejoría de estas terapias, puede
calcularse, sin embargo, el NNT. Los autores mencionan que 13/24 (0,54) mejoraron su estado (bajó el
puntaje) luego del salbutamol, en comparación 20/24 (0,83) en el grupo con epinefrina. NNT=3.5. Como se
verá, esto debe interpretarse así: deben tratarse 3,5 pacientes con epinefrina para lograr mejorar uno más
que con salbutamol. Dadas estas proporciones entregadas por los autores, el NNT = 3,5 tiene un intervalo
de confianza = -1 a 36,7. El valor "-1" no tiene sentido y se debe a que la diferencia entre las dos
proporciones no alcanza significación estadística, pese a lo anotado por los autores el resultado de la prueba
de Chi cuadrado con corrección de Yates, con un grado de libertad, es 3,49, que corresponde a un valor de
p=0,062. Estos conceptos y cálculos se abordan más adelante.
44Hemos elegido este ejemplo porque los resultados se presentan en forma dicotómica, que es una forma
más manejable de los resultados, respecto a nuestros objetivos de aplicabilidad clínica. Podría haberse
tratado de promedios (días menos de fiebre, por ejemplo). En ese caso no cabe el cálculo de riesgos
relativos, pero se aplica igual la sección que sigue: precisión de la medición del efecto de la terapia.

93
(2,9 veces asociado a AAC, si el tratamiento fue AAS, o 0,34 asociado a AAC si el
tratamiento fue IGEV. El valor <1 expresa protección). (Note que 1/2,9 = 0,34: equivale a
invertir las filas).
El porcentaje de reducción del riesgo absoluto (PRRA) es igual a la reducción del riesgo
absoluto, dividida por el riesgo del grupo sin terapia (riesgo basal), multiplicado por 100:
0,20-0,068= 0,132 . 0,132/0,20 = 0,66 x 100=66%.
Aunque entre nosotros no es muy usado, conviene conocer también la reducción relativa
del riesgo (RRR), que se calcula a partir del complemento del riesgo relativo y se expresa
en porcentaje: 1-RR = (1- 0,66 = 0,34) x 100=34%. Significa que la IGEV reduce el riesgo
de AAC en un 34% respecto al que ocurre en los no tratados. (verifíquelo usando los datos
en la hoja N° 6 de STATSLP: ¡cuidado como introduce los datos!).
Mientras mayores las reducciones del riesgo, mejor la terapia.
La reducción absoluta del riesgo puede ser usada de otra manera para ilustrar la
importancia relativa del efecto, dividiendo 1 por esta reducción:
1/RAR = (NNT o número de pacientes a tratar en un tiempo dado, para obtener efecto en
una persona más que en el grupo en comparación. (Hojas N° 8 a 10 de STATSLP).
En el caso del uso de IGEV y AAS, sería 1/0,132 = 8 niños dentro de las dos semanas.
(Obviamente, el sentido pronóstico de este lapso es trivial, dado el ejemplo; habría que
estimar el efecto a más largo plazo como, de hecho, se llevó a cabo) (6) .
Esta forma de expresar la magnitud del efecto, tiene otra ventaja. Si la intervención tiene
efectos adversos se puede calcular, de la misma manera, el número de pacientes tratados
antes de que aparezca uno con daño, en el mismo lapso. La comparación entre ambas cifras
informa sobre la conveniencia o riesgo de usar una terapia determinada (Ver Apéndice 3).

B.5. Precisión de la medida de efecto de la terapia.

La disminución del riesgo, resultante de un estudio como el analizado, es sólo una


estimación de ésta. Dicho de otro modo, no podemos estar seguros que la reducción del
riesgo de AAC, luego de administrar IGEV es, exactamente, 34%, sino un porcentaje
"alrededor" de 34%. Saber cuánto "alrededor" de 34% es la reducción del riesgo, es crítico
por diversas razones según la naturaleza de la enfermedad o la terapia. En el caso del
Sindrome de Kawasaki, al momento de escribir este párrafo (Enero, 2004), el precio (no el
costo) de la terapia con IGEV es, aproximadamente, $MN 52.800 (USD 95) por Kg de
niño: para un lactante de un año, algo así como $MN 627.000 (USD =$1.140).
La manera de saber cuál es la exactitud de la estimación es estudiando su intervalo de
confianza (directamente del texto, si aparece, o calculándolo con cualquiera de los
programas que circulan; p.ej., Epi-Info en cualquiera de sus versiones). En el caso que
hemos usado, el intervalo de confianza del 95% del riesgo relativo es 0,34 a 0,88. Note que
este intervalo no incluye el valor 1, lo que significa que hay sólo 5% de probabilidades que
el tratamiento no modifique el riesgo de AAC y que, con 95% de probabilidades, el riesgo
relativo no excede los límites 0,34 a 0,88. El intervalo de confianza de la diferencia entre
las dos proporciones de AAC (en no tratados y tratados) , que era 0,132, oscila entre 0,022
y 0,242, intervalo que no incluye el valor 0, con 5% de certeza. Por esta otra vía, llegamos
a la misma conclusión: puede ocurrir, dentro de lo que es probable y reduciendo el azar a
sólo el 5%, que el efecto favorable oscile entre 2,2% y 24,2%.
Estos resultados de examinar la precisión de las estimaciones de riesgo relativo y diferencia
de proporciones de AAC, están estrechamente relacionadas al hecho que, en este caso, el
valor de "p" es <0,02 (por Chi cuadrado de Mantel-Haenszel).

94
Si a usted le parece que este intervalo es demasiado ancho (límite inferior de disminución
del riesgo absoluto sólo 2,2%), podría buscar un nuevo artículo en el que el estudio hubiera
sido hecho con un número mayor de pacientes ya que, si es cierto que el uso de IGEV tiene
el efecto beneficioso que se propone, con un número mayor de pacientes el intervalo de
confianza del 95% estrechará sus límites, alejando el límite inferior de 0 o el superior de 1,
según la medida que elijamos para medir el efecto de la IGEV. Esta es una de las razones
de los estudios que consisten en la estrategia llamada meta-análisis, que construye un
modelo con un número de pacientes constituido por todos los grupos en que se ha probado
la terapia, siguiendo un método que puede llegar a ser bastante complejo, pero que lo que
busca es aumentar el número de pacientes para reexaminar resultados inconcluyentes o
contradictorios. Pero esto es materia de otro capítulo. Para el caso de nuestro ejemplo hay
meta-análisis. (7) .

B.6. Utilidad de la información para el paciente individual.

La medida en que los resultados de un estudio de este tipo nos ayude a resolver el problema
de nuestro enfermo, depende de la información agregada al simple dato derivado de la tabla
2 x 2, sea la disminución de riesgo o el riesgo relativo. La definición detallada del tipo de
pacientes en quienes se estudió el efecto de interés puede o no dar la información precisa
que necesitamos. Por ejemplo, es importante saber si en los niños en que se usó IGEV
había o no alguna alteración de las arterias coronarias al comienzo del estudio (v.gr., cuál
fue el criterio de inclusión), qué edad tenían y si ésta hizo o no variar el efecto de la IGEV.
No es sabio extrapolar directamente resultados de estudios de poblaciones extranjeras a las
nacionales. Los factores geográficos, étnicos (genéticos), socioeconómicos, por no decir
etarios o sexuales, pueden implicar grandes diferencias en términos de los resultados
esperables localmente, de terapias o profilaxis estudiadas en otros países. La vacuna
antitífica tuvo éxito en Egipto pero no en forma comparable en Chile (8). La vacuna
conjugada anti-Haemophilus influenzae b induce respuesta bactericida notablemente
diferente en ciertos grupos niños de poblaciones hispano-amerindias, en comparación con
"norteamericanos" (9) . La erradicación de Salmonella typhi en portadores sanos adultos,
45

por medio de combinación de antibióticos, fue exitosa en un cierto grupo estudiado pero no
en portadores chilenos (10) . El Cloramfenicol es considerado peligroso en Estados Unidos
por el riesgo de depresión medular grave. La experiencia en Chile no registra casos
semejantes en la larga historia de su uso masivo, debido a la fiebre tifoidea y al mal uso de
antibióticos. Todo esto no es un fenómeno misterioso; aunque no haya explicación
conocida en algunos casos, finalmente se llega a comprender cuál es la razón de tales
diferencias. Pero que existen, ¡existen!.

B.7. Reporte de todos los resultados o eventos clínicamente importantes (Riesgo de


efectos adversos o (Daño).

En la segunda edición del "Epidemiología Clínica: Una Ciencia Básica para la Práctica
Clínica", (11) los autores introducen abiertamente y de modo muy bien fundado, la idea

45Para los lectores no familiarizados con el tema: En la Tabla 4, p.770 de este artículo, puede verse que
sobre el 90% de los lactantes de 4 meses han respondido con títulos ≥ 0,15 µg/ml a la segunda dosis de
vacuna anti H.influenzae tipo b. Esta forma de respuesta difiere substancialmente de la de lactantes
norteamericanos de la misma edad.

95
que toda terapia es potencialmente dañina, por lo cual el problema debe estar dirigido a
elegir la menos dañina.
Por lo anotado, es siempre importante inspeccionar los artículos sobre terapias o profilaxis
para identificar potenciales efectos adversos, más allá de lo que parece ser la meta central:
resolver un problema con determinada intervención.
Un ejemplo ya clásico en esta materia es el estudio dirigido a controlar los niveles de
colesterol por medio del clofibrate (12) . Los resultados más relevantes de este estudio a
parecen en la Tabla 4.2.

Tabla 4.2.

Placebo Clofibrate
Cambio promedio del colesterol sérico +1 -9
Infartos miocárdico no fatales x 1000 7,2 5,8
Infartos fatales y no fatales x 1000 8,9 7,4
Muertes totales x 1000 5,2 6,2

Puede observarse que están asociados a la administración de clofibrate la baja del colesterol
sérico promedio, la disminución de los infartos tanto fatales como no fatales, pero también
el riesgo de morir.
En la actualidad existe controversia si el reducir inesperadamente la ingestión de lípidos
aumenta las causas no cardiovasculares de muerte. La quimioterapia en cáncer alarga la
vida pero diminuye drásticamente su calidad. En estos casos, lo que parece un éxito
técnico, puede no serlo para el paciente en particular.

La importancia que tiene el reporte de todos los eventos de interés clínico –en los artículos
sobre terapia y otros- reside en ofrecer al lector la posibilidad de detectar, exactamente, si
el artículo ofrece o no la solución a la pregunta o problema clínico suscitado por la
condición de un paciente. Por un lado está lo que hemos visto, la posibilidad de daño
asociado al efecto terapéutico.
Además de lo anterior existe lo que se ha llamado “juego de sustitución”, que consiste en
que el resultado clínico (el que nos interesa) es sustituido por un factor de riesgo asociado.
El caso recién mencionado, la mejoría estimada en disminución del colesterol, ha sustituido
el evento clínico de interés: la disminución de los accidentes coronarios (12). En esta
instancia, el nivel de colesterol es una “variable sustituta” respecto a los accidentes
coronarios. Se define como variable sustituta una variable de laboratorio o signo que es
usado como un objetivo o resultado clínico significativo que mide directamente cómo se
siente el paciente, cómo funciona o cómo sobrevive (13). El riesgo de que ocurra este sesgo
es alto en artículos que, por su título y su contenido, prometen al clínico una excelente
información para su práctica, como es el caso de aquellos en los que, además de un efecto
como el que espera el clínico (mejoría, disminución de secuelas o complicaciones, baja de
la letalidad, etc.), los autores abundan en datos sobre variables fisiológicas, lo que confiere
al estudio una aparente mayor fortaleza porque está incluido un fuerte componente
“fisiopatológico”. En realidad, en las fases 2 y 3 en la evaluación de una terapia o droga el
uso de estas variables sustitutas es indispensable para el esclarecimiento sobre las presuntas
acciones beneficiosas de una droga. Sin embargo, la aceptación de tal efecto favorable,
basada en la mejoría de una variable sustituta, puede ser azarosa ya que, finalmente, el
resultado puede ser bueno o dañino. Por ello, los trabajos que estudian drogas sobre la base

96
de la medición de cambios en variables sustitutas requieren nuevos ensayos que entreguen
claras mejorías clínicas, además de cambios en variables fisiológicas. Un ejemplo común
en Infectología es la caída de la fiebre para evaluar la acción de un antibacteriano. La caída
de la fiebre –que correlaciona generalmente con la muerte del agente causal- no garantiza
necesariamente la eliminación de éste de los tejidos ni es prueba de ello. (La extrapolación
inversa es muy común: si la fiebre cae luego de administrar antibióticos, es porque se
destruyó un presunto agente causal, lo cual no está basado en evidencia suficiente). En el
artículo de la referencia 3, sobre las ventajas de la epinefrina racémica sobre el salbutamol,
Tabla de página 148, se dan 9 variables fisiológicas asociadas a la función respiratoria de
las cuales 2 favorecen significativamente (p<0,001) a la epinefrina racémica como terapia
efectiva. Estas mediciones y sus resultados no reemplazan al efecto clínico mejor:
NNT=3,4 (IC 95% = 1,8 a 36, 8, no calculado en el texto). Ver Apéndice 4

Un último e importante aspecto sobre terapia, dice relación con aspectos de su factibilidad
real, a veces asociada a los riesgos que involucra. Farah RA et al. (14) proponen que la
esplenectomía laparoscópica y la convencional (abierta) son equivalentes, aunque hay
algunas diferencias, inclusive, a favor de la primera. Sin embargo, por ser el estudio de
carácter retrospectivo, los pacientes de los grupos no fueron distribuidos al azar, lo que
permite suponer que hay riesgo de selección de pacientes. Pero esto no es todo. Estudios
sobre los riesgos de la cirugía laparoscópica en adultos (específicamente, la cirugía
laparoscópica biliar), muestran que hay una curva de aprendizaje de la técnica que muestra
que el 90% de los accidentes atribuibles al procedimiento, se producen en las 20 primeras
intervenciones monitoreadas hechas por cirujanos que no las habían hecho antes (15) .
Antes de adoptar el método laparoscópico, se requiere una práctica que no está mencionada
en el artículo que la compara con la esplenectomía convencional, asunto que debe tener en
cuenta el lector.

Significación de los datos entregados por ensayos controlados.

Es indispensable tener en cuenta los siguientes aspectos sobre los ensayos controlados.
(Aún cuando son el non plus ultra del diseño proveedor de las mejores evidencias, éstas no
son suficientes).
Primero, que el valor de "p" asociado a la diferencia entre las dos proporciones, o del
riesgo relativo, etc, con todo lo importante que es, sólo indica que los dos grupos (es decir,
tratados con la intervención estándar y tratados con la intervención alternativa o nueva)
difieren entre sí significativamente (corresponden a universos diferentes). El p<0,05 indica,
pues, que los dos grupos son estadísticamente diferentes a nivel significativo. Es la
significación estadística.
Segundo: Ello, sin embargo, no implica que la diferencia entre los dos grupos, por
estadísticamente significativa que sea, garantiza la significación clínica. Como el valor de
"p" depende, en gran medida, del número de sujetos en los grupos (mientras mayor, menor
el valor de "p"), una diferencia clínica insignificante, sin valor clínico, puede asociarse a un
valor de "p" estadísticamente significativo. El lector debe estar atento a la significación
clínica de la diferencia entre tratamientos y no sólo a la significación estadística.

Los datos provenientes de estos estudios deben ser muy cuidadosamente analizados
metodológicamente (a veces los antecedentes necesarios para ello faltan en la publicación).
No por provenir de un ensayo controlado, aleatorio y ciego, los datos resultantes son

97
intrínsecamente válidos o de validez homogénea, cuando versan sobre un mismo asunto.
Esta advertencia se justifica por las razones que se mencionan a continuación.

a). En la elaboración de meta-análisis, la calidad de los datos es crítica para la


interpretación o aceptación de los resultados. Un análisis a fondo de este tipo de síntesis
aconseja limitarlo sólo a casos muy seleccionados, so riesgo de llegar a conclusiones
erróneas (16).
b). Las condiciones en que se llevan a cabo los ensayos controlados bien hechos son las
“ideales”, equivalen, casi, a un experimento hecho en un laboratorio. En la práctica, sin
embargo, las condiciones experimentales tienden a perderse, por lo que los resultados que
se obtienen, esperados a partir de las conclusiones de un ensayo controlado (o meta-
análisis), son tanto más variables cuanto las condiciones de aplicación de tales datos se
alejen de las del experimento. Puede encontrarse una interesante discusión de este asunto
en la publicación de Clemens J et. al. sobre la evaluación de nuevas vacunas en los países
en desarrollo (17): los resultados pueden ser desalentadores porque las condiciones de
conservación de la vacuna, factores críticos en la administración, etc., no son cuidados
como lo fueron durante el ensayo formal primario. De este análisis puede entenderse con
claridad los conceptos epidemiológicos “eficacia” (comportamiento en condiciones ideales)
y eficiencia (comportamiento en la práctica diaria). Estos conceptos son aplicables a
diversos aspecto de la tecnología al servicio de la atención en salud (18).
c). La “traducción” de la información proporcionada por este tipo de literatura a la práctica
clínica diaria, requiere no sólo de la capacidad de hacer meta-análisis ni está garantizada
por los resultados que se publican de éstos (salvo excepciones), sino de la capacidad de
cada médico de hacer un estudio válido de los artículos primarios y aplicar los resultados a
sus pacientes (19, 20). De aquí nacerá el “ajuste” para la decisión sobre tratar o no a cierto
paciente, según el nivel de riesgo propio que le corresponde.
El lector podrá encontrar una excelente y completa guía para analizar los ensayos clínicos
controlados en Clarke M, Oxman AD, editors. “Assessment of study quality” Cochrane
Reviewer’s Handbook 4.2.0 [Update March 2003]. Section 6. In The Cochrane Library,
Issue 2, 2003, Oxford: Update Software. Updated quarterly.

EVIDENCIAS, ESTADISTICA Y ASPECTOS DE ETICA MEDICA.

Asistimos al florecimiento de la “bioética”, que se hace sinónimo de “ética médica” (quizás


hubiera que agregar “clínica”). No hay lugar institucional que se precie, que no tenga un
“comité de ética”. Nuestra experiencia, tanto en el terreno de la práctica médica clínica,
como en grupos de revisión de proyectos, es que tales comités se centran en asuntos
puntuales referidos a ciertos pacientes casi anecdóticos, pero descuidan aspectos tan
importantes como los que son el contexto del paciente como ser humano que no sean los
derivados directamente de su enfermedad.
Uno de estos aspectos es el relacionado con la investigación clínica. Pareciera que es
suficiente contar con un presunto “consentimiento informado” del candidato a ser objeto de
un experimento y con el expediente que da cuenta de la certificación de aprobación del
protocolo de investigación por comités de ética diversos.
Con mucha frecuencia encontramos ensayos clínicos controlados que no han cumplido con
los estándares de la declaración CONSORT (21), particularmente en algunos aspectos que
tienen que ver con la evidencia, bioestadística y asuntos éticos medico-clínicos.

98
1). Observemos, primero, que hay estudios de este tipo con y sin hipótesis. Entre estos
últimos, pareciera que la hipótesis está implícita por el tipo de intervención efectuada, por
el tipo de sujetos incluidos en ambos grupos y por el método estadístico usado para probar
el nivel de significación de las diferencias.
2). También observemos que hay dos tipos de ensayos clínicos controlados: unos que sólo
concluyen que hay una diferencia entre el efecto de la nueva intervención (generalmente a
favor de ella) y el de la situación previa, mientras otros (los más aceptables porque tienen
implicación clínica directa), usan una medida de asociación o expresan sus resultados
permitiendo extraerla del texto. Los primeros, generalmente, llegan sólo a mostrar una
diferencia significativa global entre ambos grupos en comparación. Típicamente, los
resultados son expresados en valores de “p” resultantes de comparar promedios, áreas,
coeficientes de correlación y otros estadígrafos que no son medidas de asociación de
utilidad clínica real. Los segundos, que expresan sus resultados en proporciones, RR u OR,
permiten observar diferencias de proporciones, o bien de riesgo; lo cual permite, por
ejemplo, calcular NNTs.

Iniciemos el análisis por el grupo de estudios mencionados en 1. La presencia de una


hipótesis, si está explícita, implica más que suponer que A tendrá un mejor efecto que B.
En efecto. Supuesto que la fundamentación del ensayo (experimento en humanos) es
atendible y no descabellada, es indispensable la formulación de una hipótesis a priori o
prospectiva (22). Ello implica que se ha establecido una diferencia hipotética entre ambas
intervenciones, que debe ser expresada numéricamente como magnitud del resultado, lo
que implica entregar una medida (cifra) del efecto estándar (esperable en el grupo control).
Estipulando una diferencia (numérica) razonable, resulta automáticamente la medida del
efecto de la nueva intervención. Por ejemplo: si cierta terapia en uso (estándar) tiene una
magnitud de 20%, la estipulación de una diferencia esperada de 10% más, implica que la
nueva terapia en etapa de experimentación tendrá una magnitud del 30% (20+10). Sólo así
se podrá calcular un número suficiente de individuos en ambos grupos, que prevea los
errores tipo I (habitualmente 0,05 bilateral; ver más adelante) y tipo II (habitualmente 0,80,
siempre unilateral). ¡Cuidado!: una mejoría de un 10% mayor que la estándar de 20%, es
22% (que es el 20% + su 10%= 20+2). En el ejemplo se estipuló un 10% más que la
estándar 20% = 30%. ¡Cuidado cuando lea!.
Como se trata de una hipótesis a priori, no puede haber seguridad de tal diferencia. Es más,
resulta posible que el efecto de la nueva terapia sea inferior a la estándar, asunto de una
obvia mayor importancia. Por esta razón, para el cálculo del tamaño muestral se estipula,
generalmente, un nivel de error tipo I de 0,05 (5%), bilateral. La unilateralidad sólo se
46

justifica cuando no cabe duda alguna que la intervención que se comparará con la estándar
no puede ser peor que ésta (o, su efecto no puede ser menor). Como se mostrará en un
ejemplo más adelante, esto ocurre en la literatura, inclusive en la llamada “de impacto”. El
revisor avisado (análisis de literatura, estudio de proyectos), debe estar al tanto de estas
condiciones, porque uno de los errores éticos importantes deriva de aquí: no se puede
proponer un experimento en humanos que consista en probar que dos tratamientos difieren,
sobre la base que, el nuevo o experimental, hará menos efecto beneficioso que el estándar.

46Este no es un problema menor. El valor del coeficiente Z en la curva normal, correspondiente a 0,05
unilateral es 1,65, mientra el de 0,05 bilateral (que corresponde 0,025) es de 1,96. Esta diferencia de valores
de sólo 0,31, puede determinar importantes aumentos del tamaño muestral al aplicar las fórmulas
correspondientes.

99
Los comités de ética debieran estar al tanto de estos conceptos al momento de analizar un
proyecto, sobre todo si es “intervencionista”.
Más sutil que la falta de mención de una hipótesis formal, en los términos anotados, es la
mención a posteriori (una vez conocidos los resultados) de una supuesta hipótesis. Tal error
es, a todas luces, reñido con la ética en general.
Del mismo modo, los errores subsanables (errores por ignorancia) respecto a las pruebas de
significación adecuadas, implican fallas éticas, desde el momento en que se expone el
resultado a error sistemático (o, menos elegantemente, a resultados inválidos). Por ello
cuando, a una diferencia de “scores” o puntajes (variable categórica), se aplica la prueba t
de Student para variables continuas, se está incurriendo en falta a la ética médica porque
esta no es la prueba de significación estadística adecuada (p.ej. prueba de Mann-Whitney).
Respecto a los estudios mencionados en el párrafo 2, también deben tener hipótesis
explícitas “acotadas”, es decir, con mención del valor del efecto del tratamiento estándar y
la diferencia esperada con el nuevo tratamiento. Como los primeros tratamientos sólo
pretenden demostrar una diferencia estadísticamente significativa, es casi la regla que
carezcan de hipótesis formal completa. El problema de estudios sin hipótesis es que no
resulta posible prever el efecto de los errores tipo I y II y, por consiguiente, no poder
examinar ni el significado de los hallazgos ni su precisión.
En cualquier caso, es exigible una hipótesis formal acotada, a priori, con expresión de los
valores que dieron lugar al tamaño muestral.
Hay un tercer tipo de estudios, cuya relevancia ha aumentado últimamente: los estudios de
equivalencia clínica (23, 24). Estos estudios no sólo no están exentos de una hipótesis, sino
que ésta se complica al comprobar que, si el tratamiento A es igual al tratamiento B, el
número de pacientes necesarios para llevar a cabo la prueba de hipótesis es, por razones
matemáticas, infinito: N=∞. Este asunto requiere un tratamiento especialmente cuidadoso
(25,26) por los riesgos de invalidez que con lleva. (Ver Apéndice 7 y análisis de Krysan et
al) (27).
Valga la pena citar aquí a Ezequiel Emanuel: “La mala ciencia no es ética” (28).
En un reciente intercambio de preguntas con respuestas insuficientes, un autor no fue capaz
de presentar los datos (registros del estudio) exigidos ante sospecha de falta de credibilidad.
(29). Fue la oportunidad para que el editor jefe de una prestigiosa revista hiciera una
importante declaración: “El proceso científico abarca a) la conducción cuidadosa del
investigador, su equipo o ambos, en la adquisición de datos creíbles; b) la descripción de la
investigación en un manuscrito, con presentación de los datos e interpretaciones lógicas de
modo que colegas científicos puedan reproducir los datos; c) un sistema de revisión del
manuscrito por pares previo a su publicación; d) el escrutinio de los datos por los lectores,
después de la publicación del manuscrito; y e) la reproducibilidad independiente de los
datos sobre la base de los métodos informados en el artículo (manuscrito publicado), en el
largo plazo”.(30)
Los estudios que involucran la salud de las personas o su privacidad, si no se publican (en
revistas que permitan la revisión por pares o la comunidad científica) dejan de ser
científicos. (31)

100
BIBLIOGRAFIA:

1) Lurie P, Wolfe SM “Unethical trials of interventions to reduce perinatal transmission of


the human immunodefficiency virus in developing countries”. NEJM 1997; 337:853-55.
2) Herrera P. Comentario de 1) en Rev.Chil. Infectol. 1997; 14: 59-61.
3) Salazar-Lindo E, Santisteban-Ponce J, Chea-Woo E, Gutierrez M “Rececadotril in the
treatment of acute watery diarrhea in children” N.Engl.Med.J. 2000; 343:463-67.
4) Sanchez I, Koster JD, Powell RE, Walstein R, Chernick V “Effect of racemic
epinephrine and salbutamol on clinical score and pulmonary mechanisms in infants with
bronquiolitis”J.Pediatr. 1993; 122:145-51.
5) Newburger JW, Takahashi M, Burns JC, Beiser AS, Kyung JC, Duffy CE et al. “The
treatment of Kawasaki Disease with intravenous gamma globulin”. NEJM 1986;315:341-7
6) Kato M, Sugimura T, Akayi T, Sato N, Nashino K, Maeno Y et al “Long ter
consequences of Kawasaki Disease: A 10 to 21 year follow-up study of 594 patients”.
Circulation 1996; 94:1379-1385.
7).Durongpisitkul ,Gururaj VJ, Martin CF “The prevention of coronary artery aneurisms in
Kawasaki disease: A meta-analysis on the efficacy of aspirin and immuno globulin
treatment”.. Pediatrics 1995; 96:1057-61.
8) Levine MM, Ferreccio C, Black RE, Germanier R, and the Chilean Typhoid
Commission “Large -scale field trial of Ty21a oral vaccine in enteric-coated capsule
formulation”. Lancet 1:1049-54.
9) Ferreccio C, Clemens J, Avendano A, Hoewitz I, Flores C, Avila L et al. “The clinical
and immunological response of chilean infants to Haemophilus influenzae type b
polysaccharide- tetanus protein conjugate vaccine coadministered in the same syringe with
diphteria-tetanus toxoids-pertussis vaccine at two, four and six months of age”. PIDJ
1991;10:764-71.
10) Lanata C. en Edelman R, Levine MM “Summary of an international workshop on
typhoid fever”. Rev.Infect.Dis. 1986; 8:329-94.
11) Sackett DL, Haynes RB, Guyatt GH, Tugwell P. "Clinical Epidemiology: A Basic
Cience for Clinical Practice". Little Brown & Co. Boston, 2nd.Ed.1991.
12) Oliver MF et al. Lancet 1980; 2:379, citado por Sacket et al en "Clinical
Epidemiology", Little Brown & Co.Boston, 1985
13) Bucher HC, Guyatt GH, Cook DJ, Holbrook A, McAlister FA, “User´s guide to the
medical literature. XIX How to use an article measuring the effect of an intervention on
surrogate end points”. JAMA1999; 282:771-78.
14) Farah RA, Rogers ZR, Thompson WR, Hicks BA, Guzzetta PC, Buchanan GR
“Comparison of laparoscopic and open splenectomy in children with hematological
disorders”. J.Pediatr.1997; 131:41-6.
15) Moore MJ, Bennett CL “The learning curve for laparoscopic cholecystectomy”.
Am.J.Surg. 19995; 170:55-9.
16) Bailar J. “The practice of meta-analysis”. J.Clin.Epidemiol. 1995; 48:149-57.
17) Clemens J, Brenner R, Rao M, Tafari N, Lowe C. “Evaluationg new vaccines for
developing countries”. JAMA 1996; 275:390-97.
18) Peery S, Tammer M “Medical innovation and the critical role of health assessment”
JAMA 1999; 282:1869-74.
19) Cook DJ, Mulrow CD, Haynes RB “Systematic reviews: Synthesis of best evidence for
clinical decisions”. Ann.Intern.Med. 1997; 126:376-380.

101
20) McQuay HJ, Moore A “Using numerical results from systematic reviews in clinical
practice”. Ann.Intern.Med. 1997; 126:712-720.
21) Begg C, Cho M, Esatwood S, Horton R, Moher D, Olkin Iet al “Improving the quality
of reporting of randomized controlled trials”. JAMA 1996; 276:637-639.
22) Herrera P. “Hipótesis explícita y su importancia en investigación clínica: Una evidencia
empírica”. Rev.Med.Chile 2003; 131: 697-699.
23) Saez-Llorens X, McCracken GH “Antimicrobial and antiinflammatory treatment of
bacterial meningitis” Infect.Dis North Am 1999; 13:619-36.
24) Hoberman AH, Wald ER, Hickey RW, Baskin M, Charron M, Majd M et al. “Oral
versus initial intravenous therapy for urinary tract infections in young febrile children”.
Pediatrics 1999; 104: 79-86.
25) Greene WL, Concato J, Feinsten AR “Claims of equivalence in medical research: Are
they supported by the evidence?” Ann.Intern.Med. 2000; 132:715-722.
26) Jones B “Trials to assess equivalence: The importance of rigorous methods”. BMJ
1996; 313:36-39.
(27) Krysan DJ, Kemper AR “Claims of equivalence in randomized controlled trials of the
treatment of bacterial meningitis in children” PIDJ 2002; 21:753-7
28) Ezequiel Emanuel “¿Qué hace que la investigación clínica sea ética?” en Pellegrini FA,
Macklin R “Investigación en sujetos humanos: Experiencia internacional”. OMS-OPS
Programa Regional de Bioética. Serie 1999 USA, 1999.
30) White C “Three journals raise doubts on validity of Canadian studies”. BMJ 2004;
328:67.
31) Meguid MM “Validity of Canadian studies”. BMJ 2004; 328:465.
30) Bunge M. “Causality and modern science” 3a Ed. Rev. Dover, NY, 1979.

102
CUESTIONARIO N 4.

Especifique su pregunta:

Análisis de un artículo sobre terapia.

Cita:

GUIAS DE SELECCIÓN (Criterios de validez):

a.¿Hay una hipótesis explícita?. ¿Es de superioridad o de equivalencia?)


b.¿Fue la asignación de pacientes al tratamiento al azar?
c.¿Fueron todos los pacientes adecuadamente caracterizados y correctamente
tomados en cuenta para las conclusiones?
d. ¿Fue completo el seguimiento?
e.¿Fueron analizados los pacientes de acuerdo al grupo al que ingresaron cuando se
distribuyeron al azar?

f) ¿Fueron los pacientes,los del equipo de salud y el personal del estudio ciegos al
tratamiento?
g) ¿Fueron los dos grupos similares al comienzo del estudio?
h) ¿ Aparte de la intervención experimental, fueron los dos grupos tratados igualmente?
i)¿Cómo está expresado el efecto de la intervención?
j) ¿Cuán precisa es la estimación del efecto?
k)¿Fueron considerados todas los resultados o eventos clínicamente importantes?
l)¿Se tomó en cuenta la significación clínica, además de la significación bioestadística?.
m)¿Son mayores los beneficios de la terapia que el potencial efecto nocivo o el costo?
n) ¿Me sirven los resultados para mis pacientes?

Comentario:

103
SECCION 5.

SINTESIS DE INFORMACION: REVISIONES CLINICAS Y META-ANALISIS.

La gran cantidad de información sobre temas específicos, la subespecialización, y el


tradicional atraso en la llegada de información fresca a nuestras bibliotecas, hacen a los
médicos latinoamericanos particularmente susceptibles a la aceptación de síntesis
informativas que no dan garantías de validez ni aportan los elementos que, como hemos
visto en los capítulos precedentes, permitan decidir en qué medida es posible aplicar la
información recibida a sus pacientes con expectativas de beneficios reales y reducción de
los riesgos de efectos adversos.
Las síntesis informativas actualizadas se pueden dividir arbitrariamente en dos tipos:
La que ha sido la más común, la llamada "puesta al día" o "revisión clínica" (usando
términos de nuestro lenguaje común) y el meta-análisis, con el cual la primera tiene
algunas diferencias que se van haciendo cada vez más convencionales que reales, por
razones que esbozaremos a continuación.
La “puesta al día”, en una variedad de formas, suele ser una revisión más o menos
exhaustiva de un tema, en estilo narrativo, cuya variedad de aspectos (a veces muchos), y
niveles de complicación quedan al arbitrio del autor. Es común que, en cierto modo en
forma independiente de la solvencia técnica del autor, se haga una revisión con lo más
reciente o más novedoso de un tema (con "la última palabra").
Lo característico de este tipo de artículos es el intentar dar cuenta de los conceptos válidos
vigentes sobre un innumerable cantidad de aspectos de una enfermedad o problema, p.ej.,
etiología, epidemiología, etiopatogenia, diagnóstico, evolución, pronóstico y, algunas
veces, normas de proceder en uno o varios de los puntos abordados. Pese a los subtítulos de
estas actualizaciones, el autor no sale del estilo narrativo y no hay noticia de qué manera
obtuvo la información, cómo la seleccionó, con qué finalidad lo hizo, qué método usó, etc.
En suma, la revisión termina siendo una exposición que el lector considera, habitualmente,
que cerró cualquier discusión sobre el tema. Es el modo “magistral” o “autoritario” clásico.

En 1982, la Dra Mulrow (1) examinó el panorama de las revisiones clínicas en su medio
(Annals of Internal Medicine, JAMA, New England Journal of Medicine) durante el
período 1985-86, encontró el siguiente panorama (Tabla 5.1.):

104
Tabla 5.1.

Medición de los métodos usados en 50 revisiones clínicas recientes (Junio de 1985 a Junio
de 86).

Especificados Dudosos No especificados


Propósito 40 1 9
Identificación de
los datos 1 2 47
Selección de los
datos 1 0 49
Medición de
validez 1 1 48
Síntesis
cualitativa 43 0 7
Síntesis
cuantitativa 3 1 46
Resumen 37 12 1
Proposiciones a
futuro 21 4 25

Posteriormente en su artículo, la autora presenta un bosquejo de guía de construcción (y


análisis) de este tipo de trabajo clínico, con el fin de mejorar la calidad de éstos.
Nota: numerosos autores hablan de revisiones clínicas y meta-análisis como si fueran
sinónimos. Pensamos que no son sinónimos. Es posible hacer revisiones clínicas cuyos
artículos no sean “meta-analizables” porque los diseños no son, necesariamente,
homogéneamente ensayos clínicos controlados.

Propósito.

La estipulación de propósitos al comienzo del texto permite al lector saber cómo calza lo
que vendrá con su interés específico y, por consiguiente, decidir si vale o no la pena
continuar la lectura. Del mismo modo, permite examinar el método de selección de la
bibliografía mencionada. Por ejemplo, si se trata de terapia, la síntesis presentada en la
revisión debería usar, como criterio de inclusión, sólo ensayos controlados. Podría hacerse
de otra manera, pero ya sabemos a qué atenernos si así se ha hecho: lo descartaríamos. Del
mismo modo, ya sabemos qué requisitos tendrían que tener las revisiones sobre
diagnóstico, pronóstico o etiología. (De paso, podemos calcular cuál es la confiabilidad de
una revisión que aborda todos los temas de interés de una enfermedad).

Identificación y selección de los datos.

Existiendo la variedad y alcance de los medios actuales de acceso a la información para


enfrentar la inmensidad de ésta y su heterogeneidad en términos de resultados no
concluyentes e, inclusive, contradictorios, el saber cómo se hizo la búsqueda del material
(lo que da una idea de cuán completa fue la revisión) y cuáles fueron los requisitos
establecidos para incluir los datos sobre los cuales se hará después una síntesis es

105
indispensable. Del mismo modo, el criterio de selección permitirá hacerse una idea del
requisito siguiente.
Evaluación de la validez.

En el curso de este texto hemos ido conociendo cuáles requisitos deben cumplir y, en
alguna medida, cuáles son los riesgos que pueden afectar lo apropiado de los métodos, la
validez de los datos o las conclusiones. En los artículos de revisión clínica, debe usarse el
análisis sistemático cualitativo que hemos aprendido a hacer y sabremos qué exigir en este
sentido a los autores de la "puesta al día". Cuando no se hace así, la calidad de los datos
incluidos queda sujeta a objeciones. (Ver Sección 4: Sobre terapia).

Síntesis de datos.

El autor de la la puesta al día, al igual que nosotros, encontrará en su revisión datos


contradictorios e incompletos. La revisión no tiene gran sentido si, aún completa, no
intenta dilucidar las inconsistencias o contradicciones entre los datos hallados. La síntesis
de datos puede ser cualitativa o cuantitativa. La primera puede contrastar la evidencia
metodológicamente mejor lograda con la que resulta menos sólida en este sentido, para
terminar planteando una duda o proponiendo alguna forma de resolver el problema que
suscitó la decisión de hacer la revisión (propósito). La síntesis cuantitativa de los datos
constituye una forma más compleja de revisión, que se aborda más adelante.

Resumen y proposiciones.

El objetivo de las revisiones clínicas es identificar problemas no resueltos y analizar el por


qué. Este objetivo, una vez hecha la revisión, debe resumirse con claridad subrayando qué
queda por hacer y cómo podría hacerse. Al decir de la Dra.Mulrow, se trata de "sugerir al
diseñador del centésimo trabajo, qué se aprendió de los otros 99". No es la “enésima”
repetición de un capítulo o tema sobre asuntos ya conocidos.
Este objetivo difiere de los del meta-análisis de un modo que va desde lo sutil hasta lo más
grueso. El objetivo del meta-análisis es "sumar" un conjunto de información seleccionada
sistemáticamente para a) aumentar el tamaño muestral y así resolver los problemas de
estudios no concluyentes o contradictorios, sobre un mismo o mayor riesgo de resultados
adversos al exponerse a la terapia que se está estudiando por medio este diseño, b) probar
nuevas hipótesis, no planteadas por los autores de los trabajos que son partes del resultado
del meta-análisis y c) identificar subgrupos en los cuales la terapia puede tener efectos
diferentes.
El requisito para realizar meta-análisis es la máxima comparabilidad de los métodos
seguidos en los estudios y comparabilidad de las poblaciones estudiadas, sin lo cual no se
podría proceder a la "suma" de datos. Esta restricción, que limita el objetivo del meta-
análisis lo convierte en una verdadera revisión clínica pero con objetivos, método y análisis
lo suficientemente específicos como para no confundirlo con una revisión clínica
propiamente tal, aún cuando cumpla los requisitos de Mulrow (porque no son exhaustivos
para el meta-análisis). Las exigencias de eficacia en el procesamiento de información, sin
embargo, hace prever que la revisión clínica tenderá a ser cada vez más "métrica", más
parecida al meta-análisis que al comentario editorial. Sin embargo, sobre todo en nuestro
ámbito latinoamericano, queda un trecho previsiblemente largo durante el cual deberán

106
mejorar las revisiones clínicas, antes de adentrarnos en el meta-análisis, por razones que
analizaremos más adelante.

Meta-análisis:

Como se ha dicho, el meta-análisis es un diseño de investigación que busca resolver sobre


un asunto respecto al cual hay resultados contradictorios o insuficientes y es, en realidad,
la continuación de la proposición de la Dra.Mulrow. (El autor de este Manual ha
desarrollado reparos respecto al meta análisis. Las razones quedan postergadas para el final
de esta sección). El meta-análisis no es un simple ejercicio más o menos complicado desde
el punto de vista matemático: es imprescindible tener en cuenta que el material que usa es
clínico epidemiológico y sus objetivos son clínicos. Los objetivos del meta-análisis son:
a) Aumentar el poder estadístico, ya que la suma de trabajos conducirán a un tamaño
muestral mayor que cada uno de ellos por separado. b) Resolver la incertidumbre cuando
los estudios no concuerdan en cuanto a sus resultados individuales. c) Mejorar la
estimación de el tamaño del efecto y d) Examinar hipótesis no planteadas en los estudios
(p.ej. la existencia de efectos adversos). La pregunta (que involucra una hipótesis) que
plantea el problema clínico específico, en general sobre terapia, usa el material de estudios
previos inconcluyentes, dirigidos a resolver la misma pregunta. Por ejemplo: ¿Disminuye
la dexametasona el riesgo de secuelas neurológicas en niños con meningitis bacteriana
aguda?.¿Reduce el tratamiento de ácido acetil-salicíclico + inmunoglobulina endovenosa el
riesgo de aneurismas coronarios en niños con sindrome de Kawasaki?.
Hay una variedad de supuestos que enmarcan el diseño meta-analítico:
a) Hay un número suficiente de estudios sobre cierto tema (típicamente terapéutico:
ensayos controlados), pero no se llega a una respuesta confiable respecto a la pregunta que
pretenden responder.
b) Del universo de estudios hechos, hay un número de ellos publicados y otro no
publicado47: el meta-análisis "en pleno" incluye ambos grupos, es decir, todos los trabajos
existentes. (Generalmente se excluyen los en idioma castellano. No en forma intencional,
tal vez, sólo de hecho).
c) La suma de todos los estudios debería proporcionar, para el análisis, un universo
significativamente más grande que el de cada uno de los estudios que se incluyen.
d) El proceso de "suma" tiene -a vuelo de pájaro- dos características: la primera, que
"suma" grupos que son “sumables” (hipotéticamente, del mismo universo) y la segunda,
que el aporte a la medición del efecto de interés, de cada uno de los grupos estudiados, será
ponderado, es decir, proporcional al tamaño de la correspondiente muestra.

47 Muchos artículos no son publicados por diversas razones, pese a su corrección metodológica, por una
tendencia universal a no publicar resultados "negativos" o no concluyentes del todo. Los autore suelen no
enviarlos a revistas y los comités editoriales tienden a no publicarlos.

107
e) Al reunir una población considerablemente grande, de la cual se conocen numerosas
características y desenlaces, se podrá examinar otras hipótesis no exploradas por los autores
de los estudios parciales.
f) En la mayoría de los casos, se usa el método del “efecto fijo”, que implica aceptar que el
efecto del factor (terapia, en este caso) será siempre el mismo (aunque no su magnitud,
desde luego) en todos los grupos.48
Los requisitos que debe cumplir un meta-análisis pueden enumerarse de la siguiente
manera:
Debe haber una pregunta clínica precisa.
Debe haber un criterio de inclusión explícito y adecuado al objetivo.
La revisión debe incluir el máximo posible de los estudios sobre el tema.
Cada uno de los artículos finalmente incorporados al estudio debe haber sido
sometido a un análisis sistemático explícito, de validez.
La evaluación de los estudios incluidos debe ser reproducible.
Debe existir un grado suficiente de homogeneidad de los resultados de los estudios.
Una vez decidido sobre estos aspectos, cabe analizar:
Cuáles son los resultados.
Cuán precisos son éstos.
Cuán aplicable a los propios pacientes son los resultados.
Si están descritos todos los resultados de importancia clínica
Si los beneficios que ofrece el aplicar el resultado excede sus perjuicios.

Análisis bioestadísticos.
Uno de los mayores problemas que plantea el meta-análisis a los médicos clínicos es la
complejidad de los métodos de análisis bioestadístico (la sola denominación de las
variantes del método son aterradoras: "meta-análisis bayesiano", "modelo de Der Simonian
para efecto aleatorio"). Por de pronto, el método para "sumar" poblaciones o grupos en los
que se estudió el efecto de una intervención (p.ej., una droga) expresa sus resultados por
medio del conocido odds ratio (OR) porque el estudio es retrospectivo, de datos ya
analizados.49. Además, es el modelo matemático que mejor sirve el propósito de manipular
datos y obtener estimaciones confiables.
Sin pretender sobresimplificar el tema, intentaremos explicar cuál es el racional del
procedimiento. Haremos primero el recorrido al revés, porque nos parece intuitivamente
más “deglutible”.
Supongamos que hemos hecho un estudio controlado retrospectivo (caso-control) sobre
causalidad, en términos de factores que influyen sobre un evento, y que los resultados
pueden expresarse de la siguiente manera:
48 Este supuesto es operacional, ya que es teóricamente imposible asegurar que así sea. La relación causa-
efecto (terapia-respuesta) depende de muchos factores que pueden variar de un grupo experimental a otro.
Los métodos de manejo estadístico de los datos, además del examen metodológico, buscan asegurar, hasta
donde es razonable, esta presunta homogeneidad. En este sentido se podría postular que los estudios
terapéuticos multicéntricos, que generalmente se presentan y analizan como una sola muestra (p.ej.,
inmunoglobulina endovenosa en Kawasaki, etc.), representan, en realidad, la suma de un cierto número de
muestras de universos no necesariamente idénticos. Si la manipulación de datos en meta-análisis con el
objeto de reunir en una sola todas las muestras de los diferentes estudios requiere el análisis que usa las
estadísticas del estudio controlado retrospectivo (OR), no se ve una razón muy clara para no aplicar el
mismo criterio a los estudios multicéntricos (lo cual es opinión del autor).
49 Las razones son complejas. Diremos solamente que la estructura y distribución de este estadígrafo se
presta bien para manipulaciones como las del meta-análisis. Hay, sin embargo, quienes impugnan el OR en
favor del RR.

108
Tabla 5.2.

Casos Controles Total


Sí 30 54 84
Expuestos
No 53 200 253
Total 83 254 337

OR = 2,1, IC 95% = 1,18 a 3,72.

Supongamos ahora, que este grupo lo estudiamos dividido en dos, según algún criterio de
interés; por ejemplo, por procedencia: comuna A y comuna B:

Tabla 5.3.

Comuna A Comuna B
Casos Controles Total Casos Controles Total
Sí 15 26 41 15 28 43
Expuestos
No 30 95 125 23 105 128
Total 45 121 166 38 133 171
OR = 1,83; IC 95%= 0,8 a 4,2 OR = 2,45; IC 95% = 1,05 a 5,67.

El intervalo de confianza del 95% (IC 95%) muestra que en la comuna A, no hay
asociación estadísticamente significativa de los casos con la condición de estar expuestos,
mientras en la comuna B sí hay tal asociación.

Miremos este ejemplo al revés. Ignoremos la tabla única de arriba (5.2.) y supongamos
ahora que los estudios fueron hechos separadamente en las comunas A y B. Habría una
gran polémica sobre el efecto de la exposición en los vecinos: mientras los investigadores
de la comuna A lo minimizarían (porque el OR es débil, 1,8, y no significativo), los de la
comuna B alegarían lo contrario, a pesar que los de la comuna A criticarían el OR de la
comuna B porque el límite inferior está muy cerca de 1 (no hay asociación).
La solución a este dilema es técnica y no política: habría que hacer un meta-análisis, vale
decir, "sumar" ambas experiencias, siempre que no sean muy diferentes, por ejemplo, en el
nivel de exposición u otros factores subyacentes a los resultados obtenidos. (Para ponerlo
en forma más explícita: que, entre los grupos, no haya grandes diferencias de edad, de
proporción varones:mujeres, de nivel socioeconómico, etc.). Resueltos estos aspectos,
queremos saber (suponiendo que las poblaciones son comparables) queremos controlar el
papel que pueda haber desempeñado el azar sobre la diferencia de eventos entre ambos
grupos. En otras palabras, asegurarnos de que podemos (o no) “sumar” estos dos conjuntos
de datos.
La forma de averiguarlo contempla saber si la diferencia entre la asociación observada en
la comuna A y en la comuna B es o no estadísticamente significativa (como podría serlo si
en una, el OR fuera menor que 1 (OR = 0,2) y en la otra mucho mayor que 1 (OR = 5).
Esta operación se hace por medio de las pruebas de homogeneidad, que prueban la
hipótesis que ambos ORs son iguales: si el valor del Chi2 de homogeneidad corresponde a

109
un nivel de significación menor que 0,05, se debe ser muy cauteloso en interpretar la
"suma", ya que desde este nivel hacia abajo, va aumentando la probabilidad de que ambos
grupos no pertenezcan al mismo universo.

En el ejemplo, la prueba de homogeneidad (de Mantel Haenszel) mostrará que no hay


diferencias significativas entre ambos ORs. La suma resultará, entonces, ser igual a la
Tabla 1, en la que se puede apreciar que sí hay asociación, con un nivel de riesgo
intermedio, entre la exposición y la probabilidad de ser caso: OR = 2,1, IC 95% = 1,18 a
3,72.

El análisis puede hacerse según, por lo menos, dos supuestos: a) el efecto del tratamiento es
el mismo en todos los grupos o b) el efecto es azaroso (el efecto es producto del azar).
Hemos usado el primero para ejemplificar el método general.

SOBRE LOS REQUISITOS QUE DEBE CUMPLIR UN META-ANALISIS.

1) La pregunta que pretende responder el estudio.

Por la formulación del diseño y la historia de su desarrollo, el meta-análisis ha abarcado,


principalmente, temas de orden terapéutico, de modo que la pregunta más común es: ¿Sirve
o no tal o cual terapia para lograr tal efecto específico?, que podría ser más específica aún:
¿Cuál modalidad de cierta terapia es la mejor?. Más aún, la terapia en cuestión debe ser
claramente identificada y especificada, así como el efecto que se espera de ella. Desde este
punto de vista, no es aceptable la formulación del objetivo en términos tales como
“recolectar y evaluar todos los ensayos sobre eficacia clínica del tratamiento x”. (2) . La
declaración, en cambio, de qué se medirá para medir la eficacia de los estudios, en términos
de resultado principal como: “tasa de curación después de la aplicación del tratamiento” es
correcta (2). Cada vez es más claro que los resultados de este tipo de síntesis debe ser de
variables de carácter clínico y no meramente fisiopatológico o fisiológico. A la primera
categoría pertenecen las proporciones de pacientes que mejoran, que se hospitalizan, que
mueren, que no se complican, etc. A la segunda pertenecen la pO2, la frecuencia cardíaca,
etc., que son variables sustitutas de lo que nos interesa clínicamente.

110
2) Criterio de inclusión explícito y adecuado al objetivo.

El análisis cuantitativo, particularmente el que busca hacer una síntesis métrica de los
estudios, exige un cuidadoso criterio para el escrutinio de la literatura disponible que,
obviamente, debe estipular sobre qué bases se aceptará que un estudio cumple los
requisitos para ser incluido, en función del objetivo declarado. Para terapia, sólo son
aceptables los diseños controlados, aleatorios y doble ciegos. Los autores debe dar cuenta
de las especificaciones sobre el tipo de pacientes, exposición, el o los resultados de interés.
Los criterios de selección deben referirse a los criterios de validez que han sido revisados y
comentados en este texto para aplicar a cada artículo.
La exigencia de criterios explícitos de selección disminuye la probabilidad que los estudios
“sumados” estén sesgados de alguna manera en uno u otro sentido. Un ejemplo del riesgo
de sesgos es el meta-análisis de Pichichero et al. sobre eficacia de tratamientos de faringitis
por Streptococcus pyogenes (3) , comentado por Shulman (4). En este meta-análisis, que
compara la eficacia de cefalosporinas con la de penicilina en el tratamiento de la
faringoamigdalitis estreptocóccica, no se estipuló, en el criterio de selección de artículos,
información de los autores sobre cumplimiento de las prescripciones. Obviamente, en un
estudio sobre terapéutica, es éste un aspecto críticamente importante.

3) Extensión de la revisión.

La exigencia sobre la extensión de la revisión (cuán completa es) implica que la


probabilidad de omitir artículos importantes sobre el tema, quede reducida al mínimo. En
principio, debe estudiarse la inclusión de artículos publicados y no publicados,
almacenados estos últimos en archivos de editoriales de revistas o de los autores. Aunque
es fácil de comprender la importancia de esta exigencia, suscita diversos aspectos que
merecen comentarios. Lo primero es que la probabilidad de éxito del enorme esfuerzo para
lograr tal información, sólo existe para un reducido número de autores, generalmente “del
ambiente”, característicamente, angloparlante. Este rigor ha sido motivo de controversia
(5,6), pero la idea de la revisión exhaustiva prevalece. Si bien desde un punto de vista de la
metodología científica parece indiscutible, desde el mismo punto de vista llama la atención
el grado en que los meta-analistas ignoran todo lo que no haya sido escrito en inglés. La
importancia de este contrasentido no es menor: es posible que los resultados de ciertos
meta-análisis no aporten información todo lo válido que se requeriría para las decisiones a
tomar en nuestros enfermos.

4) Sobre la similaridad de los resultados.

Primero digamos que, desde luego, los artículos reunidos deben tener el mismo objetivo y
haber sido hechos en forma comparable, con el mismo tipo de resultados (por ejemplo, con
porcentaje de mejoría; que no podrían ser combinados con aquellos cuyo resultado es sólo
la modificación de una variable fisiológica de la enfermedad en cuestión) 50. Las razones
para esta exigencia se comprenderá al revisar la aplicabilidad clínica de los resultados
(particularmente, en términos de NNT o número necesario a tratar). Además, la medición
50 Un buen ejemplo es el meta-análisis de Kellner JD et al. “Efficacy of bronchodilator therapy in
bronchiolitis”, Arch.Pediatr.Adolesc.Med. 1996; 150:1166-1172. En éste, los autores incluyeron sólo los
artículos que evaluaban signos, síntomas y las hospitalizaciones posteriores al tratamiento y excluyeron los
estudios que sólo medían función pulmonar.

111
de variables fisiológicas no necesariamente tiene un correlato clínico que permita
deducciones clínico-epidemiológicas. (Recordar el ejemplo del Clofibrate).
Los artículos primarios que cumplan los requisitos de inclusión al meta-análisis, pueden
haber dado resultados semejantes o discordantes. En algunos la terapia produjo mejoría. En
otros no hubo diferencias entre los grupos comparados. Por último, puede ser que algunos
artículos hayan dado resultados que favorecen al placebo (producen daño). A veces es
posible darse cuenta “a ojo” de que los resultados de alguno de los estudios difieren
fuertemente del resto. Pero no se puede confiar en la apreciación “a ojo”. Para ello, se
recurre a pruebas de heterogeneidad, las cuales postulan la hipótesis que los resultados de
los trabajos difieren en forma estadísticamente significativa (hay varias pruebas, de las
cuales la más usada es la de Mantel-Haenszel). La prueba consiste en una de Chi cuadrado,
cuyo valor resultante se busca en la tabla de la correspondiente distribución para determinar
el valor de “p”. Si la prueba da un resultado que corresponde a p<0,05, significa que los
resultados son diferentes (no se pueden combinar). Si el valor de p>0,05, significa que no
hay diferencias estadísticamente significativas entre los resultados, de modo que se pueden
combinar. Hoy hay varios modelos y estadísticas para combinar resultados en meta-análisis
pero, desde luego, no los analizaremos aquí.

5) Análisis de la validez de los estudios y su reproducibilidad.

Por un lado, ya sabemos que todo artículo debe ser sometido a un análisis de validez, para
lo cual se han confeccionado estos cuestionarios. Por otro lado sabemos que los revisores
de estos artículos están sometidos, como siempre, a errores de juicio (aleatorios) o sesgos
(sistemáticos) por lo que la participación de dos o tres revisores, en el proceso y la
búsqueda de acuerdo sobre la validez de los estudios y calidad de los datos, las hace más
objetivas y libre de estos riesgos.
La calidad de los estudios incluidos en meta-análisis es crucial para los resultados de éste.
“Calidad” se define como un atributo multidimensional que pudiera relacionarse con el
diseño, desarrollo y análisis de un estudio, su importancia clínica o lo correcto del texto
que da cuenta de lo anterior. (7 ). Este concepto, referido específicamente a los ensayos
clínicos controlados a incluir en un meta-análisis, puede extenderse a todos los tipos de
estudios. Este no es un asunto fácil porque las publicaciones no siempre incluyen los
elementos para hacerlo. Dependiendo del tema, las cifras de omisión de información crítica
para este objeto puede llegar a ser enorme (8). Recientemente (9), se ha sugerido que las
omisiones de esta naturaleza en las publicaciones es sólo una fracción menor de los
estudios que tienen un protocolo previo (10) pero ello, en vez de ser un dato tranquilizador
agrega la incógnita ¿Y cómo saber cuáles publicaciones son fieles a tales protocolos que,
de paso, no siempre precenden al estudio? (11,12). Aquí se recomienda aplicar el criterio
de “culpable hasta no demostrar lo contrario”: cuando la información no aparece, el lector
no debe suponer que existe (por ejemplo, especificación del diseño elegido, bases para el
cálculo del tamaño de la muestra, procedimiento y cumplimiento de aleatorización y
mantención de los asignados en sus grupos, cuenta de la pérdida de casos, etc.) (7). De otro
modo se arriesga a cometer “sesgo de intención de leer” (11), suponiendo lo que no ve.
Finalmente, debe existir un grado suficiente de homogeneidad de los resultados de los
estudios.
Como ya se dijo, es importante que todos los estudios incluidos, que seguramente tendrán
diferencias respecto a exposición, tipo de pacientes, métodos de diseño, etc., estén

112
midiendo lo mismo. Aquí cabe emplear las pruebas de homogeneidad mencionadas más
arriba.
Resultados del meta-análisis.

Dado el objeto del meta-análisis, que es sintetizar y resumir información, por las razones
anotadas se comprenderá que la síntesis no puede consistir en contrastar el número de
estudios positivos con el número de estudios negativos sobre el tema estudiado. El trabajo
debe usar un método que pondere el peso del resultado de cada estudio de los varios (a
veces muchos) incluidos para hacer la síntesis. Un estudio pequeño puede tener gran
significación clínica (pero no estadística), mientras uno enorme, muy poca significación
clínica (aunque, por su tamaño muestral, una eventual gran significación estadística). Más
aún: ciertos estudios pueden estar más sólidamente estructurados metodológicamente que
otros. En este caso, los autores deben estudiar qué efectos produce, sobre el resultado final,
la asignación de valores de ponderación diferentes según esa característica. Como en otras
áreas de la Epidemiología Clínica, como es el análisis de decisiones clínicas, economía
médica, etc., este tipo de maniobra analítica se llama análisis de sensibilidad.
Hay veces en que los resultados de los diferentes trabajos no están expresados del mismo
modo, de suerte que la diferencia de efecto entre los casos y los controles está hecha en
promedios en algunos, en proporciones en otros, etc. En tal caso se recurre al “tamaño del
efecto”, estadígrafo que servirá para hacer posible la combinación ponderada de resultados
expresados en forma heterogénea.
El tamaño del efecto se calcula dividiendo la diferencia del efecto entre los casos y los
controles, por la desviación estándar de la diferencia, de modo de tener a la vista el número
de desviaciones estándar en que difieren los casos de los controles y, así, poder combinar
ponderando resultados. Esta manipulación no permite calcular los NNT (Ver Apéndice 4.)
y, por eso, ha perdido interés para nosotros.

Sin embargo, el estadígrafo usado como medida de la asociación entre la exposición


(terapia) y el efecto (resultado de ella) es, generalmente ORs51, el cual debe tener su
intervalo de confianza del 95%, por las razones que ya hemos analizado antes: para conocer
la precisión de la estimación final producto del meta-análisis.
Como siempre, estos estudios deben dar cuenta de todos los eventos clínicos de
importancia, para poner en evidencia las bondades y también los riesgos de él.

Uso de la información obtenida.

El trabajo clínico no termina con la obtención de la mejor información. Queda lo que es,
quizás, más importante: la utilización en el paciente individual.
Uno de los temas más controvertidos en infectología pediátrica es respecto al uso de
dexametasona en meningitis bacteriana del niño, debido a que el estudio en que se ensayó
su eficacia (13) dejó preguntas sin responder, como es el efecto de este corticoesteroide en
las meningitis de diferente etiología (específicamente, las por S.pneumoniae y por
N.meningitidis. Además, aparecieron estudios en los que no se comprobó el efecto
beneficioso reportado y se llegó a postular que tal terapia podría ser perjudicial (14). Un
51 El uso de ORs para el análisis de datos que expresan resultados en término de efectos, a partir de estudios
de cohortes (prospectivos), ha obedecido a ciertas propiedades matemáticas que facilitan la manipulación
bioestadística de los datos. Sin embargo, como se ha dicho, los ORs no son la medida más apropiada y
pueden ser mecanismo de distorsiones en los resultados. Por ello, este aspecto está siendo revisado.

113
meta-análisis reciente (15) apoya el uso de dexametasona para prevenir secuelas auditivas
(pérdida grave de la audición) ajustando la información de acuerdo al agente causal y la
proporciona además para ajustar su uso a los pacientes individuales con meningitis
bacteriana (considerar su utilización o no) tomando en cuenta eventuales efectos adversos,
expresados en NNT: 91 niños tratados para que aparezca sangramiento digestivo
clínicamente evidente (El cálculo del NNT para comparar el efecto esperado según
etiología no aparece pero puede calcularse sólo para Haemophilus influenzae (NNT=12, IC
95%=7 a 25), pero no para Streptococcus pneumoniae ni Neisseria meningitidis porque no
hay datos suficientes para hacer tal estimación. Aunque no siempre el artículo ofrece
solución directa de nuestros problemas, sí puede aportar los datos para ello con lo que -al
menos- la pulcritud técnica de determinados estudios dan precisión y racionalidad a
nuestras dudas. En este caso particular, desafortunadamente, el “ajuste” no siempre es
posible intentarlo, ya que la etiología de la meningitis bacteriana aguda se conoce
habitualmente después de haber tenido que tomar la decisión terapéutica. El que sólo aporte
información segura para Haemophilus influenzae es un dato valioso para países en que no
se ha logrado controlar esta etiología, ya que no parece haber efectos adversos de la
dexametasona sobre la enfermedad producida por las otras bacterias estudiadas.

Cabe un comentario final. Los resultados de los meta-análisis se entregan como una
estimación del efecto (p.ej., OR) y su intervalo de confianza, lo cual está referido al grupo
total incluido en el análisis. Como veremos más adelante, a partir de aquí se pueden
calcular NNT, que permite una forma de “personalizar” el cálculo del efecto. Sin embargo,
puede suponerse con suficiente razón que no todos los individuos incluidos tenían el mismo
pronóstico al ingresar a los diferentes estudios (lo cual es válido, también, para un estudio
en particular). Según este concepto, el efecto estimado debe ser ajustado, para resolver
respecto a un caso individual, según el pronóstico de ese individuo en particular. Dicho de
otra manera: Si el riesgo de secuelas neurológicas de los niños con meningitis bacteriana
aguda, luego de usar dexametasona, ha sido estimado –según el meta-análisis- en OR=0,3
(que, en realidad, representa una estimación en base al “enfermo promedio”), es posible
suponer que no todos los niños tenían el mismo riesgo al ingresar al estudio, toda vez que
las probabilidades de secuelas neurológicas no dependen sólo del hecho de recibir o no
dexametasona. Supongamos (justificadamente) que el riesgo de tales secuelas es mayor
mientras menor es el niño (en el tramo etario del primer año de vida). Supongamos ahora
que la probabilidad del efecto benéfico de la dexametasona depende del riesgo de secuelas
propio de cada niño, determinado por el tiempo de evolución previa al tratamiento.
Entonces, para calcular el presunto efecto benéfico en un niño en particular, de cierta edad,
deberíamos conocer el mayor riesgo (de no responder al tratamiento) de un niño de 3 meses
o, si fuera el caso, el menor riesgo de un niño de 10 años. Eventualmente, el grado de
variación del riesgo según la duración de la enfermedad previa al tratamiento. De saber
estos riesgos, el efecto terapéutico estimado globalmente para el grupo total debería
corregirse por un factor que, frecuentemente, no proporcionan los meta-análisis (en este
caso, estimaciones del efecto por grupo etario). Hipotéticamente, podría haber casos que no
necesitaran tratamiento o éste les fuera perjudicial (no estamos ya hablando de la
dexametasona, sino en general).

Esta consideración tiene gran importancia y no desde un punto de vista meramente


académico. Los resultados “crudos” de meta-análisis autorizados, técnicamente confiables,
podrían ser usados para imponer cierta terapia como norma general. Si aceptamos que

114
tales resultados no pueden entenderse como para imponer una norma general, tendremos
que aceptar –inevitablemente- la necesidad de conocer más sobre el riesgo basal de cada
enfermo (antes de la terapia), so pena de convertirnos en meros ejecutores de normativas y
no estar cumpliendo con el gran objetivo: lograr lo mejor para nuestro enfermo en
particular.

El tema del meta-análisis no está, por cierto, agotado. En publicaciones recientes se ha


demostrado que ensayos controlados con muestras suficientemente grandes, los resultados
sobre el efecto de una terapia difieren en forma importante de los obtenidos de meta-
análisis previos (16,17). Es posible que haya en estas discrepancias meros errores
metodológicos en tales meta-análisis, pero también es aceptable pensar (como hicimos más
arriba) que el paradigma del meta-análisis no esté aún completo.

En suma, podemos distinguir dos tipos de meta-análisis:


Los que demuestran que una intervención es mejor, equivalente o peor que otra (es
preferible no intervenir) expresando los resultados en tamaño del efecto (comparación de
promedios). Estos podrían respaldar una decisión en un plano general, por ejemplo, usar la
terapia A en vez de la B, pero no nos habilitan para decisiones a nivel individual como los
que forman el segundo grupo.
Los meta-análisis del segundo grupo, los que muestran que una intervención es mejor,
igual o peor, pero cuyos resultados son expresados en RR, OR o simples proporciones del
efecto en casos y controles. En este caso, los resultados pueden ajustarse en términos de
decisiones basadas en el riesgo individual, por medio de los NNT.

Otros meta-análisis:

El uso de modelos matemáticos para combinar resultados por medio de ordenadores, ha


facilitado enormemente la manipulación de datos y, con ello, la extensión de la idea de
combinar datos de estudios en otras áreas de la clínica, además de la terapéutica.
En pruebas diagnósticas existen normas (18) y estudios meta-analíticos (19) sobre éstas,
pese a que, si en ensayos clínicos controlados, las dificultades asociadas a métodos son
considerables, en pruebas diagnósticas el problema de heterogeneidades va desde la forma
de reclutar pacientes, su número, espectro clínico de los grupos, puntos de corte en
variables continuas, patrones de referencia, evaluación ciega, etc. Un muy buen ejemplo de
estas dificultades puede examinarse en el estudio de Jaye DL et al. (20), en que ya la
heterogeneidad del punto de corte para decidir la “positividad” es tan variable, que no es
posible un análisis métrico de los diferentes artículos.
En pronóstico el problema puede ser peor (21), sobre todo si no se agrupan estudios que
comparan dos grupos.
En estudios observacionales, considerando sólo los estudios que, de hecho estudian casos
y controles (cohortes, caso-control y alguno otro muy especial) las exigencias (22) son muy
semejantes (y más) a la de los meta-análisis de ensayos clínicos controlados (terapéutica),
hasta un punto en que parece casi imposible...a no ser que se acepte la idea que Revisión
Clínica con cálculos matemáticos equivale a Meta-análisis, asunto en el que no se puede
transar: no equivalen. Un ejemplo palmario de este error es el estudio de Safdar N et al
(23), que combina un ensayo controlado prospectivo con otro retrospectivo y series de
casos (ninguno con hipótesis a priori).

115
Si bien es cierto que la necesidad, a veces urgente, de disponer de información para
enfrentar ciertos problemas obliga a buscarla a toda costa, no es menos cierto el riesgo que
ésta resulte peliugrosa, sobre todo en manos poco expertas en metodología (24).

El lector interesado puede profundizar en aspectos específicos del tema en Clarke M,


Oxman AD, editors. “Assessment of study quality” Cochrane Reviewer’s Handbook 4.2.0
[Update March 2003]. Section 6. In The Cochrane Library, Issue 2, 2003, Oxford: Update
Software. Updated quarterly.

116
BIBLIOGRAFIA:

1) Mulrow CD, “The medical review article: State of the science”. Ann.Intern:Med. 1987;
106:485-486.
2) Stichele RHV,Dezeure EM, Bogaert MG. “Systematic review of clinical efficacy of
topical treatments for lice”. BMJ 1995; 311:604-8.
3) Pichichero ME, Margolis PA “A comparison of cephalosporins and penicillins in the
treatment of group A beta-hemolytic streptococcal pharyngitis: A meta-analysis supporting
the concept of microbial copathogenicity”. PIDJ 1991; 10:275-81.
4) Shulman ST “Complications of streptococcal pharyngitis”.PIDJ 1994;13:1-7.
5) Easterbrook PJ, Berlin SA, Gopalan R, Matthews DR “Publication bias in clinical
research”. Lancet 1991; 337:867-72.
6) Dickersin K , Min Y, Meinert CL “Factors influencing publication of research results”.
JAMA 1992; 267:374-78.
7) Jüni P, Altman DG, Egger M “Assessing the quality of controlled clinical trials”. BMJ
2002; 323:42-46.
8) Hotopf M, Lewis G, Normand C, “Putting trials on trial-the costs and consequences of
small trials in depression: a systematic review of methodology”. J.Epidemiol. Community
Health. 1997; 51:354-358.
9) Soares EH, Daniels S, Kumar A, Clarke M, Scott C, Swann S et al “Bad reporting does
not mean bad methods for randomised trials: Observational study of randomised controlled
trials performes by the Rdiation Therapy Oncology Group”. BMJ 2004; 328:22.25.
10) Silagy SA, Middleton P, Hopewell S. “Publishing protocols of systematic reviews.
Comparing what was done to what was planned”. JAMA 2002; 287:2831-34.
11) Herrera P. “Intention to read” BMJ 2004; 328 25. respuesta a (9).
12) Vlassov V “Quality of randomised controlled trials: Quality of research may be worse
than it appears”. BMJ 2004; 328 25. respuesta a (9).
13) Odio C, Faigenzicht I, Paris M, Baltodano A, Rogers J et al "The beneficial effects of
early dexamethasone administration in infants and children with bacterial meningitis".
14) ) Contreras L., Rodriguez M., Skarmeta M. , Herrera P. "Dexametasona en meningitis
bacteriana aguda del niño: Un análisis métrico". Rev.Chil.Pediatr. 1997; 68:3-6.
15) McIntyre PB, Berkey CS, King SM, Schaad UB, Kilpi T, Kaura GY et al.
“Dexametasone as adjuntive therapy in bacterial meningitis. A metanalysis of randomized
clinical trials. JAMA 1997; 278:925-31.
16) Lelorier J, Gregoire G, Benhaddad A, Lapierre J, Derderian F “Discrepancies between
meta-analysis and subsequent large, randomized controlled trials”. NEJM 1997; 337:536-
42
17). DerSimonian RD ”Resolving discrepancies between meta-analysis and a subsequent
large controlled trial”. JAMA 1999; 282:664-70.
18) Irwing L, Tosteson ANA, Lau J, Colditz G, Chalmers TC et al “Guidelines for meta-
analysis evaluating diagnostic tests”. Ann.Intern.Med. 1994; 120:667-76.
19) Huicho L, Campos-Sanchez M, Alamo C. “Meta-analysis of urine screening tests for
determining the risk of urinary tract infections in children”. PIDJ 2002; 21:1-11.
20) Jaye DL, Waites KB “Clinical applications of C-reactive protein in pediatrics”. PIDJ
1997:735-47.
21) Baraff LJ, Lee SI, Schriger DL “Outcomes of bacterial meningitis in children: A meta-
analysis”. PIDJ 1993; 12:389-94.

117
22) Stroup DF, Berlin JA, Morton SC, Olkin I, Williamson CD, Rennie D et al “Meta-
analysis of observational studies in epidemiology”. JAMA 2000; 2008-12.
23) Safdar N, Said A, Gangnon RE, Maki DG “Risk of uremic-hemolytic síndrome after
antibiotics treatment of Escherichia coli O157:H7: A meta-analysis”. JAMA 2002;
288:996-1001.
24) Bailar JC “The practice of meta-analysis”. J.Clin.Epidemiol. 1995 ; 48 :149-57.

118
CUESTIONARIO N 5.

ANALISIS DE REVISIONES CLINICAS Y METANALISIS.

Especifique su pregunta:

Cita:

1) ¿Hay una pregunta clínica precisa?.


2) ¿Fueron adecuados los criterios de inclusión de los artículos elegidos?.
3) ¿Es probable que falten artículos importantes?.
4) ¿Se evaluó la validez de los artículos incluidos?.
5) ¿Eran similares los resultados de los estudios?.
6) ¿Cuáles son los resultados globales, cuantitativos, de la revisión?, ¿cómo están
expresados? (¿proporciones, RR, OR?).
7) ¿Cuan precisos son los resultados?.
8) ¿Hay análisis de subgrupos?.
9) ¿Son aplicables a sus pacientes?.
10) ¿Son claramente mayores los beneficios que los inconvenientes del procedimiento?.
11) Asigne un nivel de validez al artículo.
12) Asigne un grado de recomendación al artículo.

Paso 1: Identifique el área: ¿terapia?¿diagnóstico?,¿etiología (daño)?,¿pronóstico?.

Comentarios:

119
SECCION 6.

ESTUDIOS DESCRIPTIVOS: ALGUNASS CONSIDERACIONES.

Hemos revisado lo que son pautas de análisis de los estudios inferenciales, es decir,
aquellos que consisten en la formulación y prueba de una hipótesis, explícita o no. Los
diseños abordados han sido primordialmente el corte transversal (pruebas diagnósticas), las
cohortes (evolución y pronóstico, ensayos terapéuticos), y los estudios retrospectivos
controlados (caso-control). Dicho de otro modo, aquellos en que media una prueba de
hipótesis, lo que implica una hipótesis nula (H0) y una alternativa (H1), además una o más
pruebas de significación estadística,. Quedaron fuera los estudios descriptivos; ¿por qué?.
No es un argumento valedero dar por hecho que en la literatura médica selecta y en inglés
(de mayor “impacto”) este tipo de estudios haya sido desterrado. Publicaciones recientes
sobre infecciones enterovirales, por ejemplo, lo desmienten (1,2). A ellas nos referiremos
después.
Tal vez los motivos más probables son su menor validez, su menor aporte a paradigmas y,
quizás lo más importante, el enorme espectro de temas, puntos de vista y ausencia de un
propósito clínico y un método sistemático, lo que hace que la mayoría de tales estudios
carezcan de interés cuando se trata de aportes para la solución de problemas nacidos de la
práctica clínica. Estos son los presuntos inconvenientes. ¿Cuál es la evidencia al respecto?

a) Ofrecen las evidencias más débiles desde el punto de vista de su validez.

b) Constituyen casi el 90% de los estudios presentados por los pediatras latinoamericanos a
congresos, jornadas y editoriales de revistas. Son, por lo tanto, un terreno conocido para
quienes son los destinatarios de este manual.

¿ Qué potencial reside en la gran masa de trabajo descriptivo que llena nuestras revistas?.

a) Representan un área potencial de perfeccionamiento metodológico absolutamente


accesible al médico latinoamericano.

b) Su elaboración más acabada permitiría explorar nuestra realidad clínico-epidemiológica


inmediata y salvar una etapa no abordada –en general- en nuestros países: la de aportar
antecedentes razonables para la construcción de hipótesis a probar en el campo clínico, lo
cual nos llevaría a superar el estancamiento generalizado (incapacidad de generar
inferencia científica) que nos afecta en esta materia. A la vez, permitiría aplicar los
métodos de la MBE.
Hay ciertos tipos de trabajos descriptivos cuya definición e importancia son
autoexplicativas: son las descripciones de casos aislados (generalización imposible a partir
de ellos), series de casos y –a veces- grandes casuísticas expuestas sólo como un aporte
periodístico. Son presentados como una noticia: “ en nuestra experiencia también hemos
visto seis (o 200) casos de enfermedad de Kawasaki”. Rara vez la noticia es relevante en
sí, es decir, no da cuenta de una novedad que mueva a indagaciones ulteriores en favor o en
contra de un cierto paradigma clínico. Un ejemplo de descripción incidentemente relevante
es la descripción de los primeros casos de deficiencia inmune adquirida (3). A partir de ella
se empezó lo que hoy es el complejo paradigma del sindrome de deficiencia adquirida
(SIDA).

120
Las guías de análisis de literatura médica obedecen a un principio no explícito que nos
obstaculiza, en cierta medida, la formulación de una guía de análisis de trabajos
descriptivos. Este principio es que, en creación científica, no hay un recetario sobre cómo
hacer las cosas para lograr una creación. Sólo sabemos con alguna certeza como no hacerlo
(4).
Sin embargo, si intentamos una reflexión que haga congruente y posiblemente útil la gran
cantidad de noticias comunicada con ocasión de congresos o publicada en nuestras revistas,
dada la naturaleza de los problemas del ámbito latinoamericano, podríamos llegar a
proponer un cierto número de objetivos a lograr en el corto plazo. Luego de ello, intentar
describir un método general y, con suerte, bosquejar una guía de análisis. Finalmente,
extraer proposiciones a mediano plazo. Obviamente, sin hacer abominación sectaria de la
publicación de casos.

En el curso de la carrera profesional de quien escribe estas líneas están los ejemplos más a
mano para intentar una sistematización crítica del trabajo descriptivo .
En 1964 describimos lo que pareció la primera observación de interés como para ser
estudiada más a fondo y luego publicada (5). Consistió ésta en la atención de un niño de 43
meses con púrpura trombótico trombocitopénico o “Púrpura de Moskowitz”. El estudio fue
cuidadoso: con esta descripción uno de los autores pudo ingresar a la Sociedad Chilena de
Pediatría. Transcurridos 35 años de esta descripción, jamás hemos visto un caso
comparable. ¿Qué aportó, sino ventajas para los autores, esta descripción?. Dieciocho años
después, los antecedentes de este niño fueron reestudiados a raíz de los primeros casos de
enfermedad de Kawasaki descritos en Chile (6). En esta última presentación se dio la
noticia de la aparición de la temida enfermedad en el país, además de dar cuenta de un
nuevo signo poco frecuente: la aparición de eritema alrededor de la zona de la cicatriz
BCG. Se comparó el grupo de casos con el de púrpura de Moskowitz que, de paso,
cumplía con el criterio de Kawasaki, pero no se hizo ningún intento de medir su incidencia.
Si algún aporte hubo al paradigma de la enfermedad de Kawasaki, fue de interés
meramente local, ya que no había posibilidad alguna de revisar la literatura
latinoamericana.
Siguiendo la línea, en 1983 los autores a quienes nos referimos, publicaron una larga serie
de casos (n=404) de infecciones por Haemophilus influenzae tipo b (7) que sugerían la
importancia de éstas, pero incluyendo proposiciones de asociación meramente intuitivas,
con un pobre intento de reforzar los aspectos clínico-epidemiológicos. A pesar de haber
sido reunida una cantidad considerable de casos usando una definición inequívoca y un
protocolo de vigilancia adecuados, previniendo el sesgo de pesquisa, la tasa de ataque
estimada no consideró el posible sesgo de referencia, con lo que la tasa fue sólo de
ocurrencia, ya que no se eliminó el grupo de casos provenientes de otras áreas (o
poblaciones, el denominador indispensable para estimar tasas), lo que implica también un
probable sesgo de accesibilidad. En 1995, los autores exploraron un nuevo diseño
descriptivo, el correlacional, para describir el resultado de estudiar una larga serie de casos
con meningitis bacteriana e intentar, a posteriori, la búsqueda de asociaciones que
expresaran probables factores de riesgo de morir o sobrevivir con secuelas graves (8). En
este estudio usaron, por primera vez en esta historia de 31 años, pruebas de significación
estadística. Entre los dos últimos estudios la Epidemiología Clínica ya había sido
incorporada a la labor de estudiar y comunicar la experiencia clínica. Nada hay que
sugiera, por ello, un estudio de alta calidad, pero fue éste el que apuntó hacia la posibilidad
de plantear hipótesis a probar buscando inferencia estadística (9). En este estudio, cuyos

121
casos fueron diagnosticados y tratados según una norma general (no un protocolo ad hoc,
como en el caso de las infecciones por H.influenzae tipo b), se tomó la precaución de hacer
reproducible la estimación de los días de fiebre (estudio de concordancia entre dos
observadores independientes). Sin ser éste un trabajo perfecto, no adolece de los defectos
metodológicos de estudios similares que, no obstante, han servido para elaborar “puntajes”
indicadores de pronóstico (10). No se entienda de esta última proposición una de tono
despectivo. Si algún progreso puede advertirse en la serie de trabajos que hacen una
historia de 35 años, hay que comprender que en el lapso hubo un rápido progreso de los
conceptos metodológicos que hoy nos parecen familiares. Herson y Todd (10) no escaparon
a este devenir histórico y sus errores son propios de la época en que hicieron sus estudios.
Pero es inevitable convenir que, en el mismo lapso, los autores del mundo desarrollado
progresaron a una velocidad considerablemente mayor que nosotros. Y así sigue siendo,
con el agravante que la distancia –en este sentido- entre ellos y nosotros- se hace cada vez
mayor.

Es cada vez más frecuente leer artículos en los que se da cuenta de la existencia de
resistencia bacteriana a los antibióticos. La mayoría son descripciones análogas a las que
hemos mencionado (un caso, una serie de casos, -frecuentemente cepas en vez de casos- y
más rara vez , grandes series) y, de hecho, comparten sus inconvenientes. También es
frecuente leer o escuchar presentaciones en las que se describe el comportamiento de
alguna prueba diagnóstica o terapia en series de casos –a veces muestras, en esta última
instancia, sin que se cumplan las exigencias para hacer la inferencia científica. En el primer
tipo de estas comunicaciones, serios inconvenientes con el patrón de oro, el espectro de los
pacientes con la enfermedad de interés o los sin ella, la falta de independencia o
reproducibilidad, además del tamaño muestral, convierten estas comunicaciones en simples
series de casos…y sus inconvenientes. ¡Qué decir de las series de pacientes que han
recibido terapias sin que exista un grupo control y los requisitos de los ensayos aleatorios y
controlados!. Tampoco pasan de ser simples series de casos, artículos descriptivos. Muchas
veces estas comunicaciones no son de carácter clínico aunque el material provenga de
pacientes. En estos casos tales artículos tienen posible interés propiamente microbiológico
o bioquímico.

Hecho este ejercicio masoquista, intentemos una lista de preguntas a responder para decidir
leer, primero y examinar, después, artículos de carácter descriptivo.

1. ¿Hay algún objetivo explícito que justifique -y que se cumpla- al comienzo de la


descripción?.

Los objetivos que pueden tener los estudios descriptivos son diversos:

Comunicar tasas de incidencia o prevalencia locales.52


Comunicar la importancia de cierta patología local, aspectos sobre su tratamiento, su
pronóstico o su prevención. (puntos de vista: del autor, de la salud pública de su ámbito, de
la población, de los “pagadores” de las prestaciones, etc.).
Comunicar aumentos o disminuciones de la importancia de problemas de interés.
52Las tasas de incidencia regional, más que la local, puede tener implicaciones políticas pero no clínico-
epidemiológicas ni, menos clínicas. Tienen, en cambio, el riesgo de desconocer la variabilidad local,
muchas veces diversa dentro de un mismo país o ciudad.

122
Establecer parámetros de referencia para la formulación de hipótesis. (validez de lo
internacional...discutible).

123
El objetivo no puede ser una simple palabra (generalmente un verbo: “describir”,
“evaluar”, “destacar” o sus sinónimos, “estudiar la utilidad”), sino debe haber un “para
qué”. En el plano de las noticias, las hay para dar cuenta (objetivo no comprometido), para
provocar admiración, temor o alarma o para llamar la atención por alguna razón. La razón
explícita para dar la noticia en términos de una descripción debe ser constructiva y
responsable: legítima.
Usaremos ejemplos comunes sin citar artículo alguno, porque no nos parece necesario.

a) Resistencia bacteriana: informe de resistencia de cierta bacteria a determinado(s)


antibiótico(s).
a.1.) ¿Cuántas cepas se informan?.
a.2.) ¿Provienen de un número correspondiente de pacientes? Con frecuencia se omite este
importante antecedente, lo cual malogra la noticia porque queda fuera de contexto.
a.3.) Son todos los pacientes comparables?. Al igual que en el caso anterior, la ausencia de
un marco de referencia clínico induce a confusiones.
a.4.) ¿Cómo se reunieron las cepas?. Obviamente, los informes de resistencia de
poblaciones no sistemáticas (vigilancia) no son representativas de la comunidad, de la
población hospitalaria, de la con determinada morbilidad, etc., e inducen a confusión
porque la probabilidad de resistencia y su significación clínico-epidemiológica están
ligadas a cada una de estas categorías de pacientes.
a.5.) Hay una correlación de resistencia in vitro con la evolución de cada uno de los
pacientes de que provienen las muestras?. La falta de este dato es demasiado frecuente y
representa, al igual que los informes en que la respuesta a las preguntas anteriores no es
clara, un serio riesgo. Aún cuando las descripciones de este tipo suelen tener interés
microbiológico, es claro que inducen alarma clínica, lo cual lleva al sobreuso de
antibióticos, generalmente los de última generación o los potencialmente más efectivos.
Con una visión actual de este efecto, puede entenderse que el uso así determinado conlleva,
además, mayor gasto de recursos.

b) Procedimientos diagnósticos:

¿Se trata realmente de un ensayo con aplicabilidad clínica?.


No son raros los estudios que dan cuenta, más que de una prueba diagnóstica, del estudio
de asociación entre determinado correlato bioquímico o inmunológico (por ejemplo, los
“mediadores” del proceso inflamatorio) con la enfermedad o alguno de sus rasgos.(11-13).
En estos casos puede o no haber estudios de “sensibilidad” y “especificidad”, pero la
garantía de validez de éstas no existe si no se trata de un ensayo con las características que
vimos en el capítulo correspondiente, es decir, un diseño experimental que valide la
utilidad de una determinada asociación entre una enfermedad y el correlato en estudio. No
se trata, pues, de información de utilidad clínica. Cuando estudios de este tipo aventuran
“valores predictivos”, estamos ante un artículo realmente equivocado e inútil…a no ser que
quien lo lee decida, sobre la base de esta información, hacer un estudio experimental
clínico sobre la asociación enfermedad-correlato. También en estos casos es indispensable
saber el “para qué” se supone que sirve el estudio. Si el título anuncia que es para
“diagnosticar” o “en el diagnóstico de” y no cumple con los requisitos correspondientes,
sólo tiene valor de noticia de interés eventual.

124
C) Series de casos:

C.1. ¿Cuál es el objetivo de la presentación?. Cuando no hay una buena respuesta a esta
pregunta debe preverse la inutilidad de ella.
¿Hay una revisión formal y aceptable del tema?. Con frecuencia vemos repetirse una y otra
vez descripciones de entidades nosológicas de un modo tal que no puede juzgarse sobre su
originalidad o particularidad. Ello se debe en gran parte, a nuestro juicio, a una revisión
superficial del tema. En nuestro ámbito latinoamericano esto se facilita por la gran cantidad
de publicaciones de circulación local, la mayoría sin comité editorial y de difícil acceso a
los lectores de la región. A ello hay que agregar que no existe un sistema de indexación de
estas revistas. Debería existir alguno, independientemente de la calidad de los artículos, de
manera de –siquiera- tener una idea sobre si hay o no noticia del tema en los países de la
región.

C.2. ¿Hay un protocolo previo a la identificación de los casos?. Puede presumirse que,
con frecuencia, los casos son reunidos de una revisión de historias a las que se pone límites
temporales arbitrarios. En una época de rápido progreso en el diagnóstico y terapias de
enfermedades, además de cambios epidemiológicos, los períodos estudiados no son
irrelevantes. Es más, no es raro que un mismo autor o grupo informe de series de pacientes
repetidas veces, en lapsos que se sobreponen o dejan vacíos. El esfuerzo se malogra no sólo
para quienes leen o escuchan estos informes, sino para los mismos autores, para los cuales
se desfigura el panorama real su propia experiencia.

La construcción de un protocolo ad hoc, previo a la reunión de los casos, evita numerosos


sesgos y se convierte, si está bien concebido, en un instrumento de vigilancia inestimable.

C.3. Si no hubo un protocolo previo, ¿hubo alguno para la revisión de historias?.


Existen problemas de interés sobre los cuales es urgente tener información, por ejemplo,
para establecer valores de referencia en un futuro proceso de evaluación de la evolución del
problema u otro aspecto de ella que tenga interés. En estos casos debe reducirse la
desventaja de no tenerlo, recurriendo a un método de revisión lo más objetivo posible y de
acuerdo a un protocolo de revisión que incluya sólo variables predeterminadas. Ello se
logra en alguna medida cuando, además, el revisor no es único sino dos (o más) y ambos
llevan a cabo la revisión de las variables que se estudiarán, en forma independiente para
luego estudiar el grado de concordancia entre ambos. Ello confiere, además,
reproducibilidad de los criterios de revisión.

C.4. ¿Hay una definición aceptable –por precisa y exacta- de los diagnósticos y
variables de la revisión?. Esto es indispensable, entre otras cosas, para que se pueda
desarrollar la revisión por parte de dos o más revisores. Cuando se revisa meningitis, por
ejemplo, se debe especificar si se trata sólo de las hematógenas o si se incluyen las por
contigüidad y por solución de continuidad (fracturas, malformaciones congénitas), en niños
previamente sanos o con desventajas inmunológicas, etc. Algunos aspectos frecuentemente
problemáticos en Infectología son “shock”, “gravedad” “mejoría”, etc. En cierto tipo de
enfermedades (infecciones del tracto urinario), es importante saber, de la descripción, si se
incluyeron sólo niños con primera infección o no. Sabemos que el antecedente modifica el
pronóstico, de modo que no se puede hacer un solo grupo de niños que inician el problema

125
con aquellos que lo padece en forma crónica o recurrente. Desde luego, el lector puede o
no estar de acuerdo con tales definiciones o puntos de corte de variables continuas para
separar categorías de la casuística (el caso de la PCR como recurso clínico es emblemático)
(14).

C.5. Si la serie de casos es grande, ¿se elabora una tasa de ataque, incidencia o
prevalencia?.
La importancia de los problemas no siempre está dada por espectacularidades derivadas de
la rareza o el volumen. Este último debe “acotarse”. Para ello es indispensable tener
presente los siguientes sesgos potenciales:
a) En la conformación del numerador. Cuando se reúne una serie grande de pacientes con
la intención de pronunciarse sobre la importancia del problema (que es un objetivo
decisivamente valioso), además de dar seguridad de que los casos con la entidad elegida
sean verdaderamente casos de ella y no una mezcla de posible y comprobados. Por otro
lado, cabe la eventualidad que los casos reunidos no sean todos los casos reales
ocurridos en la comunidad en que se estudia. Estos son fuentes de sesgo de pesquisa.
En una publicación reciente, que identificó casos de enterovirosis 71, pesquisando
herpangina y sindrome pie-mano-boca (1), es evidente que no es posible tener una idea
de la magnitud exacta (tasa de ataque) de tal virosis.
b) En la conformación del denominador. Si se intenta medir la importancia del problema a
través de una tasa, el denominador apropiado es crítico. Puede ser cualquier conjunto
de pacientes, pero ello es irrelevante si tal grupo no tiene límites precisos y exactos. En
tal sentido afecta, muy particularmente a los estudios hechos en hospitales, el
desconocer la posibilidad que lleguen al conocimiento de los investigadores pacientes
que no pertenecen a la población que constituirá el denominador, por ejemplo, porque
son derivados de otras poblaciones. Entre los sesgos potenciales destacan el de
referencia, popularidad y uno que llamaremos “de ocurrencia” o “accesibilidad”, por el
cual pacientes de otras poblaciones limítrofes con la en estudio, acudan al hospital de
los investigadores por diversos motivos (p.ej, porque les queda más cerca, se atiende
mejor, en fin).

C.6. ¿Qué representa la población analizada?.

Lo más aconsejable para una buena respuesta a esta pregunta es la especificación detallada
del sitio en que se realizó la experiencia, de manera que el lector pueda juzgar las
probabilidades de particularidad o representatividad de los pacientes analizados. El lector
agradecerá -porque le será útil- saber el nombre de la institución a que pertenece el grupo
que hizo el estudio, si se trata de un hospital, consultorio comunitario o servicio
especializado o instancia especialmente dedicada al problema. Igualmente será útil
comunicar de qué tamaño es la población que atiende o de dónde provienen los pacientes
del estudio. Mejor, qué tamaño es la población de susceptibles bajo su cuidado, etc. En el
capítulo sobre pronóstico (muchas veces descripciones de una cohorte) vimos de qué
manera puede variar una estimación y su precisión dependiendo del sitio en que se llevó a
cabo la investigación.

C.7. ¿Se da una tasa global (cruda) o se describe la misma ajustada por edad, sexo,
período estudiado u otros criterios que enriquezcan la descripción?.

126
El análisis de las tasas crudas según criterios como los anotados enriquece la presentación,
porque permite identificar características relevantes para objetivos epidemiológicos (por
ejemplo, los grupos de mayor riesgo) y, desde el punto de vista clínico, ajustar las
probabilidades post prueba (valores predictivos) según el nivel de riesgo (que se obtiene de la
tasa ajustada) del paciente individual, así como el ajuste de otras decisiones que dependen del
riesgo basal del grupo correspondiente. Para el caso de las infecciones por Haemophilus
influenzae tipo b un estudio descriptivo ulterior, que comprendió todos los hospitales de la
capital, permitió la identificación de los grupos de mayor riesgo (15) y respaldó así la
justificación de los ensayos y posterior administración sistemática de la vacuna conjugada. De
ese estudio puede deducirse que la probabilidad que tiene un niño de seis años con sindrome
meningítico, de padecer etiología H.influenzae, es prácticamente nula. Se puede sacar diversas
conclusiones –válidas- clínico-epidemiológicas de este dato. Una importante es que en un niño
con sindrome meníngeo como el descrito no deberían usarse antibióticos dirigidos a cubrir al
H.influenzae tipo b (ahorro de cefalosporinas de tercera generación).
En el capítulo sobre pruebas diagnósticas, vimos como se puede usar las tasas por edad y sexo
para interpretar los resultados de una prueba diagnóstica para infecciones del tracto urinario.

C.8. ¿Se usan estadígrafos?. Si la respuesta es positiva, ¿son los adecuados?.

Los artículos descriptivos que dan cuenta de frecuencias mayores de 100 suelen permitir el uso
de estadígrafos descriptivos tales como promedios y sus desviaciones o errores estándar o
proporciones y sus intervalos de confianza del 95% , que implican estimaciones y su dispersión.
Pueden usarse otros, tales como el coeficiente de correlación, lo cual no implica –exactamente-
emplear pruebas de significación estadística. Cuando no aparecen en el artículo, por lo menos
debieran aparecer los datos crudos para que el lector pueda calcularlos. Al hacerlo, el autor caerá
(o no) en la cuenta sobre su utilidad en cuanto a precisión y exactitud. Otros estadígrafos
descriptivos (RR, OR) no cabe en los estudios de esta naturaleza, excepto en un diseño
particular: el corte transversal (OR u RR, discutible) y el estudio correlacional (OR), pero en
estos casos es inevitable el uso de pruebas de significación estadística (comparación de
proporciones).

C.9. ¿Se usan pruebas de significación estadística?.

Hay dos tipos de estudio descriptivo en los cuales se pueden hacer pruebas de significación
estadística: el corte transversal y los estudios correlacionales. En éstos no hay una hipótesis a
priori, sino a posteriori (“expediciones de pesca”). El mayor inconveniente, independientemente
de cuán válidos sean los datos en sí, es establecer la relación causa-efecto debido a la
imposibilidad (corte transversal) de establecer la relación de temporalidad (16).
El estudio correlacional no es sino la división de una serie más o menos numerosa de casos
cuyos datos se obtienen por revisión de historias clínicas, que una vez recolectados son divididos
en dos (o más) grupos, los que son comparados según diversas categorías de acuerdo con la
intuición de los autores o dictadas por la experiencia. El estadígrafo a usar es el OR , sus
intervalos de confianza y sus pruebas de significación estadística. Un caso notable de este tipo
de estudios es el de Herson y Todd (10), en el cual se usaron dos diseños: reunida una cohorte
de pacientes que habían padecido de meningitis bacteriana por H.influenzae, se identificó,
primero, la frecuencia de secuelas para construir una estimación pronóstica. Luego se hizo una
revisión de sus historias clínicas para determinar qué factores pudieron influir en la probabilidad
de secuelas o muerte El primer análisis es el de una cohorte (conocida la causa –meningitis

127
bacteriana- se midió su efecto). El segundo es correlacional (sin hipótesis y previa división de
los casos en dos grupos según la evolución (el efecto de la meningitis sin conocer los factores
(causas) de éste). No hay medida de asociación que no sea la estimación de la probabilidad que
la diferencia entre proporciones sea o no debida al azar (p<0,05). No es un diseño caso-control,
pues no hay una hipótesis precisa y mensurada a priori (sin hipótesis nula ni alternativa). Resulta
ser, pues, un estudio descriptivo con pruebas de significación estadística no siempre apropiadas
(uso de Chi cuadrado para tablas de contingencia en cuyas casillas hay valores esperados
menores que cinco). Cuando se calculan los ORs a partir de estos datos, se encuentra fuerte
asociación (estadísticamente no significativas) entre otras variables y el pronóstico. En casos
como éste las asociaciones con valores de OR elevados pero no estadísticamente significativos
(con pruebas de significación con resultado >0,05), deben sugerir hipótesis a probar, siempre
que tal asociación tenga sentido biológico (o clínico), ya que la falta de significación puede
deberse a error de tipo II o beta.

C.10. ¿Expresan los autores conclusiones no avaladas por evidencias contenidas en la


presentación del estudio?.

El estudio descriptivo es el menos generalizable de todos los diseños (si lo es en algún grado).
Las conclusiones de los estudios descriptivos deben ser, por ello, cautelosas y en estricta
relación con el objetivo. Por consiguiente, no puede aceptarse conclusiones inferidas a partir de
sus datos. A lo más, se pueden postular hipótesis cuando hay pruebas de significación estadística
o comparaciones de estimaciones y sus intervalos de confianza del 95%. No hay lugar para
concluir normas de conducta, evaluar terapias o respaldar criterios o procedimientos
diagnósticos. Si caben recomendaciones, éstas deben limitarse a proponer estudios dirigidos
específicamente a examinar las hipótesis surgidas. Un ejemplo común de este tipo de errores es
concluir que “los resultados coinciden con los aportados por la literatura” (en general del ámbito
anglosajón). Primero, porque no se ha hecho una comparación formal que permita el aserto.
Segundo, porque tal comparación formal es absolutamente controvertible. Las poblaciones
difieren en muchos aspectos pronósticos. Tercero, porque lo más probable es que tal afirmación
no sea cierta. Si en Latinoamérica un autor describe una serie de casos de infección por
H.influenzae, por ejemplo, y concluye que sus datos no difieren de los de la literatura más
probablemente consultada, caerá en la trampa de ignorar que en amerindios la epiglotitis está
casi ausente en el espectro mórbido por este agente, mientras en países escandinavos era más
frecuente que la meningitis por el mismo agente, antes de la vacunación sistemática (los
ejemplos abundan: la fiebre tifoidea en Egipto o Indonesia no es comparable -basta examinar su
letalidad- con la de Chile, etc.).

Objetivos que podrían ser deseables para los estudios descriptivos.

Conocer la realidad y jerarquizar sus problemas en un momento dado y en forma confiable para,
después, tener puntos de referencia con miras a la formulación de hipótesis. En el estado actual
de cosas se hace cada vez más indispensable medir la utilidad y aplicabilidad (eficiencia) de la
inmensa cantidad de recursos que se usa en la atención médica, tanto los de más reciente
generación como los antiguos (17), incluyendo prácticas tales como la anamnesis, el examen
físico y el registro de la evolución del paciente (18). tanto por razones del bienestar de los
pacientes (calidad de vida) como las relacionadas con costos. Sólo el trabajo fructífero que se
inicia con una descripción oportuna, precisa y exacta, permitirá decidir sobre prioridades y
selecciones en la asignación de tales recursos.

128
Para reforzar la importancia de lo expuesto, se invita al lector a examinar el artículo de
Richardson WS et al (19), del cual es fácil comprender la importancia de lo dicho más
arriba. Esto es, para resolver el problema del diagnóstico diferencial es indispensable saber
cuál es la probabilidad de ocurrencia de cada una de las alternativas que pueden explicar el
síndrome de un paciente determinado y, de acuerdo a ello, decidir con racionalidad si tratar
sin más exámenes, esperar desarrollando una estrategia exploratoria a base de éstos o,
simplemente, no tratar.

129
BIBLIOGRAFIA:

1) Ho M, Chen ER, Hsu KW, Twu Sj, Chien KT, Tsai SF et al. “An epidemic of
enterovirus 71 infection in Taiwan” NEJM 1999; 341:929-35
2) Huang CC, Liu CC, Chang YC, Chen CY, Wang ST, Yeh TF “Neurologic
complications in children with enterovirus 71 infection”. NEJM 1999 341:936-42.
3) Masur H, Michelis JB, Greene JB, Onorato I, Stouwe RAV, Holzman RS e al. “ An
outbrake of community-acquired Pneumocystis carinii pneumonia: Initial manifestation
of cellular immune dysfunction”. NEJM 1981; 305:1431-38.
4) Bunje M “La ciencia: su método y su filosofía”. Siglo Veinte, Buenos Aires, 1981.
5) Maccioni A., Herrera P., Espinosa J. "Púrpura trombótico Trombocitopénico".
Rev.Chil.Pediatr. 1964; 25:805-810.
6) Herrera P., Oroz J. y Vargas S. "Enfermedad de Kawasaki".Pediatría(Santiago)
1982; 25:108-112.
7) Herrera P. ,Prenzel I., Topelberg S. "Infecciones graves por Haemophilus influenzae en
niños” ".Rev.Med.Chile 1983; 11:808-814.
8) Bravo P., Skarmeta M., Herrera O.P., Huete A., Zamorano A., Herrera L.P. "Duración
de la evolución pre-terapia y pronóstico en meningtis bacteriana aguda en el niño
menor". Pediatría (Santiago) 1995; 38:3-13.
9) Skarmeta M., Herrera P. " Estudio de factores pronósticos según condiciones clínicas al
ingreso en meningitis bacteriana aguda (MBA). Diseño Caso-control".
10) Herson VC, Todd JK “Prediction of morbidity in Haemophilus influenzae meningitis”.
Pediatrics 1977; 59:35-39.
11) Miwata H, Jamada T, Okada M, Kudo T, Kimura H, Mrishima T “Serum amyloid A
protein in acute viral infections”. Arch.Dis.Child. 1993; 68:210-14.
12) Dulkerian SJ, Hilpatrick L, Costarino AT, McCawley L, Fein J, Coscoran L et al.
“Cytokine elevation in infants with bacterial and aseptic meningitis” J.Pediatr. 1995;
126:872-76.
13) Maayatepek E, Lehmann WD “Increased generation of cysteinyl leucotrienes in
Kawasaki disease”. Arch.Dis.Child. 1995; 526-27.
14) Jaye DL, Waites KB “Clinical applications of C-reactive protein in pediatrics”. PIDJ
1997; 16:735-47.
15) Ferreccio C, Ortiz E, Astroza L, Rivera C, Clemens J, Levine MM, “A population-
based retrospective assessment of the disease burden from invasive Haemophilus
influenzae infants and young children in Santiago, Chile”. PIDJ 1990; 9:488-94.
16) Henneckens CH, Buring JE, “Epidemiology in medicine” Little, Brown & Co. Boston,
1987.
17) Eisemberg J. “Ten lessons for evidence-based technology assessment”. JAMA 1999;
282:1865-69.
18) Sackett DL, Haynes RB, Guyatt GH, Tugwell P. "Clinical Epidemiology: A Basic
Science for Clinical Practice". Little Brown & Co. Boston, 2nd.Ed.1991.
19) Richardson WS, Wilson MC, Guyatt GH, Cook DJ, Nikishawa J “User´s guide to the
medical literature: XV. How to use an article about disease probability for differential
diagnosis”. JAMA 1999; 281:1214-19.

130
SECCION 7.

APENDICES

Apéndice 1: Likelihood ratios (LR) o razones de verosimilitud.

El abordaje de estos estadígrafos para utilizar en pruebas diagnósticas requiere un acápite aparte
porque no estamos familiarizados con los términos y conceptos básicos de las expresiones que
se utilizan para los cálculos de probabilidades diagnósticas en estos términos.

A) "Odds" es una expresión de probabilidad que se usa mucho en el ámbito anglosajón,


especialmente en Estados Unidos. Sin embargo, sobre todo por la difusión que ha alcanzado el
diseño de investigación llamado caso-control, cuya medida de asociación es el "odds ratio"
(razón de odds, razón de disparidad), estimamos que esta sección se justifica. La utilidad
práctica de estos conceptos dependerá de las decisiones que tomen los clínicos al respecto.
Odds: Si P es la probabilidad (expresada como proporción) de la materialización u
ocurrencia de un desenlace, 1-P es la probabilidad de que tal desenlace no ocurra. Los "odds
a favor" de que ocurra tal desenlace se puede calcular, entonces, dividiendo la probabilidad de
ocurrencia P de un desenlace por 1-P , que es la probabilidad de que tal desenlace no ocurra;
es importante observar que P y 1-P son valores o cantidades complementarias (la suma de
ambas es igual a 1). Por ejemplo, sea P= 0,80 la probabilidad de que algo acontezca; la
probabilidad de que ello no acontezca es: 1-P (1-0,80) = 0,20, que es el valor complementario
de 0,80 (0,80+0,20=1).
Por ejemplo, si P = 0.80 representa el porcentaje de carreras ganadas por un cierto caballo,
los "odds" a favor de un triunfo de éste son 0.80/0.20 = 4. Este "cuatro" debe entenderse como
"la probabilidad de ganar es 4:1.53 .
Si se reemplaza este evento por uno de interés médico, la probabilidad a favor o en contra de
una enfermedad u otro evento del área de la Medicina, se comprende la importancia de esta
expresión. Es interesante notar que, como primera propiedad de la expresión "odds", la
cifra obtenida no tiene dimensión, ya que no es un porcentaje ni un promedio, sino expresa "el
número de veces" (más o menos) que el evento tiende a ocurrir o a no ocurrir, en relación a
la unidad. "1" implica las mismas probabilidades para ambas alternativas. En medicina se
utilizan los dos tipos de resultados, de modo que un "odds" mayor que 1 implica la magnitud
en que un factor aumenta la probabilidad a favor de la ocurrencia del evento de interés
(enfermedad), mientras que el inferior a 1, la disminución de tal probabilidad por debajo de 1.
El odds tiene algunas características interesantes: a) expresa el número de veces que es probable
que un evento ocurra, en función de 1 (1=50/50) y b) es fácilmente transformable en
probabilidad expresada en forma de proporción.

Así, si la probabilidad de ocurrencia de un evento es 0,60, el "odds" a favor de la ocurrencia es:


0,60/(1-0,60) = 0,60/0,40 = 1,5. Ello significa que las probabilidades a favor de la ocurrencia del
evento son 1,5:1. (1)
Recordemos, del ejemplo de la prueba para detectar infección del tracto urinario en niños, que la
probabilidad pre-prueba de ella, en un niño de 0 a 23 meses, es 31% o, lo que es equivalente,
0,31. Expresado en "odds", el odds pre-prueba es 0,31/(1-0,31) = 0,45. Supongamos ahora que
el paciente varón tiene 5 años. El resultado positivo de la prueba indicará que el valor predictivo

53Recíprocamente, (1-P)/P, 0.20/0.80 = 0.25, es la probabilidad de que no gane.

131
positivo (prevalencia en varones de 48 a 71 meses de edad = 38%) será 0,62. Recordemos que
ésta es la probabilidad post-prueba.
La conversión de una probabilidad post-prueba en odds post-prueba se efectúa del mismo
modo: 0,62/(1-0,62) = 0,62/0,38 = 1,6.

Los "odds" son fácilmente convertibles en proporciones, según la siguiente fórmula:


Si P =proporción , P=odds/(odds+1).
Todo esto no es difícil, pero posterguemos los ejemplos de esta última transformación para más
adelante.
Digamos, desde ya, que "likelihood" es sinónimo de "probabilidad" y su cálculo origina una
proporción. Si examinamos una tabla de 2 x 2 en la que se ordenan los resultados de la
aplicación de una prueba diagnóstica, puede analizársela de la siguiente manera:

Tabla 6.1.

Tira reactiva y
aspecto orina Presente Ausente Total
(+) 317 (a) 175 (b) 492

(-) 17 (c) 312 (d) 329


Total 334 (a+c) 487 (b+d) 821 (N)

En la categoría de los individuos con prueba positiva (a+b) hay dos grupos: uno que tiene
prueba positiva en presencia de (o, "dado que está") la enfermedad (a) y otro con prueba
también positiva, en ausencia (dado que no está) la enfermedad (b). En la tabla, la proporción
(probabilidad) de prueba positiva en todos los que tienen la enfermedad es a/(a+c) = 317/334 =
0,95. A su vez, siempre en el grupo de los con prueba positiva, la proporción o probabilidad de
prueba positiva en los que no tienen la enfermedad, es b/(b+d) = 175/487 = 0,36, que es otra
proporción. Ahora bien, con estas dos proporciones podemos calcular cuál es el "likelihood ratio
positivo" (LR+) de un resultado positivo de la prueba , que considera la probabilidad de prueba
positiva en individuos que tienen la enfermedad, relativa a la probabilidad de prueba positiva en
individuos que no la tienen: 0,95/0,36 = 2,6. Se debe entender, entonces, que 2,6 representa la
probabilidad que la prueba positiva provenga de un individuo con la enfermedad.

LR+= [(a/ (a+c)) / (b /


(b+d))]

Del mismo modo, en el grupo con prueba negativa, c/(a+c) =17/334 = 0,05, representa la
probabilidad de prueba negativa, dada la existencia de la enfermedad y, en el mismo grupo con
prueba negativa, d/(b+d) = 312/487 = 0,64, que es la probabilidad de prueba negativa, dada la
inexistencia de la enfermedad. Siguiendo el mismo camino, 0,05/0,64 = 0,08, que es el
"likelihood ratio negativo", o probabilidad de prueba negativa, dada la existencia de
enfermedad, relativa a la probabilidad de prueba negativa en ausencia de ella. Entendemos,
entonces, que 0,08 representa la probabilidad que la prueba provenga de un individuo sin la
enfermedad.

LR-=[(c / (a+c)) / (d/ (b+d))]

132
Luego los likelihood ratios pueden ser transformados en proporciones (nuestras conocidas),
según: (1)
P = LR/LR+1.

En que P = proporción y LR es likelihood ratio (cualquiera de los dos).

De este modo,
para el LR+ = 2,6, P = 2,6/(2,6+1) = 0,72 y
para el LR- = 0,08, P = 0,08/(0,08+1) = 0,07.

Para ajustar los odds pre-prueba usando los LR de la prueba (fijos, como la sensibilidad y
especificidad), se emplea la siguiente fórmula:

Odds pre-prueba x LR = Odds post-prueba.

Utilizando estas nociones, busquemos el LR+ para el ejemplo del niño de 0 a 23 meses con
probabilidad pre-prueba de infección del tracto urinario = 0,31. Lo que resulta es lo siguiente:

Primer paso: de la proporción al odds= 0,31/(1-0,31) = 0,45.

Segundo paso: cálculo de los LR: para LR+ = 0,45 x 2,64 = 1,19.

Tercer paso: del odds a la proporción: 1,19/(1,19+1) = 0,54. ¡Este valor coincide con el VP+ de
la aplicación de la prueba, ajustada por la prevalencia 0,31!.

Veamos qué ocurre con el LR-.

Primer paso: de la proporción al odds= 0,31/(1-0,31) = 0,45.


Segundo paso: cálculo de los LR: para LR- = 0,45 x 0,08 = 0,036..

Tercer paso: del odds a la proporción:0,036/(1,036) = 0,04. ¡Este es el complemento del VP- =
0,96!: 0,04+0,96= 1 (1).

Interpretación de los LR:


LR <0.1 o >10: Implica cambios grandes y concluyentes de la probabilidad pre-prueba.
LR = 0,1 a 0,2 o 5 a 10: Implica cambios moderados de la probabilidad pre-prueba.
LR = 0,2 a 0,5 o 2 a 5: Implica cambios pequeños pero a veces importantes de la probabilidad
pre-prueba.
LR = 0,5 a 1 o 1 a 2: Implica una pequeña alteración de la probabilidad de cambio de la
probabilidad pre-prueba, rara vez importante.
¿Cuál es la utilidad real de los LR?.
Primero, sus valores dependen menos de la prevalencia que los valores predictivos.
Segundo, ¡y muy importante!. Cuando al contrastar los resultados de una prueba diagnóstica
contra el patrón de certeza o ideal (¡que tiene sólo dos categorías!), se producen más de dos
categorías de resultados de la prueba (tres o más categorías, pero mutuamente excluyentes), no
es apropiado hacer un "punto de corte" para convertir la tabla de, por ejemplo, 3 x 2, en una de 2

133
x 2. En reemplazo de este mal recurso (porque implica perder información), se puede recurrir al
cálculo de los likelihood ratios, para cada una de las categorías de resultados de la prueba.
Sin embargo, constituyen una expresión de apariencia complicada para nuestra manera de
pensar (que, tal vez, debería ir cambiando).

Nota: Un concepto interesante es que los LR dependerían menos de la prevalencia que la


sensibilidad y especificidad, particularmente en tablas de 2 x n>2, en las que estos índices no
pueden calcularse.
Sin embargo, no hay que confundir esto con la precisión de los LR, que depende del tamaño de
la muestra en la que se los mide, al igual que los índices sensibilidad y especificidad.

Un buen ejemplo de su uso es el siguiente:


Se estudió el comportamiento de la estimación clínica, como prueba predictora de
deshidratación, en 225 niños con diarrea aguda, contrastándola con la ganancia de peso una vez
hidratados los niños, como patrón de certeza (2). Los resultados fueron los siguientes:

Tabla 6.2

Resultados de aplicar el patrón de certeza:


deshidratación

Clínica: Presente Ausente Probabilidad


Grados de Odds Proporción %
deshidrata- n Proporción n Proporción LR+ post-
ción prueba
(-) 27 0,232 93 0,853 0,271 0,288 0,225 22,5
(+) 45 0,388 14 0,128 3,031 3,225 0,762 76,2
(++) 39 0,336 2 0,018 18,371 19,546 0,951 95,1
(+++) 5 0,043 0 0,000 4 - - -

Total 116 109

Se puede entender que, en ausencia de signos clínicos de deshidratación, la probabilidad real de


tenerla es baja (22,5%), probabilidad que aumenta hacia los signos clínicamente más evidentes
(+++ >95,1%).
Se ha omitido el cálculo de los LR negativos para no complicar el ejemplo: ¡Hágalo usted, ahora
puede!.

134
BIBLIOGRAFIA:

1) Sackett DL, Haynes RB, Guyatt GH, Tugwell P. "Clinical Epidemiology: A Basic
Science for Clinical Practice". Little Brown & Co. Boston, 2nd.Ed.1991
2) Duffau G, Mihovilovic C, Durán O, Guerrero C “Evaluación del estado de hidratación en
diarrea aguda”. Rev.Chil.Pediatr. 1997; 68:194-203.

135
Apéndice 2.

Sesgos en pruebas diagnósticas.

La variablidad y, por ello, sesgos de una prueba diagnóstica pueden deberse, a grandes rasgos, a
los siguientes hechos:
Las condiciones en que se reproduce la prueba no son siempre exactamente las mismas.
Las mediciones repetidas –con la misma prueba- pueden no ser independientes, es decir, el
comportamiento de la prueba puede estar influenciado por los resultados de la prueba que la
precedió.
Pueden existir variaciones de los resultados dependientes de variaciones en la medición de
persona una a otra.
Los resultados de la prueba pueden diferir, aún hechos por la misma persona, si están hechos en
momentos diferentes.

En 1978, Ransohof y Feinstein (1) hicieron un importante aporte al desarrollo de las técnicas de
ensayo de pruebas diagnósticas, señalando algunos de sus sesgos más frecuentes. Hemos
agregado otros por su frecuencia y efectos sobre el comportamiento de las pruebas diagnósticas.
Más allá de los reparos metodológicos que pueden hacerse a artículos sobre pruebas
diagnósticas, los que alguien podría considerar "teóricos", un análisis reciente (2) muestra
evidencia empírica de sesgos en este tipo de artículos.

1) Sesgos de espectro (derivados del espectro de pacientes):

Para establecer la eficacia de una prueba diseñada para descartar cierta enfermedad, el número
de pacientes falsos negativos debe ser bajo (casilla c) pero teniendo en cuenta que la
sensibilidad deberá ser examinada en un espectro amplio de los pacientes que la padezcan. Las
maniobras destinadas a que el número de casos en la casilla "c" sea 0 o muy bajo, a expensas de
reducir los casos no típicos (estrechamiento del espectro clínico), distorsionará el
comportamiento de la prueba. Igualmente, para confirmar una enfermedad, la prueba deberá
tener alta exactitud para las predicciones positivas (pocos falsos positivos, casilla b). Para ello, la
prueba debe ser probada en un amplio espectro de pacientes sin la enfermedad en estudio. La
información necesaria para juzgar la propiedad del comportamiento de la prueba según lo
proponen los autores del artículo correspondiente, la deben proporcionar éstos describiendo el
espectro clínico-patológico de los individuos incluidos en el estudio.
Se entiende por "espectro" la variedad de rasgos que se encuentra en los pacientes en los que se
ensaya la prueba. Estos rasgos, que distinguen a los pacientes con la enfermedad de aquellos sin
ella, pueden enumerarse según tres categorías principales: anatomopatológica, clínica y co-
mórbidas.
a) En el grupo con la enfermedad: el asunto a resolver es en qué medida la prueba tiene su
máxima sensibilidad y cuándo y cuán frecuentemente da resultados falsamente negativos.
El espectro anatomopatológico se refiere al grado en que están representados, en el grupo de
pacientes, los tamaños, tipos y localizaciones de las lesiones propias de la enfermedad. Un grupo
de pacientes (a+c) en los que sólo haya lesiones extensas y fáciles de ubicar anatómicamente,
tenderá a tener sensibilidad cercana al 100% pero fallará en identificar en la práctica, por no
estar diseñada para detectar lesiones pequeñas o difíciles de ubicar topográficamente, casos
menos obvios, todos los cuales se constituirán en falsos negativos. El sesgo consistirá, pues, en

136
una falsa alta sensibilidad. Por ello, es indispensable la descripción del espectro incluido en el
ensayo de una prueba diagnóstica.
El espectro clínico hace referencia a la gravedad o cronicidad de la enfermedad en estudio. Si el
grupo de enfermos (a+c) sólo incluye casos muy graves o de muy larga data, se producirá el
mismo fenómeno: fallará en identificar los casos más leves o menos "floridos". Ello inducirá
una sobreestimación de su sensibilidad que se traducirá, en la práctica, en inducir a ignorar los
casos menos graves o menos "floridos".
El espectro co-mórbido está constituido por factores que, sin estar directamente relacionados
con la enfermedad, pueden ocasionar falsos negativos. P.ej., el exceso de grasa subcutánea
tiende a hacer más difícil la estimación clínica de la deshidratación en lactantes. La
administración de antibióticos puede causar falsos negativos en la prueba de tolerancia a
hidratos de carbono por medio de la medición de hidrógeno en el aire expirado (3).
b) Grupo de comparación (o sin la enfermedad de interés):
Espectro anatomopatológico: la bondad de la prueba consistirá, a su vez, en ser específica. Es
decir, que no de resultados falsos positivos. Para ello, si la enfermedad en estudio se caracteriza
por ciertas lesiones anatómicas, debe incluirse en el grupo en comparación ("controles")
individuos que tengan lesiones anatómicas que, por su tamaño o localización, puedan ser
confundidas con la enfermedad en estudio.
Espectro clínico: se refiere a la inclusión en el grupo comparativo de pacientes que podrían
causar resultados falsamente positivos. Este requerimiento no se satisface incluyendo en este
grupo pacientes que, obviamente, no son confundibles con los que tienen la enfermedad en
estudio. Por ejemplo, si la prueba pretende diferenciar etiología bacteriana de viral en pacientes
febriles con foco no detectable, la inclusión de casos de sarampión entre los "controles" resulta
un error de este tipo.
Espectro co-mórbido: se refiere a factores no directamente ligados a la enfermedad de los
individuos del grupo comparativo, que pueden ocasionar resultados falsamente positivos.

2) Sesgos al asociar los resultados de la prueba con la enfermedad.

Aparte del aspecto analizado, puede haber varios problemas derivados de errores al determinar
el grado en que los resultados de la prueba reflejan la realidad de la enfermedad. Al construir la
tabla de la que se extraerán los valores de los índices fijos y luego, los variables, el investigador
debe decidir dos asuntos respecto a sus pacientes: I) la categoría a que se adscriben los
resultados de la prueba en términos de positiva o negativa y II) la categoría (real) a que se
adscriben los mismos pacientes respecto a si tienen o no la enfermedad (según la aplicación del
patrón de certeza). Si estas decisiones no son tomadas en forma independiente, se producirán
ciertas asociaciones conducentes a sobrevaloraciones de los índices fijos.
a) Sesgo de acuciosidad ("work-up bias"). Ocurre cuando el resultado de la prueba se conoce
antes que el de la aplicación del patrón de certeza y determina los pasos de exploración
ulteriores. Por ejemplo, cuando el resultado positivo de la prueba anima al investigador a
intensificar el esfuerzo para llegar al diagnóstico, descubriendo una enfermedad que, en otra
circunstancia, habría permanecido inadvertida. Este error puede sumarse al ocasionado por la
actitud opuesta: si el resultado es negativo, puede ignorarse la enfermedad porque no se insistió
en buscarla.
Este sesgo produce subdiagnóstico, cuya consecuencia es una alta sensibilidad y valores
predictivos negativos erróneamente altos.
b) Sesgo por revisión del diagnóstico definitivo. También ocurre sesgo cuando los resultados de
la prueba se conocen antes que el definitivo. En esta situación puede operar un factor subjetivo,

137
que consiste en que los resultados de la prueba inducen a revisar los criterios utilizados para
certificar el diagnóstico (patrón de certeza).
c) Sesgo por revisión de los resultados de la prueba. Ocurre cuando el resultado de la prueba se
conoce después de establecido el diagnóstico definitivo y se debe a que el conocimiento de éste
puede inducir la interpretación sesgada de los resultados de la prueba. Las distorsiones sobre el
comportamiento de la prueba, en este caso, pueden ser graves y en cualquiera dirección.
d) Sesgo de incorporación. Este sesgo, bastante común, ocurre cuando el resultado de la prueba
en estudio es incorporado a la evidencia usada para establecer si existe o no la enfermedad
(patrón de certeza). Este sesgo es fácilmente evitable definiendo clara y simplemente el diseño y
llevando a cabo la comparación independiente y ciega con el patrón de certeza. Una explicación
del por qué es frecuente este error, es el entusiasmo indebido (y, en cierto modo, difícil de
evitar) por ciertas técnicas novedosas: se les asigna arbitrariamente sensibilidad o especificidad
100%, según sea el grado de entusiasmo.
Estos sesgos pueden ocasionar sobre o subdiagnóstico. La manera de evitarlo es la comparación
independiente y ciega.
De nuestra cosecha:
e) Sesgo por indefinición: Cuando se diseña el ensayo de una prueba diagnóstica,
independientemente del número de categorías de resultado previstas (resultados dicotómicos:
"positiva" o "negativa", o más de dos resultados, p.ej., "muy probable", "medianamente
probable", "poco probable"), debe estipularse antes de hacer la comparación independiente y
ciega, las dos categorías del patrón de certeza que se usará, es decir, cuáles pacientes serán
considerados con la enfermedad y cuáles sin ella. De no ocurrir así, pueden aparecer incómodos
terceros o cuartos grupos de pacientes en los que el patrón de certeza no cumple con definir
quiénes tienen y quienes no tienen la enfermedad en estudio (categorías de "dudosos"). Esta
situación suele conducir a uno de dos mecanismos altamente distorsionadores de la
interpretación del comportamiento de la prueba. O se ignora el grupo "dudoso" o se lo asigna
arbitrariamente al grupo de pacientes (poco común) o al grupo de comparación (más común).
Este error de diseño y conducción de un ensayo de prueba diagnóstica distorsiona
considerablemente la interpretación de la prueba por dos razones. Una, que corresponde a
alguno de los sesgos ya anotados, que deriva de atribuir a la prueba propiedades falsamente
elevadas, si los "dudosos" son asignados al grupo en comparación o, al revés, si son asignados al
grupo de pacientes con la enfermedad. La segunda razón estriba en que es el grupo de
"dudosos", precisamente, para el que se necesita una prueba que discrimine bien. Cualquiera de
las maniobras de asignación descritas ignora este hecho.
f) Sesgo por imprecisión. Finalmente (hay otros sesgos, pero sería muy largo continuar
enumerándolos), es frecuente que el número de pacientes en alguno de los dos grupos (grupo de
enfermos y grupo de comparación) o ambos, el tamaño muestral sea insuficiente en cantidad
para que la estimación de la sensibilidad o la especificidad sea confiable. Ello deriva de no
considerar que los valores de la sensibilidad y de la especificidad son sólo estimaciones, en
términos de proporciones, de "verdaderos positivos", "falsos positivos", "verdaderos negativos"
y "falsos negativos" de un universo que consiste en una población con o sin la enfermedad en
estudio, a la que se aplica una determinada prueba. Estas proporciones resultan de una muestra
de tal universo y, por consiguiente, tienen error estándar como cualquiera estimación. Por ello,
mientras menor sea el número de pacientes en el grupo de enfermos o en el grupo de
comparación, menor la precisión de la estimación de los índices fijos "sensibilidad" y
"especificidad". Esta imprecisión influirá sobre los cálculos de los índices variables, ya que éstos
se hacen bajo el supuesto que los índices fijos son estables y precisos. Idealmente, deberían

138
calcularse tamaños muestrales antes de iniciar un estudio sobre una determinada prueba
diagnóstica, asunto metodológico sobre el cual no hay abundante literatura (4).
Aquí concurre un factor agregado, propio de la naturaleza del problema: como las estimaciones
de interés de los índices fijos están cercanas a 1 o 0 (100% o 0%), el cálculo del error estándar
de estas proporciones "extremas" no es el habitual. La discusión y solución de este problema no
es materia de este texto, por lo que se recomienda al lector interesado examinar el programa
Epi.Info en sus últimas versiones (con programa Epitable).
BIBLIOGRAFIA:

1) Ransohoff DF, Feinstein AR “Problems of spectrum bias in evaluating the efficacy of


diagnostic tests”. NEJM 1978;299:926-30.
2) Lijmer JG, Mol BW, Heisterkamp S, Bonsel GJ, Prins MH, Van der Meulen JHP et al
"Empirical evidence of design-related bias in studies of diagnostic tests". JAMA 1999;
282:1061-1066.
3) Gilat T,Ben Hur H, Gelman-Malachi E, Terdiman R, Peled Y “Alterations of the colonic
flora and their effect on the hydrogen breath test”. Gut 1978; 19:602-5
4) Duffau G. “Tamaño muestral en estudios sobre pruebas diagnósticas”. Rev.Chil.Pediatr.
1998; 69:122-125.

139
140
Apéndice 3.

Algunos sesgos que afectan los diseños de causalidad y otros:

A lo largo del texto hemos señalado una serie de situaciones o factores que pueden
distorsionar los resultados e interpretación de artículos. Estos elementos son los sesgos.
Sackett describió en 1971 (1) una colección de sesgos en investigación analítica, de los
cuales reproducimos algunos de los de las distintas etapas de la inferencia:
("Sesgo es cualquier proceso, en cualquier etapa de la inferencia , que tiende a producir
resultados o conclusiones que difieren sistemáticamente de la verdad").
Antes de referirnos a algunos tipos de sesgo, debemos hacer algunas consideraciones.
El uso del concepto de sesgo en manos inexpertas puede tener efectos devastadores, no sólo
cuando un autor es criticado porque su trabajo adolecería de sesgos, sino por el efecto
paralizante que el temor al sesgo puede tener sobre quien centra su análisis en estudios de
terceros, sólo buscando poder afirmar que “hay sesgos”.
Conviene advertir que hay sesgos -y su efecto- que son evidentes, como sería perder la
mitad de pacientes de un seguimiento con fines pronósticos, terapéuticos u otro. Hay veces
que se puede afirmar que hay un sesgo, pero se puede inferir con certeza cuál es su
dirección, en cuyo caso se puede intentar hacer un análisis para medir el efecto del sesgo
sobre los resultados. Otras veces no es así, y los resultados quedan en la penumbra de la
duda.
Más allá de estos ejemplos, es de la mayor importancia tener en cuenta que afirmar que
“existe un sesgo” en tal o cual aspecto del trabajo es, en realidad, la formulación de una
hipótesis y, por consiguiente, debe ser probada según los métodos ortodoxos. Un claro y
aleccionador ejemplo de esto último es la exposición de evidencia sobre la existencia de
distorsiones en el resultado de ensayos controlados aparentemente buenos
metodológicamente (2). En este estudio se muestra cómo, insuficiencias de diversa
magnitud en exigencias metodológicas tales como la aleatorización y sus condiciones
asociadas54, pueden alterar sustancialmente las medidas de asociación encontradas.
Afirmar que un estudio “tiene sesgos” implica, pues, un compromiso serio: indicar en qué
aspecto y de qué modo (eventualmente, en qué dirección) afectaría los resultados.

Sesgo de retórica: cualquiera de varias técnicas usadas para convencer al lector sin recurrir
a la razón.
Sesgo de unilateralidad: Los autores pueden restringir sus referencias sólo a aquellas que
apoyan sus posiciones.
Sesgo de publicación: Los comités editoriales y los autores tienden a no publicar resultados
"negativos".
Sesgo centrípeto: La reputación de ciertos clínicos o instituciones atraen a ciertos
individuos con exposiciones o enfermedades específicas.
Sesgo de referencia: Al referir casos desde el nivel primario al secundario o terciario,
tienden a concentrarse casos raros, desahuciados o con múltiples diagnósticos.
54 La aleatorización o “randomización”, que implica la signación al azar de los pacientes al grupo de los
tratados o al grupo de los no tratados, exige no eliminar casos ya asignados según este procedimiento. Ello,
porque se puede así desnaturalizar el objetivo de la aleatorización, cual es balancear factores pronósticos en
los grupos. Al momento de aleatorizar, quien lo hace no debe saber a cuál de los dos grupos se integrará un
paciente dado. Si no se procede así, se tenderá a asignar los pacientes más graves al grupo de los tratados (si
se espera un efecto de mejoría considerable) o al de los controles (si se quiere no aminorar el presunto
“éxito” del tratamiento en estudio, generalmente nuevo).

141
Sesgo de acceso al diagnóstico: Los individuos que difieren en su capacidad de acceso a la
atención médica por razones geográficas, económicas o de tiempo, difieren del resto en la
posibilidad de aplicarles los procedimientos diagnósticos que los identificarían como
afectados de determinada enfermedad.
Sesgo de sospecha diagnóstica: El saber de la exposición a que han estado sometidos
ciertos individuos, influencia la intensidad y los resultados del esfuerzo diagnóstico.
Sesgo de opinión previa: Cuando se saben los resultados de procedimientos previos en un
paciente, éste puede influir en los procedimientos y resultados de los subsiguientes.
Sesgo del tamaño muestral erróneo: con muestras pequeñas no se puede probar casi nada.
Las muestras demasiado grandes permiten probar casi cualquier cosa (diferencias o efectos
irrelevantes).
Sesgo de ingreso (al hospital): Si las tasas de ingreso al hospital de distintos grupos de
expuestos/enfermos difieren, la relación entre exposición y enfermedad se distorsionará si
el estudio está basado en hospitalizados.
Sesgo de la pureza diagnóstica: Cuando, en beneficio de la "pureza" diagnóstica se exagera
la caracterización de los casos y se excluye los con co-morbilidad, los grupos pueden no ser
representativos.
Sesgo de membresía: Los miembros de ciertas organizaciones (p.ej., deportivas) difieren
sistemáticamente, en cuanto su estado de salud, del resto de la población.
Sesgo de voluntariado: Quienes acuden a un llamado a ser voluntario (en general más
sanos) tienden a diferir, en cuanto a exposición y resultados, de los que no acuden.
Sesgo de insistencia: Las preguntas sobre exposiciones específicas tienden a hacerse varias
veces en los casos y pocas en los controles.
Sesgo de expectación: Los observadores pueden equivocar sistemáticamente la observación
y registro de datos de modo que coincidan con resultados preconcebidos.
Sesgo de atención: Los individuos pueden alterar sistemáticamente su comportamiento
cuando saben que se sienten observados.
Sesgo de significación post-hoc: Cuando la decisión de los niveles de significación (p.ej.,
de uni a bilateral) son modificados después de examinarse los datos, las conclusiones
pueden resultar distorsionadas.
Sesgo de disonancia cognitiva: Las creencias sobre determinado mecanismo tienden a
aumentar (más que a disminuir) ante evidencias contradictorias (la preconcepción tiende a
afirmarse ante la contradicción que no ha resuelto el asunto). Quienes rechazan el uso de
Dexametasona en meningitis bacteriana aguda por diversos argumentos (p.ej., porque
inhibiría las funciones de los macrófagos), tienden a afirmar su posición dada la
controversia surgida por los resultados de estudios posteriores al de Odio et al., no obstante
la evidencia disponible que, globalmente, el uso de Dexametasona reduce en alrededor de 3
veces el riesgo de secuelas neurológicas y audiológicas (21).
Sesgo de significación: La confusión de la significación estadística con la significación
clínica puede llevar a estudios o conclusiones inútiles.
Sesgo de “intención al leer”: Dar por existentes hechos que no aparecen en el texto que se
está leyendo. P.ej. suponer que hay una hipótesis cuando no lo está, explícitamente, en el
texto.

142
BIBLIOGRAFIA:

1) Sackett DL J.Chron.Dis.”Bias in analytical research”. 1972; 32:51-63.


2) Schulz KF, Chalmers I, Hayes RJ, Altman DG, “Empirical evidence of bias”. JAMA
1995; 273:408-412.).

(El lector queda invitado a "denunciar" nuevos sesgos y a proporcionar ejemplos de ellos).

143
Apéndice 4.

Sobre cómo está expresado el efecto de la intervención: Medidas de asociación en


terapia.

La aplicación del método epidemiológico al área de la práctica e investigación clínica tiene,


en este aspecto particular, implicaciones muy apreciables. (En realidad, parece haber sido
necesario cambiar el nombre de algunos de los términos del primero, para facilitar su
aplicación a la segunda, la clínica).
Conceptos tales como “cuán fuerte es la asociación” y “cuán precisa” es ella, tienen una
connotación de máxima utilidad práctica que justifica detenernos en este aspecto.
Primero, reiteremos que en materia de terapia, la validez de la fuente de información está
supeditada a los requisitos conceptuales de un diseño que es controlado y en el que las
terapias en comparación están asignadas al azar, sus efectos son medidos en forma ciega y
además se garantiza que los pacientes enrolados al inicio de la experiencia llegan todos y
en su calidad de casos o controles al final del estudio. La información puede venir,
también, de un meta-análisis llevado a cabo respetando las reglas de validez
correspondientes.
Los resultados de una experiencia-tipo de esta naturaleza pueden estudiarse de una tabla de
2 x 2 del siguiente tipo:

Tabla 6.3.

Evento de interés
Presente Ausente Total Proporción
Tratamiento a 10 b 290 a+b 300 0,03
Placebo c 40 d 260 c+d 300 0,13
Total a+c b+c a+b+c+d (o N)

Una primera forma de expresar la asociación entre la intervención (tratamiento) y la


aparición del evento de interés55 , que en este caso consideraremos un evento adverso
resultante de la experiencia con un nuevo tratamiento, es una comparación entre la
frecuencia del efecto del tratamiento en el grupo tratado y la frecuencia del tratamiento en
el grupo no tratado (placebo). Obviamente, tal frecuencia se relaciona con el total de
tratados y el de no tratados, en forma de una proporción. Así, de la tabla presentada arriba,
el evento de interés en los tratados (cuya frecuencia absoluta es el valor de la casilla a)
estará presente en una proporción dada por a/(a+b) (0,03). En los no tratados (placebo), la
frecuencia absoluta del evento de interés aparece en la casilla c y la proporcionalidad de
esta frecuencia estará dada por c/(c+d) (0,13).

55El “evento de interés” puede consistir en la aparición o no aparición de un resultado. Por ejemplo, el
“evento de interés” puede ser “mejoría” de una enfermedad o la no aparición de una complicación o
muerte.

144
Para comparar estas dos frecuencias proporcionales del evento que interesa y, sobre todo,
para identificar una forma en que esta comparación tenga un significado para el clínico
(“asociación”), pueden hacerse las siguientes manipulaciones:
a) Dividir la proporción del evento de interés en los tratados, por la proporción de tal
evento en los no tratados56, operación que lleva al riesgo relativo (RR) (0,03/0,13 = 0,23).
El término “riesgo” tiende a asociarse más a eventos desfavorables que a probabilidades de
efecto favorable, por lo que presenta un primer inconveniente para el clínico. Esta medida
nos dice “cuantas veces más (en este ejemplo, “veces menos”) es probable que el evento
ocurra en tratados, relativo a la probabilidad del evento en los no tratados. En este caso
numérico, los tratados tienen 0,23 veces menos probabilidades de presentar el evento de
interés, relativo a las probabilidades de los no tratados. Esta medida tiene, sin embargo,
algunos inconvenientes para su integración como dato a la gama de elementos de juicio
para las decisiones clínicas: si la proporción del evento en tratados hubiera sido 0,003 y la
de éste en no tratados 0,013, el RR seguiría siendo 0,23 pero, como veremos, la diferencia
de riesgo absoluto subyacente es mucho menor.
b) Restar de la proporción del evento en los no tratados (placebo), la proporción del evento
en los tratados. Lo que resulta es una diferencia de riesgos absolutos de ocurrencia del
efecto, que se expresa como a/(a+b) - c/(c+d). En el ejemplo numérico, 0,13-0,03 = 0,10,
que es la disminución del riesgo de ocurrir el evento en el grupo tratado, si se lo compara
con el riesgo del grupo no tratado. Esta disminución del riesgo absoluto, se llama también
(en epidemiología tradicional), Riesgo Atribuible (p.ej.al efecto del tratamiento). Esta
medida de asociación es sensible al tamaño de las proporciones, además que su simple
relación. Si la proporción de eventos en tratados hubiera sido 0,003, y la proporción de
eventos en no tratados el 0,013, el RR seguiría siendo 2,3 pero la disminución del riesgo
absoluto sería sólo de 0,01, es decir, ¡10 veces menos!. Esta medida de asociación sigue
acercándose a ser más manejable por parte del clínico, pero aún no alcanza a vencer la
barrera de la intuición para parecer útil en la práctica.
Recientemente se ha aplicado a la clínica un concepto epidemiológico de “efecto”
claramente aceptable desde nuestro punto de vista intuitivo: el número de pacientes que es
necesario tratar (NNT) para obtener un éxito más que en el grupo en comparación
(controles: placebo o terapia alternativa), en un determinado plazo. (1) y que es el valor
inverso del valor de la disminución del riesgo absoluto: 1/ P en no tratados - P en
tratados, o bien:

NNT = 1/(a/(a+b)) -( c/(c+d)) (11)

(En el ejemplo ilustrado en la Tabla 6.3., 0,03-0,13 = - 0,10, cifra menor que 1, lo que
significa que el tratamiento es dañino. Su NNT es 1/0,1 = 10, que significa que, de cada 10
casos tratados, el tratamiento produce un caso menos de mejoría que el placebo.
Esta medida es de claro valor práctico ya que, no sólo permite hacerse una idea de la
efectividad (NNT = 2 implica necesitar tratar dos pacientes para obtener una mejoría más
que en el grupo testigo, lo que habla de un muy buen tratamiento), sino que facilita la

56 La razón para hacerlo así, P de no tratados/P de tratados, es algo más que un convencionalismo que
cualquiera puede violar (p.ej., haciéndolo al revés), pero que conviene seguir para obtener una medida de
asociación que fácilmente evoque “beneficio”, lo que resulta de medidas cuyos valores son más de 1. Como
P/de no tratados es mayor que en los tratados -si el tratamiento es efectivo y lo que se estudia es la no
aparición de un evento- entonces la medida será mayor que 1. En todo caso, la operación de dividir una
proporción por otra depende del concepto implícito en la hipótesis del estudio.

145
comparación entre tratamientos alternativos (un tratamiento con un NNT = 10 es mejor que
un tratamiento cuyo NNT = 100). Además, los efectos adversos de los tratamientos pueden
expresarse del mismo modo, lo que facilita hacer el balance que siempre debe hacerse ante
las de decidir cierta terapia para cierto paciente.
El significado del valor de un NNT depende de la naturaleza de la enfermedad para
cuyo tratamiento se están calculando.
NNT=5 puede ser un valor mediocre (como ocurre respecto a los β2 agonistas en
bronquiolitis) o muy bueno, como ocurriría para un tratamiento que tuviera este valor en
pacientes con SIDA.
A todas las estimaciones de estas medidas de asociación se les debe hacer sus
correspondientes intervalos de confianza del 95% para estimar la precisión de cada una de
ellas.
La forma de calcular los intervalos de confianza de los NNT no está del todo aclarado.
Existen varios métodos, de los cuales el más simple consiste en lo siguiente: (2)
Comparar dos proporciones por medio de la prueba de Z. De aquí resulta una diferencia, un
error estándar de la diferencia y los dos extremos de su intervalo de confianza. 1/diferencia
entre las proporciones = NNT.
Los intervalos de confianza de NNT se pueden calcular dividiendo 1 por el valor de los
límites logrados de la prueba de Z (se debe invertir los valores resultantes si se quiere
mantener la costumbre de anotar primero el intervalo menor y luego el mayor).
Ejemplos:
En el meta-análisis de Rosenfeld RM et al sobre el tratamiento con antibióticos de la otitis
media aguda (OMA) (3), Tabla V, pág 362, se puede leer, en la columna RD (diferencia de
tasas57), la diferencia entre la proporción de éxitos correspondientes a los regímenes
terapéuticos comparados en términos del efecto primario, expresado como “respuesta
clínica a la terapia antimicrobiana” al momento más cercano a los 7-14 días de
tratamiento”. Entre los argumentos para juzgar la eficacia de los regímenes terapéuticos
aparece el NNT, dando como referencia el artículo de Laupacis A. et al (referencia #1) que,
aunque analiza el concepto de NNT, no proporciona la forma de determinar sus intervalos
de confianza.
De la tabla del meta-análisis mencionado (modificada ad hoc) puede concluirse que los
NNTs de expuestos a tratamiento, necesarios para lograr un efecto beneficioso (respuesta
clínica favorable en los términos anotados), son los siguientes:

Tabla 6.4.
Diferencia de NNT
Controles vs tratados riesgo (DR)
No ABX vs PNC 0,157 6,4
No ABX vs AminoPNC 0,129 7,7
No ABX vs cualquier ABX 0,137 8,8
AMP vs PNC -0,680 14,7
AMP vs PNC/SSX 0,009 111,0
AminoPNC vs ERI 0,031 32,0
AminoPNC vs TMP-SMX 0,002 500,0
AMX vs CFC 0,064 15,6
AMX vs CFX -0,039 25,6

57 Pueden entenderse que son proporciones x 100.

146
CFC vs ERI/SSX 0,07 14,3
CFC vs AMX/CLV 0,028 35,7
CFC vs CFX 0,012 83,0
Los autores concluyen que en OMA los antibióticos tienen indicación pero modesta ya que,
de 7 tratados, por lo menos 6 no experimentarán mejoría en los términos especificados.
También apuntan que la cobertura con betalactámicos no mejora la eficacia del tratamiento
de la OMA (Los valores de DR negativos indican que los controles evolucionaron mejor
que los tratados). Al margen de las conclusiones específicas que se puede extraer del
estudio en relación al tratamiento antibiótico de la OMA, los datos permiten comparar los
diferentes regímenes de un modo más cercano a las necesidades de la incertidumbre clínica,
que lo que pudieran hacer las simples diferencias de proporciones (o tasas), los RR y, desde
luego, los valores de “p”. En este estudio, los autores no proporcionan los datos que
originan las tasas, por lo que no es posible apreciar su exactitud (intervalos de confianza).
Este meta-análisis merece otros reparos metodológicos más importantes, pero ha sido usado
para ilustrar el concepto de NNT.

Otro ejemplo, esta vez usado para llevar a cabo un análisis costo-beneficio, se refiere a la
conveniencia de hacer profilaxis con Inmunoglobulina anti Virus Sincicial Respiratorio
(IGRVSR) en ciertos grupos de lactantes menores de alto riesgo (4). En este estudio, que
no es un meta-análisis, y en el cual falta la mención del método para construir intervalos de
confianza, los que al parecer no son correctos en el texto (indispensables para hacer
análisis de sensibilidad en este tipo de trabajos)58, los autores concluyen que esta profilaxis
-muy costosa- en condiciones “plausibles” no se justifica en niños sin enfermedad
pulmonar (displasia broncopulmonar), de acuerdo al siguiente análisis (Tabla 2, pág 362
del artículo):

58 Algún grado de imprecisión puede ser aceptable, pero no el omitir de qué modo se construyeron los
intervalos de confianza. Las citas hablan de la utilidad de los NNT, pero no proporcionan el método para
hacerlo.

147
Tabla 6.5.

Número necesario a tratar (NNT) para prevenir 1 hospitalización (más que por el
tratamiento control) por infección por VRS.

Tasa de hospitalizaciones (N°/N Total)


Controles Tratados
con IGVSR IC 95% *
ARR NNT NNT * IC 95%
Todos los 15,1 9,0 (49/544) 0,061 16,4 16,3 12,5 a 23,8 10 a 44
casos (85/564)
Prematuros
≤6m
Sin DBP 8,1 (9/111) 6,5 (6/93) 0,016 65,2 62,5 11,5 a ? 11,4 a -18
Con DBP 17,4 8,9 (14/157) 0,085 11,8 11,8 63 a 100 63 a 100
(26/149)

ARR: Reducción del Riesgo Absoluto


(*) Valores corregidos según Locallio R. (2)

La conclusión parece razonable: Para lograr evitar una hospitalización por infección por
VSR, se necesita tratar 12 niños con displasia broncopulmonar, en contraste con los 62-65
necesarios para lograr lo mismo, si se aplica la IGVSR en niños ≤ 6 m sin esta afección.
Los autores omiten el límite derecho (mayor) del IC 95% del segundo grupo (prematuros
≤ 6m sin displasia broncopulmonar) porque tiene signo negativo, lo cual implica que la
profilaxis con IGVSR podría ser contraproducente.

NNT y ORs:

Los meta-análisis entregan resultados, generalmente, en términos de ORs. El cálculo de


NNT a partir de OR es más complicado porque no contamos con las tasas de efecto, sino
sus ORs. La solución depende de si la intervención objeto del meta-análisis tiene por objeto
curar o prevenir (5).
Para hacer el cálculo, se debe conocer P0 (valor de la hipótesis nula o tasa del evento en los
controles), lo que no siempre aparace en los artículos. Si se sabe o se encuentra entre los
datos (como debiera ser), la manera de calcular los NNT es la siguiente:

Prevención: 1-[P0 * (1 – OR)] / [1-P0 * P0 * (1-OR)]


Terapia: [P0 * (OR-1) + 1] / [P0 * (OR – 1) * (1-P0)]
(Tabla 8.e de Hoja 10, STATSLP).
Como puede verse, los NNTs pueden calcularse a partir de:
Proporciones correspondientes al efecto en casos y controles, RRs y ORs. Los intervalos de
confianza pueden construirse usando P0 y los valores de los límites de de confianza del
OR.

148
BIBLIOGRAFIA:

1) Laupacis A, Sackett DL, Roberts RS “An assessment of clinically useful measures of the
consequences of treatment” NEJM 1988; 318:1728-33.
1) Locallio R, Center of Clinical Epidemiology and Biestatistics. University of
Pennsylvania. 1998; Comunicación personal.
2) 3) Rosenfeld RM, Vertress JE, Carr J, Cipolle RJ,Uden DL,Glebink GS, Canafax DM
“Clinical efficacy of antimicrobial drugs for acute otitis media: Metaanalysis of 5400
children from thity-three randomized trials”.J.Pediatr. 1994; 124:355-67)
3) Robbins JM, Tilford JM, Jacobs RF, Wheeler JG, Gillaspy SR, Schutze GE “A
number-needed-to-treat- analysis of the use of respiratory syncytial virus immune
globulin to prevent hospitalization”. Arch.Pediatr. Adolesc Med. 1998; 152:358-66.
4) McQuay HJ, Moore RA “Using numerical results from systematic reviews in clinical
practice”. Ann.Intern.Med. 1997; 126:712-20.

149
Apéndice 5.

Glosario.

(Las definiciones que siguen no están en orden alfabético debido a los múltiples
cambios, reemplazos y agregados que ha sufrido el texto, con el consiguiente
problema de ordenar las bibliografías, cada vez, en orden correlativo o a su vez, en
orden alfabético, lo que haría perder utilidad a la ordenación de las citas. En alguna
próxima edición arreglaremos esto: cuando creamos que es la última).

Validez (Concepto central): Grado en que los resultados de cualquier estudio clínico
epidemiológico se acercan a la “verdad” o realidad. (0) 59

Hay, no obstante, otros puntos de vista importantes. Desde el punto de vista de la calidad
de un estudio (bondad de sus características por reducción al máximo de los riesgos de
sesgo), que es un concepto multimensional, debe entenderse dos dimensiones de “validez”
en un estudio.
Validez interna: es el grado en que la probabilidad de sesgo o error sistemático ha sido
minimizado en el estudio (0a). Por ejemplo, el sesgo de selección, que afecta a la
asignación de los pacientes a los grupos en comparación; sesgo de ejecución
(“performance”) que consiste en provisión desigual de cuidados – fuera – de la
intervención que se está estudiando; sesgo de detección, que afecta a la medición del
resultado o evento de interés; sesgo de “atrición”, que consiste en la aparición y manejo de
desviaciones del protocolo inicial y pérdidas durante el seguimiento
Validez externa: Grado en que los resultados de un estudio proveen bases correctas para
generalizarlos a otras circunstancias. Obviamente, la validez interna es prerequisito para la
validez externa. Un estudio sin validez interna hacen del asunto de la generalización
(validez externa) una redundancia de “invalidez” (0a).
Es conveniente saber que, mientras mayor exigencias cumple un estudio en aspectos de
validez interna, más se aleja de lograr validez externa. Esta aparente paradoja no es tal: la
mayor pulcritud de un estudio (p.ej. un ensayo controlado de una vacuna), más parecido es
el ensayo a una situación de “laboratorio” condición que, en la vida real, está lejos de
cumplirse (0b).

Riesgo absoluto: Es la probabilidad de ocurrencia de cierto evento. Se calcula a partir de


una tasa o un porcentaje. P.ej., si la tasa de ataque de enfermedad reumática es 3%, el
riesgo absoluto de contraer esta enfermedad, para un individuo expuesto (enfermo de
estreptococcia faríngea), es 3/100 = 0,03.

Razón: (1) Contiene un numerador que representa el número de individuos o eventos que
satisfacen cierto criterio. El denominador corresponde al N° de individuos o eventos que
satisfacen un criterio diferente.

A N° de mujeres de 10 años 36 = 1,2


B N° de varones de 10 años 30

59 La expresión exacta de los autores citados en (0) es: “... el grado en que los resultados de un estudio no
están distorsionados por algunos aspectos sesgados en el diseño del estudio y/o análisis”. Hay otras
definiciones del término, pero se refieren aspectos instrumentales asociados a exactitud y precisión.

150
Proporción: (1) Expresión que contiene un numerador cuya cantidad representa el número
de individuos o eventos que satisfacen cierto criterio y un denominador, que representa la
cantidad máxima de individuos o eventos que podrían satisfacer tal criterio (y constituyen
el total):

A N° de niñas de 10 años 36 = 0,3


A+B N° niñas de 0 a 14 años 126

(Note que “niñas de 10 años” es un subgrupo del universo “niñas de 0 a 14 años” y 0,3 es
la proporción de niñas de 10 años en tal universo).

Porcentaje: (1) Es una proporción multiplicada por 100: 0,286 x 100=28,6%.

Tasa: (1) Es una medida de riesgo, entendido éste como probabilidad de ocurrencia de un
evento. El numerador de una tasa es el número de individuos o eventos que satisfacen
cierto criterio. El denominador es el número de unidades de exposición contempladas en el
recuento del numerador (por ejemplo, personas/año). Se agrega una base (p.ej., x 1.000.
P.ej., Tasa (cruda) de natalidad:

N° de nacimientos en cierto año


Población estimada a mediados del año especificado x 1.000

RIESGO: (Adaptado de referencia # 1)


En general: Probabilidad de ocurrencia de algún evento indeseado.
Específicamente: Probabilidad de que personas no enfermas expuestas a ciertos factores
o que poseen ciertas características clínicas o demográficas, desarrollen enfermedad (2).
Expresión y medición de riesgo:
Una primera forma "cruda" de medir riesgo es por medio de proporciones y tasas. Esta
forma de expresar (o medir) el riesgo tiene su mayor aplicabilidad en salud pública y se
expresa en una variedad de formas (incidencia, prevalencia, etc.). En todas estas formas es
conveniente especificar con cuidado el denominador y el lapso a que se refiere la tasa.
Otra forma de medir el riesgo es la de riesgos relativos, de creciente interés en clínica
porque lo condiciona a factores (exposición) de enfermedad.
El riesgo es fácil de medir si los datos se organizan en una tabla de 2 x 2 , en la cual los
individuos están clasificados según la presencia o ausencia de enfermedad y la presencia o
ausencia de exposición u otro factor. La condición enfermedad (enfermo, no enfermo) está
arriba, mientras la condición exposición (expuesto, no expuesto) está en el borde izquierdo
de la tabla:

151
Tabla 6.6.

Condición Enfermo No enfermo Total


Exposición
Expuesto A B A+B
No expuesto C D C+D
Total A+C B+D A+B+C+D

Significado de las letras de la tabla:


A: Número de personas expuestas que están enfermas.
B: Número de personas expuestas que no están enfermas.
C: Número de personas no expuestas que están enfermas.
D: Número de personas no expuestas que no están enfermas.
A+C: Total de personas enfermas, independientemente de la condición exposición.
B+D: Total de personas no enfermas,, independientemente de la condición exposición
A+B: Total de personas expuestas, independientemente de la condición enfermedad.
C+D: Total de personas no expuestas.

Riesgo atribuible: (RA) A / (A+B) - C / (C+D) = Exceso de riesgo en los expuestos.

Riesgo atribuible por ciento. (RA%): RA / (A/ (A+B)) x 100 = Proporción de


enfermedad en expuestos, que se debe a la exposición (y que podría eliminarse eliminando
la exposición).

Riesgos relativos: Como concepto general, “riesgo relativo” es un término que se aplica a
las razones de riesgo (RR,OR), en cuanto relaciona riesgo en los casos, relativo al riesgo en
los controles. Sin embargo, no son equivalentes y deben usarse con propiedad: el Riesgo
Relativo (RR) en estudios prospectivos y el Odds Ratio (OR) en los estudios retrospectivos.
Riesgo relativo o razón de riegos(RR):

A / (A+B)
C / (C+D)
Número de veces en que aumenta la probabilidad de enfermar de los expuestos, en
comparación con el de los no expuestos.
Odds Ratio. (OR) o razón de disparidad60.

AD
BC

Número de veces en que aumenta la probabilidad de haber estado expuestos los enfermos,
en comparación con los no enfermos.

60O "razón de ventaja". Los intentos por traducir este término al castellano no han sido felices (Ver
referencia # 5 de esta sección).

152
Causalidad: (3)
Asociación que representa las relaciones causa-efecto y que sirve para guiar el concepto de
etiología, prevención, diagnóstico61 y terapia.

Criterios de causalidad:
a) Diseño del estudio: los diseños pueden ordenarse por su capacidad de demostrar
causalidad:
Ordenados de mayor a menor capacidad de demostrar capacidad:
Experimental
Cohorte prospectiva
Cohorte histórica
Caso-control
Corte transversal (o de prevalencia).
(Notar la ausencia de los diseños descriptivos)
b) Fuerza de la asociación: Tamaño del estimador de causalidad (Riesgo relativo, Odds
Ratio, etc.) Mientras más se aleje éste, hacia arriba o abajo, del valor de la hipótesis nula
(RR=1), mayor será la probabilidad de causalidad. La significación estadística aporta
fuerza; la falta de ella la disminuye.
c) Consistencia: significa la llegada a las mismas conclusiones sobre causalidad, de
diversos diseños, en épocas o tiempos diferentes, diversas circunstancias y lugares, diversas
poblaciones.
d) Relación temporal correcta: a causa debe preceder al efecto. El cumplimiento de este
requisito no garantiza causalidad per se.
e) Relación dosis-respuesta entre el efecto y la causa (exposición y gravedad de la
enfermedad). La falta de esta condición no descarta causalidad (hay exposiciones que
requieren alcanzar un umbral antes de producir el efecto).
f) Plausibilidad: grado en que la relación causa-efecto está de acuerdo con el conocimiento
actual sobre la distribución y mecanismos biológicos del efecto (enfermedad). La
plausibilidad no es ni necesaria ni suficiente para establecer causalidad.
g) Especificidad: Relación en la que un único factor produce un único efecto;
v.gr.enfermedades infecciosas, defectos genéticos monogénicos. La especificidad, fuera de
este contexto debe considerarse como poco probable. (La mayoría de los efectos biológicos
-enfermedades- son multifactoriales).
h) Analogía: Existencia de otro modelo causa-efecto análogo al propuesto. Ello apoya la
causalidad pero sólo débilmente (p.ej., efecto de una droga teratógena sugiere que otra
puede provocar un efecto análogo en circunstancias análogas.
Estos criterios de causalidad son, a lo sumo, necesarios pero no suficientes para establecer
causalidad.
El término "factor" (de...) lleva implícito el concepto de causalidad en los términos
anotados. También otros como "relación entre".(A y B)."Influencia de"..(A sobre B).
También suele haber alusión implícita de causalidad en términos como "examinar el valor
de..", "evaluar la importancia de...", etc.
En medición de hechos o datos:
Exactitud: grado en el cual cierta medición mide -efectivamente- lo que se pretende que
mida.

61¡Sorpresa!:
la sensibilidad y especificidad de determinada prueba diagnóstica es causada por la
enfermedad correspondiente.

153
En otros términos, es el grado en que los resultados de una medición corresponden al
verdadero estado del fenómeno que se ha medido.
Precisión o confiabilidad: Grado en que la medición repetida de un fenómeno estable da
resultados que son similares.
Odds ratio, razón de odds o “razón de disparidad”.
(El lector tendrá que excusarnos por usar este diagrama y la explicación que sigue.
Creemos que ilustra bien el desarrollo del concepto "odds ratio")62. (Figura 6.1).

Recordar que Odds= P/(1-P)

Sea una población cualquiera A:


En esta población, la posibilidad de sus integrantes de estar o no expuestos a un factor de
cierta enfermedad, origina las dos categorías exhaustivas: expuestos y no expuestos (Los
valores de las tasas son arbitrarios). Note que A1+A2, p1+q1, p2+q2 siempre suman 1.

Figura 6.1.

Población A. Odds de enfermar Odds ratio


p
1
A Enferma Odds a favor
1 n de enfermar
de los
expuestos
(A1)

Expuestos: (1 - p1) = p1/q1


0,30 q1
No enferman p1/q1

p = OR
2
Enferma
n
A (1 - p2) = Odds a favor
2 q2 de
enfermar de
los no
expuestos
(A2)
p2/q2 p2/q2
No expuestos: 0,70
No enferman

En la categoría de los expuestos (A1), un grupo enferma (p1) y el resto no (q1).

62 En Herrera P. y Duffau G. “Estudio Caso-Control”, Mediterráneo, Santiago, 1997.

154
En la categoría de los no expuestos (A2), un grupo enferma (p2) y el otro no (q2).
En cada una de las dos categorías, la suma de los grupos es igual a 1 (complementarios).
Si odds es la probabilidad de que un evento se produzca (p1), dividido por la probabilidad
de que no se produzca (q1), se puede advertir que la razón de odds entre expuestos y no
expuestos es (p1/q1) / (p2/q2), equivale a p1q2 / p2q1 (derivado de
p1 : p2
. q1 q2

En la Tabla 1 es fácil reconocer que p1 = A (expuestos que enferman), q1=B, (expuestos


que no enferman), p2=C (no expuestos que enferman) y q2=D, (no expuest os que no
enferman). Luego, el odds ratio de expuestos, relativo a los no expuestos es AD/BC.

Intervalo de confianza (del 95%): Tramo de valores en torno al estadígrafo estimado en


la muestra, entre cuyos extremos puede encontrarse, con probabilidad del 95%, el
estadígrafo real del universo correspondiente (promedio, proporción, etc.). En general, se
calcula a partir del estadígrafo estimado ± 2 (1,96) veces el correspondiente error estándar.
La amplitud del tramo depende del tamaño de la muestra. Mientras mayor ésta, más
estrecho el IC 95%. Mientras más estrecho, más precisa la estimación del estadígrafo.

Hipótesis: Es una proposición que puede ser verdadera o falsa. En general, las
proposiciones de interés clínico hacen referencia a la existencia de una diferencia entre
variables de dos grupos de individuos o eventos (p.ej., la diferencia de sobrevida entre dos
terapias).

Hipótesis nula: Se denomina así la proposición según la cual no hay diferencias entre dos
grupos de individuos o eventos. Específicamente, cuando se compara un grupo con
características conocidas, con otro con características desconocidas, el valor de la variable
(en que se comparan ambos grupos) correspondiente al primero se denomina "valor de la
variable bajo la hipótesis nula" (de no diferencias). Este valor es muy importante: a) Es el
punto de referencia para la comparación o valor respecto al cual existen las diferencias
hipotéticas, y b) permite acotar el tamaño muestral adecuado para detectar tal diferencia,
establecida hipotéticamente a priori, en conjunto con otros elementos. De éstos, son
importantes los niveles de errores α y β, los cuales se estipulan, también, a priori.

Hipótesis alternativa: Se denomina así la proposición según la cual hay diferencias entre
los dos grupos mencionados. Estipulado el valor bajo la hipótesis nula, el valor la hipótesis
alternativa define la diferencia a detectar con las pruebas de significación estadística.

Prueba de hipótesis:

Procedimiento para probar si una proposición es verdadera o falsa. P.ej., A≠ B

155
Prueba de significación estadística:

Procedimiento matemático para medir el papel del azar en la aparición de una diferencia.

El concepto de “P0” (o “valor bajo la hipótesis nula”).

a) En estudios prospectivos (cohortes, ensayos terapéuticos controlados): Es la proporción


(o incidencia) un evento de interés en la población “control”, o bien, la probabilidad del
evento a ser contrastarla con la probabilidad de un evento (efecto) esperado, dada la acción
de un factor (por ejemplo, una nueva terapia; o bien, la probabilidad de ocurrencia de un
efecto, dado un factor hipotéticamente asociado a él, antes de hacer la prueba de hipótesis).
Por ejemplo: si la incidencia de secuelas en niños que tuvieron meningitis bacteriana es
estimada en, digamos, 38% y se espera que una cierta terapia (por ejemplo, dexametasona
dada en forma precoz) la mejorará disminuyendo esta cifra (p.ej. 17%), el valor de P0 es
38% o 0,38 (6).
b) En estudios retrospectivos controlados (caso-control), el valor de P0 es la probabilidad
(o tasa) de exposición al factor hipotéticamente asociado al evento de interés (enfermedad),
en la población que no presenta el evento de interés (enfermedad). Aquí el problema reside
en que no siempre es fácil encontrar los valores de P0 para este objeto.
Por ejemplo: si suponemos que la pertenencia al grupo sanguíneo B es factor asociado a
susceptibilidad a la fiebre tifoidea, el valor de P0 está representado por la frecuencia de este
grupo en la población sana (o general). En el Area Norte de Santiago, alrededor de 10% o
0,1 (7). Este valor se contrasta con otro resultante de un procedimiento algebraico
complejo, para expresar la medida de asociación OR.

El concepto de “P1” (o “valor bajo la hipótesis alternativa”).

Si P0 es el valor de la variable, evento o tasa de incidencia en la población de referencia,


P1 es un valor (esperado) diferente, mayor o menor que el de P0 de la variable, evento o
tasa de incidencia, según sea razonable suponer, propuesto por la hipótesis del estudio (que
se suele llamar “hipótesis de trabajo”).

Probabilidades de error por azar.


Al contrastar una hipótesis sobre la existencia de una diferencia con la realidad (pruebas de
hipótesis, habitualmente de significación estadística), la alternativas son las siguientes
(Tabla 6.7.):

156
Tabla 6.7.

Diferencia real

Presente Ausente

a b
Significativa Correcto Error tipo I
Conclusión (α)
de la prueba
estadística c d
No Error tipo Correcto
significativa II (β)

En la tabla (Adaptada de referencia # 2), la concordancia entre la realidad y el resultado de


la prueba de significación estadística, casilleros a y d, hacen que la conclusión sea correcta.

Error tipo I o error alfa: Si el resultado de la prueba de significación estadística lleva a


concluir que existe una diferencia, cuando en realidad no la hay (casillero b), se habla de
error tipo I o error α. El área (probabilidad) de la curva normal que se elige generalmente
es 0,05 (5%). Puede expresarse, también como “aceptación de la hipótesis alternativa,
siendo ésta falsa”.

Error beta: Si el resultado de la prueba de significación estadística lleva a concluir que no


existe una diferencia, cuando en realidad sí la hay (casillero c), se habla de error tipo II o
error β. El área (probabilidad) de la curva normal que se elige generalmente, es 0,20
(20%). Puede expresarse, también, como “aceptación de la hipótesis nula siendo ésta
falsa”.
Poder de un estudio: Se denomina poder o potencia de un estudio, su propiedad de no
incurrir, luego de la aplicación de la prueba de significación, en error tipo II o β. El poder
se expresa como 1- β, que equivale a 1- 0,20 = 0,80 (80%).

Asociación: Se denomina así la relación entre dos características, por la cual el valor de
una permite predecir el valor de la otra (4,5).
Fuerza de una asociación: Se denomina así el grado en que el valor de la hipótesis
alternativa se aleja del valor de la hipótesis nula. En el caso de los riesgos relativos, el valor
de la hipótesis nula es 1 (p.ej., 0,50/0,50 = 1). La "fuerza" de la asociación está dada por el
grado en que el resultado de la comparación se aleja de 1 (p.ej., 0,01 o 3).

"p": es el valor del área bajo la curva normal (probabilidad) resultante de aplicar una
prueba de significación estadística. Convencionalmente, dos poblaciones o colecciones de
eventos se consideran significativamente (estadísticamente) diferentes, si este valor no
excede (o no alcanza a, según algunos) 0,05. Por consiguiente, la información que
proporciona una valor "<0,05", es que se puede aceptar, con un 95% de probabilidad de
exclusión del azar, que los grupos difieren entre sí (o pertenecen a universos diferentes).

157
El valor de la hipótesis nula, la dimensión esperada de la asociación (diferencia entre
proporciones, RR u OR), el nivel de error tipo I y el de tipo II son elementos
indispensables para calcular la muestra al preparar un protocolo dirigido a probar una
hipótesis.

Error “delta”: Hay quienes llaman así al error en que se incurre, al calcular un tamaño de
muestra, al djudicar a la dimensión de la asociación esperada (o diferencia entre
proporciones o riesgos) un valor inadecuado (frecuentemente demasiado grande, lo que
favorece el error tipo II). De aquí el siguiente consejo para quienes usarán Epi-Info para
calcular tamaños de muestras: no buscar tamaños de “n” muy pequeños a costa de
dimensiones de asociación muy grandes.

Análisis de “intención de tratar”: Análisis que de hacerse en primera instancia, una vez
terminado el estudio, comparando los pacientes según el grupo al que fueron asignados
aleatoriamente (grupo post aleatorización), independientemente del grado de cumplimiento
de los pacientes, eventual sesgo por mecanismo de “contaminación”, o abandono del
estudio (8). Las ventajas de este procedimiento (y no, simplemente, eliminar los pacientes
que correspondan a alguna de las situaciones descritas), serían:
a.Contribuir a mantener el equilibrio de factores pronósticos en ambos grupos (casos y
controles).
b.Limitar inferencias basadas en grupos ad hoc definidos arbitrariamente o ad hoc
(“resultantes” o “sobrevivientes” de la población en estudio). En suma, limitarse a inferir
sobre un número menor que el previsto u otros mecanismos que reducen el poder para el
análisis de la hipótesis inicial.
c.Refuerza la necesidad de poder dar cuenta de todos los pacientes incluidos en el estudio.
d.Es el modo más cauteloso de enfrentar el riesgo de caer en error tipo I.
e.Permite generalizar mejor los resultados.
Hay quienes sostienen que este mecanismo de análisis empuja los estudios a error tipo II y
agregan otras críticas a este enfoque cauteloso.
El asunto es más complejo, si se piensa que no todas las pérdidas de pacientes afectan de la
misma manera los resultados. Fergusson et al. (8) discuten cuidadosamente este último
punto y terminan recomendando adherir a los estándares más estrictos para minimizar la
pérdida de pacientes después de la aleatorización.
No está permitido en estudios de equivalencia terapéutica porque podría favorecer error
tipo II.

158
BIBLIOGRAFIA:

0).Kleinbaum DG, Kupper LL, Morgenstern H “Epidemiologic Research” Van Nostrand


Reinhold Co. NY 1982. pág.2.
0a) Jüni P, Altman DG, Egger M “Assessing the quality of controlled clinical trials” BMJ
2001; 323:42-46.
0b) Clemens J, Brenner R, Rao M, Tafari N, Lowe C. “Evaluationg new vaccines for
developing countries”. JAMA 1996; 275:390-97.
1) Essex-Sorlie D "Medical Biostatistics & Epidemiology". Lange,USA, 1995.
2) Fletcher RH, Fletcher SW, Wagner EH "Clinical Epidemiology". Williams & Wilkins,
USA, 1996.
3) Knapp RG, Miller MC "Clinical Epidemiology & Biostatistics". Harwal
Pub.Co.Pennsylvania, 1992
4) Dawson-Saunders B. "Basic & Clinical Biostatistics" Lange, USA, 1994.
5) Tapia JA et al Bol.Of.Sanit.Panam. 1994; 117:239-57.
6) ) Odio C, Faigenzicht I, Paris M, Baltodano A, Rogers J et al "The beneficial effects of
early dexamethasone administration in infants and children with bacterial meningitis".
7) Herrera P., Valenzuela Y., Arias H., OLivarí F., Teran C., Ubilla C.,Bravo
P.,Farías P., Oviedo I. "Asociaciones de los fenotipos sanguíneos ABO, Rh y MNSs a
Fiebre Tifoidea en el niño". Rev.Med.Chile 1992; 120: 986-93
8) Fergusson D, Aaron SD, Guyatt G, Hébert P. “Post randomisation exclusions: the
intention to treat principle and excluding patients from analysis.

159
Apéndice 6.

Lecciones de una experiencia de análisis sistemático de literatura clínica.

Durante el desarrollo del 5° Curso de Introducción a la Medicina Basada en Evidencias,


luego de haber analizado los principales diseños de estudio para determinar etiología,
diagnóstico, pronóstico, terapia, meta-análisis, se ofreció para su análisis un estudio
descriptivo con gruesos errores metodológicos y de análisis bioestadístico, cuyo objetivo
era evaluar la recomendación de usar antibióticos a la brevedad, en todo paciente
sospechoso de padecer enfermedad meningocóccica (Objetivo explícito: evaluar terapia).
Los participantes se desconcertaron e interpretaron de diversas maneras el estudio, a pesar
de estar establecido, al final de la introducción del artículo, que el objetivo era evaluar una
terapia.
La discusión ulterior dió lugar a la siguiente lista de observaciones:

• No analice artículos fuera de contexto; siempre tenga un propósito preciso para hacerlo:
para resolver problemas específicos de sus pacientes.
• Identifique cuál es el propósito del autor (ojalá, también, el objetivo). Si el propósito
coincide con el suyo, emprenda el análisis. Si no hay propósito claro, respete la
evidencia: no lo hay. No lo suponga usted.
• Cuando haya un propósito bien definido y éste coincida con el suyo, examine qué
diseño usará el autor para lograr su objetivo.
• Identificado el diseño, examine si es el más apropiado para lograr el objetivo.
• Tal examen debe terminar dejando claro si se trata a) de un estudio descriptivo o b) de
un estudio analítico.
• Los estudios descriptivos no tienen hipótesis propiamente tal.
• Si es descriptivo, debe contemplar: el o los estadígrafos descriptivos (p.ej., medias,
proporciones, coeficiente de regresión, etc). Medidas de dispersión (p.ej., Desviación
Estándar, Error Estándar, Intervalo de Confianza del 95% . Ocasionalmente, un estudio
63

descriptivo puede tener pruebas de significación estadística, lo cual no respalda


conclusiones como si hubiese sido puesta a prueba una hipótesis. (Estudios
"correlacionales").
• Los estudios analíticos tienen que tener una hipótesis.
• El que haya una hipótesis implica: a) estar expresada en una proposición cualitativa
(p.ej., A es mejor que B). b) Un valor de referencia (H 0, P0, X0, etc.) ; c) Una 64

diferencia a detectar (P1 -P0, RR mínimo a detectar, OR mínimo a detectar, etc.). d) Un


nivel de error tipo I o alfa, bi o unilateral; e) Un nivel de tipo II o beta; siempre
unilateral. f) Uno o más estadígrafos descriptivos (p.ej., proporciones, promedios) g)
Una o más medidas de dispersión (p.ej., Desviación Estándar, Error Estándar, Intervalo
de Confianza del 95%) h) Pruebas de significación estadística (p.ej., Chi cuadrado,
Fisher de probabilidad exacta, t de Student, Wilcoxon, U Mann Whitney, etc.). i) Un
nivel de significación para interpretar los resultados de las pruebas de significación
estadística (típicamente, P≤ 0,05. Puede ser menor. Rara vez, puede ser mayor: 0,10). J)
Generalmente se incluye, además los otros procedimientos estadísticos que se usarán
(p.ej., análisis multivariado, estratificado o regresión logística, etc.).
63 Generalmente. A veces se estipulan más o menos exigentes.
64 H0 = hipótesis nula. P0 = proporción correspondiente al valor bajo la hipótesis nula. X0 = promedio bajo
la hipótesis nula.

160
• Si el estudio es el ensayo de una prueba diagnóstica, debe haber una comparación con
un patrón de oro y tal comparación debe ser independiente y ciega.
• Si el estudio es sobre pronóstico, debe haber una cohorte incipiente y un seguimiento
completa de ella.
• Si el estudio es una ensayo terapéutico, debe haber controles, aleatorización, evaluación
independiente y ciega del efecto esperado y cuenta de todos los pacientes incluidos al
comienzo.
• Si el estudio es sobre etiología y se compara dos cohortes, éstas deben diferir sólo en el
aspecto pronóstico y todos los pacientes deben haber tenido la misma probabilidad de
ingresar al estudio. RECUERDE: EN EL ESTUDIO DE COHORTES PARA
65

ENSAYOS TERAPEUTICOS, LO QUE EL INVESTIGADOR SABE CON


CERTEZA ES LA EXPOSICIÓN (tipo, dosis, oportunidad, etc). Ignora el efecto (o la
proporción de éste) que tendrá la exposición sobre el grupo intervenido.
• Si el estudio es del tipo caso-control, los pacientes deben diferir sólo en su condición de
"caso" o "control". Todos los pacientes deben haber tenido las mismas probabilidades
de ingresar al estudio. RECUERDE: EN ESTE DISEÑO, LO QUE EL
INVESTIGADOR SABE CONCERTEZA ES EL EFECTO: LA CONDICIÓN DE
"CASO" O "CONTROL". Ignora el grado o proporción de exposición en los grupos.
• No suponga lo que no aparece explícito en el texto. Suponer lo inexistente no es
basarse en evidencias.
• Finalmente, no se desanime. Nadie nació sabiendo. Un curso de tres semanas es sólo
una introducción. La destreza se adquiere practicando esta disciplina para resolver
problemas de pacientes.

65 Esta es una forma resumida de decir que los grupos están exentos de sesgos, por ejemplo, de selección.

161
Apéndice 7.

Equivalencia clínica.

El incluir este apéndice no tiene por objeto agregar contenidos al curso de análisis
sistemático. Por ser este Manual la única manera (hasta ahora) de diseminar el producto de
nuestro estudio y actividad de análisis de literatura, nos pareció esencial comunicar a
ustedes los problemas que se asocian a la llamada equivalencia clínica.
No se trata de equivalencia o igualdad en “bioequivalencia” ni biodisponibilidad, tan
comunes en los folletos de promoción de medicamentos. Se trata de efecto clínico
equivalente y, eventualmente, los efectos adversos asociados. El asunto de la equivalencia
clínica debería ser común en nuestros países, necesitados como estamos de ajustar nuestras
necesidades a nuestras posibilidades. Y si hay un terreno arduo aunque ignorado en
equivalencia clínica, es el referido al uso de antibióticos
El problema “equivalencia” surge cuando queremos decir que da lo mismo usar una terapia
A que una B. Desde un punto de vista metodológico, probar que A y B son iguales no es
posible. Ello se expresaría, en términos bioestadísticos, de la siguiente manera: H0=H1, lo
cual expresa ¡la hipótesis nula! Si uno no se percata de esto y se hace el planteamiento
inocente para la hipótesis que dice que H0≠ H1, y se va, por ejemplo, a EPI-Info a hacer el
cálculo muestral, encontrará una sorpresa (Haga lo siguiente: vaya a Epi-Info y ponga
como “% de expuestos=9,00” y como % de “no expuestos=8,99”. Note que ambas cifras no
son iguales, sino casi iguales. El número de la muestra no cabe en el programa. El intento
de comparar dos efectos iguales, termina en una cifra de tamaño muestral = ∞.
Un documentado análisis habla de las pretendidas “equivalencias terapéuticas”: de 88
estudios proponiendo este tipo de equivalencias, sólo 45 (51%) estaban diseñados para este
objeto. De éstos, sólo en el 23% los métodos estadísticos fueron apropiados (1). De este
análisis, el elemento más importante –además del panorama desastroso que revela- es que
la equivalencia basada en que resultó un “p<0,05” es espuria y, con la mayor probabilidad,
se debe a defectos metodológicos.
Uno de los problemas centrales de este asunto deriva de que pueden ser considerados
equivalentes dos terapias cuyos efectos presentan una diferencia tan pequeña o
clínicamente no significativa, que equivalen. El establecimiento clínico de tal diferencia no
puede ser hecho en forma frívola, sino con extremo cuidado: no escapará al lector el
problema ético que esto encierra.
Digamos que existe un método para resolver el problema bioestadístico (cálculo de tamaño
y análisis muestral basados en límites de confianza) (2), pero la parte esencial del asunto es
la identificación de la mencionada diferencia. El método estadístico viene después de una
hipótesis formal que, en este caso es al revés de lo habitual: Al revés de lo de siempre, la
hipótesis nula consiste en que H0=H1, y la hipótesis alternativa dice que H0 difiere de H1.
El tamaño numérico de la diferencia tiene mayor o menor trascendencia según de qué
patología se trate. Si decidimos que dos terapias antigripales sintomáticas, son equivalentes
aunque una reduce las molestias en un tiempo 15% menor que la otra, hablamos de algo
totalmente diferente de considerar equivalentes dos tratamientos de pielonefritis cuyo
efecto difiere en un 15% de cicatrices renales (3).
Por ello, el problema debe ser convertido en la siguiente proposición: “dos tratamientos son
equivalentes cuando, existiendo una diferencia clínicamente no importante, el efecto del
tratamiento de referencia o ya en uso incluye en su intervalo de confianza del 95%, el

162
resultado del tratamiento alternativo (que se pretende equivalente) y su correspondiente IC
del 95%”.
En el gráfico de abajo se ilustra este concepto. Sólo los resultados cuyos límites de
confianza caen totalmente dentro de el intervalo de confianza previsto en la hipótesis (en
este caso ± 0,05), pueden consierarse equivalentes. Los que cortan los límites del intervalo,
deben ser considerados inciertos, mientras los que caen fuera de éste, deben consoderarse
NO equivalentes (Adaptado de referencia N° 2).

-0,15 0 +0,15
Intervalo de confianza del 95% preestablecido.

(Las líneas horizontales representan intervalos de confianza. No están representados los


estimadores del efecto, habitualmente representados como una x o una pequeña línea
vertical con tendencia central).

El intervalo de confianza del 95% del tratamiento de referencia corresponde a un estudio


conocido, bien hecho, que aportará una medida de efecto y su correspondiente IC 95%.
Este truco permite achicar el tamaño muestral para hacer posible el estudio. De todos
modos, éste es grande.
Otro enfoque es el que no considera una modificación de la hipótesis, pero establece una
diferencia mínima razonable, en cuyo caso el tamaño muestral es mayor aún. En este tipo
de planteamiento, se debe establecer previamente si se tratará de un estudio de
superioridad (ensayo controlado corriente, en el que el supuesto es que el nuevo
tratamiento es mejor que el estándar) o de equivalencia, en cuyo caso el rigor metodológico
se extrema (4).
Para usted, que es lector más que investigador de equivalencias, hay un recurso de análisis
que conviene saber. Primero, decida si la diferencia entre los tratamientos establecida en la
hipótesis (P.ej. antibióticos) lo deja tranquilo o no. En cualquier caso, usted puede plantear
la hipótesis que el tamaño muestral no aportó al diseño el poder para detectar una
diferencia menor que la elegida por los autores, lo que quiere decir que el N es insuficiente
y el estudio – hipotéticamente – está afectado de error tipo II o beta. Para saber cuánto es el
poder del estudio, usted tendrá todo lo necesario: Po, P1 (y, por consiguiente la diferencia),
alfa (0,05 o, mejor, 0,025) n1 y n2 (el número de tratados en el grupo con tratamiento
estándar y el número del grupo tratado con el régimen “equivalente”. Sólo le faltará saber
el valor del error tipo II o beta (y 1-beta= poder). Para ello, STATSLP2001 tiene una
forma de hacerlo para usted.

163
En STATSLP, note que la planilla incluye la alternativa “unilateral”. Se usan las opciones
unilaterales cuando el diseño establece una superioridad pero ésta es lo suficientemente
pequeña como para aceptar la equivalencia.

Sin entrar aún en la estructuración de guías de análisis, cada vez que se enfrenta este tipo
de artículos (cada vez más frecuentes), se deben examinar los siguientes aspectos:
a)¿ Hay una hipótesis explícita de equivalencia?. ¿Está bien formulada?.
b)¿Hay una diferencia clínicamente aceptable como “equivalente”?.
c) Ignore los valores de “p” y vaya directamente a examinar los límites de confianza del
intervalo del 95% de los resultados. Si el intervalo de confianza convencional (es decir, el
del efecto al que se pretende hacer equivalente la nueva intervención) abarca en forma
íntegra el del resultado del resultado presuntamente equivalente, puede considerar aceptar
la equivalencia. Más adelante se ensaya un cuestionario para estos efectos.

164
BIBLIOGRAFIA:

1) Greene WL, Concato J, Feinstein AR, “Claims of equivalence in medical research:


Are they supported by the evidence?”. Ann.Intern.Med. 2000; 132:715-722.
2) Jones B, Jarvis P, Lewis JA, Ebbutt AF “Trials to assess equivalence: the importance
of rigorous methods”. BMJ 1996; 313:36-39.
3) Hoberman AH, Wald ER, Hickey RW, Baskin M, Charron M, Majd M et al. “Oral
versus initial intravenous therapy for urinary tract infections in young febrile
children”. Pediatrics 1999; 104: 79-86.
4) Djulbegovic B, Clarke M “Scientific and ethical issues in equivalence trials”. JAMA
2001; 1206-1208.

165
CUESTIONARIO N° 7.

CUESTIONARIO TENTATIVO PARA ANALIZAR UN ARTICULO SOBRE


EQUIVALENCIA TERAPÉUTICA CLINICA.

a) ¿Cumple el diseño estrictamente las exigencias de un ensayo aleatorio, controlado y


ciego?.66
Si así es:
b) ¿Hay una hipótesis explícita de equivalencia o de superioridad?
c) ¿Se establece qué diferencia entre tratamientos podría aceptarse como sin
importancia clínica?
d) ¿Es tal diferencia razonable?.
e) ¿Aparece en la sección “métodos” el valor del tratamiento estándar?. (Po)
f) ¿Hay un tamaño de muestra suficiente que respalde la expresión “p>0,05”?
g) ¿Está el IC 95% de la diferencia entre tratamientos dentro del IC 95% de la diferencia
prevista?.
h) ¿Hay análisis de “intención de tratar? (No debe haberlo)
i) Fuera del efecto específico para el que se estudia equivalencia, ¿se da cuenta de otros?.
(p.ej.Efectos adversos).
j) ¿Tiene alguna ventaja clínica la equivalencia?.

66 Particularmente: ¿Hay pérdida de pacientes?. Hay “contaminación”?. ¿Hay evaluación objetiva e


independiente de los resultados?.

166
Apéndice 8:

Los diseños de investigación clínica: ventajas y desventajas.

El principio que comanda la jerarquización de los diferentes diseños de investigación


clínica es la relación entre cada uno de éstos y “la verdad” correspondiente. Sabemos que
“la verdad” científica es una utopía. De aquí el ponerla entre comillas.

En términos generales, los diseños se pueden agrupar en descriptivos y analíticos.

A.Estudios descriptivos: son estudios en los que el objetivo es describir una entidad o
fenómeno sin intentar su explicación, ni derivar de la descripción hecha consecuencias en
aspectos como diagnóstico, terapéutico o pronóstico. Los estudios descriptivos pueden
clasificarse de varios modos, de los que el más común se relaciona con el número de
individuos seleccionados para el diseño:

Un caso.
Grupos de casos.
Grandes series de casos.
Corte transversal (Cross sectional).
Exploratorio.

Aunque los estudios descriptivos constituyen la gran masa de los diseños presentados a
congresos y publicados en revistas del ámbito de Latino América, su desarrollo y utilidad
no han sido apropiadamente considerados ni estudiados.

Un objetivo de la presentación de uno o más casos, suele ser la intención de dar cuenta de
una entidad o evento nuevo o único en un contexto geoepidemiológico dado. Esto es, a
nivel mundial (p.ej. La descripción de la enfermedad de Kawasaki), a nivel regional
(descripción de los síndromes virales emergentes) o, simplemente, a nivel nacional.
En este caso, el valor intrínseco del diseño descriptivo resalta por sí solo, a condición de no
caer en lo que son los inconvenientes más frecuentes: error al identificar lo que parece una
entidad clínica distinta, por adjudicar al síndrome básico de ella –por ejemplo- sus
complicaciones, o confundir entidades parecidas como una sola. No es raro leer que tal o
cual síndrome “no ha sido descrito en nuestro medio”, en circunstancias de que tal
afirmación es falsa y se debe a falta de rigor en la búsqueda bibliográfica que,
paradojalmente, tiende a desconocer la del propio país del autor.
Otro objetivo, particularmente importante y asociado a las series de casos, es el de
establecer las bases para la construcción de hipótesis, sobre todo cuando cumple con el
número y calidad de “casos” (y el denominador poblacional correspondiente) para dar
cuenta de una tasa de incidencia o prevalencia de eventos de interés, que pueden elegirse de
una gran diversidad de aspectos. En estos casos, los errores más frecuentes se relacionan
con el sitio en que se realiza (generalmente hospitales terciarios), la falta de delimitación de
la procedencia de los casos o, nuevamente, la mezcla eventual de entidades parecidas en lo
que se presenta como una sola.
Dentro de este tipo de diseños pueden incluirse algunos “estudios piloto”, cuyo objeto es
obtener un valor (“estimación”) con el cual comparar el derivado de la influencia de otro
evento hipotético, obviamente en un estudio ulterior, analítico. En tal caso, el evento que se

167
intenta estimar en una población debe estar muy bien definido y el grupo empleado para la
descripción ser representativo de la población en cuestión. En otras palabras, estos estudios
descriptivos aportan el “valor bajo la hipótesis nula” de una hipótesis operacional formal
adecuadamente construida.
El corte transversal, recurso epidemiológico común en salud pública, proporciona a veces
gran cantidad de información, necesaria para el diseño de políticas de salud. A este tipo de
estudios descriptivos pertenece el diseño usado para describir el comportamiento de una
prueba diagnóstica en la dase II.
Nótese que los resultados de una descripción se harán, casi siempre, en términos de medias,
medianas, rangos, error o desviación estándar y, muy especialmente, proporciones. Cuando
lo que se busca es obtener una tasa (proporción o porcentaje), es imprescindible tener una
idea del tamaño de la población, de un valor razonable del valor de la proporción o
porcentaje buscado y la precisión de la medición, previendo un error que, generalmente, es
de 5% o menos. En otras palabras, se requiere hacer un cálculo de tamaño muestral que
asegura en la medida que interese, la representatividad del grupo estudiado, en relación con
la población (universo) de la que se extrae.
Un diseño no descrito en los textos de Epidemiología, pero muy común en la literatura, es
el que hemos llamado diseño exploratorio. Este diseño es fácilmente “transformado” por
los autores en un aparente seguimiento de dos cohortes cuando, en realidad, es una serie de
casos dividida en dos grupos cuya observación es declarada “prospectiva”. O bien, usando
el mismo mecanismo, se hace un análisis retrospectivo tomando los dos grupos como
“casos” y “controles”, declarándolo como un estudio “caso-control”.
En realidad, es muy útil buscar la división de una serie (grande) de casos en dos grupos
definidos por una variable que cumpla, a la vez, con representar un factor de interés y ser
razonable como elemento de subdivión del grupo de casos en dos (eventualmente más, si se
prosigue hjaciendo análisis exploratorios en subgrupos). Este tipo de estudios es
recomendable cuando se es conciente de sus limitaciones y sus ventajas. La gran ventaja es
la búsqueda de asociaciones de interés para usarlas en la formulación de hipótesis
operacioinales en los estudios analíticos, en cuyo caso estas descripciones son análogas a
los “estudios piloto”, aunque un poco más complicadas. El hecho más importante a tener en
cuenta es que los resultados de estos análisis pueden sugerir hipótersis pero, en ningún
caso, entender que sus resultados son los de un estudio analítico. ¿Cómo se reconocen estos
estudios meramente exploratorios, independientemente de la declaración de sus autores?.
Simplemente porque sistemáticamente carecen de una hipótesis operacional razonable,
hecha a priori. ¿Cómo saber si fue o no hecha a priori?. No lo fue si no aparecen los
componentes del cálculo del tamaño muestral supeditado a la hipótesis operacional formal.
En este sentido, la ausencia de estos elementos distintivos de los estudios analíticos, no
siempre aparecen en el texto publicado de éstos, lo cual se presta para malas
interpretaciones por parte del lector poco avezado.

Inconveniente general de los estudios descriptivos: la eventual asociación entre una


determinada realidad y la expuesta en el trabajo es débil (poca validez). Cuando no lo
parece, la asociación debe ser objeto de un diseño analítico.
Ventajas: claramente, la mayor ventaja es que suelen consumir mucho menos tiempo y
costos, además de trabajo analítico. Bien hechos, representan una fuente de ideas para
estudios analíticos. La declaración del uso de estadígrafos o pruebas de significación
estadística, niveles de “p”, etc. no garantizan, de por sí, la naturaleza analítica de un
artículo.

168
B.Estudios analíticos:

En orden de validez ascendente (ya definida en secciones anteriores), todos por encima de
los diseños descriptivos, son:

Diseño caso-control.
Diseño (de seguimiento o comparación ) de cohortes (habitualmente dos).
Diseño experimental: Ensayo Clínico Controlado, Aleatorio, Ciego (ECC).

Los detalles de estos diseños han sido examinados en los capítulos de este manual y pueden
revisarse en textos clásicos de Epidemiología, por lo que omitiremos aquí mayores
comentarios.
Baste decir que la mayor validez la tiene el ECC y la menor, las descripciones de casos. A
su vez, la dificultad para desarrollarlos, aumenta hacia los mayores grados de validez. Es,
pues, un axioma: a mayor validez, menor factibilidad.

169
Excusas: el autor pide rendidas excusas por el sinnúmero de neologismos y fracasos de
traducción del inglés al castellano. Ha preferido incurrir en esta falta para no caer en otra
peor: encontrar un mal sinónimo castellano que más confunde que aclara.

Agradecimientos:

A Julita, por su compañía y paciencia.


A los muchos que han forzado, más que –simplemente “hacer posible”-, el nacimiento de
este Manual: los incontables estudiantes, particularmente de post título para quienes,
sépanlo o no, se ha hecho este esfuerzo. A los más de 70 médicos pediatras de toda
América Latina que han confiado en nosotros y han dedicado con entusiasmo y esfuerzo
tiempo precioso de sus vidas, asistiendo a los Cursos para Pediatras: Introducción a la
Medicina Basada en Evidencias, en el curso de los cuales su entusiasta participación, su
actitud de sana crítica y aportes a la revisión sistemática hechos durante los ejercicios, han
constituido buena parte del material incluido en el Manual. . A los colegas que nos han
acompañado en la aventura, Dres. Gastón Duffau, Carlos Ubilla, María Angélica
Palominos; a los numerosos participantes en las sesiones del Club de Revistas del Hospital
Roberto del Río y a los que recién se inician en esta disciplina por ser, estos últimos, un
potente estímulo para perfeccionar esta tarea inconclusa. A la Sociedad Latinoamericana de
Infectología Pediátrica (SLIPE) por haber sido la institución que, confiando en nosotros,
nos ha respaldado incondicionalmente durante los diez últimos años.

Dr.Patricio Herrera L.
Profesor de Pediatría y Enfermedades Infecciosas
Epidemiólogo Clínico.
M.Sc. Universidad de Pennsylvania.
Febrero, 2004.
MANUAL 2004.

170