Sie sind auf Seite 1von 20

CONCORDANCIA Y CONSISTENCIA

INDICE CONCORDANCIA Y CONSISTENCIA...................................................................................3 CONCORDANCIA ENTRE OBSERVADORES..................................................................3 Conceptos generales............................................................................................................3 Limitaciones del estadstico Kappa.....................................................................................6 Recomendaciones................................................................................................................6 Manejo del submdulo de concordancia entre dos observadores con dos o ms categoras de observacin y solucin a los ejercicios.......................................................................... 8 Manejo del submdulo de concordancia entre tres o ms observadores con dos o ms categoras de observacin y solucin a los ejercicios....................................................... 10 Bibliografa....................................................................................................................... 12 COMPARACIN DE NDICES KAPPA............................................................................13 Conceptos generales..........................................................................................................13 Manejo del submdulo de comparacin de kappas y solucin al ejercicio...................... 13 CONSISTENCIA: ALFA DE CRONBACH........................................................................14 Conceptos generales..........................................................................................................14 Manejo del submdulo de consistencia: Alfa de Cronbach..............................................19 Bibliografa....................................................................................................................... 19

CONCORDANCIA Y CONSISTENCIA
Este mdulo aborda las tcnicas ms utilizadas para el anlisis de concordancia entre observadores y para el anlisis de consistencia interna de cuestionarios. Los dos primeros submdulos se dedican a las distintas situaciones en que se puede necesitar calcular el ndice de concordancia y el kappa de Cohen: dos observadores con dos o ms categoras de clasificacin y tres o ms observadores con dos o ms categoras de clasificacin. El tercer submdulo presenta un mtodo de contraste de hiptesis de igualdad de kappas. Por ltimo, el cuarto submdulo se destina a la tcnica ms comn para analizar la consistencia interna de cuestionarios: el coeficiente alfa de Cronbach.

CONCORDANCIA ENTRE OBSERVADORES Conceptos generales


Se dice que un instrumento o procedimiento es preciso si sus resultados son consistentes cuando se aplica ms de una vez al mismo individuo bajo las mismas circunstancias. La precisin de un procedimiento se ve afectada por dos factores fundamentales: la variacin propia del instrumento o procedimiento y la variacin del examinador. La primera de ellas tiene que ver con la calidad y calibrado del instrumental de medida y diagnstico, por ejemplo, el nivel de calidad y mantenimiento de un equipo radiogrfico. La variacin del observador o examinador est relacionada con su entrenamiento, formacin y capacidad, y tambin se llama error del examinador. A menor variacin de ste, mayor precisin se consigue a la hora de realizar una prueba y, por tanto, ms vlido ser el resultado. La variacin de un observador respecto de s mismo, de un estndar (prueba de oro) o de otros observadores, se puede medir por medio de la concordancia alcanzada al examinar y clasificar una serie de elementos (pacientes, radiografas, muestras biolgicas, etc.). Por tanto, la precisin de las observaciones puede evaluarse de varias formas: 1. Comparando un observador consigo mismo para estudiar el grado de concordancia de sus decisiones (concordancia intraobservador). Por ejemplo, entregndole a un radilogo dos o ms veces la misma serie de radiografas para que las clasifique como sospechosas de tuberculosis o libres de sospecha. 2. Comparando un observador con un estndar. Por ejemplo, para estudiar el grado de concordancia de un reactivo utilizado en tamizaje frente a una prueba de confirmacin. 3. Comparando varios observadores entre s para medir el grado de acuerdo entre ellos. Epidat 3.1 calcula alguno de los estadsticos que dan informacin cuantitativa del grado de concordancia en diferentes situaciones, como son el ndice de concordancia o acuerdo observado, el kappa de Cohen y los valores mnimo y mximo de kappa. Para hacer ms fluida la explicacin se referir al punto 3 (concordancia entre observadores), puesto que no hay diferencias con el 1 el 2 a efectos de clculo. Acuerdo observado (ndice de concordancia). Es la primera aproximacin a la concordancia entre observadores; resulta, por tanto, la ms intuitiva. Simplemente expresa el porcentaje de

acuerdo entre ellos, es decir, en qu medida hubo coincidencia en la clasificacin entre los observadores en relacin al total de elementos examinados. El problema que plantea este ndice bsico es que una parte de ese acuerdo, en principio desconocida, puede deberse exclusivamente al azar. Pngase, como ejemplo extremo, que dos ciudadanos, sin ningn tipo de formacin especializada, clasifican una serie de sujetos en sanos o sospechosos de enfermedad, en vez de hacerlo dos especialistas en el tema. Indudablemente, los diagnsticos sern coincidentes para cierto nmero de sujetos, pero no debido a la coincidencia de criterios de los observadores, sino simplemente por azar. Cmo se puede cuantificar el grado de acuerdo una vez eliminada la parte que puede atribuirse solamente al azar? Para ello se dispone del kappa elaborado por Cohen en 1960. Kappa de Cohen. El ndice kappa relaciona el acuerdo que exhiben los observadores, ms all del debido al azar, con el acuerdo potencial tambin ms all del azar. En esencia, el proceso de elaboracin del ndice es el siguiente: se calcula la diferencia entre la proporcin de acuerdo observado y la proporcin de acuerdo esperado por azar; si sta es igual a cero, entonces el grado de acuerdo que se ha observado puede atribuirse enteramente al azar; si la diferencia es positiva, ello indica que el grado de acuerdo es mayor que el que cabra esperar si solo estuviera operando el azar y viceversa: en el caso (ciertamente improbable) en que la diferencia fuera negativa entonces los datos estaran exhibiendo menos acuerdo que el que se espera solo por concepto de azar. Kappa es el cociente entre esa cantidad y el acuerdo mximo que se puede esperar sin intervencin del azar. Este ndice cumple las caractersticas que Hirji y Rosove (1990)1 definen que debe tener una medida de concordancia: primero, cuando los observadores son independientes, toma el valor 0; en segundo lugar, alcanza el valor mximo de 1 slo si hay acuerdo perfecto entre los observadores y, por ltimo, nunca es menor que 1. La siguiente pregunta que surge sobre el ndice kappa es: qu valor de kappa se puede considerar como indicador de buena concordancia? No hay una respuesta exacta; lo que se considera adecuado o no va a depender del problema que se est estudiando. No se espera la misma concordancia entre psiquiatras o psiclogos, entre cuyos pacientes muchas veces es difcil objetivar sntomas, que entre radilogos de un programa de deteccin precoz de cncer de mama, entre los que el grado de acuerdo debera ser elevado. Landis y Koch propusieron en 19772 una escala de interpretacin del valor de kappa que considera como aceptable un valor mayor o igual a 0,40 y excelentes los valores superiores a 0,75. Kappa mnimo y mximo. El valor mximo de kappa, 1, se da si hay total coincidencia entre los observadores; es decir, se produce cuando el acuerdo observado es del 100%, y slo en esta situacin. Sin embargo, puede darse el caso de que el acuerdo observado sea alto y, en cambio, se obtenga un valor de kappa prximo a cero. Supngase tres situaciones en las que el acuerdo observado es del 90%:
Situacin A
Observador 1

Situacin B Observador 1 + + 89 2 8 1 + -

Situacin C Observador 1 + 55 0 10 35

+ Observador 2 + 1 6

4 89

La situacin A se da cuando la prevalencia del fenmeno es baja entre los sujetos observados; en esos casos, el nmero de verdaderos negativos es elevado y es ms alta la probabilidad de que los dos observadores clasifiquen a los sujetos como tal, de modo que la coincidencia atribuible al azar ser mayor. En consecuencia, dado que kappa elimina la influencia del
4

azar, se obtendrn valores bajos de dicho coeficiente (kappa=0,115). Lo mismo sucede si la prevalencia es alta, como en el ejemplo B (kappa=0,127). En situaciones intermedias, por ejemplo la C, la distribucin de los acuerdos es ms simtrica y se obtienen valores de kappa ms altos (kappa=0,794). Es decir, la paradoja de valores altos de acuerdo observado asociados a valores bajos de kappa, descrita por Feinstein y Ciccheti 3, se explica porque, para un valor fijo del acuerdo observado, la magnitud de kappa depende de la prevalencia del fenmeno estudiado. Indudablemente, esta circunstancia configura un defecto del coeficiente que se est tratando. En particular, las comparaciones entre coeficientes kappa estimados en poblaciones con prevalencias muy diferentes pueden resultar conflictivas. Esto afecta tambin a la pertinencia de las calificaciones sugeridas por Landis y Koch2. Entre las soluciones propuestas para este problema est la de Lantz y Nebenzahl4, quienes sugieren que el ndice kappa se acompae con los estadsticos kappa mnimo y mximo, que corresponden, respectivamente, a los valores mnimo y mximo de kappa para un nivel dado de acuerdo observado. Epidat presenta estos valores en el caso de dos observadores con dos categoras de clasificacin. Tipos de aplicaciones de kappa. La aplicacin ms simple y comn del anlisis de concordancia se da en el caso de dos observadores y dos categoras de clasificacin. Sin embargo, kappa se puede calcular en situaciones ms complejas, como cuando son dos los observadores pero tres o ms las categoras de clasificacin, cuando son tres o ms los observadores y dos las categoras, e incluso el caso ms general en que son tres o ms, tanto los observadores, como las categoras posibles de clasificacin. Cuando las categoras son ms de dos se puede calcular el coeficiente para conocer el grado de acuerdo entre los observadores en cada una de las categoras, de manera independiente. Para estudiar ms profundamente las diversas opciones citadas, se sugiere acudir al captulo 13 del texto de Fleiss5. El ndice kappa mide el grado de acuerdo entre los observadores, no la calidad de la observacin, por lo que no procede considerar a uno de los observadores como estndar. Aunque el desarrollo inicial del estadstico kappa estuvo dirigido a la medicin del acuerdo entre observadores, en realidad tiene utilidad para medir, en datos categricos, otros aspectos como similitud o agrupamiento; tal sera el caso, por ejemplo, cuando se quiere determinar el grado de similitud entre controles emparejados en un estudio de casos y controles5. Kappa ponderado. Supngase que las categoras de clasificacin son ms de dos y estn definidas en una escala ordinal, como por ejemplo sano, posiblemente enfermo y claramente enfermo. A la hora de valorar el grado de discrepancia entre dos observadores, no es lo mismo que uno clasifique a un sujeto como posiblemente enfermo y el otro lo declare sano a que uno lo clasifique como sano y el otro como claramente enfermo. La distancia entre ambas discrepancias no es la misma. Cuando ciertos tipos de desacuerdo son ms acusados que otros, al investigador le puede interesar tenerlo en cuenta en la construccin del ndice kappa. Para ello, se ha sugerido ponderar las diferentes discrepancias, usando una matriz de pesos que pueden variar segn el criterio del investigador en funcin de lo que est analizando, aunque siempre cumpliendo ciertas restricciones, bastante intuitivas: puesto que kappa no hace distincin entre los dos observadores, la matriz debe ser simtrica; adems, a la diagonal de acuerdos se le asigna el mximo peso, que es 1 y el resto de pesos deben ser inferiores, aunque siempre positivos o iguales a cero. Epidat 3.1 incorpora, adems de la opcin manual, los dos tipos de ponderacin ms comunes: los pesos cuadrticos y los de Ciccetti. Ambos se basan en las distancias relativas entre las categoras de clasificacin, con la nica diferencia de que los primeros utilizan
5

diferencias al cuadrado y los otros operan con diferencias en valor absoluto, de modo que los pesos cuadrticos tienden a dar una ponderacin mayor a los desacuerdos. La opcin manual permite introducir desde el teclado los pesos que desee el usuario con las restricciones mencionadas anteriormente.

Limitaciones del estadstico Kappa

El valor de kappa se ve afectado por la prevalencia del rasgo estudiado. Por tanto, es necesario ser cuidadoso a la hora de generalizar los resultados de comparacin de observadores en situaciones con prevalencias diferentes; esto quiere decir que kappa es un estadstico descriptivo til, pero es inadecuado con fines de prediccin o inferencia6. Kappa es dependiente del nmero de categoras. Cuantas ms categoras se estn considerando, ms difcil ser clasificar correctamente los sujetos de observacin, lo que habitualmente implica valores de kappa ms bajos7. Por tanto, debe tenerse en cuenta el nmero de categoras a la hora de interpretar kappa. Para datos ordinales derivados de categorizar variables continuas, el valor de kappa depende fuertemente de las a menudo arbitrarias definiciones que se hacen de las categoras. El uso de la ponderacin, aunque lgico y atractivo, introduce otro componente de subjetividad.

Recomendaciones

Tener en cuenta que el acuerdo observado (concordancia bruta) est afectado por el azar y por la distribucin de los valores en las celdas. Es insuficiente presentar un nico coeficiente o ndice; se recomienda la presentacin de los datos7. Es aconsejable presentar, junto al ndice kappa, sus valores mnimo y mximo, tal como sugieren Lantz y Nebenzahl4. Las soluciones para los desacuerdos inter e intra observadores deben buscarse en la estandarizacin de las mediciones y las reuniones de consenso sobre observaciones clnicas. El conocimiento sobre el origen de los errores ayuda en este proceso. Si la concordancia no puede aumentarse con estas estrategias, la solucin puede conseguirse a travs de las medidas mltiples. Dependiendo de cual sea la principal fuente de desacuerdo, las medidas deben realizarse por diferentes o por el mismo observador7. Hay otras medidas de concordancia y/o asociacin1,8, que se incluyen en el mdulo Tablas de Epidat 3.1, como son la de Kendall y la de Goodman y Kruskal para datos ordinales.

Ejercicios Ejercicio A. Suponga que a dos radilogos del programa de tuberculosis se les remiten radiografas de trax de 170 sujetos que estn controlados en una unidad de neumologa, y que se quiere estimar el grado de concordancia entre ellos. Los radilogos A y B tienen que clasificar cada radiografa en una de dos categoras: positiva (sospechosa de lesin

tuberculosa) o negativa (no sospechosa de lesin tuberculosa). Los resultados se muestran a continuacin: Radilogo A + 58 39 12 61

Radilogo B

+ -

Calcule la concordancia bruta entre los radilogos y el kappa de Cohen, con sus intervalos de confianza. Ejercicio B. (Modificado de: Banauch D, Koller PU, Bablok W. Evaluation of Diabur-Test 5000: a cooperative study carried out at 12 diabetes centers. Diabetes Care 1983; 6(3): 213-18.) Se desea estimar la concordancia entre dos pruebas diagnsticas de diabetes, el Diabur-Test 5000 y el Clinitest en 1.677 muestras de orina. Los valores obtenidos se muestran en la

tabla. Calcule el valor de kappa sin ponderar y ponderado por pesos cuadrticos.
Diabur-Test 5000

Clinitest

Negativo Trazas 1 2 3 5

Negativo 452 133 4

Trazas 5 270 36 5

1 28 107 53 12 2

2 1 5 76 28 11

3 2 2 28 81 44

2 4 35 251

Ejercicio C. Suponga ahora que una seleccin de 25 radiografas correspondientes a otros tantos pacientes del servicio de neumologa del ejercicio A, se entregan a un grupo de radilogos para que las clasifiquen de forma independiente. Por diversas razones, no todos los radilogos del equipo pudieron emitir juicio sobre todas las radiografas. Los resultados se presentan en la siguiente tabla: Paciente 1 2 3 4 5 6 7 8 9 10 11 12 13 Nmero de radilogos 4 3 4 5 3 4 4 5 5 5 3 2 4 Nmero de positivos 3 2 2 4 3 2 3 3 4 5 0 0 2 Paciente 14 15 16 17 18 19 20 21 22 23 24 25 Nmero de radilogos 4 3 5 5 3 4 4 3 2 5 4 4 Nmero de positivos 0 2 5 0 2 3 2 1 0 0 4 3

Analice la concordancia entre los radilogos calculando el valor de kappa y su intervalo de confianza. Ejercicio D. A usted le interesa afinar ms su anlisis de concordancia entre los radilogos del ejemplo anterior y selecciona un subgrupo de 15 pacientes cuyas placas entrega a los 5 radilogos del equipo para que las clasifiquen, de forma independiente, en una de las siguientes clases: muy sospechosas de lesin tuberculosa (Categora 1), sospecha ligera de lesin tuberculosa (Categora 2) o sin sospecha alguna de lesin tuberculosa (Categora 3). Los resultados se muestran en la siguiente tabla: Nmero de radilogos que clasificaron en cada categora Paciente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Categora 1 2 5 0 1 4 1 0 0 3 4 1 0 1 1 2 Categora 2 2 0 1 1 1 2 0 1 1 0 0 1 3 4 3 Categora 3 1 0 4 3 0 2 5 4 1 1 4 4 1 0 0

Calcule ahora el valor de kappa.

Manejo del submdulo de concordancia entre dos observadores con dos o ms categoras de observacin y solucin a los ejercicios
El submdulo de anlisis de concordancia de dos observadores con dos o ms categoras de clasificacin slo permite la entrada de datos desde el teclado. Ntese que, cuando se seleccionan ms de dos categoras, se activa la opcin para elegir el tipo de pesos, por si se desea obtener kappa ponderado. Epidat 3.1 da la opcin de utilizar pesos cuadrticos, pesos de Cicchetti o definir los pesos que el usuario considere oportunos; para visualizar los valores de los pesos en cada opcin, plsese el botn Ponderaciones.

Resultados del Ejercicio A con Epidat 3.1


Concordancia entre dos observadores con dos o ms categoras Nivel de confianza: Nmero de categoras: Tabla de clasificaciones 95,0% 2

------+ -

+ ---------58 12

---------39 61 0,7000 0,4875

Acuerdo observado: Acuerdo esperado: Kappa EE ---------- ---------0,4146 0,0655

IC (95,0%) ------------------------0,2862 0,5430 -0,1765 0,4495

Kappa mnimo: Kappa mximo:

Prueba de significacin Estadstico Z Valor p ----------------------------5,6855 0,0000

Resultados del Ejercicio B con Epidat 3.1 sin ponderar


Concordancia entre dos observadores con dos o ms categoras Nivel de confianza: Nmero de categoras: Tipo de ponderacin: 95,0% 6 No ponderar 1 --0 28 107 53 12 2 0,7376 0,2035 2 --0 1 5 76 28 11 3 --0 2 2 28 81 44 5 --0 0 2 4 35 251

Tabla de clasificaciones Negativo Trazas --------- ---------- -------Negativo 452 5 Trazas 133 270 1 4 36 2 0 5 3 0 0 5 0 0 Acuerdo observado: Acuerdo esperado: Kappa EE ---------- ---------0,6706 0,0130

IC (95,0%) ------------------------0,6450 0,6961

Prueba de significacin Estadstico Z Valor p ----------------------------57,0987 0,0000

Resultados del Ejercicio B con Epidat 3.1 ponderado por pesos cuadrticos
Concordancia entre dos observadores con dos o ms categoras Nivel de confianza: Nmero de categoras: Tipo de ponderacin: Tabla de clasificaciones 9 95,0% 6 Pesos cuadrticos

--------Negativo Trazas 1 2 3 5

Negativo ---------452 133 4 0 0 0

Trazas -------5 270 36 5 0 0

1 --0 28 107 53 12 2 0,9856 0,7165

2 --0 1 5 76 28 11

3 --0 2 2 28 81 44

5 --0 0 2 4 35 251

Acuerdo observado: Acuerdo esperado: Kappa EE ---------- ---------0,9491 0,0033

IC (95,0%) ------------------------0,9427 0,9555

Prueba de significacin Estadstico Z Valor p ----------------------------38,9823 0,0000

Manejo del submdulo de concordancia entre tres o ms observadores con dos o ms categoras de observacin y solucin a los ejercicios
Tres o ms observadores y dos categoras. Esta opcin sirve para analizar la concordancia cuando las categoras de observacin son dos (una variable dicotmica, en general PositivoNegativo), y los observadores son tres o ms. Hay que tener en cuenta que el nmero de observadores no tiene porqu ser igual en todos los sujetos que se deben clasificar; es decir, a un sujeto pueden, por ejemplo, clasificarlo cuatro observadores y a otro solo tres. Epidat 3.1 calcula el intervalo de confianza para kappa aplicando la tcnica jackknife 9, que permite estimar el error estndar en situaciones de cierta complejidad, como es el caso del coeficiente kappa con mltiples observadores. Este mtodo presenta ciertas ventajas sobre los procedimientos tradicionales: es una tcnica sencilla y aplicable en mltiples problemas, sin hacer hiptesis sobre la distribucin de la poblacin. Aunque se han desarrollado mtodos que mejoran la eficiencia del jackknife, como el bootstrap, contina siendo una tcnica til y muy usada. Al optar por la opcin de carga automtica se abre una pantalla para seleccionar el directorio y el archivo (Dbase, Excel o Access) que contiene la tabla de valores. Es necesario recordar que Epidat 3.1 requiere que las tablas que vayan a importarse tengan una estructura determinada (vase Tabla 1). Tabla 1. Formato de tabla preparada para importar datos desde Epidat 3.1 para el anlisis de concordancia entre tres o ms observadores y dos categoras de clasificacin. Sujeto SUJETO 1 2 3 4 ... N de observadores RADIOLOGOS 4 4 2 3 ... Clasificaciones (+) CLASIFIC 3 4 2 3 ...

10

Los datos de la Tabla 1 se encuentran en el archivo RADIOLOGAS-TB-XLS incluido en Epidat 3.1. Resultados del Ejercicio C con Epidat 3.1
Concordancia entre tres o ms observadores con dos categoras Archivo de trabajo: C:\Archivos de programa \Epidat 3.1 \Ejemplos\ Concordancia y consistencia \RADIOLOGAS-TB.xls Campo que contiene: Nmero de observadores : RADIOLOGOS Clasificaciones (+) : CLASIFIC Nmero de sujetos: Nivel de confianza: 25 95,0%

Kappa IC(95,0%) ---------- ------------------------0,2947 0,0126 0,5753 (Jackknife) Prueba de significacin Estadstico Z Valor p ----------------------------3,5255 0,0004

Tres o ms observadores y tres o ms categoras. Esta opcin sirve para analizar la concordancia cuando tanto las categoras de observacin como los observadores son tres o ms. A diferencia de la opcin anterior, todos los sujetos han de ser clasificados por el mismo nmero de observadores. Epidat 3.1 calcula el intervalo de confianza para kappa aplicando la tcnica jackknife 9, que permite estimar el error estndar en situaciones de cierta complejidad, como es el caso del coeficiente kappa con mltiples observadores. Este mtodo presenta ciertas ventajas sobre los mtodos tradicionales: es una tcnica sencilla y aplicable en mltiples problemas, sin hacer hiptesis sobre la distribucin de la poblacin. Aunque se han desarrollado mtodos que mejoran la eficiencia del jackknife, como el bootstrap, contina siendo una tcnica til y muy usada. Si selecciona la opcin automtica se abre una pantalla para indicar el directorio y el archivo (Dbase, Excel o Access) que contiene la tabla de valores. Es necesario recordar que Epidat 3.1 requiere que las tablas que han de importarse tengan una estructura determinada (vase Tabla 2). Tabla 2. Formato de tabla preparada para importar datos desde Epidat 3.1 para el anlisis de concordancia entre tres o ms observadores con tres o ms categoras de clasificacin. Sujeto SUJETO 1 2 3 4 5 ... Categora 1 CATEG1 2 5 0 1 4 ... Categora 2 CATEG2 2 0 1 1 1 ... Categora 3 CATEG3 1 0 4 3 0 ...

11

Ntese que la suma de las clasificaciones en cada sujeto es siempre la misma, en este caso 5. Los datos de la Tabla 2 se encuentran en el archivo RADIOLOGAS-TB-XLS incluido en Epidat 3.1. Resultados del Ejercicio D con Epidat 3.1
Concordancia entre tres o ms observadores con tres o ms categoras Archivo de trabajo: C:\Archivos de programa \ Epidat 3.1 \Ejemplos\ Concordancia y consistencia \RADIOLOGAS-TB.xls Campos que contienen las clasificaciones por categoras: CATEG1 CATEG2 CATEG3 Nmero de sujetos: Nmero de categoras: Nmero de observadores: Nivel de confianza:
Categora Kappa ---------- ---------CATEG1 0,3100 CATEG2 0,1136 CATEG3 0,3889 ---------- ---------Kappa global 0,2804

15 3 5 95,0%
Prueba de significacin Estadstico Z Valor p -----------------------3,7967 0,0001 1,3918 0,1640 4,7629 0,0000 -----------------------4,8234 0,0000

IC(95,0%) ----------------------0,0147 0,6303 -0,1273 0,3512 0,1366 0,6378 ---------------------0,0741 0,4836

Bibliografa 1. Shoukri MM. Measurement of Agreement. En: Armitage P, Colton T. Editores.


Encyclopedia of Biostatistics. Vol 1. Chichester: John Wiley & Sons; 1998. p. 103-17.

2. Cook RJ. Kappa. En: Armitage P, Colton T. Editores. Encyclopedia of Biostatistics. Vol 3.
Chichester: John Wiley & Sons; 1998. p. 2160-6.

3. Feinstein AR, Cicchetti DV. High agreement but low kappa. I. The problems of two
paradoxes. J Clin Epidemiol 1990; 43: 543-9.

4. Lantz CA, Nebenzahl E. Behavior and interpretation of the k statistic: Resolution of the
Two Paradoxes. J Clin Epidemiol 1996; 49(4): 431-4.

5. Fleiss JL. Statistical methods for rates and proportions. New York: John Wiley & Sons; 1981. 6. Thompson WD, Walters SD. A reapraisal of the Kappa coefficient. J Clin Epidemiol 1998;
41(10): 949-58.

7. De Vet H. Observer Reliability and Agreement. En: Armitage P, Colton T. Editores.


Encyclopedia of Biostatistics. Vol 4. Chichester: John Wiley & Sons; 1998. p. 3123-7.

8. Kramer MS, Feinstein AR. Clinical biostatistics. LIV. The biostatistics of concordance.
Clin Pharmacol Ther 1981; 29(1): 111-23.

9. Efron B, Tibshirani RJ. An introduction to the bootstrap. New York: Chapman & Hall; 1993.

12

COMPARACIN DE NDICES KAPPA Conceptos generales


Habitualmente los estudios de concordancia se repiten como parte de la evaluacin de un programa; tal es el caso, por ejemplo, del control de calidad de un programa de deteccin precoz de cncer de mama. Ante una serie de ndices kappa obtenidos en diferentes estudios y momentos, surge la pregunta: Son diferentes estos valores entre s? Epidat 3.1 tiene una opcin para contrastar la hiptesis de igualdad de kappas. Para dicha prueba de hiptesis se precisan los valores de kappa obtenidos y sus correspondientes errores estndar. Como se recordar, el error estndar est directamente relacionado con el nmero de sujetos examinados y es til para determinar el IC del coeficiente. Epidat 3.1 tambin obtiene un valor de kappa global, resumen de los que se estn comparando. Ejercicio De usted dependen dos unidades de diagnstico de tuberculosis (A y B). Cada seis meses remite a cada una de ellas un porcentaje de las tinciones realizadas en el semestre anterior con el objeto de comprobar la concordancia entre ellas. A las dos unidades le enva las mismas muestras, que tienen que ser clasificadas como "positivas" o "negativas". Los valores obtenidos en los dos ltimos aos se reflejan a continuacin: Semestre 1 Unidad A + Unidad B + 350 70 120 550 Unidad B + Semestre 2 Unidad A + 280 60 80 550

Semestre 3 Unidad A + Unidad B + 320 120 30 29

Semestre 4 Unidad A + Unidad B + 890 290 210 700

Calcule el kappa global. Con un nivel de confianza del 95%, Son diferentes los kappas obtenidos en los diferentes semestres?

Manejo del submdulo de comparacin de kappas y solucin al ejercicio


Este submdulo sirve para contrastar la hiptesis de igualdad de kappas. Para ello es necesario disponer del valor de cada uno de los kappas que han de compararse y de sus respectivos errores estndar. En la salida se presenta una estimacin global de kappa con su intervalo de confianza, y una prueba de homogeneidad que contrasta la hiptesis nula de que todos los coeficientes kappa que se comparan son iguales.

13

Si opta por la opcin automtica, se abre una pantalla para seleccionar el directorio y el archivo (Dbase, Excel o Access) que contiene la tabla de valores. Es necesario recordar que Epidat 3.1 requiere que las tablas que han de importarse tengan una estructura determinada (Vase Tabla 3). Tabla 3. Formato de tabla preparada para importar datos desde Epidat 3.1 para el anlisis de la comparacin de kappas. Kappas 1 2 3 4 Kappa estimado KAPPA 0,640 0,687 0,132 0,518 Error estndar ERROR 0,024 0,024 0,043 0,019

Para resolver el ejercicio es preciso calcular el kappa y el error estndar de cada tabla, para lo cual puede emplearse el primer submdulo de concordancia. Adems, los datos de la Tabla 3 se encuentran en el archivo SEMESTRES-TB-XLS incluido en Epidat 3.1. Resultados con Epidat 3.1
Comparacin de Kappas Nmero de kappas a comparar: Nivel de confianza: Kappa global -------------------0,5617 4 95,0%

IC(95,0%) ------------------------0,5379 0,5855

Prueba de homogeneidad de kappas Ji-cuadrado -------------------143,0515 gl ---------3 Valor P ---------0,0000

CONSISTENCIA: ALFA DE CRONBACH Conceptos generales


Este coeficiente se emplea para aquilatar cuantitativamente lo que ha dado en llamarse consistencia interna de una escala. Esta expresin exige, para comenzar, algunas precisiones. Ocasionalmente, los investigadores se ven ante la tarea de construir un indicador capaz de medir cierto concepto abstracto. En esa lnea se han desarrollado numerosos procedimientos con los que se intenta cuantificar nociones tales como, por poner algunos ejemplos, la capacidad de liderazgo, el grado de dolor que experimenta un politraumatizado, la gravedad de un proceso asmtico, la discapacidad funcional del anciano o la calidad de vida del trasplantado renal. Tal proceso es llamado en ocasiones "construccin de una escala". Indudablemente, esta expresin se ha acuado con bastante firmeza. A nuestro juicio, sin embargo, no es especialmente afortunada, ya que la palabra escala est reservada para denominar el tipo de medicin que se realiza o la mtrica que se emplea (nominal, ordinal, etc.); las escalas, por tanto, no se construyen sino que se usan en el acto de construccin de una variable o indicador.

14

Consecuentemente, se aludir en lo sucesivo a la construccin de una variable sinttica (VS) (vase Silva1) para referirnos a una funcin de un conjunto de variables intermedias o tems, cada una de las cuales contribuye a cuantificar algn rasgo del concepto cuya magnitud quiere sintetizarse. La creacin de una VS para la medicin de la salud personal (fsica y psquica) por medio del escrutinio mltiple de los sujetos, el cual aportaba puntajes para diferentes aspectos medidos en dichos individuos que producan una nica dimensin integrada, fue metodolgicamente impulsada en Estados Unidos con motivo de la segunda guerra mundial y en virtud de la necesidad de valorar grandes cantidades de reclutas2. Un uso muy extendido de este tipo de variables se produce en el campo de la psicologa, disciplina que quizs haya acopiado la mayor experiencia al respecto, tal y como testimonian los mltiples esfuerzos realizados desde la dcada del 40 bajo el auspicio de la American Psychological Association, profusamente citados en artculos clsicos de la poca, de los cuales quizs el ms connotado sea el de Cronbach y Meehl3. En casi todas las reas, la suma (ocasionalmente ponderada) de las puntuaciones de los tems individuales es el ndice ms empleado. Sin embargo, se ha insistido en que tal procedimiento es procedente slo si ellos estn midiendo de algn modo el mismo rasgo. Se suele afirmar que cuando los tems conciernen a atributos totalmente diferentes, no es en general razonable formar una nica variable sinttica con ellos. La materia prima de tal variable integrada suele ser el conjunto de respuestas a un cuestionario, en cuyo caso la VS se construye mediante alguna regla integradora de esas respuestas. La situacin tpica es similar a la que se produce con las famosas y controvertidas pruebas de inteligencia: tras indicarle la tarea de dar solucin a una serie de problemas que se puntan separadamente, al sujeto se le atribuye un puntaje global, con el que se calcula el polmico cociente de inteligencia conocido como IQ. Otro ejemplo clsico, en este caso de la clnica, es la propuesta de Apgar4 para cuantificar la vitalidad de un recin nacido en funcin del pulso cardaco, el esfuerzo respiratorio, el tono muscular, el color de la piel y la respuesta al estmulo producido por la colocacin de un catter en las fosas nasales. Las propiedades tcnicas fundamentales que se suelen demandar para una variable sinttica son que posea fiabilidad (reliability) y validez (validity). En este submdulo, Epidat se ocupa de una forma concreta de la fiabilidad. La llamada fiabilidad externa (esencialmente consistente en corroborar que se obtienen resultados muy similares cuando se repite la medicin) es una demanda cuyo inters para otorgar confianza a la VS es altamente intuitivo. Para medirla se han desarrollado diversos indicadores. Pero existe otra forma de fiabilidad de una VS, la llamada consistencia interna. En trminos generales, se dice que una VS exhibe consistencia interna cuando hay una alta concordancia entre los tems que la integran. En muchas situaciones, cuando se est midiendo cierto atributo, se quiere que los componentes que conforman la variable abarquen distintos aspectos de dicho atributo, y no cuestiones aisladas o ajenas entre s. Por ejemplo, si se est midiendo la habilidad de los estudiantes de medicina para resolver problemas clnico teraputicos, entonces cada rea, problema o tem del examen que mide esta habilidad debe estar relacionado con la resolucin de este tipo de problemas (no debera, por ejemplo, evaluar el conocimiento que tiene el estudiante sobre demografa o sobre el precio de los frmacos). En principio, tal condicin tiene dos implicaciones: a) que los tems deben estar correlacionados entre s y b) que cada tem debe estar correlacionado con la puntuacin total de la VS. La segunda condicin parece razonable, pero la primera es muy discutible, pues el

15

atributo global puede desagregarse en componentes que estn, en buena medida, mutuamente incorrelacionados, como se analiza ms abajo. La medicin de la consistencia interna ha sido objeto de diversas propuestas. Una de ellas es la llamada fiabilidad basada en mitades (split-half fiability). Este procedimiento exige realizar maniobras tales como la siguiente:

dividir (ocasionalmente se ha sugerido hacerlo al azar) en dos subgrupos a los tems que integran la VS, con una y otra mitad separadamente evaluar a los n sujetos que integren la muestra, computar las sumas resultantes al emplear cada mitad en cada sujeto, calcular la correlacin que exhiben esos n pares de valores.

Esta variante, sin embargo, presenta dos problemas. En primer lugar, el nmero de formas de hacer la divisin es enorme y cada uno de ellos arroja un resultado distinto. Concretamente, si los tems son k, entonces el nmero de maneras de dividir el conjunto de tems en mitades es igual al nmero de subconjuntos de tamao k/2 que pueden formarse con un conjunto de tamao k (por ejemplo, si k=10, hay nada menos que 252 formas de producir tal mitosis). Por otra parte, este procedimiento no permite identificar cules son los tems que contribuyen a una ocasional prdida de fiabilidad. En cualquier caso, es obviamente atractivo contar con una medida cuantitativa del grado en que los tems estn relacionados entre s; es decir, del grado de homogeneidad interna de la VS. El indicador ms connotado y famoso para medir esta forma de fiabilidad es el llamado coeficiente alfa, al que se denotar por C , propuesto por Cronbach5; cuando todos los tems o variables intermedias son dicotmicos, este coeficiente se reduce al conocido KR-20, coeficiente de Kuder-Richardson. El alfa de Cronbach tiene una propiedad atractiva: es igual al promedio de las correlaciones que se obtendran si se aplicara la fiabilidad basada en mitades para todas las maneras posibles de dividir los tems. En el ejemplo arriba mencionado, sera igual al promedio de las 252 coeficientes de correlacin susceptibles de ser obtenidos. En trminos prcticos, se le atribuyen dos usos bsicos. En primer lugar, como instrumento para la medicin de la homogeneidad interna de la VS mirada globalmente. En ese sentido, tiene un valor intrnseco. Pero tambin puede usarse como recurso para hacer juicios relativos, lo que tal vez constituya su virtud mxima consistente en que permite analizar la contribucin que cada tem particular hace a la homogeneidad de la VS. Tal contribucin se mide mediante el recurso de comparar el valor del coeficiente que se obtiene cuando se emplean todos los tems con el que resulta de hacer el clculo luego de haberse eliminado dicho tem. As, si alfa aumenta significativamente tras eliminar un tem especfico, esto indicara que la exclusin de este ltimo aumentara la homogeneidad de la escala y viceversa. El coeficiente alfa, sin embargo, es muy controvertido. Llama la atencin, de hecho, que medio siglo despus de su creacin, an sigan apareciendo artculos sugiriendo posibles interpretaciones y llamando la atencin sobre interpretaciones presuntamente errneas. Represe, por ejemplo, en los trabajos de Gardner6,7 y de Cortina8. Por ejemplo, Rubin9 menciona la posible existencia de subconstructos que no necesariamente estn relacionados entre s. Siendo as, segn este autor, un valor bajo de C puede producirse para una VS fiable (lo ilustra con una VS construida para medir el consumo diario de protenas: un tem puede medir el consumo de pescado y otro el de carne; la correlacin entre estos dos puede ser baja, ya que quien consume una cosa suele no consumir la otra el mismo da; y sin
16

embargo, la VS puede medir bien el constructo global de inters. Rubin tambin ilustra el caso en que una VS fiable puede exhibir tanto un C alto como un C bajo, y finalmente ofrece un ejemplo en que solo un C alto puede esperarse de una VS que sea realmente fiable. Tal debate, sin embargo, remite al examen del marco concreto en que se da cada problema, y desborda el alcance de la presente exposicin. Una discusin bastante completa puede hallarse en Streiner y Norman10. El primer problema que presenta C es que depende no slo de la magnitud de la correlacin entre los tems, sino tambin del nmero de tems involucrados. Se podra conseguir que una variable sinttica pareciera ms homognea simplemente duplicando (en general aumentando) el nmero de tems, incluso aunque la correlacin entre ellos permaneciera incambiada. Debe decirse que en relacin con la interpretacin de este coeficiente hay bastante confusin. Por ejemplo, no es infrecuente hallar textos que afirman que el valor de C vara entre 0 y 1 (vase por ejemplo, Santos11). Sin embargo, esto es falso. Este indicador puede alcanzar valores negativos de alfa si los tems no estn positivamente correlacionados entre s. De hecho, puede probarse que C no solo puede ser negativo sino que puede alcanzar cualquier valor inferior a cero (es decir, no est acotado inferiormente). La conveniencia de tener C elevado es a veces discutible, ya que una alta asociacin tras la maniobra de recalcularlo eliminando un tem reflejara algn grado de redundancia en la informacin que se registra; consecuentemente, es lgico aspirar a que los componentes de la VS recorran dimensiones que estn en buena medida mutuamente incorrelacionadas. Es por ello que se suele plantear que, si alfa es demasiado alto, ello pudiera estar sugiriendo un elevado nivel de redundancia entre los tems. Por tanto, desde el punto de vista prctico, si bien es atractivo que el coeficiente alfa sea alto (por ejemplo, superior a 0,7), sera deseable que ello no ocurra en demasa (no superar el valor 0,9). Esto es evidente, ya que si todos los tems miden exactamente lo mismo, entonces C=1. En cualquier caso, es obvio que el empleo de este indicador puede ser polmico; el usuario de este recurso debe examinar por s mismo su problema y decidir qu uso har de l y qu conclusiones sacar de los resultados. Ejemplos Considrese el siguiente ejemplo. Supngase que se quiere medir el grado en que un inmigrante se ha adaptado a su nuevo medio. Supngase que se consideran 5 dimensiones (tems) las cuales se considera que se asocian al grado de adaptacin y que todas ellas pueden tomar valores del 1 al 5. Las preguntas (tems) que se consideran son: A: grado en que maneja el idioma del pas de acogida B: nivel de satisfaccin que tiene con el trabajo que realiza C: inters que muestra por regresar definitivamente a su pas de origen D: acceso a los servicios de salud en el pas de acogida E: grado en que ha conseguido legalizar su situacin Supngase, finalmente, que las cinco preguntas se miden mediante una escala ordinal del modo siguiente: 1-Nulo 2-Escaso 3-Adecuado 4-Muy bueno

17

5-Excelente Supngase que se ha aplicado este cuestionario a diez individuos y que los resultados son los siguientes: Sujeto tem A tem B tem C tem D tem E 1 3 4 5 1 4 2 3 2 5 1 3 3 4 4 4 4 4 4 4 5 4 1 2 5 2 4 5 5 5 6 5 4 5 1 4 7 4 4 5 4 4 8 4 4 4 1 4 9 5 5 1 1 2 10 1 1 1 1 2 Los datos de esta tabla se encuentran en el archivo CUESTIONARIO.XLS, incluido en Epidat 3.1. Al hacer el clculo con Epidat se obtienen los siguientes resultados:
Alpha de Cronbach Archivo de trabajo: C:\Archivos de programa \ Epidat 3.1 \Ejemplos\ Concordancia y consistencia \CUESTIONARIO.xls Campos que contienen las clasificaciones por categoras: ITEM-A ITEM-B ITEM-C ITEM-D ITEM-E Nmero de items: Nmero de observaciones: Alpha de Cronbach: Item eliminado -------------1 2 3 4 5 Alpha de Cronbach ----------------0,6901 0,5947 0,5584 0,6596 0,5274 5 10 0,6616

Una interpretacin tpica sera, en principio, que el tem A podra (o debera) ser eliminado del cuestionario, ya que su supresin incrementa la fiabilidad interna de la VS. Si un tem tuviera para todos los sujetos un valor constante, el valor de C se reducira. Por ejemplo, si el tem E pasara a valer 4 para todos los sujetos, el valor que se obtendra pasara a ser C = 0,4944. Es obvio que un tem ininformativo como ste debera eliminarse. Notar que, sin l, el valor que se obtena era superior. A modo de curiosidad, obsrvese en el siguiente ejemplo que el valor del coeficiente puede ser negativo y, adems, enorme.

18

Sujeto tem A tem B tem C tem D tem E 1 3 3 5 1 4 2 3 3 5 1 3 3 4 2 4 2 4 4 4 2 4 2 2 5 2 4 5 1 5 6 5 1 5 1 4 7 4 2 5 1 4 8 4 2 4 2 4 9 5 1 1 5 2 10 1 5 1 5 2 En tal situacin se tendra nada menos que C = -8,9904

Manejo del submdulo de consistencia: Alfa de Cronbach


Este submdulo permite calcular el valor del coeficiente alfa de Cronbach para un conjunto de tems. Tambin presenta el valor obtenido al eliminar, sucesivamente, cada uno de los tems, excepto en el caso de que se tengan solamente dos items. Si opta por la opcin automtica, se abre una pantalla para seleccionar el directorio y el archivo (Dbase, Excel o Access) que contiene la tabla de valores. Es necesario recordar que Epidat 3.1 requiere que las tablas que han de importarse tengan una estructura determinada; en este caso, cada columna de la tabla contiene los valores individuales de un tem. Si el valor de un tem para un determinado sujeto es desconocido, debe indicarse al programa que se trata de un valor perdido, pues debe tenerse en cuenta en el clculo del coeficiente alfa de Cronbach. La forma de identificar los valores perdidos es asignarle a todos un valor numrico que no coincida con ninguno de los valores que toman los tems. Por defecto, Epidat 3.1 identifica los valores perdidos con un 9.

Bibliografa 1. Silva LC. Cultura estadstica e investigaciones en el campo de la salud: una mirada crtica. Madrid:
Daz de Santos; 1997.

2. Dowell I, Newell C. Measuring Health. New York: Oxford University Press; 1987. 3. Cronbach L, Meehl P. Construct validity in psychological test. Psychol Bull 1955; 52: 281-302. 4. Apgar V. Proposal for method of evaluation of newborn infant. Anesthesiology and Analgesics
1953; 32: 260-7.

5. Cronbach LJ. Coefficient alpha and the internal structure of tests. Psychometrika 1951; 16:
297-334.

6. Gardner PL. Measuring attitudes to science: Unidimensionality and internal consistency


revisited. Research in Science Education 1995; 25: 283-9.

19

7. Gardner PL. The dimensionality of attitude scales: A widely misunderstood idea. International Journal of Science Education 1996; 18: 913-9.

8. Cortina JM. What is Coefficient Alpha? An examination of theory and applications. J Appl
Psychol 1993; 78: 98-104. 9. Rubin HR. Psychometrics or psycho metrics? Alpha abuse. 2002. 10. Streiner DL, Norman GR. Health measurement scales: a practical guide to their development and use. New York : Oxford University Press; 1989.

11. Santos JR. Cronbach's Alpha: A Tool for Assessing the Reliability of Scales. Journal of
Extension 1999; 37(2). Disponible en: http://joe.org/joe/1999april/tt3.html.

20

Das könnte Ihnen auch gefallen