Sie sind auf Seite 1von 4

Artículo de Educación

Pruebas de Significación Estadística


TESTS OF STATISTICAL SIGNIFICANCE

MD Mauricio Salinas
MD, MPH (c) Director Unidad de Epidemiología y Estadística
Fundación Científica y Tecnológica ACHS.

RESUMEN ABSTRACT
Se ha interrumpido la serie sobre regresión para introducir el tema de The series on regression has been discontinued to introduce the sub-
pruebas de significación estadística, antes de ver su aplicación especí- ject of tests of statistical significance, before seeing its specific appli-
fica a modelos de regresión. El fundamento y los conceptos más impor- cation to regression models. This article presents the basis and the
tantes para entender y aplicar pruebas de significación y del valor-p se most important concepts to understand and apply tests of signifi-
presenta en este artículo. Se explica en qué consisten los errores tipo I cance and of p-value. An explanation is given on type I and II errors.
y II. Se utiliza un ejemplo sencillo para explicar los conceptos. Se colo- A simple example is used to explain the concepts. Emphasis is put
ca énfasis en cuál es el lugar de las pruebas de significación y cómo se on which is the place of significance tests and how they are misused
mal utilizan en la actualidad. at present.

(Salinas M. 2007. Pruebas de significación estadística. Cienc Trab. oct- Descriptors: REGRESSION ANALYSIS; DATA INTERPRETATION, STA-
dic; 9(26):200:203). TISTICAL; SAMPLING, STUDIES.

Descriptores: ANÁLISIS DE REGRESIÓN; INTERPRETACIÓN ESTADÍS-


TICA DE DATOS; MUESTREO

INTRODUCCIÓN MARCO TEÓRICO


En el marco de la serie de artículos sobre Modelos de Regresión Para entender los fundamentos de las pruebas de significación, se
y Correlación, se publicará un artículo sobre pruebas de signifi- debe tener claro ciertos conceptos.
cación estadística. Sin embargo, se ha considerado más apro- Las pruebas de significación estadísticas surgen de la premisa que
piado publicar algunos artículos sobre este tópico, para poste- existe un universo, donde se encuentran todas las observaciones
riormente abordar de mejor manera su aplicación específica al existentes de un fenómeno, del cual se pueden tomar infinitas
caso de la regresión. muestras aleatorias, que representan a ese universo. Las muestras
Las pruebas de significación estadística son herramientas amplia- aleatorias son las más representativas del universo; las muestras
mente utilizadas hoy en el ámbito de las ciencias biológicas y no aleatorias generalmente no son representativas, por la
médicas como argumento para demostrar que una relación existe presencia de sesgos en la selección de los individuos (Polit y
o no existe. En muchas ocasiones se pasan por alto elementos Hungler 2000).
mucho más relevantes del análisis de los datos que el resultado Los valores que existen en el universo (promedio, desviación
del valor p (p value) y sólo se centra la discusión en el resultado estándar, etc.) se denominan Parámetros; habitualmente se
de esta prueba. desconocen y se representan por letras mayúsculas. Los valores
En este artículo se revisa el fundamento e interpretación de las que se obtienen en las muestras aleatorias y pretenden estimar al
pruebas de significación estadística en general y su interpreta- parámetro respectivo se denominan Estimadores y se representan
ción. con letras minúsculas (Taucher 1997).
Cuando se analizan los resultados encontrados en la muestra
obtenida, habitualmente se desea realizar una prueba de signifi-
cación estadística, para ver si lo que se observa en la muestra
representa al universo y con qué margen de error lo hace. Es
decir, se está cuantificando con qué probabilidad lo encontrado
en la muestra se debe al azar o el fenómeno que se encuentra en
la muestra es real, entendiendo que lo real es lo que ocurre en el
Correspondencia / Correspondence
universo. El hecho de que un fenómeno visto en la muestra alea-
Mauricio Salinas F.
Fundación Científica y Tecnológica ACHS toria no sea real se explica porque el muestreo aleatorio es
Vicuña Mackenna 210 piso 6, Providencia, Santiago susceptible de errores dados por el azar. Imagine que se toman 10
Tel.: (56-2) 685 38 84 muestras aleatorias de trabajadores chilenos y se calcula la edad
e-mail: msalinasf@achs.cl promedio para cada una de las muestras; con seguridad las
Recibido: 03 de diciembre de 2007 / Aceptado: 17 de diciembre de 2007 edades promedios serán distintas en todas las muestras, pese a

200 200/203 | www.cienciaytrabajo.cl | AÑO 9 | NÚMERO 26 | OCTUBRE / DICIEMBRE 2007 | Ciencia & Trabajo
Artículo Educación | Pruebas de Significación Estadística

que todas ellas son aleatorias y representan al universo. Este dares sobre el promedio se ubican 1,75 m, eso se representa con
fenómeno está dado por simple azar. la Figura 2D.
Entonces, podemos decir que cuando se aplica una prueba de De tal forma que la curva normal da cuenta de la probabilidad de
significación estadística se está probando con qué seguridad (o encontrar un valor dado de una variable que tiene esta distribu-
inseguridad) el fenómeno que se observa en esta muestra ocurre ción, en una población conocida.
en el universo al cual representa.
Figura 2.
Figura 1. Distribución de probabilidades normal.
Concepto de Universo y Muestra.

Sería mucho mejor, de acuerdo a lo explicado anteriormente,


trabajar siempre con el universo, pero ello generalmente es
difícil. Si se desea estudiar a todos los trabajadores afiliados a la
ACHS (poco más de un millón y medio) que están identificados,
un investigador podría entrevistarlos a todos; sin embargo, es
mucho más barato y rápido tomar una muestra aleatoria de ellos.
En otros casos, no se conoce el universo con certeza y por lo
El universo incluye todos los individuos con la variable en tanto no es posible estudiarlo por completo. Por ejemplo, el
estudio. Las muestras son subconjuntos del universo y pueden ser universo de trabajadores que pueden sufrir mal agudo de
aleatorias o intencionadas (Ver texto). montaña (MAM); obviamente involucra todos los trabajadores en
El otro concepto fundamental a entender es el de distribución de sistema de turno en mineras sobre 3000 m.s.n.m. Sin embargo,
probabilidades. Los fenómenos en la naturaleza de distribuyen de hay trabajadores que tienen MAM con alturas menores; hay
manera probabilística y eso permite estimar la posibilidad de trabajadores que viajan una vez al mes o menos; hay especia-
error (Polit y Hungler 2000). Existen distintas distribuciones de listas a honorarios o extranjeros que podrían estar subiendo
probabilidades en estadística, pero la más conocida y utilizada es ocasionalmente, etc.
la distribución normal y por ello utilizaremos ésta para la expli- Por eso en la práctica de la investigación se trabaja con muestras,
cación y ejemplos. que deben ser aleatorias para poder utilizar pruebas de significa-
Existen muchas variables que presentan distribución normal. Por ción en el análisis de estos datos. Muchas veces esto no se cumple
ejemplo, la estatura de los seres humanos. La estatura presenta y se aplican pruebas estadísticas en muestras no aleatorias o
distribución normal si utilizamos los valores absolutos de intencionadas y se pueden cometer errores de interpretación
medida, pero para las curvas normales se llevan estos valores a graves.
medidas estándar de promedio cero y desviación estándar uno.
Esto es para evitar cálculos complejos para cada escala de valores
de cada variable. Los valores de la curva normal estandarizados EL VALOR-p
se encuentran fácilmente en tablas en libros de estadística.
La curva normal tiene en su eje x el valor estandarizado de la Para determinar con qué probabilidad lo observado en la muestra
variable (valor Z) y el área bajo la curva representa la probabi- es real o se debe al azar del muestreo, se puede realizar estima-
lidad asociada a ese valor. Por ejemplo, si el valor cero representa ción de parámetros y/o aplicar una prueba de significación esta-
el promedio, la mitad de la población tendrá valor cero o menor, dística. La estimación de parámetros implica que a partir del
lo cual se muestra gráficamente en la Figura 2B. Nótese que la valor de una medida de la muestra (promedio de la muestra) se
probabilidad de que un individuo tenga valor cero exacto es una estima entre qué valores puede estar el parámetro en el universo
línea imaginaria delgada que une el punto cero con la parte supe- (promedio real). Es otra forma de cuantificar el error de muestreo
rior de la curva, es decir, es muy improbable encontrar a ese indi- (Taucher 1997). La estimación de parámetros no se discutirá en
viduo. esta oportunidad, pero los interesados pueden consultar la biblio-
Si en nuestra población la estatura media de la mujer es 1,60, el grafía.
cero de la Figura 2A, equivaldría a 1,60 m. Podríamos decir que La aplicación de pruebas de significación implica calcular el
el 50% de la población tiene estatura de 1,60 m o menos, lo cual valor-p (o, en inglés, p-value) ampliamente conocido en investi-
se muestra gráficamente en la Figura 2B. Si la estatura ubicada gación.
una desviación estándar por debajo fuera 1,50 m, eso se repre- Para aplicar una prueba de significación se requiere plantear dos
senta gráficamente con la Figura 2C; si dos desviaciones están- hipótesis que corresponden a los posibles resultados de la compa-
ración que se va a desarrollar:

Ciencia & Trabajo | AÑO 9 | NÚMERO 26 | OCTUBRE / DICIEMBRE 2007 | www.cienciaytrabajo.cl | 200/203 201
Artículo Educación | Salinas Mauricio

Hipótesis nula (H0): estimador grupo 1 = estimador grupo 2 Esto significa que la hipótesis alternativa puede plantearse en
Hipótesis alternativa (H1): estimador grupo 1 ≠ estimador grupo 2 tres escenarios: El estimador 1 es mayor que estimador 2 (Figura
3A), estimador 2 es mayor que estimador 1 (Figura 3B); los
En términos prácticos esto significa comparar la media de dos valores son distintos, pero la diferencia podría ir en cualquier
grupos o la proporción de dos grupos. Las pruebas de significa- dirección (Figura 3C). El planteamiento de la hipótesis alternativa
ción se plantean siempre para aceptar o rechazar la hipótesis está definido por el conocimiento previo del problema en estudio.
nula. Generalmente el investigador espera diferencia, pero no puede
Cuando se plantea aplicar una prueba estadística, debe definirse asegurar en qué dirección será y plantea la hipótesis a dos colas
previamente un nivel de significación o nivel alfa. Esto significa teniendo dos regiones de rechazo (Figura 3C).
que arbitrariamente se decide con qué probabilidad de error se Si el valor de la estadística calculada cae en la región de rechazo
rechazará la hipótesis nula. El valor más usado es el de 0,05 y (en la zona de color rojo) se rechaza la hipótesis nula; si el valor
casi todos los que trabajan en investigación, saben que si el valor de la estadística cae en la otra zona de la curva se acepta la hipó-
cae bajo 0,05 la asociación o diferencia encontrada “es significa- tesis nula.
tiva”.
El nivel alfa define una región de rechazo en la curva de distri- Aplicando los conceptos
bución de probabilidades para el problema en estudio. Se funda- Se desea comparar si la estatura de los trabajadores de una
menta en que es improbable que se obtenga un valor en esa mutualidad es distinta a la estatura nacional, utilizando cifras de
región y, por lo tanto, permite el rechazo de la hipótesis nula. Al referencia de un estudio nacional.
mismo tiempo cuantifica la probabilidad de rechazar la hipótesis
nula cuando ésta es verdadera, lo que se denomina error Tipo I Se plantean dos hipótesis:
(Tabla 1) (Polit y Hungler 2000). Hipótesis nula (H0):
El valor 0,05 quiere decir que se ha decidido previamente que se Promedio estatura mutualidad (µ1) = Promedio estatura nacional (µ2)
rechazará la hipótesis nula cuando el valor de probabilidad
asociado a la estadística respectiva sea inferior a 0,05. En Hipótesis alternativa (H1):
términos prácticos esto quiere decir que si repetimos 100 veces el Promedio estatura mutualidad (µ1) ≠ Promedio estatura nacional (µ2)
mismo experimento, se rechazará la hipótesis nula en forma
errónea 5 veces. Se obtiene una muestra aleatoria de 100 individuos para ver la
Concordante con lo anterior, parecería muy apropiado definir un estatura media en un universo de 500 empresas afiliadas a una
valor alfa mucho menor, para disminuir la probabilidad de mutualidad. La estatura media de esta muestra es de 1,70 con una
aceptar una diferencia que no existe en el universo. Se podría desviación estándar de 0,1 m. Se sabe que la media nacional es
definir un alfa de 0,01. Sin embargo, surge el problema inverso: 1,68 con una desviación estándar de 0,05 m, la que se obtuvo de
al aplicar un nivel de significación tan exigente, se puede aceptar un estudio nacional en 5000 varones.
la hipótesis nula, aun cuando existe una diferencia real (en el La estatura de esta muestra parece ser diferente a la estatura
universo). Esto se denomina error Tipo II (Tabla 1). nacional. Calculemos el valor p comparando la estatura de este
grupo con los valores del estudio nacional.
Tabla 1. La hipótesis está planteada y define que la prueba que ocupemos
Posibilidades al aplicar pruebas de significación estadística.
será a dos colas. No es posible tener certeza si la estatura de los
Resultado Prueba Situación real (Universo) trabajadores será mayor o menor que la estatura nacional, así que
estadística (Muestra) Hipótesis Nula Verdadera Hipótesis Nula Falsa se mantendrá ese planteamiento. Se utilizará un nivel de signifi-
Acepto Hipótesis Nula Sin error Error Tipo II cación de 0.05.
Rechazo Hipótesis Nula Error Tipo I Sin error En el caso de este ejemplo se utilizará una estadística t de
Student, por ser bastante conocida y porque su cálculo es
Gráficamente el nivel alfa indica en qué zona de la distribución sencillo. Se asumirá que los dos grupos tienen la misma varianza
normal de probabilidades deberá caer el valor p de la prueba que (uno de los supuestos de la prueba). El cálculo se puede hacer en
se está haciendo para rechazar la hipótesis nula. Esto determina programas de estadística o en http://www.graphpad.com/quick-
que la zona de rechazo pueda tomar tres formas, como se muestra calcs/ttest1.cfm?Format=SD
en la Figura 3 (zonas de rechazo en color rojo). Si se busca el valor t crítico asociado a este valor p a dos colas
para esta muestra, los valores son - 1.96 y + 1.96; es decir, la
Figura 3. región de rechazo está bajo – 1.96 y sobre + 1.96. Si el valor t
Regiones de rechazo para pruebas de significación. calculado está en esos extremos se rechazará la hipótesis nula.
Los valores críticos de la estadística t dependen de los grados de
libertad (g.l.), concepto bastante difícil de definir en el que no se
profundizará. Si desea conocer el valor t para este caso, puede
buscarse en un libro de estadística, descargarlo desde internet
(http://www.uv.es/~meliajl/Docencia/Tablas/TablaT.PDF) o entrar
a la siguiente página web http://www.anu.edu.au/nceph/surfstat/
surfstat-home/tables/t.php donde debe seleccionar la figura con
la prueba a dos colas, valor probability 0.05 y 5098 g.l. y se
entregará el valor en forma inmediata.
El cálculo da un valor t de 3.85, que está en la región de rechazo por
Las zonas de rechazo de hipótesis nula se muestran en color rojo (Ver texto).

202 200/203 | www.cienciaytrabajo.cl | AÑO 9 | NÚMERO 26 | OCTUBRE / DICIEMBRE 2007 | Ciencia & Trabajo
Artículo Educación | Pruebas de Significación Estadística

sobre el valor +1.96. El valor p asociado es 0.0001. Por lo tanto, se rencia encontrada en una muestra se deba al error de muestreo.
rechaza la hipótesis nula y se acepta que existe diferencia entre la Para que sean aplicables la muestra debe ser aleatoria y por lo tanto
estatura de los trabajadores y la población del estudio nacional, en representativa del universo de donde proviene.
base a esta muestra. El que exista diferencia significativa quiere decir El valor-p (p-value) es la probabilidad de que la diferencia encon-
que esta diferencia difícilmente se debe a error en la muestra; no trada se deba a error de muestreo y permite tener una aproximación
implica que la diferencia sea importante o trascendente. De hecho, a la realidad que ocurre en el universo de donde se obtuvo la
existen diferencias estadísticamente significativas que son irrele- muestra. Por lo tanto, el valor p no garantiza que la diferencia
vantes en la práctica, como la de este ejemplo. Que la estatura de los encontrada sea “real” o “absoluta”, sólo dice con qué probabilidad
trabajadores sea dos centímetros más, difícilmente tiene relevancia. de error el investigador lo asume como real.
Es importante que el investigador se dé cuenta que el valor-p es una
herramienta útil, pero que en ocasiones hay datos que resultan
CONCLUSIONES mucho más importantes que la significación estadística. En otras
ocasiones hay diferencias estadísticamente significativas, que en
Las pruebas de significación estadística son herramientas que términos prácticos son irrelevantes.
permiten cuantificar la probabilidad de que una asociación o dife-

REFERENCIAS
Polit D, Hungler B (ed.). 2000. Estadística inferencial. En: Investigación científica
en ciencias de la salud: principios y métodos. 6ª ed. México: Mc Graw Hill. p.
485 – 520.
Taucher E. 1997. Bioestadística. Santiago: Editorial Universitaria.

Ciencia & Trabajo | AÑO 9 | NÚMERO 26 | OCTUBRE / DICIEMBRE 2007 | www.cienciaytrabajo.cl | 200/203 203